티스토리 뷰
0226 - 0229
본격적인 데이터 처리 방법 강의
데이터전처리와 변형
열 이름 변경 : Pandas의 rename() 메서드
새 열 추가 : np.where 함수 사용, 조건에 따라 새로운 열을 추가하는 방법이다.
값 변경 : map() 및 cut() 메서드를 사용, 데이터의 값을 변환하고 범주로 분할하하는 방법이다.
데이터 병합과 시계열 분석
값 병합 : pd.concat, pd.merge 데이터 프레임을 병합한다.
시계열 데이터 분석
1. shift() : 데이터를 시간축에 따라 이동한다.
df['Previous_Value'] = df['Value'].shift(1)
위의 코드블록은 하나씩 이전 값으로 이동시키는 코드이다.
2. rolling() : 이동 통계량을 계산하는데 사용된다.
df['Rolling_Mean'] = df['Value'].rolling(window=5).mean()
위의 코드블록은 'Value'열을 5일 간격으로 이동하면서 평균을 계산하여 'Rolling_Mean'열에 저장한다.
3. diff() : 이전 값과의 차이를 계산하는 방법을 보여준다.
데이터 시각화
Histogram
plt.hist(변수명, bins = 구간수)
bins를 적절히 조절하기 : 구간의 개수에 따라서 파악할 수 있는 내용이 달라진다. bin의 너비에 따라 모양이 달라진다.
edgecolor를 통해 구간을 구별해준다.
KDE Plot
면적으로 구간에 대한 확률을 추정한다.
SubPlot
여러개의 그래프를 나누어그릴 수 있다.
데이터 의미 찾기
가설 검정 : 분포를 알면 결과를 판단 가능하기 때문에 분포와 판단 기준이 필요하다.
유의 수준 : 0.05, 0.01
0.05보다 p-value가 작아야한다!
검정통계량
- t통계량
- 카이제곱통계량
- f통계량
상관계수
-1과 1사이의 값으로 r로 표현한다.
-1과 1에 가까울 수록 강한 상관관계를 나타낸다. 절대값 0.5보다 크면 강한 상관관계를 나타내고 0.1보다 작으면 거의 상관관계가 거의 없다고 판단할 수 있다.
spst.pearsonr (피어슨) 상관분석 함수
NaN이 있다면 계산되지 않는다.
1차 미니프로젝트를 앞두고 데이터 전처리와 시각화에 관련된 많은 내용을 배웠다.
프로젝트를 잘 따라가기 위해서 복습을 해야겠다.
'KT에이블스쿨' 카테고리의 다른 글
[KT AIVLE] 웹 크롤링 (0) | 2024.04.15 |
---|---|
[KT AIVLE] 머신러닝 기초 이론 (2) | 2024.03.30 |
[KT AIVLE] 1차 미니프로젝트 (0) | 2024.03.26 |
[KT AIVLE] Python 프로그래밍 & 라이브러리 (0) | 2024.03.25 |
[KT AIVLE] KT에이블스쿨 5기 AI 개발자 트랙 합격 후기 (0) | 2024.03.25 |