티스토리 뷰

 

0226 - 0229 
본격적인 데이터 처리 방법 강의

데이터전처리와 변형

열 이름 변경 : Pandas의 rename() 메서드

새 열 추가 : np.where 함수 사용, 조건에 따라 새로운 열을 추가하는 방법이다.

값 변경 : map() cut() 메서드를 사용, 데이터의 값을 변환하고 범주로 분할하하는 방법이다.

 

데이터 병합과 시계열 분석 

값 병합 : pd.concat, pd.merge 데이터 프레임을 병합한다.

 

시계열 데이터 분석

 

1. shift() : 데이터를 시간축에 따라 이동한다.

df['Previous_Value'] = df['Value'].shift(1)

 

위의 코드블록은 하나씩 이전 값으로 이동시키는 코드이다.

 

2. rolling() : 이동 통계량을 계산하는데 사용된다. 

df['Rolling_Mean'] = df['Value'].rolling(window=5).mean()

 

위의 코드블록은 'Value'열을 5일 간격으로 이동하면서 평균을 계산하여 'Rolling_Mean'열에 저장한다.

 

3. diff() : 이전 값과의 차이를 계산하는 방법을 보여준다. 

데이터 시각화

Histogram

plt.hist(변수명, bins = 구간수)

 

bins를 적절히 조절하기 : 구간의 개수에 따라서 파악할 수 있는 내용이 달라진다. bin의 너비에 따라 모양이 달라진다.

edgecolor를 통해 구간을 구별해준다. 

KDE Plot

면적으로 구간에 대한 확률을 추정한다.

 

SubPlot

여러개의 그래프를 나누어그릴 수 있다.

 

데이터 의미 찾기

가설 검정 : 분포를 알면 결과를 판단 가능하기 때문에 분포와 판단 기준이 필요하다.

 

유의 수준 : 0.05, 0.01

0.05보다 p-value가 작아야한다! 

 

검정통계량

  • t통계량
  • 카이제곱통계량
  • f통계량

 

상관계수

 

-1과 1사이의 값으로 r로 표현한다.

-1과 1에 가까울 수록 강한 상관관계를 나타낸다. 절대값 0.5보다 크면 강한 상관관계를 나타내고 0.1보다 작으면 거의 상관관계가 거의 없다고 판단할 수 있다.

 

spst.pearsonr (피어슨) 상관분석 함수

 

NaN이 있다면 계산되지 않는다.

 


 

1차 미니프로젝트를 앞두고 데이터 전처리와 시각화에 관련된 많은 내용을 배웠다.

프로젝트를 잘 따라가기 위해서 복습을 해야겠다. 

 

 

 

 

 

 

 

 

 

 

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함