728x90
* 상관관계 분석
- 근본: 공분산, np.cov(x,y)
- 상관계수 종류
1) 피어슨 상관계수: 연속형 자료에 사용
2) 스피어만 상관계수: 순위가 변수별로 연관이 있는가
3) Kendall의 tau: 스피어만과 비슷하지만 표본이 작을 때 사용
- 편상관관계 분석: 제 3의 변수를 통제한 상태에서 두 변수의 상관관계를 분석하는 것
- 정준상관관계 분석: 2개 이상의 종속변수와 2개 이상의 독립변수 간의 관계를 살펴보는 기법
- 히트맵: 변수간 상관계수를 히트맵으로 한눈에 확인 가능
- 산점도 그래프: 두 변수간의 분포를 통해 상관관계성 혹은 선형성을 확인할 수 있다.
1. 필요한 패키지, 함수 불러오기
2. 데이터 불러오기
3. 피어슨 상관계수
- .corr(method = "pearson")
- 상관관계를 찾을때 결과값 0.7 이상인 값만 찾음
4. 히트맵 그려보기
- colormap = plt.cm.bugn
- plt.figure(figsize = (10, 10))
- plt.title("피어슨 상관계수")
- sns.heatmap(df1.astype(float).corr(), cmap = colormap)
728x90
반응형
'Python > Basic Data Analysis' 카테고리의 다른 글
[Python]네이버 데이터랩 api 사용해보기 (0) | 2023.01.28 |
---|---|
[Python Data Analysis]주성분 분석(Principal Component Analysis), 요인 분석(Factor Analysis)_PCA 코딩 (0) | 2023.01.13 |
[Python Data Analysis]가설검정, 독립성/등분산성 검정, 정규화, T-test, ANOVA (0) | 2023.01.11 |
[Python Data Analysis]데이터 분할&합치기, 산점도(Scatter), 조건에 따른 평균/분산/표준편차, 왜도&첨도 (0) | 2023.01.11 |
[Python Data Analysis]IQR을 사용하여 이상치 제거하기_Boxplot, Histogram (0) | 2023.01.10 |