Python/Basic Data Analysis

[Python Data Analysis]데이터 분할&합치기, 산점도(Scatter), 조건에 따른 평균/분산/표준편차, 왜도&첨도

sohyunkimmm 2023. 1. 11. 21:27
728x90

1. 데이터 불러오기_encoding

- encoding: 파일 안의 한글 column을 해석하는 방식

- "cp949", "utf-08"을 주로 사용

한글데이터 불러올 때, encoding설정

 

 

2. 데이터 분할

- "고객 ID"가 500이하인 행, 500이상인 행으로 데이터 분할해보기

데이터 분할
["고객ID"] <= 500
["고객ID"] > 500

 

- .head(n) : n개의 갯수만큼 데이터를 보여줌, 숫자를 안넣으면 '처음 5개' 보여줌

.head()

 

 

3. 데이터 합치기_.append(), .merge()

- .append(): 데이터와 데이터 결합하기

.append()

 

- .merge(): 데이터프레임과 데이터프레임을 합치기

x, y로 분리 후 데이터프레임씌우기
y.merge(x)

 

 

4. 산점도(Scatter)

-두 변수간의 관계를 시각화한 그래프

- 두 변수의 상관관계, 데이터 분포를 파악하는데 유용

 

- %matplotlib incline

- .plot.scatter(x="", y"", title"") -> x열, y열, 제목 설정

- plt.legend(): 범례

- plt.grid(): 그리드(격자)

- plt.xticks(fontsize = n): x축 폰트사이즈 설정

- plt.show(): 적용해서 보여라

산점도(Scatter) 함수들
방문빈도(x)와 총매출액(y)의 관계 산점도

 

번외) 한글깨짐 보완하기(설치하기)

한글설치 패키지
'나눔바름고딕'체 가져오기

 

 

5. 조건에 따른 평균, 분산, 표준편차 구하기_.groupby()

1) 평균

- .groupby("조건").mean()

성별 별 평균

 

2) 분산

- .groupby("조건").var()

성별 별 분산

 

3) 표준편차

- .groupby("조건").std()

성별 별 표준편차

 

 

6. 왜도, 첨도

* 왜도: .skew()

- 치우쳐져 있는 정도

- 양수(+)=우측 / 음수(-): 좌측 치우침

* 첨도: .kurt()

- 뾰족한 정도

- 숫자가 클수록 더 뾰족해짐

 

.skew(), .kurt()

 

728x90
반응형