728x90
1. 데이터 불러오기_encoding
- encoding: 파일 안의 한글 column을 해석하는 방식
- "cp949", "utf-08"을 주로 사용
2. 데이터 분할
- "고객 ID"가 500이하인 행, 500이상인 행으로 데이터 분할해보기
- .head(n) : n개의 갯수만큼 데이터를 보여줌, 숫자를 안넣으면 '처음 5개' 보여줌
3. 데이터 합치기_.append(), .merge()
- .append(): 데이터와 데이터 결합하기
- .merge(): 데이터프레임과 데이터프레임을 합치기
4. 산점도(Scatter)
-두 변수간의 관계를 시각화한 그래프
- 두 변수의 상관관계, 데이터 분포를 파악하는데 유용
- %matplotlib incline
- .plot.scatter(x="", y"", title"") -> x열, y열, 제목 설정
- plt.legend(): 범례
- plt.grid(): 그리드(격자)
- plt.xticks(fontsize = n): x축 폰트사이즈 설정
- plt.show(): 적용해서 보여라
번외) 한글깨짐 보완하기(설치하기)
5. 조건에 따른 평균, 분산, 표준편차 구하기_.groupby()
1) 평균
- .groupby("조건").mean()
2) 분산
- .groupby("조건").var()
3) 표준편차
- .groupby("조건").std()
6. 왜도, 첨도
* 왜도: .skew()
- 치우쳐져 있는 정도
- 양수(+)=우측 / 음수(-): 좌측 치우침
* 첨도: .kurt()
- 뾰족한 정도
- 숫자가 클수록 더 뾰족해짐
728x90
반응형
'Python > Basic Data Analysis' 카테고리의 다른 글
[Python Data Analysis]상관관계 분석(Correlation Analysis) (0) | 2023.01.13 |
---|---|
[Python Data Analysis]가설검정, 독립성/등분산성 검정, 정규화, T-test, ANOVA (0) | 2023.01.11 |
[Python Data Analysis]IQR을 사용하여 이상치 제거하기_Boxplot, Histogram (0) | 2023.01.10 |
[Python Data Analysis]Numpy, Pandas_배열, Series, DataFrame, 결측값 (0) | 2023.01.10 |
[Python Data Analysis]반복문 코드리뷰(while, for) (0) | 2023.01.09 |