Python/Basic Data Analysis

[Python Data Analysis]Numpy, Pandas_배열, Series, DataFrame, 결측값

sohyunkimmm 2023. 1. 10. 22:02
728x90

1. Numpy

- 고성능의 수치계산을 위해 제작된 라이브러리

- 벡터 및 행렬 연산에 있어서 매우 편리한 기능을 제공

 

1) Numpy import해오기

- import numpy as np

  : numpy를 np로 호출

import numpy as np; numpy를 np로 호출

 

 

2) np. array(), dtype, np.arrange()

- np.array(): 배열 생성

- .dtype: 데이터 타입 확인

- np.arrange(start=, stop=, step=): 첫값, 끝값, 간격을 설정하고 배열 만들기

np.array(), 데이터타입 확인
np.arrange()

 

 

3)배열의 사칙연산, 인덱싱

배열의 사칙연산
인덱스 값 바꿔보기

 

 

4) 배열에서 인덱스 범위만큼 뽑아보기(슬라이싱)

인덱스 범위만큼 값 출력

 

 

5) 다차원 배열 만들기(차원변경)_reshape()

- .reshape(2, 5, 1) : 2개의 행에 5개씩 1개간격으로 배치

- .reshape(-1, 5): -1: '행 제한없이' 요소들을 5개씩 만들어 붙여줌

.reshape()

 

 

 

2. Pandas

- 데이터 분석을 위한 필수 라이브러리

- 데이터를 쉽게 확인할 수 있는 형태로 불러옴

- 대용량 데이터를 보다 안정적이고 빠르게 처리할 수 있음

- Series와 DataFrame 두가지 형태로 나눌 수 있음

 

1) Pandas import해오기

- import pandas as pd

  : pandas를 pd로 호출

pandas를 pd로 호출

 

 

2) pd.Series(), pd.DataFrame()

- .series(): 1차원 배열의 인덱스와 값으로 구성됨

- .DataFrame(): 시리즈를 표 형태(데이터프레임 형태)로 묶어줌

Series와 DataFrame

 

 

3) .DataFrame에 데이터 넣어보기

- col, val를 직접 설정해서 DataFrame 씌우기

- 딕셔너리를 만들어서 DataFrame 씌우기

- data, column, index 직접 설정해서 DataFrame 씌우기

열과 value 직접 설정
딕셔너리 생성
data, column, index  직접 설정

 

 

4) 평균(mean), 표준편차(std), 통계적 분포(describe)

- .mean() : 데이터프레임 평균 구하기

- .std() : 데이터프레임 표준편차 구하기

- .describe(): 데이터프레임의 통계적 분포 보기

.mean(), .std(): 평균과 표준편차
.describe(): 데이터프레임의 통계적 분포

 

 

5) 데이터프레임 데이터 추출_ .loc, .iloc

- .loc[]: 찾는 값을 직접 입력해서 데이터 찾기

   ex) df_sales.loc["2022"] -> "2022"행의 데이터 값 출력

- .iloc[]: 인덱스를 입력해서 데이터 찾기

   ex) df_sales.iloc[2:4, 0] -> 2~3행, 0열의 데이터값 출력

결측값 설정
.loc()
.iloc()

 

 

6) 결측값 확인, 삭제, 대체_isnull(), dropna(), fillna()

*결측값 확인

- .isnull() : True, False값으로 결측값 확인

- .isnull.sum(): 결측값 갯수 세기

.isnull(), .isnull.sum()

 

*결측값 삭제

- .dropna(axis = 0): 결측값이 있는 없애기

- .drupna(axis = 1): 결측값이 있는 없애기

dropna(axis=0), dropna(axis=1)

 

* 결측값 대체

- .fillna(0): 결측값을 0으로 대체

- .fillna(data.mean()): 결측값을 해당 데이터값의 평균값으로 대체

fillna(0), fillna(.mean())

 

728x90
반응형