[Python Data Analysis]선형 회귀분석을 통해 'BMI지수'에 영향을 주는 요소 알아보기

Python/Small Project

[Python Data Analysis]선형 회귀분석을 통해 'BMI지수'에 영향을 주는 요소 알아보기

sohyunkimmm 2023. 1. 16. 21:28

728x90

1) 필요 패키지 불러오기

- pandas, train_test_split(데이터 분할)

2) 데이터 불러오고 결측값 제거

- dropna()는 전체 데이터에 적용하기 (X, Y 따로따로 했다가 행 수가 안맞아서 error가 계속 났다..)

- isnull.sum(): 결측값 제거 확인하기

결측값 제거 후- dropna(), 제대로 제거 되었는지 확인- isnull().sum()

3) 데이터 분할, 통계기반 변수선택

x에 y값(bmi지수)과 키, 몸무게(bmi지수에 포함된 요소)를 제외한(drop) 모든 변수를 넣었다

4) Y에 로그 적용

5) 데이터 분할, 데이터 표준화

- 변수선택에서 연속형 데이터를 가진 변수만 도출되었기 때문에, StandardScaler()적용

6) 선형 회귀분석

- LinearRegression()

- R2 = 0.843 (모델이 평균의 84%정도의 정확도로 설명하고 있다. )

- RMSE= 0.014 (실제값과 예측된 y의 오차가 0.014이다. )

7) 실제값과 예측값 시각화하여 비교

728x90

'Python > Small Project' 카테고리의 다른 글

[Python]Galaxy Z Flip·Fold5 소비자 반응 수집(네이버 데이터랩, 빅카인즈 기사, 유튜브 댓글 크롤링&시각화) (1)	2023.08.15
[Python] 'RFM 분석'을 통해 VIP 고객 선정하기 (1)	2023.03.31
[Python]LG그램&뉴진스 YouTube M/V 댓글 크롤링 후 텍스트 마이닝 시각화 해보기 (10)	2023.01.31
[Python ML]KOSIS 통계자료를 활용하여 5가지 모델 성능 비교해보기 (0)	2023.01.24

현재글[Python Data Analysis]선형 회귀분석을 통해 'BMI지수'에 영향을 주는 요소 알아보기

소소한 빅데이터 마케팅

파이썬, R을 통한 빅데이터 분석 Github @SohyunKimmm 7imsohyun@gmail.com

Ubion, Marketing, 파이썬기초, 마케팅 뉴스, Marketing News, bigdatamarketing, 마케팅 인사이트, data, 빅데이터분석, 머신러닝, 마케팅, 빅데이터마케팅, dataanalysis, 삼성전자, 유비온, Python, 데이터분석, BigData, Marketing Insight, 파이썬,

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

소소한 빅데이터 마케팅