Python/Small Project 5

[Python]Galaxy Z Flip·Fold5 소비자 반응 수집(네이버 데이터랩, 빅카인즈 기사, 유튜브 댓글 크롤링&시각화)

* 삼성전자, Z플립·폴드5 출시 - 갤럭시Z 플립·폴드5 국내 사전판매 100만대 돌파 (23.08.08 기준) ⇒ 국내 폴더블폰 사전판매 역사상 최고 기록 ⇒ 플립·폴드4 사전판매: 97만대 / S23 사전판매: 109만대 / 갤럭시노트10 사전판매: 138만대(최다 사전판매 기록) - 국내 사전판매 비중, 플립5:폴드5 = 7:3 - 20~30대의 큰 호응: 2030이 전체 고객의 약 62% 차지 - 색상 선호도 : 플립5 = 민트, 크림 / 폴드5 = 아이스 블루 - 플립5: 2030 여성 / 폴드5: 3040 남성에게 인기 - K-Culture와 연계한 다양한 폴더블 마케팅 진행 - 코엑스 K-POP 스퀘어에 한국의 문화와 폴더블의 혁신성을 결합한 3D 크리에이티브 콘텐츠 공개 - 한국의 '병풍..

[Python] 'RFM 분석'을 통해 VIP 고객 선정하기

* 'RFM 분석'이란? - 온라인 리테일에서 고객 군집을 고객의 Recency구매 최근성, Frequency구매 빈도, Monetary구매 금액을 기준으로 나누고 각군집이 어떻게 유지되고 변화하는지에 따라서 현재 비즈니스 상태를 파악하고 문제가 있다면 어떻게 대응해야 할지를 판단하는데 쓰는 방법 - RFM은 고객에게 R, F, M 각각의 점수를 부여하고 그 다음에 점수들을 다시 몇개의 그룹으로 묶은 뒤에 세분화된 고객 그룹을 관리함 * 전체 분석과정 1. 전체 데이터 확인 먼저 가지고있는 'ashopping' 파일을 구글 드라이브에서 마운트 해오고 전체 데이터의 분포를 확인해보았다. 2. RFM 분포 확인 해당 데이터에서는 Recency, Frequency, Monetary 점수가 1~7까지의 범위로 ..

[Python]LG그램&뉴진스 YouTube M/V 댓글 크롤링 후 텍스트 마이닝 시각화 해보기

* LG그램 & 뉴진스 - 최근 LG전자가 뉴진스와 협업해서 출시하는 한정판 노트북 'LG그램 스타일'이 큰 이목을 이끌었다. - 유튜브에 '아름다워'라는 곡으로 공식 뮤비가 올라온지 5일이 지난 현재(01/31), 조회수는 약 190만회를 기록했다. - 댓글들을 전체적으로 살펴보면 LG의 이번 콜라보에 대한 호의적인 반응이 주였는데, 모든 댓글을 파이썬으로 크롤링해서 수집한 뒤 가장 많이 등장한 단어들을 한눈에 보면 소비자 반응을 더 직관적으로 볼 수 있지 않을까 생각해보았다. - 그럼 미니 프로젝트 시작! * official M/V https://www.youtube.com/watch?v=CjylrN6SrUU 1. 네이버 데이터랩 검색량 확인 - 프로젝트를 본격적으로 시작하기에 앞서, 네이버 데이터랩..

[Python ML]KOSIS 통계자료를 활용하여 5가지 모델 성능 비교해보기

* KOSIS 국가통계포털 (사이트 소개글) 국가통계포털(KOSIS, Korean Statistical Information Service)은 국내·국제·북한의 주요 통계를 한 곳에 모아 이용자가 원하는 통계를 한 번에 찾을 수 있도록 통계청이 제공하는 One-Stop 통계 서비스입니다. 현재 300여 개 기관이 작성하는 경제·사회·환경에 관한 1,000여 종의 국가승인통계를 수록하고 있으며, 국제금융·경제에 관한 IMF, Worldbank, OECD 등의 최신 통계도 제공하고 있습니다. 쉽고 편리한 검색기능, 일반인들도 쉽게 이해할 수 있는 다양한 콘텐츠 및 통계설명자료 서비스를 통해 이용자가 원하는 통계자료를 쉽고 빠르고 정확하게 찾아보실 수 있습니다. 사이트: https://kosis.kr/inde..

[Python Data Analysis]선형 회귀분석을 통해 'BMI지수'에 영향을 주는 요소 알아보기

1) 필요 패키지 불러오기 - pandas, train_test_split(데이터 분할) 2) 데이터 불러오고 결측값 제거 - dropna()는 전체 데이터에 적용하기 (X, Y 따로따로 했다가 행 수가 안맞아서 error가 계속 났다..) - isnull.sum(): 결측값 제거 확인하기 3) 데이터 분할, 통계기반 변수선택 4) Y에 로그 적용 5) 데이터 분할, 데이터 표준화 - 변수선택에서 연속형 데이터를 가진 변수만 도출되었기 때문에, StandardScaler()적용 6) 선형 회귀분석 - LinearRegression() - R2 = 0.843 (모델이 평균의 84%정도의 정확도로 설명하고 있다. ) - RMSE= 0.014 (실제값과 예측된 y의 오차가 0.014이다. ) 7) 실제값과 예..

728x90
반응형