Python 29

[Python]Galaxy Z Flip·Fold5 소비자 반응 수집(네이버 데이터랩, 빅카인즈 기사, 유튜브 댓글 크롤링&시각화)

* 삼성전자, Z플립·폴드5 출시 - 갤럭시Z 플립·폴드5 국내 사전판매 100만대 돌파 (23.08.08 기준) ⇒ 국내 폴더블폰 사전판매 역사상 최고 기록 ⇒ 플립·폴드4 사전판매: 97만대 / S23 사전판매: 109만대 / 갤럭시노트10 사전판매: 138만대(최다 사전판매 기록) - 국내 사전판매 비중, 플립5:폴드5 = 7:3 - 20~30대의 큰 호응: 2030이 전체 고객의 약 62% 차지 - 색상 선호도 : 플립5 = 민트, 크림 / 폴드5 = 아이스 블루 - 플립5: 2030 여성 / 폴드5: 3040 남성에게 인기 - K-Culture와 연계한 다양한 폴더블 마케팅 진행 - 코엑스 K-POP 스퀘어에 한국의 문화와 폴더블의 혁신성을 결합한 3D 크리에이티브 콘텐츠 공개 - 한국의 '병풍..

[Python] 'RFM 분석'을 통해 VIP 고객 선정하기

* 'RFM 분석'이란? - 온라인 리테일에서 고객 군집을 고객의 Recency구매 최근성, Frequency구매 빈도, Monetary구매 금액을 기준으로 나누고 각군집이 어떻게 유지되고 변화하는지에 따라서 현재 비즈니스 상태를 파악하고 문제가 있다면 어떻게 대응해야 할지를 판단하는데 쓰는 방법 - RFM은 고객에게 R, F, M 각각의 점수를 부여하고 그 다음에 점수들을 다시 몇개의 그룹으로 묶은 뒤에 세분화된 고객 그룹을 관리함 * 전체 분석과정 1. 전체 데이터 확인 먼저 가지고있는 'ashopping' 파일을 구글 드라이브에서 마운트 해오고 전체 데이터의 분포를 확인해보았다. 2. RFM 분포 확인 해당 데이터에서는 Recency, Frequency, Monetary 점수가 1~7까지의 범위로 ..

[Python]LG그램&뉴진스 YouTube M/V 댓글 크롤링 후 텍스트 마이닝 시각화 해보기

* LG그램 & 뉴진스 - 최근 LG전자가 뉴진스와 협업해서 출시하는 한정판 노트북 'LG그램 스타일'이 큰 이목을 이끌었다. - 유튜브에 '아름다워'라는 곡으로 공식 뮤비가 올라온지 5일이 지난 현재(01/31), 조회수는 약 190만회를 기록했다. - 댓글들을 전체적으로 살펴보면 LG의 이번 콜라보에 대한 호의적인 반응이 주였는데, 모든 댓글을 파이썬으로 크롤링해서 수집한 뒤 가장 많이 등장한 단어들을 한눈에 보면 소비자 반응을 더 직관적으로 볼 수 있지 않을까 생각해보았다. - 그럼 미니 프로젝트 시작! * official M/V https://www.youtube.com/watch?v=CjylrN6SrUU 1. 네이버 데이터랩 검색량 확인 - 프로젝트를 본격적으로 시작하기에 앞서, 네이버 데이터랩..

[Python ML]텍스트 마이닝 시각화(Text Mining_konlpy, word cloud)

* 텍스트 마이닝 Text Mining : 비/반정형 텍스트 데이터에서 자연어 처리(Natural Language Processing) 기술에 기반하여 유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술 1. konlpy설치 2. 데이터 불러오기 - 문서 수집(Crawling): 뉴스 스크랩한 내용을 txt파일로 구글 드라이브에 업로드해서 불러옴 3. konlpy를 통해 한글 형태소 분석 - okt.pos(): 기사 안의 모든 단어의 품사를 붙여주는 함수 - n_adj 리스트에 명사(Noun), 형용사(Adjective) 단어만 추가시킴 4. stop words 설정 - 위에서 나온 단어들 중 의미가 없는 단어들 n_adj 리스트에서 제거 5. 단어별 빈도수 출력 6. 빈도수 시각화(Word Clou..

[Python]네이버 데이터랩 api 사용해보기

* Naver Developers 사이트 https://developers.naver.com/main/ NAVER Developers 네이버 오픈 API들을 활용해 개발자들이 다양한 애플리케이션을 개발할 수 있도록 API 가이드와 SDK를 제공합니다. 제공중인 오픈 API에는 네이버 로그인, 검색, 단축URL, 캡차를 비롯 기계번역, 음 developers.naver.com 1. API 신청 - Naver Developers 홈페이지 - Application - 애플리케이션 등록 - 이름은 임의로 정하고, 사용 API는 데이터랩(검색어트랜드)와 데이터랩(쇼핑인사이트) 두가지를 설정했다 - 환경은 WEB설정으로, URL은 http://localhost로 설정! - 내 애플리케이션에 'sohyun1'이 생긴..

[Python DL]그래디언트 부스팅(Gradient Boosting)_Classifier, Regressor

* 그래디언트 부스팅(Gradient Boosting) - 앙상블에서 대표적인 부스팅 방식 (부스팅? 모형을 하나 뽑고 잘못한것을 학습해서 다음 모델로 넘긴다 -> '순차적인 직렬구조') - 이전 학습의 결과에서 나온 오차를 다음 학습에 전달해 이전의 오차(잔여 오차)를 점진적으로 개선하는 기법 - '회귀'(Regressor), '분류'(Classifier)모형 모두 사용 가능 - 매게변수 설정에 민감하지만, 잘 조정하면 더 높은 정확도를 보여줌 - 그래디언트 부스팅의 중요 매게변수: 'learning_rate' (높을수록 트리의 오차 보정을 강하게 함, 복잡한 모델 생성 / 너무 높으면 Overfitting 위험) - 종류: XGBoost, LightGbm, CatBoost * Gradient Boos..

[Python DL]랜덤포레스트(Random Forest)_Classifier, Regressor

* Decision Tree 포스팅 https://soso-bigdatamarketing.tistory.com/21 [Python ML]K-최근접이웃(K-NN), 의사결정나무(Decision Tree) * K-최근접 이웃(K-NN; K-Nearest Neighbor) - 가장 근접하게 있는 데이터 종류에 따라서 해당 데이터의 종류를 정해주는 알고리즘 (유유상종) - 판별하고 싶은 데이터와 인접한 k개의 데이터를 찾아, 해 soso-bigdatamarketing.tistory.com * 랜덤 포레스트 - 앙상블에서 대표적인 배깅 방식 - 수많은 의사결정 나무(Decision Tree)가 모여서 생성됨 - 전체 feature 중 랜덤으로 일부 feature만 선택해 하나의 결정 트리를 만들고, 또 전체 fe..

[Python DL]앙상블(Ensemble)-보팅, 배깅, 부스팅 & VotingClassifier, VotingRegressor

* 앙상블(Ensemble) - 주어진 자료로부터 여러개의 예측 모델들을 만든 후 예측 모형들을 조합하여 하나의 최종 예측 모형을 만드는 방법 - 다중 모델 조합, 분류기 조합 - 종류: 배깅, 부스팅, 랜덤포레스트, 스태킹 등 1) 보팅(Voting) - 모형을 여러 개 만들어 조합 - 모형 중 성능이 가장 좋은 것을 뽑아서 다시 분석 - 하드 보팅: 다수의 분류기가 예측한 결과값을 최종 결과로 선정 - 소프트 보팅: 모든 분류기가 예측한 레이블 값을 결정 확률 평균을 구한 뒤, 가장 확률이 높은 레이블 값을 최종 결과로 선정 2) 배깅(Bagging) - 데이터 샘플링을 통해 모델을 학습시키고 결과를 집계하는 방법 - 모형을 여러가지 뽑아 평균해서 적절하게 값을 뽑아줌, '병렬구조'를 가짐 - '랜덤..

[Python DL]DNN, CNN, RNN & keras.models.Sequential()

* 딥 러닝(Deep Learning) 1) DNN(Deep Neural Network) - 인공신경망 모델 내 은닉층을 많이 늘려 학습의 결과를 향상시킨 방법 - 은닉층이 2개 이상인 학습 방법 - 컴퓨터가 스스로 분류레이블을 만들어 내고 공간을 왜곡하고 데이터를 구분짓는 과정 반복 - DNN을 응용한 알고리즘: CNN, RNN, LSTM, GRU 2) CNN(합성곱 신경망, Convoluntion Neural Network) - 주로 이미지나 영상 데이터를 처리할 때 사용 - 기존의 방식: 데이터에서 지식을 추출하여 학습 - CNN: 데이터의 특징을 추출하여 특징들의 패턴을 파악하는 구조 - Convolution과정과 Pooling과정을 통해 진행 3) RNN(순환 신경망, Recurrent Neur..

[Python DL]인공신경망(ANN, Artificial Neural Network)_MLPClassifier, MLPRegressor

* 인공지능 vs. 머신러닝 vs. 딥러닝 - 인공지능(Artificial Intelligence): 말 그대로 인공적으로, 컴퓨터를 통해 지적 능력을 구현하는, 좀 더 개념적인 단어를 의미 - 머신러닝(Machine Learning): 컴퓨터가 '학습'을 통해 스스로 그 성능을 향상 시키는 방법론 - 딥러닝(Deep Learning): 인간의 뉴런을 모티브로 한 '인공신경망' 방식을 바탕으로 컴퓨터를 학습시키는 것 * 인공 신경망(Artificial Neural Network) - 인간의 뇌를 기반으로 한 추론 모델 - 신경망은 가중치를 반복적으로 조정하며 학습 - 뉴런은 링크로 연결되어 있고, 각 링크에는 수치적인 가중치가 있음 - 인공 신경망은 신경망의 가중치를 초기화하고 훈련 데이터를 통해 가중치..

728x90
반응형