BigData 26

[Python Data Analysis]데이터 분할&합치기, 산점도(Scatter), 조건에 따른 평균/분산/표준편차, 왜도&첨도

1. 데이터 불러오기_encoding - encoding: 파일 안의 한글 column을 해석하는 방식 - "cp949", "utf-08"을 주로 사용 2. 데이터 분할 - "고객 ID"가 500이하인 행, 500이상인 행으로 데이터 분할해보기 - .head(n) : n개의 갯수만큼 데이터를 보여줌, 숫자를 안넣으면 '처음 5개' 보여줌 3. 데이터 합치기_.append(), .merge() - .append(): 데이터와 데이터 결합하기 - .merge(): 데이터프레임과 데이터프레임을 합치기 4. 산점도(Scatter) -두 변수간의 관계를 시각화한 그래프 - 두 변수의 상관관계, 데이터 분포를 파악하는데 유용 - %matplotlib incline - .plot.scatter(x="", y"", t..

[Python Data Analysis]IQR을 사용하여 이상치 제거하기_Boxplot, Histogram

* 이상값(Outlier) - 정상적인 범위 밖에 있는 너무 작은 값, 너무 큰 값 - 이상값이 1개라도 있으면 전체 분석에 큰 영향을 주게 됨 * IQR방법 - 사분위범위수(IQR)를 사용하여 이상값을 찾는 방법 - IQR = Q3(제3사분위수) - Q1(제1사분위수) - Q1 - 1.5*IQR 보다 작거나, Q3 + 1.5*IQR보다 큰 경우 이상값으로 판단 1. 데이터파일 불러오기 - .read_csv(""): 파일 불러오기분석에 필요한 csv파일을 구글 드라이브 마운트를 하여 가져오기 2. 이상치 찾기_Boxplot - boxplot(column=, return_type=) - boxplot을 통해 이상치 시각화해보기 3. 이상치 찾기_히스토그램 - .hist() - 히스토그램을 통해 이상치 시각..

[Python Data Analysis]Numpy, Pandas_배열, Series, DataFrame, 결측값

1. Numpy - 고성능의 수치계산을 위해 제작된 라이브러리 - 벡터 및 행렬 연산에 있어서 매우 편리한 기능을 제공 1) Numpy import해오기 - import numpy as np : numpy를 np로 호출 2) np. array(), dtype, np.arrange() - np.array(): 배열 생성 - .dtype: 데이터 타입 확인 - np.arrange(start=, stop=, step=): 첫값, 끝값, 간격을 설정하고 배열 만들기 3)배열의 사칙연산, 인덱싱 4) 배열에서 인덱스 범위만큼 뽑아보기(슬라이싱) 5) 다차원 배열 만들기(차원변경)_reshape() - .reshape(2, 5, 1) : 2개의 행에 5개씩 1개간격으로 배치 - .reshape(-1, 5): -1:..

[Python Data Analysis]반복문 코드리뷰(while, for)

1. 목숨5개에서 0개가 되면 게임 종료 2. 리스트에 이름 추가하기 - input(): 사용자가 값을 직접 입력 - .append(): 리스트에 값을 추가 3. 'quit'입력 시 까지 while문 돌리기 - names 리스트, new_name 변수 만들기 - while new_name != 'quit': -> new_name변수가 'quit'이 아닐시에, while문 반복실행 - new_name = input() -> new_name변수에 사용자가 입력한 값이 들어감 - names.append(new_name) -> names리스트에 new_name추가 4. while문 안의 if-elif문 - while choice != 'q': -> 'q'가 입력될때 까지, while문 실행 ('q'이외의 값이 ..

[Python Data Analysis]파이썬 기초문법(2)_조건문(if), 반복문(while, for), def만들기

1. 조건문(If문) -조건문: True, False값이 나오는 식 - false = 0, true = 1 - true AND false = false(0) - true OR false = true(1) - not 1: true가 아니다 = False - not 0: False가 아니다 = True - in: 안에 해당 값이 있으면 True, 없으면 False - not in: 안에 해당 값이 없으면 True, 있으면 False - If문 형식 If 조건문: 명령 else: 명령 *들여쓰기: tap키 2번 *모든 줄의 들여쓰기가 맞아야함 - 하위 if문 만들기 - if, elif문 형식 if 조건문: 명령 elif 조건문: 명령 else: 명령 - try, except, else: 에러 확인해보기 2. ..

[Python Data Analysis] 파이썬 기초문법(1)_변수, 타입, 인덱스, 리스트, 튜플, 딕셔너리, 세트

1. 변수a 생성, 삭제(del) 2. 변수의 사칙연산 3. 변수의 타입(Type) - int: 정수 - float: 상수 - str: 문자열 4. 제곱, 루트, 몫, 나머지 - 제곱: 3**20 = 3486784401 (3의 20승) - 루트: 3**0.5 = 1.73205.. (루트3) - 몫: 13//4 = 3 (13÷4의 몫) - 나머지: 13%4 = 1 (13÷4의 나머지) 5. 문자열 특징 - 문자열을 " "로 묶었을 때에는 안에 ' 를 써도 출력되지만, ' '로 묶었을 때에 '를 출력하려면 앞에 \ 를 붙여 에러를 막음. - \n : enter키 삽입 - 문자열 합치기: 문자열 + 문자열 - 문자열 n회 반복: 문자열 * n 6. 문자열의 인덱스 & 범위 & 관련함수 - S / o / h /..

728x90
반응형