[Python] 파이썬_Kaggle 이상거래 데이터 분석 프로젝트(3)
·
Python/데이터 분석 프로젝트
데이터 분석을 위한 Python ✔️ 홀드 아웃(Hold Out)✔️ 머신러닝 모델 적용과 결과 해석✔️ 모델 정확도 및 인사이트 이전 포스팅 참고하여 이어서 분석 진행 [Python] 파이썬_Kaggle 이상거래 데이터 분석 프로젝트(2)데이터 분석을 위한 Python ✔️ EDA(탐색적 데이터 분석)✔️ Feature Engineering(피처 엔지니어링) ✔️ EDA(탐색적 데이터 분석) EDA(탐색적 데이터 분석)이전 포스팅을 참고하여 이어서 분석 진행 [Pythoeveryonelove.tistory.com ✔️ 홀드 아웃(Hold Out)홀드 아웃 : 전체 데이터셋을 학습용, 검증용, 최종 평가용으로 분할하려 모델 성능 평가 기법X : y(종속변수)를 제외한 나머지 변수 -> 입력 변수..
[Python] 파이썬_Kaggle 이상거래 데이터 분석 프로젝트(2)
·
Python/데이터 분석 프로젝트
데이터 분석을 위한 Python ✔️ EDA(탐색적 데이터 분석)✔️ Feature Engineering(피처 엔지니어링) ✔️ EDA(탐색적 데이터 분석) EDA(탐색적 데이터 분석)이전 포스팅을 참고하여 이어서 분석 진행 [Python] 파이썬_Kaggle 이상거래 데이터 분석 프로젝트(1)데이터 분석을 위한 Python ✔️ Kaggle 설명 및 활용 데이터 확인✔️ 데이터 불러오기✔️ 결측치 / 중복값 / 이상치 처리 ✔️ Kaggle 설명 및 활용 데이터 확인 Kaggle(캐글)Kaggle(캐글)전세계 데이터everyonelove.tistory.com 종속변수(is_fraud) 분포 확인 및 클래스 불균형 확인# 종속변수(is_fraud)의 데이터 비율 확인print(data[..
[Python] 파이썬_Kaggle 이상거래 데이터 분석 프로젝트(1)
·
Python/데이터 분석 프로젝트
데이터 분석을 위한 Python ✔️ Kaggle 설명 및 활용 데이터 확인✔️ 데이터 불러오기✔️ 결측치 / 중복값 / 이상치 처리 ✔️ Kaggle 설명 및 활용 데이터 확인 Kaggle(캐글)Kaggle(캐글)전세계 데이터 분석가 및 머신러닝 연구자들이 참여하는 데이터 경진 플랫폼기업 혹은 단체가 제공하는 데이터를 기반으로 문제 제시 및 참가자들이 해결하는 방식으로 참여 가능FraudSynth200만건의 신용카드 거래 데이터를 포함한 합성 사기 탐지용 데이터셋라이센스 : MIT License (© 2013 Mark Otto, © 2017 Andrew Fong) FraudSynth: Credit Fraud Detection DatasetFraudSynth: Credit Fraud Detec..
[Python] 파이썬_타이타닉 데이터셋 EDA(Feature Engineering) 및 모델 적용하여 성능 확인
·
Python/데이터 분석을 위한 Python
데이터 분석을 위한 Python ✔️ Feature Engineering(특징 공학)✔️ 모델에 적용하여 모델 성능 확인 ✔️ Feature Engineering(특징 공학) Feature Engineering불필요한 변수 삭제분석/예측에 사용되지 않거나 중복된 컬럼 제거필요한 변수만 선택종속 변수에 유의미한 연관이 있는 변수 선택새로운 변수 생성(파생변수)기존의 변수를 합치거나 필요한 부분만 추출하여 새로운 변수로 생성(도메인 지식이나 통계를 기반으로 생성)범주형 데이터를 수치형 데이터로 인코딩 label encoding : 범주 간 순서(ordinal) 정보가 있는 경우 범주형 데이터 값을 정수로 매핑(mapping)하는 방식one-hot encoding : 범주 간 순서가 없는 경우 각..
[Python] 파이썬_타이타닉 데이터셋 EDA(연관 있는 컬럼과 생존율 관계 파악)
·
Python/데이터 분석을 위한 Python
데이터 분석을 위한 Python ✔️ 종속변수에 영향을 주는 컬럼 확인✔️연관 있는 컬럼과 생존율 관계 파악 ✔️ 종속변수에 영향을 주는 컬럼 확인 각 컬럼별 생존율(Survived) 확인# 각 컬럼별 생존율 확인# 의미 있는 영향을 주는 컬럼을 important_cols에 추가important_cols = []for col in data.columns:# print(col) print('='*30, col,'='*30 ) # 각 컬럼별 생존율 확인 print(data.groupby(col)['Survived'].mean().sort_values(ascending=False), end='\n\n') result = data.groupby(col)['Survived..
[Python] 파이썬_타이타닉 데이터셋 EDA(결측치 / 이상치 탐색 및 처리)
·
Python/데이터 분석을 위한 Python
데이터 분석을 위한 Python ✔️ EDA(탐색적 데이터 분석)✔️ 타이타닉 데이터셋 EDA(탐색적 데이터 분석)✔️ 결측치 탐색 및 처리✔️이상치 탐지 및 처리 ✔️ EDA(탐색적 데이터 분석) EDA(탐색적 데이터 분석) EDA(탐색적 데이터 분석)데이터에 대한 탐색과 이해를 바탕으로 분석하는 방법(데이터에 존재하는 패턴을 찾아 분석 방향과 가설 설정)데이터 수집 -> 데이터 전처리 -> RAW 데이터 -> EDA(탐색적 데이터 분석)EDA 과정1. 데이터 검수 : 컬럼/행 개수, 데이터 타입 확인, 샘플 확인(.head() / .tail() / .sample())2. 결측치 탐색 및 처리 : 결측치 확인(.isna().sum()) -> 결측치 처리(삭제, 평균/중앙값/최빈값 대치 등..
[Python] 파이썬_파이썬의 데이터의 종류와 이상치(outlier) 탐지 및 처리
·
Python/데이터 분석을 위한 Python
데이터 분석을 위한 Python ✔️ 데이터의 종류 이해✔️ 이상치 탐지✔️ 이상치 처리 ✔️ 데이터의 종류 이해 자료의 척도 종류명목척도(Nominal Scale)분류만 가능 서열X수학적 연산 불가예) 성별, 지역, 혈액형 등순서척도(Ordinal Scale)분류 가능 + 서열 O크기 차이는 불명확덧셈/뺄샘 불가예) 선호도, 학년, 만족도 등구간척도(Interval Scale)분류/서열/간격 의미 O절대 0 없음비율 계산 불가예) 온도, IQ 지수 등비율척도(Ratio Scale)분류/서열/간격/정대 0 모두 충족사칙 연산 / 비율 연산 가능예) 키, 몸무게, 나이, 수입, 점수 등타이타닉 데이터 컬럼 확인Pclass : 순서 척도 (1등급 선실 > 2등급 선실 > 3등급 선실로 구분하는 컬..
[Python] 파이썬_중앙값과 최빈값을 활용한 결측치 대체 및 scikit-learn 활용 결측치 대체
·
Python/데이터 분석을 위한 Python
데이터 분석을 위한 Python ✔️ 결측치 처리_중앙값/최빈값 대체✔️SimpleImputer / KNNImputer 활용한 결측치 처리 ✔️ 결측치 처리_중앙값/최빈값 대체 타이타닉의 Age 컬럼을 중앙/최빈값으로 대치# 원본 데이터에 영향을 주지 않기 위해서 .copy 활용data = pd.read_csv('./data/Taitanic_train.csv')data2 = data.copy()# Age 컬럼에서 결측치가 존재하는 행의 인덱스만 추출하여 저장age_na_index2 = data2[data2['Age'].isna()].index# 중앙값으로 대체 및 결측치 존재 행만 추출하여 확인(중앙값으로 대체되었음을 확인)data2['Age'] = data2['Age'].fillna(dat..
[Python] 파이썬_데이터 분석 과정의 결측치 처리
·
Python/데이터 분석을 위한 Python
데이터 분석을 위한 Python ✔️ 데이터분석✔️ 데이터전처리✔️ 결측치 처리 ✔️ 데이터분석 KDD 분석 방법론KDD 분석 방법론1. 데이터셋 선택 : CSV, EXCEL, DB에서 데이터를 읽어옴2. 데이터 전처리 : 데이터타입, 결측치처리, 이상치탐지, 데이터분포분석, 상관관계3. 데이터 변환(특성추출) : 원본 데이터에서 새로운 데이터 생성, 삭제, 스케일링, 구간화 등4. 데이터 마이닝(모델 만들기, 분석) : 분석에 적합한 알고리즘 선택, 모델 생성/튜닝5. 결과 평가(인사이트 도출) : 테스트 데이터를 이용해 데이터 마이닝으로 만든 모델의 성능 평가 titanic_train.csv www.kaggle.com 데이터셋 선택 및 로딩import pandas as pdimpor..
[Python] 파이썬_파이썬 Matplotlib를 활용한 라인/산점도/히스토그램/막대 그래프 생성
·
Python/데이터 분석을 위한 Python
데이터 분석을 위한 Python ✔️ Matplotlib 그래프 생성 및 세부 설정 ✔️ Matplotlib 그래프 세부 설정 라인 그래프set_linestyle(모양)선 모양 바꾸기+ 모양 종류'-' : 실선 (solid)'--' : 대쉬(dashed)'-.' : 대시-닷(dash‑dot)':' : 점선 (dotted)',' : 픽셀 점 (pixel)# 4개의 랜덤한 데이터 생성(100개의 난수 생성)data1, data2, data3, data4 = np.random.randn(4, 100)# 그래프 그릴 공간 설정fig, ax = plt.subplots(figsize=(6,3.3))# x축 값 생성(data1의 길이만큼 0부터 순차 입력)x = np.arange(len(data1))# ..