Missing Value(결측치)
- NaN, Na, Null 값들 -> 결측치 (고려 사항이 많이 있어 단순하지X)
- 정의하는 기준에 따라서 결측치 처리 방법은 다양하기 때문에 단순하지X
- 결측치에 영향을 받는지 알아보기 위해서는 Random한 결측치만들고 그에 따라 다르게 정의하여 알아볼 수 있다
- 결측치의 값이 없는 이유는? -> 값X, 값 자체가 입력X, 휴먼에러에 의해서 결측치 발생 가능성도 존재
- ex) 정말 값이 없는 데이터 : 고객ID(비회원은 고객ID가 없다)->결측치는 비회원일 수 있다
- 어떤 특정 컬럼에 영향을 받는 경우
- ex) 공장 기계의 결함이나 문제 발생 시 생성되는 데이터->공장의 문제가 발생하는 경우에만 데이터가 생성/적재
Missing Value(결측치)
데이터 분석, ML, DL 등을 진행하는 등의 다음 스텝을 진행하는데 중요하다
Missing Data Mechanisms (결측치 처리)
MCAR(완전 무작위 결측)
- 무작위로 발생하는 케이스 -> 결측치에 대해 대체할 때 바이어스가 없다
- 누락된 값이 다른 어떤 데이터와도 관련이 없을 때 발생
바이어스가 없다 : 데이터의 기본 구조나 패턴을 그대로 유지하면서 누락된 값을 채워넣는다는 것을 의미한다
MAR(무작위 결측)
- 다른 변수에 따라 결측치가 체계적으로 발생
- 누락의 확률이 다른 변수의 값에 의해 결정되지만, 누락된 변수의 값 자체에는 의존하지 않습니다.
- 예) 건강 관련 질문은 꺼리기 때문에 결측치 나올 수 있다
MNAR(비무작위 결측)
- 결측값 자체가 특성을 가지고 있는, 의미가 있는 경우가 있다
- 누락된 값이 그 자체로 어떤 정보를 가지고 있어, 누락의 원인이 되는 변수가 누락된 값에 의존하는 경우
결측치 삭제
삭제
- 삭제는 언제 가능한가? -> 결측치 데이터가 컬럼 전체 삭제, 결측된 데이터만 삭제되는 경우 등 여러가지 방법이 존재
- 결측치가 대부분 50% 이상을 넘어가면 데이터 학습에 문제 발생 가능성↑
- 전체 데이터셋 중 1% 미만의 아주 소량의 데이터는 삭제해도 영향X(중요데이터만 아니면)
결측치 대체
대체
- 삭제할 수 없는 경우 대체를 이용해 수행
- 대체를 하는 방법은 여러가지 존재한다
예시 데이터를 만들어 특정컬럼(Feature)을 포함하여 데이터 프레임을 생성
임의의 결측치를 만들어 대체하며 원본 데이터와 비교 진행
원본데이터를 시각화하여 결과를 보여주고 이를 기준으로
다른 대체법을 사용한 결과와 비교
Interpolate(보간법)
- 두 데이터 포인트 사이의 누락된 값을 추정하는 방법
- (알려진 데이터 포인트들의 범위 내에서 값을 예측하는 방법)
1️⃣ 1차 선형 보간법
주어진 두 점 사이에서 선형적으로 값을 계산하여, 누락된 데이터를 예측하거나, 새로운 데이터 포인트를 생성하는 데 활용
원본 데이터와 비교하여 대체된 값들이 존재한다는 것을 알 수 있다
2️⃣ 2차 선형 보간법
기본적인 선형 보간법을 두 번 적용하는 과정을 포함(2차원 이상의 데이터에서 유의미한 결과 얻을 수 있음)
원본 데이터와 비교했을 때 1차 선형 보간법과 달리 한 번 더 보간법이 이용되어 다른 결과를 보여준다
3️⃣ 평균대치법
결측치가 존재하는 경우, 데이터의 평균값으로 결측값을 대체하는 것으로
위 그래프를 보면 데이터의 평균값으로 대체되어 중앙의 일직선으로 그래프가 그려지게 된다
4️⃣ 0값으로 대체
결측치가 존재하는 경우, 결측치를 0으로 대체하는 것으로
위 그래프를 보면 그래프가 원본 데이터에서 결측치가 나오는 부분이 0으로 대체되었다
5️⃣ KNN기법
주어진 데이터 분류할 때, 가장 가까운 K개의 이웃 데이터들의 카테고리를 기반으로 결측치의 카테고리를 결정하는 것으로
이웃의 수가 중요한데 너무 작으면 노이즈에 민감하고, 너무 크면 경계가 불분명해질 수 있으므로
해당 데이터에서는 5개의 이웃 데이터를 이용하여 카테고리를 기반으로 결측치가 대체되었다
6️⃣ MICE(다중대치법)
결측치가 있는 데이터에 대해 결측치를 대체하며, 여러 개의 데이터 셋을 생성하여
각각의 데이터 세트에 대해 분석을 진행하고 여러 개의 분석 결과를 합쳐 최종 결과를 도출하는 방법
위 방법들을 통해 결측치를 보간하면
데이터 분석, 모델링을 하면 나오는
평가지표로서 성능 비교가 가능하다
https://linktr.ee/official.bdaa
BDA | Instagram | Linktree
Big Data Analysis | 빅데이터분석학회
linktr.ee
혹시 학회가 궁금하시거나 다음 기수에 참여하고 싶은 분들은 위 페이지에서 자세한 사항을 확인해주세요😃
'BDA 학회 > BDA학회_8기' 카테고리의 다른 글
[BDA 데이터분석 전처리 (Pandas) 5회차]_결측치 확인/대치방법/시각화 (0) | 2024.04.04 |
---|---|
[BDA 데이터분석 전처리 (Pandas) 3회차]_Pandas 기초 문법 정리2 (1) | 2024.03.19 |
[BDA 데이터분석 전처리 (Pandas) 2회차]_Pandas 기초 문법 정리 (0) | 2024.03.15 |