리피야
2023. 12. 1. 17:01
2023. 12. 1. 17:01
주제
1. 결측치
2. 결측치가 발생하는 이유
3. 결측값 대체하기
결측치(Missing Value)
- 정의 : 0이 아닌 값
- 데이터의 손실을 불러올 수 있음
- 데이터에서 편향이 생길 수 있음
- 분석결과가 달라질 수 있음
- NA : Not Available(유효하지 않음)
- NaN : Not a Number(숫자가 아님)
- Null : 아무것도 존재하지 않음
결측치 발생 이유
- 실제로 값을 입력하지 않은 경우
- 설문조사의 특정 질문에 미응답
- 데이터의 오류 등
결측값 대체하기
- 평균으로 대체하기
- 변수의 결측값을 평균값으로 대체
- 특정 정보가 존재하지 않을 경우 평균값이 가장 좋을 것이라는 논리
- 정보의 손실은 줄어들 수 있으나, 불확실성을 고려하지 못하는 방법
- 완전제거하기
- 결측치가 포함된 값을 분석 대상에서 제거하기
- 편향이 발생할 가능성이 적음
- 정보의 손실 및 검정력 약화 문제가 생길 가능성이 존재함
- 회귀대체법
- 회귀 방정식을 통해 결측값을 예측값으로 대체하는 방법
- 변수의 특성에 따라 회귀식을 구성해 예측력 향상을 꾀함