주제

1. 결측치
2. 결측치가 발생하는 이유
3. 결측값 대체하기

 

 

결측치(Missing Value)

  • 정의 : 0이 아닌 값
  • 데이터의 손실을 불러올 수 있음
  • 데이터에서 편향이 생길 수 있음
  • 분석결과가 달라질 수 있음
  • NA : Not Available(유효하지 않음)
  • NaN : Not a Number(숫자가 아님)
  • Null : 아무것도 존재하지 않음

 

결측치 발생 이유

  • 실제로 값을 입력하지 않은 경우
  • 설문조사의 특정 질문에 미응답
  • 데이터의 오류 등

 

결측값 대체하기

  1. 평균으로 대체하기
    • 변수의 결측값을 평균값으로 대체
    • 특정 정보가 존재하지 않을 경우 평균값이 가장 좋을 것이라는 논리
    • 정보의 손실은 줄어들 수 있으나, 불확실성을 고려하지 못하는 방법
  2. 완전제거하기
    • 결측치가 포함된 값을 분석 대상에서 제거하기
    • 편향이 발생할 가능성이 적음
    • 정보의 손실 및 검정력 약화 문제가 생길 가능성이 존재함
  3. 회귀대체법
    • 회귀 방정식을 통해 결측값을 예측값으로 대체하는 방법
    • 변수의 특성에 따라 회귀식을 구성해 예측력 향상을 꾀함

 

 

+ Recent posts