프로그래머스 데이터분석 데브코스 1기 - 52일차

리피야 2024. 2. 6. 16:50

2024. 2. 6. 16:50

1.1 데이터 EDA란?

2.1 데이터 전처리 기법

2.1.1 기술 통계 분석

2.1.2 결측치 탐지 및 처리

비어있는 값이 있는 필드를 가진 레코드 찾기
해당 필드를 어떻게 할지 결정
- 숫자 필드의 경우 평균값, 최소값, 최대값, 가장 흔한 값 등을 기본값으로 사용
- 카테고리 필드의 경우 가장 흔한 값을 기본값으로 사용

2.1.3 이상치 탐지 및 처리

2.1.4 Primary Key Uniqueness 확인

2.1.5 최신성 확인

2.1.6 레이블(타겟) 확인

2.1.7 변수 간 상관 관계 검사

2.1.8 피쳐 엔지니어링

고급 기법 :
- 필드의 수가 너무 커지면 PCA 등을 통해 필드 수를 줄이기
- Regression의 경우 레이블과 약한 상관관계를 갖고 있는 필드들을 곱하거나 더해서 새로운 필드를 생성할 수 있음

예측 데이터를 실제 훈련에 사용되는 데이터로 전환
Load Data → Extract features → Train model → Evaluate
- Extract features : 훈련용 데이터 중 숫자가 아닌 값들은 무시되거나 숫자로 변환
- 숫자들은 표준화(0과 1사이) 등으로 한번 변환됨
- 이 변환은 API 내에서 수행해주는 것이 좋음
API란?
- Application Programming Interface의 약자로 ML에서는 모델을 통해 예측하는 것을 의미함
- 일반적인 예측 API의 모양

모델 추론 과정 모니터링이 중요함
- 모델 빌딩하는 사람과 추론 운영을 하는 사람이 보통 다음 → 문제 발생
  - MLOps가 관리하기 시작
- 데이터의 패턴이 달라지면서 모델의 성능이 떨어지기 시작(Data Drift)
  - 모델의 중요 피쳐값 분포 모니터링과 모델 관련 중요 지표 모니터링이 필수!

무한한 우주 속