주제
1. 데이터 EDA
2. 데이터 EDA 기법
3. 머신 러닝 모델 추론 과정
1. 데이터 EDA
1.1 데이터 EDA란?
- 효과적인 데이터 분석과 모델링을 위한 기초 마련
- 데이터 품질 확인과 특성(패턴) 확인
- 데이터 이해를 위한 방법 :
- 기술 통계 분석
- 결측치 탐지 및 처리
- 이상치 탐지 및 처리
- 데이터 시각화
- 상관 관계 분석
- 피쳐 엔지니어링
2. 데이터 EDA 기법
2.1 데이터 전처리 기법
2.1.1 기술 통계 분석
- 숫자 변수와 카테고리 변수 파악
- 숫자 변수의 값 범위 파악
- 카테고리 변수의 수 파악
- 카테고리는 인코딩 결정
2.1.2 결측치 탐지 및 처리
- 비어있는 값이 있는 필드를 가진 레코드 찾기
- 해당 필드를 어떻게 할지 결정
- 숫자 필드의 경우 평균값, 최소값, 최대값, 가장 흔한 값 등을 기본값으로 사용
- 카테고리 필드의 경우 가장 흔한 값을 기본값으로 사용
2.1.3 이상치 탐지 및 처리
- 이상치 처리 방법 :
- 전체적으로 무시
- 그 필드의 값을 전체 평균값이나 최소값/최대값으로 교체
- 필드 값을 다른 값으로 전환
- log, binning 등 적용
- 이상치에 강한 알고리즘 사용
- Decision Tree
2.1.4 Primary Key Uniqueness 확인
- 데이터에 primary key가 존재한다면 고유성을 검증하는 것이 좋음
2.1.5 최신성 확인
- 데이터에 존재하는 타임스탬프 필드를 기준으로 최신 데이터가 있는지 확인
2.1.6 레이블(타겟) 확인
- 예측 대상이 되는 필드의 값이 어떻게 분포되어있는지 확인
- 분류 모델일 경우, 레이블 분포가 한쪽으로 치우쳤다면 평가 지표를 F1으로 사용
- 부족한 예들을 찾아서 훈련 데이터에 추가하는 노력이 필요
2.1.7 변수 간 상관 관계 검사
- corr() 함수 사용하여 상관관계를 보이는 변수들 확인
2.1.8 피쳐 엔지니어링
- 고급 기법 :
- 필드의 수가 너무 커지면 PCA 등을 통해 필드 수를 줄이기
- Regression의 경우 레이블과 약한 상관관계를 갖고 있는 필드들을 곱하거나 더해서 새로운 필드를 생성할 수 있음
3. 머신러닝 모델 추론 과정
- 예측 데이터를 실제 훈련에 사용되는 데이터로 전환
- Load Data → Extract features → Train model → Evaluate
- Extract features : 훈련용 데이터 중 숫자가 아닌 값들은 무시되거나 숫자로 변환
- 숫자들은 표준화(0과 1사이) 등으로 한번 변환됨
- 이 변환은 API 내에서 수행해주는 것이 좋음
- API란?
- Application Programming Interface의 약자로 ML에서는 모델을 통해 예측하는 것을 의미함
- 일반적인 예측 API의 모양

- 모델 추론 과정 모니터링이 중요함
- 모델 빌딩하는 사람과 추론 운영을 하는 사람이 보통 다음 → 문제 발생
- MLOps가 관리하기 시작
- 데이터의 패턴이 달라지면서 모델의 성능이 떨어지기 시작(Data Drift)
- 모델의 중요 피쳐값 분포 모니터링과 모델 관련 중요 지표 모니터링이 필수!
- 모델 빌딩하는 사람과 추론 운영을 하는 사람이 보통 다음 → 문제 발생
'Data Science > TIL (Today I Learned)' 카테고리의 다른 글
| 프로그래머스 데이터분석 데브코스 1기 - 54일차 (0) | 2024.02.08 |
|---|---|
| 프로그래머스 데이터분석 데브코스 1기 - 53일차 (0) | 2024.02.07 |
| 프로그래머스 데이터분석 데브코스 1기 - 51일차 (0) | 2024.02.05 |
| 프로그래머스 데이터분석 데브코스 1기 - 50일차 (0) | 2024.02.02 |
| 프로그래머스 데이터분석 데브코스 1기 - 49일차 (1) | 2024.02.01 |