주제
1. Naives Bayes
2. Regression 평가 방법(evaluation)
3. Principal component analysis(PCA)
4. Feature analysis
Naives Bayes
- 가장 단순한 지도 학습 중 하나로, 베이즈 정리에 기반한 통계적 분류 기법
- feature끼리 서로 독립이라는 조건이 필요하다
- 조건부 확률 P(A | B)는 사건 B가 발생할 경우 A의 확률을 나타낸다

Regression 평가 방법(evaluation)
1. MAE(Mean Absolute of Errors) : 평균절대오차
- 오차의 절대값을 평균으로 나눈 값
- 0에 가까울수록 좋은 성능으로 본다
- 오차값이 큰 데이터점에 대해 상대적으로 덜 민감하게 반응

2. MSE(Mean Square of Errors) : 평균제곱오차
- 오차의 제곱을 평균으로 나눈 값
- 0에 가까울수록 좋은 성능으로 본다
- 오차값이 큰 데이터점에 대해 민감하게 반응(outlier에 민감)

3. R-square : 결정계수
- 독립변수 x가 종속변수 y를 얼마나 잘 설명하는 지 나타낸다
- 전체 y의 평균으로부터 각 y값이 멀리 떨어질수록, 예측한 y값과 실제 y값이 가까울수록 1에 가까워진다
- 0 ~ 1 사이 값을 가지며, 1에 가까울수록 좋은 성능이라고 본다

4. Precision & Recall : 정밀도 & 재현율
- 정답을 맞히거나 틀리는 경우의 수 :
- True Positive : 실제 positive인 정답을 positive라고 예측 (True)
- True Negative : 실제 negative인 정답을 negative라고 예측 (True)
- False Positive : 실제 negative인 정답을 positive라고 예측 (False) - Type I error
- False Negative : 실제 positive인 정답을 negative라고 예측 (False) - Type II error
- Recall(재현율) :
- 실제로 True인 것들 중 분류기가 True로 예측한 비율이다
- 애초에 True가 발생하는 확률이 적을 때 사용하면 좋다

- Precision(정밀도) :
- True라고 분류한 것 중에서 실제 True인 것의 비율

5. F1 score
- Precision과 recall 모두 고려한 평가

Principal component analysis (PCA)
- 고차원(feature가 많은) x에 대해서 주어진 x들의 분포를 가장 잘 설명하는 x축, y축을 찾아내는 기술
- 고차원의 데이터를 저차원의 데이터로 바꿔주는 기술
- 분산이 최대인 축을 찾고, 남은 분산을 최대한 보존하는 두번째 축을 찾는다
Feature analysis
- 어떤 feature가 y를 설명하는데 있어 중요한지 알아야 한다
- linear regression, logistic regression 모두 학습된 상태에서 .coef_와 .intercept_ 를 조회할 수 있다
- .coef_는 각 feature들에 대해서 각각 곱해지는 값, .intercept_는 절편을 의미함
- 상관관계 분석 :
- 각 feature와 label간의 상관관계 분석을 통해 feature의 중요도를 알아볼 수 있다
- pearsonr() : 피어슨 상관계수. 두 변수 간의 선형 상관관계의 정도를 나타냄
- spearmanr() : 스피어만 상관계수. 두 변수 간의 크기 순서상의 상관관계의 정도를 나타낸다
- 두 상관계수 모두 -1 / 1에 가까울수록 양/음의 상관관계가 있다고 할 수 있다
느낀점
기초가 없는 채로 배운 느낌이 있어서 프로젝트가 끝나면 처음부터 차근차근 다시 공부해야 될 것 같다..통계학부터 시작해서 아마 데이터 모델링은 머신러닝 배울 때 다시 커버할 것 같기도 하고..아무튼 조금 얼레벌레 지나간 한 주여서 아쉽다.
'Data Science > TIL (Today I Learned)' 카테고리의 다른 글
| 프로그래머스 데이터분석 데브코스 1기 - 37일차 (1) | 2024.01.17 |
|---|---|
| 프로그래머스 데이터분석 데브코스 1기 - 36일차 (0) | 2024.01.15 |
| 프로그래머스 데이터분석 데브코스 1기 - 34일차 (1) | 2024.01.11 |
| 프로그래머스 데이터분석 데브코스 1기 - 33일차 (0) | 2024.01.10 |
| 프로그래머스 데이터분석 데브코스 1기 - 32일차 (1) | 2024.01.09 |