주제

1. Naives Bayes
2. Regression 평가 방법(evaluation)
3. Principal component analysis(PCA)
4. Feature analysis

 

 

Naives Bayes

  • 가장 단순한 지도 학습 중 하나로, 베이즈 정리에 기반한 통계적 분류 기법
  • feature끼리 서로 독립이라는 조건이 필요하다
  • 조건부 확률 P(A | B)는 사건 B가 발생할 경우 A의 확률을 나타낸다

Naives Bayes

 

 

Regression 평가 방법(evaluation)

1. MAE(Mean Absolute of Errors) : 평균절대오차

  • 오차의 절대값을 평균으로 나눈 값
  • 0에 가까울수록 좋은 성능으로 본다
  • 오차값이 큰 데이터점에 대해 상대적으로 덜 민감하게 반응

MAE

 

2. MSE(Mean Square of Errors) : 평균제곱오차

  • 오차의 제곱을 평균으로 나눈 값
  • 0에 가까울수록 좋은 성능으로 본다
  • 오차값이 큰 데이터점에 대해 민감하게 반응(outlier에 민감)

MSE

 

3. R-square : 결정계수

  • 독립변수 x가 종속변수 y를 얼마나  잘 설명하는 지 나타낸다
  • 전체 y의 평균으로부터 각 y값이 멀리 떨어질수록, 예측한 y값과 실제 y값이 가까울수록 1에 가까워진다
  • 0 ~ 1 사이  값을  가지며, 1에 가까울수록 좋은 성능이라고 본다

R-square

 

4. Precision & Recall : 정밀도 & 재현율

  • 정답을 맞히거나 틀리는 경우의 수 :
    1. True Positive : 실제 positive인 정답을 positive라고 예측 (True)
    2. True Negative : 실제 negative인 정답을 negative라고 예측 (True)
    3. False Positive : 실제 negative인 정답을 positive라고 예측 (False) - Type I error
    4. False Negative : 실제 positive인 정답을 negative라고 예측 (False) - Type II error
  • Recall(재현율) :
    • 실제로 True인 것들 중 분류기가 True로 예측한 비율이다
    • 애초에 True가 발생하는 확률이 적을 때 사용하면 좋다
     

recall

  • Precision(정밀도) :
    • True라고 분류한 것 중에서 실제 True인 것의 비율
     

precision

 

5. F1 score

  • Precision과 recall 모두 고려한 평가

F1 score

 

 

 

 

Principal component analysis (PCA)

  • 고차원(feature가 많은) x에 대해서 주어진 x들의 분포를 가장 잘 설명하는 x축, y축을 찾아내는 기술
  • 고차원의 데이터를 저차원의 데이터로 바꿔주는 기술
  • 분산이 최대인 축을 찾고, 남은 분산을 최대한 보존하는 두번째 축을 찾는다

 

Feature analysis

  • 어떤 feature가 y를 설명하는데 있어 중요한지 알아야 한다
  • linear regression, logistic regression 모두 학습된 상태에서 .coef_와 .intercept_ 를 조회할 수 있다
    • .coef_는 각 feature들에 대해서 각각 곱해지는 값, .intercept_는 절편을 의미함
  • 상관관계 분석 :
    • 각 feature와 label간의 상관관계 분석을 통해 feature의 중요도를 알아볼 수 있다
    • pearsonr() : 피어슨 상관계수. 두 변수 간의 선형 상관관계의 정도를 나타냄
    • spearmanr() : 스피어만 상관계수. 두 변수 간의 크기 순서상의 상관관계의 정도를 나타낸다
    • 두 상관계수 모두 -1 / 1에 가까울수록 양/음의 상관관계가 있다고 할 수 있다

 

 

 


느낀점

기초가 없는 채로 배운 느낌이 있어서 프로젝트가 끝나면 처음부터 차근차근 다시 공부해야 될 것 같다..통계학부터 시작해서 아마 데이터 모델링은 머신러닝 배울 때 다시 커버할 것 같기도 하고..아무튼 조금 얼레벌레 지나간 한 주여서 아쉽다.

+ Recent posts