프로그래머스 데이터분석 데브코스 1기 - 35일차

리피야 2024. 1. 12. 17:01

2024. 1. 12. 17:01

1. MAE(Mean Absolute of Errors) : 평균절대오차

2. MSE(Mean Square of Errors) : 평균제곱오차

3. R-square : 결정계수

4. Precision & Recall : 정밀도 & 재현율

정답을 맞히거나 틀리는 경우의 수 :
1. True Positive : 실제 positive인 정답을 positive라고 예측 (True)
2. True Negative : 실제 negative인 정답을 negative라고 예측 (True)
3. False Positive : 실제 negative인 정답을 positive라고 예측 (False) - Type I error
4. False Negative : 실제 positive인 정답을 negative라고 예측 (False) - Type II error
Recall(재현율) :
- 실제로 True인 것들 중 분류기가 True로 예측한 비율이다
- 애초에 True가 발생하는 확률이 적을 때 사용하면 좋다

5. F1 score

어떤 feature가 y를 설명하는데 있어 중요한지 알아야 한다
linear regression, logistic regression 모두 학습된 상태에서 .coef_와 .intercept_ 를 조회할 수 있다
- .coef_는 각 feature들에 대해서 각각 곱해지는 값, .intercept_는 절편을 의미함
상관관계 분석 :
- 각 feature와 label간의 상관관계 분석을 통해 feature의 중요도를 알아볼 수 있다
- pearsonr() : 피어슨 상관계수. 두 변수 간의 선형 상관관계의 정도를 나타냄
- spearmanr() : 스피어만 상관계수. 두 변수 간의 크기 순서상의 상관관계의 정도를 나타낸다
- 두 상관계수 모두 -1 / 1에 가까울수록 양/음의 상관관계가 있다고 할 수 있다

느낀점

기초가 없는 채로 배운 느낌이 있어서 프로젝트가 끝나면 처음부터 차근차근 다시 공부해야 될 것 같다..통계학부터 시작해서 아마 데이터 모델링은 머신러닝 배울 때 다시 커버할 것 같기도 하고..아무튼 조금 얼레벌레 지나간 한 주여서 아쉽다.

무한한 우주 속