프로그래머스 데이터분석 데브코스 1기 - 32일차

리피야 2024. 1. 9. 16:52

2024. 1. 9. 16:52

주제

1. 확률과 확률변수
2. 확률 분포
3. 기술통계
4. 가설검정

확률과 확률변수

확률

확률 : 실험을 실시했을 때, 나올 수 있는 모든 경우의 수(sample space) 내에서 특정 사건이 발생하는 비율

예. 동전 두 번 던지기
- Experiment : 동전를 던지는 행위
- Sample : experiment의 결과 (동전의 앞/ 뒤)
- Sample space : experiment로 인해 발생하는 모든 샘플의 집합
- Event : sample space의 부분 집합으로, 어떤 조건을 만족하는 특정한 표본점들의 집합
확룰의 성질 :
1. 사건 A가 발생할 확률은 [0,1] 사이의 값을 가진다
2. Sample space 내 모든 사건의 학률의 합(Ω=sample space)은 1이다

변수(Variable)

변수 : 특정 조건에 따라 변하는 값
독립 변수(x, feature) : 다른 변수에 영향을 받지 않는, 오히려 종속변수에 영향을 주는 변수
종속 변수(y, label) : 독립변수의 영향을 받아서 변화하는 변수
연구자의 목표 : 독립변수를 조정할 때 종속변수가 어떻게 변화하는지를 알아내는 것(두 변수 간의 관계)
- 독립변수가 원인, 종속변수가 결과라는 가정이 필요

확률 변수(Random variable)

무작위 실험을 했을 때, 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 함수
이산 확률 변수(Discrete random variable) : 확률 변수 X가 이산값(정수)값을 택하는 변수
연속 확률 변수(Continuous random variable) : 확률 변수 X가 어떤 구간의 모든 실수값을 택하는 변수

확률 분포(Probability distribution)

확률 변수의 모든 값과 그 확률이 어떻게 분포하는지를 의미
확률 함수(probability function) : 확률 변수 x를 확률값에 대응시키는(연결) 함수 P(x)

확률 분포

확률 변수와 확률 함수를 이용해 sample space 내 사건의 확률을 얻을 수 있다
실험의 sample space → [확률 변수 X] → 실수공간 → [확률 함수 f(x)] → 확률
- 예. 주사위를 두 번 던져서 나온 합이 5 이상 7 이하인 확률은?
- sample space = {2, 3, ..., 12}
- P(5≤X≤7) = P(X=5) + P(X=6) + P(X=7)
- = 4/36 + 5/36 + 6/36 = 5/12
연속 확률 변수의 경우, 사건이 발생하는 구간의 넓이를 계산

확률질량함수(Probability Mass Function, pmf)

이산 확률 변수 X가 취할 수 있는 값 x0, x1, ..., 의 각각에 대해 확률값 P(X=x0), P(X=x1), ... 를 대응시켜주는 확률함수를 X의 확률질량함수 f(x)라고 한다
확률질량함수의 성질
1. 모든 x에 대해 f(x) ≥ 0

누적분포함수 :

확률밀도함수(Probability Density Function, pdf)

연속확률변수 X가 취할 수 있는 값의 범위 [a,b]에 대해서 확률값(그림1)를 대응시켜주는 확률함수를 X의 확률밀도함수 f(x)라고 한다

확률밀도함수의 성질 :
1. 모든 x에 대해 f(x) ≥ 0

누적분포함수 :

연속확률변수의 확률은 '범위의 면적'
확률밀도함수로 곡선을 그리고 '범위 내 곡선 아래의 면적'을 구한다

모집단, 모수, 표본

모집단 : 통계학에서 관심의 대상이 되는 모든 개체 값의 집합
모수(population parameter) : 모집단의 특성을 나타내는 통계적인 특성차
- 모수는 모집단을 모두 조사(전수검사)해야 얻을 수 있지만, 전수검사는 어렵기 때문에 '통계적 추론'을 한다
- 통계적 추론 : 모집단에서 추출한 표본들의 특성을 분석하여 모수에 대해 추론하는 과정
표본(sample) : 전체 모집단에서 샘플링을 통해 뽑히는 값으로, 모집단의 부분 집합을 의미
프로세스 : 모집단이 갖는 분포를 가정 → sample 추출 → 샘플을 통해 얻어진 통계량이 지닌 성질을 이용해 모수 추정
표본을 '잘' 추출하는 것이 중요
- 모집단에서 샘플이 뽑힐 가능성을 모두 동일하게 부여하고, 객관적으로 무작위 추출 실행
- 샘플은 서로 독립적(independent)이며 동일한 분포(identically distributed) → I.I.d를 따라야 함
- 이것이 random sample
  - 독립적 : 추출될 때 서로 영향을 미치지 않음
  - 동일한 분포 : 동일한 모집단으로부터 추출됨
여러번의 추출을 통해 얻어진 통계량 값의 발생 분포를 그려보면 확률 분포를 얻을 수 있다 → 모수 측정 가능

확률 분포

기댓값(Expected value) & 분산(variance)

기댓값 : 어떤 확률적 사건이 평균적으로 가질 수 있는 값(평균값, E(x) 등)
기댓값의 성질 :
1. E(X + Y) = E(X) + E(Y)
2. 임의의 실수 a, b에 대해서 E(aX + b) = aE(X) + b
3. E(aX^2 + bX + c) = aE(X^2) + bE(X) + c
4. E(aX + bY) = aE(X) + bE(Y)
5. 서로 독립인 확률변수 X, Y에 대해서 E(XY) = E(X)E(Y)
분산 : 분포가 평균값으로부터 얼마나 산포되어있는지
Var(X) = E[(X-E(X))^2] = E[X^2] - E[X]^2

결합확률분포(Joint probability distribution)

두 개의 확률변수 X, Y에 대해 P(X=x, Y=y) = f(x,y) 를 만족하는 f(x,y)를 확률변수 X, Y의 결합확률분포라고 한다.

공분산(Covariance)

두 개의 확률변수 X와 Y에 대해 X가 변할 때 Y가 변하는 정도를 나타내는 값. 즉, X와 Y가 같이 변하는 정도를 나타냄

베르누이 분포(Bernoulli distribution)

베르누이 시행 : 어떤 시행의 결과가 1(성공) 혹은 0(실패)인 실험
확률변수 X=1일 확률이 p, X=0일 확률이 q = 1-p인 경우 확률변수 X는 베르누이 분포를 따른다

이항 분포(Binomial distribution)

베르누이 시행을 n번 반복했을 때 성공 횟수를 값으로 갖는 확률 변수 X에 대해 X는 이항확률변수라고 한다
이항분포 : 베르누이 시행의 결과가 성공일 확률이 p, 실패할 확률이 (1-p)일 때, 이 시행을 n번 반복했을 때 나타나는 확률분포

포아송 분포(Poisson distribution)

단위시간 / 단위공간에서 어떤 사건이 발생하는 횟수를 확률변수 X라 할 때, X는 포아송 분포를 따른다
전제조건 :
1. 독립성 : 단위시간 / 공간에서 발생한 결과는 중복되지 않은 다른 시간 / 공간에서 발생한 결과와 독립적이다
2. 일정성 : 단위시간 / 공간에서 발생한 확률 / 횟수는 그 시간/공간의 크기에 비례한다(즉, 단위시간 / 공간에서 발생한 평균발생횟수는 일정하다)
3. 비집략성 : 매우 짧은(같은) 시간 / 공간에서 두 개 이상의 결과가 동시에 발생할 확률은 0이다

균등분포(Uniform distribution)

모든 확률변수값에 대해 균일한 확률을 갖는 분포

정규분포(Normal distribution, Gaussian distribution)

가장 일반적으로 발견되는 양방향 대칭의 종 모양(Bell curve) 분포로, 수집된 자료의 분포를 근사할 때 대부분 정규분포를 사용한다.
모수 : 평균과 분산
분산 : 평균을 중심으로 데이터들이 퍼진 정도

표준 정규 분포(Standart normal distribution)

서로 다른 parameter를 가진 집단들을 비교하기 위해 정규분포를 표준화한 분포.
z-score는 평균으로부터 표준편차의 z배 정도 떨어져 있다는 뜻
표준 정규 분포표

표본 평균 : 모집단으로부터 random sample을 n개 추출했을 때, n개의 random sample들의 평균
표본 분산 : 모집단으로부터 random sample을 n개 추출했을 때, n개의 random sample들의 분산

기술통계

정량적 데이터 분석이란?

숫자로 표현되는 수치 데이터를 이용하여 주어진 데이터를 분석하는 과정
- 평균, 중앙값(median), 최빈값(mode)를 통해 데이터가 어느 값을 중심으로 뭉쳐있는지를 확인
- 분산, 표준편차, 분위수, Q1(25분위수), Q3(75분위수)를 통해 데이터가 어떤 형태로 퍼져있는지 확인
통계수치
- describe() - 요약통계, 기본 값으로 수치형 칼럼에 대한 통계표를 보여줌
- count() - 컬럼당 데이터의 개수
- mean() - 컬럼당 데이터의 평균(NaN은 기본적으로 NaN으로 출력)
- median() - 중앙값(50분위수), 오름차순 정렬 후 중앙에 위치한 값. 짝수 개의 데이터가 있는 경우에는 가운데 2개 중앙 데이터의 평균을 출력
- sum() - 합계
- var() - 분산, 데이터의 값들이 평균으로부터 얼마나 많이 흩뿌려져있는지를 나타냄
- std() - 표준편차
- agg() - 복수의 통계 함수 적용
- quantile() - 주어진 데이터를 동등한 확률구간으로 분할하는 지점
- mode() - 최빈값, 가장 많이 출현한 데이터
- corr() - 상관관계, -1 ~ 1 사이의 범위를 가진다. -1에 가까울수록 반비례, 1에 가까울수록 정비례 관계

가설검정

통계적 추정

모집단의 모수를 표본들의 통계값을 이용하여 추정하는 방법
- 점추정(Point estimation) : 모집단의 특성을 단일한 값으로 추정
- 편향(Bias) : 추정량의 기댓값과 모수의 차이
- 구간추정(Interval estimation) : 모수가 있을 것으로 예상되는 구간을 정한 후, 해단 구간에 실제 모수가 있을 것으로 예상되는 확률을 구함
- 신뢰도(Confidence level) : 설정한 구간에 실제로 모수가 있을 확률

가설검정

통계적 가설 검정

표본에서 얻은 사실을 근거로 모집단에 대한 가설이 맞는지 통계적으로 검정하는 방법
- 가설을 먼저 세워야 함
- 귀무가설(Null hypothesis, H0) : 직접 검정대상이 되는 가설. 먼저 증명된적 없는 귀무가설이 옳다는 가정 하에 검정을 시작하며, 보통은 진실일 가능성이 적기에 기각(reject)을 목표로 가설을 세움
- 대립가설(Alternative hypothesis, H1) : 귀무가설의 반대가 되는 가설. 보통 새로운 주장 혹은 실제로 입증시키고 싶은 가설이며, 귀무가설이 기각되면 자동적으로 채택됨
가설검정의 오류 :
- 제 1종 오류(type 1 error) : 귀무가설이 참임에도 이를 기각하는 오류
- 제 2종 오류(type 2 error) : 귀무가설이 거짓임에도 이를 채택하는 오류

ANOVA(Analysis of variance, 분산분석)

n개의 집단을 비교하는 통계적 분석 (n > 2)
사용하기 전 3가지 조건을 만족해야함 :
- 정규성(normality) : 모든 데이터가 정규분포를 따르는 모집단으로부터 추출됨. 정규분포를 따르지 않는 것으로 보이는 경우 Log 변환 등의 전처리가 필요
- 독립성(independency) : 모든 데이터가 모집단으로부터 독립적으로 추출됨
- 등분산성(homoscedasticity) : 모든 데이터는 분산이 동일한 모집단으로부터 추출됨

'Data Science > TIL (Today I Learned)' 카테고리의 다른 글

프로그래머스 데이터분석 데브코스 1기 - 34일차 (1)	2024.01.11
프로그래머스 데이터분석 데브코스 1기 - 33일차 (0)	2024.01.10
프로그래머스 데이터분석 데브코스 1기 - 31일차 (1)	2024.01.08
프로그래머스 데이터분석 데브코스 1기 - 30일차 (1)	2024.01.05
프로그래머스 데이터분석 데브코스 1기 - 29일차 (1)	2024.01.04

무한한 우주 속