티스토리 뷰

  우리가 표본집단을 이용해 확률을 정의하는 데에는 2가지 방법이 있다. 바로 빈도론과 베이지안론이다. 2가지 방법은 각각의 장단점이 있으므로 필요에 따라 잘 이용해야한다.


1. 빈도론

  1. 1 정의

    - 특정한 사건이 얼마나 반복되어 발생하는 지를 바탕으로 가설을 검증

    - 통계적 유의성을 이용하여 p-value를 구한다.


  1. 2 귀무가설과 독림가설

    - 귀무가설 : 기각을 할 것으로 예상하고 세우는 가설, 귀무가설이 거짓임을 밝혀내어 확률을 구한다.

    - 대립가설 : 귀무가설이 기각 되었을때 대체되어 참이 되는 가설


  예를 들어 토너먼트 축구 경기의 승패를 한 평론가가 예측한다고 가정하자. 무승부는 없고 무조건 승과 패로만 이루어져있다. 이 평론가가 우연히 찍어서 답을 맞추는 건지, 아니면 승패를 예측하고 맞추는 건지 알아보려고 한다. 이때 귀무가설과 대립가설을 아래와 같다.

 

  귀무가설 : 평론가가 우연히 둘 중 하나로 찍어서 맞춤

  대립가설 : 평론가가 축구 경기에 대한 분석을 정확히해 승패를 맞춤


   1. 3 p-value

     - 귀무가설이 참이라고 할 때 얻은 통계량

   유의수준 95%으로 검증한다고 하면 p-value가 0.05 이하로 나와야 귀무가설을 기각한다. 따라서, p-value가 낮을 수록 귀무가설이 기각될 확률이 높아진다.


ex) 축구 평론가의 토너먼트 승리 예측

  귀무가설은 평론가가 우연히 찍는 다는 것이다. 따라서 귀무가설을 정의하면 아래와 같다.

%5Ccombi%20_%7B%200%20%7D%7B%20H%20%7D(%EA%B7%80%EB%AC%B4%EA%B0%80%EC%84%A4)%5Cquad%20%3A%5Cquad%20p%3D0.5%20 


  그리고 이에 반대되는 대립 가설은 평론가의 승패 예측이 유의 하다는 가정이다 따라서 아래와 같이 정의 할 수 있다.

%5Ccombi%20_%7B%20a%20%7D%7B%20H%20%7D(%EB%8C%80%EB%A6%BD%EA%B0%80%EC%84%A4)%5Cquad%20%3A%5Cquad%20p%5Cquad%20%3E%5Cquad%200.5%20 


  이제 성공 확률에 대한 이항확률을 각각 구해보자. 평론가가 실제로 예측을 할 수 있는지 알아보기 위해 총 10번의 테스트를 한다고 가정하자. 10번의 테스트에 대한 각 이항 확률을 엑셀을 통해 구해보았다.


 


  이항 확률 함수 그래프는 아래와 같다. 우리가 흔히 알고있는 확률 분포 함수 그래프와 비슷한 형태가 나온다.

 


  p-value는 귀무가설이 맞다는 가정 하에, 귀무가설이 얼마나 맞는지 확률을 구하는 작업이다. 즉, p=0.5가 맞다고 가정하고 귀무가설이 얼마나 맞는지 확인하는 수식은 아래와 같다. (평론가가 실제로 평론 능력이 있는지를 구하는 단측 검정이라고 하자)

  해당 평론가가 총 10번의 통계중 총 7번을 맞췄다. 그렇다면 기준이 되는 검정 통계량은 7이되고, 학률분포함수 상에서 7보다 클 경우를 구하면 된다.(그래야 귀무가설을 기각 시킬 수 있으니깐)


%5CEalign%20p-value%3DP%5Cleft(%20%5Ccombi%20%7B%20X%3E7%20%7D%7C%5Ccombi%20%7B%20p%3D5%20%7D%20%5Cright)%20%5CEalign%20%3D0.172%20 


  따라서 나오는 p-value는 0.172이다. 만약 유의수준을 95%라고 한다면 p-value는 0.05이하가 되어야 하고, 귀무가설을 기각 할 수 없다. 따라서 아래와 같은 결론이 나온다.


  "유의수준 95%에서 평론가는 토너먼트 승부 예측을 할 능력을 가지고 있지는 않다."


  몰론, p-value는 절대적인 값이 아니다. 분석가에 따라 맘대로 조정도 가능하다. 따라서, 연구가 유의미한지 분석할때 맹신해서는 안된다. 참고자료로만 사용하는 것이 좋다.


 

2. 베이지안론

  2.1 정의

    빈도론이 '사건이 일어나는 장기적인 확률'으로 시작한다면, 베이지안론은 '지식, 믿음의 정도를 나타내는 양'으로 시작된다. 베이지안 확률을 구하기 위해서는 임의적으로 구한 사전 확률을 미리 정의하고,가능도를 계산하여 확률을 보정하는 것을 의미한다. 베이지안론을 구하기 위해서는 베이즈 정리에 대해서 알아야 한다.


  2.2 베이즈 정리

P%5Cleft(%20%5Ccombi%20%7B%20H%20%7D%7C%5Ccombi%20%7B%20E%20%7D%20%5Cright)%20%3D%5Cfrac%20%7B%20P(H)%5Ccdot%20P%5Cleft(%20%5Ccombi%20%7B%20E%20%7D%7C%5Ccombi%20%7B%20H%20%7D%20%5Cright)%20%20%7D%7B%20P(E)%20%7D%20 


  H는 가설을 의미하고, E는 증거를 의미한다. 각각의 정의는 아래와 같다.

P%5Cleft(%20%5Ccombi%20%7B%20H%20%7D%7C%5Ccombi%20%7B%20E%20%7D%20%5Cright)%20%5Cquad%20%3A%5Cquad%20%EC%82%AC%ED%9B%84%ED%99%95%EB%A5%A0%5C%5C%20P(H)%5Cquad%20%5Cquad%20%5Cquad%20%5Cquad%20%3A%5Cquad%20%EC%82%AC%EC%A0%84%ED%99%95%EB%A5%A0%5C%5C%20P%5Cleft(%20%5Ccombi%20%7B%20E%20%7D%7C%5Ccombi%20%7B%20H%20%7D%20%5Cright)%20%5Cquad%20%3A%5Cquad%20%EA%B0%80%EB%8A%A5%EB%8F%84%5C%5C%20P(E)%5Cquad%20%5Cquad%20%5Cquad%20%5Cquad%20%3A%5Cquad%20%EC%97%90%EB%B9%84%EB%8D%98%EC%8A%A4%5Cquad%20%EB%AA%A8%EB%8D%B8%5Cquad%20%EB%98%90%EB%8A%94%5Cquad%20%EC%A0%95%EA%B7%9C%ED%99%94%5Cquad%20%EC%83%81%EC%88%98%5Cquad%20%20 


  2.3 확률 추론 방법

    같은 예시로 베이즈 확률을 설명하도록 하겠다. 베이지안 접근을 위해 2가지 가설을 만들어 보자


  - 가설 1(H_1) : 평론가가 우연히 반반의 확률로 승리팀을 맞추는 경우

  - 가설 2(H_2) : 평론가가 80%의 확률로 승리팀을 맞출 경우


   앞서 언급한대로 각 가설의 사전확률을 0.5로 정한다.


   평론가가 10번의 시도 중 총 7번의 정답을 맞췄다. 이 사건을 E라고 하자. 가설 1과 2가 맞을 경우의 E가 일어날 확률을 아래와 같이 구한다.

P%5Cleft(%20%5Ccombi%20%7B%20E%20%7D%7C%5Ccombi%20%7B%20%5Ccombi%20_%7B%201%20%7D%7B%20H%20%7D%20%7D%20%5Cright)%20%3DP(X%3D7%2Cp%3D0.5)%3D0.117%5C%5C%20P%5Cleft(%20%5Ccombi%20%7B%20E%20%7D%7C%5Ccombi%20%7B%20%5Ccombi%20_%7B%202%20%7D%7B%20H%20%7D%20%7D%20%5Cright)%20%3DP(X%3D7%2Cp%3D0.8)%3D0.201%20 


  이는 각 가설에 대한 가능도를 나타낸다. 이를 이용해 확률 E를 구한다. 

P(E)%3DP(E%5Ccap%20%5Ccombi%20_%7B%201%20%7D%7B%20H%20%7D)%2BP(E%5Ccap%20%5Ccombi%20_%7B%202%20%7D%7B%20H%20%7D)%3D%5Cquad%200.5%5Cquad%20%5Ctimes%20%5Cquad%200.117%5Cquad%20%2B%5Cquad%200.5%5Cquad%20%5Ctimes%20%5Cquad%200.201%5Cquad%20%3D%5Cquad%200.159%20 


  이를 활용해 각 가설의 사후 확률을 구하자.

P%5Cleft(%20%5Ccombi%20%7B%20%5Ccombi%20_%7B%201%20%7D%7B%20H%20%7D%20%7D%7C%5Ccombi%20%7B%20E%20%7D%20%5Cright)%20%3D%5Cfrac%20%7B%20P(%5Ccombi%20_%7B%201%20%7D%7B%20H%20%7D)%5Ccdot%20P%5Cleft(%20%5Ccombi%20%7B%20E%20%7D%7C%5Ccombi%20%7B%20%5Ccombi%20_%7B%201%20%7D%7B%20H%20%7D%20%7D%20%5Cright)%20%20%7D%7B%20P(E)%20%7D%3D%5Cfrac%20%7B%200.5*0.117%20%7D%7B%200.159%20%7D%3D0.368%20 P%5Cleft(%20%5Ccombi%20%7B%20%5Ccombi%20_%7B%202%20%7D%7B%20H%20%7D%20%7D%7C%5Ccombi%20%7B%20E%20%7D%20%5Cright)%20%3D%5Cfrac%20%7B%20P(%5Ccombi%20_%7B%202%20%7D%7B%20H%20%7D)%5Ccdot%20P%5Cleft(%20%5Ccombi%20%7B%20E%20%7D%7C%5Ccombi%20%7B%20%5Ccombi%20_%7B%202%20%7D%7B%20H%20%7D%20%7D%20%5Cright)%20%20%7D%7B%20P(E)%20%7D%3D%5Cfrac%20%7B%200.5*0.201%20%7D%7B%200.159%20%7D%3D0.632%20


  따라서, 평론가가 80퍼센트의 확률로 승패를 맞출 확률이 능력의 0.632의 확률로 인정된다라고 말할 수 있다.



'Knowledge > 인공지능' 카테고리의 다른 글

KNN 모델  (0) 2018.01.21
KNN 모델  (0) 2018.01.21
로지스틱 모형  (0) 2018.01.21
선형 회귀  (0) 2018.01.21
상관계수  (0) 2018.01.21
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
more
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함