본문 바로가기
통계, EDA, 선형대수/statistics

N124 'Bayes Theorem'

by kiimy 2021. 5. 18.
728x90

 

https://www.youtube.com/watch?v=RCf4KZa9IfQ 참고

'불가능한 것을 다 제거하고 나면 남는 것은 아무리 사실과 멀어보일지라도 진실임이 틀림없다.'

'Bayes Theorem' / Bayesian Inference

사전의 지식을 이벤트에 반영하는 추론 방식 입니다.

-아무 정보가 없는 상황에서 확률을 동등하게 생각하고(= 이유 불충분의 원리)

 추가된 데이터를 통해 업데이트하여 확률을 구함.

*베이즈 정리는 새로운 정보를 토대로 어떤 사건이 발생했다는 주장에 대한 신뢰도를 갱신해

  나가는 방법

베이지안은 과거의 사건이 현재 사건에 영향을 끼친다는 입장

*조건부확률( the law of Conditional Probility)

-전확률( the law of total probability) == A라는 특정 확률변수에 대해, 모든 가능한 이벤트의 총 확률은 1

1. 어떤 사건이 발생할 확률 = 사전확률

2. 추가적인 관측이 발생하면 = 관측

3. 이 관측이 사건이 발생할 확률을 더 정확하게 추론 = 사후확률

 

 

  p(A l B) * P(B) = P(A B)

==>  p(A l B) = ∑P(A B)

 

B라는 정보가 주어진 상황에서 A의 확률은 B와 교집합들의

합으로 구성되어 있다.

 

 

 

 

 

 

 

*베이지안 이론(Bayes Theorem)

문제)
특정 질병을 가지고 있는 경우 99% 의 확률로 탐지 할 수 있는 실험방법이 있습니다.
그러나 동시에 이 방법은, 1% 의 확률로 질병이 없지만 질병이 있다고 진단 하는 경우도 있는데요.
실제로 모든 인구중 0.5% 만이 이 질병을 가지고 있다고 하겠습니다.
특정 사람이 이 방법을 통해 질병이 있다고 진단 받았을때, 실제로 질병을 가지고 있을 확률을 구하는 함수

베이지이론

P(A l B) - 사후 확률(B라는 정보가 업데이트 된 이후)

P(A) - 사전확률, B라는 정보가 업데이트 되기전

P(B l A) 우도(= likelihood)

 

가정 : 질병을 가지고 있는 경우 결과가 양성일 확률(탐지)은 99% P(E l H), 가설이 사실일 때(= 우도 likelihood) 민감도

P(E l H) != P(H l E)

일반적으로, 이 테스트에서 양성반응이 나온 경우 실제로 질병을 가지고 있을 것이라고 생각하지만. 

만약, 1%의 위양성 (False positive, 실제로 질병이 없지만, 양성반응이 나타남)이 존재하는 경우에도 테스트의 의미는 매우 크게 바뀝니다. 전체 인구에서 0.5% 만이 질병을 가지고 있다할때(= 사전확률),

 

*P(H) = 0.005 ==> 질병을 가지고 있는 사람들(= 사전 확률)

*P(not H) = 0.095 ==> 질병을 가지고 있지 않은 사람들

 

*P(E ㅣ H) = 0.99 ==> 약물을 실제 사용 하는 경우 결과가 양성일 확률

*P(E not H) = 0.01 ==> 1프로의 위양성(False positive) == 정상인데 양성으로 나옴

*알려고 하는 것 P(H l E) =

양성반응 테스트의 결과가 양성으로 나왔을 경우 실제로 질병을 가지고 있을 확률

 

P(E) == 증거가 주어짐(진양성(민감도), 사전확률, 위양성)

P(H) == 가설이 진실일 가능성(= 사전확률)

P(H l E) == 사후검정(= 증거가 주어진 가설)

P(E l H) == 가설이 사실일 때(= 우도 likelihood) 민감도

 

가능도(=우도) vs 확률

확률(Probability)은 어떤 시행(trial)에서 특정 결과(sample)가 나올 가능성을 말한다. 즉, 시행 전 모든 경우의 수의 가능성은 정해져 있으며 그 총합은 1(100%)이다.

가능도(Likelihood)은 어떤 시행(trial)을 충분히 수행한 뒤 그 결과(sample)를 토대로 경우의 수의 가능성을 도출하는 것을 말한다. 아무리 충분히 수행해도 어디까지나 추론(inference)이기 때문에 가능성의 합이 1이 되지 않을수도 있다.
민감도는 질병이 있는 환자 중 검사결과가 양성으로 나타날 확률
- '질병이 있는 사람을 얼마나 잘 찾아내는가'에 대한 기준

특이도는 질병이 없는 환자 중 검사결과가 음성으로 나타날 확률
- '정상인 경우를 얼마나 잘 찾아내는가'에 대한 기준

 

*민감도(TPR)가 높으면 감염된 사람을 양성으로 잘판단

/ 잘못판단(= 1-민감도) 2종오류

 

*특이도(FPR)가 높으면 감염되지 않은 사람을 음성으로 잘 판정

/ 잘 못 판단(= 1-특이도) 1종 오류

 

예시

728x90

댓글