https://www.youtube.com/watch?v=RCf4KZa9IfQ 참고
'불가능한 것을 다 제거하고 나면 남는 것은 아무리 사실과 멀어보일지라도 진실임이 틀림없다.'
'Bayes Theorem' / Bayesian Inference
사전의 지식을 이벤트에 반영하는 추론 방식 입니다.
-아무 정보가 없는 상황에서 확률을 동등하게 생각하고(= 이유 불충분의 원리)
추가된 데이터를 통해 업데이트하여 확률을 구함.
*베이즈 정리는 새로운 정보를 토대로 어떤 사건이 발생했다는 주장에 대한 신뢰도를 갱신해
나가는 방법
베이지안은 과거의 사건이 현재 사건에 영향을 끼친다는 입장
*조건부확률( the law of Conditional Probility)
-전확률( the law of total probability) == A라는 특정 확률변수에 대해, 모든 가능한 이벤트의 총 확률은 1
1. 어떤 사건이 발생할 확률 = 사전확률
2. 추가적인 관측이 발생하면 = 관측
3. 이 관측이 사건이 발생할 확률을 더 정확하게 추론 = 사후확률
p(A l B) * P(B) = P(A ∩ B)
==> p(A l B) = ∑P(A ∩ B)
B라는 정보가 주어진 상황에서 A의 확률은 B와 교집합들의
합으로 구성되어 있다.
*베이지안 이론(Bayes Theorem)
문제)
특정 질병을 가지고 있는 경우 99% 의 확률로 탐지 할 수 있는 실험방법이 있습니다.
그러나 동시에 이 방법은, 1% 의 확률로 질병이 없지만 질병이 있다고 진단 하는 경우도 있는데요.
실제로 모든 인구중 0.5% 만이 이 질병을 가지고 있다고 하겠습니다.
특정 사람이 이 방법을 통해 질병이 있다고 진단 받았을때, 실제로 질병을 가지고 있을 확률을 구하는 함수
P(A l B) - 사후 확률(B라는 정보가 업데이트 된 이후)
P(A) - 사전확률, B라는 정보가 업데이트 되기전
P(B l A) 우도(= likelihood)
가정 : 질병을 가지고 있는 경우 결과가 양성일 확률(탐지)은 99% P(E l H), 가설이 사실일 때(= 우도 likelihood) 민감도
P(E l H) != P(H l E)
일반적으로, 이 테스트에서 양성반응이 나온 경우 실제로 질병을 가지고 있을 것이라고 생각하지만.
만약, 1%의 위양성 (False positive, 실제로 질병이 없지만, 양성반응이 나타남)이 존재하는 경우에도 테스트의 의미는 매우 크게 바뀝니다. 전체 인구에서 0.5% 만이 질병을 가지고 있다할때(= 사전확률),
*P(H) = 0.005 ==> 질병을 가지고 있는 사람들(= 사전 확률)
*P(not H) = 0.095 ==> 질병을 가지고 있지 않은 사람들
*P(E ㅣ H) = 0.99 ==> 약물을 실제 사용 하는 경우 결과가 양성일 확률
*P(E not H) = 0.01 ==> 1프로의 위양성(False positive) == 정상인데 양성으로 나옴
*알려고 하는 것 P(H l E) =
양성반응 테스트의 결과가 양성으로 나왔을 경우 실제로 질병을 가지고 있을 확률
P(E) == 증거가 주어짐(진양성(민감도), 사전확률, 위양성)
P(H) == 가설이 진실일 가능성(= 사전확률)
P(H l E) == 사후검정(= 증거가 주어진 가설)
P(E l H) == 가설이 사실일 때(= 우도 likelihood) 민감도
가능도(=우도) vs 확률
확률(Probability)은 어떤 시행(trial)에서 특정 결과(sample)가 나올 가능성을 말한다. 즉, 시행 전 모든 경우의 수의 가능성은 정해져 있으며 그 총합은 1(100%)이다.
가능도(Likelihood)은 어떤 시행(trial)을 충분히 수행한 뒤 그 결과(sample)를 토대로 경우의 수의 가능성을 도출하는 것을 말한다. 아무리 충분히 수행해도 어디까지나 추론(inference)이기 때문에 가능성의 합이 1이 되지 않을수도 있다.
민감도는 질병이 있는 환자 중 검사결과가 양성으로 나타날 확률
- '질병이 있는 사람을 얼마나 잘 찾아내는가'에 대한 기준
특이도는 질병이 없는 환자 중 검사결과가 음성으로 나타날 확률
- '정상인 경우를 얼마나 잘 찾아내는가'에 대한 기준
*민감도(TPR)가 높으면 감염된 사람을 양성으로 잘판단
/ 잘못판단(= 1-민감도) 2종오류
*특이도(FPR)가 높으면 감염되지 않은 사람을 음성으로 잘 판정
/ 잘 못 판단(= 1-특이도) 1종 오류
'통계, EDA, 선형대수 > statistics' 카테고리의 다른 글
N123 중심극한정리( Central Limit Theorem, CLT) (0) | 2021.05.19 |
---|---|
N122 T-test++(카이제곱) (0) | 2021.05.15 |
N121 기술통계치 / 가설검정 Hypothesis (0) | 2021.05.15 |
댓글