본문 바로가기
728x90

통계, EDA, 선형대수/statistics4

N123 중심극한정리( Central Limit Theorem, CLT) *중심극한정리 ( Central Limit Theorem, CLT ) - sample 데이터의 수가 많아질 수록, sample의 평균은 정규분포에 근사한 형태로 나타난다. *큰 수의 법칙 ( Law of large numbers ) sample 데이터의 수가 커질 수록, sample의 통계치는 점점 모집단의 모수와 같아진다. **표본의 크기 >= 30 가 되야 크다고 본다(작으면 비모수적 방법 적용) '큰수의 법칙'은 표본 크기가 무한히 커짐에 따라 표본평균이 모평균으로 "확률수렴"을 한다는 개념이고, '중심극한정리'는 표본 크기가 무한히 커짐에 따라 표준화한 표본평균의 분포가 표준정규분포로 "분포수렴"하는 개념 정규분포(Normal Distribution)는 특정 값의 출현 비율을 그렸을 때, 중심(평.. 2021. 5. 19.
N124 'Bayes Theorem' https://www.youtube.com/watch?v=RCf4KZa9IfQ 참고 '불가능한 것을 다 제거하고 나면 남는 것은 아무리 사실과 멀어보일지라도 진실임이 틀림없다.' 'Bayes Theorem' / Bayesian Inference 사전의 지식을 이벤트에 반영하는 추론 방식 입니다. -아무 정보가 없는 상황에서 확률을 동등하게 생각하고(= 이유 불충분의 원리) 추가된 데이터를 통해 업데이트하여 확률을 구함. *베이즈 정리는 새로운 정보를 토대로 어떤 사건이 발생했다는 주장에 대한 신뢰도를 갱신해 나가는 방법 베이지안은 과거의 사건이 현재 사건에 영향을 끼친다는 입장 *조건부확률( the law of Conditional Probility) -전확률( the law of total probab.. 2021. 5. 18.
N122 T-test++(카이제곱) col = ['', '' ,''] row = ['', '', ''] df.columns = col df.index.name = None ==>?? df = df.reindex(index = row ) random.binominal(n=, p=, size=) 이항분포// size가 시행횟수 from scipy.stats import binom_test binom_test(564, n=, p=) // n이 시행힛수 이항 검정은 범주가 2개로 자료에만 사용할 수 있다. 만약 범주가 3개 이상인 경우에는 카이제곱 검정을 사용해야 한다. 행과 열을 조합해서 발생할 수 있는 경우의 수를 행열로 만들어놓고 활용하면 편하다. from google.colab import files df_before = files.upl.. 2021. 5. 15.
N121 기술통계치 / 가설검정 Hypothesis ds_before = pd.read_csv('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/seoul_tree/seoul_tree.txt', sep='\t', skiprows= 1) #skipprow 맨 처음 행 제외하고 보여줌 // thouusands= ',' 콤마 미리 없애 *기술 통계치(Descriptive Statistics)란? - 평균(mean), 중앙값(median), SD(표준편차, Standard Devidation= 평균에서 떨어진 정도) 등을(통계치) 계산한 것 count, mean, standard dev, min, 1Q, median, 3Q, max ==> DataFrame.describe() boxplot violin plot.. 2021. 5. 15.