본문 바로가기
728x90

통계, EDA, 선형대수13

Log Transform 데이터 분석을 하기 위해 log를 취하는 이유는 한마디로 정규성을 높이고 분석(회귀분석 등)에서 정확한 값을 얻기 위함 데이터 간 편차를 줄여 왜도1(skewness)와 첨도2(Kurtosis)를 줄일 수 있기 때문에 정규성이 높아진다. https://seeyapangpang.tistory.com/34 Log Transformation 로그/지수/제곱/루트/역수 함수변환 [빅공남! 통계 같이해요] Log Transformation 로그 지수 루트 역수 제곱 변환 등 데이터의 변수 변환 기법 중에 하나인 함수 변환에 대해서 같이 공부하는 포스팅과 유튜브 영상을 준비했습니다. 특히, 로그 변환은 Data의 Skew를 seeyapangpang.tistory.com 2023. 5. 31.
n134 Clustering 군집분석 from sklearn.datasets import make_blobs from sklearn import decomposition from sklearn.decomposition import PCA from sklearn.cluster import KMeans from sklearn.preprocessing import StandardScaler *군집분석이란? 변수들이 속한 모집단 or 범주에 대한 사전정보가 없는 경우 ==> 1. 관측값 사이의 거리(유사도) euclidean 2. 유사성을 이용하여 개체들을 몇개의 그룹으로 나눈다 3. 군집으로 나누는 분석법 KMean Clustering(= 데이터의 연관된 feature를 바탕으로 유사한 그룹생성) *목적 Clustering이 대답할수 있는 질문은.. 2021. 5. 29.
n133 eigenvalue/eigenvector 주성분분석(PCA) from sklearn.preprocessing import StandardScaler, Normalizer from sklearn.decomposition import PCA fit() : 평균 𝜇과 표준편차 𝜎를 계산 transform() : ​정규화/표준화, Standardization fit_trasform() : fit() + transform() fit() -데이터를 학습시키는 메서드 transform() - 학습시킨 것을 적용하는 메서드 So, Test data set에는 적용하면 안됨! = sclaer가 기존에 학습 데이터에 fit한 기준을 다 무시하고 테스트 데이터에 새로운 mean, variance값을 얻으면서 테스트 데이터까지 학습해버린다. 테스트 데이터는 검증을 위해 남겨둔 Set .. 2021. 5. 27.
n132 공분산과 상관계수 cov, corr/ vector 분산, 표준편차 * 분산은, 데이터가 얼마나 퍼져있는지를 측정하는 방법 = (관측값과 평균의 차)를 제곱한 값을 모두 더하고 관측값 개수로 나눈 값 = 차이 값의 제곱의 평균 * 분산을 구하는 과정에서 제곱 값들을 더하게 되는데 이는 평균에 비해서 스케일이 커지는 문제가 발생 ==> 표준 편차(= 분산을 제곱근)는 이를 해결 하기 위해서 제곱 된 스케일을 낮춘 방법 Covariance (DataFrame.cov()) Pearson correlation Covariance란, 1개의 변수 값이 변화할 때 다른 변수가 어떠한 연관성을 나타내며 변하는지를 측정하는 것 => 하나가 증가할때 다른 하나도 증가하는 경향을 파악하는 것 특징 쌍(feature pairs)들의 변동이 얼마나 닮았는가(다른 말로는 얼마만.. 2021. 5. 27.
n131 벡터와 행렬(vector and matrices)/ 선형대수 *선형대수 -구성조각 '벡터(vector)' -가까운 정도를 측정하기 위해 '손실함수' -인과관계를 수로 표현할려하되 어떻게 해서든 선형적인 관계로서 이해 ==> 선형적인 관계가 되도록 미분을 하고 모은것들을 적분 *Data Structure = list 1D = [ 순서가 바뀌면 안됨 ] // *set 집합에서는 순서가 달라도 상관없음 2D = pd.DataFrame *벡터 (원점에 뿌리를 둠) a[2, 1] == matrices / 벡터의 길이라고보면됨 a== Scalar // 차원수 (= 선형결합) 벡터 scaling = 벡터의 길이를 늘리거나 방향을 뒤집는것 *벡터의 크기 (Magnitude, Norm, Length) 벡터의 Norm 혹은 Magnitude는 단순히 길이에 지나지 않습니다. 벡터는.. 2021. 5. 22.
N123 중심극한정리( Central Limit Theorem, CLT) *중심극한정리 ( Central Limit Theorem, CLT ) - sample 데이터의 수가 많아질 수록, sample의 평균은 정규분포에 근사한 형태로 나타난다. *큰 수의 법칙 ( Law of large numbers ) sample 데이터의 수가 커질 수록, sample의 통계치는 점점 모집단의 모수와 같아진다. **표본의 크기 >= 30 가 되야 크다고 본다(작으면 비모수적 방법 적용) '큰수의 법칙'은 표본 크기가 무한히 커짐에 따라 표본평균이 모평균으로 "확률수렴"을 한다는 개념이고, '중심극한정리'는 표본 크기가 무한히 커짐에 따라 표준화한 표본평균의 분포가 표준정규분포로 "분포수렴"하는 개념 정규분포(Normal Distribution)는 특정 값의 출현 비율을 그렸을 때, 중심(평.. 2021. 5. 19.
N124 'Bayes Theorem' https://www.youtube.com/watch?v=RCf4KZa9IfQ 참고 '불가능한 것을 다 제거하고 나면 남는 것은 아무리 사실과 멀어보일지라도 진실임이 틀림없다.' 'Bayes Theorem' / Bayesian Inference 사전의 지식을 이벤트에 반영하는 추론 방식 입니다. -아무 정보가 없는 상황에서 확률을 동등하게 생각하고(= 이유 불충분의 원리) 추가된 데이터를 통해 업데이트하여 확률을 구함. *베이즈 정리는 새로운 정보를 토대로 어떤 사건이 발생했다는 주장에 대한 신뢰도를 갱신해 나가는 방법 베이지안은 과거의 사건이 현재 사건에 영향을 끼친다는 입장 *조건부확률( the law of Conditional Probility) -전확률( the law of total probab.. 2021. 5. 18.
N122 T-test++(카이제곱) col = ['', '' ,''] row = ['', '', ''] df.columns = col df.index.name = None ==>?? df = df.reindex(index = row ) random.binominal(n=, p=, size=) 이항분포// size가 시행횟수 from scipy.stats import binom_test binom_test(564, n=, p=) // n이 시행힛수 이항 검정은 범주가 2개로 자료에만 사용할 수 있다. 만약 범주가 3개 이상인 경우에는 카이제곱 검정을 사용해야 한다. 행과 열을 조합해서 발생할 수 있는 경우의 수를 행열로 만들어놓고 활용하면 편하다. from google.colab import files df_before = files.upl.. 2021. 5. 15.
728x90