본문 바로가기
728x90

통계, EDA, 선형대수/Linear Algebra4

n134 Clustering 군집분석 from sklearn.datasets import make_blobs from sklearn import decomposition from sklearn.decomposition import PCA from sklearn.cluster import KMeans from sklearn.preprocessing import StandardScaler *군집분석이란? 변수들이 속한 모집단 or 범주에 대한 사전정보가 없는 경우 ==> 1. 관측값 사이의 거리(유사도) euclidean 2. 유사성을 이용하여 개체들을 몇개의 그룹으로 나눈다 3. 군집으로 나누는 분석법 KMean Clustering(= 데이터의 연관된 feature를 바탕으로 유사한 그룹생성) *목적 Clustering이 대답할수 있는 질문은.. 2021. 5. 29.
n133 eigenvalue/eigenvector 주성분분석(PCA) from sklearn.preprocessing import StandardScaler, Normalizer from sklearn.decomposition import PCA fit() : 평균 𝜇과 표준편차 𝜎를 계산 transform() : ​정규화/표준화, Standardization fit_trasform() : fit() + transform() fit() -데이터를 학습시키는 메서드 transform() - 학습시킨 것을 적용하는 메서드 So, Test data set에는 적용하면 안됨! = sclaer가 기존에 학습 데이터에 fit한 기준을 다 무시하고 테스트 데이터에 새로운 mean, variance값을 얻으면서 테스트 데이터까지 학습해버린다. 테스트 데이터는 검증을 위해 남겨둔 Set .. 2021. 5. 27.
n132 공분산과 상관계수 cov, corr/ vector 분산, 표준편차 * 분산은, 데이터가 얼마나 퍼져있는지를 측정하는 방법 = (관측값과 평균의 차)를 제곱한 값을 모두 더하고 관측값 개수로 나눈 값 = 차이 값의 제곱의 평균 * 분산을 구하는 과정에서 제곱 값들을 더하게 되는데 이는 평균에 비해서 스케일이 커지는 문제가 발생 ==> 표준 편차(= 분산을 제곱근)는 이를 해결 하기 위해서 제곱 된 스케일을 낮춘 방법 Covariance (DataFrame.cov()) Pearson correlation Covariance란, 1개의 변수 값이 변화할 때 다른 변수가 어떠한 연관성을 나타내며 변하는지를 측정하는 것 => 하나가 증가할때 다른 하나도 증가하는 경향을 파악하는 것 특징 쌍(feature pairs)들의 변동이 얼마나 닮았는가(다른 말로는 얼마만.. 2021. 5. 27.
n131 벡터와 행렬(vector and matrices)/ 선형대수 *선형대수 -구성조각 '벡터(vector)' -가까운 정도를 측정하기 위해 '손실함수' -인과관계를 수로 표현할려하되 어떻게 해서든 선형적인 관계로서 이해 ==> 선형적인 관계가 되도록 미분을 하고 모은것들을 적분 *Data Structure = list 1D = [ 순서가 바뀌면 안됨 ] // *set 집합에서는 순서가 달라도 상관없음 2D = pd.DataFrame *벡터 (원점에 뿌리를 둠) a[2, 1] == matrices / 벡터의 길이라고보면됨 a== Scalar // 차원수 (= 선형결합) 벡터 scaling = 벡터의 길이를 늘리거나 방향을 뒤집는것 *벡터의 크기 (Magnitude, Norm, Length) 벡터의 Norm 혹은 Magnitude는 단순히 길이에 지나지 않습니다. 벡터는.. 2021. 5. 22.
728x90