PCA2 n134 Clustering 군집분석 from sklearn.datasets import make_blobs from sklearn import decomposition from sklearn.decomposition import PCA from sklearn.cluster import KMeans from sklearn.preprocessing import StandardScaler *군집분석이란? 변수들이 속한 모집단 or 범주에 대한 사전정보가 없는 경우 ==> 1. 관측값 사이의 거리(유사도) euclidean 2. 유사성을 이용하여 개체들을 몇개의 그룹으로 나눈다 3. 군집으로 나누는 분석법 KMean Clustering(= 데이터의 연관된 feature를 바탕으로 유사한 그룹생성) *목적 Clustering이 대답할수 있는 질문은.. 2021. 5. 29. n133 eigenvalue/eigenvector 주성분분석(PCA) from sklearn.preprocessing import StandardScaler, Normalizer from sklearn.decomposition import PCA fit() : 평균 𝜇과 표준편차 𝜎를 계산 transform() : 정규화/표준화, Standardization fit_trasform() : fit() + transform() fit() -데이터를 학습시키는 메서드 transform() - 학습시킨 것을 적용하는 메서드 So, Test data set에는 적용하면 안됨! = sclaer가 기존에 학습 데이터에 fit한 기준을 다 무시하고 테스트 데이터에 새로운 mean, variance값을 얻으면서 테스트 데이터까지 학습해버린다. 테스트 데이터는 검증을 위해 남겨둔 Set .. 2021. 5. 27. 이전 1 다음