분산, 표준편차
* 분산은, 데이터가 얼마나 퍼져있는지를 측정하는 방법
= (관측값과 평균의 차)를 제곱한 값을 모두 더하고 관측값 개수로 나눈 값
= 차이 값의 제곱의 평균
* 분산을 구하는 과정에서 제곱 값들을 더하게 되는데 이는 평균에 비해서 스케일이 커지는 문제가 발생
==> 표준 편차(= 분산을 제곱근)는 이를 해결 하기 위해서 제곱 된 스케일을 낮춘 방법
Covariance (DataFrame.cov())
Pearson correlation
- Covariance란, 1개의 변수 값이 변화할 때 다른 변수가 어떠한 연관성을 나타내며 변하는지를 측정하는 것
- => 하나가 증가할때 다른 하나도 증가하는 경향을 파악하는 것
- 특징 쌍(feature pairs)들의 변동이 얼마나 닮았는가(다른 말로는 얼마만큼이나 함께 변하는가)
*분산과 공분산의 차이
-분산= 1차원/ 하나의 변수의 평균값을 중심으로 퍼져있는 거리
-공분산= 2차원/ 두 데이터의 변수의 평균값을 기준(= 방향성을 가지고 있음) + , -
즉, 공변량을 가지고있음(ex. x가 증가할때 y도 증가한다)
분산은 차이값의 제곱의 평균 이기때문에 양수만 가질 수 있음 /
공분산은 음수, 양수 가질수있음
[808 762] <=== 분산은 808, 925 / 공분산은 762
[762 925] 공분산이 양수면 같은 방향으로 증가한다는 그래프가 나오고/ 음수면 감소 그래프
But
1. 공분산은 방향만 가지고 있지 크기는 알수가 없음
2. 측정단위(확률변수의 단위 크기)에 영향을 많이 받음(수치가 큰 값)
= 상관계수(= 확률변수의 절대적 크기에 영향을 받지 않도록 공분산을 단위화시킨 것)를 사용함
Correlation coefficient (DataFrame.corr())
분산에서 스케일을 조정하기 위해 표준편차를 사용했던 것처럼, 공분산도 표준화 시킬 수 있음
*데이터의 평균과 분산의 크기에 영향이 없고 크기를 가짐(= -1 0 1 / 1과 -1로 갈수록 크다 할수 있음)
=공분산을 두 변수의 표준편차로 각각 나눠주면 스케일을 조정할 수 있으며 상관계수라고 부릅니다
Span
Span 이란, 주어진 두 벡터의 (합이나 차와 같은) 조합으로 만들 수 있는 모든 가능한 벡터의 집합
선형 관계의 벡터 (Linearly Dependent Vector)
- 선형 종속관계
선형 관계가 없는 벡터 (Linearly Independent Vectors)
- 수직인 벡터만 상관 관계가 전혀 없다
Basis
벡터 공간의 V basis 는, V라는 공간을 채울 수 있는 선형 관계에 있지 않은 벡터들의 모음( span 의 역개념 )
Rank
- 매트릭스의 rank란, 매트릭스의 열을 이루고 있는 벡터들로 만들 수 있는 (span) 공간의 차원
- 매트릭스의 차원과는 다를 수도 있으며 그 이유는 행과 열을 이루고 있는 벡터들 가운데 서로 선형 관계가 있을 수도 있기 때문 ( 대표적인 가우시안 소거법이 있음)
Linear Projection = 벡터의 내적
- 기하학적으로는 정사영
- 차원축소 중 하나 // np.matmul(Normalize값, vector)
어떤 물체의 거리를 알 때, 카메라가 촬영하는 방향으로의 깊이 정보를 알고 싶을 때, projection을 통하여 구할 수 있다
= 벡터 b의 변화를 벡터 a가 얼마만큼 설명해줄 수 있는가
벡터의 내적, 외적
<PCA>
https://cord-ai.tistory.com/13
https://darkpgmr.tistory.com/121
'통계, EDA, 선형대수 > Linear Algebra' 카테고리의 다른 글
n134 Clustering 군집분석 (0) | 2021.05.29 |
---|---|
n133 eigenvalue/eigenvector 주성분분석(PCA) (0) | 2021.05.27 |
n131 벡터와 행렬(vector and matrices)/ 선형대수 (0) | 2021.05.22 |
댓글