본문 바로가기
통계, EDA, 선형대수/Linear Algebra

n132 공분산과 상관계수 cov, corr/ vector

by kiimy 2021. 5. 27.
728x90
728x90

분산, 표준편차

* 분산은, 데이터가 얼마나 퍼져있는지를 측정하는 방법

= (관측값과 평균의 차)를 제곱한 값을 모두 더하고 관측값 개수로 나눈 값

= 차이 값의 제곱의 평균

 

* 분산을 구하는 과정에서 제곱 값들을 더하게 되는데 이는 평균에 비해서 스케일이 커지는 문제가 발생

  ==> 표준 편차(= 분산을 제곱근)는 이를 해결 하기 위해서 제곱 된 스케일을 낮춘 방법

Covariance (DataFrame.cov())

Pearson correlation

  • Covariance란, 1개의 변수 값이 변화할 때 다른 변수가 어떠한 연관성을 나타내며 변하는지를 측정하는 것
  • => 하나가 증가할때 다른 하나도 증가하는 경향을 파악하는 것
  • 특징 쌍(feature pairs)들의 변동이 얼마나 닮았는가(다른 말로는 얼마만큼이나 함께 변하는가)

*분산과 공분산의 차이

-분산= 1차원/ 하나의 변수의 평균값을 중심으로 퍼져있는 거리

-공분산= 2차원/ 두 데이터의 변수의 평균값을 기준(= 방향성을 가지고 있음) + , -

즉, 공변량을 가지고있음(ex. x가 증가할때 y도 증가한다)

 

분산은 차이값의 제곱의 평균 이기때문에 양수만 가질 수 있음 /
공분산은 음수, 양수 가질수있음

 

[808 762]      <=== 분산은 808, 925 / 공분산은 762

[762 925]       공분산이 양수면 같은 방향으로 증가한다는 그래프가 나오고/ 음수면 감소 그래프

But

1. 공분산은 방향만 가지고 있지 크기는 알수가 없음 

2. 측정단위(확률변수의 단위 크기)에 영향을 많이 받음(수치가 큰 값)

= 상관계수(= 확률변수의 절대적 크기에 영향을 받지 않도록 공분산을 단위화시킨 것)를 사용함

Correlation coefficient (DataFrame.corr())

분산에서 스케일을 조정하기 위해 표준편차를 사용했던 것처럼, 공분산도 표준화 시킬 수 있음

 

*데이터의 평균과 분산의 크기에 영향이 없고 크기를 가짐(= -1 0 1 / 1과 -1로 갈수록 크다 할수 있음)

=공분산을 두 변수의 표준편차로 각각 나눠주면 스케일을 조정할 수 있으며 상관계수라고 부릅니다

 

Span

Span 이란, 주어진 두 벡터의 (합이나 차와 같은) 조합으로 만들 수 있는 모든 가능한 벡터의 집합

선형 관계의 벡터 (Linearly Dependent Vector)

- 선형 종속관계

선형 관계가 없는 벡터 (Linearly Independent Vectors)

- 수직인 벡터만 상관 관계가 전혀 없다

Basis

벡터 공간의 V basis 는, V라는 공간을 채울 수 있는 선형 관계에 있지 않은 벡터들의 모음( span 의 역개념 )

 

Rank

  • 매트릭스의 rank란, 매트릭스의 열을 이루고 있는 벡터들로 만들 수 있는 (span) 공간의 차원
  • 매트릭스의 차원과는 다를 수도 있으며 그 이유는 행과 열을 이루고 있는 벡터들 가운데 서로 선형 관계가 있을 수도 있기 때문 ( 대표적인 가우시안 소거법이 있음)

Linear Projection = 벡터의 내적

- 기하학적으로는 정사영

- 차원축소 중 하나 // np.matmul(Normalize값, vector)

어떤 물체의 거리를 알 때, 카메라가 촬영하는 방향으로의 깊이 정보를 알고 싶을 때, projection을 통하여 구할 수 있다

= 벡터 b의 변화를 벡터 a가 얼마만큼 설명해줄 수 있는가

벡터의 내적, 외적

두 벡터 v1 = (x1,y1), v2 = (x2,y2)에 대해 그 사이각을 Theta라 했을 때
벡터의 외적

<PCA>

https://cord-ai.tistory.com/13

 

n133 eigenvalue/eigenvector 주성분분석(PCA)

from sklearn.preprocessing import StandardScaler, Normalizer from sklearn.decomposition import PCA fit() : 평균 𝜇과 표준편차 𝜎를 계산 transform() : ​정규화/표준화, Standardization fit_trasform() : fit() + transform() fit() -데이

cord-ai.tistory.com

https://darkpgmr.tistory.com/121

 

두 직선, 벡터의 관계(사이각,회전각) 구하기

두 직선이 이루는 각 또는 두 벡터가 이루는 각을 구하는 문제는 영상처리나 각종 프로그래밍을 하다보면 필요한 경우가 많습니다. 그런데 그때마다 식을 세우는 것은 좀 번거롭기 때문에 이곳

darkpgmr.tistory.com

 

728x90

댓글