Knowledge/인공지능

상관계수

gyulee0220 2018. 1. 21. 12:21

1. 공분산

  - 공분산의 정의

두 확률변수 X%2CY%20의 기대값을 각각 %5Cmu%20X%2C%5Cquad%20%5Cmu%20Y%20라고 하자공분산 Cov(X%2CY)%20는 다음과 같이 정의한다.

Cov(X%2CY)%3DE%5B(X-%5Cmu%20X)(Y-%5Cmu%20Y)%5D%20 


공분산의 의미

공분산은 두 개의 확률 변수 간의관계를 보여준다확률변수 X가 평균으로부터 큰 값을 가질 때, Y역시 큰 값을 가지는 경향이 생기면 둘 사이의 공분산은 양의 값을 가진다반대로확률변수 Y가 작은 값을 가지는 경향이 생기면 공분산은 음의 값을 가진다공분산의 크기가 0이라면 두 확률변수는 서로 관계가 없음을 의미한다이때 두 확률변수가 서로 독립이라고 말한다.

단, 공분산은 두 확률 변수 간의 관계를 보여주는 정보로 사용 가능하지만절대적인 값으로 활용 하지는 못한다확률변수의 측정 단위에 따라 그 값이 크게 달라진다두 변수 사이의 관계를 보여주는 절대적인 값으로는 다음에 설명할 상관계수를 사용한다.


- 공분산의 성질

 기대값의 성질을 이용하여 다음과 공분산의 식을 아래와 같이 정리 할 수 있다.

Cov(X%2CY)%3DE%5B(X-%5Cmu%20X)(Y-%5Cmu%20Y)%5D%20 

<!--[endif]-->

Cov(X%2CY)%3DE%5B(XY-X*%5Cmu%20Y-%5Cmu%20X*Y%2B%5Cmu%20X*%5Cmu%20Y)%5D%20

Cov(X%2CY)%3DE(XY)-X*E(Y)-Y*E(X)%2BXY%20

E(X)%3D%5Cmu%20X%EC%9D%B4%EA%B3%A0%2CE(Y)%3D%5Cmu%20Y%EC%9D%B4%EB%AF%80%EB%A1%9C%2C%20

Cov(X%2CY)%3DE(XY)-XY%20

Cov(X%2CY)%3DE(XY)-E(X)E(Y)%20


 - 공분산 예시

 투수의 평균구속과 방어율 사이에 상관관계가 있는지 확인해보기 위해공분산을 구해보자자료는 2017년 7월 12일 기준투수 WAR 상위 20명을 대상으로 실시하였다자료는 스탯티즈에서 참고했다공분산의 계산 과정은 그리 복잡하지 않으므로 엑셀을 이용하여 쉽게 구할 수 있다아래 도표는 계산을 위해 사용한 기본 데이터 이다.


 투수 WAR 상위 20명의 평균 구속과 방어율 사이의 공분산은 -1.18이 나왔다음의 상관관계로 방어율이 낮을수록평균 구속은 높은 것이라는 일반적인 상식과 일치하는 결과가 나왔다아래 그래프를 보더라도 두 확률변수 사이에 음의 상관관계를 가진 것이 보여진다

 다른 결과와 비교해보기 위해서 같은 집단을 대상으로 방어율과 9이닝당 볼넷 개수로 공분산을 구했다결과는 0.01로 양의 상관관계에 있기는 하나 두 확률 변수 사이에는 연관 관계가 없는 것으로 나타났다아래 도표만 보더라도 두 변수 사이에 상관관계가 잘 보이지 않는다.


2. 상관계수

  공분산의 경우 두 변수 사이의 연관 관계를 나타내주는 지표이지만값이 절대적이지는 않는다공분산은 측정 단위의 영향을 받기 때문이다많은 관계들 사이에서 어느 관계가 더 큰 상관관계를 갖는지 알 수 없다측정 단위의 영향이 없는 절대적인 상관관계를 알기 위해 상관계수를 이용한다.

 

상관계수의 정의

  상관계수는 공분산을 각각의 확률 변수의 표준편차 곱으로 나눈다

%5Crho%20(X%2CY)%3D%5Cfrac%20%7B%20Cov(X%2CY)%20%7D%7B%20%5Ccombi%20_%7B%20x%20%7D%7B%20%5Csigma%20%20%7D%5Cquad%20%5Ctimes%20%5Cquad%20%5Ccombi%20_%7B%20y%20%7D%7B%20%5Csigma%20%20%7D%20%7D%20

상관 계수의 값은 반드시 -1과 1사이를 갖게 된다.

-1%5Cle%20%5Crho%20(X%2CY)%5Cle%201%20


상관계수의 의미

  상관계수가 1이라면 두 확률 변수는 완전 비례관계, -1이라면 완전 반비례관계, 0이라면 두 변수는 아무런 관계가 없는 독립 상태임을 의미한다

R%3D1%5Cquad%20%3A%5Cquad%20%EC%99%84%EC%A0%84%EB%B9%84%EB%A1%80%EA%B4%80%EA%B3%84%20

 0%3CR%3C1%5Cquad%20%3A%5Cquad%20%EC%96%91%EC%9D%98%EC%83%81%EA%B4%80%EA%B4%80%EA%B3%84%20

R%3D0%5Cquad%20%3A%5Cquad%20%EC%84%9C%EB%A1%9C%EA%B4%80%EA%B3%84%EA%B0%80%EC%97%86%EC%9D%8C(%EB%8F%85%EB%A6%BD)%20

-1%3CR%3C0%3A%EC%99%84%EC%A0%84%EB%B9%84%EB%A1%80%EA%B4%80%EA%B3%84%20

R%3D-1%3A%EC%99%84%EC%A0%84%EB%B0%98%EB%B9%84%EB%A1%80%EA%B4%80%EA%B3%84%20


상관계수의 활용

  상관계수는 회귀 분석에서 많이 사용되는 지표이다회귀식이 유의한지 판단하는 기준으로 상관계수 R의 제곱값을 사용한다만약 제곱값이 0.65보다 크다면 해당 회귀식은 유의하다고 판단된다.

R%5E%7B%202%20%7D%5Cge%200.65%20


상관관계 예시

위에서 구한 평균 구속과 방어율 사이의 상관계수를 구해보자. 20명의 야구선수의 평균 구속과 방어율 표준편차만 구한다면 쉽게 구할 수 있다역시 엑셀을 통해 값을 구했다.

결과는 -0.2880이 나왔다최대값을 1로 하였을 때두 확률 변수는 저 정도의 상관관계를 보였다엑셀의 추세선 기능을 이용한다면 쉽게 회귀식을 구할 수 있다그 결과는 다음과 같다.

, R의 값이 0.083으로 나왔고위 회귀식은 유의한 결과를 지니지는 못한다종합해보면 투수WAR 상위 20명을 집단으로 했을 때평균 구속과 방어율 사이의 관계는 음의 상관관계를 가진다평균 구속이 높은 투수가 방어율이 낮은 경향을 나타낸다하지만 이를 예측하기 위한 회귀식은 유의한 결과를 나타내지는 못한다평균 구속이 높으면 방어율이 낮아지는 것은 사실이나방어율을 이용해 평균 구속을 구하는 회귀식이 의미가 있지는 않는다.