상관계수
1. 공분산
- 공분산의 정의
두 확률변수 의 기대값을 각각
라고 하자. 공분산
는 다음과 같이 정의한다.
- 공분산의 의미
공분산은 두 개의 확률 변수 간의관계를 보여준다. 확률변수 X가 평균으로부터 큰 값을 가질 때, Y역시 큰 값을 가지는 경향이 생기면 둘 사이의 공분산은 양의 값을 가진다. 반대로, 확률변수 Y가 작은 값을 가지는 경향이 생기면 공분산은 음의 값을 가진다. 공분산의 크기가 0이라면 두 확률변수는 서로 관계가 없음을 의미한다. 이때 두 확률변수가 서로 독립이라고 말한다.
단, 공분산은 두 확률 변수 간의 관계를 보여주는 정보로 사용 가능하지만, 절대적인 값으로 활용 하지는 못한다. 확률변수의 측정 단위에 따라 그 값이 크게 달라진다. 두 변수 사이의 관계를 보여주는 절대적인 값으로는 다음에 설명할 ‘상관계수’를 사용한다.
- 공분산의 성질
기대값의 성질을 이용하여 다음과 공분산의 식을 아래와 같이 정리 할 수 있다.
<!--[endif]-->
- 공분산 예시
투수의 평균구속과 방어율 사이에 상관관계가 있는지 확인해보기 위해, 공분산을 구해보자. 자료는 2017년 7월 12일 기준, 투수 WAR 상위 20명을 대상으로 실시하였다. 자료는 스탯티즈에서 참고했다. 공분산의 계산 과정은 그리 복잡하지 않으므로 엑셀을 이용하여 쉽게 구할 수 있다. 아래 도표는 계산을 위해 사용한 기본 데이터 이다.
투수 WAR 상위 20명의 평균 구속과 방어율 사이의 공분산은 -1.18이 나왔다. 음의 상관관계로 방어율이 낮을수록, 평균 구속은 높은 것이라는 일반적인 상식과 일치하는 결과가 나왔다. 아래 그래프를 보더라도 두 확률변수 사이에 음의 상관관계를 가진 것이 보여진다.
다른 결과와 비교해보기 위해서 같은 집단을 대상으로 방어율과 9이닝당 볼넷 개수로 공분산을 구했다. 결과는 0.01로 양의 상관관계에 있기는 하나 두 확률 변수 사이에는 연관 관계가 없는 것으로 나타났다. 아래 도표만 보더라도 두 변수 사이에 상관관계가 잘 보이지 않는다.
2. 상관계수
공분산의 경우 두 변수 사이의 연관 관계를 나타내주는 지표이지만, 값이 절대적이지는 않는다. 공분산은 측정 단위의 영향을 받기 때문이다. 많은 관계들 사이에서 어느 관계가 더 큰 상관관계를 갖는지 알 수 없다. 측정 단위의 영향이 없는 절대적인 상관관계를 알기 위해 상관계수를 이용한다.
- 상관계수의 정의
상관계수는 공분산을 각각의 확률 변수의 표준편차 곱으로 나눈다.
상관 계수의 값은 반드시 -1과 1사이를 갖게 된다.
- 상관계수의 의미
상관계수가 1이라면 두 확률 변수는 완전 비례관계, -1이라면 완전 반비례관계, 0이라면 두 변수는 아무런 관계가 없는 독립 상태임을 의미한다.
- 상관계수의 활용
상관계수는 회귀 분석에서 많이 사용되는 지표이다. 회귀식이 유의한지 판단하는 기준으로 상관계수 R의 제곱값을 사용한다. 만약 제곱값이 0.65보다 크다면 해당 회귀식은 유의하다고 판단된다.
- 상관관계 예시
위에서 구한 평균 구속과 방어율 사이의 상관계수를 구해보자. 20명의 야구선수의 평균 구속과 방어율 표준편차만 구한다면 쉽게 구할 수 있다. 역시 엑셀을 통해 값을 구했다.
결과는 -0.2880이 나왔다. 최대값을 1로 하였을 때, 두 확률 변수는 저 정도의 상관관계를 보였다. 엑셀의 추세선 기능을 이용한다면 쉽게 회귀식을 구할 수 있다. 그 결과는 다음과 같다.
즉, R의 값이 0.083으로 나왔고, 위 회귀식은 유의한 결과를 지니지는 못한다. 종합해보면 투수WAR 상위 20명을 집단으로 했을 때, 평균 구속과 방어율 사이의 관계는 음의 상관관계를 가진다. 평균 구속이 높은 투수가 방어율이 낮은 경향을 나타낸다. 하지만 이를 예측하기 위한 회귀식은 유의한 결과를 나타내지는 못한다. 평균 구속이 높으면 방어율이 낮아지는 것은 사실이나, 방어율을 이용해 평균 구속을 구하는 회귀식이 의미가 있지는 않는다.