1. 정의 - 대표적인 지도학습 모델 - 주로 불연속 데이터를 다움 2. 장점 - 강건한 모델이다 (중단되거나 에러가 나올 확률이 적다) - 알고리즘 이해가 쉽다 - 수치형 자료, 범주형 자료 모두 적용 가능 3. 구조 의사결정 트리의 알고리즘은 루트(Root)로 부터 시작하여, 줄기(Branch), 잎(Leaf)의 순서로 하향식 의사결정 구조를 띈다. 각 의사결정 노드(node)에서 인스턴스의 속성이 결정된다. 예를 들어 오늘 저녁에 먹을 음식을 고른다고 하자. 첫번째 질문을 '양식인가?'로 시작하여 Yes/No로 구분한다. 다음 질문은 '채소인가 고기인가?'와 같이 연속적으로 의사결정 분기를 만들게 되면 최종적으로 잎에서는 내가 오늘 먹을 음식이 나오게 된다. 좋은 의시결정 트리는 노드 수를 최소화해..
1. 정의 학습 데이터가 벡터 공간에 위치 한다고 생각하고, 선형 분리자를 찾는 기하학적 모델 2. 특징 - 두 그룹을 구분하는 직선식을 찾는다. 직선식을 사이에 두고 최대한 두 그룹이 멀리 떨어져 있어야 한다. - 사전 학습이 있는 지도 학습 - 데이터를 2개의 그룹으로 분류함 - 벡터 공간은 각각 좌표계에 학습 데이터가 위치한 공간 3. SVM 모델 - 두 개의 그룹을 분리하는 직선 을 찾는다. - w는 직선에 수직은 법선 벡터이고, 크기는 w의 절대값이다. - w는 직선을 회전시키는 성질을 갖는다. - b는 스칼라 상수이고, b 값에 따라 직선이 상하좌우로 평행이동한다. - w*x 는 스칼라 곱으로도 표현 가능하고, 그 값은 w*x*cos z로 계산된다. (z: 두 벡터 사이의 각도) - 구한 값의..
1. 정의 새로운 데이터가 어느 그룹에 속하는지 분류하기 위해 그 데이터에 가장 가까이에 있는 학습 데이터가 속한 그룹을 알아보는 것 2. 특징 - 레이블이 있는 데이터 세트를 가지고 있는 지도학습 - 학습을 사전에 하지 않고, 새로운 데이터 태스크 요청이 오면 그때 일을 수행함 - 인스턴스 기반, 메모리 기반 러닝 3. 분석 과정 1) 먼저 레이블된 학습 데이터들의 특성을 정량화하여 좌표공간에 표현하는 작업 수행 2) 알고자 하는 데이터를 중심으로 가상의 원을 확장해 가다 k개 데이터가 발견되면 그 데이터가 속해있는 그룹이 새로운 데이터 그룹이 된다. k의 수에 따라 발견해야 하는 데이터의 개수가 늘어난다. - k는 홀수여아 의사결정이 가능하다. - k가 너무 작으면 노이즈에 민감하게 반응한다. (오버..
1. 정의 새로운 데이터가 어느 그룹에 속하는지 분류하기 위해 그 데이터에 가장 가까이에 있는 학습 데이터가 속한 그룹을 알아보는 것 2. 특징 - 레이블이 있는 데이터 세트를 가지고 있는 지도학습 - 학습을 사전에 하지 않고, 새로운 데이터 태스크 요청이 오면 그때 일을 수행함 - 인스턴스 기반, 메모리 기반 러닝 3. 분석 과정 1) 먼저 레이블된 학습 데이터들의 특성을 정량화하여 좌표공간에 표현하는 작업 수행 2) 알고자 하는 데이터를 중심으로 가상의 원을 확장해 가다 k개 데이터가 발견되면 그 데이터가 속해있는 그룹이 새로운 데이터 그룹이 된다. k의 수에 따라 발견해야 하는 데이터의 개수가 늘어난다. - k는 홀수여아 의사결정이 가능하다. - k가 너무 작으면 노이즈에 민감하게 반응한다. (오버..
우리가 표본집단을 이용해 확률을 정의하는 데에는 2가지 방법이 있다. 바로 빈도론과 베이지안론이다. 2가지 방법은 각각의 장단점이 있으므로 필요에 따라 잘 이용해야한다. 1. 빈도론 1. 1 정의 - 특정한 사건이 얼마나 반복되어 발생하는 지를 바탕으로 가설을 검증 - 통계적 유의성을 이용하여 p-value를 구한다. 1. 2 귀무가설과 독림가설 - 귀무가설 : 기각을 할 것으로 예상하고 세우는 가설, 귀무가설이 거짓임을 밝혀내어 확률을 구한다. - 대립가설 : 귀무가설이 기각 되었을때 대체되어 참이 되는 가설 예를 들어 토너먼트 축구 경기의 승패를 한 평론가가 예측한다고 가정하자. 무승부는 없고 무조건 승과 패로만 이루어져있다. 이 평론가가 우연히 찍어서 답을 맞추는 건지, 아니면 승패를 예측하고 맞추..
1. 로지스틱 회귀(Logistic Regression) - 종속변수가 2가지 범주형으로 표현될 때 로지스틱 회귀를 사용한다.Ex) 예/아니오, 구매/비구매, 성공/실패... - 로지스틱 회귀에서는 출력값이 (0,1)의 경계로 결정된다. - 로지스틱은 이산형 변수를 가질 경우 사용한다. 2. 로지스틱 함수 사용 방법 로지스틱 모형의 경우 독립변수에 어떤 값이 오더라도 종속변수 혹은 결과 값이 0 과 1사이의 값이 와야한다. 로지스틱 함수가 사용되는 경우는 여러 독립변수(X_i)들로 수식을 유도하여, 그 결과 값에 따라 종속변수(Y_i)가 0,1로 결정된다. 이 과정을 위키백과 영문에 있는 한 예시를 이용하여 설명해보도록 하겠다. "만약 20의 학생이 0~6시간 동안 공부하여 시험에서 합격 혹은 불합격을 ..
1. 회귀 분석(Regression Analysis) 회귀 분석은 두 변수 사이의 연관성을 분석할 때 가장 많이 사용하는 방법이다. 회귀분석은 독립변수와 종속변수의 관계를 함수식으로 설명한다. - 종속변수 : 우리가 알고 싶어하는 결과 값 - 독립변수 : 종속변수에 영향을 주는 값 ex) 학생들의 키를 가지고 몸무게를 예측하고자 한다면, 키 : 독립변수, 몸무게 : 종속변수 2. 선형 회귀란? 선형은 독립변수가 1차항으로 되어있음을 의미한다. 즉, 독립변수에 지수항이 존재한다면, 비선형이 되므로 선형 회귀분석이 불가능하다. 선형 회귀식을 풀기 위해서 가장 많이 사용하는 방식은 '최소제곱법'이다. 3. 회귀 분석 방법 독립변수가 1개인 선형 회귀식은 아래와 같이 나올 것이라고 가정한다. 이 식을 바탕으로 ..
1. 공분산 - 공분산의 정의두 확률변수 의 기대값을 각각 라고 하자. 공분산 는 다음과 같이 정의한다. - 공분산의 의미공분산은 두 개의 확률 변수 간의관계를 보여준다. 확률변수 X가 평균으로부터 큰 값을 가질 때, Y역시 큰 값을 가지는 경향이 생기면 둘 사이의 공분산은 양의 값을 가진다. 반대로, 확률변수 Y가 작은 값을 가지는 경향이 생기면 공분산은 음의 값을 가진다. 공분산의 크기가 0이라면 두 확률변수는 서로 관계가 없음을 의미한다. 이때 두 확률변수가 서로 독립이라고 말한다.단, 공분산은 두 확률 변수 간의 관계를 보여주는 정보로 사용 가능하지만, 절대적인 값으로 활용 하지는 못한다. 확률변수의 측정 단위에 따라 그 값이 크게 달라진다. 두 변수 사이의 관계를 보여주는 절대적인 값으로는 다음..
1. 머신러닝(Machine Learning)의 정의 톰 미첼(카네기멜론 대학교)의 정의"A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E" 만약 컴퓨터 프로그램이 태스크 T를 수행할 때 경험 E로부터 성능 P만큼 개선되었다면 그 컴퓨터 프로그램은 태스크 T와 성능 P에 대해 경험 E에 대한 학습을 했다고 할 수 있다. (필기체를 보고 글자를 인식하는 머신러닝 프로그래밍을 한다고 가정한다면)태스크 T: 필..