1. 정의 - 대표적인 지도학습 모델 - 주로 불연속 데이터를 다움 2. 장점 - 강건한 모델이다 (중단되거나 에러가 나올 확률이 적다) - 알고리즘 이해가 쉽다 - 수치형 자료, 범주형 자료 모두 적용 가능 3. 구조 의사결정 트리의 알고리즘은 루트(Root)로 부터 시작하여, 줄기(Branch), 잎(Leaf)의 순서로 하향식 의사결정 구조를 띈다. 각 의사결정 노드(node)에서 인스턴스의 속성이 결정된다. 예를 들어 오늘 저녁에 먹을 음식을 고른다고 하자. 첫번째 질문을 '양식인가?'로 시작하여 Yes/No로 구분한다. 다음 질문은 '채소인가 고기인가?'와 같이 연속적으로 의사결정 분기를 만들게 되면 최종적으로 잎에서는 내가 오늘 먹을 음식이 나오게 된다. 좋은 의시결정 트리는 노드 수를 최소화해..
1. 정의 학습 데이터가 벡터 공간에 위치 한다고 생각하고, 선형 분리자를 찾는 기하학적 모델 2. 특징 - 두 그룹을 구분하는 직선식을 찾는다. 직선식을 사이에 두고 최대한 두 그룹이 멀리 떨어져 있어야 한다. - 사전 학습이 있는 지도 학습 - 데이터를 2개의 그룹으로 분류함 - 벡터 공간은 각각 좌표계에 학습 데이터가 위치한 공간 3. SVM 모델 - 두 개의 그룹을 분리하는 직선 을 찾는다. - w는 직선에 수직은 법선 벡터이고, 크기는 w의 절대값이다. - w는 직선을 회전시키는 성질을 갖는다. - b는 스칼라 상수이고, b 값에 따라 직선이 상하좌우로 평행이동한다. - w*x 는 스칼라 곱으로도 표현 가능하고, 그 값은 w*x*cos z로 계산된다. (z: 두 벡터 사이의 각도) - 구한 값의..
1. 정의 새로운 데이터가 어느 그룹에 속하는지 분류하기 위해 그 데이터에 가장 가까이에 있는 학습 데이터가 속한 그룹을 알아보는 것 2. 특징 - 레이블이 있는 데이터 세트를 가지고 있는 지도학습 - 학습을 사전에 하지 않고, 새로운 데이터 태스크 요청이 오면 그때 일을 수행함 - 인스턴스 기반, 메모리 기반 러닝 3. 분석 과정 1) 먼저 레이블된 학습 데이터들의 특성을 정량화하여 좌표공간에 표현하는 작업 수행 2) 알고자 하는 데이터를 중심으로 가상의 원을 확장해 가다 k개 데이터가 발견되면 그 데이터가 속해있는 그룹이 새로운 데이터 그룹이 된다. k의 수에 따라 발견해야 하는 데이터의 개수가 늘어난다. - k는 홀수여아 의사결정이 가능하다. - k가 너무 작으면 노이즈에 민감하게 반응한다. (오버..