수학적 귀납법은 모든 자연수에 대하여 주어진 성질이 만족하는가 판단하는 중요한 증명 방법이다. 앞으로 프로그래밍을 하면서 풀게 되는 여러 명제들의 증명 방법에 대해 알기 쉬워지고, 동적 프로그래밍과도 연관성이 있기 때문에 수리논리학에서 기초적으로 많이 나오는 방법이다. 수학적 귀납법을 통하여 여러가지 명제에 대해 증명하는 법을 배워보자. 1. 공리와 귀납 논증 수학적 귀납법을 이해하기 위해서는 우선 공리에 대한 이해가 필요하다. 우리는 "1+1=2이다."라는 명제를 직관적으로 사용한다. 이와 같은 명제는 별도의 증명이 필요가 없다. 우리가 사용하는 수학 체계에서는 위 명제는 마치 진리와 같게 사용된다. 귀납 논증은 바로 공리에서 부터 시작된다. 귀납 논증은 '구체적 사실로 부터 보편적인 사실을 추론해 내..
1. 논리와 명제 논리는 한가지 현상에 대해서 주장하고 이를 증명하는 것을 의미한다. 예를들어 "사람들은 화장실에 가면 소변을 본다"라는 한가지 문장이 있다고 하자. 이 문장을 우리는 명제라고 한다. 이 처럼 한가지 현상을 주장하는 것을 논증이라 하고, 이미 우리가 알고있는 사실들을 통해 위 명제가 참인지 거짓인지 밝혀 내는 작업을 추론이라고 한다. 이와 같은 행위 자체를 논리라고 말하고, 논리를 연구하는 학문을 논리학이라고 한다. 명제란 앞에서 설명했듯이 참인지 거짓인지를 판별 할 수 있는 문장이어야 한다. 참인지 거짓인지 판별할 수 없는 문장은 명제가 아니다. 아래에 3가지 문장에 대해 명제인지 아닌지 판별한다면 다음과 같다. 지구는 둥글다. (참인 명제)프랑스는 아시아 대륙에 있다. (거짓인 명제)..
1. 정의 - 대표적인 지도학습 모델 - 주로 불연속 데이터를 다움 2. 장점 - 강건한 모델이다 (중단되거나 에러가 나올 확률이 적다) - 알고리즘 이해가 쉽다 - 수치형 자료, 범주형 자료 모두 적용 가능 3. 구조 의사결정 트리의 알고리즘은 루트(Root)로 부터 시작하여, 줄기(Branch), 잎(Leaf)의 순서로 하향식 의사결정 구조를 띈다. 각 의사결정 노드(node)에서 인스턴스의 속성이 결정된다. 예를 들어 오늘 저녁에 먹을 음식을 고른다고 하자. 첫번째 질문을 '양식인가?'로 시작하여 Yes/No로 구분한다. 다음 질문은 '채소인가 고기인가?'와 같이 연속적으로 의사결정 분기를 만들게 되면 최종적으로 잎에서는 내가 오늘 먹을 음식이 나오게 된다. 좋은 의시결정 트리는 노드 수를 최소화해..
1. 정의 학습 데이터가 벡터 공간에 위치 한다고 생각하고, 선형 분리자를 찾는 기하학적 모델 2. 특징 - 두 그룹을 구분하는 직선식을 찾는다. 직선식을 사이에 두고 최대한 두 그룹이 멀리 떨어져 있어야 한다. - 사전 학습이 있는 지도 학습 - 데이터를 2개의 그룹으로 분류함 - 벡터 공간은 각각 좌표계에 학습 데이터가 위치한 공간 3. SVM 모델 - 두 개의 그룹을 분리하는 직선 을 찾는다. - w는 직선에 수직은 법선 벡터이고, 크기는 w의 절대값이다. - w는 직선을 회전시키는 성질을 갖는다. - b는 스칼라 상수이고, b 값에 따라 직선이 상하좌우로 평행이동한다. - w*x 는 스칼라 곱으로도 표현 가능하고, 그 값은 w*x*cos z로 계산된다. (z: 두 벡터 사이의 각도) - 구한 값의..
1. 정의 새로운 데이터가 어느 그룹에 속하는지 분류하기 위해 그 데이터에 가장 가까이에 있는 학습 데이터가 속한 그룹을 알아보는 것 2. 특징 - 레이블이 있는 데이터 세트를 가지고 있는 지도학습 - 학습을 사전에 하지 않고, 새로운 데이터 태스크 요청이 오면 그때 일을 수행함 - 인스턴스 기반, 메모리 기반 러닝 3. 분석 과정 1) 먼저 레이블된 학습 데이터들의 특성을 정량화하여 좌표공간에 표현하는 작업 수행 2) 알고자 하는 데이터를 중심으로 가상의 원을 확장해 가다 k개 데이터가 발견되면 그 데이터가 속해있는 그룹이 새로운 데이터 그룹이 된다. k의 수에 따라 발견해야 하는 데이터의 개수가 늘어난다. - k는 홀수여아 의사결정이 가능하다. - k가 너무 작으면 노이즈에 민감하게 반응한다. (오버..
1. 정의 새로운 데이터가 어느 그룹에 속하는지 분류하기 위해 그 데이터에 가장 가까이에 있는 학습 데이터가 속한 그룹을 알아보는 것 2. 특징 - 레이블이 있는 데이터 세트를 가지고 있는 지도학습 - 학습을 사전에 하지 않고, 새로운 데이터 태스크 요청이 오면 그때 일을 수행함 - 인스턴스 기반, 메모리 기반 러닝 3. 분석 과정 1) 먼저 레이블된 학습 데이터들의 특성을 정량화하여 좌표공간에 표현하는 작업 수행 2) 알고자 하는 데이터를 중심으로 가상의 원을 확장해 가다 k개 데이터가 발견되면 그 데이터가 속해있는 그룹이 새로운 데이터 그룹이 된다. k의 수에 따라 발견해야 하는 데이터의 개수가 늘어난다. - k는 홀수여아 의사결정이 가능하다. - k가 너무 작으면 노이즈에 민감하게 반응한다. (오버..
우리가 표본집단을 이용해 확률을 정의하는 데에는 2가지 방법이 있다. 바로 빈도론과 베이지안론이다. 2가지 방법은 각각의 장단점이 있으므로 필요에 따라 잘 이용해야한다. 1. 빈도론 1. 1 정의 - 특정한 사건이 얼마나 반복되어 발생하는 지를 바탕으로 가설을 검증 - 통계적 유의성을 이용하여 p-value를 구한다. 1. 2 귀무가설과 독림가설 - 귀무가설 : 기각을 할 것으로 예상하고 세우는 가설, 귀무가설이 거짓임을 밝혀내어 확률을 구한다. - 대립가설 : 귀무가설이 기각 되었을때 대체되어 참이 되는 가설 예를 들어 토너먼트 축구 경기의 승패를 한 평론가가 예측한다고 가정하자. 무승부는 없고 무조건 승과 패로만 이루어져있다. 이 평론가가 우연히 찍어서 답을 맞추는 건지, 아니면 승패를 예측하고 맞추..
1. 로지스틱 회귀(Logistic Regression) - 종속변수가 2가지 범주형으로 표현될 때 로지스틱 회귀를 사용한다.Ex) 예/아니오, 구매/비구매, 성공/실패... - 로지스틱 회귀에서는 출력값이 (0,1)의 경계로 결정된다. - 로지스틱은 이산형 변수를 가질 경우 사용한다. 2. 로지스틱 함수 사용 방법 로지스틱 모형의 경우 독립변수에 어떤 값이 오더라도 종속변수 혹은 결과 값이 0 과 1사이의 값이 와야한다. 로지스틱 함수가 사용되는 경우는 여러 독립변수(X_i)들로 수식을 유도하여, 그 결과 값에 따라 종속변수(Y_i)가 0,1로 결정된다. 이 과정을 위키백과 영문에 있는 한 예시를 이용하여 설명해보도록 하겠다. "만약 20의 학생이 0~6시간 동안 공부하여 시험에서 합격 혹은 불합격을 ..
1. 회귀 분석(Regression Analysis) 회귀 분석은 두 변수 사이의 연관성을 분석할 때 가장 많이 사용하는 방법이다. 회귀분석은 독립변수와 종속변수의 관계를 함수식으로 설명한다. - 종속변수 : 우리가 알고 싶어하는 결과 값 - 독립변수 : 종속변수에 영향을 주는 값 ex) 학생들의 키를 가지고 몸무게를 예측하고자 한다면, 키 : 독립변수, 몸무게 : 종속변수 2. 선형 회귀란? 선형은 독립변수가 1차항으로 되어있음을 의미한다. 즉, 독립변수에 지수항이 존재한다면, 비선형이 되므로 선형 회귀분석이 불가능하다. 선형 회귀식을 풀기 위해서 가장 많이 사용하는 방식은 '최소제곱법'이다. 3. 회귀 분석 방법 독립변수가 1개인 선형 회귀식은 아래와 같이 나올 것이라고 가정한다. 이 식을 바탕으로 ..
1. 공분산 - 공분산의 정의두 확률변수 의 기대값을 각각 라고 하자. 공분산 는 다음과 같이 정의한다. - 공분산의 의미공분산은 두 개의 확률 변수 간의관계를 보여준다. 확률변수 X가 평균으로부터 큰 값을 가질 때, Y역시 큰 값을 가지는 경향이 생기면 둘 사이의 공분산은 양의 값을 가진다. 반대로, 확률변수 Y가 작은 값을 가지는 경향이 생기면 공분산은 음의 값을 가진다. 공분산의 크기가 0이라면 두 확률변수는 서로 관계가 없음을 의미한다. 이때 두 확률변수가 서로 독립이라고 말한다.단, 공분산은 두 확률 변수 간의 관계를 보여주는 정보로 사용 가능하지만, 절대적인 값으로 활용 하지는 못한다. 확률변수의 측정 단위에 따라 그 값이 크게 달라진다. 두 변수 사이의 관계를 보여주는 절대적인 값으로는 다음..