사례 기반 학습 vs. 모델 기반 학습
머신러닝 시스템이 어떻게 일반화(generalize)되는가에 따라 분류.
예측을 만드는 것 = 주어진 훈련 데이터로 학습하고 훈련 데이터에서 본 적 없는 새로운 데이터에서 좋은 예측을 만들어야(일반화) 한다.
[x] 훈련 데이터에서 높은 성능을 내는 것만이 좋음
[o] **새로운 샘플에 잘 작동하는 모델**
사례 기반 학습 (instance-based learning)
- 시스템이 훈련 샘플을 기억함으로써 학습
- 유사도 측정(similarity measure)을 사용해 새로운 데이터와 학습한 샘플을 (또는 학습한 샘플 중 일부를) 비교하는 식으로 일반화
e.g. 스팸 메일 필터 : 스팸 메일과 공통으로 포함한 단어의 수를 세는 것
모델 기반 학습 (model-based learning)
- 샘플들의 모델을 만들어 예측에 사용하는 것
e.g. 1인당 GDP의 선형 함수로 삶의 만족도 모델링 - model selection - 모델 파라미터를 조정해 어떤 선형 함수를 표현하는 모델을 얻음
- 모델이 최상의 성능을 내도록 하는 값 = 측정 지표 정하기
◾ 효용 함수(utility or fitness function) 정의 : 모델이 얼마나 좋은지 측정
◾ 비용 함수(cost function) 정의 : 모델이 얼마나 나쁜지 측정 - 선형 회귀에서는 봍통 선형 모델의 예측과 훈련 데이터 사이의 거리를 재는 비용 함수를 사용 → 이 거리를 최소화하는 것이 목표
- 선형 회귀 알고리즘(linear regression) : 알고리즘에 훈련 데이터를 공급하면 데이터에 가장 잘 맞는 선형 모델의 파라미터를 찾음 = training
e.g. 1인당 GDP와 삶의 만족도 모델에서 키프로스의 값 예측하기
◾ 사례 기반 학습 알고리즘 : 1인당 GDP가 키프로스와 가장 가까운 슬로베니아의 만족도 값을 이용해 예측 + 그 다음 가까운 두 나라의 값을 추가 고려해 세 값의 평균으로 도출 = k-최근접 이웃 회귀(k-nearest neighbors regression). 이 때 k=3.
※ 요약
- 데이터를 분석한다.
- 모델을 선택한다.
- 훈련 데이터로 모델을 훈련시킨다. = 학습 알고리즘이 비용 함수를 최소화하는 모델 파라미터를 찾는다.
- 새로운 데이터에 모델을 적용해 예측하고 이 모델이 잘 일반화되길 기대한다. = 추론(inference)
★ 더 많은 내용 보러가기 click click! ★