[머신러닝] 머신러닝 교과서 1장 정리
데이터 청년 캠퍼스에서 머신러닝 강의를 듣고 스스로 부족하다고 느껴져서,머신러닝 교과서 1장을 정리해보려고 한다.
머신러닝의 세가지 종류
- 지도 학습(supervised learning)
- 레이블된 데이터
- 직접 피드백
- 출력 및 미래 예측
- 비지도 학습(unsupervised learning)
- 레이블 및 타깃 없음
- 피드백 없음
- 데이터에서 숨겨진 구조 찾기
- 강화 학습(reinforcement learning)
- 결정 과정
- 보상 시스템
- 연속된 행동에서의 학습
1. 지도학습으로 미래 예측
지도 학습의 주요 목적: 레이블(label)
- 지도(supervised): 희망하는 출력 신호(레이블)가 있는 일련의 샘플
- 분류 : 클래스 레이블 예측
- 지도 학습의 하위 카테고리 (클래스 레이블은 이산적이고 순서가 없어 샘플이 속한 그룹으로 이해)
- 이진 분류 ex) 스팸 메일 예측
- 다중 분류 : 순서가 없는 범주나 레이블로 표현
- 결정 경계
- 회귀 : 연속적인 출력 값 예측
- 예측 변수(predictor variable 또는 설명변수(explanatory variable), 입력(input))와 연속적인 반응 변수(response variable 또는 출력, 타깃)가 주어질 때 출력 값을 예측하는 두 변수 사이의 관계를 찾는다.
2. 강화학습으로 반응형 문제해결
강화학습 : 환경과 상호작용하여 시스템 성능을 향상하는 것이 목적이다.(보상을 최대화)
환경의 현재 상태 정보는 보상 신호를 포함하기 때문에 지도학습과 관련된 분야로 생각할 수 있지만, 강화학습의 피드백은 정답 레이블이나 값이 아니다.
3. 비지도 학습으로 숨겨진 구조 발견
비지도 학습에서는 레이블되지 않거나 구조를 알 수 없는 데이터를 다룬다.
군집: 서브그룹 찾기
사전 정보 없이 쌓여 있는 그룹 정보를 의미 있는 서브그룹(subgroup) 또는 클러스터(cluster)로 조직하는 탐색적 데이터 분석 기법
분석 과정에서 만든 클러스터는 어느 정도의 유사성을 공유한다.
차원 축소: 데이터 압축
비지도 차원 축소는 잡음(noise) 데이터를 제거하기 위해 특성 전처리 단계에서 종종 적용하는 방법이다. 잡음이 특정 알고리즘의 예측 성능을 감소시킬 수 있기 때문에, 더 작은 차원의 부분 공간으로 데이터를 압축한다.
머신러닝 작업의 흐름
전처리 ➡️ 학습(알고리즘) ➡️ 평가 ➡️ 구축
데이터 전처리는 머신러닝에서 매우 중요한 과정이다!
머신러닝 알고리즘이 훈련 데이터 셋에서 잘 작동하고 새로운 데이터에서도 잘 일반화 되는지 확인하려면, 데이터셋을 랜덤하게 훈련 데이터셋과 테스트 데이터셋으로 나누어야한다.