Ensemble
- 여러 모델을 같이 써서 성능 올림
- 한 모델보다 여러 개 평균내면 더 정확
- 사람 여러 명 의견 모으는 느낌
Random Forest
- Decision Tree 여러 개 모은 앙상블
- 트리를 수백~수천 개 만듦
- 마지막은 다수결(분류) / 평균(회귀)
어떻게 만드냐 (핵심 2개)
1. Bootstrap sampling
- 데이터에서 중복 허용해서 랜덤 추출
- 같은 데이터가 여러 번 뽑힐 수도 있음
- 이렇게 만든 여러 dataset → 각각 트리 학습
- 트리마다 보는 데이터가 다름
2. Feature random selection
- 매 split마다 전체 feature 중 일부만 랜덤 선택
- 그 중에서 best split 고름
- 트리마다 보는 feature도 다름
전체 흐름
- 데이터에서 bootstrap으로 여러 dataset 생성
- 각각으로 decision tree 학습
- 각 트리가 예측함
- 결과를 합쳐서 최종 예측
한줄 정리
- Random Forest = (데이터도 랜덤 + feature도 랜덤)인 여러 트리 평균
'학교수업 > 데이터 사이언스' 카테고리의 다른 글
| Evaluation Protocols (0) | 2026.04.13 |
|---|---|
| 데사 예상 문제 (0) | 2026.04.11 |
| [6-1] Classification part 2 (0) | 2026.04.06 |
| [5-2] Decision Tree + Random Forest (0) | 2026.04.01 |
| [5-1] MaxMiner, Closet, CHARM (0) | 2026.03.31 |