학교수업/데이터 사이언스

Random Forest

해영이의 성장일기 2026. 4. 9. 19:49

Ensemble 

  • 여러 모델을 같이 써서 성능 올림
  • 한 모델보다 여러 개 평균내면 더 정확
  • 사람 여러 명 의견 모으는 느낌

Random Forest

  • Decision Tree 여러 개 모은 앙상블
  • 트리를 수백~수천 개 만듦
  • 마지막은 다수결(분류) / 평균(회귀)

어떻게 만드냐 (핵심 2개)

1. Bootstrap sampling

  • 데이터에서 중복 허용해서 랜덤 추출
  • 같은 데이터가 여러 번 뽑힐 수도 있음
  • 이렇게 만든 여러 dataset → 각각 트리 학습
  • 트리마다 보는 데이터가 다름

2. Feature random selection

  • 매 split마다 전체 feature 중 일부만 랜덤 선택
  • 그 중에서 best split 고름
  • 트리마다 보는 feature도 다름

전체 흐름

  1. 데이터에서 bootstrap으로 여러 dataset 생성
  2. 각각으로 decision tree 학습
  3. 각 트리가 예측함
  4. 결과를 합쳐서 최종 예측

한줄 정리

  • Random Forest = (데이터도 랜덤 + feature도 랜덤)인 여러 트리 평균

'학교수업 > 데이터 사이언스' 카테고리의 다른 글

Evaluation Protocols  (0) 2026.04.13
데사 예상 문제  (0) 2026.04.11
[6-1] Classification part 2  (0) 2026.04.06
[5-2] Decision Tree + Random Forest  (0) 2026.04.01
[5-1] MaxMiner, Closet, CHARM  (0) 2026.03.31