학교수업/데이터 사이언스

[6-1] Classification part 2

해영이의 성장일기 2026. 4. 6. 19:26

Rule-based Classification : old method

조건이 맞으면 그 클래스라고 예측한다

근데 문제는.. 어떤 데이터가 들어왔을 때 여러 규칙이 동시에 발동될 수 있다. 그럴때 누구를 믿을까?

  1. 더 많은 feature를 검사하는 규칙을 우선순위 높게 둔다
  2. misclassification cost 큰 class 더 우선이다
  3. 규칙들을 그냥 긴 우선순위 리스트로 만들어 놓고 위에서부터 먼저 맞는 규칙을 적용한다

 

Rule Extraction from a Decision Tree

if the tree is very large, it is hard to know what is going on inside the tree. 그래서 지금 이렇게 하면 rule 들이 서로 겹치지도 않고 쉽게 이해할 수있음!

 

Rule Extraction from Association Rule Mining

근데 아까랑 다른거는 conflict 있다.

 

 

  • support 높음 = 자주 나타남
  • confidence 높음 = 맞을 확률이 높음
  • 복합 조건으로 강한 규칙을 만들 수 있다
  • 그러나 min_conf, min_sup를 너무 높게 잡으면 규칙 수가 줄어서 coverage가 낮아질 수 있음

higher min confidence => lower number of rules

 

 

조건을 만족하는 데이터가 몇 개냐 정확히 맞게 분류한 데이터 개수 전체 데이터 중 이 규칙이 얼마나 넓게 적용되느냐 이 규칙이 적용된 경우들 중 얼마나 맞췄는가
train할 때 열심히 일하고, predict는 상대적으로 빠름 저장해두다가 새 테스트 데이터가 들어오면 그때서야 계산해서 분류한다

 

 

The k-Nearest Neighbor (KNN) Algorithm

기존 훈련 데이터 중에서 가장 가까운 k개 이웃(neighbors)을 찾고, 그 다수결로 클래스를 정하는 방법 더 가까운 이웃에게 더 큰 영향력을 주는 방식.

Evaluation of a Classification Model

test set은 training set과 독립적이어야 한다
둘 중 하나라도 낮으면 F1도 낮아져

 

  • recall 높이려면 positive를 많이 잡아야 해서 FP가 늘 수 있음
  • precision 높이려면 positive라고 조심해서 말해야 해서 FN이 늘 수 있음

즉 둘은 trade-off가 생길 수 있어. 

'학교수업 > 데이터 사이언스' 카테고리의 다른 글

데사 예상 문제  (0) 2026.04.11
Random Forest  (0) 2026.04.09
[5-2] Decision Tree + Random Forest  (0) 2026.04.01
[5-1] MaxMiner, Closet, CHARM  (0) 2026.03.31
[4-1] FP-Growth  (0) 2026.03.23