What is Classification?



Supervised vs. Unsupervised Learning

- 지도 학습(Classification)은 훈련 데이터에 클래스 레이블이 붙어 있으며, 이 레이블을 바탕으로 새로운 데이터를 분류합니다.
- 비지도 학습(Clustering)은 훈련 데이터에 레이블이 없고, 데이터를 그룹화하여 유사한 항목들을 묶는 방법입니다.
Issues in Classification: Data Preparation
- Data cleaning : Preprocess data in order to reduce noise and handle missing values
- Relevance analysis (feature selection) : Remove the irrelevant (index, ID, etc…) or redundant attributes (yearsalary and monthly salary, etc…)
- Data transformation : Generalize and/or normalize data
Issues in Classification: Evaluation Points

What is Decision tree?
❑ A decision tree is a graphical representation of all the possible solutions to a decision based on certain conditions
❑ Each branch node represents a choice between alternatives, and each leaf node represents a decision

그럼 tree 를 어떻게 만들거냐?

Decision Tree Induction

The only difference is how to select features?

- ID3: 정보 이득(Information Gain)을 사용하여 가장 좋은 분할 조건을 찾는다.
- C4.5: 이득 비율(Gain Ratio)을 사용하여, 정보를 최대한 분할하는 특성을 선택한다.
- CART: 지니 계수(Gini Index)를 사용하여 불순도를 최소화하는 방식으로 분할한다.
Feature Selection

그럼 아까 방법 3개를 더 자세하게 공부해 보겠다.



because of the limitation of ID3: if the partation is big, each separation have very little mixed data. The possibility is increaseing. So, we should reduce the bias. The penalty is large if the feature make many partation.





그러니까 해결 할 방법이 있어야징..


Pre-pruning - 문제는 how to check the goodness and threshold? It will be depend on data set.
Post-pruning
- validation set으로 성능 확인
- 잘라도 성능 안 떨어지면 제거
- 성능 떨어질 때까지 반복
이게 더 유명하고 더 많이 쓰인 방법이다








'학교수업 > 데이터 사이언스' 카테고리의 다른 글
| Random Forest (0) | 2026.04.09 |
|---|---|
| [6-1] Classification part 2 (0) | 2026.04.06 |
| [5-1] MaxMiner, Closet, CHARM (0) | 2026.03.31 |
| [4-1] FP-Growth (0) | 2026.03.23 |
| [3-2] Improving Apriori (0) | 2026.03.16 |