datascience 3

Getting to Know Your Data

오늘 마지막 시험 치고 나면 기말고사 정리가 시작할 텐데 좀 더 좋은 방법을 찾아 열심히 올리도록!! Characteristics of Data1. Dimensionality# of featuresCurse of dimensionality 2. Sparsity : Only a small portion of presence3. Resolution : Patterns depend on the scale4. Distribution : Centrality and dispersion Basic Statistical Descriptions of DataMotivation => To better understand the data: central tendency, variation and spre..

Evaluation Protocols

아직 나는 주말인데 교수님이 영상을 푸심 ㅠㅠ 어쩔 수 없이 공부를 해야겠죠! 이방법 문제는 한 번만 나누면 운이 너무 크게 작용할 수 있다.우연히 쉬운 데이터만 test set에 들어가면 accuracy 높게 나올 수 있음반대로 어려운 데이터만 모이면 낮게 나올 수 있음 그래서 holdout을 k번 반복하고 평균 정확도를 쓰자!! 이걸 k번 반복해서 모든 subset이 한 번씩 test가 되게 한다. 그리고 마지막에 accuracy 평균을 낸다. 이 방법이 왜 좋냐?데이터를 한 번만 나눌 때보다 평가가 더 안정적이라서.. 왜냐하면 모든 데이터가어떤 때는 training에 들어가고어떤 때는 test에 들어가니까 bias 이 줄어든다. 작은 데이터셋에서 쓴다. 왜냐면 => 데이터가 많으면 n번..

[6-1] Classification part 2

Rule-based Classification : old method근데 문제는.. 어떤 데이터가 들어왔을 때 여러 규칙이 동시에 발동될 수 있다. 그럴때 누구를 믿을까?더 많은 feature를 검사하는 규칙을 우선순위 높게 둔다misclassification cost 큰 class 더 우선이다규칙들을 그냥 긴 우선순위 리스트로 만들어 놓고 위에서부터 먼저 맞는 규칙을 적용한다 Rule Extraction from a Decision Tree Rule Extraction from Association Rule Mining support 높음 = 자주 나타남confidence 높음 = 맞을 확률이 높음복합 조건으로 강한 규칙을 만들 수 있다그러나 min_conf, min_sup를 너무 높게 잡으면 ..