이전에 Decision Tree를 활용한 classification 방법에 대해 살펴보았다.
추가적으로 Rule Based Classification과, Associative Classification도 가볍게 살펴보도록 하자.
Rule Based Classification
IF-THEN 식의 Rule(R)을 기준으로 한 분류법이라고 생각하면 쉽다.
Rule의 예를 들어보자.
(R): IF student=yes AND age=youth, THEN buys_computer=yes
이전에 설명한 decision tree를 구성하는 루트(route) 각각이 하나의 rule이라고 이해하면 쉽다.
# Coverage와 Accuracy
Rule 은, coverage와 accuracy모두가 어느 정도 높아야 성립한다.
coverage = N covers / |D|
accuracy = N corrects / N covers
(여기서 N covers는 R에 해당하는 데이터 튜플의 수, N corrects는 R에 의해 올바르게 분류된 튜플의 수다.)
# 특징
Rule들의 특징은 아래 두 가지다.
1. mutually exclusive
룰 간의 중복이 있어서는 안된다.
2. exhaustive
답이 명확해야 한다.
Associative Classification
위에서 rule based classification은 mutually exclusive한 것이 큰 특징 중 하나였다.
Associative Classification의 경우, rule들이 반대로 mutually exclusive하지 않다는 점이 특징 중 하나다.
예를 들어보자.
$$p_{1} AND p_{2} AND ... AND p_{I} --> A_{class} = C$$
$$p_{1} AND p_{2} --> A_{class} = C$$
이렇듯 중복관계, 포함관계가 있어도 관계가 없다는 의미로 이해하면 되겠다.
그렇다면, 위와 같이 생길 수 있는 여러 rule들 중 어떤 것을 쓸지는 어떻게 결정해야 할까?
크게 세가지가 있다.
1. size ordering
룰이 많아져 사이즈가 커질수록 tough해진다고 이해할 수 있는데, 가장 tough한 requirement를 선택하는 방식이다.
2. class based ordering
정확도가 높은 rule을 선택하는 방식이다.
3. rule based ordering
미리 정해 놓은 우선순위대로 rule을 선택하는 방식이다.
'Data Science > Mining' 카테고리의 다른 글
클러스터링(Clustering)의 기초를 닦아보자 (0) | 2022.06.29 |
---|---|
Bayesian Classification (0) | 2022.06.29 |
Decision Tree (0) | 2022.06.27 |
Constraint-Based Association Mining (0) | 2022.04.18 |
Association Rules Mining (0) | 2022.04.17 |