Data Science/Mining

Rule-Based Classification & Associative Classification

402번째 거북이 2022. 6. 27. 22:19

이전에 Decision Tree를 활용한 classification 방법에 대해 살펴보았다.

추가적으로 Rule Based Classification과, Associative Classification도 가볍게 살펴보도록 하자.


Rule Based Classification

IF-THEN 식의 Rule(R)을 기준으로 한 분류법이라고 생각하면 쉽다.

Rule의 예를 들어보자.

(R): IF student=yes AND age=youth, THEN buys_computer=yes

이전에 설명한 decision tree를 구성하는 루트(route) 각각이 하나의 rule이라고 이해하면 쉽다.

 

# Coverage와 Accuracy

Rule 은, coverage와 accuracy모두가 어느 정도 높아야 성립한다.

coverage = N covers / |D|

accuracy = N corrects / N covers

(여기서 N covers는 R에 해당하는 데이터 튜플의 수, N corrects는 R에 의해 올바르게 분류된 튜플의 수다.)

 

# 특징

Rule들의 특징은 아래 두 가지다.

1. mutually exclusive

룰 간의 중복이 있어서는 안된다.

2. exhaustive

답이 명확해야 한다.


Associative Classification

위에서 rule based classification은 mutually exclusive한 것이 큰 특징 중 하나였다.

Associative Classification의 경우, rule들이 반대로 mutually exclusive하지 않다는 점이 특징 중 하나다.

예를 들어보자.

$$p_{1} AND p_{2} AND ... AND p_{I} --> A_{class} = C$$

$$p_{1} AND p_{2} --> A_{class} = C$$

이렇듯 중복관계, 포함관계가 있어도 관계가 없다는 의미로 이해하면 되겠다.

 

그렇다면, 위와 같이 생길 수 있는 여러 rule들 중 어떤 것을 쓸지는 어떻게 결정해야 할까?

크게 세가지가 있다.

1. size ordering

룰이 많아져 사이즈가 커질수록 tough해진다고 이해할 수 있는데, 가장 tough한 requirement를 선택하는 방식이다.

2. class based ordering

정확도가 높은 rule을 선택하는 방식이다.

3. rule based ordering

미리 정해 놓은 우선순위대로 rule을 선택하는 방식이다.

'Data Science > Mining' 카테고리의 다른 글

클러스터링(Clustering)의 기초를 닦아보자  (0) 2022.06.29
Bayesian Classification  (0) 2022.06.29
Decision Tree  (0) 2022.06.27
Constraint-Based Association Mining  (0) 2022.04.18
Association Rules Mining  (0) 2022.04.17