Decision Tree(의사결정나무)

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

tak's data blog

Decision Tree(의사결정나무) 본문

머신러닝

Decision Tree(의사결정나무)

hyuntaek 2021. 3. 2. 23:10

벌써 5주차인데요 이번엔 Decision Tree(의사결정나무)에 대해서 다뤄보도록 하겠습니다!

기본 개념 및 구조

- Decision Tree(의사결정나무)는 데이터의 feature에서 패턴을 찾는 머신러닝 모델

- supervised learning model (지도학습 모델 중 하나)

- 분류, 회귀, 다중출력 작업이 가능하다.

- 매우 복잡한 데이터 셋도 학습 가능

- randomforest의 기본 구성 요소

(특정 feature를 바탕으로 작은 그룹들로 나누는 과정을 반복하여 더 이상 나눌 수 없는 지점(리프 노드)에 도달 시킨다.)

예측 단계에서 unlabeled 데이터를 의사결정나무에 통과시켜 리프노드에 도달하면, 해당 노드에서 제일 많이 포함된 label이 unlabeled 데이터의 label로 지정된다.

- 노드 : 데이터를 분류하는 각각의 단계들

- 루트노드 : 깊이가 0인 맨 꼭대기의 노드

- 리프노드 : 자식노드를 가지지 않는 노드 -> 추가적인 검사 진행되지 않는다.

결정 트리 모델 시각화 및 특징

Decision tree는 시각화가 가능하다. -> 결정 트리가 결과를 도출하는 과정을 확인 가능.

(export_graphviz() 활용)

- samples : 얼마나 많은 훈련 샘플들이 적용 되었는지 (훈련 샘플수)

- value : 노드에서 각 클래스에 얼마나 많은 훈련 샘플이 있는지

ex) class = setosa/ versicolor/ virginica -> 각 단계마다 클래스가 나누어지는데 클래스마다 샘플 수 확인 가능

- Gini 속성 : 불순도를 측정한 지수. 한 노드의 모든 샘플이 같은 클래스라면/ 이 노드를 순수(gini=0)하다고 한다.

결정 나무의 특성

장점 : 데이터 전처리가 거의 필요하지 않다.

(특성의 스케일을 맞추거나 평균을 원점에 맞추는 작업이 필요하지 않음. feature scaling이 불필요)

클래스 확률 예측

- 길이가 5cm이고 너비가 1.5cm인 꽃잎 리프노드의 깊이는 2

확률 = setosa : 0% (0/54) / versicolor : 90.7%(49/54) / virginica : 9.3%(5/54)

지니 불순도와 엔트로피

- criterion 매개변수를 'entropy'로 지정하여 엔트로피 불순도 사용 가능

- 지니 불순도와 큰 차이는 없다. 지니 불순도의 계산이 조금 빠르지만 지니 불순도는 가장 빈도 높은 클래스를 한쪽 가지로 고립시키는 반면 엔트로피는 조금 더 균형 잡힌 트리

CART 훈련 알고리즘

1. 훈련 세트를 하나의 특성 k의 임곗값 t_k를 사용해 두개의 subset으로 나눈다.

2. (크기에 따라 가중치가 적용된) 가장 순수한 subset으로 나눌 수 있는 (k, t_k) 짝 찾기

[subset 나누는 과정]

- (max_depth 매개변수로 정의된) 최대 깊이가 되면 중지하거나 불순도를 줄이는 분할을 찾을 수 없을 때 멈추게 된다.

- max_depth 외에도 min_samples_split, min_samples_leaf, min_weight_fraction_leaf, max_leaf_nodes와 같은 매개변수도 중지 조건에 관여

CART 알고리즘: 탐욕적 알고리즘(greedy algorithm)

- 결정을 해야 할 때마다 그 순간에 가장 좋다(최적이다)고 생각되는 것을 해답으로 선택함 으로써 최종적인 해답에 도달: 항상 최적의 솔루션을 보장하지 않는다.

- 최적의 트리를 찾는 것은 NP완전(NPComplete) 문제로도 알려져 있음

→ "납득할 만한 좋은 솔루션"으로만 만족해야 함

결정 트리 규제

: 결정 트리는 훈련 데이터에 대한 제약 사항이 거의 없다.(오버피팅 되기 쉽다.)

-> 규제 매개 변수를 추가하여 모델 학습시 오버피팅 방지 (결정 트리의 자유도 제한)

규제 매개변수 :

min_으로 시작하는 매개변수 증가

or max_로 시작하는 매개변수를 감소

-> 모델에 대한 규제가 커진다.

- max_depth : 결정 트리의 최대 깊이

-> 감소 -> 모델에 대한 규제가 커진다. -> 깊이가 얕아질 수록 과대적합 위험 감소 가능.

- min_samples_split : 분할되기 위해 노드가 가져야 하는 최소 샘플 개수

-> min_samples_split 증가 : 모델에 대한 규제가 커짐

- min_samples_leaf : 리프 노드가 가지고 있어야 할 최소 샘플 개수

-> 증가 -> 모델에 대한 규제가 커짐

- min_weight_fraction_leaf : min_samples_leaf와 같지만, 가중치가 부여된 전체 샘플 수에서의 비율

- max_leaf_nodes : 리프 노드의 최대 개수

-> 감소 시키면 모델에 대한 규제가 커진다.

- max_features : 각 노드에서 분할에 사용할 특성의 최대 개수

규제할 경우 더 잘 나뉜다!

회귀

- DecisionTreeRegressor를 사용

- 분류 트리와의 주요 차이점 : 각 노드에서 클래스를 예측하는 대신 어떤 값을 예측 하는 점 -> 어떤 클래스에 속할지가 아닌 어떠한

- 불순도를 최소화하는 방향으로 분할하는 대신, mse를 최소화하는 방향으로 분할

결정 트리 모델의 불안정성

- 결정 트리는 계단 모양의 결정 경계를 만들기 때문에, 훈련 세트의 회전에 민감

- 데이터 셋을 45도 회전시켜, 결정 트리 모델이 불필요하게 구불구불해지는 것을 확인 가능

- 훈련 데이터에 있는 작은 변화에 민감

- 더 좋은 방향으로 회전 시킴으로써 해결 가능 (PCA 기법 활용)

- 랜덤 포레스트는 많은 트리에서 만든 예측을 평균내서 불안정성 극복

저작자표시 (새창열림)

'머신러닝' 카테고리의 다른 글

추천시스템(Recommendation system) 유사도(similarity) (0)	2021.03.26
추천시스템(Recommendation system) (1)	2021.03.26
Model training(모델 훈련) (0)	2021.02.10
classification(분류) (0)	2021.02.02
머신러닝이란? (0)	2021.01.26

'머신러닝' Related Articles

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

tak's data blog

tak's data blog

Decision Tree(의사결정나무) 본문

Decision Tree(의사결정나무)

'머신러닝' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역