의사결정 나무

From IT위키
Revision as of 18:13, 5 October 2019 by PE가즈아 (talk | contribs) (새 문서: 분류:데이터 분석분류:프로젝트 관리 ;Decision Tree ;분류함수를 의사결정규칙으로 표현할 때 타원(분기점), 직선(가지), 사각형(잎사귀...)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

분류:데이터 분석분류:프로젝트 관리

Decision Tree
분류함수를 의사결정규칙으로 표현할 때 타원(분기점), 직선(가지), 사각형(잎사귀)을 이용하여 나무형태로 그려서 분석하는 기법

파일:의사결정나무.png

유형

단계 설명
의사결정 나무 형성

분석 목적과 자료구조에 따라 적절하게 분리 기준(Split Criterion) 및 정지규칙(Stopping Rule) 지정

가지치기 분류오류(Classification Error) 유발 위험이 높거나 부적절한 규칙을 가지는 가지(Branch) 제거
타당성 평가 이익 도표(Gains Chart), 위험 도표(Risk Chart), 검정 자료(Test Data)에 의한 교차타당성(Cross Validation) 등을 이용하여 평가
결과 도출 해석 결과에 따라 분류 및 예측 모형 설정

활용 알고리즘

알고리즘 설명
CHAID 카이제곱 검정(범주형 목표변수) 또는 F-검정(연속형 목표변수)을 이용하여 다지분리(Multiway Split) 수행
CART 지니 지수(Gini Index, 범주형) 또는 분산의 감소량(연속형)을 이용하여 이진분리(Binary Split) 수행
CS5.0 명목형 목표 변수를 지원하는 가장 정확한 알고리즘으로, 다지분리(범주)및 이진분리(수치) 수행

장단점

  • 장점
    • 이해하기 쉬운 모델 형태
    • 여러 변수의 영향도 파악 용이
    • 계산복잡성 대비 높은 예측 성능
    • 분류(classification)와 회귀(regression) 모두 가능
→ 범주나 연속형 수치 모두 예측
  • 단점
    • 최적해를 보장하지 못함(Greedy 알고리즘)
    • 비연속성 분류
    • 결정경계(decision boundary)가 데이터 축에 수직인 데이터에만 최적화