매일매일 IT
[Machine Learning] Random Forest 본문
랜덤 포레스트
- 2001년, 레오 브라이만(Leo Breiman)이 제안한 머신러닝 알고리즘
- 집단학습을 기반으로 고정밀 분류, 회귀, 클러스터링 등을 구현
- 학습 전용 데이터를 기반으로 다수의 의사결정 트리를 만들고, 이를 기반으로 다수결로 결과를 유도하므로 높은 정밀도.
- 학습 데이터를 무작위로 샘플링 해 만들어진 다수의 의사결정 트리를 사용하기 때문에 랜덤 포레스트이다.
- "의사결정 트리" : 트리 구조의 그래프. 예측과 분류를 수행하는 알고리즘 자체를 의사결정 트리라고 부름.
- 일반적으로 부정확한 학습 방법이라 약학습 방법으로 분류되지만 집단 학습을 하면 정밀도를 높힐 수 있다.
UCI 머신러닝 레포지토리에 공개돼 있는 독버섯과 관련된 데이터 세트 내려받기.
랜덤 포레스트를 사용해 버섯을 분류
데이터를 숫자로 변경할 시 주의
- 값이 분류를 위한 "분류 변수"인지, 연속된 "연속 변수"인지를 생각하기.
- 각각의 데이터가 전혀 관련성이 없다면 매개변수를 배열로 나타내어 다룬다.
'Programming Language > python' 카테고리의 다른 글
[Machine Learning] SVM : Support Vector Machine (1) | 2017.08.16 |
---|---|
[Machine Learning] 이미지 내부 문자 인식하기 (0) | 2017.08.09 |
[Machine Learning] 붓꽃의 품종 분류하기 (0) | 2017.08.09 |
Machine Learning Framework : scikit-learn (0) | 2017.08.09 |
파이썬에서 YAML 다루기 (0) | 2017.08.08 |
Comments