매일매일 IT

[Machine Learning] Random Forest 본문

Programming Language/python

[Machine Learning] Random Forest

Teeeeeeemo 2017. 8. 16. 17:07

 랜덤 포레스트 

    • 2001년, 레오 브라이만(Leo Breiman)이 제안한 머신러닝 알고리즘
    • 집단학습을 기반으로 고정밀 분류, 회귀, 클러스터링 등을 구현
    • 학습 전용 데이터를 기반으로 다수의 의사결정 트리를 만들고, 이를 기반으로 다수결로 결과를 유도하므로 높은 정밀도.
    • 학습 데이터를 무작위로 샘플링 해 만들어진 다수의 의사결정 트리를 사용하기 때문에 랜덤 포레스트이다.
    • "의사결정 트리" : 트리 구조의 그래프. 예측과 분류를 수행하는 알고리즘 자체를 의사결정 트리라고 부름.
    • 일반적으로 부정확한 학습 방법이라 약학습 방법으로 분류되지만 집단 학습을 하면 정밀도를 높힐 수 있다.

 UCI 머신러닝 레포지토리에 공개돼 있는 독버섯과 관련된 데이터 세트 내려받기.




 랜덤 포레스트를 사용해 버섯을 분류 



 데이터를 숫자로 변경할 시 주의 

    • 값이 분류를 위한 "분류 변수"인지, 연속된 "연속 변수"인지를 생각하기.
    • 각각의 데이터가 전혀 관련성이 없다면 매개변수를 배열로 나타내어 다룬다.



Comments