랜덤포레스트, 보팅, 부스팅, 배깅, 앙상블, 스태킹
Motivation
2021. 7. 12. 19:50
의사결정트리는 주어진 학습 데이터에 따라 생성되는 의사결정트리가 크게 달라지고, 학습 결과의 성능과 변동 폭이 크다는 단점을 가지고 있다. 이러한 단점을 극복하기 위해 랜덤 포레스트가 등장하였다. 여러 개의 결정 트리 분류기가 생성되며, 각자의 방식으로 데이터를 샘플링하여 개별적으로 학습함 최종적으로 보팅을 통해 데이터에 대한 예측 수행 각 분류기는 원본 데이터셋에서 샘플링하여 데이터를 무작위로 가져오며, 이 과정을 부트스트랩(bootstrap)이라고 함 부트스트랩 과정에서는 데이터가 중복으로 샘플링 될 수도 있음 랜덤 포레스트는 수많은 의사결정트리가 만들어진 숲으로 표현되며, 결과를 도출하는 과정에서 모든 의사결정트리가 같은 답을 반환하지는 않으므로 다수결의 원칙으로 최종 결과를 선정함. 이렇게 결과를..