優點:
1. 在當前的很多數據集上,相對其他算法有著很大的優勢,表現良好。
2. 它能夠處理很高維度(feature很多)的數據,并且不用做特征選擇(因為特征子集是隨機選擇的)。
3. 在訓練完后,它能夠給出哪些feature比較重要。
4. 訓練速度快,容易做成并行化方法(訓練時樹與樹之間是相互獨立的)。
5. 在訓練過程中,能夠檢測到feature間的互相影響。
6. 對于不平衡的數據集來說,它可以平衡誤差。
7. 如果有很大一部分的特征遺失,仍可以維持準確度。
缺點:
1. 隨機森林已經被證明在某些噪音較大的分類或回歸問題上會過擬合。
2. 對于有不同取值的屬性的數據,取值劃分較多的屬性會對隨機森林產生更大的影響,所以隨機森林在這種數據上產出的屬性權值是不可信的。