1、非線性!!!!
邏輯回歸屬于廣義線性模型,表達能力有限,單變量離散化為N個后,每個變量有單獨的權重,相當于為模型引入了非線性,能夠提高模型表達力,加大擬合, 離散特征的增加和減少都很容易,易于模型的快速迭代。
2、 速度快!速度快!速度快!
稀疏向量內積乘法運算速度快,計算結果方便存儲,容易擴展。
3、魯棒性!魯棒性!魯棒性!
離散化后的特征對異常數據有很強的魯棒性:比如一個特征是年齡>30是1,否則0。如果特征沒有離散化,一個異常數據“年齡300歲”會給模型造成很大的干擾。
4、方便交叉與特征組合
離散化后可以進行特征交叉,由M+N個變量變為M*N個變量,進一步引入非線性,提升表達能力。
5、穩定性
特征離散化后,模型會更穩定,比如如果對用戶年齡離散化,20-30作為一個區間,不會因為一個用戶年齡長了一歲就變成一個完全不同的人。當然處于區間相鄰處的樣本會剛好相反,所以怎么劃分區間是門學問。
6、簡化模型
特征離散化以后,起到了簡化了邏輯回歸模型的作用,降低了模型過擬合的風險。