完整的機器學習項目主要步驟:
1、明確問題
首先要劃定問題:監督或者非監督,還是強化學習?這是個分類任務、回歸任務還是其他的?
2、獲取數據
機器學習結果的上限由數據決定,而算法只是盡可能地接近這個上限。數據要有代表性。
涉及到numpy、pandas
3、特征預處理與特征選擇
良好的數據要能夠提取良好的特征才能真正發揮數據的效力。特征預處理、數據清洗是很關鍵的步驟,往往能夠使算法的效果和性能得到顯著提升,歸一化、離散化、因子化、缺失值處理等數據處理手段。
特征選擇篩選出顯著特征、摒棄非顯著特征。
4、訓練模型與調優
用到了sklearn、numpy、pandas
5、完成模型