[ML] 機器學習基石:第十六講 Three Learning Principles

ML:基礎學習
課程:機器學習基石
簡介:第十六講 Three Learning Principles

Occam's Razor

最簡單的 model 也是最合理的解
簡單的 hypothesis h 簡單的 model H
小的 Ω(h)= 看起來簡單 小的 Ω(H)= 沒有太多
少的參數 少的 hypotheses
hl bits |H| 的 size 為 2l
小的 Ω(h) 小的 Ω(H)
換句話說,若簡單的 model 可分開資料,也代表資料是有規律的,因符合的機率為 mH(N)2N
故先試 linear model,並詢問自己這是否為最簡單的 model

Sampling Bias

若取樣有所偏差,那麼學習也會有偏差
VC 的次要假設中,訓練與測試的資料需為 iid 並來自於同樣的分佈
不然學習可能會做得不好,因 Eout 可能不再被限縮在 Ein
故儘量讓訓練環境接近測試環境
像是否發卡給銀行顧客,手中只有發過卡,然後是否亂花錢的資料
但並無沒發過卡的顧客行為資料,那可能需針對此部分對訓練參數做一些調整

Data Snooping

不只是眼睛偷看資料會造成污染,事實上任何的 learning 後的表現,會影響到決策,也都是間接偷看到資料
如下,對於資料不同的放縮行為也會影響結果
紅色:拿訓練跟測試的資料一起統計後,一起放縮
藍色:個別的資料統計後,個別放縮

事實上,論文研究一直針對同一個 D ,也是一種偷看,而且這可能也算是一種 overfit,複雜度為 dVC(mHm)
需要非常小心的防止偷看這件事,不要用看資料來決定特徵,而是先用專業知識決定特徵

Power of Three

三個相關領域

三個上限
補充 VC bound
4mH(2N)exp(18ϵ2N)

三個線性 Model

三個關鍵工具

三個學習法則

留言