[ML] 機器學習基石:第十六講 Three Learning Principles

ML:基礎學習
課程:機器學習基石
簡介:第十六講 Three Learning Principles

Occam's Razor

最簡單的 model 也是最合理的解
簡單的 hypothesis \(h\) 簡單的 model \(H\)
小的 \(\Omega (h)=\) 看起來簡單 小的 \(\Omega (H)=\) 沒有太多
少的參數 少的 hypotheses
\(h\) 有 \(l\) bits \(\Leftarrow \) \(\left |H \right |\) 的 size 為 \(2^l\)
小的 \(\Omega (h)\) \(\Leftarrow \) 小的 \(\Omega (H)\)
換句話說,若簡單的 model 可分開資料,也代表資料是有規律的,因符合的機率為 \(\frac{m_H(N)}{2^N}\)
故先試 linear model,並詢問自己這是否為最簡單的 model

Sampling Bias

若取樣有所偏差,那麼學習也會有偏差
VC 的次要假設中,訓練與測試的資料需為 iid 並來自於同樣的分佈
不然學習可能會做得不好,因 \(E_{out}\) 可能不再被限縮在 \(E_{in}\) 中
故儘量讓訓練環境接近測試環境
像是否發卡給銀行顧客,手中只有發過卡,然後是否亂花錢的資料
但並無沒發過卡的顧客行為資料,那可能需針對此部分對訓練參數做一些調整

Data Snooping

不只是眼睛偷看資料會造成污染,事實上任何的 learning 後的表現,會影響到決策,也都是間接偷看到資料
如下,對於資料不同的放縮行為也會影響結果
紅色:拿訓練跟測試的資料一起統計後,一起放縮
藍色:個別的資料統計後,個別放縮

事實上,論文研究一直針對同一個 \(D\) ,也是一種偷看,而且這可能也算是一種 overfit,複雜度為 \(d_{VC}(\cup _mH_m)\)
需要非常小心的防止偷看這件事,不要用看資料來決定特徵,而是先用專業知識決定特徵

Power of Three

三個相關領域

三個上限
補充 VC bound
$$ 4m_H(2N)exp(-\frac{1}{8}\epsilon ^2N) $$

三個線性 Model

三個關鍵工具

三個學習法則

留言