[ML] 機器學習基石：第十六講 Three Learning Principles

ML：基礎學習
課程：機器學習基石
簡介：第十六講 Three Learning Principles

Occam's Razor

最簡單的 model 也是最合理的解

簡單的 hypothesis $h$	簡單的 model $H$
小的 $\Omega (h)=$ 看起來簡單	小的 $\Omega (H)=$ 沒有太多
少的參數	少的 hypotheses
$h$ 有 $l$ bits $\Leftarrow $ $\left \|H \right \|$ 的 size 為 $2^l$ 小的 $\Omega (h)$ $\Leftarrow $ 小的 $\Omega (H)$

換句話說，若簡單的 model 可分開資料，也代表資料是有規律的，因符合的機率為 $\frac{m_H(N)}{2^N}$
故先試 linear model，並詢問自己這是否為最簡單的 model

Sampling Bias

若取樣有所偏差，那麼學習也會有偏差
VC 的次要假設中，訓練與測試的資料需為 iid 並來自於同樣的分佈
不然學習可能會做得不好，因 $E_{out}$ 可能不再被限縮在 $E_{in}$ 中
故儘量讓訓練環境接近測試環境
像是否發卡給銀行顧客，手中只有發過卡，然後是否亂花錢的資料
但並無沒發過卡的顧客行為資料，那可能需針對此部分對訓練參數做一些調整

Data Snooping

不只是眼睛偷看資料會造成污染，事實上任何的 learning 後的表現，會影響到決策，也都是間接偷看到資料
如下，對於資料不同的放縮行為也會影響結果
紅色：拿訓練跟測試的資料一起統計後，一起放縮
藍色：個別的資料統計後，個別放縮

事實上，論文研究一直針對同一個 $D$ ，也是一種偷看，而且這可能也算是一種 overfit，複雜度為 $d_{VC}(\cup _mH_m)$
需要非常小心的防止偷看這件事，不要用看資料來決定特徵，而是先用專業知識決定特徵

Power of Three

三個相關領域

三個上限

補充 VC bound
$$ 4m_H(2N)exp(-\frac{1}{8}\epsilon ^2N) $$

三個線性 Model

三個關鍵工具

三個學習法則

簡單的 hypothesis \(h\)	簡單的 model \(H\)
小的 \(\Omega (h)=\) 看起來簡單	小的 \(\Omega (H)=\) 沒有太多
少的參數	少的 hypotheses
\(h\) 有 \(l\) bits \(\Leftarrow \) \(\left \|H \right \|\) 的 size 為 \(2^l\) 小的 \(\Omega (h)\) \(\Leftarrow \) 小的 \(\Omega (H)\)

子風的知識庫

搜尋此網誌