ML:基礎學習
課程:機器學習基石
簡介:第十六講 Three Learning Principles
換句話說,若簡單的 model 可分開資料,也代表資料是有規律的,因符合的機率為 \(\frac{m_H(N)}{2^N}\)
故先試 linear model,並詢問自己這是否為最簡單的 model
VC 的次要假設中,訓練與測試的資料需為 iid 並來自於同樣的分佈
不然學習可能會做得不好,因 \(E_{out}\) 可能不再被限縮在 \(E_{in}\) 中
故儘量讓訓練環境接近測試環境
像是否發卡給銀行顧客,手中只有發過卡,然後是否亂花錢的資料
但並無沒發過卡的顧客行為資料,那可能需針對此部分對訓練參數做一些調整
如下,對於資料不同的放縮行為也會影響結果
紅色:拿訓練跟測試的資料一起統計後,一起放縮
藍色:個別的資料統計後,個別放縮
事實上,論文研究一直針對同一個 \(D\) ,也是一種偷看,而且這可能也算是一種 overfit,複雜度為 \(d_{VC}(\cup _mH_m)\)
需要非常小心的防止偷看這件事,不要用看資料來決定特徵,而是先用專業知識決定特徵
三個上限
三個線性 Model
三個關鍵工具
三個學習法則
課程:機器學習基石
簡介:第十六講 Three Learning Principles
Occam's Razor
最簡單的 model 也是最合理的解簡單的 hypothesis \(h\) | 簡單的 model \(H\) |
---|---|
小的 \(\Omega (h)=\) 看起來簡單 | 小的 \(\Omega (H)=\) 沒有太多 |
少的參數 | 少的 hypotheses |
\(h\) 有 \(l\) bits \(\Leftarrow \) \(\left |H \right |\) 的 size 為 \(2^l\) 小的 \(\Omega (h)\) \(\Leftarrow \) 小的 \(\Omega (H)\) |
故先試 linear model,並詢問自己這是否為最簡單的 model
Sampling Bias
若取樣有所偏差,那麼學習也會有偏差VC 的次要假設中,訓練與測試的資料需為 iid 並來自於同樣的分佈
不然學習可能會做得不好,因 \(E_{out}\) 可能不再被限縮在 \(E_{in}\) 中
故儘量讓訓練環境接近測試環境
像是否發卡給銀行顧客,手中只有發過卡,然後是否亂花錢的資料
但並無沒發過卡的顧客行為資料,那可能需針對此部分對訓練參數做一些調整
Data Snooping
不只是眼睛偷看資料會造成污染,事實上任何的 learning 後的表現,會影響到決策,也都是間接偷看到資料如下,對於資料不同的放縮行為也會影響結果
紅色:拿訓練跟測試的資料一起統計後,一起放縮
藍色:個別的資料統計後,個別放縮
事實上,論文研究一直針對同一個 \(D\) ,也是一種偷看,而且這可能也算是一種 overfit,複雜度為 \(d_{VC}(\cup _mH_m)\)
需要非常小心的防止偷看這件事,不要用看資料來決定特徵,而是先用專業知識決定特徵
Power of Three
三個相關領域三個上限
補充 VC bound
$$ 4m_H(2N)exp(-\frac{1}{8}\epsilon ^2N) $$
$$ 4m_H(2N)exp(-\frac{1}{8}\epsilon ^2N) $$
三個線性 Model
三個關鍵工具
三個學習法則
留言
張貼留言