ML:基礎學習
課程:機器學習基石
簡介:第十四講 Regularization
因 為半正定矩陣,且 為正定矩陣,故反矩陣存在
或換個角度來看
解
相當於最小化
那麼 只是 regularizer 項目,而 為調整的參數,可為 =0 或 >0
weight-decay regularization,不同 值的差別
因大的 等同懲罰長的或大的
大的 <=> 短的 <=> 小的 C
此方法可應用在 任何轉換 + 線性 model
若使用 ,當 落在 之間
高維度會需要較大的 導致會被過度懲罰
所以改用 Legendre Polynomials 可改善此問題,因是 orthonormal basis functions
如何運用 Regularizer
會為 0
最佳化
課程:機器學習基石
簡介:第十四講 Regularization
如何倒退回較低次的 model 呢?
regularized hypothesis set如何解?
- 往
的方向走,可得原本最佳解 - 目前有限制式,
只能在紅色球中,故取切線方向,才不會超出球 - 往
在球的切線方向走,直到 平行於球的法線量 - 故當為最佳解
時,因 也為法線量 (球中心為原點)
或換個角度來看
解
相當於最小化
那麼
因大的
大的
此方法可應用在 任何轉換 + 線性 model
Legendre Polynomials
高維度會需要較大的
所以改用 Legendre Polynomials 可改善此問題,因是 orthonormal basis functions
與 VC 比較
Augmented Error | VC Bound |
---|---|
若 |
|
model 複雜度: |
|
但實際上 |
如何運用 Regularizer
- 目標函數已知特性
- 對稱性 regularizer:
- 合理性
- 較平滑或簡單:sparsity (L1) regularizer
- 友好的
- 容易最佳化:weight-decay (L2)
- 將
放進選擇,成為最後的保護
L2 & L1 比較
L1 通常會在頂點得解,故有的
最佳化
- 越多的 noise 越需要加大
- 但 noise 未知,如何選擇,可參考下一講
留言
張貼留言