[ML] 機器學習基石:第十四講 Regularization

ML:基礎學習
課程:機器學習基石
簡介:第十四講 Regularization


如何倒退回較低次的 model 呢?

regularized hypothesis set H(C)
H(C)={wRQ+1 while w2C}
H10 中:w0+w1x+w2x2+w3x3++w10x10
那麼若要表達成 H2 呢?
加上限制式 w3=w4==w10=0 即可
那麼若是 H2 至少不特定的 8 個係數為 0 呢?
q=010[wq0]3H2H2H10 但卻是 NP hard
那是否能改成容易解的方式?
H(C)限制式改為 q=010wq2C
H(0)H(1.126)H(1126)H()=H10

如何解?

minwRQ+1Ein(w)=1Nn=1N(wnTzyn)2(Zwy)T(Zwy)s.t. q=0Qwq2wTwC
  1. Ein(w) 的方向走,可得原本最佳解
  2. 目前有限制式,w 只能在紅色球中,故取切線方向,才不會超出球
  3. Ein(w) 在球的切線方向走,直到 Ein(w) 平行於球的法線量
  4. 故當為最佳解 wREG 時,因 wREG 也為法線量 (球中心為原點)
    Ein(wREG)wREG
得 Lagrange multiplier λ>0
Ein(wREG)+2λNwREG=0
λ>0Ein(wREG)+2λNwREG=02N(ZTZwREGZTy)+2λNwREG=0wREG=(ZTZ+λI)1ZTy
ZTZ 為半正定矩陣,且 λI 為正定矩陣,故反矩陣存在

或換個角度來看


Ein(wREG)+2λNwREG=0

相當於最小化
Eaug=Ein(w)+λNwTw

那麼 wTw 只是 regularizer 項目,而 λ 為調整的參數,可為 =0 或 >0
wREG=argminw Eaug(w) given λ>0 or λ=0
λNwTw weight-decay regularization,不同 λ 值的差別
因大的 λ 等同懲罰長的或大的 w
大的 λ <=> 短的 w <=> 小的 C
此方法可應用在 任何轉換 + 線性 model

Legendre Polynomials

minwRQ+11Nn=0N(wTΦ(xn)yn)2+λNq=0Qwq2
若使用 Φ(x)=(1,x,x2,,xQ),當 x 落在 xn[1,+1] 之間
高維度會需要較大的 wq 導致會被過度懲罰
所以改用 Legendre Polynomials 可改善此問題,因是 orthonormal basis functions

與 VC 比較

Augmented Error VC Bound
Eaug=Ein(w)+λNwTwΩ(w) Eout(w)Ein(w)+Ω(H)
Ω(w) 單一 hypothesis 的複雜度 Ω(H) hypothesis set 的複雜度
Ω(w)Ω(H) 有關聯,那麼 Eaug 似乎會比 Ein 更接近 Eout
model 複雜度:dVC=d~+1 因考慮了所有的 w
但實際上 w 並不是全部都拿來用,定義:有效 dEFF(H,Amin Eaug) 視不同的演算法而有不同

如何運用 Regularizer Ω(w)

  • 目標函數已知特性
    • 對稱性 regularizer:[q is odd]wq2
  • 合理性
    • 較平滑或簡單:sparsity (L1) regularizer wq
  • 友好的
    • 容易最佳化:weight-decay (L2) wq2
  • λ=0 放進選擇,成為最後的保護

L2 & L1 比較

L1 通常會在頂點得解,故有的 wq 會為 0

最佳化 λ

  • 越多的 noise 越需要加大 λ
  • 但 noise 未知,如何選擇,可參考下一講

留言