ML:基礎學習
課程:機器學習基石
簡介:第四講 Feasibility of Learning
如下圖,假設始終有些資料不在 \(D\) 中
機器學習是不可能從 \(D\) 學到正確的 \(g=f\)
那麼從機率上來考慮呢?
固定 \(g=h\) 只適用在 驗證 上
理想上硬幣機率都是一樣的,所以無所謂特別運氣好的人
因出現連五個硬幣都是正面的機率 \(1-(\frac{31}{32})^{150}>99\%\)
所以極可能出現連五個正面的人,但能說他運氣特別好嗎?或者能說他就是硬幣之神嗎?
故若 \(h_n\) 越多,越容易出現 \(E_{in}\) OK,但 \(E_{out}\) 卻不好的情況
課程:機器學習基石
簡介:第四講 Feasibility of Learning
如下圖,假設始終有些資料不在 \(D\) 中
機器學習是不可能從 \(D\) 學到正確的 \(g=f\)
那麼從機率上來考慮呢?
Hoeffding's Inequality
$$
\mathbb{P}\left [ \left | v-u \right | > \epsilon \right ]\leq 2e^{-2\epsilon ^2N}
$$
- 需為 i.i.d (independent and identically distributed)
- \(u\):橘色彈珠在瓶子內的機率
- \(v\): 橘色彈珠在取出樣本中的機率
- 收斂跟 \(u\) 無關,只跟 \(\epsilon\ \&\ N\) 有關
對應到 ML 上
$$
\mathbb{P}\left [ \left | E_{in}(h)-E_{out}(h) \right | > \epsilon \right ]\leq 2e^{-2\epsilon ^2N}
$$
- \(u\) 的機率 \(\Rightarrow\) 固定的 \(h(\mathbf{x})\neq target\ f(\mathbf{x})\) 的機率
- 彈珠 \(\in\) 瓶子 \(\Rightarrow\ \mathbf{x}\in\mathbf{X}\)
- 橘色彈珠 \(\Rightarrow\ {\color{Orange}{h(\mathbf{x}) \neq f(\mathbf{x})}}\)
- 綠色彈珠 \(\Rightarrow\ {\color{Green}{h(\mathbf{x}) = f(\mathbf{x})}}\)
- \(N\ \Rightarrow\ D=\{(\mathbf{x_n},y_n), \cdots \}\)
固定 \(g=h\) 只適用在 驗證 上
簡單多個 \(h_n\) 例子
假設有 150個人投硬幣,隨機連丟五次,那麼是否有運氣特別好的人?理想上硬幣機率都是一樣的,所以無所謂特別運氣好的人
因出現連五個硬幣都是正面的機率 \(1-(\frac{31}{32})^{150}>99\%\)
所以極可能出現連五個正面的人,但能說他運氣特別好嗎?或者能說他就是硬幣之神嗎?
故若 \(h_n\) 越多,越容易出現 \(E_{in}\) OK,但 \(E_{out}\) 卻不好的情況
Hoeffding 的意義
如下表,Hoeffding 是保證不同 \(D_n\) 下,總共出現 bad 的機率
$$
\mathbb{P}_D[bad\ D]=\sum_{all\ D} \mathbb{P}(D)\cdot sign[bad\ D]
\le 2e^{-2\epsilon ^2N}$$
\(D_1\) | \(D_2\) | \(\cdots \) | \(D_{1234}\) | \(\cdots \) | \(D_{7895}\) | \(\cdots \) | Hoeffding | |
\(h\) | bad | bad | \(\mathbb{P}_D[bad\ D]\le 2e^{-2\epsilon ^2N}\) |
若有 M 個 \(h_n\) 呢?
$$
\begin{align*}
\mathbb{P}_D[BAD\ D]
&= \mathbb{P}_D[bad\ D\ for \ h_1\ or\ bad\ D\ for \ h_2\ or\ \cdots \ or\ bad\ D\ for \ h_m]\\
&\le\mathbb{P}_D[bad\ D\ for \ h_1]+\mathbb{P}_D[bad\ D\ for \ h_2]+\cdots +\mathbb{P}_D[bad\ D\ for \ h_M] \\
&\le 2e^{-2\epsilon ^2N}+2e^{-2\epsilon ^2N}+\cdots +2e^{-2\epsilon ^2N}\\
&= 2Me^{-2\epsilon ^2N}\\
\end{align*}
$$
\(D_1\) | \(D_2\) | \(\cdots \) | \(D_{1234}\) | \(\cdots \) | \(D_{7895}\) | \(\cdots \) | Hoeffding | |
\(h_1\) | bad | bad | \(\mathbb{P}_D[bad\ D\ for \ h_1]\le 2e^{-2\epsilon ^2N}\) | |||||
\(h_2\) | bad | \(\mathbb{P}_D[bad\ D\ for \ h_2]\le 2e^{-2\epsilon ^2N}\) | ||||||
\(h_3\) | bad | bad | bad | \(\mathbb{P}_D[bad\ D\ for \ h_3]\le 2e^{-2\epsilon ^2N}\) | ||||
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(h_M\) | bad | bad | \(\mathbb{P}_D[bad\ D\ for \ h_M]\le 2e^{-2\epsilon ^2N}\) | |||||
all | BAD | BAD | BAD | ? |
- 有限的 M, N, and \(\epsilon\)
- 無需知道 \(E_{out}(h_n)\)
- \(E_{in}(g) = E_{out}(g)\) 是 PAC (probably approximately correct),而不用管 \(A\)
總結
- \(|H|=M\) 有限,\(N\) 足夠大,則即使為 \(A\) 挑選出來的 \(g\) ,仍可保證 \(E_{in}(g) \approx E_{out}(g)\)
- 故 \(E_{in}(g)\approx0\Rightarrow E_{out}(g)\approx0\)
留言
張貼留言