[ML] 機器學習技法：第十二講 Neural Network

ML：基礎技法學習
Package：scikit-learn
課程：機器學習技法
簡介：第十二講 Neural Network

Neural Network Learning

初始化 $w_{ij}^{(l)}$

需為隨機且比較小的值

for $t=0,1,\cdots, T$

stochastic：隨機挑選 $n \in \left \{ 1,2,\cdots ,N \right \}$
forward：用 $\mathbf{x}^{(0)}=\mathbf{x}_n$ 計算所有的 $x_i^{(l)}$
backward：基於 $\mathbf{x}^{(0)}=\mathbf{x}_n$ 計算所有的 $\delta _j^{(l)}$
gradient descent：$w_{ij}^{(l)}\leftarrow w_{ij}^{(l)}-\eta x_i^{(l-1)}\delta _j^{(l)}$

回傳 $g_{NNet}(\mathbf{x})=\left (\cdots \mathrm{tanh}\left ( \sum _j w_{jk}^{(2)}\cdot \mathrm{tanh}(\sum _i w_{ij}^{(1)}x_i) \right ) \right )$
1. 到 3. 可重覆做很多次(可平行處理)，再將其結果 $x_i^{(l-1)}\delta _j^{(l)}$ 平均後，放置 4. 執行，這種做法稱為 mini-batch

$$ \delta _1^{(L)}=-2\left (y_n-s_1^{(L)} \right ) $$ $$ \begin{align*} \delta _j^{(l)} = \frac{\partial e_n}{\partial s_j^{(l)}} &= \sum_{k=1}^{d^{(l+1)}}\left ( \delta _k^{(l+1)} \right )\cdot \left ( w_{jk}^{(l+1)} \right )\cdot \left ( {\mathrm{tanh}}'\left ( s_j^{(l)} \right ) \right )\\ &= \sum_{k=1}^{d^{(l+1)}}\left ( \delta _k^{(l+1)} \right )\cdot \left ( w_{jk}^{(l+1)} \right )\cdot \left ( 1-{\mathrm{tanh}}^2\left ( s_j^{(l)} \right ) \right )\\ \end{align*} $$

Optimization and Regularization

$$ E_{in}(\mathbf{w})=\frac{1}{N}\sum_{n=1}^{N}err\left ( \left (\cdots \mathrm{tanh}\left ( \sum _j w_{jk}^{(2)}\cdot \mathrm{tanh}(\sum _i w_{ij}^{(1)}x_{n,i}) \right ) \right ),y_n \right ) $$

當具有多層 hidden layers，通常為 non-convex

難以得到 global minimum
GD/SGD 只能得到 local minimum
在實務上還是有不錯的表現

不同的 $w_{ij}^{(l)}$ 初始值，可能會得到不同的 local minimum

$w_{ij}^{(l)}$ 太大，會使得 ${\mathrm{tanh}}(s_j^{(l)})$ 遠離中心，導致 ${\mathrm{tanh}}'\left ( s_j^{(l)} \right )$ 太小
每次的移動將非常小，稱作 saturate (飽和)

$d_{VC}=O(VD)$

$V$：神經元的個數
$D$：weights 的個數
優點

足夠的 $V$ 可近似任何函數

缺點

太多 $V$ 容易 overfit

Regularization $e_{in}(\mathbf{w})+\Omega (\mathbf{w})$

$\Omega (\mathbf{w})=\sum \left (w_{ij}^{(l)} \right )^2$

$e_{in}(\mathbf{w})+\Omega (\mathbf{w})=e_{in}(\mathbf{w})+\sum \left (w_{ij}^{(l)} \right )^2$
$\frac{\partial (e_{in}(\mathbf{w})+\Omega (\mathbf{w}))}{\partial w_{ij}^{(l)}}=\delta _j^{(l)}\cdot \left (x_i^{(l-1)} \right )+2 \cdot \left (w_{ij}^{(l)} \right )$
從上式得知，large weight → large shrink; small weight → small shrink
但這並無法令 $w_{ij}^{(l)} =0$，當 $w_{ij}^{(l)} =0$ 才能降低 $d_{VC}$，也就是 $d_{VC}=O(VD)$ 的 $D$

$\Omega (\mathbf{w})=\sum \left |w_{ij}^{(l)} \right |$

$e_{in}(\mathbf{w})+\Omega (\mathbf{w})=e_{in}(\mathbf{w})+\sum \left |w_{ij}^{(l)} \right |$
可得到 $w_{ij}^{(l)} =0$，因其頂點解的緣故
可參考 [ML] 機器學習基石：第十四講 Regularization
但無法微分，這會導致 backprop 無法求解

weight-elimination

$\Omega (\mathbf{w})=\sum \frac{\left (w_{ij}^{(l)} \right )^2}{1+\left (w_{ij}^{(l)} \right )^2}$

$e_{in}(\mathbf{w})+\Omega (\mathbf{w})=e_{in}(\mathbf{w})+\sum \frac{\left (w_{ij}^{(l)} \right )^2}{1+\left (w_{ij}^{(l)} \right )^2}$
$\frac{\partial (e_{in}(\mathbf{w})+\Omega (\mathbf{w}))}{\partial w_{ij}^{(l)}}=\delta _j^{(l)}\cdot \left (x_i^{(l-1)} \right )+\frac{2w_{ij}^{(l)}}{\left ( 1+\left (w_{ij}^{(l)} \right )^2 \right )^2}$
large weight → median shrink; small weight → median shrink
將可以令 $w_{ij}^{(l)} =0$，但前提是範圍需正確 $-4<w_{ij}<-4$
假設前項 $\delta _j^{(l)}\cdot \left (x_i^{(l-1)} \right )\approx 0$，可畫出下圖

減少 iteration 的次數

early stopping：gradient 有關的演算法皆可應用此方式
從某個角度來看，當做越多次，看過的 $\mathbf{w}$ 就越多，那麼有效的 $d_{VC}$ 也就越大
可用 validation 決定 T，可參考 [ML] 機器學習基石：第十五講 Validation

程式碼

第一層 weights 的 pattern

import matplotlib.pyplot as plt
from sklearn.datasets import fetch_mldata
from sklearn.neural_network import MLPClassifier

# 手寫辨識資料 28x28 大小
mnist = fetch_mldata("MNIST original", data_home='.')
# 重新 scale data，至 0~1 之間
X, y = mnist.data / 255., mnist.target
# 分割資料為 訓練和測試
X_train, X_test = X[:60000], X[60000:]
y_train, y_test = y[:60000], y[60000:]

# 此為 28x28-16-5-1 NNet
# 最大 iteration =10
# alpha 為 regularizaion 的參數，也就是 Ein + alpha * L2
# solver 設為 SGD
# verbose 印出訓練過程
# tol 每次最小需改進的 loss
# learning_rate_init 也就是 step 的大小，learning_rate="constant" 是固定的
# 隱藏層的 activation 使用 tanh
mlp = MLPClassifier(hidden_layer_sizes=(16,5), max_iter=10, alpha=1e-4,
                    solver='sgd', verbose=True, tol=1e-4, random_state=1,
                    learning_rate_init=0.1, learning_rate="constant", activation='tanh')

mlp.fit(X_train, y_train)
print("Training set score: %f" % mlp.score(X_train, y_train))
print("Test set score: %f" % mlp.score(X_test, y_test))

fig, axes = plt.subplots(4, 4)
# 取出第一層 weights 的最大值和最小值
vmin, vmax = mlp.coefs_[0].min(), mlp.coefs_[0].max()
for coef, ax in zip(mlp.coefs_[0].T, axes.ravel()):
    # 畫圖，並設定其最小值與最大值
    ax.matshow(coef.reshape(28, 28), cmap=plt.cm.gray, vmin=0.5 * vmin, vmax=0.5 * vmax)
    ax.set_xticks(())
    ax.set_yticks(())

plt.show()

參考

Neural network models (supervised)
sklearn.neural_network.MLPClassifier
sklearn.neural_network.MLPRegressor

子風的知識庫

搜尋此網誌