「深層学習」の省略された数式を自分で確認しました

深層学習を最初から読み始めたのですが、省略してある数式の部分がよく分からなかったので、自分で計算して確認しました。

二値分類のロジスティック関数と微分、尤度、誤差関数と微分

1.1 ロジスティック関数(Sigmoid関数)
$y= f\left(u\right)=\frac{1}{1+e^{-u}}$ 　(2.3.1)

1.2 ロジスティック関数の微分(uで微分した結果)
$\frac{\partial f\left(u\right)}{\partial u}=f\left(u\right)\left(1-f\left(u\right)\right)=y\left(1-y\right)$ 　(2.3.2)

1.2.1 ロジスティック関数の微分式の確認
1.2.1.1 ロジスティック関数の微分式の左辺
$\frac{\partial f\left(u\right)}{\partial u}=\frac{e^{-u}}{{\left(1+e^{-u}\right)}^2}$ 　(2.3.2a)

1.2.1.1 ロジスティック関数の微分式の右辺
$f\left(u\right)\left(1-f\left(u\right)\right)=\frac{1}{1+e^{-u}} \left(1-\frac{1}{1+e^{-u}}\right)=\frac{1}{1+e^{-u}}-\frac{1}{{\left(1+e^{-u}\right)}^2}$
$=\frac{\left(1+e^{-u}\right)-1}{{\left(1+e^{-u}\right)}^2}= \frac{e^{-u}}{{\left(1+e^{-u}\right)}^2}$ 　(2.3.2b)

1.3 尤度(データ $\{(x_n, d_n)\}$ が得られる確率( $w_{ji}$ をパラメータとして記載)
$L\left(w_{ji}\right)= {\prod}_np\left(d_nx_n;w_{ji}\right)$ 　(2.7.1a)
$= {\prod}_np{\left(d_n=1|x_n;w_{ji}\right)}^{d_n}p{\left(d_n=0|x_n;w_{ji}\right)}^{{1-d}_n}$ 　(2.7.1b)
$= {\prod}_n{\left\{p\left(d_n=1|x_n;w_{ji}\right)\right\}}^{d_n}{\left\{1-p\left(d_n=1|x_n;w_{ji}\right)\right\}}^{1-d_n}$ 　(2.7.1c)
$= {\prod}_n{\left\{y(x_n;w_{ji})\right\}}^{d_n}{\left\{1-y(x_n;w_{ji})\right\}}^{1-d_n}$ 　(2.7.1d)

1.4 誤差関数(尤度の対数をとり、符号を反転させた値。この値を最小化したい)
$E\left(w_{ji}\right)= -{\sum}_n\left[d_n\log\left\{y\left(x_n;w_{ji}\right)\right\}+\left(1-d_n\right)\log\left\{1-y\left(x_n;w_{ji}\right)\right\} \right]$ 　(2.8)

1.5.1 誤差関数の微分(まず、 $u_j$ と $(x_n,d_n)$ をパラメータとして記載)
$\frac{\partial E\left({x_n;u}_j\right)}{\partial u_j}=-\left[\frac{d_n}{y\left(x_n;u_j\right)}-\frac{1-d_n}{1-y\left(x_n;u_j\right)}\right]\left(\frac{\partial y\left(x_n;u_j\right)}{\partial u_j}\right)$ 　(2.8.1a)
$=-\left[\frac{d_n}{y\left(x_n;u_j\right)}-\frac{1-d_n}{1-y\left(x_n;u_j\right)}\right]\left(y\left(x_n;u_j\right)\left(1-y\left(x_n;u_j\right)\right)\right)$ 　(2.8.1b)
$=-\left[d_n(1-y\left(x_n;u_j\right))-\left(1-d_n\right)y\left(x_n;u_j\right)\right]$ 　(2.8.1c)
$={y\left(x_n;u_j\right)-d}_n$ 　(2.8.1d)]
以上のように、誤差関数の微分は、非常に簡単な式になる( $y-d_n$ )。

1.5.2 誤差関数の微分( $w_{ji}$ をパラメータとして記載)
$\frac{\partial E\left(x_n;w_{ji}\right)}{\partial w_{ji}}={\sum}_n\left[\frac{\partial E\left(x_n;u_n\right)}{\partial u_j}\frac{\partial u_j}{\partial w_{ji}}\right]$ 　(2.8.2a)
$={\sum}_n\left[\left({y\left(x_n;w_{ji}\right)-d}_n\right)z_i^{\left(L-1\right)}\right]$ 　(2.8.2b)

多クラス分類のロジスティック関数と微分、尤度、誤差関数と微分

2.1 ロジスティック関数(Softmax関数)
$y_k= z_k^{(L)}=\frac{exp(u_k^{\left(L\right)})}{{\sum}_jexp(u_j^{\left(L\right)})}$ 　(2.9)
k番目以外のユニットの出力を含めた式で、 ${\sum}_ky_k=1$ 。

2.2.1 ロジスティック関数の微分( $u_k$ で微分した結果)
$\frac{{\partial y}_k}{\partial u_k}= y_k(1-y_k)$ 　(2.9.1)

2.2.1.1 ロジスティック関数の微分式の確認
まず、 $y_k$ を以下のように変形。
$y_k= \frac{exp(u_k^{\left(L\right)})}{exp(u_k^{\left(L\right)})+{\sum}_{j\neq k}exp(u_j^{\left(L\right)})}$ 　(2.9.2a)
$= \frac{1}{1 + \left\{\exp\left(-u_k^{\left(L\right)}\right){\sum}_{j\neq k}\left[\exp\left(u_j^{\left(L\right)}\right) \right]\right\}}$ 　(2.9.2b)

ここで、下記を満たすように $r_k$ を定義する。
$exp(r_k)={\sum}_{j\neq k}exp(u_j^{\left(L\right)})$ 　(2.9.2c)

すると、次のように指数部を纏めることができる。
$y_k= \frac{1}{1 - exp({-(u}_k^{\left(L\right)}- r_k))}$ 　(2.9.2d)

$r_k$ は $u_k$ に対して定数なので、次のsigmoid関数で表現できる。
$y_k= sigmoid(u_k^{\left(L\right)}- r_k)$ 　(2.9.2e)

sigmoidの性質から、上記を $u_k$ で微分すると下記が得られる。
$\frac{{\partial y}_k}{\partial u_k}= y_k(1-y_k)$ 　(2.9.2f)

2.2.2 ロジスティック関数の微分( $l\neq k$ に対し、 $u_l$ で微分した結果)
$\frac{\partial y_k}{\partial u_l}=\frac{\partial}{\partial u_l} \frac{\exp\left(u_k^{\left(L\right)}\right)}{{\sum}_j\left\{\exp\left(u_j^{\left(L\right)}\right)\right\}}=- \frac{\exp\left(u_k^{\left(L\right)}\right)}{{\left[{\sum}_j\left\{\exp\left(u_j^{\left(L\right)}\right)\right\}\right]}^2} \exp\left(u_l^{\left(L\right)}\right)$ 　(2.9.3a)
$=- \frac{\exp\left(u_k^{\left(L\right)}\right)}{{\sum}_j\left\{\exp\left(u_j^{\left(L\right)}\right)\right\}} \frac{\exp\left(u_l^{\left(L\right)}\right)}{{\sum}_j\left\{\exp\left(u_j^{\left(L\right)}\right)\right\}} ={-y}_ky_l$ 　(2.9.3b)

2.3 尤度(データ $\{(x_n,d_n)\}$ が得られる確率。 $w_{ji}$ をパラメータとして記載)
$L\left(w_{ji}\right)={\prod}_n\left\{p\left(d_nx_n;w_{ji}\right)\right\}={\prod}_n{\prod}_kp{\left(c_k|x_n\right)}^{d_{nk}}$ 　(2.10.1a)
$={\prod}_n{\prod}_k{\left\{y_k\left(x_n;w_{ji}\right)\right\}}^{d_{nk}}$ 　(2.10.1b)

2.4 誤差関数(尤度の対数をとり、符号を反転させた値。この値を最小化したい)
$E\left(w_{ji}\right)= -{\sum}_n{\sum}_kd_{nk}\log\left(y_k\left(x_n;w_{ji}\right)\right)$ (2.11)

2.5.1 誤差関数の微分(まず、 $u_j$ と $(x_n,d_n)$ をパラメータとして記載)
$\frac{\partial E\left(x_n;u_j\right)}{\partial u_j}=-{\sum}_k\left[d_{nk}\frac{\partial \log\left (y_k(x_n;u_j)\right)}{\partial u_j}\right]$ 　(2.11.1a)
$=-{\sum}_k\left[\frac{d_{nk}}{y_k}\frac{y_k}{\partial u_j}\right]$ 　(2.11.1b)　(以下、 $(x_n;u_j )$ の記載は省略)
$=-\left[\frac{d_{nj}}{y_j}\left\{y_j\left(1-y_j\right)\right\} +{\sum}_{k\neq j}\left[\frac{d_{nk}}{y_k}\{-y_jy_k\}\right]\right]$ 　(2.11.1c)　(2.9.2f、2.9.3より)
$=-\left[d_{nj}(1-y_j)-{\sum}_{k\neq j}d_{nk}y_j\right]$ 　(2.11.1d)
$=-\left[d_{nj}-{\sum}_kd_{nk}y_j\right]$ 　(2.11.1d)
$=y_j{\sum}_kd_{nk}-d_{nj}$ 　(2.11.1f)
$=y_j-d_{nj}$ 　(2.11.1g)　( ${\sum}_kd_{nk}=1$ より)
以上のように、誤差関数の微分は、非常に簡単な式になる( $y_j-d_{nj}$ )。

2.5.2 誤差関数の微分( $w_{ji}$ と $(x_n,d_n)$ をパラメータとして記載)
$\frac{\partial E\left({x_n;w}_{ji}\right)}{\partial w_{ji}}=\frac{\partial E\left(u_j\left(x_n;u_j\right)\right)}{\partial u_j}\frac{\partial u_j\left(x_n;u_j\right)}{\partial w_{ji}}$ 　(2.11.2a)
$=(y_j\left({x_n;w}_{ji}\right)-d_{nj})z_i^{\left(L-1\right)}$ 　(2.11.2b)

2.5.3 誤差関数の微分( $w_{ji}$ をパラメータとして記載)
$\frac{\partial E\left(w_{ji}\right)}{\partial w_{ji}}={\sum}_n\frac{\partial E\left({x_n;w}_{ji}\right)}{\partial w_{ji}}$ 　(2.11.3a)
$={\sum}_n(y_j\left(x_n;w_{ji}\right)-d_{nj})z_i^{\left(L-1\right)}$ 　(2.11.3b)

感想

手で書いた式を入力するのは非常に疲れました。最初は、はてな記法でそのまま書こうとしたのですが、かなり疲れたので、下記の記事を参考にさせて頂き、少し楽ができました。ありがとうございました。
<div class="hatena-bookmark-detail-info"><a href="http://7shi.hateblo.jp/entry/2016/06/25/143338">MS Officeの数式をTeXに変換 - 七誌の開発日記</a><a href="http://b.hatena.ne.jp/entry/http%3A%2F%2F7shi.hateblo.jp%2Fentry%2F2016%2F06%2F25%2F143338">はてなブックマーク- MS Officeの数式をTeXに変換 - 七誌の開発日記</a></div>