「深層学習」の省略された数式を自分で確認しました
深層学習を最初から読み始めたのですが、省略してある数式の部分がよく分からなかったので、自分で計算して確認しました。
二値分類のロジスティック関数と微分、尤度、誤差関数と微分
1.1 ロジスティック関数(Sigmoid関数)
(2.3.1)
1.2 ロジスティック関数の微分(uで微分した結果)
(2.3.2)
1.2.1 ロジスティック関数の微分式の確認
1.2.1.1 ロジスティック関数の微分式の左辺
(2.3.2a)
1.2.1.1 ロジスティック関数の微分式の右辺
(2.3.2b)
1.3 尤度(データが得られる確率(をパラメータとして記載)
(2.7.1a)
(2.7.1b)
(2.7.1c)
(2.7.1d)
1.4 誤差関数(尤度の対数をとり、符号を反転させた値。この値を最小化したい)
(2.8)
1.5.1 誤差関数の微分(まず、とをパラメータとして記載)
(2.8.1a)
(2.8.1b)
(2.8.1c)
(2.8.1d)]
以上のように、誤差関数の微分は、非常に簡単な式になる()。
1.5.2 誤差関数の微分(をパラメータとして記載)
(2.8.2a)
(2.8.2b)
多クラス分類のロジスティック関数と微分、尤度、誤差関数と微分
2.1 ロジスティック関数(Softmax関数)
(2.9)
k番目以外のユニットの出力を含めた式で、。
2.2.1 ロジスティック関数の微分(で微分した結果)
(2.9.1)
2.2.1.1 ロジスティック関数の微分式の確認
まず、を以下のように変形。
(2.9.2a)
(2.9.2b)
ここで、下記を満たすようにを定義する。
(2.9.2c)
すると、次のように指数部を纏めることができる。
(2.9.2d)
はに対して定数なので、次のsigmoid関数で表現できる。
(2.9.2e)
sigmoidの性質から、上記をで微分すると下記が得られる。
(2.9.2f)
2.2.2 ロジスティック関数の微分(に対し、で微分した結果)
(2.9.3a)
(2.9.3b)
2.3 尤度(データが得られる確率。をパラメータとして記載)
(2.10.1a)
(2.10.1b)
2.4 誤差関数(尤度の対数をとり、符号を反転させた値。この値を最小化したい)
(2.11)
2.5.1 誤差関数の微分(まず、とをパラメータとして記載)
(2.11.1a)
(2.11.1b) (以下、の記載は省略)
(2.11.1c) (2.9.2f、2.9.3より)
(2.11.1d)
(2.11.1d)
(2.11.1f)
(2.11.1g) (より)
以上のように、誤差関数の微分は、非常に簡単な式になる()。
2.5.2 誤差関数の微分( とをパラメータとして記載)
(2.11.2a)
(2.11.2b)
2.5.3 誤差関数の微分(をパラメータとして記載)
(2.11.3a)
(2.11.3b)
感想
手で書いた式を入力するのは非常に疲れました。最初は、はてな記法でそのまま書こうとしたのですが、かなり疲れたので、下記の記事を参考にさせて頂き、少し楽ができました。ありがとうございました。