機械学習で勾配降下法の収束を加速できるか、ちょっと試行

深層学習のp.37に、誤差関数の谷底に高低差が少ない場合に収束が遅くなることへの対策として、「3.6.5 モメンタム」というものが書かれていました。これは、重み係数の修正量を計算するときに、前回の修正量の定数倍を加えるというもの。

機械学習から離れて、単に、関数の谷底を求めるだけならば、上記よりも、ニュートン法を用いたほうが良いと感じました。ただ、ニュートン法では、２次微分が必要であり、一般には２次微分を求めるのは難しいため、あまり使われていないと、どこかに書かれてました（どの本か忘れた）。

機械学習の理解を深めるために簡単なBackward Propagationプログラムを自作したので、これにニュートン法的なプログラムを入れ込んで少し試してました。

具体的には、谷底近くの曲面の形状を、各次元で２次関数で近似し、収束を高速化できないか試しました。

各次元で２次関数ということは、各次元で１次微分が１次関数ということなので、(l)回目の重み $W_{ji}^{(l)}$ に対する誤差 $E$ の勾配を $\frac{\partial E}{\partial W_{ji}^{(l)}}$ としたとき、２つの点 $(W_{ji}^{(l)}, \frac{\partial E}{\partial W_{ji}^{(l)}})$ と $(W_{ji}^{(l-1)}, \frac{\partial E}{\partial W_{ji}^{(l-1)}})$ を結ぶ直線がx軸と交差する点(y=0となる点)を求めれば良いだけであり、簡単に計算できます。

繰り返し毎の誤差の変化がある程度少なくなってきたところで上記を行うと、確かに収束は速くなりました。ただ、誤差が非常に小さくなると、２つの点が非常に近くなり、直線の傾きを計算する際の誤差が大きくなり、 $W_{ji}$ の値が発散してしまいます。これを防ぐには、値が発散しそうな $W_{ji}$ に対しては、モメンタムを用いれば良さそうな気がします。

なお、上記は、非常に単純な場合(２層のパーセプトロンで「XOR」を学習する場合)で試しただけです。

ちなみにニュートン法は、かなり古典的な手法なのでもっと最新の数学的手法を用いれば、勾配降下法の収束を、もっと加速できるのではないか？　数学の専門家が機械学習に加われば、機械学習が飛躍的に高速化する可能性があるのではないか？　などと、夢想しているところです。

２週間ぐらい前まで、上記の試行と、別の試行を行っていたのですが、これに時間を掛けていたせいで、１カ月ぐらい前に買った本を読むのが遅れてしまいました。色々と夢想も良いかなと思っていたのですが、まずは、機械学習の基礎をしっかりと理解して、TensorFlowを自由自在に活用できるようになることを、当面の目標しようと思います。

追記

上記、 $W_{ji}$ の新しい値として、谷底となる点での $W_{ji}$ の値を使っていました。図で例示すると、下図の赤い点でした。なお、下図は機械学習で実際に使った値ではなく、近似対象が4次曲線であった場合を例として、計算で谷底を推定した図です。

ちなみに、横軸が $W_{ji}$ の値で、縦軸は $E$ の値です。また、青い線は近似対象として試した4次曲線で、2つの青い点は直近2回の $W_{ji}$ の値です。青い線と重なった赤い曲線は、「直近の2回の $(W_{ji}, E)$ の値と、そこでの1次微分値を元に近似した2次曲線」です。赤い点は計算で推定した谷底の点で、斜めの黒線は最直近の $W_{ji}$ での接線、水平の黒線は(推定された)谷底での接線です。