Deep Learning最新論文の再現コードを試行(DeepMindのA3C)

前回の記事で書きましたように、DeepMind社の最新論文Asynchronous Methods for Deep Reinforcement Learning、16 Jun 2016に書かれた手法A3C(Asynchronous Advantage Actor-critic)の再現コードをGithubで見つけたので、実際に走らせて試行中。

Pongの学習結果

約27時間(36.5M steps)の学習を行った結果が下記です。横軸は学習量(steps、ゲーム画面のframe数に相当)で1M steps単位です。縦軸はゲームSOREです。
f:id:Itsukara:20160729115917p:plain

Github掲載グラフ(A3C-LSTM)では、下記のように、12h(18M steps)あたりで急激にゲームSOREが上がり、16h(24M steps)でほぼ最大になっています。

Github掲載グラフと当方グラフでスケールが異なり申し訳ないのですが、Github掲載グラフの16h(24M steps)近辺と、当方グラフの24M steps近辺を比較してみると、当方グラフでは、ゲームSCOREの急激な上昇がありません。当方のグラフの形は、Github記載の別のグラフ(A3C-FF、下記)と近いです。

残念ながら、なぜ、このような結果になったかは不明です。

上記学習後のプレイ動画は下記です。まだまだ学習が不十分で、あまり上手くありません。
youtu.be

Breakoutの学習結果

ほぼ1日掛けて学習させた結果が下記です(途中中断あり)。横軸は学習量(steps、ゲーム画面のframe数に相当)で1M steps単位です。縦軸はゲームSOREです。学習量は全体で52.5M stepsで、学習速度は約800 steps/秒だったので、時間としては約18.5時間です。
f:id:Itsukara:20160729132400p:plain

当方環境で52.5M stepsの学習を完了した後のゲームプレイ動画を下記に載せます。DQNで評価した時と較べて、格段に賢くなっています。なお、動画は、10回くらいプレイしたなかでSCOREが一番高いもので、833点取れてます。ちなみに、このゲームの最高点数は864点*1なので、ほぼ満点です。
youtu.be

論文との比較(学習性能)

論文によると、BreakoutはA3Cの適用効果が特に大きいゲームの1つになります。幾つかの手法の適用効果を比較した図を論文から抜粋しました。

1つ目のグラフはBreakoutのゲームSCOREの「5回の平均値」が書かれており、約6時間で400ぐらいまで上がっています。
f:id:Itsukara:20160729123352p:plain

2つ目のグラフは、横軸がTraining epochsで、縦軸はゲームSOREです。
f:id:Itsukara:20160729135958p:plain

「1 Training epochs」は4M stepsに対応するので、80M stepsでSCOREが400になっています。これらを元に計算すると、学習性能は3700 steps/秒です。当方のマシンは4コア(8仮想CPU)+GPUで800 steps/秒であり、論文のマシンは16コア(32仮想CPU、当方マシンの4倍)で、学習性能は4.6倍なので、当方マシンでの学習性能は、ほぼ妥当と思われます。

性能差の理由は、論文のマシンは最新CPUであることと、Github掲載のプログラムはCPU利用率が70%程度しか出ていない*2ことが原因と思われます。

なお、上記は、A3Cのスレッド効率を示す図です。Breakoutでは、スレッド数が変わっても「学習量(Training epochs)」あたりのSCOREのグラフは、ほぼ変わらないことを示してます。スレッド数に比例して学習量は増えるので、逆に言うと、スレッド数に比例した学習性能が出ているということです。

論文との比較(グラフの形)

当方の評価と論文でグラフの形を比較します。当方の環境では、ゲームSCOREの「最大値」が400になるまで30M steps掛かっています。論文では、20M stepsでゲームSCOREの「平均値」が400になるので、論文と比べると、あまり良い結果は出ていません。

ちゃんと比較するには、論文と同じように、5回の平均SCOREを計算する必要がありそうです。Githubの他のコードでは、そのような処理も入っているのですが、何分、当方の環境では性能が出ないので....

A3Cの性能に関して

それにしても、前回のDQNと今回のA3Cの評価結果、及び、上記に引用した「論文の1つ目のグラフ」を見ると、DQNとA3Cの学習性能の差は桁違いですね。DQNは、DeepMind社の2013年の論文で取り上げられて話題になったわけですが、その後の3年間で、学習性能がずいぶんと高まったようです。Deep Learningは進化が激しいので、最新の成果を使わないとダメですね。

Breakout評価中のトラブル

実は、A3C再現コードをBreakoutで評価している際に、途中で計算結果がおかしくなるという問題が発生しました。具体的には、学習中の画面に表示される計算結果がNaN(非数)になっていました。

対応に困ったのですが、30分おきに途中結果をSAVEし(Control-Cで結果がSAVEされる)、SAVEした内容を元に再開するという形で凌ぎました(SAVE内容をLOADする機能が組み込まれていました)。

また、原因を調べるために、30分間の待ち時間に、計算状況やデバッグ用の情報を出力するコードを追加しました。その結果、「Pi」という変数の値が急激に小さくなるのが原因の模様(1回表示される毎に約1/10になり、1e-19ぐらいになる。その後、NaNになる)。

そこで、PiがNaNになったときはControl-Cの入力を促すメッセージを表示し、手動でControl-Cを打ち、途中結果をSAVEするなど、場当たり的な対応を行っていました。しかし、改めてWebで調べたところ、この記事に書かれていること(値が0.0になる変数のlogを計算している)が原因と思われました。そこで、この記事を参考に修正したところ、NaNは発生しなくなりました。