【DL、RL、A3C+】Montezumaで評価:平均点500点強で飽和
A3C+の論文に基づいたコードでMontezuma's Revengeの得点要因を調査し、当方が独自で入れ込んだ「高得点が出た時に、その履歴(状態、アクション、得点の履歴)から学習させる機能("on-highscore-learning"と命名。OHLと略記)」の効果が高いことを昨日の記事に書きました。その後、学習は継続させていましたが、平均点500点強で飽和して伸びなくなったので、一度中断しました。
DeepMindのようにマシンパワーが豊富ならば、論文に書かれているように200M STEPSまで学習を継続したいところですが、個人の環境では、そこまで余裕がないので、学習効率の悪いものは途中中断して何らかの対策を考えるしかありません。それにしても、pseudo-countデータをsave/restoreする機能を先に実装しておいたので、途中中断・再開が簡単に出来きて良かったです。今後は、条件や処理を変えて継続学習していく方向です。
なお、中断までの学習状況は下記です。OHLの学習履歴長が30と短いと平均点の上昇が遅いものの、履歴長が150の場合とほぼ同じ点数(500点強)まで上がりました。
途中からOHL:ON(30〜48.6M、履歴長150)
途中からOHL:ON(30〜45.4M、履歴長30)
本日(2016/9/2 24:50)の報告はここまでです