Itsukaraの日記

最新IT技術を勉強・実践中。最近はDeep Learningに注力。

【DRL, Montezuma】thread毎多様性の効果確認!(12/7修正)

A3Cをベースにした環境で、Montezuma's RevengeのDeep Reinforcement Learningを行っていますが、thread毎に多様性を持たせた効果が示せました。(12/7訂正)

下記サイト掲載の学習状況をご覧ください。

上記サイトには8個のグラフが掲載され、最初の2つ(gcp10、gcp20)は、全てのthreadが同じパラメーターで学習しています。これらは、途中からSCOREが完全に0に落ち込み、回復していません。参考までに、下記にgcp10のグラフを載せます。

http://52.193.119.202/montezuma-x/log.gcp10.montezuma-x-yaml-pscm-ff-fs2.r.png

これに対し、gcp30〜gcp80は、thread毎に学習パラメータを変えてあります。下に行くほど、パラメーターの多様性が上ってます。gcp30〜gcp80は、一度0になっても、しぶとく回復しています(12/7訂正。本記事初版ではgcp60のSCOREが完全に0に落ち込んでいましたが、その後回復し、gcp30~gcp80の全てで効果が確認できました)。参考までに、下記にgcp60の例を載せます。

http://52.193.119.202/montezuma-x/log.gcp60.montezuma-x-yaml-pscm-ff-fs2.r.png

もう少し学習を続けてみるつもりですが、上記で、thread毎の学習パラメーターの多様性が、学習安定化に対して効果があることを十分に示せたと思います。