【DL、RL、A3C+】Montezumaで2500点出ました！

直前の記事記載のように、A3c+でMontezuma's Revenge学習中にi-node不足で途中終了したので、終了前のpseudo-countデータ無しで途中再開して試しています。学習曲線は以下のようになってます。平均得点が元のレベル元に戻るまで5M STEPS弱掛かってしまいま…

2016-08-30

【DL、RL】A3C+のpseudo-count無しの途中再開は今ひとつ

機械学習 Python ITのお勉強 Montezuma's Revenge

直前の記事で、pseudo-countの保存機能の無い版のソースコードを公開したと書きましたが、やはり、pseudo-count無しの途中再開は、中断前の平均得点に戻るまで時間が掛かりそうです。下記が、pseudo-count無しでの再開の状況です。誰か、pseudo-countのセー…

2016-08-30

【DL、RL】A3Cでのpseudo-countの実装について

機械学習 Python ITのお勉強 Montezuma's Revenge

DeepMind社の論文[「[1606.01868] Unifying Count-Based Exploration and Intrinsic Motivation」記載のpseudo-countのA3C on pythonでの実装について、防備録を残しておきます。なお、論文は抽象化して書かれていますが、当方の当面のターゲットはAtari2600…

Itsukaraの日記

最新IT技術を勉強・実践中。最近はDeep Learningに注力。

2016-08-30から1日間の記事一覧

【DL、RL、A3C+】Montezumaで2500点出ました！

【DL、RL】A3C+のpseudo-count無しの途中再開は今ひとつ

【DL、RL】A3Cでのpseudo-countの実装について