読者です 読者をやめる 読者になる 読者になる

Itsukaraの日記

最新IT技術を勉強・実践中。最近はDeep Learningに注力。

【DL.A3C+pseudo-count】Montezumaで平均400点達成

直前の記事で途中経過を記載した件、途中でエラーとなり終了してしまいました。「No space left on device ...」と出ていますが、「df -h」でみると容量はまだ余っている様子。よく見ると「os.makedirs」でエラーが出ているので、i-node不足の可能性があり、…

【DL.A3C+pseudo-count】Montezuma途中(22M)経過良好

少し前の記事で記載しましたように、Deep LearningのA3C論文再現コードに、最新論文の手法(pseudo-count)を加えて改造し、トライアル実行中です。途中経過ですが、非常に良好なので報告させていただきます。下記のように、18M STEPS辺りから平均点数が急激に…

【DL.A3C+pseudo-count】Montezumaで5つの部屋に到達!!

8/26の記事で記載しましたように、Deep LearningのA3C論文再現コードに独自の改造を加えて色々試しています。A3Cだけでは殆ど点数が取れないゲーム「Montezuma's Revenge」で高得点を取ることが現在の目標です。A3C論文再現コードを書いたmiyosudaさんから、…

【DL.A3C】Montezuma' RevengeでScore=400の動画

直前の記事の続きです。400点の動画も撮れましたので、載せておきます。100点取れていれば、400点になるのは、ごく簡単ですね。ご参考まで。 youtu.be 注意 コマンドを少し改造しました。最新版をGithubからfetchのうえ、動画変換は、下記コマンドを利用くだ…

【DL.A3C】Montezuma' RevengeでScore=100の動画

相変わらず、Deep LearningのA3C論文再現コードを改造して遊んでいます。以前に書きましたように、Montezuma's Revengeでは、殆どのエピソード(1回のゲーム)で得点が0です。しかし、得点が得られた時にプレイ動画を見たいと思いました。そこで、プログラムを…

再:Deep Learningで特定ゲームのSOREが低い理由

一度誤った情報を書いてしまったので、削除の上、新たに書かせて頂きます。 経緯 相変わらずA3C再現コードを、Breakoutでの学習曲線の変化を確認していますが、私が参加している勉強会Do2dleでは、A3Cの論文でSOREが低いMontezuma's RevengeのSCOREを上げる…