【DL、RL、A3C+】Montezumaで2500点出ました！

直前の記事記載のように、A3c+でMontezuma's Revenge学習中にi-node不足で途中終了したので、終了前のpseudo-countデータ無しで途中再開して試しています。学習曲線は以下のようになってます。平均得点が元のレベル元に戻るまで5M STEPS弱掛かってしまいま…

2016-08-30

【DL、RL】A3C+のpseudo-count無しの途中再開は今ひとつ

機械学習 Python ITのお勉強 Montezuma's Revenge

直前の記事で、pseudo-countの保存機能の無い版のソースコードを公開したと書きましたが、やはり、pseudo-count無しの途中再開は、中断前の平均得点に戻るまで時間が掛かりそうです。下記が、pseudo-count無しでの再開の状況です。誰か、pseudo-countのセー…

2016-08-30

【DL、RL】A3Cでのpseudo-countの実装について

機械学習 Python ITのお勉強 Montezuma's Revenge

DeepMind社の論文[「[1606.01868] Unifying Count-Based Exploration and Intrinsic Motivation」記載のpseudo-countのA3C on pythonでの実装について、防備録を残しておきます。なお、論文は抽象化して書かれていますが、当方の当面のターゲットはAtari2600…

2016-08-29

【DL.A3C+pseudo-count】Montezumaで平均400点達成

機械学習 Python ITのお勉強 Montezuma's Revenge

直前の記事で途中経過を記載した件、途中でエラーとなり終了してしまいました。「No space left on device ...」と出ていますが、「df -h」でみると容量はまだ余っている様子。よく見ると「os.makedirs」でエラーが出ているので、i-node不足の可能性があり、…

2016-08-29

【DL.A3C+pseudo-count】Montezuma途中(22M)経過良好

機械学習 Python ITのお勉強 Montezuma's Revenge

少し前の記事で記載しましたように、Deep LearningのA3C論文再現コードに、最新論文の手法(pseudo-count)を加えて改造し、トライアル実行中です。途中経過ですが、非常に良好なので報告させていただきます。下記のように、18M STEPS辺りから平均点数が急激に…

2016-08-29

【DL.A3C+pseudo-count】Montezumaで5つの部屋に到達！！

機械学習 Python ITのお勉強 Montezuma's Revenge

8/26の記事で記載しましたように、Deep LearningのA3C論文再現コードに独自の改造を加えて色々試しています。A3Cだけでは殆ど点数が取れないゲーム「Montezuma's Revenge」で高得点を取ることが現在の目標です。A3C論文再現コードを書いたmiyosudaさんから、…

2016-08-26

【DL.A3C】Montezuma' RevengeでScore=400の動画

機械学習 Python ITのお勉強 Montezuma's Revenge

直前の記事の続きです。400点の動画も撮れましたので、載せておきます。100点取れていれば、400点になるのは、ごく簡単ですね。ご参考まで。 youtu.be 注意コマンドを少し改造しました。最新版をGithubからfetchのうえ、動画変換は、下記コマンドを利用くだ…

2016-08-26

【DL.A3C】Montezuma' RevengeでScore=100の動画

機械学習 Python ITのお勉強 Montezuma's Revenge

相変わらず、Deep LearningのA3C論文再現コードを改造して遊んでいます。以前に書きましたように、Montezuma's Revengeでは、殆どのエピソード(1回のゲーム)で得点が0です。しかし、得点が得られた時にプレイ動画を見たいと思いました。そこで、プログラムを…

2016-08-25

でんき家計簿：東京ガス切り替え後も過去分見れました

でんき家計簿スマートメーター Javascript

下記で電力会社を東京電力に切り替えると書きましたが、切り替え完了しました。 itsukara.hateblo.jp 8/9に申し込んで、8/19に切り替えが完了したので、わずか10日間ですみました。申し込みの際にWebに書かれた情報では2か月ぐらい掛かるとのことでしたが、…

2016-08-25

AWSが$25分の無料利用クーポン提供中(本日(8/25)12:00まで)

インフラ機械学習

AWSが期間限定(8月23日12:00～25日12:00までの48時間限定)で、$25分の無料利用クーポンをプレゼントするキャンペーン中です。性能の非常に低いインスタンスならば元々1年間無料で使えますが、それに加えて$25分を自由に使えるというものです。機械学習のイン…

2016-08-24

Google Cloud PlatformでのA3C実験環境構築スクリプト

機械学習 ITのお勉強 Python

Deep Learningの実験にクラウドは欠かせないと感じており、Google Cloud Platform (GCP)やAmazon Web Servicesの無料試用枠を活用しています。今後は、Microsoft AzureやIBM Softlayerの無料試用枠も活用する予定です。実験にあたっては、色々なクラウドで同…

2016-08-11

再：Deep Learningで特定ゲームのSOREが低い理由

ITのお勉強機械学習 Python Montezuma's Revenge

一度誤った情報を書いてしまったので、削除の上、新たに書かせて頂きます。経緯相変わらずA3C再現コードを、Breakoutでの学習曲線の変化を確認していますが、私が参加している勉強会Do2dleでは、A3Cの論文でSOREが低いMontezuma's RevengeのSCOREを上げる…

2016-08-09

Githubソースへの注意書きを追加

でんき家計簿 DIGA番組名一括変更スマートメーター Javascript

下記で、東京電力「でんき家計簿」のデータ自動抽出ツールを微修正したことを書いたのですが、これでもうまく動作しない方がいて、そのやりとりに時間が掛かってしまいました。itsukara.hateblo.jpそこで、Github掲載のREADME.mdに、下記注意事項を追記しま…

2016-08-08

DQNでのReplay Memory圧縮効果

機械学習 ITのお勉強 Python

下記でDeepMindのDQN再現コードを試行した話を書きましたが、当方のマシンではメモリが16GBしかないため、Replay Memoryが0.4M個に制限されていました。そこで、試しにReplay Memoryをメモリ上で圧縮する処理を入れてみたところ、Replay Memory用のメモリサ…

2016-08-08

A3Cでのbreakout学習済networkをgithubにアップしました

機械学習 ITのお勉強 Python

下記でDeep Learningの最新技術A3Cでゲームbreakoutを試したことを書きましたが、よく考えたら学習済networkをgithubにアップロードするのを忘れていました。先ほどgithubにアップロードしました。試したい方はどうぞ。itsukara.hateblo.jptensorflowが動く…