【DL、RL、A3C+】pseudo-countを画像化しました

Tensorflowの実験をしていると、Tensorflowを使った他の実験はGPUメモリ不足でエラーとなり、あまり色々なことができないので、以前の記事で書いたpseudo-countのデータを視覚化してみました。期待値画像 pseudo-countの計算のために、ゲーム画面の各画素に…

2016-09-02

【DL、RL、A3C+】Montezumaの得点:得点時履歴学習の影響大

機械学習 Python ITのお勉強 Montezuma's Revenge

A3C+の論文に基づいたコードでMontezuma's Revengeの得点要因を調査しているところですが、直前の記事での予測のように、当方が独自で入れ込んだ「高得点が出た時に、その履歴(状態、アクション、得点の履歴)から学習させる機能」の効果が高いことが分かりま…

2016-09-02

【DL、RL、A3C+】Montezumaの得点要因を検証中(12:40更新)

機械学習 Python ITのお勉強 Montezuma's Revenge

これまで書きましたように、A3Cにpseudo-countを入れたコード(A3C+)で、Atari2600のMontezuma's Revengeで最高得点2500点が出たり、平均得点が400点を超えるなど、良い結果が得られています。学習途中でi-node不足で異常終了したため、既存pseudo-countデー…

Itsukaraの日記

最新IT技術を勉強・実践中。最近はDeep Learningに注力。

2016-09-02から1日間の記事一覧

【DL、RL、A3C+】pseudo-countを画像化しました

【DL、RL、A3C+】Montezumaの得点:得点時履歴学習の影響大

【DL、RL、A3C+】Montezumaの得点要因を検証中(12:40更新)