2016-09-12から1日間の記事一覧

2016-09-12

【DL、A3C+、OHL、Montezuma】80M STEPで平均1000点超え

DeepMind社のA3C+に独自機能(OHL:On-Highscore-Learning)を組込んだプログラムで、Atari2600の最難関レベルゲームMontezuma's Revenge*1の評価を継続中です。OHLで、残ったライフが多いほど学習履歴長を伸ばす機能を入れて、色々なオプションで試したのです…

Itsukaraの日記

最新IT技術を勉強・実践中。最近はDeep Learningに注力。

2016-09-12から1日間の記事一覧

【DL、A3C+、OHL、Montezuma】80M STEPで平均1000点超え