前回の記事で書きましたように、DeepMind社の最新論文Asynchronous Methods for Deep Reinforcement Learning、16 Jun 2016に書かれた手法A3C(Asynchronous Advantage Actor-critic)の再現コードをGithubで見つけたので、実際に走らせて試行中。 Pongの学習…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。