[深度强化学习] blog翻译-使用Keras与Gym仿真环境进
分类:彩世界彩票注册平台官网

彩世界彩票注册平台官网 1

彩世界彩票注册平台官网 2

阅读 讲义

  • Richard Sutton 的书,Reinforcement Learning: An Introduction(强化学习导论),一本神奇的书,非常值得一读
  • John Schulman 的 CS294:深度强化学习(UCB)
  • David Silver 的强化学习课程(UCL)

参与:Geek AI、贾伟

def remember(self, state, action, reward, next_state, done):
    self.memory.append((state, action, reward, next_state, done))

到此为止了!

如果你到达了这里,这就是我们希望的所有奖励。

我们希望你将这个系列看做机器学习的简介。我们在附录中编译了一些我们最喜欢的 ML 资源,如果你准备好来看看兔子洞有多深的话。

请不要犹豫,向我们提供思路,问题,反馈,或者你最喜欢的 GIF。

下次再见,

Vishal 和 Samer


总结

这里是一个基础的问题,它启发了这个系列,我们打算也将它给你。

作为人类,我们的目标函数是什么?我们如何定义,我们在现实生活中使其最大化的奖励?在基本的快乐和痛苦中,我们的奖励定义也倾向于包含混乱的事情,像是正确和错误,满足,爱情,精神,和目的。

有一些智力领域,在远古时期,它们就致力于“我们的目标函数是什么,或者应该是什么”的问题,它叫做“伦理学”。伦理学的核心问题是:我们应该做什么?我们应该怎么样或者?什么行为是正确或者错误的?答案非常简洁:它取决于你的价值观。

随着我们创造出越来越多的高级 AI,它会开始远离玩具问题的领域,像是 Atari 游戏,其中“奖励”仅仅由游戏中赢得了多少积分定义。并且它们越来越出现在现实世界。例如自动驾驶,需要使用更复杂的奖励定义做决策。最开始,奖励可能绑定在一些东西上,例如“安全到达目的地”。但是如果强制让它选择,保持原路线并撞击五个行人,还是转向并撞击一个行人,那么它应该不应该转向呢?如果一个行人是孩子,或者持枪的歹徒,或者下一个爱因斯坦呢?这样如何改变决策,以及为什么?如果转向也会毁掉一些值钱的艺术品呢?突然我们有了更加复杂的问题,当我们尝试定义目标函数,并且答案并不简单的时候。

这个系列中,我们探索了为什么难以对计算机显式规定猫是什么样子 -- 如果你问我们自己是怎么知道的,答案很简单,“直觉” -- 但是我们探索了机器视觉的方式,让计算机自己习得这个直觉。与之类似,在机器道德的领域,可能难以准确规定,如何求解一个行为对于另一个的正确性和错误性,但是,或许机器可以用某种方式习得这些值。这叫做“价值学习问题”,并且它可能是人类需要解决的,最重要的技术问题之一。

对于这个话题的更多东西,请见 Risks of Artificial Intelligence(人工智能风险)的概要性文章。以及随着你深入到让机器更聪明的世界中,我们鼓励你记住,AI 的进步是个双刃剑,它的两侧都特别锋利。

深度学习方法的快速发展无疑受益于公开数据集上的评测。游戏 AI 也是类似,一个游戏 AI 算法的好坏完全由游戏中得分多少或者能否赢得比赛而决定。像 IEEE 计算智能和游戏大会(IEEE Conference on Computational Intelligence and Games)这样的会议在各种游戏环境中进行了广泛的比赛。

  • Playing Atari with Deep Reinforcement Learning
  • Human-level Control Through Deep Reinforcement Learning

DQN,A3C,和深度 RL 中的进展

在 2015 年,DeepMind 使用了一个叫做深度 Q 网络(DQN)的方法,使用深度神经网络近似 Q 函数,以便在许多 Atari 游戏中击败人类:

我们展示了深度 Q 网络的智能体,仅接收像素和游戏得分作为输入,能够超越所有以前的算法的表现,并在一组 49 个游戏中,达到专业人类游戏测试人员的相当水平,使用相同的算法,网络架构和超参数。 这项工作弥合了高维感知输入和动作之间的鸿沟,产生了第一个人工智能体,它能够在多种挑战性任务中,学着变得优秀。(Silver 等,2015)

这里是一个截图,展示了在不同领域中,与线性学习器和人类相比,DQN 的位置。

彩世界彩票注册平台官网 3

这些按照职业人类游戏测试者来正则化:0% = 随便玩玩,100% = 人类的表现。来源:DeepMind 的 DQN 论文,通过深度强化学习的人类级别控制

为了帮助你构建一些直觉,关于这些进展在 RL 研究中产生,这里是一些改进的例子,关于非线性 Q 函数上的尝试,它可以改善性能和稳定性。

  • 经验重放,通过随机化之前的观测值的更长的序列,以及对应的奖励,来避免近期经验的过拟合。这个思路由生物大脑启发:例如老鼠走迷宫,在睡觉期间“重放”神经活动的模式,以便提升迷宫中的未来表现。

  • 循环神经网络(RNN)扩展的 DQN。当一个智能体只能看到它的直接环境时(也就是机器老鼠只能看到迷宫的特定区域,而一只鸟可以看到整个迷宫),智能体需要记住更大的地图,以便它记住东西都在哪里。这类似于人类婴儿如何发展出“物体恒存性”(object permanence),来了解东西是存在的,即使它们离开了婴儿的视野范围。RNN 是循环的,也就是,它们允许信息长时间存在。这里是深度循环 Q 网络(DQRN)玩 Doom 的视频,令人印象深刻。

https://medium.com/media/2286543cfd01ba0ac858ada4857dc635?postId=6eacf258b265

论文:https://arxiv.org/abs/1609.05521。来源:Arthur Juliani 的“使用 TensorFlow 的简单的强化学习”系列。

2016 年,仅仅在 DQN 论文的一年之后,DeepMind 发布了另一个算法,叫做 Asynchronous Advantage Actor-Critic(A3C),在训练一半的时间之后,超过了 Atari 游戏的最先进的表现(Mnih 等,2016)。A3C 是一种行动-评判算法,组合了我们之前探索的两种方式:它使用行动器(一个决定如何行动的策略网络),以及一个评判器(一个 Q 网络,决定什么是有价值的东西)。Arthur Juliani 写了一个不错的,特别关于 A3C 网络是什么样。A3C 现在是 OpenAI 的 Universe Starter Agent。

从那个时候之后,就有了无数吸引人的突破 -- 从 AI 发明自己的语言,到教会他们自己在多种地形中行走。这个系列仅仅涉及了 RL 前沿的表面,但是我希望它可以作为未来探索的起始点。

另外,我们打算分享这个 DeepMind 智能体学习走路的视频...并且带有声音。拿一些爆米花,打开声音,然后兼证人工智能的所有荣耀。

https://medium.com/media/e7187ecd760a815468c4e79c622dc625?postId=6eacf258b265

本文由彩世界注册首页发布于彩世界彩票注册平台官网,转载请注明出处:[深度强化学习] blog翻译-使用Keras与Gym仿真环境进

上一篇:轻芒阅读距离今日头条还差一个即刻彩世界彩票 下一篇:没有了
猜你喜欢
热门排行
精彩图文