DeepMind的最新版AlphaZero4小时统治了国际象棋界【
分类:技术文章

12月7日,谷歌旗下的人工智能实验室DeepMind研究团队在《科学》杂志上发表封面论文,公布了通用算法AlphaZero和测试数据。《科学》杂志评价称,通过单一算法就能够解决多个复杂问题,是创建通用的机器学习系统、解决实际问题的重要一步。该论文的作者包括AlphaGo的核心研发人员戴维·席尔瓦(David Silver)和DeepMind创始人戴密斯·哈萨比斯(Demis Hassabis)等。彩世界彩票注册平台官网 1AlphaZero:一个算法通吃三大棋类AlphaGo的前几代版本,一开始都是与人类棋手的棋谱进行上千盘的训练,学习如何下围棋。到了AlphaGo Zero则跳过了这个步骤,通过自我对弈学习下棋,从零学起。系统从一个对围棋一无所知的神经网络开始,将该神经网络和一个强力搜索算法结合,自我对弈。在对弈过程中,神经网络不断调整、升级,预测每一步落子和最终的胜利者。与AlphaGo Zero一样,从随机小游戏开始,AlphaZero依靠深度神经网络、通用强化学习算法和蒙特卡洛树搜索,在除了游戏规则外没有任何知识背景的情况下,通过自我对弈进行强化学习。强化学习的方式是一种通过“试错”的机器学习方式。DeepMind在其博客中介绍,一开始AlphaZero完全是在瞎玩,但随着时间的推移,系统从胜、负和平局中学习,调整神经网络的参数,如此往复循环,每过一轮,系统的表现就提高了一点点,自我对弈的质量也提高了一点点,神经网络也就越来越准确。神经网络所需的训练量取决于游戏的风格和复杂程度。经过试验,AlphaZero花了9个小时掌握国际象棋,花了12个小时掌握日本将棋,花了13天掌握围棋。彩世界彩票注册平台官网 2卡斯帕罗夫:聪明地工作比拼命地工作更重要国际象棋是计算机科学家很早就开始研究的领域。1997年,深蓝(Deep Blue)击败了人类国际象棋冠军卡斯帕罗夫,这一事件成为了人工智能发展的里程碑。但彼时卡斯帕罗夫对深蓝的印象并不深刻,认为深蓝的智能水平和一个闹钟差不多。如今,他对棋类AI的看法也发生了转变。他认为AlphaZero“像自己一样”,下棋风格多变而开放。在同一期《科学》杂志上,卡斯帕罗夫撰文称,“传统的机器是通过不断枚举来下棋,最终把棋局拖入无聊的平局。但在我的观察中,AlphaZero会优先考虑棋子的活动而非盘面上的点数优势,并且喜欢在相对风险更大的地方落子。”尽管与传统的冠军级程序相比,研究人员用训练好的神经网络指导蒙特卡罗树搜索,来选择最有可能获得胜利的一步,因此AlphaZero每秒计算的位置要少得多。据DeepMind介绍,在国际象棋中,AlphaZero每秒仅计算6万个位置,相比之下,Stockfish则会计算6千万个位置。但从比赛的结果来看,AlphaZero的思考显然更有效率。在国际象棋比赛中,AlphaZero击败了2016年TCEC世界冠军Stockfish,在1000场比赛中,赢得155场比赛,输了6场。为了验证AlphaZero的稳健性,研究团队还进行了一系列比赛,这些比赛都是从“人类开局方式”开始的,而AlphaZero都击败了Stockfish。在将棋比赛中,AlphaZero击败了2017年CSA世界冠军版Elmo,赢得了91.2%的比赛。在围棋比赛中,AlphaZero击败了AlphaGo Zero,赢得了61%的比赛。对于AlphaZero取得的战绩,卡斯帕罗夫认为这正是印证了一句老话——聪明地工作比拼命地工作更重要。彩世界彩票注册平台官网 3

文转自:网易智能(有删改)

该公司已经开始使用AlphaZero来研究蛋白质折叠(错误折叠的蛋白质会导致许多破坏性疾病,包括阿尔茨海默病、帕金森病和囊性纤维化),并表示将很快发布新的研究结果。

AlphaZero登上《科学》封面:一个算法通吃三大棋类

彩世界彩票注册平台官网 4

3.AlphaZero只维护单一的一个神经网络,这个神经网络不断更新,而不是等待迭代。

第四,AlphaZero中,所有对弈都重复使用相同的超参数,因此无需进行针对特定某种游戏的调整。

想了解更多专家的“智能观”?

彩世界彩票注册平台官网 5

2.AlphaGo和AlphaGo Zero会转变棋盘位置进行数据增强,而AlphaZero不会。

【嵌牛正文】:

此外,从技术角度看,新老两版Zero有4点不同:

黄士杰至此开启了DeepMind生涯,有一天,席尔瓦走到黄士杰面前说:“Aja,我们准备启动一个围棋项目,最开始只有你和我”。2014年2月,AlphaGo项目正式启动,团队三个人:哈萨比斯、席尔瓦、黄士杰,萨比斯是整个公司的老板,席尔瓦是黄士杰的经理。所以,这个团队真正干活的只有黄士杰一个人。AlphaGo项目想搞出一个强大的围棋程序,并且沿着深度学习和强化学习的方向探索。

想知道AI加教育领域有哪些最新研究成果?

所以,DeepMind团队带着新的使命,发表了全新的强化学习算法AlphaZero。

4.AlphaZero中,所有对弈都重复使用相同的超参数,因此无需针对某种特定的游戏进行调整。

彩世界彩票注册平台官网 6

彩世界彩票注册平台官网 7

【嵌牛提问】:Alphago如今技术已经完善到了什么程度?Google DeepMind所研究的方向是什么?

深蓝大战加里卡斯帕罗夫

此外,我们看到这次的AlphaZero与AlphaGo Zero有几点不同。

彩世界彩票注册平台官网 8

第三,AlphaZero只维护单一的一个神经网络,这个神经网络不断更新,而不是等待迭代。

1.AlphaGo Zero是在假设结果为赢/输二元的情况下,对获胜概率进行估计和优化;AlphaZero会将平局或其他潜在结果纳入考虑,对结果进行估计和优化。

两年之后的2016年3月9日至15日,他们带着AlphaGo惊艳世人,从此所向披靡,战无不胜。

“毫无疑问,这个AI将会带来革命性的变化,接下来要思考的就是它如何在国际象棋之外发挥作用。让这一最新算法用于城市,各大洲,甚至宇宙。”

其次,AlphaGo和AlphaGo Zero会转变棋盘位置进行数据增强,而AlphaZero不会。

当年,IBM的超级计算机“深蓝”之所以能击败国际象棋大师加里·卡斯帕罗夫(Gary Kasparov),是因为提前被灌输了最好的棋步。但是,AlphaZero只是了解下棋规则,其他都是靠自己学习的。

(黄士杰博士代为执子)

想要AI领域更多的干货?

彩世界彩票注册平台官网 9

AlphaGo Master大战柯洁

姓名:张林锴  学号:16020140083  学院:电子工程学院

DeepMind的最新版本棋类AI——AlphaZero从零开始自学国际象棋知识,仅用4小时就击败了国际象棋顶级程序Stockfish。

对于著名的AlphaGo、人机大战、柯洁,大家可能非常熟知了,但黄士杰是谁大家可能并不熟悉。

参考 The Telegraph,DeepMind论文,网易智能

【嵌牛鼻子】:Alphago,黄士杰,Google。

令人惊叹的是AlphaZero还提出了全新的战略,现在国际象棋大师们正在分析它的新策略。

据了解,AlphaZero算法可以在8个小时训练击败李世石版本AlphaGo;再用4小时训练击败世界顶级的国际象棋程序Stockfish;再用2小时训练击败世界顶级将棋程序Elmo。这是DeepMind团队继AlphaGo Zero的研究问世之后,带给我们的又一全新算法,它是“更通用的版本”。

挪威国际象棋大师约恩·卢德维格·哈默尔( Jon ludvig hammer)将AlphaZero的策略描述为“疯狂地攻击国际象棋”,并且每一步都走得意义深远。

(从左至右,哈萨比斯、柯洁、席尔瓦)

除了在国际象棋界大展神威外,AlphaZero还顺便统治了将棋界,用了不到2小时击败了世界顶级将棋程序Elmo。

彩世界彩票注册平台官网 10

国际象棋教育网站Chessable的David Kramaley补充说:“我们现在知道我们的新霸主是谁了。

据了解,早在今年5月战胜世界围棋第一人柯洁后,DeepMind就曾宣布,从今往后AlphaGo项目将不会再继续开发,AlphaGo也不会再参加竞技比赛了。与此同时,DeepMind也初步披露了AlphaGo团队的下一步计划——研发出应用领域更广泛的算法,包括找到新的疾病治疗方法、显著降低能源消耗、发明革命性的新材料等。

最新版本的Zero使用了全新的算法,更接近“通用AI”,并且此次仅用了8小时就完败了当年打败李世乭的AlphaGo。当然,单纯地从名字看,新Zero比老Zero少了一个Go,不知道这算不算是它要脱离“狗狗家族”,摆脱只能下棋的命运,走向“通用AI”的标志。

我们期待黄士杰的新征程,他不仅仅是人手臂,人工智能时代的大幕才刚刚开始!

最后,保持初心,DeepMind团队还是希望使用该算法来解决严重的健康问题。他们认为,这项计划可以在几天或几周内为重大疾病提供治疗方案(一般这样的方案要花费数百年才能找到)。

它是一种可以从零开始,通过自我对弈强化学习在多种任务上达到超越人类水平的新算法,堪称“通用棋类AI”。

英国国际象棋大师西蒙·威廉姆斯( Simon Williams)说,这一成就可以载入史册了。“2017年12月6日,AlphaZero统治了国际象棋界。”

【嵌牛导读】:AlphaGo曾经的“代言人/人肉臂”、谷歌DeepMind科学家黄士杰(Aja Huang)博士今天凌晨在Facebook上发帖宣布,他本人将正式从AlphaGo团队离开,转到DeepMind其他项目的研究中去。

黄士杰博士是一名台湾工程师,AlphaGo的幕后推手,黄士杰从小热爱围棋,在台湾师大读书时就曾经创办了学校的围棋社,还曾获得大专杯围棋赛冠军,是个业余六段围棋选手,在校取得了辉煌成绩的黄士杰通过博士论文口试之后就被加拿大一所大学挖走,担任电脑围棋程序研究员,1年后被英国一家专门研究人工智能的公司DeepMind招揽,2014年,DeepMind公司被谷歌并购,黄士杰已经是公司内两位首席工程师之一。

请在对话界面点击“找找看”,去获取你想要的内容吧。

11月27日,黄士杰在Facebook转发了一则关于DeepMind将与一些顶尖的研究机构共同投入诊断乳腺癌的AI研究消息。DeepMind将利用最新的机器学习技术,希望能够快速、准确地检测出癌症的迹象,帮助医生尽早发现癌症,以便更早的有效治疗,所以,他之后投身医疗研究的可能性非常大。

彩世界彩票注册平台官网 11

首先AlphaGo Zero是在假设结果为赢/输二元的情况下,对获胜概率进行估计和优化。而AlphaZero会将平局或其他潜在结果纳入考虑,对结果进行估计和优化。

智能观上次还报道了DeepMind的AlphaGo Zero击败哥哥们AlphaGo、AlphaGo Master的事件,如果你认为这一次的Zero和上一次的Zero是一个品种,那就大错特错了!

附 DeepMind的AlphaZero最新论文:

彩世界彩票注册平台官网 12

“AlphaZero所玩的游戏表明,它可以计算出一些令人难以置信的创造性之举,其意义远远高于人类或国际象棋程序所提供的任何东西。

我们,拭目以待!

—完—

本文由彩世界注册首页发布于技术文章,转载请注明出处:DeepMind的最新版AlphaZero4小时统治了国际象棋界【

上一篇:河海大学教师代表参加江苏省青年联合会第十届 下一篇:没有了
猜你喜欢
热门排行
精彩图文