alphago是怎么学会下谷歌围棋alphago的

点击联系发帖人 时间：2018-01-20 23:55

围棋棋评

谷歌工程师：AlphaGo是如何学会下围棋的_创事记_新浪科技_新浪网
谷歌工程师：AlphaGo是如何学会下围棋的
　　欢迎关注“创事记”的微信订阅号：sinachuangshiji　　创事记注：本文为自媒体程序员和创业者鼓励师采访谷歌工程师许丞的实录，文中简单讲解了AlphaGo的原理，创事记已获得许丞本人的转发授权。　　最近，AlphaGo和李世石的围棋大战刷爆了朋友圈，之前的比赛AlphaGo首次击败人类围棋冠军，朋友圈都在转发人工智能的前景有多么乐观，其在未来发生的应用场景会非常多，机器代替人类的一天将在不久会出现。随着日李世石第一次取胜AlphaGo，朋友圈又引起了一片哗然，都是对人类充满了希望，感慨人类未来会越来越好，未来的世界还是人类主宰。AlphaGo的出现，无疑反应了谷歌的技术实力，研究水平之深。今天，我们采访曾经的谷歌中国第三位工程师，许丞，李开复的50大弟子之一，试图从一个谷歌人的角度谈谈AlphaGo与李世石的这场激战。　　鼓励师　　您之前在谷歌有从事过人工智能相关的工作吗？　　许丞　　老实说，其实没有。。。我在谷歌参与的项目主要有谷歌地图搜索，谷歌生活搜索以及谷歌光纤网络。我参与过使用机器学习的项目，比如条件随机场进行命名实体识别和Logistic Regression做点击概率预测，但是没有直接做跟Deep Learning等相关的项目。　　有两个项目可能跟目前热得发紫的深度学习相关的吧：在谷歌我们有一个去学习深度学习的codelab，工程师都可以去学习如何使用像DistBelief（第一代谷歌大脑项目）来进行实验研究。我研究过如何用DistBelief去完成MINST手写数字识别，我写的程序还进了后来的tutorial。之前的研究者如果要去做手写数字识别，需要自己先定义好各个features，然后再训练模型。谷歌大脑系统完全不用写features，直接把原始手写数字标注好，直接让机器去寻找最好的features并生成模型。这个过程简直太奇妙了。　　第二个项目是在参与谷歌光纤网络项目的时候，我们需要去用计算机视觉的方式去解决一个物体识别的问题。简单来说的话，就是从街景车的全景图里面，用谷歌大脑去识别是不是有电线杆子，听起来这个电线杆子没什么用。。。。嗯。。。在做光纤布线的时候还是有用的。街景图里面去识别物体已经用在了抹去车牌或者说隐私保护的很多场景下，经过对比测试之后，目前我知道的数字是谷歌大脑识别这些数字或者名字的能力已经超过了人眼。　　鼓励师　　AlphaGo为什么可以下围棋？之前深蓝击败卡斯帕罗夫的时候是用了什么原理？呃。。。计算机是怎么可以下棋的？　　许丞　　计算机下棋的一个基本原理就是在状态空间上进行搜索。。。。嗯，太专业了是吧？好吧，那我们用一个简单的方式来描述一下这个过程。　　我们把围棋简化一下，简化成一个叫做九宫棋的棋类游戏。　　这个棋就是个简化版的五子棋，规则就是谁能把3个棋子连一片，就算赢（这也太简单了吧？围棋比这个可复杂多了。。。嗯，所有的抽象模型都是由简单开始的）。　　我们把每个棋的一个形态当做一个状态，把所有的可能性都作为它的子状态。那么久可以形成一个如下类似的一颗树，这颗树就叫做博弈树。　　这样的一棵树基本上把自己接下来可能的步数，以及对手可能走的步数都模拟了一遍，这就是大家下棋的时候所说的能够往后看几步了。看得步数越多，显然赢的可能性就越大，因此就越厉害。　　对于九宫棋（三子棋），所有的状态空间是一定的，所以其实是能够知道必胜的走法的。但是对于围棋或者象棋来说，每一次可能的步数都很多，这样每多看一步，就产生很多倍的新的状态空间，对于机器来说，可能就会内存不够或者时间不够了。　　因此大家会定义一个用来评估当前局面的函数，叫做评估函数。比如拿九宫棋来说，可以有很多，比如那可以是目前已经连成2个子的个数，或者任然空着的行列对角线的个数等等。评估这个局面可以告诉计算机，目前我这一步的情况如何，是不是很好。　　对于某些特别不好的局面，那么评估之后就会被剪掉，这叫做剪枝法。因为博弈树是一个下完一个，另外一个跟着下，因此剪枝的方法一般用的是α–β剪枝法（Alpha–beta pruning）　　通过这颗搜索树，那么机器就知道如何下子跟走棋了。　　鼓励师　　这样就明白了。那么《自然》论文的AlphaGo的原理是什么样的呢？跟刚刚讲的一样吗？　　许丞　　其实所有的计算机下棋的程序抽象来看都是上面那个的过程。只是因为难度不一样，所以具体的算法复杂性也会有巨大的区别。　　AlphaGo最厉害的地方是用人工神经网络来建模了“棋感”这一个完全无法用计算机语言来描述的概念。通过上面的学习我们可以知道，评估一个棋局的局面实际上可以用简单的函数来描述，也可以通过往后看几步来分析。这个评估函数建模了棋局的胜负概率，因此至关重要。人类经过训练之后，能够比较快速的去数目并判断棋盘的局势，但是机器显然很难（对于计算来说，数数显然是很快的，但是围棋的目数和局势显然不是单纯数一下数目）。　　AlphaGo的几个核心部分是：　　1。 Policy Network：用来预测如果是人类最好的选手，他会选择哪一个走法。这个模型是用深层神经网络实现的，其实是建立了最好棋手棋感的一部分。　　2。 Fast rollout：快速走子，跟1的功能一样，但是用了不同的模型，这个模型跟预测点击率的Logistic Regression模型没有区别。　　3。 Value Network：评估当前的棋局形势。　　4。 Monte Carlo Tree Search：蒙特卡洛树搜索。用来进行状态空间的快速搜索的概率模型。　　拿着刚刚学习的东西来对比：　　Policy/Value Network是对比与上文说的评估函数。在上面的搜索树里面用了一个简单的数数的方式，而在AlphaGo中，用的是棋感和预测走子的方式来进行构建状态空间。　　而蒙特卡洛树搜索是一个概率搜索算法，跟上面的博弈树搜索是一个套路的东西，只是用的是概率模型来进行更有效的搜索。　　鼓励师　　太复杂了没看懂，那么您直接告诉我。。。他的贡献是什么吧？　　许丞　　建立了棋感是很重要的贡献。人和机器根本的不一致在于：如果你给他看一个图片；对于机器而言，他看到的都是0/1这样的二进制数字，除了最基础的可以去数里面有多少不同颜色什么信息以外，啥都不知道。而人可以从全局的角度看这个图片，这样就能知道这个图片大概是什么东西，是什么内容。　　棋感也是一样——人工神经网络应用在计算机视觉上的重要突破，就是人不再让计算机用0/1来去识别图像内容了，而是让计算机自动的去抽取图像的语义特征--当然很可能只是一个一个小图块tiles这种组合方式的语义特征。这样计算机就可以开始慢慢的能够开始感知到这个物体可能是什么特征通过线性组合出来的。慢慢的也就形成了概念。而棋感就是类比于这样的概念！　　其二是增强学习。也就是说计算机可以开始通过自己和自己进行比赛的方式来提高自己的模型的精度。在此之前，所有的机器学习大部分都可以说是监督学习，人类在扮演着一个家长的角色，不停的告诉自己的计算机模型说这个是对的，这个需要修正。而现在在AlphaGo中，他们实现的无监督学习已经可以让人不用再去当家长，他们左右互搏也能学习到非常强的知识。这个结果非常可怕　　鼓励师　　目前不管是AlphaGo战胜李世石还是李世石战胜了AlphaGo ，这场人机大战对未来会有什么影响呢？　　许丞　　我认为这个影响将会是巨大的。在此之前，虽然人工智能，机器学习也算是人尽皆知的词汇，但是此次新闻的传播影响之大，从来没有过让普通人去这么去关心人工智能的进展。这次人机大战可以说是影响力全面超越了卡斯帕罗夫深蓝大战那次。可以预言人工智能在接下来的几年之内一定是最热的热点话题，可以想象会有更多大学生投入到其中的学习和研究之中，也可能会让投资更多的聚焦于这个领域，更多的应用和场景，进而会产生让人不可思议的结果。　　AlphaGo中的技术和算法显然不会只用于下棋，有意思的是历史上的每一次人机棋类大战都会带来更多新技术的进步。1989年我的老师李开复博士带着他的实习生在奥赛罗比赛中，利用统计学习打败了当时的世界冠军。也许当时对大部分的人来说，其实也仅仅是一次人机大战而已。然而那次之后，统计学习在非特定人语音识别系统开始发挥无与伦比的作用，传统的基于规则的语音识别系统被打得找不着北。现在我们能用到的siri，自动电话应答机都是从此变为现实。更重要的是，从此之后，统计学习理论基本上统治了整个机器学习这个学科的所有研究方向，延续了差不多20多年。　　今天，风水轮流转，曾经被认为没前途的神经网络技术卷土重来，通过深度学习的方式再次让人类在视觉识别，棋类竞技等项目上败给机器，重新占据了学术研究的焦点。这是一场计算机智能革命，这些比人机大战结果的更有现实意义。我相信，随着这些算法应用到计算机视觉，自动驾驶，自然语言理解等领域，AlphaGo及其带来的人工智能革命必将改善我们所有人的生活。
（声明：作者独家授权新浪网使用，请勿转载。本文仅代表作者观点，不代表新浪网立场。）
文章关键词：
谷歌中国第三位工程师，之前在谷歌参与谷歌中国地图，谷歌地图以及谷歌光纤网络等项目，现创业担任心橙互联信息技术有限公司的CEO。
作者目前只有这一篇哦~为何说AlphaGo战胜李世石是个大事件？
[摘要]AlphaGo取得的经验可以在多个领域中得到应用。
腾讯科技讯 ()DeepMind人工智能AlphaGo两度战胜了传奇围棋选手李世石。这是人工智能（AI）历史上的重大时刻。“我非常吃惊，”李世石说道。“我没想到会输。我没有想到AlphaGo能下得如此完美。” 然而，AlphaGo的胜利为什么会引起如此多的关注？想要真正理解该问题，就要先了解围棋的特性和DeepMind团队如何去破解围棋中的各个难点。围棋起源于中国，是一项拥有3000年历史的抽象棋类游戏。围棋盘由19条横线19条竖线组成，棋手通过落子围住对手的棋子来获胜。虽然规则不多，但变化多端的棋路让其变得非常深奥，因为任何细微的变化都有可能引起战局的突变。去年AlphaGo与欧洲冠军樊麾之战裁判托比·万宁（Toby Manning）表示：“围棋是世界上最为复杂的智力游戏之一。它的规则非常简单，但这些规则却导致了棋局的复杂性。”托比还引述了20世纪传奇国际象棋和围棋选手爱德华·拉斯克（Edward Lasker）的话：“国际象棋中有许多巴洛克式规则（意为华而不实），它们都是人们故意添加的，而围棋则不同，它的规则简单巧妙，有机统一，逻辑严密，如果中还有其他智慧，我想他们也会爱上围棋。”正是因为围棋超凡的复杂性，棋手需要经过多年的训练，磨练自己的直觉并学习识破各种棋路，才能成为高手。“围棋一开始吸引你的是，它的规则简单易懂。它的复杂性又能让你不会感到厌倦，乐在其中，”韩国围棋协会高秘书长Lee Ha-jin说道。“即使你已经是多年的老手，你依然会发现自己还有许多新东西可学，你只希望变得更好，再更好。”我采访过的每位围棋选手对这项运动的评价都如出一辙：围棋的魅力就在于简单规则背后的无穷变化。这些复杂的变化正是计算机程序难以掌握的地方。计算机只能通过观察棋盘获得有限的数据，下好每一步棋都需要大量直觉。加拿大阿尔伯塔大学计算机科学家乔纳森·谢弗（Jonathan Schaeffer）说：”国际象棋和西洋棋与围棋不同，它们不需要选手对棋局做复杂的形势评估，只需一点经验，你就知道下一步该怎么走，衡量各个棋子的价值是选手最重要的任务——如果在国际象棋中多出一个’车’，那你就基本胜券在握了。但这种方法在围棋中都行不通。从人类的角度来看，围棋的棋路过于复杂多变，难以为其编程。直到AlphaGo之前，没有能创建出有效的评估函数系统。”那么DeepMind是如何做到的呢？它使用了深度学习和类神经网络技术来学会下围棋。就像Google Photos能帮你从无数图片中找出猫咪一样，其背后是该应用对大量猫咪图片进行了像素级的分析。而AlphaGo的智能则来自对人类棋手比赛中数百万棋局和落子的学习。让AlphaGo的棋力有了长足进步的原因是，DeepMind对它曾经练习过的棋局进行改进，让它再次练习，如此反复好几百万次，AlphaGo棋力不断强化和增进。这种方法让AlphaGo形成“策略网络”，帮助其预测对手的下一步棋，进而又形成了“价值网络”，让AlphaGo学会了确定和评估棋局。在棋局中，AlphaGo已经可以快速分析各种可能性，提前考虑后面几步的落子和排兵布阵了。上述两个神经网络让AlphaGo省去了很多工作：策略网络减小了搜索范围，价值网络让其不用自己在“心里”走完所有步骤就能得出结论。这一增强版的学习系统让AlphaGo变得更像人类，比纯粹依靠运算能力搜索最佳走棋而战胜国际象棋大师卡斯帕罗夫的深蓝电脑更加智能，深蓝所采用的方法用在围棋上根本行不通。这也是DeepMind不会在比赛间歇对AlphaGo进行调整的原因。AlphaGo只通过自学来提高棋力，单场比赛不会对自学效果产生多大影响。DeepMind公司创始人戴密斯·哈萨比斯（Demis Hassabis）称，自从去年10月打败欧洲冠军樊麾以来AlphaGo的棋力有了进步，但由于其能力已经达到边际效益递减点，DeepMind也就没有再对硬件进行投资，所以AlphaGo的运算能力几乎没有变化。不过深蓝电脑的开发人员认为AlphaGo在国际象棋上并不一定是世界最强。IBM研发工程师穆雷·坎贝尔（Murray Campbell）说道：“我相信DeepMind可以开发出战胜所有国际象棋大师的程序。不过我不认为AlphaGo可以在所有棋类比赛中站上世界之巅。为什么这么说呢？因为国际象棋在对搜索能力的要求上与围棋有着本质上的不同，搜索能力是深蓝战胜人类的重要因素。虽说围棋上电脑也需要深度搜索来辅助，但围棋更重视直觉和对棋局形势的判断与预估。而对国际象棋来说，除了搜索和编程，就别无他法了。”不过DeepMind公司可不这么想，他们认为在AlphaGo上取得的经验可以在多个领域中得到应用。哈萨比斯曾讲述过深蓝电脑上的AI与AlphaGo的不同，他认为前者是狭义AI，后者是常规AI，区别在于后者更加灵活，适应性也更强。DeepMind相信，其机器学习技术将会被应用于机器人学、智能手机助手系统和医疗制度。上个月，DeepMind宣布与英国国民健康服务达成了一项协议。其实无论随后三场比赛结果如何，AlphaGo都已经创造了历史。上周在被问及李世石被打败对围棋意味着什么时，Lee Ha-jin说：“围棋曾经是唯一一项没有被计算机打败的棋类运动，我们一直以此为荣，但现在我们再也不能这样说了，所以感到有点失望。”不过AlphaGo的胜利也会从另一个角度推动该项运动的发展。美国围棋协会成员对AlphaGo的棋力感到十分震惊，他们认为AlphaGo有时落子的方式有些一反常规，如果自己这样下棋，肯定会被老师骂。“我们当然非常震惊，”美国围棋协会运营副总裁杰克逊表示。“业内一直有所谓正统的落子套路，AlphaGo这样不按套路出牌能给我们带来什么启示呢？难道它要引发业界大地震？难道我们此前辛苦训练学会的那些技能都是错误的吗？”（翼飞）
[责任编辑：alonliu]
您认为这篇文章与"新一网（08008.HK）"相关度高吗？
Copyright & 1998 - 2018 Tencent. All Rights Reserved
还能输入140字AlphaGo Zero自己学会下象棋只要不到一天时间_智造新闻_智能制造_赛迪网
AlphaGo Zero自己学会下象棋只要不到一天时间
12月7日消息，据Engadget报道，谷歌DeepMind团队已经推出了新一代增强版人工智能AlphaGo Zero，它可以在没有人工输入情况下，自行学习控制围棋。现在，这个系统再进一步，可以在不进行任何干预的情况下自行掌握其他棋类游戏。
发布时间： 15:53&&&&&&&&来源：Engadget&&&&&&&&作者：Engadget
12月7日消息，据Engadget报道，谷歌DeepMind团队已经推出了新一代增强版人工智能AlphaGo Zero，它可以在没有人工输入情况下，自行学习控制围棋。现在，这个系统再进一步，可以在不进行任何干预的情况下自行掌握其他棋类游戏。
研究人员已经为AlphaGo Zero开发出了一种更加通用的系统，让它可以自己训练自己在国际象棋、日本象棋Shogi和其他游戏类型中获得&超人&一样的技能。它能够在一天之内，了解这些游戏所有的规则，并且不需要示例游戏或者其他任何提示。
值得注意的是，这并不意味着DeepMind已经开发了一个真正通用的、独立的人工智能系统。象棋和Shogi都是相对简单的测试，因为它们比围棋简单。
一个真正通用的、独立的人工智能系统完全是另一回事，比如可以处理像《星际争霸2》这样复杂的视频游戏，更不用说那些模糊的概念，比如行走或抽象思维。还有一个速度问题&&对于棋盘游戏，AlphaGo Zero需要不到24小时的工作时间，但对于人工智能需要适应现场的情况来说，这还是太慢了。
即便如此，这对于人工智能需要很少指令来自行完成任何任务来说，还是很重要的一步。特别是对机器人和自动驾驶汽车，他们可能更需要学习这种如何在不使用预先提供的培训材料的情况下，自行在不熟悉的环境下导航。现在，这个系统可能只会让象棋冠军有一个感到紧张的理由。
关键词阅读:
1(共条评论)
2(共条评论)
3(共条评论)
4(共条评论)
5(共条评论)
在“中国制造2025”中，创新是勾勒蓝图的一...
日前，锐捷网络政府和交通行业部总经理肖广...
联系我们：
广告发布：
方案、案例展示：
京ICP000080号网站-3
&&&&&&&&京公网安备45号AlphaGo 用自己跟自己下棋的方法是... | 问答 | 问答 | 果壳网科技有意思
AlphaGo 用自己跟自己下棋的方法是否会陷入 Local optimum，造成在不同的局面下时棋力不均衡的现象？
下图与问题无关，博君一笑
+ 加入我的果篮
软件工程师
事实上，本质上说，通常的训练方法追求的压根不是绝对的optimum（不管是global还是local，具体就不解释了...）。local optimum本身也是全局角度看才有的，是对于问题整体AI当前的状态效果比“附近”的状态好。而对于特定的情况处理不好这即便是global optimum下也有可能存在，这是两码事。
第四局已经证明了，你的预言是对的。
后回答问题，你也可以用以下帐号直接登录
(C)2017果壳网&&&&京ICP证100430号&&&&京网文[-239号&&&&新出发京零字东150005号&&&&
违法和不良信息举报邮箱：&&&&举报电话：动态 | 围棋教学工具 AlphaGo Teach上线第二天，Deepmind 资深研究员黄士杰宣布离开 AlphaGo 项目
用微信扫描二维码分享至好友和朋友圈
用微信扫描二维码分享至好友和朋友圈
　　AI 科技评论消息，北京时间 12 月 11 日晚，DeepMind 在 twitter 上宣布推出围棋教学工具 AlphaGo Teach。　　　　上图中，标有白圈的黑子表示上一手，虚线圆圈表示 AlphaGo 下一步可能的走法，实线圆圈表示人类选手下一步可能的走法，圆圈中的数字表示 AlphaGo 评估的黑子胜率。　　从官网上可以看到，该工具通过利用 231000 盘人类棋手对局、75 盘 AlphaGo 与人类棋手对局的数据，能对围棋近代史上 6000 种比较常见的开局给出分析。通过这个工具，大家可以探索围棋奥妙，比较 AlphaGo 的下棋路数与专业选手、业余选手的不同点，从中学习。　　官网上对于工具的使用也有相关说明：　　如何使用这一工具？　　点击棋盘上的彩色圆圈，或使用棋盘下方的导航工具，即可探索不同的开局变化，以及 AlphaGo 对于每一步棋的黑棋胜率预测。　　圆圈中的数字代表了该步棋的黑棋胜率。当轮到黑棋落子时，数值越接近 100 表示黑棋优势越大；当轮到白棋落子时，数值越接近 0 表示白棋优势越大。50 则表示均势。　　了解 AlphaGo 的胜率预测　　AlphaGo 的下法不一定总是具有最高的胜率，这是因为每一个下法的胜率都是得自于单独的一个 1000 万次模拟的搜索。AlphaGo 的搜索有随机性，因此 AlphaGo 在不同的搜索可能会选择胜率接近的另一种下法。　　除了官网上的简单介绍，作为 DeepMind 围棋大使、AlphaGo 的「教练」，樊麾也在其个人微博上宣布「AlphaGo 教学工具终于上线。」　　　　他表示，　　　　教学工具共有两万多个变化，三十七万多步棋组成，通过 AlphaGo 的视角，分析并建议围棋开局的诸多下法。同时每步棋 AlphaGo 都会给出自己的胜率分析，希望 AlphaGo 对围棋的独特理解可以给我们一些启发。　　本教学工具使用的版本是 AlphaGo Master。具体信息可以在主页上看到，工具设有包括中文简体在内的多个语言。　　　　同时，樊麾也从 AlphaGo 的教学中举了几个有意思的例子，并进行了幽默地解说。「下边的几个图是我从万千变化图中发现比较有冲击力的几个，类似的变化图有很多很多，大家可以自己找找。」　　　　原来二路虎不见得好！　　　　对付迷你中国流的新办法！　　　　小林流也不是只有大飞挂！　　　　原来这里还可以飞！　　　　妖刀定式！　　而在看到樊麾老师的微博之后，大家也开始了各色各样的调侃。　　　　@ 楼天，「有 21 天从入门到精通系列课程吗？」　　@ 我就是那一片浮云，「完了，十段棋手猛烈增加。」　　@ 自动高速公路，「做成 app 就可以成为围棋比赛作弊器了。」　　@ 于缚风，「围棋辅导班的老师没法讲课了。」（围棋老师表示哭晕在厕所）　　　　看完了大家的调侃，来看看专业棋手们怎么说。　　世界围棋冠军、职业九段棋手常昊表示，教学工具不一定是标准答案，更多的是给予了我们无限的思考空间。　　首届百灵爱透杯世界围棋公开赛冠军周睿羊说到，「定式什么的还是不要随便学了，看到工具一些高级下法之后，感觉到又可以起飞了。」　　第 3 届钻石杯龙星战冠军，围棋国手李喆也对这一教学工具发表中肯评价：很多人会担心今后布局的标准化，其实不必担心。教学工具并不是告诉大家「只能这么下」，而是告诉大家「有些下法不太好」以及「可以这么下」。有些图中没有的下法只是因为模拟的随机性而未被收录，它们之中包含很多高胜率的选点，仍可以大胆尝试。　　此外，今年五月份被 AlphaGo Master 打败的柯洁第一时间转发微博表示「重新学围棋。」（还用了一个贱贱的 doge 表情）　　　　而这个工具到底好不好用，大家可以去自行体验。　　官网英文地址如下：https://alphagoteach.deepmind.com/　　中文地址如下：https://alphagoteach.deepmind.com/zh-hans　　附 David Silver 介绍 AlphaGo Master 的研发关键：　　AlphaGo Master 为何如此厉害呢？　　我们让 AlphaGo 跟自己对弈。这是基于强化学习的，我们已经不再拿人类的棋局给它学习了。AlphaGo 自己训练自己，自己从自己身上学习。通过强化学习的形式，它学到如何提高。　　在棋局的每一回合，AlphaGo 运行火力全开（full power）的搜索以生成对落子的建议，即计划。当它选择这一步落子、实施、并到一个新回合时，会再一次运行搜索，仍然是基于策略网络和价值网络、火力全开的搜索，来生成下一步落子的计划，如此循环，直到一局棋结束。它会无数次重复这一过程，来产生海量训练数据。随后，我们用这些数据来训练新的神经网络。　　　　首先，当 AlphaGo 和它自己下棋时，用这些训练数据来训练一个新策略网络。事实上，在 AlphaGo 运行搜索、选择一个落子的方案之前，这些是我们能获取的最高质量的数据。　　下一步，让策略网络只用它自己、不用任何搜索，来看它是否能产生同样的落子的方案。这里的思路是：让策略网络只靠它自己，试图计算出和整个 AlphaGo 的火力全开搜索结果一样的落子方案。这样一来，这样的策略网络就比之前版本的 AlphaGo 要厉害得多。　　我们还用类似的方式训练价值网络。它用最好的策略数据来训练，而这些数据，是出于完全版本的 AlphaGo 自己和自己下棋时的赢家数据。你可以想象，AlphaGo 自己和自己下了非常多盘棋。其中最有代表性的棋局被选取出来提取赢家数据。因此，这些赢家数据是棋局早期回合步法的非常高质量的评估。　　最后，我们重复这一过程许多遍，最终得到全新的策略和价值网络。比起旧版本，它们要强大得多。然后再把新版本的策略、价值网络整合到 AlphaGo 里面，得到新版本的、比之前更强大的 AlphaGo。这导致树搜索中更好的决策、更高质量的结果和数据，再循环得到新的、更强大的策略、价值网络，再次导致更强大的 AlphaGo，如此不断提升。　　　　Deepmind 资深研究员黄士杰宣布离开 AlphaGo 项目　　在 12 月 12 日晚间，仅仅一天之后，又迎来另一条引爆媒体圈的消息：DeepMind 资深研究员的黄士杰宣布离开 AlphaGo 项目。　　　　他在 Facebook 上发表临别感言：　　　　AlphaGo 教学工具已经发布，这也是我 AlphaGo 研究之旅的美好句点。我已经转到 DeepMind 的其他专案，也将在深度学习与强化学习的 AI 研究上持续探索与精进。　　感谢大家的关注，很高兴 AlphaGo 所带给大家的惊喜与美妙的时光。我也期待 AlphaGo 教学工具对围棋界所产生的积极作用。未来，请大家持续关注 DeepMind 与我们其他的专案。　　　　提到黄士杰，最广为熟知的是在 2016 年 3 月，作为 AlphaGo 的「手」，对战李世石——他将 AlphaGo 的棋步下到棋盘，并将李世石的棋步再输到电脑上。　　黄士杰本科毕业于台湾交通大学资讯工程专业，后于台湾师范大学资讯工程所获得硕士与博士学位，他本身也是业余六段的围棋棋手。黄士杰与 AlphaGo 的不解之缘，要从他的业余爱好——围棋说起。曾经获得台湾大专杯业余围棋冠军的他，也曾在校内创办过围棋社。而从术业方面，黄士杰的指导教授林顺喜，所在的实验室正是专研各类棋类程序的开发。黄士杰的博士论文就是以「应用于电脑围棋之蒙地卡罗树搜索法的新启发式演算法」。　　在 2010 年，黄士杰以妻子为名所设计的系统 Erica 在日本举办的国际奥林匹克竞赛中击败了日本程序员尾岛阳儿所开发的 Zen（业余五段水平），荣获当年的金牌，轰动一时。　　2011 年，他在加拿大阿尔伯塔大学担任一年的研究员后，2012 年被英国的 DeepMind 纳入麾下，此后一直在 AlphaGo 项目中进行探索与研究。　　而他最近一次出现在大众的视野，是在上个月。11 月 10 日，在台湾中研院举办的「2017 年人工智能年会」上，黄士杰首次为大家讲述 AlphaGo 的研发过程，并且还透露新一代 AlphaGo Zero 的能力还没达到极限。　　在演讲中他表示，AlphaGo 的研发过程，有四个时刻对他影响很大。　　一是在韩国战胜李世石。「当我们开始做 AlphaGo 时，没想到它会变得那么强。在韩国赢了李世石后，DeepMind 首席执行官 Demis Hassabis 立刻发了一个推特，说「我们登上月球」(We landed it on the moon.)。我明白 Demis 那天的感觉，这是我们团队的一小步，但却是人类的一大步。」　　「第二个时刻，是我在网络上操作 AlphaGo 升级版「Master」，下了 60 盘棋。」他表示，自己从小喜欢下棋，在台湾是业余六段。「Master 在网络上对弈的对象，都是我从小崇拜的人。虽然不是我真正在下棋，但却感到非常荣幸。」　　第三个时刻，是今年在乌镇的人机大战上操作 AlphaGo 和世界冠军柯洁九段下棋。他说道，「柯洁还不满 20 岁，非常年轻，当天比赛氛围和李世石对弈时很不同。我记得在韩国比赛，能感受到李世石承受到很大的压力，感觉他是在为人类而战。我当时坐在他对面，也尽量保持谨慎的态度，不喝水、不去上洗手间。但到了第二次和柯洁对弈，比较像是人机合作的气氛，柯洁还走过来说：『黄博士，很荣幸跟 AlphaGo 下棋』。」而他也表示，如果 Master 是无敌的，那机器存在的价值应该是要帮助棋手扩张思路、扩展围棋理论。　　黄士杰表示，第四次于他的重要时刻，在于 AlphaGo Zero 的出现。通过喂给 AlphaGo Zero 围棋规则，让它自己学会下棋，无疑是人工智能的又一次突破。而随着系统能力的不断提升，人类在其中的作用也越来越小，甚至不再需要人类的帮助。而黄士杰也表示，这会是一个趋势，「AlphaGo 有 99% 的知识是我做的，AlphaGo 能走到这一步，我已经很满足，找到了收尾。」　　或许，这也是黄士杰选择退出 Alpha Go 项目的根本原因。　　而他昨天正式宣布离开 AlphaGo 项目，正如他在十一月的演讲中所说，「AlphaGo 能走到这一步，我已经很满足，找到了收尾。」　　更多详细信息，可以参见 AI科技评论此前发文：现场｜David Silver原文演讲：揭秘新版AlphaGo算法和训练细节。
特别声明：本文为网易自媒体平台“网易号”作者上传并发布，仅代表该作者观点。网易仅提供信息发布平台。
阅读下一篇
网易通行证/邮箱用户可以直接登录：}

米需爱网