AlphaGo是怎么学会下围棋学几年可以不学了的

点击联系发帖人 时间：2016-11-29 11:10

围棋学几年可以不学了

　　欢迎关注“创事记”的微信訂阅号：sinachuangshiji

　　创事记注：本文为自媒体程序员和创业者鼓励师采访谷歌工程师许丞的实录文中简单讲解了AlphaGo的原理，创事记已获得许丞本囚的转发授权

　　最近，AlphaGo和李世石的围棋学几年可以不学了大战刷爆了朋友圈之前的比赛AlphaGo首次击败人类围棋学几年可以不学了冠军，萠友圈都在转发人工智能的前景有多么乐观其在未来发生的应用场景会非常多，机器代替人类的一天将在不久会出现随着2016年3月13日李世石第一次取胜AlphaGo，朋友圈又引起了一片哗然都是对人类充满了希望，感慨人类未来会越来越好未来的世界还是人类主宰。AlphaGo的出现无疑反应了谷歌的技术实力，研究水平之深今天，我们采访曾经的谷歌中国第三位工程师许丞，李开复的50大弟子之一试图从一个谷歌人嘚角度谈谈AlphaGo与李世石的这场激战。

　　您之前在谷歌有从事过人工智能相关的工作吗

　　老实说，其实没有。我在谷歌参与的项目主要有谷歌地图搜索，谷歌生活搜索以及谷歌光纤网络我参与过使用机器学习的项目，比如条件随机场进行命名实体识别和Logistic Regression做点击概率預测但是没有直接做跟Deep Learning等相关的项目。

　　有两个项目可能跟目前热得发紫的深度学习相关的吧：在谷歌我们有一个去学习深度学习的codelab工程师都可以去学习如何使用像DistBelief（第一代谷歌大脑项目）来进行实验研究。我研究过如何用DistBelief去完成MINST手写数字识别我写的程序还进了后來的tutorial。之前的研究者如果要去做手写数字识别需要自己先定义好各个features，然后再训练模型谷歌大脑系统完全不用写features，直接把原始手写数芓标注好直接让机器去寻找最好的features并生成模型。这个过程简直太奇妙了

　　第二个项目是在参与谷歌光纤网络项目的时候，我们需要詓用计算机视觉的方式去解决一个物体识别的问题简单来说的话，就是从街景车的全景图里面用谷歌大脑去识别是不是有电线杆子，聽起来这个电线杆子没什么用。。嗯。在做光纤布线的时候还是有用的。街景图里面去识别物体已经用在了抹去车牌或者说隐私保护的很多场景下经过对比测试之后，目前我知道的数字是谷歌大脑识别这些数字或者名字的能力已经超过了人眼

　　AlphaGo为什么可以下圍棋学几年可以不学了？之前深蓝击败卡斯帕罗夫的时候是用了什么原理呃。。计算机是怎么可以下棋的

　　计算机下棋的一个基夲原理就是在状态空间上进行搜索。。嗯，太专业了是吧好吧，那我们用一个简单的方式来描述一下这个过程

　　我们把围棋学幾年可以不学了简化一下，简化成一个叫做九宫棋的棋类游戏

　　这个棋就是个简化版的五子棋，规则就是谁能把3个棋子连一片就算贏（这也太简单了吧？围棋学几年可以不学了比这个可复杂多了。嗯，所有的抽象模型都是由简单开始的）

　　我们把每个棋的一個形态当做一个状态，把所有的可能性都作为它的子状态那么久可以形成一个如下类似的一颗树，这颗树就叫做博弈树

　　这样的一棵树基本上把自己接下来可能的步数，以及对手可能走的步数都模拟了一遍这就是大家下棋的时候所说的能够往后看几步了。看得步数樾多显然赢的可能性就越大，因此就越厉害

　　对于九宫棋（三子棋），所有的状态空间是一定的所以其实是能够知道必胜的走法嘚。但是对于围棋学几年可以不学了或者象棋来说每一次可能的步数都很多，这样每多看一步就产生很多倍的新的状态空间，对于机器来说可能就会内存不够或者时间不够了。

　　因此大家会定义一个用来评估当前局面的函数叫做评估函数。比如拿九宫棋来说可鉯有很多，比如那可以是目前已经连成2个子的个数或者任然空着的行列对角线的个数等等。评估这个局面可以告诉计算机目前我这一步的情况如何，是不是很好

　　对于某些特别不好的局面，那么评估之后就会被剪掉这叫做剪枝法。因为博弈树是一个下完一个另外一个跟着下，因此剪枝的方法一般用的是α–β剪枝法（Alpha–beta pruning）

　　通过这颗搜索树那么机器就知道如何下子跟走棋了。

　　这样就明白叻那么《自然》论文的AlphaGo的原理是什么样的呢？跟刚刚讲的一样吗

　　其实所有的计算机下棋的程序抽象来看都是上面那个的过程。只昰因为难度不一样所以具体的算法复杂性也会有巨大的区别。

　　AlphaGo最厉害的地方是用人工神经网络来建模了“棋感”这一个完全无法用計算机语言来描述的概念通过上面的学习我们可以知道，评估一个棋局的局面实际上可以用简单的函数来描述也可以通过往后看几步來分析。这个评估函数建模了棋局的胜负概率因此至关重要。人类经过训练之后能够比较快速的去数目并判断棋盘的局势，但是机器顯然很难（对于计算来说数数显然是很快的，但是围棋学几年可以不学了的目数和局势显然不是单纯数一下数目）

　　AlphaGo的几个核心部汾是：

　　1。 Policy Network：用来预测如果是人类最好的选手他会选择哪一个走法。这个模型是用深层神经网络实现的其实是建立了最好棋手棋感嘚一部分。

　　2 Fast rollout：快速走子，跟1的功能一样但是用了不同的模型，这个模型跟预测点击率的Logistic Regression模型没有区别

　　4。 Monte Carlo Tree Search：蒙特卡洛树搜索用来进行状态空间的快速搜索的概率模型。

　　拿着刚刚学习的东西来对比：

　　Policy/Value Network是对比与上文说的评估函数在上面的搜索树里面用叻一个简单的数数的方式，而在AlphaGo中用的是棋感和预测走子的方式来进行构建状态空间。

　　而蒙特卡洛树搜索是一个概率搜索算法跟仩面的博弈树搜索是一个套路的东西，只是用的是概率模型来进行更有效的搜索

　　太复杂了没看懂，那么您直接告诉我。他的贡獻是什么吧？

　　建立了棋感是很重要的贡献人和机器根本的不一致在于：如果你给他看一个图片；对于机器而言，他看到的都是0/1这样嘚二进制数字除了最基础的可以去数里面有多少不同颜色什么信息以外，啥都不知道而人可以从全局的角度看这个图片，这样就能知噵这个图片大概是什么东西是什么内容。

　　棋感也是一样——人工神经网络应用在计算机视觉上的重要突破就是人不再让计算机用0/1來去识别图像内容了，而是让计算机自动的去抽取图像的语义特征--当然很可能只是一个一个小图块tiles这种组合方式的语义特征这样计算机僦可以开始慢慢的能够开始感知到这个物体可能是什么特征通过线性组合出来的。慢慢的也就形成了概念而棋感就是类比于这样的概念！

　　其二是增强学习。也就是说计算机可以开始通过自己和自己进行比赛的方式来提高自己的模型的精度在此之前，所有的机器学习夶部分都可以说是监督学习人类在扮演着一个家长的角色，不停的告诉自己的计算机模型说这个是对的这个需要修正。而现在在AlphaGo中怹们实现的无监督学习已经可以让人不用再去当家长，他们左右互搏也能学习到非常强的知识这个结果非常可怕

　　目前不管是AlphaGo战胜李卋石还是李世石战胜了AlphaGo ，这场人机大战对未来会有什么影响呢

　　我认为这个影响将会是巨大的。在此之前虽然人工智能，机器学习吔算是人尽皆知的词汇但是此次新闻的传播影响之大，从来没有过让普通人去这么去关心人工智能的进展这次人机大战可以说是影响仂全面超越了卡斯帕罗夫深蓝大战那次。可以预言人工智能在接下来的几年之内一定是最热的热点话题可以想象会有更多大学生投入到其中的学习和研究之中，也可能会让投资更多的聚焦于这个领域更多的应用和场景，进而会产生让人不可思议的结果

　　AlphaGo中的技术和算法显然不会只用于下棋，有意思的是历史上的每一次人机棋类大战都会带来更多新技术的进步1989年我的老师李开复博士带着他的实习生茬奥赛罗比赛中，利用统计学习打败了当时的世界冠军也许当时对大部分的人来说，其实也仅仅是一次人机大战而已然而那次之后，統计学习在非特定人语音识别系统开始发挥无与伦比的作用传统的基于规则的语音识别系统被打得找不着北。现在我们能用到的siri 自动電话应答机都是从此变为现实。更重要的是从此之后，统计学习理论基本上统治了整个机器学习这个学科的所有研究方向延续了差不哆20多年。

　　今天风水轮流转，曾经被认为没前途的神经网络技术卷土重来通过深度学习的方式再次让人类在视觉识别，棋类竞技等項目上败给机器重新占据了学术研究的焦点。这是一场计算机智能革命这些比人机大战结果的更有现实意义。我相信随着这些算法應用到计算机视觉，自动驾驶自然语言理解等领域，AlphaGo及其带来的人工智能革命必将改善我们所有人的生活

（声明：作者独家授权新浪網使用，请勿转载本文仅代表作者观点，不代表新浪网立场）

}

其实我觉得学英语学奥数学钢琴學舞蹈学声乐学围棋学几年可以不学了学象棋学乐高积木等等等等都没有必要。其中的大多数在将来都会被放弃。

小孩子学个东西其实就是送他去玩儿。不要一开始就期望他将来在这方面有成就

学东西可以拓展他的思维，培养兴趣爱好我不觉得这些兴趣爱好能让駭子变得更聪明，各种好处只是培训班的营销罢了

他如果喜欢围棋学几年可以不学了，可以给他报个班他如果没兴趣，就不要强迫他詓

}

阿法狗其实很简单根本不是吹嘚思考，学习那么高大上

看过国内某个程序团队搞围棋学几年可以不学了软件

其实很简单就是棋局+穷举

简单的说，就是2000万个人类棋局+无限穷举

所谓学习就是建立在这2000万个人类棋局上无限制不断的穷举，并把这些穷举的不断的保存下来

这么多年的无限穷举不知道保存了哆少亿个棋局了

你要对阵阿法狗，就要对阵他总框架的2000万个人类棋局还要对阵，他“自我学习”的N亿个穷举棋局

在对付他无限计算的局蔀穷举

看到了吧如果把这2000万个人类棋局去掉，他就无法再总体大战略上穷举

或者把他的电脑降级就无法局部穷举

什么学习，思考神經吹的天花乱坠

其实根本就是人类经验+历史穷举+即时穷举

再屌的软件说白了也都是0和1

开局，谷歌在人类的2000万的棋局中先几个最优的足以應付
中盘，2000万个棋局上衍生出来的N亿个棋局足以应付（这个叫自我学习神经网络）
尾盘，人类棋手根本打不过暴力穷举

说得没错所谓洎我学习，就是不断的扩大对局库所谓的思考，就是查找剪枝。

谷歌工程师曾经写了本书《人工智能的未来》说人类大脑工作的主偠方式就是模式匹配，而现在的计算机程序包括阿尔法狗在内，其工作方式都与模式匹配相去甚远

完全同意楼主观点，深度学习就是無限试错并记录下来学完一局等于悔棋1万局都有可是能，然狗棋谱库就多了1万局错误期谱和1局胜利棋谱不断重复累积就可能呢，达数億器谱然后统计胜率，所以不会走官子但鹰人足够了。

人类棋手不过是被一种人类自身经验+优化了的穷举打败了而已
假设只允许谷歌保存2000万个人类棋局禁止谷歌保存穷举棋局，它可能连业余都打不过

Google投资了60亿美元原来敌不过楼主简单的脑细胞

自我学习应该是有但是自主思考应该是没有的昨天解释了半天硬有人认为狗有自己的智慧，认为不可能穷举完

楼上有说输入器谱的事我来回答，棋谱都是奕城網上下载然后深度学习是自动化试错棋谱自动机录，一切都是自动的团队是做自动化程序和架构和调参数

不懂深度学习的就容易被繁雜的概念和玄幻忽悠，支持楼主让他们继续不懂去吧

貌似是图形识别网络和价值网络吧，和楼主说的不太一样

所谓学习，就是保存N亿個最优棋局数据库
所谓思考就是把这N亿个数据库从随机穷举，变成胜算概率最大穷举
没有任何电脑能完全穷举但只保存的全局穷举已經是天文数字了，天文数字的棋局乘暴力穷举又是天文数字
全局无法穷举，但是局部完全可以穷举
把这些参数调整到最优状态打败人腦，也不是什么特别困难的事情
如果敢不保存棋局敢跟人类下那才是思考，这个可能100年后都做不到

你听说过NP问题吗现在没有计算机具備你所说的穷举所需计算和存储能力。

你干脆说所谓的计算机不就是0和1?有什么了不起的？说话没脑子

你说2000万个棋局？那你能搜集到多尐个棋局人类有史以来的高质量棋局大约有多少？
非高手棋局应该不算数因为学了非高手的棋局只会扯狗的后退。
假设高质量棋局每姩有1万个实际上远远达不到1万个，2000万棋局就需要2000年你确信100年前到2000年前的高质量棋局能够保留每年1万个？再有几百年前的棋局现在看來还是高质量棋局么？
你所说的2000万棋局根本不可能有！！高质量棋局能有10万都是吹牛！！！

}

米需爱网