急求一篇人机大战第四局直播的英文报道

点击联系发帖人 时间：2016-03-16 16:24

人机大战第四局复盘

人机大战第四局！李世石 vs.AlphaGo赢首胜 - 今日头条()
人机大战第四局！李世石 vs.AlphaGo赢首胜
DoNews3月13日消息（记者陈启及）3月13日中午12点李世石与AlphaGo的人机围棋大战的第四局开始，在下午的四点三十分左右时间，AlphaGo认输，李世石也迎来三连败之后的首次胜利。在比赛进行中期，AlphaGo下棋路数开始有些奇怪，多家直播媒体也在怀疑是AlphaGo出现了问题，到了后期，AlphaGo表现十分的不佳，最终输掉了比赛。对于是否公开AlphaGo数据的问题，DeepMind的领队大卫·席尔瓦称，在围棋上是DeelMind个新手，所以没意识到复盘有这么重要。AlphaGo目前还不会和人类交流比赛经验,但在赛后会将数据给李世石。祝贺李世石赢得这次比赛。
中国最早的web2.0网站，中国互联网行业的风向标。提供互联网行业资讯、数据分析报告、社区互动、线下
(C) 2016 今日头条
违法和不良信息举报电话：010-
公司名称：北京字节跳动科技有限公司/北京字节跳动网络技术有限公司本网站为综合性门户网站，部分内容转自网络，均标明出处，如有异议，请与我们联系。
国家信息产业部备案：陕ICP备号 qq客服:如何看待人机大战第四局李世石战胜AlphaGo？
李世石首胜-----本题已收录至知乎圆桌 >> ，更多关于李世石对战人工智能的解读欢迎关注讨论。
按投票排序
474 个回答
这是精彩的对局，也是人类的伟大胜利！-大家都已经知道，第一盘人类和AlphaGo对形势判断的出入，是因为AlphaGo已经算清了右边的手段，所以提前在其他局部用亏损手段缩小棋盘、简明定型以扩大胜率，是人类低估了AlphaGo；看过了第二盘，大家也知道AlphaGo在前半盘也会凭借强大的大局观走出妙手，同时也会出现疑问手，而后半盘则全部是AlphaGo强大计算力的天下；看了第三盘，所有人都是绝望的，李世石在第15手就因急躁冒进导致形势落后，然后AlphaGo用朴实无华的手法步步挺近，将李世石彻底碾压，后半盘李世石虽然找回了自己拼命在白棋空中出了棋，AlphaGo的下法也疑似出错，但毕竟优势太大，李世石仍然无力回天。看过前三盘，还要再质疑AlphaGo的实力的人，恐怕就有点太不实事求是了。顶尖高手们对AlphaGo棋力的判断已经普遍为：超越了所有的人类。大家都绝望的认为，一盘比一盘强的AlphaGo将不会再给李世石机会，大家只是感情上希望这位勇敢的胜负师赢下一盘，留住一点自己的尊严。-今天的第四盘，李世石在前半盘的下法似乎完全不合自己的棋风，AlphaGo的黑棋过分的将白棋的头压了过去，李世石居然不断，忍了...忍了！右边，AlphaGo居然用同样的手法又将李世石的头压了下去，李世石居然又忍了！以李世石性格和棋风之凶悍，简直不敢想象。很多人都觉得他的心态仍然没有调整过来，很可能还会轻易的输掉。中盘出现了巨大的转换，李世石用上边和AlphaGo的右边交换，双方都气势如虹（虽然AlphaGo应该没有“气势”），一部分人认为李世石形势还可以，一部分人认为AlphaGo有利，但似乎没有人认为李世石形势有利。按照AlphaGo的下法，它应该也判断此时自己的胜率超过50%。就当此时......李世石祭出了惊天妙手！白78挖！这将会是被写入史册的妙手！如果李世石是早就算到了这一手，判断黑空中有棋，所以才进行的转换，那么这种表现就和AlphaGo第一盘中的表现一样。看到了这一手，真的觉得输了也值了。这完全体现了人类巅峰的直觉、创造力和计算力！古力此时说：“如果这盘棋能赢，就是千古名局。”看到这样的李世石，所有的阴谋论以及质疑李世石的声音，都可以休矣。这样的李世石，已经找回了自己，完全体现了人类巅峰的实力。如果这样都赢不了，那只能说明对手过于强大，人类需要继续努力，并向电脑学习。接下来，AlphaGo居然下出了一系列莫名其妙的下法，亏了一大把，不知道是不是因为bug，希望赛后能获知AlphaGo团队发布的更多相关信息。有鉴于第一盘的情况，很多人都非常的谨慎，等待着接下来的进程，看看AlphaGo是不是有和第一盘一样的，大家都没有看到的暗藏手段。可随着棋局的进程，白棋离终点越来越近，终于拿下了此局。在直播间的我们，都激动的快要说不出话来了。-赛前有人认为，AlphaGo的进步速度很快，李世石能取得一胜就是人类的伟大胜利。当时大部分人，包括我，都认为这种预测太激进了，AlphaGo的进步应该不会这么快到这种程度，人类怎么也能再支撑一两年。但事实证明，那些人的判断是对的。这盘棋，体现了人类顶峰的实力，面对如此强大的对手，下出了如此惊艳的妙手，赢下了如此艰难的比赛，正是人类伟大的胜利！我昨晚看到李世石走出赛场的神情，对他感到分外惋惜，发了这样一条朋友圈：-而现在，相信所有人都和我一样，为这位伟大的胜负师感到高兴。也感谢AlphaGo团队，创造出了如此强劲的人工智能程序，激发出了人类的巅峰式强大。我现在，倍加期待最后一日的对局。也更期待未来的发展，无论是人工智能，还是围棋。-向伟大的胜负师——李世石致敬！-
Demis：第四局李世石下得非常出色。AlphaGo在下出第87手以后，发现自己误算。它追溯认为自己的第79手犯错误了（就是李世石年度妙手后电脑的那一着应手）。Demis：在李世石第78手的妙手之前，AlphaGo认为自己有70%左右的胜率，但是在第87手前发现误算，胜率大幅下落。评论：从这个情况看，AlphaGo在关键位置的蒙特卡罗计算深度不够，差了李世石4个回合。它可能不认为那是个关键棋，还是严格地只用了一分钟左右（它每步思索都是几乎恒定的一分钟）。尽管人类是可以看出来这里非常关键。如果AlphaGo在这个位置长考半个小时的话，应该能有好的应手。当胜率突然大幅落后时，AlphaGo出现了各种臭棋，感觉是很明显的过拟合。因为它训练的对手都是自己（电脑），在大官子阶段落后5目以上时，尽管从人类角度来看，棋盘很大，可以扳回，但它训练对手是电脑，无论正手还是乱走，都无法扳回（因为电脑官子几乎不犯错）。导致各落点获胜几率都一样很低。估值网络失去了作用，它随机选一步，或者选了训练棋谱中赢棋最多的招法（这种情况下翻盘，往往更多地出现在水平极低的业余棋手的相互对局之中），就变成乱走了。————————————————————————更新一下：我昨天的回复猜测很可能有误，update以免误导大家。
中汇报了Facebook围棋程序测试的结果，简要概述：1.机器的确没有算到这一手。2.但不是算力的问题，经过机器验证，蒙特卡罗树可以在合理的深度算出正解位置（下方顶或上方打吃），正解尽管有一定风险或损失，但由于AlphaGo前半盘领先优势巨大，若正确应对，依然有胜望。3.目前猜测有两种可能：(1).由于机器思考不久便落子，推测可能未经大量运算，说明在蒙特卡罗树这里出了一个隐蔽的Bug。如果是这样，改掉Bug，或者打个补丁就行了。(2).估值网络在这个局部形状得到的值不对，导致胜率统计出现问题。这个问题就比较棘手。田博士猜测更可能是后者。补充：至于大官子阶段那些恶手，是因为机器的自我训练目标（获胜，而非赚目数）产生的。看起来AlphaGo的工程师已经料到并且不是很在乎。他们主要在乎前者。
这是属于李世石的伟大胜利，更是属于人类的伟大胜利。昨天下完棋后，李世石黯然惆怅，让人看了不禁心疼。曾经无敌于世界，逼迫韩国棋院修改了升段规则的天才少年被逼到如此地步，论谁看到了都会不忍吧。李世石说，这是我的失败，而不是人类的失败。他说，我觉得很无力，很无助。然而今天的记者会，赢了棋的他脸上泛出了久违的笑容和轻松。他说，正是由于前三局的失利，让这一局的胜利显得尤为珍贵。给我任何东西，给我全世界，我都不换。他面对的是从未见过的对手，和从未有过的压力。这个对手不光了解他的棋局和棋风，更了解古往今来所有职业棋手的棋局和棋风。这个对手没有感情，没有压力。这个对手能每秒进行对于人类来说天文数字般的计算次数，这个对手在前三局里更是几乎毫无破绽，滴水不漏，展现出了神一般的控制力和大局观。而李世石呢？除了接近半年前的五局棋谱，对这个对手一无所知。而且他身上，主动也好被动也罢，背负了太多太多压力。就在昨天，还刚刚被这个对手以近乎碾压的方式赢了。然而这每局棋他都在尝试不同的策略，调整自己的下法。即使如此，我无法想象昨天晚上他是以一种怎样的心情度过的，更无法想象他要怎样调整才能面对接下来的两局棋。然而，今天，他就以这样的方式证明了自己。诚然，人类在有些方面已经永远赶不上机器；诚然，人类在更多的方面将会被机器超过，甚至代替；诚然，人类有弱点，有情感，会感到压力，会犯错误。然而人之所以为人，而不是机器，正是因为这些品质啊！人类同样有机器没有的坚韧，有机器没有的荣誉感，有机器没有的尊严和担当。今天的李世石，让我们看到了什么是身为棋手的精神，什么是身为人的精神。我不否认，也许就在不远的未来，也许几个月，也许半年，人类可能就真的永远下不过电脑了。但这同样是人类伟大创造力的体现。今天，和李世石一样高兴的，还有AlphaGO的开发者们，他们实现了这场人机对决的目的，找到了目前算法的缺陷和弱点。他们同样是赢家，他们开发的技术，未来同样会帮助人类更好，更方便的生活。
在这场棋中，人类的道与术得到了完美的结合，既让我们看到了人类精神的伟大和危急时刻迸发的灵感，更让我们看到了技术发展的方向和无限光明的未来。我从小学棋，围棋占据了我童年的大部分记忆，更是对围棋有着非常深厚的感情。看到李世石胜利的时候，我真的激动地哭了。不光是作为一名棋手的骄傲和兴奋，更是因为看到了人类身上最闪光，最耀眼的东西。
作为一个围棋爱好者，我个人非常的感动。一直以来，下棋的人的终极目标就是将每一步下到最善，甚至将能把每一步都能下到最善的那个存在尊为围棋之神。人们通过棋理来总结经验规律，通过棋风来锁定思考方向，通过棋感来总结经验规律。结果突然有一天，电脑告诉我们，在大数据的掩盖下，棋风、棋感不再重要，棋理也可能是存在漏洞的经验规律。简直是让人绝望的结论。前三盘，我看了很多遍，相信所有爱好者也都看了很多遍。电脑的判断与人类长期的棋理判断存在着诸多差异。若这样的棋被称为围棋之神，只能说，我们与电脑的思维能力真的存在令人绝望的差距，而且我们的棋理都要重新考虑考虑了。对前几盘棋的评价，从一开始的“备战不利”，到“实力差距”，最后到“毫无机会的战败”。人们向来对围棋的神秘和无法穷尽保有敬畏感，职业棋手更是如此。加之职业棋手性格多为内敛。接连的完败，已经蔓延为大范围的自我反省，甚至已经准备向机器低头学棋。但围棋既有棋道，还有棋理。除了技术之外，还有很多中国人的传统哲学在里面，更不用说像“当湖十局”、“秀策的小尖”这种文化的情怀蕴含于其中。作为爱好者，实在无法接受就这样轻松把围棋的讲台输给电脑。试想，若最后战为5:0，会不会在人的心里形成一堵无穷:0的高墙呢？李世石的这一胜，给这座墙打下了重重的一个缺口。证明了：阿法狗还绝不是神！在看到电脑在败势呈现后慌乱投子时，柯洁在直播中激动的说:“不要把电脑神化，电脑是可以打败的！职业棋手还是要有骨气的！”我想这也是所有下棋的人，最能接受的结果了。电脑只是在对围棋无尽变化的探索中比我们领先了几步，我们依然有机会追回来。当李世石战胜后，我突然想到了海贼王中的一个场景：海军中将找到海贼女帝，宣告世界政府的召令。二者间存在无法比拟的差距和无法退缩的立场。女帝仅用了一招，就让中将的手下全部变成了石头。只见他从部下变成的石堆中抬起头，拔出用来让自己清醒的短刀。女帝说，“你成为了光杆司令了！”他说，“1和……0是不同的。”哪怕只有一点，人类的倔强依然在那里！绝不会如此轻易地被电脑打败！
如果在动画里，李世石的78手，光芒万丈。========================================有人说“认为李九段78手是神之一手的人，都是不看棋的伪棋迷”，我引用并修改一下我回复的评论：并不是说这一手有多么神乎其技，冠绝古今。而是在afg3:0领先的情况下，对苦苦奋战的李九段，对低落无比又一直不愿放弃关注着这场较量的棋界人士来说，这一手都太宝贵、太重要了，不然我相信李九段也不会在发布会的时候说：“任何珍贵的财宝，我都不会用这一局胜利交换。”诚然，绝妙的一手在大大小小的赛事中经常出现，但这并不妨碍我们今天为李世石鼓掌。而且我相信，所有真正爱着围棋的朋友，一定也把这种欢呼，送给了千百年来，无数精彩的黑白对弈吧。=========================================我实在是受不了了，不得不挂一下，好像所有评论里的人，除了你没有任何人用了诸如"百年一遇"、“其他棋手下不出来”这种形容词吧？真觉得就自己看过棋魂了。我实在是受不了了，不得不挂一下，好像所有评论里的人，除了你没有任何人用了诸如"百年一遇"、“其他棋手下不出来”这种形容词吧？真觉得就自己看过棋魂了。职业棋手纷纷给予赞誉，棋迷朋友纷纷欢呼雀跃。大家都在对李九段这一手表示惊叹、肯定和赞赏，你却跳出来说我们在轻视其他棋手，到底是谁在侮辱他们？
因为78这一手棋，前面输的一切都是值得的，输棋没什么，围棋还是那个充满奇迹的围棋，人工智能已经不是原来那个弱智的人工智能了。世界多么美好
李世乭在前三局的压力下还能表现成这样，完全对得起他的名声。
人类战胜AlphaGo的战略在此！李世石为什么能战胜AlphaGo？原理就在陈经的计算中陈经【@中科大胡不归按：日，李世石对AlphaGo连负三局后，舆论对人类棋手充满悲观的空气，普遍认为人类再也斗不过电脑了。中国科学技术大学科技与战略风云学会研究员陈经对围棋和计算机科学都素有研究，经过彻夜思考后，在3月13日凌晨写出此文，原标题为《机器完胜后分析AlphaGo算法巨大的优势与可能的缺陷》。3月13日上午9:55，在第四局比赛开始前发表在观察者网：。第四局比赛，李世石在大势落后的情况下，在激烈的战斗中下出绝妙的白78手挖，被古力盛赞为“神之一手”。此后AlphaGo突然好像不会下棋了，初学者水平的无理手连发，损之又损，最终认输。李世石取胜的战略是什么？为什么电脑会犯傻？答案就在此文中：大局观要顶得住，不能早早被它控制住了。局部手段小心，不要中招。顶住以后，在开放式的接触战中等它自己犯昏。或者在局部定型中看它自己亏目。在接触战中，要利用它“不喜欢打劫”的特性，利用一些劫争的分枝虚张声势逼它让步，但又不能太过分把它逼入对人类不利的劫争中。向人类的理性致敬！向人类的意志力致敬！向人类的创造力致敬！在我们面前，是一个更广阔的世界！】日人机大战第三局，AlphaGo执白176手中盘胜李世石，以3:0的比分提前取得了对人类的胜利。这一局李世石败得最惨，早早就被AlphaGo妙手击溃，整盘毫无机会。最后李世石悲壮地造劫，在AlphaGo脱先之后终于造出了紧劫。但AlphaGo只靠本身劫就赢得了劫争，粉碎了AlphaGo不会打劫的猜想。这一局AlphaGo表现出的水平是三局中最高的，几乎没有一手棋能被人置疑的，全是好招。三局过去，AlphaGo到底实力高到什么程度，人们反而更不清楚了。看完这三局，棋界终于差不多绝望了，原以为5:0的，都倒向0:5了。有些职业棋手在盘算让先、让二子是否顶得住。整个历程可以和科幻小说《三体》中的黑暗战役类比，人类开始对战胜三体人信心满满，一心想旁观5:0的大胜。一场战斗下来人类舰队全灭，全体陷入了0:5的悲观失望情绪中。我也是纠结了一阵子，看着人类在围棋上被机器碾压的心情确实不好。但是承认机器的优势后，迅速完成了心理建设，又开心地看待围棋了。其实挺容易的，国际象棋界早就有这样的事了。这个可以等五盘棋过后写。现在我的感觉是，棋界整体还是对AlphaGo的算法以及风格很不适应。一开始轻视，一输再输，姿态越来越低，三盘过后已经降到一个很低迷沉郁的心理状态了。这也可以理解，我一个围棋迷都抑郁了一会，何况是视棋如生命的职业棋手。但是不管如何，还是应该从技术的角度平心静气地搞清楚，AlphaGo到底是怎么下棋的，优势到底在哪些，是不是就没有一点弱点了？现在有了三盘高水平的棋谱，质量远高于之前和樊麾的五盘棋谱。还有谷歌号发表在《自然》上的论文，介绍了很多技术细节，还有一些流传的消息，其实相关的信息并不少，可以作出一些技术分析了。之前一篇文章提到，从研发的角度看，谷歌团队把15-20个专家凑在了一起，又提供了巨量的高性能计算资源，建立起了整个AlphaGo算法研究的“流水线”。这样谷歌团队就从改程序代码的麻烦工作中解放出来，变成指挥机器干活，开动流水线不断学习进步，改善策略网络价值网络的系数。而且这个研发架构似乎没有什么严重的瓶颈，可以持续不断地自我提升，有小瓶颈也可以想办法再改训练方法。就算它终于遇到了瓶颈，可能水平也远远超过人类了。这些复杂而不断变动的神经网络系数是AlphaGo的独门绝技，要训练这些网络，需要比分布式版本对局时1200多个CPU多得多的计算资源。AlphaGo算法里还是有一些模块代码是需要人去写的，这些代码可不是机器训练出来的，再怎么训练也改不了，谷歌团队还不可能做到这么厉害。例如蒙特卡洛搜索（MCTS）整个框架的代码，例如快速走子网络的代码。这里其实有两位论文共同第一作者David Silver和Aja Huang多年积累的贡献。这些人写的代码，就会有内在的缺陷，不太可能是完美无缺的。这些缺陷不是“流水线”不眠不休疯狂训练能解决的，是AlphaGo真正的内在缺陷，是深度学习、self-play、进化、强化学习这些高级名词解决不了的。谷歌再能堆硬件，也解决不了，还得人去改代码。第一局开赛前，谷歌就说其实还在忙着换版本，最新版本不稳定，所以就用上一个固定版本了。这种开发工作，有可能就是人工改代码补消除bug的，可能测试没完，不敢用。总之，象AlphaGo这么大一个软件，从算法角度看存在bug是非常可能的。在行棋时表现出来就是，它突然下出一些不好的招数，而且不是因为策略网络价值网络水平不够高，而是MCTS框架相关的搜索代码运行的结果。如果要找AlphaGo潜在的bug，需要去仔细研究它的“搜索 ”。这可能是它唯一的命门所在，而且不好改进。那么MCTS的好处坏处到底是什么？幸运的是，Zen和CrazyStone等上一代程序，以及facebook田渊栋博士开发的Darkforest都用了MCTS。它们和AlphaGo虽然棋力相差很远，但是行棋思想其实很相似，相通之处远比我们想象的高得多。这是田渊栋贴的Darkforest对前两局的局势评分。可以看出，这个评分和棋局走向高度一致，完全说得通。而且谷歌也透露了AlphaGo对局势的评分，虽然一直领先，但第二局也有接近的时候，能够相互印证。如果到网上下载一个Zen，输入AlphaGo和李世石的对局，选择一个局面进行分析，也会有象模象样的评分出来。这究竟是怎么回事？从技术上来说，所谓的局势评分，就是程序的MCTS模块，对模拟的合理局面的胜率估计。连AlphaGo也是这样做的，所以几个程序才能对同样一个局面聊到一块去。所有程序的MCTS，都是从当前局面，选择一些分支节点搜索，一直分支下去到某层的“叶子”节点，比如深入20步。这个分支策略，AlphaGo和Darkforest用的是“策略网络”提供的选点，选概率大的先试，又鼓励没试过的走走。到了叶子节点后，就改用一个“快速走子策略”一直下完，不分支了，你一步我一步往下推进，比如再下200步下完数子定出胜负。这个走子策略必须是快速的，谷歌论文中说AlphaGo的快速走子策略比策略网络快1000倍。如果用策略网络来走子，那就没有时间下完了，和李世石对局时的2小时会远远不够用。下完以后，将结果一路返回，作一些标记。最后统计所有合理的最终局面，看双方胜利的各占多少，就有一个胜率报出来，作为局势的评分。一般到80%这类的胜率就没意义了，必胜了，机器看自己低于20%就中盘认输了。AlphaGo的创新是有价值网络，评估叶子节点时不是只看下完的结果，而是一半一半，也考虑价值网络直接对叶子节点预测的胜负结果。走子选择就简单了，选获胜概率最大的那个分支。机器也会随机下，因为有时几个分支胜率一样。MCTS这个框架对棋力最大的意义，我认为就是“大局观”好。无论局部如何激烈战斗，所有的模拟都永远下完，全盘算子的个数。这样对于自己有多少占地盘的潜力，就比毛估估要清楚多了。再以前的程序，就不下到终局，用一些棋块形状幅射之类的来算自己影响的地盘，估得很差，因为一些棋块死没死都不清楚。MCTS就不错，下到终局死没死一清二楚。MCTS也不会只盯着局部得失，而是整个盘面都去划清楚边界。这个特点让几个AI对局势的评估经常很相似，大局观都不错。MCTS对于双方交界的地方，以及虚虚实实的阵势，通过打入之类的模拟，大致有个评估。当然这不是棋力的关键，大局观再好，局部被对手杀死也没有用，可能几手下来，局势评估就发生了突变。AlphaGo的大局观还特别好，特别准确，主要是它模拟的次数最多，模拟的质量最好。而且这个大局观从原理上就超过了人类！比如人看到一块阵势，如果不是基本封闭的实空，到底价值多少评估起来其实是非常粗的。高手点目时经常这样，先把能点的目算清楚，有一些小阵势如无忧角就给个经验目数，然后加上贴目算双方精确目数的差值，然后说某方的某片阵势能不能补回这个差值，需要扣除对方打入成的目数，孤棋薄棋减目数。这类估算有很多不精确的因素。AlphaGo就不一样了，它会真的打入到阵势里，来回模拟个几十万次，每一次都是精确的！人绝对没有能力象AlphaGo这么想问题，一定是利用经验去估算阵势的价值，误差就可能很大。极端情况下，一块空有没有棋，职业棋手根本判断不清，AlphaGo却可以通过实践模拟清楚，没棋和有棋相比，目数差别太大了。AlphaGo虽然不是严格证明，但通过概率性地多次打入模拟，能够接近理论情况，比人类凭经验要强太多了。我可以肯定，AlphaGo的大局观会远远超过职业高手，算目也要准得多，所以布局好、中后盘收束也很强大。甚至Zen之类的程序大局观都可能超过职业高手。例如第二局这个局面：李世石左下占了便宜，本来局势还可以。但是他70和72手吃了一子落了后手，被AlphaGo走到73，大局一下就落后了。这个在前面Darkforest对局势的评估图中都非常清楚，是局势的转折点。李世石要是手头有个Zen辅助，试着下两下都可能会知道70手不要去吃一子了。大局观不太好的职业高手，比如李世石就是个典型，大局观不如Zen真不一定是笑话。李世石比Zen强的是接触战全局战的手段，要强太多了。MCTS实事求是不怕麻烦下完再算子的风格，比起人类棋手对于阵势价值的粗放估算，是思维上先天的优势。AlphaGo比其它程序强，甚至比职业高手还强的，是近身搏杀时的小手段。第三局，李世石29和31是失着。29凑白30双，虽然获得了H17的先手，但是中间的头更为重要。当黑31手飞出后，白32象步飞可以说直接将黑击毙了。在盘面的左上中间焦点处，AlphaGo的快速走子网络会有一个7*7之类的小窗口，对这里进行穷举一样的搜索，用人手写的代码加上策略网络。32这步妙招可能就是这样找出来的，李世石肯定没有算到。但是AlphaGo是不怕麻烦的，就一直对着这里算，比人更容易看到黑三子的可怜结局。这个计算对人有些复杂，只有实力很强的才能想到算清楚，对AlphaGo就是小菜。李世石一招不慎就被技术性击倒了。AlphaGo对这种封闭局部的计算，是它超过人类的强项。但是AlphaGo的搜索是不是就天衣无缝了？并不是。来看第二局这个局面：AlphaGo黑41手尖冲，43手接出作战。最后下成这样，这是三局中AlphaGo被众多职业棋手一致认为最明显的一次亏损失误，如果它还有失误的话。我们猜想它为什么会失误。关键在于，这里是一个开放式的接触战，棋块会发展到很远的地方去。AlphaGo的小窗口封闭穷举搜索就不管用了，就只有靠MCTS在那概率性地试。这里分支很多，甚至有一个复杂的到达右上角的回头征。我认为AlphaGo这里就失去了可靠的技术手段，终于在这个人类一目了然的局面中迷失了。它是没有概念推理的，不知道什么叫“凭空生出一块孤棋”。也不确定人会在50位断然反击，可能花了大量时间在算人妥协的美好局面。再来看AlphaGo一个明确的亏损。第一局白AlphaGo第136手吃掉三子。这里是一个封闭局面，是可以完全算清楚的。可以绝对地证明，136手吃在T15更好，这里白亏了一目。但是为什么AlphaGo下错了？因为它没有“亏一目”的这种概念。只有最终模拟收完数子，白是179还是180这种概念，它根本搞不清楚差的一个子，是因为哪一手下得不同产生的，反正都是胜，它不在乎胜多少。除非是176与177子的区别，一个胜一个负，那136就在胜率上劣于T15了，它可能就改下T15了。这个局面白已经胜定了所以无所谓。但是我们可以推想，如果在对局早期，局部发生了白要吃子的选择，一种是A位吃，一种是B位吃，有目数差别，选哪种吃法？这就说不清了。AlphaGo的小窗口穷举，是为了保证对杀的胜利，不杀就输了。但是都能吃的情况下，这种一两目的区别，它还真不好编程说明。说不定就会下错亏目了。经过以上的分析，AlphaGo相对人类的优势和潜在缺陷就清楚多了。它的大局观天生比人强得多，因为有强大的计算资源保证模拟的终局数量足够，策略网络和价值网络剪枝又保证了模拟的质量。它在封闭局部的对杀会用一个小窗口去穷举，绝对不会输，还能找到妙手。它布局好，中盘战斗控制力强，都是大局观好的表现。它中后盘收束差不多都是封闭局面了，基本是穷举了，算目非常精确，几百万次模拟下来什么都算清了。想要收官中捞点目回去不是问题，它胜了就行。但是想收官逆转是不可能的，影响了胜率它立刻就穷举把你堵回去。但是封闭式局面的小手段中，AlphaGo可能存在不精确亏目的可能性，不知道怎么推理。在开放式接触战中，如果战斗会搞到很远去，它也可能手数太多算不清，露出破绽。但不会是崩溃性的破绽，要崩溃了它就肯定能知道这里亏了，不崩吃点暗亏它就可能糊涂着。目前来看，就是这么两个小毛病。另外还有打劫的问题。如果是终局打劫，那是没有用的，它就穷举了，你没有办法。如果是在开局或者中局封闭式局部有了劫争，由于要找劫，等于强制变成了杀到全盘的开放度最大的开放式局面了。这是AlphaGo不喜欢的，它的小窗口搜索就用不上了。而用MCTS搜索，打劫步数过多，就会超过它的叶子节点扩展深度，比如20步就不行了，必须“快速走子”收完了。这时它就胡乱终局了，不知道如何处理劫争，模拟质量迅速下降。所以，这三局中，AlphaGo都显得“不喜欢打劫”。但是，这不是说它不会打劫，真要逼得它不打劫必输了，那它也就被MCTS逼得去打了。如果劫争发生在早中期手数很多，在打劫过程中它就可能发生失误。当然这只是一个猜想。它利用强大的大局观与局部手段，可以做到“我不喜欢打劫，打劫的变化我绕过”，想吃就给你，我到别的地方捞回来。当然如果对手足够强大，是可以逼得它走上打劫的道路的，它就只好打了，说不定对手就有机会了。第三局李世石就逼得它打起了劫，但是变化简单它不怕，只用本身劫就打爆了对手。如果要战胜AlphaGo，根据本文的分析，应该用这样的策略：大局观要顶得住，不能早早被它控制住了。局部手段小心，不要中招。顶住以后，在开放式的接触战中等它自己犯昏。或者在局部定型中看它自己亏目。在接触战中，要利用它“不喜欢打劫”的特性，利用一些劫争的分枝虚张声势逼它让步，但又不能太过分把它逼入对人类不利的劫争中。这么看，这个难度还真挺高的。但也不是不可想象了，柯洁大局观好，比较合适。李世石大局观差，不是好的人类代表。本文进行了大胆的猜测，可能是一家之言。但我也是有根据的，并不是狂想。如果这篇文章能帮助人类消除对AlphaGo的恐惧，那就起到了作用。作者简介：笔名陈经，香港科技大学计算机科学硕士，中国科学技术大学科技与战略风云学会研究员，棋力新浪围棋6D。21世纪初开始有独特原创性的经济研究。2003年的《经济版图中的发展中国家》预言中国将不断产业升级，挑战发达国家。2006年著有《中国的“官办经济”》。致谢：感谢中国科学技术大学科技与战略风云学会会长袁岚峰博士（微博@中科大胡不归）与其他会员的宝贵意见。就第四局的具体情况多解释几句。有人说电脑输是给人留面子放水，这当然是笑话。真正的原因是，在李世石78手挖后的复杂局面中，最强变化是打劫，而电脑由于不喜欢打劫，模拟中引发了bug。后面的无理手连发，是基于MCTS的围棋软件落后时典型的搅局行为，是电脑想偷得一点可怜的胜率。一旦电脑算出自己的胜率不高，就会寄希望于人类犯低级错误，于是下出各种损之又损的无理手。AlphaGo的表现说明，它正是一个典型的以MCTS为基础的围棋程序，虽然比ZEN强大非常多，仍然有着一样的看上去可笑的bug。如果想消除这种可笑招数，需要电脑提高认输的概率值。但这样就更容易出bug，说不定有希望时就认输了。
即使前三盘已经输了，但是今天一早，我还是抱着希望，李世石有机会战胜阿法哥。这样会给人带来希望和喜悦。很多人已经觉得没希望了，甚至阿法哥下的就是标准答案。阿法哥的发型，也成为大家模仿的对象。但是任何一个围棋职业棋手，热爱围棋的爱好者，都有不放弃的精神！这是围棋的魅力，也是围棋给我们带来的力量。棋局开始至11手，平淡如水，照搬着第二局的下法。白12手，李世石开始变招，尖，这一手棋，在吴清源时代屡屡出现，后来木谷实改为跳，成了现在标准下法。尖，更重视中腹的发展，对黑三子的压力也大一些。因此，阿法哥13不脱先了。14挂，把棋盘打散，导向细棋。16,18，20，恬静如水。刚刚让人觉得阿法哥今天老实了些。23大招又来了，一时善恶难辨。但是阿法哥的余威，还是让大部分人觉得有玄妙之处。23，25组合，又来了。李世石一路忍让，忍受了职业同行的嘲笑和指责。这不是李世石啦，这怎么能忍之类的言论不绝于耳。在群中，到了46，我觉得白棋还是不错的。但是大部分人还是悲观了。要赢，必须忍。阿法哥的尖冲，又受到粉丝的高度追捧。一路到69，阿法哥似乎越来越得心应手。70空投拼搏，71，我笑称阿法哥怎么缩回去了。李世石72长考了很久，时间不断流逝。我担心他后面时间不够。真的断中腹了，阿法哥很强硬，直接外面73罩住。78，神之一手，小李飞刀，果然名不虚传！阿法哥中了飞刀，这是蒙特卡洛综合征，没法避免。蒙特卡洛综合征，是本人给AI专门注册起的(版权所有:D）指AI通过随机选择，必然存在漏招。如果人类在复杂的局部，在只有一种正确解答的情况下，AI不一定找得到。如此人类可以一击即中（参见本人讨论如何战胜AlphaGo的策略的帖子）。之后阿法哥从昨日的大师风范，变成了18K初学者，滑稽招法层出不穷，连续两个1路死子的立，相信很多和Zen下过的棋友都有印象，这时候AI进入Crazy模式。它们这样闹一阵，就会认输。李世石果然按照我提倡的，赢棋不闹事，模仿了阿法哥局面领先时候的猥琐大法。在过程中，唯一担心的是李世石剩下最后一次读秒，很多次都到最后1秒才下让人看得心惊胆战。不过这样的过程，让最后的结果来得更加甜蜜！180手，李世石最后一击，阿法哥在快进入读秒的情况下觉得闹够了，大呼三声：“英雄饶命！”。棋局终结。整盘棋，李世石开局以静制动。隐忍后，局势未见乐观。投入中腹后终于下出神之一手，一举制胜！李世石，伟大的胜负师，终于给全世界的棋迷棋友带来希望和欢乐！
今天晚上，大家可以痛痛快快地喝一顿酒了。
谈不了棋，谈谈棋之外的。非常认真地看了第三场和第四场的新闻发布会。我觉得，Google DeepMind选择李世石作为第一个挑战的顶级棋手，是睿智的。李世石此比赛所展现出来的宽厚和谦逊，让我非常钦佩。毕竟，人类千年以来对棋艺的追寻，不仅仅是冰冷的计算，也是对意义的求索。所积累的和围棋相关的文化遗产、职业精神，和所积累的技艺一样珍贵，甚至更为珍贵。让我感动的两个细节：第三场后的新闻发布会上，当记者在提问中将AlphaGo与“围棋之神”联系在一起的时候，李世石回答说，“AlphaGo强大但尚不足以称之为完美，今天的失利是李世石的失利，而不是人类的失败。”第四场的发布会上，当SBS的记者提到李世石和AlphaGo对弈的信息不对称性时，李世石回到说，“虽然我知道有人说如果我对AlphaGo有更多的信息，交手之时会更容易，但是我认为这不是一个问题，比赛的结果只能归结到我个人能力的局限。”衷心祝愿李世石在最后一句中执黑取胜。
更新——因为正好是周末，所以完整看了第三局的直播和第四局的一部分直播，正好没有错过第78拿手神来之笔。之前的两局比赛没有看直播，而且自己并不懂围棋，所以我是以一个比较中立的态度写了一个评论：这篇文章主要概述了阿狗（我喜欢把AlphaGo叫做阿狗）的基本原理，和我对这次比赛在8个方面的看法。这些看法主要是从技术角度的思考，其中有一点很明确，就是我相信目前的阿狗不可能没有缺陷，这是由它采用的技术本身决定的。我看的是腾讯直播，自己感觉古力老师讲的很好，我不懂棋，也能大概看明白。第三局真是一点脾气没有，当看直播时，我发现自己的人类情感起了作用，我非常希望李世石赢，而不是像以前一样，对阿狗的胜利更开心，因为那明显只是一名工程师对技术进步的欢呼雀跃之情。回到主题，从第四局看，阿狗终于暴露出了重大的bug。这个bug不是常规意义上的编程bug，而是指设计上的缺陷，使得阿狗在面对人类下出超过自己计算范围的好棋时，处于一种懵的状态，它事实上是对此视而不见的，过了几乎5个回合才反应过来（也就是在发现自己的获胜概率突然大幅度降低了）。由于没有第一手数据，这里只能猜测一下原因：阿狗的走棋网络和估值网络在训练时由于大量使用了左右互搏式的自我对局，因此可能出现过度拟合，说白点就是对真正有威胁的棋分析的不够，估计的概率不准确，造成蒙特卡洛搜索时，在有限时间内不能正确评估局面。这种bug只有在人类走出一手出乎意料的好棋时才会暴露出来。感谢李世石下出的杰出一局。Google解决这一问题，应该考虑加大人类对局，特别是高段位棋手的对局在训练神经网络时的权重，但这比较难以操作，权重到底应该设为多少很难确定。深度卷积神经网络本身的缺陷，已经有知友指出了这一缺陷（）。深度卷积网络本身是一种通过卷积运算，逐步抽象复杂问题的过程。在这个过程中会丢失信息，如果刻意利用网络本身的特点，就可能欺骗神经网络，实际上这和人类被欺骗很类似。如果是这种缺陷造成的，那就麻烦了，因为如果被针对性的采取措施，找到规律，那么google必须对算法进行重大的调整才能解决问题。当然，人类要做到这一点，特别是不了解阿狗技术细节的情况下，很难做到。如果阿狗被放到网络上，公开接受挑战，那么对局多了，可能会更容易暴露出问题。阿狗在78手之后走出的几手臭棋，我这个围棋小白都看不过去。这是什么原因造成的还不好说，google的工程师回去要好好分析一下。个人认为，这是因为阿狗的设计主要是基于概率的，并没有太多考虑借鉴人类总结出来的局部走子规律，在我的上一个回答里也听到了这个问题。在直播过程中，我发现古力老师这些高手，思考非常敏捷，对很多局面的判断几乎瞬间做出的，这方面，阿狗和人类的差距很大。如果人工智能要变得更加实用，必须要考虑轻量化实现的问题，也就是不能像现在这样，利用分布式的GPU和CPU来运算，要能够在手机这样的硬件条件下实现。有许多朋友开玩笑，以后要让任何计算机比赛可以，但要在同等能耗条件下比，这其实是有道理的。从这个角度讲，阿狗即使把5局都赢了，和人的差距仍然是巨大的。还是想再重新阐述一下第二局结束后的一个技术方面的评论。阿狗在最重决策时，给通过蒙特卡洛模拟得到的赢棋概率和局面评估结果同样的权重。直觉和初步的分析觉得这是有问题的，针对第四局阿狗的表现，建议Google工程师看一下78手之后几个回合的详细数据，我猜想是蒙特卡洛搜索后的概率评估结果有很大问题。个人认为，更好的策略应该是动态权重，不过这实现起来比较难。由于阿狗本身是用概率下棋，既然是概率，那么在实力接近时就会有一定的概率输。所以实际上最简单的判断，阿狗如果和高手下比较多数量的棋，犯错的概率就会表现出来，但是总得来说，还是赢得多。说到Google工程师的应对策略，目前时间不多，调整参数，重新训练网络之类的事情根本来不及做。因此，我猜想，阿狗会增加蒙特卡洛搜索时向外随机扩展的范围和搜索深度，这个容易调整，而且从前几局来看，阿狗的时间足够。之前每步棋阿狗大约考虑一到两分钟，如果第五局，这个时间明显长了，就说明Google确实这么做了。我们拭目以待。此外，这两天我对阿狗的整个人工智能结构思考了很久，计划等全部对局完成后再一并写出来。因为琢磨这些事情，昨天晚上回家居然错估了五环的出口，而北京的五环设计的很差，走错路很难纠错，被家人埋怨好久。这个情况和今天阿狗的表现多像，犯了错误后，重要的是马上纠错，止血。计算机一样会犯错误，但是我发现阿狗的设计里，及时发现错误和纠正错误的机制可以说是缺失的。请大家指正。
这盘棋说明电脑不擅长逆风棋。形势不利的时候它仍然下胜率相对最大的棋，而不是变化最复杂的棋。这样它翻盘的可能性就不大了。劣势下每招棋获胜的概率并没有多大意义，这就是它下出那些不可思议的棋的原因。当然，胜势的时候也类似。
印象最深的是赛后发布会全场都为李世石鼓掌，阿法狗的开发者也在鼓掌和欢笑，人们会为第78手回味已久，人们会兴奋，会哭泣，会激动，会感伤。谷歌的开发者会对李世石表示恭喜，李世石也会谦虚地表示这只是一场胜利。我很享受所有这一切的过程，人的情感是最最伟大的，我也很庆幸我是人，而不是冷冰冰的机器。神之一手属于人类！德玛西亚。
这儿仅提供一下赛后发布会的信息（韩语问答以现场提供的英文翻译为准），有一些很有趣的信息（把另一处相似问题的答案搬过来一下）~~~李世乭：非常感谢大家。这只是一局胜利，而且我从来没有因为赢下过一局比赛的胜利就受到大家如此热烈的祝贺（笑）。如果假设一下，今天我这局比赛是三场胜利之后输掉的第一局，这一定是很沉重的打击。但是现状是因为我先输掉了三局比赛，然后赢了这一局，因此突显出今天这一局的宝贵，我不会拿世界上任何东西与之交换（全场大笑）。而且正是因为大家对我的鼓励和欢呼，我才得以赢下今天这一局。哈萨比斯：祝贺李世乭先生，他再次证明了自己是一位优异的棋手和传奇。李世乭是一位不可思议的棋手，他今天对AlphaGo来说太强大了。AlphaGo开局很好，它对于自己在盘中的下法也感觉很好。但是李世乭在盘中的一系列走棋逼迫AlphaGo出现了一些错误。实际上我们也很高兴，因为这正是我们到这儿来的原因：来测试AlphaGo的极限，试图找到它的弱点，然后我们可以尝试去改善。正是因为这样，我们需要一位富有创造性的天才，就像李世乭这样的，来找出不足并让这些不足暴露出来。我还想说，这次的胜利证明了李世乭拥有极佳的对战经验，所以他才能在三场失败之后表现如此出色，从而赢得了今天的比赛。对我们来说，这次失利非常宝贵。我们现在还不确定具体怎么回事。但回到英国之后，我们会仔细分析所有数据，尝试找出到底发生了什么，改善并且解决这个问题。----------记者问答部分（只选取部分和这次比赛有关部分）-----------1. 这次对弈用的是单机版AlphaGo还是分布式AlphaGo？哈萨比斯：这次用的和之前三局比赛一样，是分布式AlphaGo. 在这次五局的比赛中我们用的都是同一个版本 -- AlphaGo 18。 AlphaGo单机版也很强，但比分布式弱。2. 怎样判断AlphaGo 下出的人类认为的“臭手”到底是不是“臭手”？哈萨比斯：这取决于比赛的最终结果。今天的比赛AlphaGo输了，因此我认为它今天的一系列走法可以说是失误。3. AlphaGo是如何投子认输的？Deepmind：AlphaGo依据赢得比赛的概率来决定下哪一步，每一步都尝试将自己赢得比赛的概率最大化。如果它感觉到赢得比赛的概率很低，它就会在低于某个值之后投子认输。电脑屏幕前的操作员会告诉Aja Huang，由他来按照既往的人类棋手方式在棋盘上认输。4. AlphaGo是否会因为对手每步棋的不同而调整自己的策略？Deepmind：AlphaGo一直假设对手会基于AlphaGo自己能找出的最佳走法而应答下一步棋，在这个过程中AlphaGo也在尝试挑选出能让自己赢棋概率最高的走法。在正常比赛中，这就是AlphaGo一直贯彻的策略。5. 李世乭是因为在这场比赛之前就已经有了计划，还是因为是AlphaGo自己的失误而赢得了比赛？李世乭：我认为自己找到了AlphaGo两个不足。一个是AlphaGo自己认为执黑赢棋要比执白赢棋困难。当对手下出没有预测到的一手时，这就会导致AlphaGo出错。也许严格意义上不能说是出错，应该说是出现了一个Bug。当AlphaGo应对没有预料到的一手时，它的能力会略微下降，可能会出现一系列Bug。我能感受到AlphaGo执黑比它执白要下得更艰难一些。6. 李世乭是否认为比赛的信息不对等？因为AlphaGo已经有了李世乭过往所有比赛的信息，但李世乭并没有这样的信息。这样的信息不对等是否对前四场比赛有影响，对最后一场比赛会有影响吗？李世乭：我知道有些人认为如果我了解AlphaGo更多一些，比赛的时候我可能会轻松一些。但是我觉得信息不对等并不是一个问题，输棋都是因为我个人能力的原因。哈萨比斯：我想补充一点，AlphaGo并没有针对李世乭进行对战训练，我们只是在广泛层面上训练它。实际上，AlphaGo开始训练的人类对局是网络上强业余棋手之间的对弈，因此我们的训练资料库中并没有李世乭的对局。然后大家都知道AlphaGo在这之后是用自我对弈的方式来变得更强。所以我认为信息上双方是对等的，我们并没有用李世乭的资料来训练它。我再补充一点，即使我们想针对李世乭对AlphaGo进行训练，这也要求有数以百万的对局可以用来训练。因此几百盘对弈哪怕上千盘也不足以改变AlphaGo比赛的方式，因为它需要更多的资料。7. 许多人都很担心李世乭在连输三场之后遭受的心理打击。李世乭是否能对自己的Fans说说自己的感受？在赢下一场比赛后，李世乭是否压力更小从而赢下最后一场比赛？李世乭：我不能否认自己受到打击了。是的，我是被打击到了，但这并没有让我放弃余下的比赛。我非常享受过去这些场比赛的每一刻。我能说自己并没有被遭受到的打击而击垮。我很高兴能执白赢得比赛。我希望能执黑赢得下一次比赛，因为这更加宝贵。（面向哈萨比斯提问）既然我执白已经赢了，在下一场比赛我能执黑吗？（全场笑）哈萨比斯：好的，我觉得没问题。8. （问题来自腾讯的记者）李世乭的78手，谁都没有想到，AlphaGo也没有想到。连古力也惊呼这是‘神之一手’。李世乭在下那一手时是怎样想的？李世乭：我之前认为取得优势会比较容易，但实际上并不是这样，比我想的要困难很多。在今天这场比赛的时候，78手的位置是我能看见的唯一能下的位置，其他位置并不可行。所以这对我来说是唯一的选择。谢谢大家对这一手的赞赏。---------------围棋小白赛后感想的分割线-----------------这几局比赛都是十分精彩的。但没有哪一局比今天这一局更能变现出人类遭受挫折后的勇敢，谋略和冷静。
这就是棋手的精神，这就是人类存在的意义。人工智能的高速发展到底是不是世界末日呢？我们不知道。但令人动容的是，不论是研发AlphaGo的团队还是李世石或柯洁，没有因为怀揣着惶恐就停下探索未知的脚步，就消减了面对未知的勇气。所以，系统的胜利又何尝不是人类的胜利呢？
李世石测试出了个bug！
如果这局棋放在昨天多好，那将是最好的结婚纪念日礼物。
我觉得这样的结果是最好的，前三盘大家已经充分认识到算法的牛逼之处，现在又可以看到算法不是无敌的，这样的结果可以使对AI算法毫无概念的大众不至于盲目崇拜AI、恐惧AI，或是过度炒作人工智能概念。最好明天李世石能再次利用同样的技巧赢alpha go一次，这样最能体现人与机器的优缺点：机器强于计算分析，大样本统计训练，但依然丝毫没有人类的逻辑推断，随机应变，小样本学习这些能力。我有个想法，如果第五盘，李世石先手，选择跟今天一样顺序走棋，电脑说不定会一模一样的顺序应对走子，然后继续输掉呢。当然，即使算法有一定随机性，不会每次走一模一样的棋，但是神经网络训练出的参数并不完美，漏洞肯定还是存在的，而且应该非常多，一旦人类找到漏洞，可能谁都可以打败AI了，就像玩文明三国志等策略游戏中利用各种方式骗电脑可以轻松玩赢神级AI，而这种漏洞的存在目前的深度学习训练算法丝毫没有解决办法，的答案里有更具体的图像识别中故意骗过机器的例子。
友善度不要了。李世石九段输了，你们说是签保密协议；李世石九段用超一流的一手赢了，你们说是AlphaGo故意放水。妈的智障。
已有帐号？
社交帐号登录
无法登录？
社交帐号登录}

米需爱网