×

谷歌alphago

谷歌alphago(AlphaGo是什么 谷歌AlphaGo全解读)

admin admin 发表于2023-01-11 13:39:33 浏览46 评论0

抢沙发发表评论

本文目录

AlphaGo是什么 谷歌AlphaGo全解读

AlphaGo一般指阿尔法围棋
阿尔法围棋(AlphaGo)是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能程序。
其主要工作原理是“深度学习”。
阿尔法围棋(AlphaGo)是一款围棋人工智能程序。其主要工作原理是“深度学习”。“深度学习”是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。

“深绿” 及 AlphaGo 对指挥与控制智能化的启示

学号:16020188007

摘 要 随着未来战争日趋复杂、人工智能突飞猛进, 指挥与控制向智能化发展成为大势所趋. 美军的 “深绿” 计划项目虽因各 种原因暂停, 但其思路和方法值得借鉴. AlphaGo 在围棋领域战胜人类顶尖水平, 其采用的方法也有一定的参考价值. 简要介绍了二者采用的方法, 并开展了方法适用性分析, 研究了其在指挥与控制领域的应用机理及能力, 分析了应用的难点及对策, 并对 指挥与控制智能化的发展提出了启示和建议.

指挥与控制是一项跨物理域、信息域和认知域的学科, 既包含工程, 也包含艺术.受到信息技术发展的推动和制约, 多年来指挥与控制技术的发展大量集中在信息域和物理域, 在指挥与控制系统工程 方面取得了长足的进步, 但在指挥与控制辅助决 策方面, 尤其是涉及指挥艺术的认知域, 一直停留在初级阶段. 虽然设计了一些辅助计算模型,但在现代化战争复杂、快速、多变的特性面前, 可信度、实用 性远远不能满足实际需要. 美军曾推出 “深绿” 计划, 旨在探索智能化的指挥与控制辅助决策, 但也因战争的复杂性等种种原因未获成功.人工智能技术近年来发展迅猛,尤以深度学习技术为代表, 在语音识别、图像识别、运动感知等领域纷纷取得了突破性的进展.AlphaGo与李世石的一场围棋大战获得了举世瞩目, 最终人工智能以4:1 的结果战胜了人类, 代表其在认知领域再下一城,一时间掀起了热议. 紧接着, AlphaGo宣称要挑战星际争霸, 更是将人工智能推向了神坛. 围棋和星际争霸这两类游戏,和军事指挥与控制有着紧密的联系, 尤其是星际争霸与战争有着很高的相似度. 因此, 很自然的想法, 就是将人工智能技术应用于作战指挥. 随着 美军宣称要将人工智能列为 “改变游戏规则” 的颠覆性技术大力发展, 国内外对指挥与控制智能化的呼声也越来越高.相比之下, AlphaGo是智能化技术向军事领域的推进, 而“深绿”则是从军事领域推智能化. 两者虽然一成一败, 都不失为军事指挥与控制智能化发展的里程碑.其中涉及的技术方法,很值得深入研究.本文简要介绍了二者采用的技术方法, 并开展了方法 适用性分析, 研究了其在指挥与控制领域的应用机理及能力, 分析了应用的难点及对策, 并作为抛砖引玉, 对指挥与控制智能化的发展提出了启示和建议.

1 方法简介及适用性分析

1.1 美军 “深绿” 系统 

    “深绿”计划是美国国防部高级研究计划局DARPA支持的一项面向美国陆军、旅级的指挥与控制领域的研究项目, 是将人工智能引入作战辅助决策的一项尝试探索. 文献对 “深绿” 计划中应用的技术、执行的情况、及其面临的困难和挑战 进行了深入探讨. 

    深绿的核心技术本质上是基于实时态势的动态 仿真, 也是 “平行仿真” 的核心要义. 仿真擅长逼真地、量化地模拟复杂多因素综合作用的过程和结 果, 而这是很难用传统的数学公式描述出来的. 基于 实时态势做仿真, 可以量化地估计未来某一时刻的战场状态,也可以帮助人理解各种量变在不同时间、空间上交叉产生、综合作用之后可能带来的质变, 这种质变代表具有不同意义的战场态势局面. 在复杂战争中, 可能导致不同态势局面的因素众多, 包含各种随机性、偶然性, 一个细微的因素可能改变整个战 局的发展. 使用仿真的方法, 可以尽可能地将每一个细节因素的影响都模拟出来, 只要模型足够逼真, 计算平台足以支撑. 

    然而, 用仿真来预测战场变化的一大缺点, 是无法应对分支太多的情形. 包括敌方战术策略、我方应对策略、环境变化、随机过程等不确定性都会导致分支出现. 而各种不确定性的组合爆炸是 “深绿” 面临的最大难题. 按照深绿的方法, 每种可能的分支都 要仿真模拟一遍才行, 那么分支一多, 这种仿真模拟 的计算资源和时间成本就十分高昂, 以至于无法实 现. 但事实证明, 战争迷雾无处不在, 只有战术层面、 短时间内, 不确定性才相对较少. 但很明显, 战术层面、短时间内的预测对指挥员而言非常简单, 用机器预测的意义不大. 此外, 态势与决策的输入输出、数据的决定性、计算机与人协同等问题, 都是 “深绿” 计划面临的难题. 

美军于 2011 财年终止 “深绿” 计划的原因是多方面的, 包括技术上存在的风险, 也包括经费、人员 等各方面因素. 美军高调宣称终止某项研究计划的背后, 往往在隐秘地持续开展相关研究. “深绿” 计划表面上虽然被叫停, 不排除相关研究仍在继续的可能.

1.2 谷歌 AlphaGo系统

相比于军方自顶向下推进指挥与控制智能化的 努力困难重重, AlphaGo 在民用领域取得的突破可谓 另辟蹊径, 后来居上.

    AlphaGo 所采用的核心技术是深度学习和蒙特 卡洛搜索,特别擅于分析博弈层面的问题, 而且已 被证明比人类更擅长应对天文数字般的组合不确定 性. 其通过训练深度神经网络, 实现对人类直觉思维 的模拟, 是在神经网络技术应用中非常有魄力的一 种创新. 神经网络虽然和人类大脑中的神经元系统 相差甚远, 却被实践证明可以模拟非常复杂的映射关系. 而人类的直觉就是一种说不清、道不明的潜 在映射关系. 机器通过千万级别的训练样本, 学会了 人类的这种直觉, 可以直接生成当前局势的 “应对良 策”(实际上是人类高手在同类局势下使用较多的棋 招), 而不是对每种可能性都推一遍, 同时生成对最终 输赢结果的价值估计 (实际上是人类类似棋局最终 输赢结果的统计分布), 并在有限范围内开展推演求 证 (由于缩小了范围, 屏蔽了细节, 推演效率高). 因此, 使用 AlphaGo 的方法, 可以帮助人们高效演算作 战中的博弈问题, 从而寻求战法策略的优化. 

然而, AlphaGo直接用于作战设计和分析是有问题的, 主要是屏蔽了太多细节导致的失真。和围棋不同, 战场上任何一招一策, 能达到何种效果, 都是和具体对象、环境相关的. 棋盘上看似简单的一步棋, 实际效果可能未必落在想要落在的那个格子里. 此外, 使用 AlphaGo方法, 还面临着战场抽象建模、非轮次博弈、非单一目标、不完全信息、不完备规则、缺训练样本等一系列问题, 下文中会详细阐述. 换言之, 单靠棋盘上的博弈验证战法策略的有效性, 有 “纸上 谈兵” 之嫌, 具有一定的意义, 但实用性不强.

2 应用机理及能力分析

2.1 应用机理

     “深绿”和 AlphaGo所采用的两种方法, 既可以 分别应用在指挥与控制中, 也可以结合起来应用, 取 决于实际需求.

     1) “深绿”—— 战术级仿真推演 

    从美军 “深绿” 系统的设计初衷和其应用效果来 看, 其更适合战术层级的仿真推演. 一方面, 战术层 级的实体行为模型较易建立, 武器平台的运用规则 相对简单、作用效果相对容易量化评估. 另一方面, 战术层级的不确定性相对较小, 因为时间相对较短、 规模相对较小、流程相对固定. 再一方面, 战术层级 的分析对于精确量化的要求更高, 武器平台的控制、 打击效果的评估等都需要精确量化的数据支撑. 在 战术级运用仿真推演, 可以充分发挥机器精确的计 算能力. 

    2) AlphaGo—— 战略、战役级博弈推理 

    从 AlphaGo 定位于棋类游戏来看, 其更适合战 略、战役层级的博弈推理. 棋招类似于战法, 走一 步棋类似于指挥员下定一步作战行动的决心. 通过 AlphaGo 扮演 “蓝军” 指挥员, 与扮演 “红军” 的人类 指挥员互相拆招喂招, 可以帮助指挥员定性地分析 各种战法相互作用、多个回合之后的可能结果. 战争 是不确定性的王国, AlphaGo 擅长的就是从大量不确 定性中寻求可行解. 另外, AlphaGo 采用的自我博弈 方法, 还能帮助指挥员从庞大的解空间中自动寻找最有可能取胜的战法组合, 帮助实现战法策略的优 化. 

    3) 两者结合 —— 一体化作战设计分析 

    然而, AlphaGo 真正要用在指挥与控制领域, 实 现从棋类游戏到战争推演的转化, 就要和 “深绿” 的 方法相结合, 互相取长补短.

结合应用的机理如图 1 所示, 指挥员和机器在 棋盘上进行对弈, 通过仿真环境实现和真实战场的 对接. 首先, 指挥员在棋盘上设计战法, 相当于走出 一步棋,“深绿” 系统使用草图到计划的功能, 将该战 法细化成具体可操作的行动方案, 并基于实时接入 的战场数据, 通过仿真模拟出方案执行后的效果, 将该效果抽象之后呈现在棋盘上, 即通过仿真估计出 棋子可能落在哪一格. 接着, AlphaGo 用其深度学习 得到的策略网络, 生成敌方的战法, “深绿” 系统将其 细化成方案, 仿真出效果并抽象到棋盘上, 从而完成 双方一轮走棋. AlphaGo 再用估值网络估计一下当前 盘面的胜负概率, 并用蒙特卡洛搜索进行推演求证, 供指挥员分析参考.     按照这种方法, 战略、战役、战术层级得到了兼 顾, 两种方法形成了优势互补, AlphaGo 解决了不确 定性的问题, “深绿” 实现了 “纸上谈兵” 和实际战场 的结合, 因此, 可用于一体化的作战设计分析.

2.2 应用能力 

    在指挥与控制领域应用 “深绿” 和 AlphaGo的方法, 可以实现很多前所未有的功能, 支撑战前推演、实时预测、临机决策、精准控制、战后评估等一系列指挥与控制业务. 

    1) 博弈式筹划推演 

    在战前, 可以将 AlphaGo和 “深绿” 结合起来, 实 现博弈式的筹划推演. 一种是人 - 机博弈: 人类指挥员设计我方战法, AlphaGo 设计敌方战法, “深绿” 负责行动方案细化生成、行动效果模拟抽象, AlphaGo 估计胜负概率, 人类指挥员可以选择继续往下走, 或者悔棋重新设计战法, 重新推演, 以此反复修改优化方案. 另一种是机 - 机博弈: AlphaGo 用自我博弈的方法, 同时设计敌、我战法, 通过随机选择战法的方 式, 把各种可能的战法组合都推演一遍, 并自动对推 演结果进行批处理分析、比对, 从而帮助人类指挥员寻找较为理想的方案. 由于人类指挥员在设计方案时往往具有思维定势, 容易忽略掉一些可行解, 而 器采用有限范围内的解空间搜索方式, 或许能搜出 一些人想不到的方案, 其中不乏 “奇招、妙招”.    

    2) 实时态势预测 

    在战中, 可以将 AlphaGo 和 “深绿” 结合起来, 实 现战场态势的实时预测. 其中, AlphaGo 主要负责敌 方的出招预测, 即预测敌方在当前形势下, 下一步可 能采用的战法. 但按其方法原理, 其只能预测当前局 势下令对手赢面最大的一招, 而无法预测对手可能 采用的 “昏招” 或 “险招”. “深绿” 主要负责战术层面 的战场状态预测, 一是按敌我当前战法打下去, 量化 估计下一时刻可能的战场状态, 二是考虑环境、对抗 中的少量随机性, 或敌我战法的少量可选项, 归纳出 短时间内未来态势可能出现的几种局面. 

    3) 临机快速决策 

    AlphaGo 的一大特点, 是克服大量未知不确定性的组合爆炸, 模拟人类的棋感直觉, 根据当前盘面形势快速拆招解招. 这种能力如果用在临机指挥中, 可以快速生成决策建议, 尤其是在突遭变化、敌方后招 难以捉摸, 而形势又特别紧急的情况下, 可以避免人 类指挥员容易出现的犹豫不决现象, 提升决策效率. 更重要的是, AlphaGo 在训练时使用的样本很多, 可以模拟很多高水平指挥员的共性直觉, 理论上其生成的建议有可能会优于单个人类指挥员. 当然, 以目前人工智能的水平, 支持战前筹划还行, 支持战中指挥有点不太现实, 但如果 AlphaGo攻克了星际争霸之类的实时竞技类游戏, 那就完全不同了. 

    4) 前馈式精准控制 

    深绿基于仿真的实时量化预测能力, 可以在行动执行过程中, 模拟战场多因素综合作用的结果, 超实时预测行动执行的效果, 并根据实时数据动态修正预测结果. 指挥员可以实时把握行动预计效果同预期之间的偏差, 提前对行动进行调整. 过去都是根据当前行动执行的结果, 来调整下一步的行动, 是在偏差已经产生情况下的调控. 而通过超前预测引入的反馈, 是在偏差尚未产生之前的调控, 类似控制论 中的前馈式控制, 可以帮助指挥员防患于未然. 在此基础上, 如果仿真模型的粒度越细, 则效果预测就越精确, 控制的精准度就越高.

    5) 战后评估训练 

一方面, 战前的博弈式推演方法也可以用在战后, 对各种战法进行博弈演练, 发现战法存在的问题, 从而进行优化. 另一方面, 利用 AlphaGo中的深度学习技术, 还可以实现各种作战模型的训练优化. 很多作战模型因为影响因素太多、作用机理复杂, 传统数学模型难以精确拟合. 例如部队实战能力, 受敌我兵力配属、武器配备、使用战法、训练水平、士气、相对位置、战场环境等诸多因素影响, 一直以来都很难建模. 而指挥员和部队一起摸爬滚打多年, 对其实战能力的估计是比较准确的, 这种经验性的直觉判断, 类似 AlphaGo 对盘面胜负概率的估计. 神经网络具备超强的分类/拟合性能, 如果给定历史案例中各种情况下的战况数据, 用深度学习方式或许能拟合出 一个较为精确的模型出来.

3 技术应用面临的挑战

“深绿” 计划面临的挑战如前所述, 包括战争的复杂不确定性、模型的精确性、计算资源的占用性等. AlphaGo的方法虽然在围棋领域取得了杰出的成就, 并且具有一定的通用性, 但真正应用在作战指 挥与控制领域, 还面临许多挑战.

    1) 战场抽象建模 

    棋盘上, 车无轮、马无缰, 一切都是简化过的. 而现实战争太复杂, 要考虑的细节因素太多, 只有抽象到棋盘层面, 才有可能分析战法博弈. 但如何抽象, 才能做到既简化了繁冗的细节, 又保留了博弈的本质, 是一个值得研究的问题. 例如, 战场态势决不仅仅是兵力的棋布, 各种相互关系、能势大小、趋势方向都应在棋盘上反映出来;调兵遣将也决不仅仅是棋子的位置挪移, 各种战法战术策略、武器使用方式都应在棋盘上可选. 其实这是兵棋要考虑的问题, 但现在的兵棋能否做到, 还有待验证. 

    2) 非轮次博弈 

    现代化战争不像古代的决斗, 不是你走一步我 走一步的模式, 而是你走一步, 我可能走两步甚至更多. 战争也不是你走一子我走一子, 而是多个子同时在走. 像星际争霸之类的游戏是很接近战争, 但 AlphaGo 能否攻克还是未知数, 很可能不会采用和围棋一样的方法. 战争是连续演进的, 一种方式是采用某种策略将其离散化, 分成许多时间片段, 允许每个片段结束时双方各做一次决策 (保持不变也是一种决策), 然后套用围棋的方法, 这种方法带来的问题就是时间片划分多细合适, 太细了计算量大, 太粗了容易失真. 除此之外, 就需要创新提出完全不同于AlphaGo的方法来解决. 

3) 非单一目标

棋盘对弈, 最终的目标就是输赢. 而实际战争往往没有那么简单, 很多情况下没有明确的输赢之分, 而是要达到某种期望的状态, 比如夺取制空权之类. 而且实际战争中除了输赢, 考评一个作战方案还有很多其它指标, 比如预期效能的达标性、损失代价的可接受性、资源占用条件的满足性、应对各种变化的灵活性等. 换言之, 实际战争的目标是非单一的, 是一套价值目标体系. 如何在棋盘对弈中模拟这样的价值目标体系, 而神经网络又如何来学习这种价值目标体系下的人类直觉, 都是值得研究的问题.

    4) 不完全信息 

    棋盘上, 黑白分布一目了然. 而现实战争中, 信息有缺有失、有真有假. 当信息缺失时, 就好像一个人在下棋, 走了好几步之后, 才知道对手走到哪儿, 也不知道对手是怎么走到那里的, 那么在这几步 “盲棋” 中, 该如何做决策?另一方面, 当信息有假时, 就好像对手表面上走了一步棋, 实际上走的是另一步棋, 有一个看得见的棋盘和一个看不见的棋盘, 如何鉴别看得见的这步棋, 又如何估计看不见的那步棋? 星际争霸游戏中设置了一部分信息缺失的元素, 例如未经玩家探索过的地区会蒙上一层黑幕. AlphaGo能否通过这样的考验, 让我们试目以待. 

    5) 不完备规则 

    棋盘上, 一招一式都有规定, 规则是明确的, 对双方是一致的. 而现实战争中, 招无定式、兵无定法, 人可以随时创造出新战法. 朱可夫在与关东军作战 中, 用滑轮绳索将坦克拉上陡坡, 实现了出奇制胜. 而现代化战争中, 前方兵力看似不多, 后方一枚远程导弹就有可能瞬间改变战局, 美军号称一小时内能打到全球任何一处, 小小棋盘又哪能覆盖无边界的战场?即便循规蹈矩地照教科书上的战法, 用在不同的实际情况下也是需要调整的, 创新是无处不在的. 试想两人对弈中, 如果对手不断地违规走棋, 即便是 “围棋之神” 也难以取胜. 当然, 实际战争中对手的规则也不是完全不清楚, 是可以大致估计出来的, 很多情况下对手别无选择, 这里面有个度的问题.

     6) 缺训练样本

    棋局盘面可以达到千万级的规模, 现实战争不太可能. 即便算上演习训练, 也离这个规模相去甚远. AlphaGo 通过自我博弈无中生有地制造了大量样本, 这对于战争能否做到是个问题. 棋盘上自我博弈较为简单, 用于作战还要解决从战法到行动方案的自动生成问题. 此外, 人造的样本能不能用也是个问题, 深度学习如果学到的是人造的规律, 就失去了意义. 另一方面, 人类自身在学习时并不需要太多样本, 打 过几次仗的兵就算老兵了, 一生身经数十战就是 “战神” 了, 人类靠的不仅仅是经验积累, 每积累一次经验都会带有思考, 让理性思维和感性认识相结合, 才能实现快速学习. 如何让机器像人一样去学习作战, 是很值得研究的问题. 

上述挑战问题, 每一个目前都没有很好的解决办法, 但笔者相信随着技术的发展, 它们终有一天会被解决. 正如 AlphaGo 赢棋之前, 很多人预测这一天还要很多年才能到来. 我们处在技术飞速发展的时 代, 每一天都在见证奇迹的出现.

4 指挥与控制智能化发展着力点

分析认为, 不论 AlphaGo还是 “深绿”, 其迈向智能化的基础都是知识. AlphaGo的知识是16万人类高手的围棋棋谱, “深绿” 的知识是各种仿真实体的交战模型. 没有这些知识做基础, 它们是达不到现在 的智能化程度的. 因此, 知识工程是智能化的基石, 解决智能化的关键问题, 还应从知识表示、知识学 习、知识推理等基础问题入手, 加强技术方法研究.

    1) 加强指挥员认知域的知识表示方法研究 

    智能化的第一步, 是让机器理解战争, 理解战场上发生的事, 以及指挥员心中考虑的问题. 分析战争问题, 很重要的一点就是抽象. 要分析战法博弈层面的问题, 首先要分析一下指挥员心中的棋盘是什么样的, 指挥员是如何分析任务目标、理解战场局势、 设计作战思路的、评价作战效果的, 指挥员大脑里抽象、模糊、不确定的知识产物具有哪些要素特征. 然后探寻如何将这些要素特征形式化描述, 以便机器理解. 

    2) 加强复杂战争规律的知识学习方法研究 

    战争规律不断在变化, 而且复杂性也在不断提升, 人类经验总结是一方面, 机器学习的方法可以帮助人类提升对复杂战争规律的认识. 运用深度学习方法, 首先要解决训练样本的问题, 可用的实际战争和演习数据有限, 一种可行的途径是通过仿真模拟的作战过程积累数据. 因此, 要大力建设作战仿真模拟环境, 类似星际争霸之类的战争游戏, 还应当越做越精细, 更加逼真的模拟真实作战, 不仅仅是在画面效果上, 还要在作战流程、交战对抗、实体行为决策、 战场环境上尽量贴近真实, 让更多一线的指挥人员成为游戏的玩家, 同时也让将战争游戏打造成为检 验战法战术的试金石和试验田. 在积累了大量指挥军官的游戏数据之后, 深度学习才能派上用场. 

    3) 加强面向博弈对抗的知识推理方法研究 

如前所述, 战争博弈对抗具有非轮次博弈、非单一目标、不完全信息、不完备规则等特征, 传统的知识推理方法存在适用性问题. 因此, 在充分吸收 AlphaGo的推理方法的同时, 还应结合逻辑推理、不确定推理、基于案例的推理、基于仿真的模拟推演,以及传统的数学计算等多种手段, 或者创造新的推理方法. 另一方面, 人工智能目前还不能完全替代人类的智慧, 但两种智能可以结合起来解决问题. 如何优化人和机器的智能分工与协作效率, 实现智能输出的最大化, 也是值得研究的问题.

5 启示及建议

本文对美军 “深绿” 计划及 AlphaGo进行了简要的介绍, 分析了其各自的优缺点, 提出了将二者的核心技术方法结合起来, 应用于战前推演、实时预测、临机决策、精准控制、战后评估等指挥与控制业务的方法.同时, 也从战争抽象建模、非轮次博弈、非单一目标、不完全信息、不完备规则、缺训练样本等方面分析了技术应用面临的挑战, 指出发展指挥与控制智能化应以知识表示、学习、推理等基础问题作为着力点. 知识是智能化的核心, 而数据是根基, 所谓 “巧妇难为无米之炊”, 是当前指挥与控制智能化面临的困境, 因此, 要大力推进知识工程建设, 积累数据是关键。

    人工智能技术虽然不能说已经成熟, 但足以和目前的指挥与控制系统拉开足够差距, 可以发展的空间很大, 很多传统方法解决不了的问题有可能通过智能化技术解决。然而,发展智能化指挥与控制要一步步来,不能急功近利,“深绿” 就是前车之鉴, 把握不好, 一次重大失利, 就可能将其带入低谷. 深度 学习技术只是人工智能的一种方法, 不能解决所有问题, 其他人工智能方法也有待进一步发展, 关键在于如何结合领域特征高效转化应用. 最后, 应当将人工智能当作指挥员的助手, 用于辅助决策, 但最终做决定的还应当是人类, 全自主化战争目前来看还太遥远。

阿尔法狗输过吗

输过,柯洁曾经执黑迎战胜谷歌AlphaGo。 AlphaGo与围棋世界冠军等有名的围棋高手对决都取得了胜利,这不禁让人们对它刮目相看,阿尔法围棋的工作原理是“深度学习”,摒弃了人类的棋谱,通过深度学习来挑战极限。

AlphaGo Zero没有使用人类数据,也没有利用任何人类围棋专业知识,通几十天的时间,就已达到与人类几千年围棋知识相抗衡的水平。

阿尔法围棋程序挑战世界围棋冠军李世石的围棋人机大战五番棋在韩国首尔举行。比赛采用中国围棋规则,奖金是由Google提供的100万美元。最终阿尔法围棋以4比1的总比分取得了胜利。

扩展资料

 国际顶尖期刊《自然》封面文章报道,谷歌研究者开发的名为“阿尔法围棋”(Alpha Go)的人工智能机器人,在没有任何让子的情况下,以5:0完胜欧洲围棋冠军、职业二段选手樊麾。在围棋人工智能领域,实现了一次史无前例的突破。计算机程序能在不让子的情况下,在完整的围棋竞技中击败专业选手,这是第一次。

阿法狗拥有强大的数据库,拜互联网所赐,它甚至不用和职业高手对弈以及靠设计师输入棋谱,就能够通过程序自动从网上抓取棋谱充实自己的数据库。跟职业高手的对弈中利用复杂和精妙的算法挑选出每个局面下胜率最高的那一招。同时这些棋局又进入了阿法狗的数据库。

第一个战胜围棋世界冠军的人工智能叫

第一个战胜围棋世界冠军的人工智能叫AlphaGo,AlphaGo由谷歌(Google)旗下DeepMind公司戴密斯·哈萨比斯领衔的团队开发。其主要工作原理是“深度学习”。

2017年5月,在中国乌镇围棋峰会上,它与排名世界第一的世界围棋冠军柯洁对战,以3比0的总比分获胜。围棋界公认阿尔法围棋的棋力已经超过人类职业围棋顶尖水平。

扩展资料:

计算机对应复杂度的方法就是“深度学习”,这是一种基于人工神经网络的人工智能方式。与“专家系统”为代表的,用大量“如果-就”规则定义的,自上而下的思路不同,人工神经网络标志着另外一种自下而上的思路。

它的基本特点是,试图模仿大脑的神经元之间传递,处理信息的模式。在简单的规则制定之后,计算机就可以模仿大脑学习,当然,不知疲倦,速度也更快,这也是AlphaGo可以快速学习、进化的原因。

谷歌为何要做人工智能围棋程序AlphaGo

围棋对计算机来说是最困难的,其复杂程度让穷举搜索都难以解决。
对机器来说,围棋的困难主要在两方面:一是,机器无法写出评估程序来决定谁赢了;二是,围棋是一种直觉性的比赛。
输赢的判断对比赛来说非常重要,但是围棋不像象棋,吃掉对方的“帅”或者“将”即可获胜,这也导致围棋的搜索空间非常庞大。
围棋更像是一个筑防游戏,每走一步都需要盘算整个棋局,而象棋是所有棋子都摆在盘上。另外,围棋选手都是依靠直觉在下棋,且围棋中没有等级概念,所有的棋子都一样,小小的一子,就可以影响全局。
正因如此,AlphaGo在围棋上取得的成绩,确实得来不易。哈萨比斯也说,战胜李世石,让他们整个团队都很激动。为这一刻,等了十年。

运行围棋程序的alphago计算机属于

运行围棋程序的Alpha GO计算机属于第四代计算机。AlphaGo是2014年由谷歌旗下的DeepMind公司开发的一款人工智能围棋程序。它使用深度学习等技术,在完全自主学习的情况下实现对弈水平的逐步提升,并且在后续的博弈中,战绩卓著,影响巨大。与此同时,AlphaGo能在人机对弈和机器对弈中独占鳌头,这归功于包括蒙特卡洛树搜索、估值网络、策略网络等技术的融合运用。其中,后两者是一种多层CNN神经网络模型。得益于深度学习理论的发展,AlphaGo获得了更强的智能和不断的进步。

如何评价 AlphaGo Zero

AlphaGo Zero是谷歌下属公司Deepmind的新版程序。

从空白状态学起,在无任何人类输入的条件下,AlphaGo Zero能够迅速自学围棋,并以100:0的战绩击败“前辈”。

2017年10月19日凌晨,在国际学术期刊《自然》(Nature)上发表的一篇研究论文中,谷歌下属公司Deepmind报告新版程序AlphaGo Zero:从空白状态学起,在无任何人类输入的条件下,它能够迅速自学围棋,并以100:0的战绩击败“前辈”。Deepmind的论文一发表,TPU的销量就可能要大增了。其100:0战绩有“造”真嫌疑。

抛弃人类经验”和“自我训练”并非AlphaGo Zero最大的亮点,其关键在于采用了新的reinforcement learning(强化学习的算法),并给该算法带了新的发展。

AlphaGo Zero仅拥有4个TPU,零人类经验,其自我训练的时间仅为3天,自我对弈的棋局数量为490万盘。但它以100:0的战绩击败前辈。

现在很多文科博士不好毕业。很多文科博士很累,并不是因为需要你有多聪明,而是需要你看很多文献。这样的工作,是可以被人工智能取代的。有了数据库,我们做学术和古人做学术就很不一样了。清朝的乾嘉学派做了很多考据工作,那些工作如果交给AI做,很快就完成了。那些人如果生在今天,就会不幸一些,他们博闻强识的长处,没有办法发挥得淋漓尽致。我们照着过去的路子做学术,很多时候就不再能走得通。很多人想,过去的大师有什么禀赋,如果我也有,就可以达到跟他一样的高度,这是不会的。禀赋要跟时代结合起来才有意义。吴承学老师写了一篇《微信上的万里校书记》,放在过去,是不可以想象的。过去谁做了这样的工作,非常不容易。今天,完全有可能一个文科博士,花了七八年时间做好一篇博士论文,在他快写成的时候,人工智能介入,半个小时完成了同样的工作。

人工智能的介入,会给很多职业带来冲击。很多人首先想到的是一些体力劳动者,比如送外卖,装卸货。实际上,难道写论文就不是体力劳动吗?体力劳动在博士研究生的工作中,占到了很大的比重。很多时候你能做出成果,不是因为你比别人更聪明,更有洞见,只是因为你比别人更勤奋,更走运,有机会见到别人见不到的材料。我的职业写作,人工智能也很容易介入。现在人工智能已经可以写新闻稿,写地震报道、财经稿件。很快,也能够写流行鸡汤,随笔散文。今天,还有很多新媒体从业者报名学习“如何写出10万加的文章”,明天,人工智能就可以批量生产10万加了。不过,这并不会对业已赚到钱的人造成太大打击,因为他们已经赚到钱了。很少有什么钱可以赚一辈子,如果有什么钱可以赚一阵子,又合理合法,就非常不错了。这种变化,从根本上讲,并不是人工智能带来的。任何事情,都有它的生命周期。即便没有人工智能,像学京剧、吹唢呐、说书,这些行当也慢慢不行了。但它们的变体仍然可以在新的时代找到新的适应方式,比如当演员、谈钢琴、讲脱口秀。有些定式彻底废弃不用了,有些定式局部做了改进,演化出新的变化。有种说法,未来的时代,人人都得会编程,不会就是废材,会被淘汰掉。

有人三四十岁了,听到这话,赶紧去学编程。这是没有必要的。为什么呢?因为即便到了那个时代,你也已经死掉了,至少是退休了。所以完全不用担心。我们不需要与人工智能赛跑。就好像老虎要吃人,我们不需要比老虎跑得快,只需要比周围人跑得快,就不会被吃掉。如果你周围很多人都不会编程,你有什么好害怕的呢?如果把50岁的孔子扔到现在,他也会很麻烦,很多东西,他已经很难再掌握了。他会出现很难与时代适应的问题。但如果是把10岁的孔子扔到现在,就一点问题也没有,他会适应得很快。所以,我们的最大问题,并不是不懂什么,而是不再年轻,不再了解新一代人。不过这个问题也不要紧。只要我们不比周围的人跑得慢,就无需太过担心。有些人什么都不会,只会种地,人工智能来了,他们就要受苦了吗?不。从另一个角度看,他们要享福了。

人工智能要帮他种地了。他就可以躺在家里因为失业而领国家补贴了。虽然发不了财,但相比付出来讲,还是不吃亏的。只要我们能大体保证和周围人一样的节奏和步伐,就完全不用担心自己变成废材。变成废材的唯一路径是,活得足够久——活到别的不适应新时代的人都死了,自己还没死,就真的成了废材。但鉴于自己不可能那么长寿,所以废材的问题自然而然解决了。有人否认这一点。他们认为,人工智能会带来天翻地覆的变化,此刻的人类正站在节点上。未来,永生是可能的。这个观点,就牵涉到另外的话题了。我并不想做更多的说明,只想简单说一句:以佛教的看法,并没有什么永生和死亡,有的只是,新东西不断替换掉旧东西。

【转载】AlphaGo原理解析

这些天都在没日没夜地关注一个话题,谷歌人工智能程序AlphaGo(国内网友亲切地称为“阿尔法狗”)以5:0击败欧洲职业围棋冠军樊麾二段,并在和世界冠军的比赛中2:0领先。
什么!!
19年前计算机击败国际象棋冠军卡斯帕罗夫的情景还历历在目,现在计算机又要来攻克围棋了吗!?
虚竹在天龙八部里自填一子,无意中以“自杀”破解“珍笼”棋局,逍遥子方才亲传掌门之位。难道以后“阿尔法狗”要出任逍遥派掌门了?
1933年,东渡日本19岁的吴清源迎战当时的日本棋坛霸主、已经60岁的本因坊秀哉,开局三招即是日本人从未见过的三三、星、天元布阵,快速进击逼得对方连连暂停“打卦”和弟子商量应对之策。随后以“新布局”开创棋坛新纪元。难道阿尔法狗会再造一个“新新布局”?
作为一个关心人工智能和人类命运的理科生,近些天刷了好些报道,记者们说“阿尔法狗是个‘价值神经网络’和‘策略神经网’络综合蒙特卡洛搜索树的程序”,但我觉得光知道这些概念是不够的。我想看看“阿尔法狗”的庐山真面目。

准备好棋盘和脑容量,一起来探索吧?

围棋棋盘是19x19路,所以一共是361个交叉点,每个交叉点有三种状态,可以用1表示黑子,-1表示白字,0表示无子,考虑到每个位置还可能有落子的时间、这个位置的气等其他信息,我们可以用一个361 * n维的向量来表示一个棋盘的状态。我们把一个棋盘状态向量记为s。
当状态s下,我们暂时不考虑无法落子的地方,可供下一步落子的空间也是361个。我们把下一步的落子的行动也用361维的向量来表示,记为a。
这样,设计一个围棋人工智能的程序,就转换成为了,任意给定一个s状态,寻找最好的应对策略a,让你的程序按照这个策略走,最后获得棋盘上最大的地盘。
如果你想要设计一个特别牛逼惊世骇俗的围棋程序,你会从哪里开始呢?对于在谷歌DeepMind工作的黄士杰和他的小伙伴而言,第一招是:

蒙特卡洛搜索树(Monte-Carlo Tree Search)是一种“大智若愚”的方法。面对一个空白棋盘S0,黄士杰的老师Coulum最初对围棋一无所知,便假设所有落子方法分值都相等,设为1。然后扔了一个骰子,从361种落子方法中随机选择一个走法a0。Coulum想象自己落子之后,棋盘状态变成S1,然后继续假设对手也和自己一样二逼,对方也扔了一个筛子,随便瞎走了一步,这时棋盘状态变成S2,于是这两个二逼青年一直扔骰子下棋,一路走到Sn,最后肯定也能分出一个胜负r,赢了就r记为1,输了则为0,假设这第一次r=1。这样Coulum便算是在心中模拟了完整的一盘围棋。
Coulum心想,这样随机扔骰子也能赢?运气不错啊,那把刚才那个落子方法(S0,a0)记下来,分值提高一些:

我刚才从(S0, a0)开始模拟赢了一次,r=1,那么新分数=2,除了第一步,后面几步运气也不错,那我把这些随机出的局面所对应落子方法(Si,ai)的分数都设为2吧。然后Coulum开始做第二次模拟,这次扔骰子的时候Coulum对围棋已经不是一无所知了,但也知道的不是太多,所以这次除(S0, a0)的分值是2之外,其他落子方法的分数还是1。再次选择a0的概率要比其他方法高一点点。
那位假想中的二逼对手也用同样的方法更新了自己的新分数,他会选择一个a1作为应对。如法炮制,Coulum又和想象中的对手又下了一盘稍微不那么二逼的棋,结果他又赢了,Coulum于是继续调整他的模拟路径上相应的分数,把它们都+1。随着想象中的棋局下得越来越多,那些看起来不错的落子方案的分数就会越来越高,而这些落子方案越是有前途,就会被更多的选中进行推演,于是最有“前途”的落子方法就会“涌现”出来。
最后,Coulum在想象中下完10万盘棋之后,选择他推演过次数最多的那个方案落子,而这时,Coulum才真正下了第一步棋。

蒙特卡洛搜索树华丽转身为相当深刻的方法,可以看到它有两个很有意思的特点:
1)没有任何人工的feature,完全依靠规则本身,通过不断想象自对弈来提高能力。这和深蓝战胜卡斯帕罗夫完全不同,深蓝包含了很多人工设计的规则。MCTS靠的是一种类似遗传算法的自我进化,让靠谱的方法自我涌现出来。让我想起了卡尔文在《大脑如何思维》中说的思维的达尔文主义。
2)MCTS可以连续运行,在对手思考对策的同时自己也可以思考对策。Coulum下完第一步之后,完全不必要停下,可以继续进行想象中的对弈,直到对手落子。Coulum随后从对手落子之后的状态开始计算,但是之前的想象中的对弈完全可以保留,因为对手的落子完全可能出现在之前想象中的对弈中,所以之前的计算是有用的。这就像人在进行对弈的时候,可以不断思考,不会因为等待对手行动而中断。这一点Coulum的程序非常像人,酷毙了。
但黄士杰很快意识到他老师的程序仍然有局限:初始策略太简单。我们需要更高效地扔骰子。
如何更高效的扔骰子呢?
用P_human()来扔。

如果某一步被随机到很多次,就应该主要依据模拟得到的概率而非P_human。
所以P_human的初始分会被打个折扣:

这样就既可以用P_human快速定位比较好的落子方案,又给了其他位置一定的概率。看起来很美,然后实际操作中却发现:“然并卵”。因为,P_human()计算太慢了。
一次P_human()计算需要3ms,相对于原来随机扔骰子不到1us,慢了3000倍。如果不能快速模拟对局,就找不到妙招,棋力就不能提高。所以,黄士杰训练了一个简化版的P_human_fast(),把神经网络层数、输入特征都减少,耗时下降到了2us,基本满足了要求。先以P_human()来开局,走前面大概20多步,后面再使用P_human_fast()快速走到最后。兼顾了准确度和效率。
这样便综合了深度神经网络和MCTS两种方案,此时黄士杰的围棋程序已经可以战胜所有其他电脑,虽然距离人类职业选手仍有不小的差距,但他在2015年那篇论文的最后部分信心满满的表示:“我们围棋软件所使用的神经网络和蒙特卡洛方法都可以随着训练集的增长和计算力的加强(比如增加CPU数)而同步增强,我们正前进在正确的道路上。”
看样子,下一步的突破很快就将到来。同年2月,黄士杰在Deepmind的同事在顶级学术期刊nature上发表了“用神经网络打游戏”的文章。这篇神作,为进一步提高MCTS的棋力,指明了前进的新方向:

红白机很多人小时候都玩过,你能都打通吗?黄士杰的同事通过“强化学习”方法训练的程序在类似红白机的游戏机上打通了200多个游戏,大多数得分都比人类还好。

“强化学习”是一类机器学习方法,Agent通过和环境s的交互,选择下一步的动作a,这个动作会影响环境s,给Agent一个reward,Agent然后继续和环境交互。游戏结束的时候,Agent得到一个最后总分r。这时我们把之前的环境状态s、动作a匹配起来就得到了一系列《s,a》,设定目标为最后的总得分r,我们可以训练一个神经网络去拟合在状态s下,做动作a的总得分。下一次玩游戏的时候,我们就可以根据当前状态s,去选择最后总得分最大的动作a。通过不断玩游戏,我们对《s,a》下总得分的估计就会越来越准确,游戏也玩儿得越来越好。
打砖块游戏有一个秘诀:把球打到墙的后面去,球就会自己反弹得分。强化学习的程序在玩了600盘以后,学到这个秘诀:球快要把墙打穿的时候评价函数v的分值就会急剧上升。

机器学习的开山鼻祖Samuel早在1967年就用自对弈的方法来学习国际跳棋,而之前的蒙特卡洛搜索树也是一个自对弈的过程。但是现在黄士杰不仅有一个从人类对弈中学习出的P_human这样一个高起点,而且有一个神经网络可以从对弈样本中学习,有理由相信这次会有更好的结果。

黄士杰准备在MCTS框架之上融合局面评估函数v()。这次还是用P_human作为初始分开局,每局选择分数最高的方案落子,下到第L步之后,改用P_human_fast把剩下的棋局走完,同时调用v(SL),评估局面的获胜概率。然后按照如下规则更新整个树的分数:

前两项和原来一样,如果待更新的节点就是叶子节点,那局面评估分就是v(SL)。如果是待更新的节点是上级节点,局面评估分是该节点所有叶子节点v()的平均值。
如果v()表示大局观,“P_human_fast模拟对局”表示快速验算,那么上面的方法就是大局观和快速模拟验算并重。如果你不服,非要做一个0.5: 0.5之外的权重,黄士杰团队已经实验了目前的程序对阵其他权重有95%的胜率。
以上,便是阿尔法狗的庐山真面目。

上图演示了阿尔法狗和樊麾对弈时的计算过程,阿尔法狗执黑,红圈是阿尔法狗实际落子的地方。1、2、3和后面的数字表示他想象中的之后双方下一步落子的地方。白色方框是樊麾的实际落子。在复盘时,樊麾觉得位置1的走法更好。
深度学习、蒙特卡洛搜索树,自我进化三招齐出,所有其他围棋ai都毫无还手之力。99%的胜率不说,“阿尔法狗”还可以在让四子的情况下以77%的胜率击败crazystone。“阿尔法狗”利用超过170个GPU,粗略估算超过800万核并行计算,不仅有前期训练过程中模仿人类,自我对弈不断进化,还有实战时的模拟对局可以实时进化,已经把现有方法发挥到了极限,是目前人工智能领域绝对的巅峰之作。

围棋是NP-hard问题,如果用一个原子来存储围棋可能的状态,把全宇宙的原子加起来都不够储存所有的状态。于是我们把这样的问题转换为寻找一个函数P,当状态为S时,计算最优的落子方案a = P(s)。我们看到,无论是“狂拽酷炫”的深度学习,还是“大智若愚”的MCTS,都是对P(s)的越来越精确的估计,但即使引入了“左右互搏”来强化学习,黄士杰和团队仍然做了大量的细节工作。所以只有一步一个脚印,面对挑战不断拆解,用耐心与细心,还有辛勤的汗水,才能取得一点又一点的进步,而这些进步积累在一起,终于让计算机达到并超过了人类职业选手的水平。

alphago zero 有多强

AlphaGo Zero是谷歌下属公司Deepmind的新版程序。
从空白状态学起,在无任何人类输入的条件下,AlphaGo Zero能够迅速自学围棋,并以100:0的战绩击败“前辈”。
2017年10月19日凌晨,在国际学术期刊《自然》(Nature)上发表的一篇研究论文中,谷歌下属公司Deepmind报告新版程序AlphaGo Zero:从空白状态学起,在无任何人类输入的条件下,它能够迅速自学围棋,并以100:0的战绩击败“前辈”。Deepmind的论文一发表,TPU的销量就可能要大增了。其100:0战绩有“造”真嫌疑。

鼎盛时期的吴清源会有希望战胜AlphaGo吗

鼎盛时期的吴清源能够有希望战胜AlphaGo?这是一个有趣的话题。但是细细揣度问题的本身,并不能简单地以一概之,还是有很多值得探讨的地方。

AlphaGo不用过多介绍,这款由谷歌(Google)旗下的DeepMind公司、哈萨比斯领衔的团队开发的人工智能程序,甫一问世,就震惊棋界,搅得周天寒彻。

在2016年4月和2017年5月的两次人机大战,都以绝对的优势战胜中韩两国的佼佼者:第一次人机大战4-1大胜韩国李世石九段,第二次更是以3-0横扫中国的柯洁九段,并令当时天下第一的柯洁泪洒赛场,令人难忘。

吴清源十番棋对阵木谷实

再说说围棋大师吴清源九段,他精湛的棋力和传奇的人生自不必说,只述其巅峰时期的棋力。现在来看,吴清源鼎盛时期大约起始于在1939年于木谷实展开镰仓十番棋,到1955年对高川格十番棋结束大获全胜的十番棋生涯,再到1957年后,又获得日本第一、三期最强决定战第一名。再这个时间段里,代表了吴清源最精湛的实力和最卓越的成就。

这近二十年间,吴大师在十番棋擂台击败了同时代所有超一流棋手,令当时日本棋坛所有顶尖人物全部降级,创造了围棋界的“吴清源时代”,被誉为“昭和棋圣”。

按照以往的经验和常理推断,人类的棋力曲线,是以巅峰期为中心轴,呈两边递减的分布;可是,这相比于人工智能呢?人工智能的发展是随着科技进步,投入的研究成本而不断提高的,其棋力变化曲线一定是向前增长的,这是我们值得注意的事情。

AlphaGo Zero进步曲线

那么,要比较巅峰时期的吴清源大师与AlphaGo的高下,首先前者的水平已经确定,而后者的水平则是一个模糊的概念,它的水平每天都不一样,到底是哪个时刻的AlphaGo呢?

简单来说,就是2016年4月,与李世石的首次人机大战的AlphaGo,和一年之后,在中国乌镇与柯洁展开三番大战的AlphaGo都不是一回事,不可等量齐观。前者与李世石交手的对手,我们在这里简称为AlphaGo Lee,后者与柯洁对战的AlphaGo称为AlphaGo Master,据DeepMind公司给出的检测报告称,后者要比前者强三子之多。

柯洁微博惊叹新版AlphaGo实力强大

“三子”是什么概念,拿七冠王柯洁的微博原话讲,就是“早就听说新版alphago的强大....但...让...让三个?我的天,这个差距有多大呢?简单的解释一下就是一人一手轮流下的围棋,对手连续让你下三步...又像武林高手对决让你先捅三刀一样...我到底是在和一个怎样可怕的对手下棋...”。

那次的三番棋对决,柯洁相比于李世石前辈,从头到脚没有全无胜机,而第二局开局前几十手胜率持平,都被哈萨比斯团队发推文称为“了不起”,想想其实力有多可怕呢?以至于赛后的柯洁唯有苦笑,并表示AlphaGo已从类似人类的高手变成围棋上帝,这时候的AlphaGo Maste有多强呢?如鱼饮水、冷暖自知。

所以,要比较鼎盛时期的吴清源与AlphaGo,必须先界定到底是哪个时期的AlphaGo。

如果是后者,甚至是再后来强势镇压AlphaGo Master的AlphaGo Zero,那么恐怕荡尽古今中外所有的围棋强手,可以说绝对没有一人能与之匹敌。

而前者,李世石能得一胜,估计柯洁这样的顶尖棋士,如果发挥良好的话,能得到一胜也绝非难事,

那么,如果是巅峰时期吴大师,与和人类顶尖高出一点点水平的AlphaGo Lee对战的话,围棋观念虽然差了最少半百之年,但也会有一定的胜机可能。而从AlphaGo Master到以后的版本来看,就绝无取胜可能了。

围棋圈个人拙见,权且抛转,引诸位玉论。