马三三解密

未解之谜与世界之最

首页 > 世界之最 > 人类之最 > AlphaGo(阿尔法狗)之父:为什么围棋是人工智能难解之谜?

AlphaGo(阿尔法狗)之父:为什么围棋是人工智能难解之谜?

时间:2019-01-26 10:07:19 作者:迷迷 来源:马三三解密 手机阅读

我会有一个双赢的心态和一个死亡的信念。我必须打败阿尔法!在5月23日至27日的AI程序AlphaGo(AlphaDog)的游戏中,目前排名世界第一的Ko.大胆地声明。然而,AlphaGo的父亲说,我们没有发明Alpha狗来赢得Go游戏。  

阿尔法戈之父德米斯·哈萨比斯最近在英国剑桥大学发表了题为超越人类认知极限的演讲,去年,阿尔法狗赢得了韩国职业棋手九段李世石。阿尔法狗为什么会成为人工智能的奥秘  

JamesHasabis,DeepMind的创始人,AlphaGo的父亲,4岁开始下棋。8岁在棋盘上的成功促使他思考至今困扰他的两个问题:第一,人脑如何学习执行复杂的任务第二,计算机能做到这一点吗17岁的时候,哈萨比斯负责开发1994年发布的经典模拟游戏ThemePark。他随后从剑桥大学获得计算机科学学位,并于2005年进入伦敦大学学院攻读神经科学博士学位,希望能够理解。d真实大脑是如何工作的,从而促进人工智能的发展。2014年,他创立了DeepMind,公司的产品AlphaDog,在2016年围棋冠军李世世时出名。  

在今天的演讲中,哈萨比斯揭示了韩国象棋选手李世世石去年输给阿尔法狗的致命原因。他最后提到了阿尔法狗即将面对的中国象棋选手KoJie。他说KoJie也在网上与阿尔法狗比赛。比赛结束后,高洁说人类已经研究围棋几千年了。但是人工智能告诉我们,我们甚至还没有发现围棋的皮肤。科吉提到围棋的真理,我们在这里谈论的是科学的真相。  

blob.png

我们听了AlphaGo的父亲在剑桥大学的45分钟演讲。里面全是干货。请不要遗漏任何细节:  

非常感谢你今天来到这里。今天,我要谈谈AI和DeepMind在不久的将来所做的事情。我把这篇报道命名为超出人类认知的极限。我希望在报告结束时,每个人都能清楚地理解我想表达的想法。  

对于那些不了解DeepMind的人,让我给你们简单介绍一下。2010年我们在伦敦创立了DeepMind,2014年被收购,希望加快人工智能技术的步伐。我们的任务是什么我们的第一项任务是解决人工智能问题,一旦这个问题解决了,任何理论上的问题都能解决。这是我们的两个主要任务。这听起来可能有点棘手,但我们真的相信,如果人工智能最基本的问题得到解决,那么没有问题会变得困难。  

那么我们如何实现这个目标呢DeepMind现在正试图建立世界上第一台通用学习机。一般来说,学习可以分为两类:一类是直接从输入和经验中学习,没有既定的程序或规则可遵循,系统需要从原始数据本身学习;另一类是通用学习系统,它指的是一种。算法可用于不同的任务和领域,甚至用于以前从未见过的新领域。您肯定会问,系统是如何做到这一点的  

事实上,人脑是一个非常明显的例子,这是可能的,关键是如何通过大量的数据资源找到最合适的解决方案和算法。在过去的40到50年里。  

深蓝是狭义人工智能的一个很好的例子,它在20世纪90年代末击败了国际象棋冠军加里·卡斯普洛夫。我们有更先进和配套的技术。  

你可能想知道机器是如何服从人类命令的,而不是机器或算法本身,而是一组聪明的程序员的智慧。他们和每一位国际象棋大师交谈,学习他们的经验,把它转换成代码和规则,并组成最强大的国际象棋大师团队。stem仅限于国际象棋,不能用于其他游戏。对于新游戏,您需要重新开始编程。在某种程度上,这些技术还不完善,不是完全人工智能的传统意义上的,它缺少通用性和学习性。他的问题在于加强学习。在这里,我将解释强化学习,我相信很多人都知道。  

首先,想象一下人工智能领域中存在着一个主体。我们把我们的人工智能系统称为主体。它需要了解它的环境,并试图找出它想要达到的目标。这里的环境可以指真实事件,无论是机器人还是虚拟世界,例如游戏环境;主体通过两种方式与周围环境接触;它首先熟悉e环境通过观察,我们可以通过视觉、听觉、触觉等初步开发出多感官系统。  

第二项任务是在此基础上建模和寻找最佳选择。这可能涉及对未来的预测、想象和假设检验。本课题经常在真实的环境中,当时间节点到达时,系统需要输出当前找到的最佳解决方案。矿石或更少的矿石改变了环境,从而进一步推动了观察结果并反馈给受试者。  

简单地说,这是强化学习的原则。虽然草图很简单,但是涉及到极其复杂的算法和原理。如果我们能解决大多数问题,我们就能构建通用人工智能。这是因为两个主要原因:第一,从数学的角度看,我的伙伴,一个医生,构建了一个名为AI-X的系统。我。利用该模型,他证明了在无限的计算机硬件条件和时间的情况下,要构建一个通用的人工智能,所需要的信息。此外,从动物和人的角度来看,人脑是受多巴胺控制的,它是在实施增强学习行为的。因此,无论是从数学还是生物学的角度来看,强化学习是解决人工智能问题的有效工具。  

接下来,我想关注我们最新的技术,Alpha狗,它是去年诞生的。我希望大家都知道这个游戏,并尝试发挥它。这是个很好的游戏。围棋用方形棋盘和黑白二色圆棋子来玩游戏。棋盘上有19条直线,棋盘分成361个十字路口。棋盘在交叉点移动,两边交替下棋,围棋多数获胜。围棋规则并不太复杂。我可以在五分钟内教他们。这张图片显示游戏结束了,整个棋盘基本上都装满了棋盘,然后计算由你的棋盘围成的空间和对手的棋盘围成的空间。谁拥有大的空间谁就赢。在这张图片中同样具有竞争力的游戏中,白棋接近赢。  

事实上,很难理解游戏的最终目标,因为它没有象棋那样直接明确的目标。在围棋中,它是完全直观的,甚至对于初学者来说如何决定比赛的结局也是非常困难的。围棋是一个历史悠久的游戏。它有3000多年的历史了。它起源于中国。在亚洲,围棋具有深远的文化意义。孔子还指出,围棋是每个真正的学者应该掌握的四项技能之一(钢琴、象棋、书法、绘画),所以围棋在亚洲是一门艺术,专家可以演奏。  

今天,游戏更受欢迎,有4000万人玩GO和2000多名顶级专家。如果你在4-5岁展现围棋的才能,这些孩子将被选入专门的围棋学校,在那里,学生从6岁开始每天花12小时学习围棋,每周7天。每天。你不能离开学校,直到你成为这方面的专家。TS基本上把全部精力投入到学习和掌握这项技能。我认为GO可能是最优雅的游戏。  

正如我所说,游戏只有两个非常简单的规则,但它的复杂性是难以想象的。有10170种可能性。这个数字在整个游戏中超过1080个原子。没有办法用尽围棋的所有可能结果。我们需要更聪明的方法。你可能会问,为什么电脑玩围棋这么难。1997年,IBM的深蓝(深蓝)击败了当时的国际象棋世界冠军加里·卡斯帕罗夫。围棋在人工智能领域一直是个谜。我们能否制定一个算法来与世界围棋冠军竞争要做到这一点,有两个主要挑战:  

首先,搜索空间很大(分支因子为200)。一个好的例子是,在围棋中,每个棋子平均有200个可能的位置,而象棋只有20个。围棋的分支因子比象棋的分支因子大得多。  

2。比这更困难的是,几乎没有任何合适的评价函数来定义谁赢以及赢多少;这个评价函数对系统至关重要。对于国际象棋,编写评价函数非常简单,因为国际象棋不仅是一个相对简单的游戏,而且是一个实体。通过计算两边的棋子数,很容易得出结论。你也可以用其他指标来评价国际象棋,比如棋子的移动性。  

所有这些在围棋中都是不可能的,不是所有的部分都是一样的,即使是很小的一部分变化,也会完全改变模式,所以每一小块棋子都对游戏有着至关重要的影响。比赛开始时,所有的棋子都在棋盘上。随着游戏的进行,棋子被对方吃掉,棋子数量不断减少,游戏变得越来越简单。相反,围棋是一个有建设性的游戏。起初,棋盘是空的。慢慢地,玩家填满棋盘。  

因此,如果你准备判断中场、国际象棋的现状,你只需要看看当前的棋盘就可以告诉你大局;在围棋中,你必须评估未来可能发生的事情来评估现状,所以围棋要困难得多。也有很多人尝试应用深蓝色的技术去,但结果并不理想。即使是职业球员也不能赢,更不用说世界冠军了。  

所以你必须问,即使电脑很难操作,人类是如何解决这个问题的事实上,人类依靠直觉,围棋是一种依靠直觉而非计算的游戏。所以,如果你问一个象棋选手为什么要进行这一步,他会告诉你在这一步之后他能达到什么目的,下一步做什么,下一步做什么。有时不尽如人意,但至少有球员的理由。  

但是GO是不同的。如果你问一位世界级的大师为什么要采取这一步骤,他们通常会回答你的直觉并告诉他这么做。这是真的。我们期望通过加强学习来改进人工神经网络的算法,来解决这个问题。我们试图通过深层神经网络来模拟人的直觉行为。在这里,我们需要训练两个神经网络,一个是决策网络。我们有数以百万计的业余围棋游戏在互联网上。通过监督学习,我们让阿尔法狗模仿人类在围棋中的行为。我们随意地从棋盘中选择。一个下拉点,训练系统预测下一个人的决定;系统的输入在那个特定位置最可能移动的前五或十个位置;所以你只需要查看五或十个可能性,而不是分析所有的可能性。200种可能性。  

一旦有了这些信息,我们就对系统进行数百万次训练,通过错误增强学习,并使系统认识到下次发生类似情况时,它更有可能做出类似决策。我们不会选择这种走路方式。我们建立了自己的游戏数据库,通过几百万次游戏训练了系统,得到了第二种神经网络。选择不同的落点,通过置信区间学习,选择可以获胜的情况,概率在0-1,0之间。不可能赢,1是100%胜。  

将这两种神经网络(决策网络和数值网络)结合起来,可以粗略地预测当前的情况,这两种神经网络树通过蒙特卡罗算法可以解决这一无法解决的问题。欧洲冠军联赛。结果是阿尔法狗赢了。这是我们的第一次突破,这些算法发表在《自然科学》杂志上。  

接下来,我们在韩国设立了100万美元的奖金,在2016年3月,我们与世界围棋冠军李世世世竞争。李世世世先生是围棋的传奇人物。在过去的10年里,他被认为是围棋界的顶尖专家。当我们面对他的时候,我们发现他有很多创新的打法。有时阿尔法犬很难控制。在比赛开始之前,世界上的每个人(包括他自己)都认为他会轻松赢得五场比赛,但实际结果是我们的阿尔法犬以4-1获胜。对于工业人员来说,这是前所未有的。  

对我们来说,这也是一生中难得的一次意外。这场比赛吸引了全球28亿多人和35000多份报告。韩国花了整整一周的时间关注这个话题。这是一件美妙的事情。对我们来说,赢得比赛的不是阿尔法犬,而是它的能力。站起来分析他是如何获胜的,这个系统是如何创新的。阿尔法狗不只是模仿其他的人类玩家,他们还在不断创新。例如,这是第二局的情况,步骤37,这是我在整个游戏中最喜欢的步骤。这里,黑棋代表阿尔法狗。他把棋子放在照片中的三角形位置,为什么这么重要为什么我们都震惊了  

事实上,围棋有两条关键的分界线,第三条线在右边。如果你在第三条线上移动棋子,就意味着你将占据棋子右边的区域。如果你掉在第四条线上,就意味着你想移动到棋盘的中间。很有可能,你将来会占据董事会的其他部分,这可能和你在第三条线上得到的是一样的。  

所以在过去的3000年里,人们认为落在第三行和第四行同样重要。但是在这个游戏中,你可以看到,在第37步,阿尔法狗落在第五行,进入国际象棋的中间。线更靠近中央区域。这可能意味着,几千年来,人们低估了象棋中央区域的重要性。  

有趣的是,围棋是一门艺术,一门客观的艺术。坐在这里的每个人都可能因为心情而有成百上千的新想法,但这并不意味着每个想法都是好的。阿尔法是客观的,他的目标是赢得比赛。  

你可以看到,在当前的国际象棋游戏中,左下角的两个三角形棋子似乎遇到了麻烦。15步后,两块棋子的力量传到了国际象棋的中心,继续传到棋盘右侧,在这里精确地完成了第37步,并成为获胜的决定性因素。阿尔法狗在这一步非常具有创新性。我自己也是一名业余国际象棋手。让我们来看看世界级的专家迈克尔·雷德蒙对这个步骤的评论。迈克尔,一个九级选手(围棋的最高部分),就像是功夫的黑色部分。他说:这是一个非常令人震惊的步骤,就像一个错误的决定。在实际的模拟中,Michael首先把碎片放到另一个地方,而且从来没有想到Alpha会采取这个步骤。这样的创新,在这次比赛中,有很多阿尔法狗。这里,我特别感谢李时时先生。事实上,当我们赢了前三场比赛时,他下台了。  

这是三场非常困难的比赛,尤其是第一场。因为我们需要不断地训练我们的算法,所以阿尔法狗在之前赢得了欧洲锦标赛,在这次比赛之后,我们知道了欧洲锦标赛和世界锦标赛的区别。改进了。但是当你训练系统时,我们不知道有多少是过拟合的,所以在第一场比赛结束之前,系统不知道它自己的统计数据。所以,实际上,在第一场比赛中,我们很紧张,因为如果我们输掉了第一场比赛,我们的算法很可能有一个巨大的循环。出错,可能连输五场比赛。但是如果我们赢了第一场比赛,这就证明我们的加权系统是正确的。  

然而,李世石先生在第4场比赛中回来了。也许压力减轻了很多。他做了一个非常创新的步骤。我认为这是历史上一个创新的举动。这一步让阿尔法狗感到困惑,并误估了他的决策树。一些中国专家甚至称之为黄金之举。通过这个例子,我们可以看出围棋中包含了多少哲学。这些顶尖专家们倾尽全力去寻找这样一个黄金之举。事实上,在这个步骤中,阿尔法·道格知道这是一个非常不寻常的步骤。他估计李世石赢得这一步的机会是0.007%。阿尔法狗以前从未见过这样的方式。在这两分钟里,他需要重新搜索决策计算。我刚才提到了这个游戏的影响:28亿人观看它,媒体报道了35000篇相关文章,Go在西方网上销售已经被抢购,我听说麻省理工学院(麻省理工学院)Gy)和许多其他大学,很多人加入了GO俱乐部。  

我刚才谈的是直觉和创新。直觉是一种隐含的表达方式。它是一种基于人类经验和本能的思维方式。不需要精确的计算。这个决策的准确性可以通过行为来判断。在Go中,它非常简单。我们将棋子的位置输入系统,以评估其重要性。阿尔法狗正在模拟人类的直觉行为。我认为,创新是在现有知识和经验的基础上产生原始和创新的观点。阿尔法狗清楚地展示了这两种能力。S.  

所以我们今天的主题是超越人类认知的极限。下一步该怎么办自去年3月以来,我们一直在改进和完善阿尔法犬。你肯定会问,既然我们是世界冠军,还有什么可以改进的呢事实上,我们不认为Alpha狗是完美的,我们需要做更多的研究。  

首先,我们要继续学习李世石在第四局提到的比赛,以填补知识空白。解决了这一问题,我们建立了一个不同于主系统的新的Alpha狗子系统,用于混淆主系统,并对系统的行为进行了优化。我们过去至少花了三个月训练这个系统,但现在只需要一个星期。  

其次,我们需要理解阿尔法狗所做的决定并解释它们;为什么阿尔法狗这样做,它们是否符合人类的思维等等;通过比较人类大脑对不同下落位置的反应以及阿尔法狗对国际象棋位置的反应,我们希望找到一些知识;主要是为了让系统更专业。我们在互联网上与世界顶尖的专家竞争。起初,我们使用了一个笔名(Master),在连胜之后,它被猜测为阿尔法犬。到目前为止,我们已经赢了60名大师。如果你做一个简单的贝叶斯分析,你会发现阿尔法犬在赢得不同的对手时有不同的困难。此外,阿尔法犬也在不断创新,比如右下角的棋子(圆圈),它落在第二行。过去,我们并不认为这是一个有效的位置。事实上,韩国一些球队已经预订了这些比赛来研究新的含义和信息。  

KoJie不仅是中国围棋冠军,也是本届世界围棋冠军。他只有19岁,他还与阿尔法狗在互联网上竞争。游戏结束后,他说人类已经研究围棋几千年了,但是人工智能告诉我们,我们甚至还没有发现它的外表。他还说,人类和人工智能的结合将开创一个新时代,并发现围棋的本质。Ego的真相,我们在这里谈论科学的真相。  

那么,新的GO时代真的来临了吗这样的划时代的事件在GO的历史上曾发生过两次。第一次发生在日本大约1600。20世纪三、四十年代,日本棋坛的杰出棋手吴庆元提出了围棋的新理论,将围棋推向了一个新的高度。  

我想解释一下为什么人工智能对围棋的贡献远大于对象棋的贡献。如果我们看看今天的世界象棋冠军曼努·斯卡森,他实际上和以前的世界冠军没什么不同,他们非常优秀,非常聪明。但是为什么人工智能能超越人类呢我认为原因在于国际象棋更注重战术,而阿尔法狗更注重策略。今天,世界顶尖的象棋项目将不再犯技术错误,但在人类中,不可能不犯错误。  

第二,国际象棋拥有庞大的数据库。如果棋盘上少于九个棋子,我们可以通过数学算法来计算谁赢谁输。计算机可以通过几千个迭代算法来计算。因此,当棋盘上少于九个棋子时,人类就无路可走了。国际象棋。  

结果,国际象棋的算法几乎是完美的,而且没有办法改进。然而,围棋中的阿尔法狗在不断地创造新想法,这些新想法,当面对真正的人时,顶级玩家也可以考虑它们,并且不断地改进自己。  

正如欧洲围棋冠军范迪(第一个与阿尔法狗比赛的专业象棋选手)所说,在对抗阿尔法狗的过程中,机器人不断创新,但也让人类不断跳出自己的思维局限,不断完善自己。我知道,经过在职业围棋学校30多年的培训,他们的许多思想已经凝固,机器人的创新思想可以带给他们意想不到的灵感。我真的相信,如果人类和机器人结合在一起,他们可以创造出许多令人惊奇的东西。真正的潜力将真正释放。  

就像科学家用哈勃望远镜观察宇宙一样,围棋专家也可以用阿尔法狗探索未知的世界,探索围棋世界的奥秘。我们没有发明阿尔法狗来赢得围棋游戏。我们希望建立一个有效的平台来测试我们自己的人工智能算法。我们的最终目标是将这些算法应用于现实世界,为社会服务。  

当今世界面临的巨大挑战之一是信息量过大和系统复杂。我们怎样才能找到其中的规律和结构呢从疾病到气候,我们需要解决不同领域的问题。这些领域是如此复杂,甚至最聪明的人也不能解决这些问题。  

我认为人工智能是解决这些问题的潜在途径。在充满新技术的时代,人工智能必须在人类道德基准的范围内开发和利用。本来,技术是中性的,但是使用它的目的和范围很大。确定它的功能和性质,这必须是一种有益的技术。  

我自己的理想是通过我们自己的努力使人工智能科学家、人工智能助理和医学助理成为可能。通过这项技术,我们可以真正加快技术的更新和进步。  


相关文章

人类之最

热门文章

今日最新