大发体育-大发体育app

0615-671634401

在线客服| 微信关注
当前位置: 首页 > 企业新闻

大发体育|德扑AI之父托马斯·桑德霍姆:扑克AI如何完虐人类,和AlphaGo大不同


大发体育app|卡内基梅隆大学计算机科学教授、德国捕获AI之父托马斯桑德霍姆(Thomas Sandholm)表示:11月6日,在今天于JD.COM举行的JDD(JD Finance Global Data Explorer Conference)会议上,卡内基梅隆大学计算机科学教授、德国捕获AI之父托马斯桑德霍姆(Thomas Sandholm)发表公开演讲,描述了他们构建的人工智能冻结捕获大师天平(Libratus)背后的原理。而应对这种非极端的信息游戏AI也可以在经济生活中广泛应用。

演讲一开始,桑德霍姆就透露,天平动与著名的AlphaGo截然不同,后者是基于极端信息的游戏,前者被称为不完全信息游戏。“在没有极端信息的游戏中,我们的挑战不是告诉失败者和他的不道德,也不是说他的不道德的可能性。

大发体育

那么他们过去做过什么呢?我也不会说。”他说。之后他讲解了天平动的基本原理,包括抽象、子博弈理论问题求解器、自我提升模块,没有使用深度自学。桑德霍姆指出,人工智能不仅仅是机器学习,“机器学习是关于过去的,我们自己从过去的数据中学习,期望预测未来或者说我们需要在未来做更多有用的事情,而战略逻辑不会影响很多可能性,是一个关于未来发布的游戏”。

以下内容由(微信官方账号:)根据Sandholm的发言以速记方式整理,有部分删改不改变初衷。今天我就来说说超人类AI是怎么做战略分析和推理小说的。这里以扑克为例。

今天我们说的是信息量不是特别大的游戏,也就是说整个失落状态都不是机器人熟知的。这和游戏无关,但和谈判很像。非极端信息类游戏:扑克AI和AlphaGo差别很大。

我们告诉AlphaGo,这项技术可以作为所有的极限信息游戏。极限信息游戏有一个很好的属性,就是一个大的游戏可以分解成小的子游戏。

子游戏如何解决问题?通过其他子游戏的结论自学。比如我们看这场比赛,不用在意其他比赛或者其他棋步怎么输。只看这一步怎么做,需要教。

什么叫不是极端信息?它是通过一个消息和一个子游戏来教授的,不能作为另一个子游戏。那么没有极端信息的游戏比有极端信息的游戏更无能。

这些都是基于一个小领域的技术,不能搬到其他小领域,比如扑克。我们发明人的算法需要在这种没有极端信息的情况下自学。因为极端信息和非极端信息游戏性质不同,AlphaGo应用的技术不能应用于非极端扑克游戏,因为性质不同。

在没有极端信息的游戏中,我们的挑战不是告诉失败者和他的不道德,也不是谈论他不道德的可能性。那么他们过去做过什么呢?我也不会说。我和我的扑克游戏输了。我不告诉他我过去做过什么,他也不告诉我我过去做过什么。

比如我们人类面对的就是这一类比较好的,不告诉损失背后的所有人。所以我们想问的是,失去的行动对我有什么样的救赎,我如何通过失去的行动推断出背后的动机,我的行动对我的损失揭示了什么意图?有趣的是,我们不必分析这些行为的信号。这些信号让我们回头看看纳什方程。

纳什先生只给了博弈论一个定义,没有给我们一个结论。他用一些算法按照更广的定义来计算存在,寻求更好的算法。扑克有很多数学原理。

如果我们看看纳什先生的博士论文,先给我们看他的博弈论方程,这是在1993年。这里只有一个定义,类似于扑克。

之后,我们对扑克有了更多的科学家和更多的定义。AI彻底虐了人类赌徒,如果有更多更好的策略输掉扑克,大家也不会争论。

去年,我们对这种扑克进行了数百次研究。我会说太多。

我只说一些重点研究。首先,2004年和2005年的同学和我一起制定了这样一个关于可用抽取的算法,也就是说,你扔掉或者说你不会说出99%的游戏信息,但你仍然可以说出游戏规则。

然后我们现在说的无限发牌人德州扑克的扑克下注,就成了解决计算机领域问题的最好标杆,包括10到161次方的场景。到目前为止,我刚才说的无限庄家的卡牌游戏,被AI捕捉到了。我们来看看无限庄家这一单周的突破。

这是第二次决斗,因为之前有过人机对抗,当时AI输给了人类运动员。这一次,我们叫它再来处理,再来挑战。

我们的AI系统是一个冷冻抓高手的智能系统,它的输家是四个非常优秀的扑克玩家。我们一共见了12万次面,20天之内,庄家的赌资就高达20万美元,大家都有很强的输钱动机。在2017年的这场比赛中,我们给了这20万美元的奖金,而不是给每人20万,而是根据这四名运动员的表现按比例分配。而且我们的实验设计很激进,让人类设计整个游戏的范式。

我们为什么要这样做?让人类设计整个游戏的各种范式,让他们在最后问谁输谁赢的时候,因为是人类事先设计的,所以会产生各种争议和争论。那么,当整个人类下注的时候,更好的时候就不是人类不输的时候了。我们来看看比赛现场。

丹尼尔是我的朋友和同事。他们一个个分开。冰冻AI VS中国龙队说到大牛和AI的决斗,AI和楼上的四个扑克高手打起来了。例如,杰森同时看着两张桌子,他可能会在两张桌子之间来回切换。

在他左边的小屏幕上,他可以启动开关。最终,我们冰冻的主系统输了,打败了人类。同样的,我们用这个冷冻大师来对付中国赌客,中国龙队,还有六个中国赌客,他们都是国际扑克大师赛的赢家,这些都是顶级扑克玩家。

冻抓大师还是输了我们的赌神。冰冻AI的秘密:我无法深入自学。有些人不得不回答。

我们的冷冻主系统是什么原理?基本上我们用的是成熟精准的技术,没有深入的自学。所以上面有三个自由选择。第一个自由选择是很多游戏规则的输入,以及一些小游戏的抽象。

最后,还有一个算法来执行蓝图策略。那么,在我们的子博弈理论的问题求解器中,问题求解实际上是在博弈的过程中进行的。有一个自我完善模块,需要晚上对这些AI后台主机都做一个修改。

对于软件操作,我们匹兹堡超级计算机中心的这台电脑已经积累了1200万小时的游戏时间。因此,它有大量的输出信息。

如果拿AlphaGo和它比,AlphaGo用的是人类游戏史。我们没有做这件事,我们从头开始。看起来我们在镜子前摔跤,然后突然一起跳起来踢泰森。

我们是一样的,我们通过AlphaGo打造自己的游戏。抽象我们想到的第一个分析是新抽象的模块中使用的算法,它得到了一个相对较小的规则,然后我们就不会有一个平衡的简化过程。

然后新的回到我们原来的游戏,推出我们所谓的蓝图战略。然后是两个抽象,一个是胜利抽象,由算法定期计算。

我们是2016年做的,现在我们开发了一个平衡简化的算法来获取各种抽象,所以从第一款赌博游戏到我们的第二个赌轮,都可以在所有的赌轮中开发。第四个赌轮,我们用的是博弈论的问题求解器,有一个产品的抽象图,可以对客户有更好的解读。第三个月的抽象是指我们的扑克轮盘,除了人工智能之外还使用了,重新加入了一些大赌和小赌的概念。

所以我们可以有一个初始的初级算法,然后进行优化,但是不能继续扩展。因此,必须逐步扩大其第一次赌博。子博弈论问题求解器来到子博弈论问题求解器。

有五个新的部分。第一部分很可能会考虑到它目前丢失的一些内容,第二部分属于一些策略,你的子博弈理论。

这种计算方法很可能比这种蓝图策略更糟糕。那么,如果说输是现阶段的失误,我们可以再考虑这样的情况,再同时考虑失误频发的情况,但还是要保证你的胜利。所以可以说,这种类似的错误,在和真人比赛的时候经常会出现。还有就是博弈论的解题。

一开始,你解决这个问题,然后开始游戏。但是我们要先解决这里剩下的问题,也就是说我要用一个新的来做整个游戏。

每当我输了,退一步,我就再数一遍剩下的。此外,它还可以计算出你当时在庞加莱可以使用的步骤的实际步数,这些都在我们的抽象中,它可以比之前的最后一个赌轮更早开始,现在我们把它放在第三个赌轮中。如果在子博弈理论中没有对这张牌的抽象,我们这样做是因为我们期望以一种新的方式解决子博弈理论中的问题。

自我提升模块的最后一个模块,就是自我提升模块,它用几乎不同的方法来发展自己的提升。以前我们称之为均衡策略。

那么我平时都做些什么呢?也就是说,我们必须把一系列丢失的模块打包在一起进行研发。我真的觉得这是一个有风险的方法,特别是对于一些顶级玩家来说,因为顶级玩家是属于世界的这个领域的专家,他们是很容易发现漏洞的专家,所以在这个过程中更容易避免困难,然后我们就让输了的不道德建设告诉他我们自己策略的漏洞在哪里。

这样,在这台超级计算机上,算法就不会把这些加到我们不道德的抽象画上,然后我们就可以把它们加到我们的库中,我们就可以把一些理性的内容加到自己的主机上。超人类AI如何做战略分析和推理小说?下面说说我们实验室研究过的一些情况,以及如何解决问题,不是原来的信息内容。这是我们正在做的事情,所以我们之前在游戏里讲过的,它不会有一个不完整的信息,它必须有一个抽象的发现者,然后我们会告诉其中一个。

游戏中不会经常出现的问题的路径,然后我们有这个算法,可以扩展计算一些概率。如果你的模型如此接近我们的偏差,那么这个模块就不会扩展和改进。

我们是来玩扑克的,所以我们必须用它来启动游戏中的模拟,尽管规则并不那么精确。 所以在某种程度上,如果我们的模块和现实只有一个区别,我们可以改进我们的策略。

那就让它更适合真实情况。第二,就像我们之前说的,有可能事件中最糟糕的是均衡策略,这也是我们需要获得的最糟糕的理论。

从今年夏天开始,我们有了更多的算法。第三,我们可以在双方经常犯大错误或者很多错误的时候解决这些问题。虽然在传统意义上,我们有一些可以计算和简化的错误,但计算机中的一些技术可以得到更好的改进。

最后,我们在用或者说研发之间的这种对比,在游戏中,一定要找到对方的漏洞。然后通过这个非博弈理论,我开始考虑我会被对方怎么利用。所以如果你开始用博弈论,有人用这个博弈论或者博弈论是不安全的。

但现实中,未必如此。你可以利用别人,同时也可以保证自己不被利用,自己安全。这些技术,就像我之前提到的,在一定程度上是用来编程的。这些技术在你谈话的任何过程中都会用到。

不仅有一面,还有非原创信息。新技术的能力之所以让我们如此受鼓舞,是因为我们在这个战略机器里看到了很多类似科学知识的副本。

我指出,这种战略定价,或者说讲战略产品的人,也可以用它来进行一次优化。AI也可以应用于现实世界的“游戏”。现在,在AI中,我们不仅可以节省更好的人力,还可以比最差的人类更强,这给了我们更多的理由在实践中使用它。

有些人可能会在大多数现实中应用它,永远不会有极端的信息,即使它不被视为一个游戏,那么让我们想象一下,例如,在定价中使用它。如果对方的这个竞争对手的价格已经一样了,如果对方突然改变这个价格,你必须建立自己的价值优化,必须做出回应。

里面有一个实施模块。战略定价让你带动市场发展。同时,你可以事先考虑一下价格。从某种程度上来说,你的战略产品和人力群体优化也用在了财务上,比如战略结构或者说战略贸易继续实施等等。

以及自动保费。我们用眼镜来提高视力。为什么不能用AI来提升自己的战略逻辑?还有就是拍卖,如果有投机拍卖,如果没人告诉底价,可以用合理的奖吗?有一些不同的流媒体公司,如电影版权公司,可能想出售一些不同的视频流。

如何打造更好的视频流群,如何进行更好的谈判。大部分的应用都没有考虑到网络安全问题,如何防范操作系统的漏洞和问题,以及我在政治运动中会花多少钱,这些都是以我的竞争对手的支出来计算的。还有就是如何在自动驾驶车辆中获得更好的道路规则,或者当半自动驾驶员的车队由不同的公司运营时。

关于物理安全、生物环境适应或医疗的应用,有许多军事决策。我们已经有了多种需要制定的方案,比如针对患者人群制定更好的方案,从而防止一些疫苗的静脉注射和癌症的防水等。

当然,我们也有娱乐和培训技术应用。在很多新游戏中,不会同时出现社交游戏。 人工智能不仅仅是深度自学的最后一张幻灯片。

我想思考的是,人工智能不仅仅是深度自学,更是一些最重要的部分和领域。现在出现了一些新的技术和领域,我们称之为战略逻辑,是我们战略博弈论的一部分。同时,我们也有输的建模等等。这些也是必要的模型。

机器学习是关于过去的。我们自己从过去的数据中学习,期望预测未来或者说未来需要做更多有用的事情,而战略逻辑并不涉及很多可能性。

是为未来发布的游戏。我们已经做了一些实验,希望能得到更多的结果。谢谢你。

相关文章:AlphaGo之后的又一次突破:人工智能天平打败德州扑克顶级玩家Facebook田元东:德州扑克用什么算法打败人类AI?|分析洞见|就算输给AI,也不能说人类破坏了德州扑克的版权文章,还会允许你禁刊。以下是发布通知。

本文来源:大发体育-www.hitchhikerfab.com

客户案例Customer case
  • 大发体育app_《一出好戏》票房逼近12亿  本周五15部新片入市竞争激烈
  • 北京欢乐谷推出“致敬父亲 粽享欢乐”系列优惠活动【大发体育】
  • 【大发体育app】曼联拜仁密切关注巴黎主帅索帅科瓦奇帅位不稳
  • 攀岩爱好者打钉攀岩|大发体育
  • 【大发体育】不可思议的妈妈20171008期 应采儿支招郑希怡
  • 郑斯仁化身时尚型男 携手主持人现场“递帕传情”
  • 水原希子走秀露屁股蛋 日本网友大呼恶心-大发体育
  • 少女徐新思用歌声戳中花季痛点    新歌MV今日首播|大发体育
  • 大发体育app|光线5年投资10亿做动画《敖丙传》接棒《哪吒》
  • 《中国机长》李沁杀青晒大合影 张涵予袁泉亮相Angelababy出镜|大发体育app