“队长,我搞不懂以你这种高智商的学霸,为何这么喜欢德州扑克这种赌博游戏?”慕青峰用头在可达鸭抱枕上蹭来蹭去,感觉自己萌萌哒。
“你这是传说中的捧杀吗?”元一幽默道。
“我捧杀谁也不敢捧杀你啊,我对你的佩服都是五体投地的,没有半分掺假。”慕青峰拍了拍胸脯,打保票道。
“你知道纳什均衡吗?”
“我应该知道吗?如果应该的话,我赶紧学习一下。”
“你说话总是一惊一乍的,你不用查了,你查到的那个某乎答案,就是我写的。咱们先来看一下下面这个问题。”
枪手博弈
彼此痛恨的甲、乙、丙三个枪手准备决斗。甲枪法最好,十发八中;乙枪法次之,十发六中;丙枪法最差,十发四中。先提第一个问题:如果三人同时开枪,并且每人只发一枪;第一轮枪战后,谁活下来的机会大一些?
一般人认为甲的枪法好,活下来的可能性大一些。但合乎推理的结论是,枪法最糟糕的丙活下来的几率最大。
我们来分析一下各个枪手的策略。
枪手甲一定要对枪手乙先开枪。因为乙对甲的威胁要比丙对甲的威胁更大,甲应该首先干掉乙,这是甲的最佳策略。
同样的道理,枪手乙的最佳策略是第一枪瞄准甲。乙一旦将甲干掉,乙和丙进行对决,乙胜算的概率自然大很多。
枪手丙的最佳策略也是先对甲开枪。乙的枪法毕竟比甲差一些,丙先把甲干掉再与乙进行对决,丙的存活概率还是要高一些。
但是在第一轮枪战后,丙有可能面对甲,也可能面对乙,甚至同时面对甲与乙,除非第一轮中甲乙皆死。尽管第一轮结束后,丙极有可能获胜(即甲乙双亡),但是第二轮开始,丙就一定处于劣势,因为不论甲或乙,他们的命中率都比丙的命中率为高。
这就是枪手丙的悲哀。能力不行的丙玩些花样虽然能在第一轮枪战中暂时获胜。但是,如果甲乙在第一轮枪战中没有双亡的话,在第二轮枪战结束后,丙的存活的几率就一定比甲或乙为低。
这似乎说明,能力差的人在竞争中耍弄手腕能赢一时,但最终往往不能成事。
我们现在改变游戏规则,假定甲乙丙不是同时开枪,而是他们轮流开一枪。在这个例子中,我们发现丙的机会好于他的实力,丙不会被第一枪干掉,并且他可能极有机会在下一轮中先开枪。
先假定开枪的顺序是甲、乙、丙,甲一枪将乙干掉后(80%的几率),就轮到丙开枪,丙有40%的几率一枪将甲干掉。即使乙躲过甲的第一枪,轮到乙开枪,乙还是会瞄准枪法最好的甲开枪,即使乙这一枪干掉了甲,下一轮仍然是轮到丙开枪。无论是甲或者乙先开枪,丙都有在下一轮先开枪的优势。
如果是丙先开枪,情况又如何呢?
丙可以向甲先开枪,即使丙打不中甲,甲的最佳策略仍然是向乙开枪。但是,如果丙打中了甲,下一轮可就是乙开枪打丙了。因此,丙的最佳策略是胡乱开一枪,只要丙不打中甲或者乙,在下一轮射击中他就处于有利的形势。
我们通过这个例子,可以理解人们在博弈中能否获胜,不单纯取决于他们的实力,更重要的是取决于博弈方实力对比所形成的关系。
在上面的例子中,乙和丙实际上是一种联盟关系,先把甲干掉,他们的生存几率都上升了。我们现在来判断一下,乙和丙之中,谁更有可能背叛,谁更可能忠诚?
任何一个联盟的成员都会时刻权衡利弊,一旦背叛的好处大于忠诚的好处,联盟就会破裂。在乙和丙的联盟中,乙是最忠诚的。这不是因为乙本身具有更加忠诚的品质,而是利益关系使然。只要甲不死,乙的枪口就一定会瞄准甲。但丙就不是这样了,丙不瞄准甲而胡乱开一枪显然违背了联盟关系,丙这样做的结果,将使乙处于更危险的境地。
合作才能对抗强敌。只有乙丙合作,才能把甲先干掉。如果,乙丙不和,乙或丙单独对甲都不占优,必然被甲先后解决。
“队长,虽然我能听懂但确实有点复杂,能不能讲的简单一点。”
“那换石头剪刀布,总能明白了吧。”
假设玩家A和B在玩石头剪子布游戏,玩家A石头剪刀布概率分别为(1/2,1/4,1/4)。那么B玩家可以随意选择策略,比如(1/3,1/3,1/3),可以算一下玩家B获胜概率为:1/3x1/4+1/3x1/4+1/3x1/2=1/3,同样平局概率为1/3,获败同样为1/3。这样1局净胜0。
如果B玩家足够聪明,就会选择(1/4,1/4,1/2)这样的策略。此时玩家B获胜概率为:1/4x1/4+1/4x1/4+1/2x1/2=3/8,平局概率为:1/4x1/2+1/4x1/4+1/4x1/2=5/16,负局概率为:1/4x1/4+1/4x1/2+1/4x1/2=5/16。这样1局净胜1/16。
我们很容易知道这已经是玩家B的最优策略。
任何玩家都不能仅通过仅改变个人策略来改善他们的结果,也就是说,这样的策略组合达到了纳什均衡。但明显玩家A并不是最佳策略,他又该切换到(1/4,1/2,1/4)的策略,继而B调整策略,无限下去……
只有A、B均采用(1/3,1/3,1/3)时,双方无论怎样都无法再提升自己的收益,这才是一个稳定的纳什均衡点,这在经济学上便是制度的公平。
“这么说,我似乎就明白了。”
“其实德州扑克在数学上是一个典型的多人非合作不完全信息零和博弈问题。在我眼里,我只会算每个玩家有多『蠢』,以及对应这么『蠢』的玩家,最优策略是什么。德州扑克就是一个复杂了无数倍的剪刀石头布,我说的『蠢』没有贬义的意思,指的是类似于剪刀石头布中偏离(1/3,1/3,1/3)的程度。”
“你这么说,是想象的还是真实的呀?德州扑克怎么会是剪刀石头布呢?”
“看这条2019星年7月的《自然》杂志,题目叫作《人工智能在多人桌德州扑克比赛中战胜世界顶尖选手》。”
Pluribus人工智能扑克机器玩家击败了人类顶级职业扑克手,我们看一下更早的Libratus,它的成绩是以每100手14倍大盲(14bb/100)单挑完胜世界级人类玩家。
以下引自Libratus之父:
我们(科学家)在推算AI离打出一个博弈理论中的最优化策略还有多远。我们有很多方法来计算这一数值,但代价极其昂贵,所以到现在都还没实现。也许我们明年会开始尝试。如果非要我推测的话,我猜一个博弈理论中的最优化策略可以以15bb/100 战胜Libratus。这是我的粗略估计,范围应该在5~50bb/100。
“所以,我一直在不断地评估我的策略的有效性,针对当前这样一个环境及对手,怎样从数学期望上赢得最多,也就是最大程度利用你们的弱点,获取最大利益。不得不说,这让我很是痴迷。”元一呷了口石榴汁道。
“果然我们玩的不是一个游戏啊,那句话怎么说来着,有时候感觉人与人的差距,竟然比人和猴子还大。队长我们在你眼中,是不是就是一种会说人话的滑稽猴?”
“不会啦,数学远不是生活的全部,每个人有自己的独特意义与价值。你不是歌唱得挺好,还懂不少医学吗?”