大家好,关于博弈策略游戏很多朋友都还不太明白,不过没关系,因为今天小编就来为大家分享关于博弈策略游戏的知识点,相信应该可以解决大家的一些困惑和问题,如果碰巧可以解决您的问题,还望关注下本站哦,希望对各位有所帮助!
博弈论——策略式博弈1
策略式博弈:决策的艺术与力量
博弈论,这个智慧的领域揭示了决策过程中的交互与策略选择。它定义了这样一种情境:至少两位参与者,每个都有独立的决策选项,且每个选择都会影响自身的利益,这就是我们所说的博弈。博弈的核心三要素:参与人集、策略集与效用函数,如同游戏的三张牌,共同构建起策略式博弈的基石。
在策略式博弈中,最为人所熟知的是静态决策,如同石头剪刀布,每位参与者同步作出决定,同时获取收益。一个策略式博弈可以用三元组来描述:(参与人集, 策略集, 效用函数),每个元素都有其深意:参与人集是决策者的**,策略集是每个人可能采取的行动选项,而效用函数则衡量每个策略带来的满足度。通过这些元素,我们就能清晰地描绘出一个博弈的全貌。
在策略组合中,每个参与者的决策(策略)与其他人的策略相互作用,形成独特的效用结果。博弈理论中引入了理性人假设,即每个人都追求效用最大化。这不仅体现在著名的囚徒困境中,一个关于信任与背叛的决策难题,还是在猎鹿博弈、寡头市场(如Cournot Oligopoly)中的产量选择,甚至是拍卖中的竞标策略,如一级价格拍卖和二级价格拍卖,每个参与者都在效用函数的指引下寻找最佳策略。
对于参与人集和策略集离散且有限的博弈,我们可以借助博弈矩阵直观地展示,比如囚徒困境中的矩阵,每个单元格代表一个策略组合及其对应效用。而对于策略集和效用函数连续的博弈,如Cournot Oligopoly,虽然无法用矩阵表示,但仍清晰地定义了参与者的决策空间和利益追求。
博弈论并非抽象的理论游戏,它深入到生活中的各个角落,影响着商业竞争、公共政策乃至个人决策。理解策略式博弈,就是掌握在复杂互动中寻找最优策略的关键,它为我们揭示了如何在看似无序的决策中寻找规律,以及如何在竞争与合作之间找到平衡。
在策略式博弈的探索中,每一个例子都是一次对人性、理性与合作的洞察,它们教会我们如何在看似简单的游戏中洞察复杂,如何在看似冲突的选择中找到合作的可能。这就是博弈论的魅力,也是我们深入理解世界和自身决策能力的重要途径。
多智能体博弈(2):策略博弈与纳什均衡
本文已接近完成,后续将进行总结和实战案例分享。
在文章(1)中,我们通过斗地主游戏提炼出多智能体博弈的几个关键要素:状态、决策以及收益,并认识到在多智能体规划中,由于无法获得上帝视角,每个智能体只能通过与其他智能体交互来获取信息。
作为本系列第二篇文章,我们先从简单的策略型博弈(Strategic Game)入手,引入纳什均衡理论。后续文章将在此基础上逐步扩展到阶段型博弈、重复博弈,以及常用的POMDP、强化学习等求解算法。现在,让我们直接进入正题!
一、背景概述
我们小时候都玩过“剪刀石头布”游戏,两个人同时出招,胜负瞬间决出。这个游戏简单在于胜负判定迅速,留给智能体的只有出招和计算收益这两个环节。形式化地描述这个游戏模型,它包含以下几部分:
我们自然想知道:作为[公式]号智能体,如何作出决策[公式]以最大化自己的收益?这就是自私又理性的智能体,因为它只以自己的收益为标准,冷静地作出相对最好的决策。
难点在于,我们无法预知其他智能体的策略,如何确定自己的收益大小?更常见的情况是,当我们放完剪刀却发现对方是石头,往往会追悔莫及。所以关键在于其他智能体的策略未知,这种未知性使得我们难以规划出招。
二、纳什均衡
纳什均衡是在对其他智能体完全未知的前提下,使得局面最稳定的一种策略序列:即使我明牌和你打,你还是会出这招,不会反悔。虽然纳什均衡通常不是最优局面,而且对各怀异心的智能体来说,“最优”这一概念难以界定,但一旦进入纳什均衡,每个智能体都不会主动更改策略。
(一)概念与求解
为了明确引入纳什均衡的定义,先看这样一个问题背景:我们家只有一台电脑,我想用它斗地主,我老娘却想用它算账。我们俩同时做出决策,如果达成一致就这么干(达成目的者赚3,另一人无收益),出现分歧就吵一架(双方收益-1)。用表格形式呈现如下:
假设我提前知道老娘会选择算账,那我必须选择算账,才能避免吵架;类似地,如果老娘知道我要选择算账,她也不可能去选择打牌。换句话说,(算账,算账) 这个决策序列貌似卡住不动了,即使提前知道对方的动作,我和老娘都不会更改决策。同理,(打牌,打牌) 也是这样一个稳定点,它们都是所谓的纳什均衡。
用形式化语言描述“双方都懒得动弹”这一现象,可以写成如下秃头版本:
纳什均衡:设[公式]个智能体的某一决策序列为[公式],若对[公式],均有 [公式]
则决策序列[公式]是该策略型游戏的一个纳什均衡。
不失一般性,通常用[公式]代表除了[公式]号智能体外所有智能体的联合决策,这样决策序列又可写作[公式]。上面的公式完美对应了“懒得动弹”这一直觉:在[公式]确定的情况下,最优决策仍然是[公式]不需要动,这时所有智能体都没有修改决策的主动性。
学过计算数学的小伙伴可能一眼就看出来了,这长得和数值迭代的收敛点那么像!事实上,纳什均衡确实可以通过不断交替迭代达到收敛来求解,而在两个智能体即[公式]的特殊情形下,纳什均衡有一种远比这简单的求解办法。来看下面这个被玩烂的囚徒困境(prisoner"s dilemma)例子:
图中红框代表囚徒2的每种决策对应的囚徒1最优决策,比如左下角这个“4”是第一列囚徒1所能做出的最大决策。同理,每一行的蓝框都表示囚徒1的每种决策确定的情况下,囚徒2所能做出的最优决策。当某一格子同时被两种颜色框中,那么这个格子就肯定是纳什均衡点。这么一看,双人纳什均衡的求解是不是很简单,只需要知道决策-收益矩阵就能一下算出来!
(二)对博弈的数学理解
这一部分比较晦涩且不那么重要,小伙伴可自行略过。
在博弈论中,真正起作用的实际上是偏序结构,针对每一种状态定义各个玩家的偏序关系,也就是说玩家可以直接抽象为一种偏序。特殊地,当两个人的偏序完全对立(即P1的[公式]恰好对应P2的[公式])时,整个游戏甚至可以直接被抽象为单一偏序,两个人要做的就是分别求解极大元与极小元。这种特殊结构被称为完全竞争的二人博弈模型,当两者甚至连收益都正好对立时,即[公式]恒成立时,该模型就是我们熟知的零和博弈了。
当这种偏序结构对所有玩家均为全序时(就是任意两个决策之间都可比大小),自然而然会想到通过保序映射[公式],将决策序列映射到全序集[公式]上,这也就是收益函数[公式]的由来。既然这是全序结构,自然可以针对某一智能体定义最大元,即决策**[公式],此时“[公式]不更改决策”又可以翻译为[公式]。
从全局上考虑,若为所有智能体计算最大元的笛卡尔积[公式],它是一个从[公式]映射到自身的**函数,元素是各自使得每个[公式]不动弹的决策。此时纳什均衡直接就可以翻译成:[公式]是函数[公式]的一个不动点,即[公式]。既然涉及到不动点,数学上就有大把的理论可用,比如博弈论中常用的Kakutani不动点定理就指出,当决策集[公式]为紧凸集,且对任意[公式],**[公式]均为凸集,同时[公式]的图像对极限封闭时,这样的不动点(也就是纳什均衡)存在。
然而,这种偏序关系只能定义到单个智能体,在全局上非常难以定义全序。全局上常用的一种偏序为“逐位最优”,仅在所有智能体的收益均更大的情况下,一种策略才能“碾压”另一种策略,与之对应的极大元为帕累托最优。然而纳什均衡并不意味着帕累托最优,比如囚徒困境中的纳什均衡(1,1)就被(3,3)完全碾压了。这就是纳什均衡的局限性:如果每个人都特别自私,那在总体上就会导致非常“短视”。
三、一些拓展形式
(一)混合策略纳什均衡
之前讨论的博弈都建立在双方决策确定的情况下,又称为纯策略博弈。如果为决策过程强行引入随机成分,即在决策集[公式]上定义离散分布[公式],为选择决策[公式]分配概率[公式],就构成了混合策略博弈。这时的收益值就需要以期望的形式计算,即智能体[公式]的收益为[公式]。
这种定义方式有利有弊。好处在于,这种定义下任意有限决策集的博弈都会有纳什均衡,而很多博弈问题并没有纯策略纳什均衡(比如石头剪刀布,没赢的那方肯定会反悔);坏处在于,这里引入的概率还真是“强行引入”的。显然概率不为[公式]的决策之间必然等价,且同时为最优决策(否则,将某一次优决策的概率完全转移到最优决策,得到的收益显然会变大)。这就让概率变得很难以解释:反正选哪个都是最优,那需要概率有何用?
在知道支撑集(也就是哪些决策的概率不为0)的情况下,二人混合决策的纳什均衡还是比较好求解的。比如在上面的“算账-打牌”博弈中,如果已知我有可能会打牌也有可能选算账,那对我来说,我妈的选择要让我“打牌”和“算账”的收益恰好一样。设我妈选打牌的概率为[公式],显然选算账的概率就是[公式]。那我选打牌的收益就是[公式],选算账的收益就是[公式],令这两者相等,得到[公式]。这就表明,我妈的混合纳什均衡解就是“打牌0.2,算账0.8”,完全以此类推,可得我的混合纳什均衡解为“打牌0.8,算账0.2”。
(二)过度简化的阶段型博弈
阶段型博弈是下一章节的内容,说白了就是把决策过程分为几个阶段,每个阶段由对应的玩家作决策。阶段型博弈理论上是可以用策略博弈描述的,就是穷尽决策序列上所有的可能性,并为自己一次性制定万全方案。它能把每一条决策链都描述为一种状态,这就消除了博弈过程的阶段性,也就可以套用策略型博弈的纳什均衡理论了。
但我们一般不会这么做,原因有二:一是需要枚举的情况总数随阶段指数上涨,在稍微大一点的游戏里,决策**就已经大得离谱了,更别说围棋这种几百个回合、每个回合数百种策略的游戏了;二是这样得出来的纳什均衡不稳定,得到的决策链在敌方回合也只对应一种决策,一旦某一个回合敌方突然修改一下决策,那整个纳什均衡就得推翻重算。
综上,直接用策略型博弈套用在阶段型游戏上,属实是“过度简化”了。事实上,针对阶段型博弈,我们通常会计算子阶段完美的纳什均衡,它比这种简化版本更加稳定。具体内容详见“第三章:完全信息的阶段型博弈”。
(三)其它变种
四、高难度实战求解
五、总结
本文使用 Zhihu On VSCode 创作并发布
关于博弈策略游戏推荐的介绍到这里就结束了,不知道您是否从中找到了自己需要的信息呢?如果您还想了解更多相关信息,请不要忘记关注本网站。。
版权声明
本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。