汉代刘向的《新序》中有这样一个故事。春秋末期,晋国的执政者赵襄子喝酒,五日五夜没有停杯,仍然没有醉倒。赵襄子十分自豪地对侍候在身边的人说:“我真是国中最出色的人呀!喝酒五天仍不觉难受。国内应该没有人能够比得上我了。”弄臣优莫恭恭敬敬地回答说:“你还可以接着喝!纣王一连喝了七日七夜,现在您才是五日五夜。”赵襄子听了以后,有些紧张地放下酒杯问道:“如此说来,我要灭亡了吗?”优莫答道:“还不至于灭亡。”赵襄子问:“我跟纣王只差两天了,不灭亡还等什么?”优莫回答道:“夏桀和商纣的灭亡,是因为分别遇上了对手商汤和周武王,现在天下各国的君主全是夏桀一类的人物,而您和商纣王类似。夏桀和商纣同时存在一个时代,彼此都没有被消灭的危险。不过,长此以往,事情就难说了!”
其实不仅是昏君与明主之间,所有博弈参与者的策略都有相互依存的关系。每一个博弈者从博弈中所得结果的好坏不仅取决于自身的策略选择,同时也取决于其他参加者的策略选择。有时甚至一个坏的策略也会带来并不坏的结果,原因是对方选择了更坏的利他而不利己的策略。
2006年9月29日,年度“超级女声”大赛在掌声和欢呼声中谢幕,尚雯婕凭借5196975的票数登上冠军宝座。有人发出疑问:与2004年的冠军安又琪相比,她没有出众的外表;与2005年的冠军李宇春相比,她没有倾倒观众的舞台魅力;与2006年亚军谭维维相比,她没有“无可挑剔”的唱功。那她凭什么夺冠呢?
实际上,这个疑问本身就反映了疑问者对于博弈论的不了解。这个冠军本来就不是尚雯婕一个人得到的,而是在主办方湖南电视台和天娱传媒、参赛的女生们、电视观众、媒体、各女生的“粉丝”(fans)等方方面面共同博弈的结果。
每一次超级女声的比赛,电视上几个女生在台上比赛唱歌跳舞,而实际上真正的博弈在屏幕之外。以主办方来说,就不断根据观众的反应而修改策略,从开始的评委打分到专业评委、大众评审团、短信共同决定,再到最后完全靠短信决胜负,这种修改可以看做对形势发展的妥协,也可以解释为追求商业利益最大化的对策。有人认为整个过程中还出现了非合作博弈与合作博弈的可能:某些得分较低的女生的“粉丝”,联手对付得分高的选手;得分最髙的选手联合肯定无望出线的选手以巩固地位,防止次高选手反超。
这就是一种相互依存的博弈,而相互依存的策略就构成一种均衡。
均衡可以说是博弈论中最重要的思想之一,但是却并不复杂。我们可以用描述法来加以定义:在博弈达到均衡时,局中的每一个博弈者都不可能因为单方面改变自己的策略而增加收益,于是各方为了自己利益的最大化而选择了某种最优策略,并与其他对手达成了某种暂时的平衡。在外界环境没有变化的情况下,倘若有关各方坚持原有的利益最大化原则并理性面对现实,那么这种平衡状况就能够长期保持稳定。
在所有的均衡中,纳什均衡又是一个基础性的概念。简单地说,所谓纳什均衡就是所有人的选择综合在一块,不一定所有选择都能实现最大化原则,但能使所有人都达到最大化的均衡状态。诺贝尔经济学奖获得者萨缪尔森有<一句调侃的话:你可以将一只鹨鹉训练成经济学家,因为它所需要学习的只有两个词——供给与需求。博弈论专家坎多瑞引申说:要成为现代经济学家,这只鹦鹉必须再多学一个词,这个词就是“纳什均衡”。
在现实生活中,有相当多的博弈,我们无法使用严格优势策略均衡或重复剔除的优势策略均衡的方法找出均衡解。比如在房地产开发中,假定市场需求有限,只能满足某种规模的开发最,A、B两个开发商都想开发这一规模的房地产,而且,每个房地产商必须一次性开发这一规模的房地产才能获利。在这种情况下,无论是对开发商A还是对开发商B,都不存在一种策略优于另一种策略,也不存在严格劣策略(所谓严格劣策略是指在博弈中,不论其他人采取什么策略,某一参与人可能采取的策略中对自己严格不利的策略)。如果A选择开发,则B的最优策略是不开发;如果A选择不开发,则B的最优策略是开发。反之亦然。研究这类博弈的均衡解,需要引入纳什均衡。
在纳什均衡中,每个博弈参与人都确信,在给定其他参与人的策略的情况下,己方选择了最优策略以回应对手的策略。纳什均衡是完全信息静态博弈解的一般概念,构成纳什均衡的策略一定是重复剔除严格劣策略过程中不能被剔除的策略。
纳什均衡是著名博弈论专家纳什对博弈论的重要贡献之一。纳什在1951年的两篇重要论文中,从一般意义上给定了非合作博弈及其均衡解,并证明了解的存在性。正是纳什的这一贡献莫定了非合作博弈论的理论基础,他所定义的均衡也被称之为“纳什均衡”。
纳什均衡是一种最常见的均衡。在纳什均衡点上,每个参与者的策略是最好的,此时没有人愿意先改变或主动改变自己的策略。也就是说,此时如果他改变策略,他的收益将会降低,每一个理性的参与者都不会有单独改变策略的冲动。
与重复剔除的占优策略均衡一样,纳什均衡不仅要求所有的博弈参与人都是理性的,而且要求每个参与人都了解所有其他参与人也都是理性的。
在占优策略均衡中,不论所有其他参与人选择什么策略,一个参与人的占优策略都是他的最优策略。显然,这一策略一定是所有其他参与人选择某一特定策略时该参与人的占优策略。因此,占优策略均衡一定是纳什均衡。
在重复剔除的占优策略均衡中,最后剩下的唯一策略组合,一定是在重复剔除严格劣策略过程中无法被剔除的策略组合。因此,重复剔除的占优策略均衡也一定是纳什均衡。
需要注意的是,博弈的结果并不都能成为均衡。博弈的均衡是稳定的,因此可以预测。