在警察与小偷的博弈中,双方采取混合策略的目的是为了战胜对方,是一种对立者之间的斗智斗勇。实际上,即便在双方打算合作的时候,往往也会会出现混合策略博弈。
小汪和小花是大学校园里的一对恋人,有一次电话打到一半突然断了,两人该怎么办?假如小汪马上再给小花打电话,那么小花应该留在电话旁等待,好把自家电话的线路空出来。可是,假如这时小汪也在等待,那么他们的甜言蜜语就没有机会继续下去。
一方的最佳策略取决于另一方会采取什么行动。这里又有两个均衡,一个是小汪打电话而小花等在一边,另一个则是小花打电话而小汪等在一边。
这两个人需要进行一次沟通,以帮助他们确定彼此一致的策略,就应该选择哪一个均衡达成共识。一个解决方案是,原来打电话的一方再次打电话,而原来接电话的一方则等待电话铃响。这么做的好处是原来打电话的一方知道另一方的电话号码,反过来却未必如此。
另一种可能性是,假如一方可以免费打电话或者电话费用比另一方低廉,比如小汪的电话是包月的,而小花用的是计时收费电话,那么,解决方案是由前者负责第二次拨打电话。
但是在更多的情况下,双方并没有上面的约定或条件,那就只有依靠投硬币决定是不是应该拨打电话。这种随机行动的组合成为第三个均衡:假如我打算给你打电话,我有一半机会可以打通,还有一半机会发现电话占线,
因为这时你也在给我打电话;偎如我等你打电话,那么,我同样会有一半机会接到你的电话,还有一半机会接不到你的电话,因为你也在等我的电话。
在这些例子中,选择怎样的协定并不重要,只要大家同意遵守同一协定即可。不过,有些时候一个协定会比另一个协定好得多。但这并不表示更好的协定一定会被采纳。如果一个协定已经存在了很长时间,现在环境的变化使得另一个协定更可取,这时要想改革仍然并不容易。
对混合策略的传统解释是,局中人应用一种随机方法来决定所选择的策略。这种解释在理论与实践中均不能令人满意。约翰•查里斯•哈萨尼(John C.Harsanyi)对此提出了更确切的解释方法。
他认为,每一种真实的博弈形势都受到一些微小的随机波动因素影响。在标准的博弈模型中,这些影响表现为微小的独立连续随机变量,每个局中人的每一策略均对应一个。这些随机变量的具体数值仅为相关局中人所知,这种知识即成为私有信息;而联合分布则是博弈者的共有信息。哈萨尼把这称为“变动收益博弈”。
变动收益博弈适用于不完全信息博弈理论,各随机变量的数值影响着每一个博弈者的收益。在适当的技术条件下,变动收益博弈所形成的纯策略组合与对应无随机影响的标准博弈的混合策略组合恰好一致。实验证明,当随机变量趋于零时,变动收益博弈的纯策略均衡点转化为对应无随机影响的标准型博弈的混合策略均衡点。
变动收益博弈理论提供了对混合策略均衡点具有说服力的解释:局中人只是表面上以混合策略进行博弈,但实际上仍是在各种略为不同的博弈情形中以纯策略进行博弈。这种解释是一个具有重大意义的概念创新,是哈萨尼对博弈论莫定的一块基石。
举例来说,小汪接到小花的电话,说十分钟以后在校园见面,但是不巧,尚未说到见面地点小花的手机就没电了。任何一个地方,图书馆、餐厅、自习室或者小树林边,只要两个人来到同一地点就行,否则男孩就等着心情糟糕的女朋友训责吧。
这个典型的混合策略博弈有多个纳什均衡,那么该筛选出哪一个呢?
如果有一些均衡由于两人所共知而格外显眼,那么它是个答案:如果今天是他们定情两周年的日子,那就到女孩子答应他求爱的小树林吧;如果没有其他特殊情况,现在快到午饭的时候,餐厅就是不错的选择。