在每一个鼓励合作的方案里,通常都会包含某种惩罚作弊者的机制。
一个坦白且供出合作伙伴的囚徒可能遭到对方朋友的报复。若是知道外面会有什么报应等着自己,尽快逃脱牢狱之灾的前景也就不会显得那么诱人了。人人都知道,警察会威胁毒品贩子说如果不坦白就要释放他们。这种威胁的作用在于,一旦他们被释放,卖毒品给他们的人就会认定他们一定是招供了而加以报复。
在最初博弈之上增加惩罚机制的做法,其目的就是为了减少作弊的动机。在博弈的结构里还存在其他类型的惩罚。一般而言,这种机制生效的原因在于博弈反复进行,这一回合作弊所得将导致其他回合所失。
归纳起来,在一次性的博弈当中没有办法达成互惠合作。只有在一种持续的关系中才能够体现惩罚的力度,并因此成为督促合作的“木棒”。合作破裂自然就会付出代价,这一代价会以日后损失的形式出现。假如这个代价足够大,作弊就会受到遏制,合作就会继续。事实上,法国哲学家卢梭早就指出了这一点,他曾经有一本《社会契约论》,认为契约是整个人类社会存在的前提条件之一。
前面已经分析过,如果囚徒困境只是一次性的博弈,那么签订协议是毫无意义的,其纳什均衡点并不会改变。可以签订协议的一个最基本的条件,就是博弈需要重复若干次,至少大于一次。
重复博弈与一般性的动态博弈是不同的。多轮动态博弈中,参与者能够了解到博弈的每一步中其他参与者的在自己选择某种策略下的行动,而重复博弈的参与者无法了解到在任何一步中,其他参与者的策略选择。
在重复型的囚徒困境中,签订合作协议并不困难,困难的是协议对博弈各方是否具有很强的约束力。任何协议签订之后,博弈参与者都有作弊的动机,因为至少在作弊的这一轮博弈中,可以得到更大的收益。
霍布斯对合作协议的观点是:“不带剑的契约不过是一纸空文。它毫无力量去保障一个人的安全。”这就是说,没有权威的协议并不能导致民主,而是导致无政府状态。
囚徒困境扩展为多人博弈时,暴露了一个更广泛的问题——“社会悖论”,或“资源悖论”。人类共有的资源是有限的,当每个人都试图从有限的资源中多拿一点儿时,就产生了局部利益与整体利益的冲突。人口问题、资源危机、交通阻塞,都可以在社会悖论中得以解释。在这些问题中,关键是制定游戏规则来控制每个人的行为。
另外,学者爱克斯罗德所著的《合作的进化》一书暗含着一个重要的假定,即个体之间的博弈是完全无差异的。但对局者之间绝对的平等是不可能达到的,因而某些博弈对一方来说是典型的高成本、低回报:一方面,对局者在实际能力上存在不对称,双方互相背叛时,可能不是各得1分,而是强者得5分,弱者得0分,这样,弱者的报复就毫无意义;另一方面,即使对局双方确实旗鼓相当,但某一方可能怀有赌徒心理,认定自己更强大,采取背叛的策略能占便宜。爱克斯罗德的分析忽视了这种情形,而这种亊实或心理上的不平等恰恰在社会上引发了大量零和与负和博弈。
在这种情况下,应通过法制手段,以法律的惩罚代替个人之间的“一报还一报”,才能规范合作行为。事实上,从博弈论的角度看,法律就是通过第三方实施的行为规范,其功能是或者通过改变当事人的选择空间改变博弈的结果,或者不改变博弈本身而改变人们的信念或对他人的行为预期,从而改变博弈的结果。