中医治疗白癜风方法 http://baidianfeng.39.net/a_cjzz/131014/4271274.html来源:世界图书出版公司北京公司(ID:wpcbj)
本文共计字数,阅读约需要15-19分钟。
说起博弈论,很多人可能会想到荣获了年奥斯卡最佳影片、最佳导演等多项重量级奖项的影片《美丽心灵》(ABeautifulMind)。这部影片以现实世界的传奇与天才数学家约翰·纳什(JohnNash)为原型,讲述了患有精神分裂症的纳什在年轻时如何提出博弈论中最重要的奠基性概念——均衡(被后人称为“纳什均衡”),后长期与病魔做斗争,最终获得诺贝尔经济学奖的故事。(▲约翰·冯·诺伊曼(JohnvonNeumann))纳什虽然对博弈论做出了奠基性的贡献,但并非它的创立者。“博弈论之父”是20世纪最重要的数学家之一的约翰·冯·诺伊曼(JohnvonNeumann),他在各种不同领域都做出了巨大成就,也是“电子计算机之父”,他于年提出的电子计算机的体系结构(被后人称为“冯·诺伊曼架构”)仍用于目前我们生活中的每一台电脑中。“博弈”的字面意思是下棋,把GameTheory翻译成“博弈论”是一种在原义和引申义上都十分贴切的译法。在上世纪20年代,冯·诺依曼从数学角度研究了“二人零和博弈”。所谓二人零和博弈,就是在博弈中,只要一方赢了,另一方的结果就是输,对决双方的利益是相反的,象棋、国际象棋、围棋等都是典型的二人零和博弈。年冯·诺依曼发表了论文《棋盘游戏理论》,用到了拓扑学等高等数学的方法证明了在二人零和博弈总存在“最小最大解”(Minimaxsolution),即总能找到一种最佳策略,使得一个人的最小收益达到最大(也即最大损失达到最小)。我们用一个切蛋糕的例子来解释一下“最小最大解”,两个孩子分一个蛋糕,其中一个孩子负责把蛋糕切成两块,但另一个孩子可以先选要哪一块蛋糕,切蛋糕的孩子知道另一个孩子会选大的那块(也就是留给自己的肯定是小的那块),所以他会把较小的一块切得尽量大(这就是使自己的最小收益达到最大或者说最大损失达到最小),切蛋糕问题的最佳策略就是把蛋糕切成一样大的两块,两人各分得半个蛋糕。(▲克劳德·香农(ClaudeShannon))最小最大解是博弈论的第一个重要思想。“数字时代之父”、信息论创始人克劳德·香农(ClaudeShannon)进一步发明了Minimax算法并基于这一算法设计了国际象棋机器。(▲人工智能国际象棋“深蓝”)(▲人工智能围棋“阿尔法狗”)香农年发表的论文《编程计算机下棋》是人工智能领域的经典文献,其主要思路在后来战胜人类顶尖职业棋手的人工智能国际象棋“深蓝”和人工智能围棋“阿尔法狗”的算法中还能看到。Minimax思想的最新发展是将人工智能领域目前最火的人工神经网络深度学习技术与博弈论结合起来,形成“生成对抗网络”。通过让两个深度神经网络以相互博弈的方式进行机器学习,这种技术可以自动生成文本、图像、视频、语音等多媒体数据。“生成对抗网络”由一个生成器和一个判别器组成,其中的生成器总是想生成判别器无法区分真伪的数据,而判别器总是想区分出数据到底是真还是假的,两者始终互相对抗博弈,最后就能生成以假乱真的数据来。上面这些极其逼真但又千变万化的人脸,就是用“生成对抗网络”自动生产的,其实它们并不是世界上真实存在的人脸。生成器通过不断产生假照片输入名人相片数据库,然后由判别器鉴定,生成器再进行改进,直到最后生成的这组照片成功骗过了机器的“眼睛”,判别器无法判断它们的真假,于是就有了上面这一堆实际上不存在、但又似曾相识的“名人”。利用“生成对抗网络”技术还能将把一张图像的特征转移到另一张图像上,比如可以将一张狗狗的照片瞬间变成梵高星空风格的画作。利用这一技术,一幅画作现在可以随意变换风格了,比如达芬奇的《蒙娜丽莎》可以随心所欲地变成毕加索的立体主义画风、梵高的表现主义画风,亦或是莫奈的印象主义画风。画风的学习也是通过博弈来完成。比如要学习梵高的画风,想象有一个画家和一个鉴赏家。画家先画了一幅梵高的模仿作品交给鉴赏家,鉴赏家看了之后的反馈可能是色调不是很接近梵高作品的感觉,画家获得反馈后改进了画作,鉴赏家看了后可能又觉得笔触太细了,画家根据反馈再次改进,这种循环不断进行,每一次循环后画家模仿的水平就变得更高,直到足够次数的改进后,画家模仿出的画与梵高的真迹再也无法区分出来。不仅仅只会模仿,“生成对抗网络”学成“左右互搏”之术后甚至开始自创武功,上图是一些“生成对抗网络”自己创作的艺术作品。去年10月,世界著名艺术品拍卖行佳士得在纽约洛克菲勒中心举行了为期三天的艺术品拍卖会,会上有包括20多幅毕加索作品的件艺术画作竞拍,最后一幅由“生成对抗网络”技术创作的肖像画《埃德蒙·贝拉米画像》(左上图)拍出43.2万美元的高价,折合人民币约万元,超过了同场所有的毕加索作品,像毕加索的版画《女人头像》(右上图)只拍得十余万美元。值得注意的是这幅《埃德蒙·贝拉米画像》的右下角落款处写的是一个数学公式,这个数学公式代表的就是“生成对抗网络”中核心的Minimax博弈思想。博弈论真正成为显学最大的用武之地是在经济学。年,在经济学家奥斯卡·摩根斯特恩(OskarMorgenstern)的协助下,冯·诺依曼的经典名著《博弈论和经济行为》出版了,这是一部数理经济学的奠基性著作。书中将二人博弈进一步推广到多人博弈结构并将博弈论系统地应用于经济领域。冯·诺依曼和摩根斯坦恩当时都在普林斯顿任教,普林斯顿很快成为了博弈论研究的世界中心,这也是为什么年纳什选择到普林斯顿大学读博士,在苦苦思索了多年后,纳什建立了全新的博弈论概念:均衡(Equilibrium)。我们用著名的“囚徒困境”的例子来解释下什么是均衡。警察逮捕了A、B两名嫌疑犯,警察向两人提供了相同的选择:若一人认罪并作证检举对方,而对方保持沉默,此人立即获释,不主动认罪的另一方将判监20年;若二人都保持沉默,则二人都判监1年;若二人都互相检举对方,则二人都判监5年。从双方共同利益角度来看,两人均保持沉默是最好的选择。但两人提前不能互相交流,并不能保证对方不会检举自己,这就陷入了囚徒困境。从单方面自身利益出发,在对方保持沉默的情形下,选择检举对方能使自己的刑期从1年减为0年;在对方检举自己的情形下,选择检举对方也能使自己的刑期从20年减为5年。所以无论在哪种情况下,检举对方都能使自己的利益最大化,是优势策略(即无论其他参与者选择什么策略,这一策略对一个参与者来说都是最优的策略)。这就导致了“囚徒困境”唯一可能达到的均衡,就是双方都选择检举对方,结果是二人都被判监5年。在二人零和博弈中,“最小最大解”和“纳什均衡”的结果是一致的。回想一下上期中切蛋糕的例子。两个孩子分一个蛋糕,其中一个孩子负责把蛋糕切成两块,但另一个孩子可以先选要哪一块蛋糕,切蛋糕的孩子知道另一个孩子会选大的那块(也就是留给自己的肯定是小的那块),所以他会把较小的一块切得尽量大(使自己的最小收益达到最大或者说最大损失达到最小),切蛋糕问题的“最小最大解”就是把蛋糕切成一样大的两块,两人各分得半个蛋糕。我们从“纳什均衡”的角度再来看这个切蛋糕问题,第一个孩子假设自己把蛋糕切成不一样大小的两块,第二个孩子自然会选大块,这时,两个孩子会分别问自己一个问题:这样选择你后悔吗(即是不是选择了优势策略)?第二个孩子想:我得到了大块,我不后悔!第一个孩子想:如果我切成一样大的两块,我能得到的更多,我后悔了!于是第一个孩子改变策略,切成一样大的两块,还是重复刚才的问题,你后悔吗?第二个孩子想:既然两块蛋糕一样大,挑哪块都一样,我不后悔!第一个孩子想:既然第二个孩子总是选择大块的,我能得到半块蛋糕已经是最好的结果了,我也不后悔!当两人都不后悔时,纳什均衡就达成了!进一步把二人博弈推广到多人博弈,冯·诺依曼考虑的推广方式是合作博弈,他假定多人间会结成联盟,形成两队来互相博弈,这样队与队间就能继续应用二人零和博弈的方法了,队内则是一种合作的状态,每个人的策略依赖于与队内其他人的协调。这样的推广使冯·诺依曼的博弈论在方法上存在着内在的矛盾,有着严重的局限性。纳什突破了这种局限性,他从数学上证明了在多人博弈时,任何使每人自身利益最大化的非合作博弈都存在均衡点。均衡的概念奠定了现代主流博弈理论和经济理论的基础。“纳什带领社会科学走向了一个新的世界,使对任何情况下的冲突和合作的研究有了统一的分析方法。”年诺贝尔经济学奖得主罗杰·迈尔森(RogerMyerson)这样写道,“纳什创立的非合作博弈理论已经发展成了一种有效衡量动机的方法,它能帮助我们更好地了解在任何社会、*治或是经济背景下的冲突和合作问题的实质。”下面这个视频就是用“纳什均衡”来解释为什么麦当劳旁总有一个肯德基,耐克店旁总有一个阿迪达斯,或经常能发现好几家咖啡店开在同一个街角。“纳什均衡”中总是假设每个人都在追求自己的利益最大化,任何人都不会损己利人。这样的社会其实会导致一些糟糕之处。我们来看一下“环保博弈”问题:世界上有个国家,每个国家在选择放任环境污染不管和积极治理环境污染中做选择。如果有一个国家选择放任污染,那么世界上每个国家的成本都+1;如果某个国家选择积极治理环境,那么其他国家的成本不变,它自己国家的成本需要+3。很容易看出来,如果大家都积极治理,那么每个国家的成本都是3,所花的成本并不高。但如果一个国家从自身利益出发,选择放任污染(比如某国宣布退出巴黎气候协定),那它自己的成本只有1,其他国家的成本都是4。如果所有国家都这样想,大家都选择撂挑子,那么结果就变成每个国家的成本都是,出现的是最糟糕的情况。“纳什均衡”的结果给我们带来警示!耶鲁大学的著名博弈论专家约翰·罗默尔通过换位思考(即假想如果别人都和自己一样行动,自己该怎么做),提出了一种合作博弈的新均衡——“康德均衡”。“康德均衡”是“世界博弈论经典”中一本最新著作的主题,书中罗默尔教授会全面阐述他的新观点。在另一方面,纳什虽然从数学上证明了均衡点必然存在,却并没有指出如何去找出均衡点。下一期中我们会由此展开来谈谈“算法博弈论”这个计算机科学领域的研究新热点。此外,像拍卖模型和拍卖机制需要经济学家与计算机科学家共同合作来设计;区块链和电子货币的安全性也需要从博弈论角度去考虑;网络资源分配需要博弈论,激励网络合作的协议设计需要博弈论,甚至信息如何在社交网络中传播也需要从博弈论的角度去分析。博弈论其实已经成为我们研究世界的一种工具。目前世界各大名校的经济系、计算机系、电子工程系、数学系、生物学系,还有心理学系、*治科学系和社会科学系的课程中都含有博弈论的内容。
(▲扎斯卡拉基斯(中)与帕帕季米特里乌(右),摄于年)
目前在麻省理工学院电子工程与计算机科学系任教的康斯坦丁·扎斯卡拉基斯(ConstantinosDaskalakis)教授十多年前在加州大学伯克利分校读博士时与他的导师赫里斯托斯·帕帕季米特里乌(ChristosPapadimitriou)在此问题上做出突破。他们从数学上证明了,对于博弈论问题的大多数情形,纳什均衡是很难有效计算的,以至于全世界所有计算机加在一起也无法在宇宙寿命之内找到均衡点。这意味着博弈论领域还需要纳什均衡以外的分析工具去描述现实世界。从另一个角度来说,一些难以有效计算的博弈论问题也可以从近似的角度去探索,能有效获得的近似解同样可以为我们理解现实世界带来启示。(▲扎斯卡拉基斯与纳什的合影,摄于年)扎斯卡拉基斯因其在博弈论问题计算方面的突出贡献在年国际数学家大会上获得了“奈望林纳奖”。国际数学家大会每四年举行一次,会上会颁发数学领域最高奖“菲尔兹奖”等几个重要奖项,菲尔兹奖授予40岁以下在纯数学领域做出卓越贡献的数学家,奈望林纳奖则是授予40岁以下在计算与信息科学相关的数学领域做出卓越贡献的科学家。纳什曾因在纯数学领域的非线性偏微分方程上的杰出成就(与博弈论并无关系)几乎获得了年的菲尔兹奖,但由于部分研究结果没有及时发表而未能如愿,这一打击在当时也进一步加重了他的病情。年,数学界的另一项大奖“阿贝尔奖”授予给纳什在偏微分方程方面所作出的卓越贡献,与年的诺贝尔经济学奖一样这对纳什来说是一份迟到的荣誉。在获得阿贝尔奖2个月后,纳什与夫人在一次乘出租车返家途中不幸遇车祸丧生,享年87岁。除了研究博弈计算复杂性问题,算法博弈论的另一重要研究方向在于通过算法和策略设计博弈,比如车牌拍卖,各地根据不同的需求设计不同的规则,需求可能是控制数量、减少污染,或者保持公平性。博弈的规则会影响参与者的行为。比如有些体育比赛因为规则设计的不合理会使得输掉某场球更有利于自己最后获得更好成绩。一个典型的案例是年伦敦奥运会的女双比赛。由于D组的中国组合田卿/赵芸蕾(那届奥运后来的女双冠*)在小组赛中意外输给了一对丹麦组合,只能以小组第二名出线。A组的中国组合于洋/王晓理(当时女双世界排名第一的头号种子)在小组赛最后一场与韩国组合郑景银/金荷娜的比赛前已经提前小组出线,如果这最后一场小组赛她们获胜的话会和田卿/赵芸蕾在淘汰赛阶段分在同一个半区,将在半决赛提前相遇。而也已经小组出线的韩国组合郑景银/金荷娜如果这最后一场小组赛获胜的话,她们下一轮淘汰赛将面对另一对韩国组合,而进入半决赛的话将会遇到强劲的中国组合田卿/赵芸蕾。所以那场比赛中中韩两对组合都是一心求败。从博弈论的角度来看,这场比赛“输球”是为最终取得最佳成绩的“优势策略”,也并没有违反规则。最后国际羽联以消极比赛为由取消中韩两对组合之后的后续比赛资格,同时还取消了另一场消极比赛的韩国和印尼两对组合的比赛资格。这一问题出现的实际原因是,制定游戏规则的人把规则制定好后,发现参与者并不符合自己设想的进程,对参与者进行处罚其实是转移了规则设计不合理的自身原因,“求输”只是在这一规则下导致的“纳什均衡”。每届足球世界杯小组赛最后一轮也经常会出现消极比赛,其实也是比赛规则导致的“纳什均衡”。规则的设计决定了博弈行为,所以设计一个合理的规则至关重要。采购机制设计、拍卖、区块链及分布式商业等各种规则的设计都离不开算法博弈论。像比特币系统,需要从规则上就能防止“挖矿攻击”“贿赂攻击”等行为,这些都要从博弈论的角度去考虑。算法博弈论还有一个