【不朽的名字屬于NASH】
5月24日,一個令人震驚的沉痛消息傳來,著名的博弈論大師和天才數學家約翰·納什“剛從挪威領取阿貝爾獎(Abel Prize),返抵美國后由機場乘出租車返家,誰料因此不幸遇難”。相比二十幾歲早逝的偉大數學家阿貝爾,納什的一生經歷尤為曲折跌宕。但,他與阿貝爾(挪威著名數學家)一樣,“斯人已逝、英名不朽”。
博弈論作為關于“理性人的互動行為”的理論,已經發展成為分析理性決策者在策略互動局勢下的行為選擇模式的標準工具。可以說,博弈論在今天的社會科學體系中起著社會物理學的作用,成為幾乎所有社會科學的語言。
而納什所提出的策略均衡解的概念和思想,是博弈論的核心與基礎。他對博弈論的偉大貢獻至少包括如下四個方面:給出納什均衡的形式定義,并證明其存在性;對二人討價還價問題進行公理刻畫并得到納什談判解;提出探尋非合作博弈與合作博弈之間關系的納什規劃(Nash Program) ;開啟關于博弈論基礎的研究的大門。
【納什均衡】
在《20世紀數學的五大指導理論》中,卡斯蒂把馮·諾伊曼的最小最大定理列為其中的第一個,而在第一章的中間引入了作為其推廣的納什均衡存在性定理。這兩個定理在博弈論發展史中起著里程碑式的巨大影響,尤其納什的定理被視為博弈論的基本定理,也是他1994年與豪爾紹尼、賽爾頓同獲諾貝爾經濟學獎的主要原因。
一個博弈就是策略互動情形的刻畫,包括博弈者、他們可選擇的行動集合、他們行動的先后順序,他們在博弈進行到不同階段所掌握的信息,他們的各種行動組合導致的結果以及每個人對結果的評價;而博弈的解就是對一類博弈能夠如何進行并產生何種結果的刻畫。
馮·諾伊曼1928年(巧合的是納什在這一年出生)關于二人零和博弈的“最小最大定理”是博弈論解概念的第一個基礎性貢獻,如果兩個人進行一項零和博弈(即常和博弈,你之所得為我之所失),那么雙方都存在一個可能是混合策略的行動方案使得:你針對我的每一個策略而選擇恰當的應對而產生我的一組最小支付,然后由我選擇相應的對策而得到其中的最大值,這個值就等于,我針對你的每一個策略而選擇恰當的應對而產生的一組最大支付,然后由你選擇相應的對策而得到其中的最小值。用馮·諾伊曼自己的話說,如果沒有最小最大定理,也許就沒有博弈論。
但是,對于范圍更大的非零和博弈,這個定理并不成立。在馮·諾伊曼和摩根斯頓合著的巨作《博弈論與經濟行為》中,對任何非零和博弈,通過引入虛擬的參與者——自然,把N人非零和博弈轉化為N+1人的零和博弈,但這種變換的社會科學含義并不清晰,因而問題依然存在。這樣納什的工作就登堂入室了。
在普林斯頓大學的博士學位論文(除了附錄的大部分1951年發表于《數學年刊》)中,納什引入了以其名字命名的策略均衡并運用布勞威爾不動點定理,證明其在任何有限博弈(參與者集合與每個參與者的行動集合都是有限的)中的存在性。
納什均衡的原始思想和概念可以追溯到法國經濟學家古諾對雙寡頭競爭的分析(Cournaut,1838),但是納什給出了一般情形下的定義,即,一個行動組合(嚴格來說是策略組合):在其他人不改變行動的情況下,每個人都沒有動力單方面偏離而選擇其他行動(定義中隱含地假設博弈者們獨立選擇行動,如果允許他們之間存在某種相關性,則可得到奧曼提出的相關均衡)。換句話說,所有參與人的行動互為最優的應對。
愛好武俠小說的朋友可以想象一下,兩個武功高手以內力比拼的僵局,他們誰也不能撤回自己的掌力,這就形成一個納什均衡。
我們也可以用一個囚徒困境博弈的翻版來說明納什均衡。假想在一個法治不是特別健全的社會里,原被告打一場100萬的官司,每個人都可以選擇以30萬金額賄賂法官或不賄賂(簡單起見,我們假設只有這兩種行動)。如果都不賄賂,那么法官會給出一個基本公正的裁定:原告60萬,被告40萬;但如果有一個人賄賂而對方沒有,自然是沒有賄賂的倒了大霉,一分也拿不到;當然如果兩個人都賄賂了法官,那么兩下里扯平,他該怎么判就怎么判。
這個博弈中的原告和被告,都有一個占優策略(看過《射雕英雄傳》的人可以記起,郭靖如何用剛學到的亢龍有悔這一招對付梁子翁),即不管其對手如何選擇,他選擇賄賂帶來的結果要更好。所以,博弈的結局就是,他們兩個都會理性地選擇賄賂法官(這個行動組合也構成納什均衡),然后出現前些年民謠里的結果:大蓋帽,兩頭翹,吃了原告吃被告。
這個博弈也提示我們,理性的人玩出的結果也許是集體“非理性”,因為(不,不)的結果帕雷托優超于(賄賂,賄賂)。一個結果帕雷托優超另一個結果,是說從后者到前者沒有人受損,但至少有一個人受益,所以我們很難從直覺上否認前者好過后者。
納什均衡的思想非常簡單又美妙。如博弈論的經典之一《博弈和決策》的作者盧斯和萊法所指出:“如果我們的非合作理論導致一個策略選擇的組合,并且它具有這樣的性質,即關于理論的知識不會導致一個人做出一個不同于理論預見到的選擇,那么理論剝離出來的策略一定是均衡點。”
當然,這并不意味著納什均衡是博弈論的終結。實際上,與納什同時獲獎的豪爾紹尼就把它推廣到處理信息不完全情形的貝葉斯博弈;而賽爾頓則表明一個博弈中并不是所有的納什均衡都有道理,博弈進行中參與人選擇某個行為的可信性特別復雜微妙,由此引發了均衡的精煉與篩選的研究,這方面蔚為大觀,此處就不贅述了。
【博弈論基礎】
有哲學趣味的人會關心,納什均衡及其精煉作為博弈的解在何種意義上是合理的。這也正是納什在他的博士論文附錄里所指出的:
“在所討論的博弈中,對理性地進行博弈的可預期的行為的一個合理預測是什么?通過運用一些原則,如一個合理的預測應該是唯一的,參與人應能充分推理和利用知識,并且對于每一個參與人,關于其他參與人行動的知識將不會導致他的行動偏離這個合理的預期。這樣我們就得到上面我們定義的解的概念。在這種解釋下,我們需要假定參與人了解整個博弈的結構,從而能各自推導出這個預期。這是一個理性和理想化要求很強的解釋。”
故此,納什又提出“大眾行為”(mass action)的解釋。“在經濟或國際政治的一些場合,利益集團不自覺地被卷入到一個非合作的博弈之中,這種不自覺使得這個場合變成了一個非合作博弈。在這種解釋下,假定參與人對整個博弈的結構有完全的知識或者有能力進行復雜的推理不是必需的。但是我們假定參與人能對他們的各種純策略的相對益處積累經驗性的信息。我們假定存在一定的參與人群并且這些參與人的“中間分子”運用純策略有一個穩定的平均頻率”。
納什的洞察預示著20世紀后期關于博弈論基礎的研究,即賓莫爾所強調的,演繹(eductive)的與進化(evolutive)的兩種均衡化過程。知識論與進化論關于博弈論解概念的解釋與論證是互補的。前者對應著納什均衡在規范意義上是任何一種理性決策理論的合理內核;后者對應著納什均衡在實證意義上,只能看作是對一種在進化過程中穩定下來的行為模式的近似刻畫。
知識論基礎的要求,如博弈結構、解理論是博弈者之間的共同知識(每個人都知道,每個人都知道每個人都知道,如此以至無窮),不受限制的計算能力等,是如此之強以致我們很難認為它是現實的。但是,如果我們把所有行動看作是兩種行動的疊加,即均衡行為與趨向均衡的行為,那么很強的理性和信息結構指引下的均衡行為模式可以通過在模型中滿足種種穩健性(robustness)和穩定性(stability)的要求以弱理性下的非均衡行為來近似地逼近。
正如韋布爾所指出,如果我們能夠表明博弈者“好像是”(as if)具有很好的理性和知識一樣行為的,那么這就為研究者采取這樣一種描述世界的方式提供了合理性辯護。進化博弈理論(包括學習理論),就是要在更弱也更合理的假設上探討博弈者的長期行為,以便達到與知識論殊途同歸,甚而給出更豐富的結論。也就是說,我們要探討的是,從長期(long-run)或大范圍來看,博弈者通過學習和進化,他們的行為模式,在統計或極限意義上是什么,以此為各種解概念下的理性行為提供合理化論證。
特別地,針對納什均衡及其各種精煉,有眾多結果刻畫了在什么條件下,均衡解可以看作是進化學習的收斂或統計意義上的近似,即佩頓·楊所謂的“高理性的解概念能夠從低理性的環境中涌現,如果我們賦予這個過程足夠的時間進化。
換句話說,社會反饋機制可以取代在個體方面的知識和推理能力的高水平”。并且,通過進化博弈及其應用社會生物學,我們發現博弈論和納什均衡的思想與方法可以有更廣泛的應用天地。
【納什談判解與納什規劃】
現在,我們轉向納什的另一項貢獻——談判或討價還價理論。在納什的基本定理之前,他1949年(第二年發表)已經有了一項了不起的經濟學成果。作為讀大學時選修的一門國際貿易課程的產物,他討論了交易中分配合作利益的討價還價問題,并給出了有關的納什談判解的公理刻畫。
如果二人進行一個談判,有一組備選方案,也有一個協議未成點或現狀是大家的退路。達成的分配方案應該具有這樣幾個好的性質(我們這里的表述本質上與納什當年沒有差異):談判是有效率的,即不存在另一個備選方案帕雷托優超于達成共識的;談判是非強迫性的,每個人都不差于協議未成點;不相關方案的獨立性,如果某方案是一個談判問題的解,現在縮小方案范圍但它仍在其中,則它依然是新談判問題的解;對稱性,如果有傾向于甲的方案就有同樣對乙有利的方案,并且二人的退路相同,那么結果應該是二人所得相同。加上其他一些數學上的適當條件,納什證明,合理的解應該最大化二人的凈支付的乘積。
三年后的文章中,納什還提出了現在所謂的納什規劃,以整合非合作博弈與合作博弈。如奧斯本與魯賓斯坦所指出,“結盟模型區別于非合作模型本質上是因為,它把重點放在博弈者團體能實現什么而不是單個博弈者能做什么上,并且它不考慮博弈者團體內部是如何作用的。如果我們希望在一個非合作博弈中模擬結盟形成的可能性,那么我們必須敘述結盟是如何形成的以及他們的成員是如何選擇加入的。一個結盟博弈沒有這些細節,這樣一個博弈的結果也不依賴于它們”。
這樣,囚徒困境博弈所謂的困境在合作博弈中就不可能出現。但合作博弈卻不存在象非合作博弈中的納什均衡及其精煉等具有統一性的解理論。納什提出,合作博弈的解,可以歸結為談判解,而談判問題又可以轉換成一個動態的非合作博弈,這樣就可以用非合作博弈的解概念來重新闡釋合作博弈的各種解概念。
沿著納什規劃的后續研究就包括魯賓斯坦的重要工作,他表明納什談判解可以由一個無限期動態討價還價博弈的子博弈完美均衡來得到。在這個意義上,非合作博弈是比合作博弈更基本的。當然,現在大部分學者會公允地認為合作博弈與非合作博弈是一枚硬幣的不可分割的兩面。
也許冥冥中注定,賓默爾1992年的教科書《游戲與博弈》中提到,納什名字的拼寫NASH代表了博弈論的英雄榜。其中最杰出的貢獻者有:N當然指博弈論的創始人馮諾依曼(von Neumann)和納什;A是奧曼(Aumann);S代表了沙普利(Shapley)、塞爾頓(Selten) 和謝林(Schelling)(焦點效應的提出者);H則是豪爾紹尼(Harsanyi)。
如果說,由于偶然,納什的名字被用于構成博弈論圣殿建造者的譜系(實際上杰出的博弈論學者的名單非常長),那么我們可以毫無疑問地說,納什均衡是非合作博弈論解概念大廈的基石,迄今為止,幾乎所有因博弈論獲得諾貝爾經濟學獎的理論貢獻都與納什的工作有一定的關聯。
這其中,豪爾紹尼和納什與賽爾頓1994年一起獲獎,2005年奧曼和謝林,2007年赫維茨、馬斯金和邁爾森,2012年沙普利和羅斯。1996年米爾利斯和威克瑞,2001年阿克洛夫、斯賓塞和斯蒂格里茨,2009年奧斯特羅姆,2014年梯若爾,他們的獲獎工作都運用了博弈論。實際上2002年的行為與實驗經濟學,2010和2011年的宏觀經濟理論,2013年的證券理論,也都或多或少地與博弈論有關。
【統一的社會科學】
協助納什發表那個運用了角谷靜夫不動點定理的簡單證明版本(1950年于《美國國家科學院院刊》)的蓋爾,曾經贊嘆納什的結果的優美和普遍性(elegance and generality)。所有偉大的智力成果,都具有這兩個特征。
愛因斯坦曾經說過,如果一個理論不美,它就不會是真的。從數學與自然科學,從牛頓、達爾文、愛因斯坦、哥德爾和無數先賢的經典作品中,我們都能感受到這種簡單、純凈而深刻的美感。而普遍性,或者說普適性和統一性,是好的理論最重要的品質。
可以說,作為一個體現了形式簡潔性與內容豐富性的折中的解概念,納什均衡是整個博弈論的核心。因機制設計理論獲獎的邁爾森將納什均衡比之為生物學中的DNA雙螺旋結構。如1998年諾獎得主森所言,博弈論和社會選擇理論是二次世界大戰以后社會科學最重要的成果(二者的結合產生了機制設計理論)。納什均衡和帕雷托優超,作為博弈論和社會選擇理論中兩個最重要的概念,則構成整個社會科學大廈的拱柱。
我相信,只要人類社會中的沖突和合作現象繼續存在,社會科學繼續存在,這兩個概念及其思想就是不朽的。
按照邁爾森的說法,今天我們可以更寬泛地把經濟學定義為“對所有社會制度中的激勵(incentive)的分析”,從而“社會科學的功能性目標并非僅僅在抽象意義上預見人類行為,而是分析社會制度和評價關于制度革新的建議”。那么,一個制度目標要能夠得以實現,必須使其所對應的行動成為社會博弈的納什均衡。
由于納什“表明任何其他博弈理論都可以被化歸到均衡分析”,他“把社會科學帶入到一個新世界,那里可以發現一個研究所有沖突與合作局面的統一分析框架”。
附納什的四篇博弈論杰作:
John F. Nash: Equilibrium points in n-person games, Proceedings of the National Academic of Science 36, 48-49, 1950.
John F. Nash: The Bargaining Problem, Econometrica vol.18,155-162,1950.
John F. Nash: Non-cooperative games, Annals of Mathematics 54(2), 286-295, September 1951. Also in: Essays on game theory, E. Elgar, 1996, with Appendix: Motivation and Interpretation, from doctoral thesis, Princeton University.
John F. Nash (1953): Two-person cooperative games. Econometrica vol. 21, 128-140.