博弈行為中的演繹與歸納推理及其問題

歸納推理, 博弈, 行為, 演繹

1　一種新的邏輯：博弈邏輯

博弈論研究人類活動中的互動行為，在經濟學中得到廣泛的運用。在博弈論中，人類的所有活動，只要是互動行為，均可以看成是博弈行動。在此基礎上，一種新的邏輯“博弈邏輯”(game logic)得以興起，它是一種特殊的行動邏輯(action logic)。

博弈論研究多個理性人在互動過程中如何選擇自己的策略。理性的人是使自己的目標或得益最大化的人，在經濟活動中理性的人即是使經濟目標最大化的人——經濟人。理性人如何使得自己的“得益”最大？關鍵是“推理”。

博弈邏輯中存在著兩種研究綱領。第一種研究綱領是結合模態邏輯系統，建立新的博弈邏輯系統。在這方面，日本筑波大學的金子守(Mamoru Kaneko)教授是這方面的權威。近幾年，他在國際刊物上發表了大量有關博弈邏輯方面的論文。他不僅在模態邏輯系統的基礎上建立了多個博弈邏輯(game logic)系統，而且，建立了與博弈邏輯密切相關的公共知識邏輯(common knowledge logic)系統。第二種研究綱領是研究博弈活動中的實際“推理問題”，許多博弈論專家在此方面做了大量的工作。對博弈邏輯做整體的分析不是這里的任務，本文的目的是簡要論述博弈活動中的推理問題，屬于第二種研究綱領。

根據博弈論，人們在實際的博弈活動中涉及到兩種推理：演繹推理與歸納推理。然而，正如傳統邏輯中存在著悖論（演繹悖論和歸納悖論），在博弈邏輯中同樣存在著悖論。

2　博弈邏輯中的演繹推理與歸納推理

博弈論有兩個假定：第一，博弈參與人是理性的；第二，博弈參與人的得益不僅取決于自己的行動，同時取決于其他人的行動。

每個理性的參與人在策略選取，使自己得益最大時，要充分考慮局中其他人的策略選取。同時，每個參與人知道其他參與人與他有同樣的想法。在博弈中，“每個人是理性的”是公共知識(common knowledge)，它是每個參與人進行策略選擇或者推理的前提。

博弈參與人的推理表現在他對策略的選取上。決定參與人的策略選取一方面是博弈結構，另一方面是其他參與人的策略。博弈結構是不同策略組合下的支付函數或者得益函數。按照博弈的次序來分，博弈分動態與靜態博弈；按照信息的分布來分，博弈分為完全信息與不完全信息博弈。在不同的博弈結構下，參與人所用的推理不同。

根據參與人推理前提與結論之間的關系，在博弈中推理分為演繹推理和歸納推理。我們來分析博弈參與人是如何運用演繹推理與歸納推理的。

(1)靜態博弈的演繹推理　

讓我們來分析典型的“囚徒博弈”的例子。

警察抓到了兩個共同偷竊的小偷，對他們進行單獨關押。囚徒面臨這樣的“政策”：如果一方“招認”，供出自己與對方以前所做違法之事，而對方“不招認”，“招認”方將無罪釋放，對方會被判重刑10年；如果雙方都與警方合作，選擇“招認”策略，各被判刑5年；而如果雙方均“不招認”，因警察找不到其他證明他們以前違法的證據，只能對他們的小偷行為進行懲戒，各判刑1年。這兩個小偷如何做出選擇？

囚徒困境的支付矩陣為：
附圖
“囚徒困境”是一個被廣泛談論和研究的博弈。在這個囚徒困境中，小偷的最終“得益”是當場釋放還是被判刑（10年、5年、1年），不僅取決于該囚徒的決定，而且取決于另外的小偷的決定。

在這個例子中，每個小偷都作這樣的推理：
如果對方“招認”，
我“不招認”的結果是判刑10年，“招認”的結果是判刑5年；
“招認”的結果好于“不招認”的結果
此時，我應當選擇“招認”
如果對方“不招認”，
我“不招認"的結果是判刑1年，“招認”的結果是當場釋放；
當場釋放比判刑1年要好
此時，我應當選擇“招認”
因此，無論對方采取“招認”還是“不招認”，我最好的策略是“招認”。
無論是甲，還是乙，他們均推理得出最好的策略是“招認”。雙方均招認是“納什均衡”——這是一個穩定的結果。

在囚徒博弈中存在惟一的納什均衡（注：納什均衡，簡單地說就是，一策略組合中，所有的參與者面臨這樣的一種情況：當其他人不改變策略時，他此時的策略是最好的；也就是說，此時如果他改變策略，他的支付將會降低。在納什均衡點上，每一個理性的參與者都不會有單獨改變策略的沖動。）點，即兩個囚犯均選擇“招認”策略。一旦人們處于囚徒困境，“囚徒困境有惟一的納什均衡點”構成參與人的“公共知識”，雙方均毫不猶豫地選擇“招認”。

這是靜態博弈的例子。在這個推理過程中，雙方的推理均是演繹的。

(2)動態博弈中的演繹推理　

動態博弈過程如同靜態博弈，也是一個推理過程。我們來看一下動態博弈中人們是如何進行演繹推理的。先看一個例子。

有兩個企業A、B。企業B獨占一個行業的市場，企業A要進入這個領域，想與企業B瓜分該市場。企業B不愿意A與它一起瓜分該市場，它發出“威脅”：“如果你進入，我將打擊”。當然，對B進行打擊，雙方均有損失?！@是雙方的“公共知識”。該博弈用博弈樹表示，即為：
附圖
上圖中的數字表明：如果A“不進入”，A的得益為0，B的得益為10；如果A“進入”，B“不打擊”的話，A與B平分10，各得到5，而如果“打擊”的話，A的收益為-3，B的收益為4。
這個博弈的結果是，A選擇“進入”，B選擇“不打擊”。——它們構成“子博弈精煉納什均衡”。對于這個博弈，B的威脅“如果A進入，我將打擊”是“不可信的”威脅。
在這個動態博弈中，理性的參與人所用的推理方法被稱為“逆向歸納法”又稱“倒推法”(backward induction)。雖然被稱為逆向歸納法，但它是完全歸納法，即它是演繹性的。
逆向歸納法是求解動態博弈的方法。它是演繹性的，因為它的推理是必然的。在上面的例子，我們看到，企業A作這樣的推理：
假定我(A)進入，B如果“打擊”，它的得益為4；“不打擊”的得益為5。B是理性人。它將選擇“不打擊”。既然我預測到B將“不打擊”，我在“進入”和“不進入”間進行選擇時，“進入”的得益為5，“不進入”的得益為0，我作為理性人，將選擇“進入”。
當A選擇“進入”策略時，B的推理是：
如果采取“打擊”，我的得益為4；“不打擊”的得益為5，選擇“不打擊”是理性的選擇。

(3)靜態博弈中的歸納推理　

博弈中參與人運用歸納推理，原因大體有兩個：一是由于信息不完全；二是由于博弈是競爭性的——零和博弈。

不完全信息博弈，又稱貝葉斯博弈，是博弈論研究的重要內容。不完全信息博弈是指博弈參與人的得益函數不是公共知識時的博弈。此時，雖然博弈參與人是理性的構成公共知識。但是，總存在某個策略組合下的得益不是公共知識。這樣，即使一個博弈存在惟一的納什均衡，由于這個均衡不是公共知識，這樣的均衡不能夠在一次博弈中達到。而所謂競爭性的博弈是指零和博弈，在一個博弈中如果只有兩個參與人，其中一方所得等于另外一方所失，此時，雙方不可能形成一個大家均接受而不會改變的純策略對。

在這樣的過程中，博弈參與人如何確定自己的策略選取呢？他只能根據其他參與人“歷史”中的策略“歸納地”得出對方此時的策略，從而決定自己的策略。一個例子就是，《叁國演義》一書中“空城計”博弈。

諸葛亮誤用馬謖，致使街亭失守?？酌髟谖鞒侵?，準備啟程。等他安排停當，司馬懿引大軍15萬蜂擁而來。當時孔明身邊別無大將，只有一班文官，五千軍士，已分一半先運糧草去了，只剩二千五百軍在城中。眾官聽到這個消息，盡皆失色?？酌鞯浅峭?，果然塵土沖天，魏兵分兩路殺來。孔明傳令眾將，旌旗竟皆藏匿，諸軍各收城鋪。打開城門，每一門用上二十軍士，扮作百姓，灑掃街道。而孔明披鶴髦，戴綸巾，引二小童，攜琴一張，于城上敵樓前，憑欄而坐，焚香操琴。馬司懿來到城下，見到諸葛亮焚香操琴，笑容可掬。司馬懿嚇壞了，立即叫后軍作前軍，前軍作后軍，急速退去。司馬懿之子司馬昭問：莫非諸葛亮無軍，故作此態，父親何故退兵？司馬懿說：“亮平生謹慎，不曾弄險，今大開城門，必有埋伏。我兵若進，中其計也。”孔明見魏軍退去，撫掌而笑，眾官無不駭然。諸葛亮說：司馬懿料吾平生謹慎，不曾弄險，見如此模樣，疑有伏兵，所以退去。吾非行險，蓋因不得已而用之。我們兵只有二千五百，若棄城而去，必為之所擒。

我們可以用如下的博弈矩陣來表示這個博弈：
附圖
這個博弈中，“進攻”是司馬懿的“占優策略”。該博弈有兩個納什均衡，即：（司馬懿“進攻”，諸葛亮“守城”）；（司馬懿“進攻”，諸葛亮“棄城”）。然而，司馬懿不知道自己和對方在不同行動策略下的支付，而諸葛亮知道。他們對博弈結構的知識是不對稱的：諸葛亮擁有比司馬懿較多的知識。當然這種知識的不對稱完全是諸葛亮“制造出來的”。

司馬懿是如何推理的呢？司馬懿的推理是“歸納的”。司馬懿說：“亮平生謹慎，不曾弄險。今大開城門，必有埋伏。我兵若進，中其計也。”在司馬懿看來，諸葛亮一生都是謹慎的，既然諸葛亮一生沒有冒險，此次也肯定不會冒險，諸葛亮有埋伏。司馬懿在“攻城”和“撤退”之間作出“撤退”的選擇。

在這里，司馬懿歸納作出了一個錯誤的策略選擇。盡管如此，我們不能說司馬懿是不理性的。司馬懿作出錯誤的策略選取，是由于不完全信息造成的。在孔明－司馬懿的博弈中，孔明做出的空城假象，目的就是讓司馬懿感到“攻城”有較大的失敗的可能。如果我們用概率論的術語來說，諸葛亮的做法是加大司馬懿對進攻失敗的主觀概率。此時，在司馬懿看來，“攻城”失敗的可能性較大，而“撤退”的期望效用大于“攻城”的期望效用。即：司馬懿認為，“攻城”的期望效用低于“撤退”的效用。諸葛亮惟有通過這個辦法，才能讓司馬懿退兵。

(4)動態博弈中的歸納推理　

下面我們來分析“酒吧問題”中人們是如何運用歸納推理的。“酒吧問題”是一個重復性的動態博弈。
“酒吧問題”(bar problem)是美國人阿瑟(W.B.Arthur)提出的。阿瑟是斯坦福大學經濟學教授，同時是美國著名的圣塔菲研究所(Santa Fe lnstitute)研究人員。他不滿意經濟學中人們所認為的，經濟主體或行動者(agents)的行動是建立在演繹推理基礎之上的觀點。他認為人們的行動是基于歸納的基礎之上的。“酒吧問題”就是阿瑟為了說明他的這個觀點而提出的。

在1994年《美國經濟評論》的題為《歸納論證和有界理性》一文中阿瑟提出了“酒吧問題”博弈，后來在1999年的著名的《科學》雜志上題為《復雜性和經濟》一文又闡述了這個博弈。

酒吧問題是指這樣一個博弈：有一群人，比如總共有100人，每個周末均要決定，是去附近的一個酒吧活動還是呆在家里。該酒吧的容量是有限的，比如空間是有限的，或者座位是有限的。我們假定酒吧的容量是60人，或者說座位是60個。如果去酒吧的人數少于60，并且他也去了，他的決定就是正確的；或者，如果去酒吧的人超過60人，而他沒有去——當然這只有事后才知道，他的決定也是正確的。否則，其決定是錯誤的。

這里，我們假定他們之間不存在信息交流。我們看到，每個人根據對總的去酒吧人數的預測，而決定去酒吧與否。如果他預測去酒吧的人數超過60人，他將做出“不去酒吧”的決定，如果其預測不超過60人，他將做出“去酒吧”的決定。他們是如何做出預測呢？

每個參與者或決策者面臨的信息只是以前去酒吧的人數，每個參與者只能根據以前去的人數的信息“歸納”地得出一個規律。根據這個規律，參與人預測下次去酒吧的人數，從而決定自己去還是不去。
這是一典型的動態博弈問題。假定，前面幾周去酒吧的人數如下：

44,76,23,77,45,66,78,22……

不同的行動者可根據過去的歷史“歸納”出某個規律，從而做出預測。例如預測：下次的人數將是前4周的平均數(53)；兩點的周期環(78)；與前面隔一周的相同(78)……。

通過計算機的模型實驗，阿瑟得出一個有意思的結果。當不同的行動者根據過去的歷史而進行行動時，去酒吧的人數沒有一個可預測的固定的規律。然而有這樣一個“規律”：經過一段時間以后，“平均去酒吧的人數總是趨于60”。即，經過一段時間，這個系統中的人群“去”與“不去”的人數比是60:40。盡管每個人不會固定地屬于“去”或“不去”的人群，但這個系統的這個比例是不變的。阿瑟說，預測者自組織到一個均衡類型或生態均衡系統。這100人構成的系統是一個混沌系統（混沌系統的行為是不可預測的）。

這就是酒吧問題。在這個問題中，每個參與人根據歷史數據進行歸納并進行預測，然而，對于下次去酒吧的確定的人數，參與人是無法作出肯定的預測。例如，有趣的是，如果許多人均預測去酒吧的人數多于60，而決定不去酒吧，此時酒吧的人數將少于60。他們的預測則錯了。如果許多人預測去酒吧的人數少于60，這些人去了酒吧，此時去酒吧的人數多過60。他們的預測也錯了。
附圖
因此人們要作出“正確的”預測，他要知道其他人如何作出預測的。但是在這個問題中每個人的預測的信息來源是一樣的，即都是過去的去酒吧的人數。每個人不知道別人如何作出預測的信息。因此，所謂“正確”預測是沒有的。每個人只能根據以往歷史“歸納地”作出預測，而無其他辦法。阿瑟教授提出這個問題，是強調在實際中歸納推理與行動之間的實際關聯。

利用歸納法的另外的例子是寡頭壟斷廠商之間的博弈。如果一個行業被多個寡頭廠商所壟斷，他們之間的競爭也是一個重復性的動態博弈。寡頭廠商要確定自己最優的生產產量，但它們無法知道其他企業的產量。每個企業只能根據過去其他企業的生產產量來“推測”它們將要生產的產量，從而確定自己的最優產量。這個產量是最優的？不一定。如果是，它們就不調整自己的產量，如果不是，他們還要不斷地調整。這同樣是一個“歸納”和“調整”的過程。

3　演繹推理的一個悖論：逆向歸納法悖論

逆向歸綱法是演繹推理，它是求解完全且完美信息下的動態博弈的方法。逆向歸納法推理嚴密。然而，將看到，逆向歸納法面臨著致命的缺陷：悖論。

讓我們來看一個蜈蚣博弈(centipede game)的例子。
蜈蚣博弈是由羅森塞爾(Rosenthal)提出的。它是指這樣一個博弈：兩個參與者A、B輪流進行策略選擇：可供選擇的策略有“合作”和“不合作”兩種。假定A先選，然后是B，接著是A，如此交替進行。A、B之間的博弈次數為一有限次，比如198次。假定這個博弈的各自的支付給定如下：
附圖
蜈蚣博弈
上圖中，c表示“合作策略”，nc表示“不合作”。
在這個博弈中的參與人A、B是如何進行策略選擇的？
這個博弈形狀像一只蜈蚣，而被命名成蜈蚣博弈。這個博弈奇特之處是：當A決策時，他考慮博弈的最后一步即第198步：B在“合作”和“不合作”之間作出選擇時，因“合作”給B帶來i00的收益，而“不合作”帶來101的收益，根據理性人的假定，B會選擇“不合作”。但是，要經過第197步才到第198步，在197步，A考慮到B在第198步時會選擇“不合作”——此時A的收益是98，小于B合作時的100——那么在第197步時，他的最優策略是“不合作”——因為“不合作”的收益99大于“合作”的收益98。……如此推論下去。最后的結論是：在第一步A將選擇“不合作”，此時各自的收益為1！遠遠小于大家都采取“合作”策略時的收益：A:101,B:99。

根據逆向歸納法，結果是令人悲傷的。從邏輯推理來看，逆向歸納法是嚴密的。但結論是違反直覺的。直覺告訴我們，一開始就停止的策略A、B均只能獲取1，而采取合作性策略有可能均獲取100，當然A一開始采取合作性策略有可能獲得0，但1或者0與100相比實在是太小了。直覺告我們采取“合作”策略是好的。而從邏輯的角度看，A一開始應選擇“不合作”的策略。

是逆向歸納法錯了，還是直覺錯了？

似乎逆向歸納法不正確。然而，我們會發現，即使雙方開始能走向合作，即雙方均采取合作策略，但這種合作不會堅持到最后一步。理性的人出于自身利益的考慮，肯定在某一步采取不合作策略。逆向歸納法肯定在某一步要起作用。只要逆向歸納法起作用，合作便不能進行下去。

因此，我們不能懷疑逆向歸納法的合理性，它的推理過程嚴密，符合邏輯。然而如果我們用逆向歸納法來求解蜈蚣博弈，則博弈結果是我們不能接受的。

許多博弈論專家認為，蜈蚣博弈所反映的不是悖論，逆向歸納法作為求解動態博弈的方法，是有效的。蜈蚣博弈的結果盡管不是我們所期望的，但它是均衡結果。這個均衡結果反映的是多主體下個體理性的局限。這是理性的困境。

4　博弈行為中歸納推理的“合理性”問題

休謨告訴我們，人們使用歸納法尋求自然現象之間的因果聯系的這個過程，只不過是人的心理上的習慣聯想。我們有什么其他理由認為，我們所認為的事物之間的所謂因果聯系是必然的？這就是休謨問題。休謨質疑的是認識中的歸納法的合理性問題。在博弈行為中，歸納推理同樣存在是否合理的問題。

我們用歸納法對自然進行認識，并根據我們歸納的結果做出相應的行動。如：我們看到天空中烏云密布，風漸漸地大了，我們想，天可能要下雨了，我們要帶傘。之所以有這樣的認識，是因為以往的經驗“告訴”我們：當烏云增多并刮大風時，意味著要下大雨。即，當我們面對自然現象時，我們根據過去的經驗來歸納并采取相應的行動。

在認識論中，我們知道，歸納推理所得出的結論是或然的。但是在認識中我們存在著這樣一個信念：全稱命題要么真、要么假，并且它是超越時間和空間的。我們用歸納法可以不斷地接近真理。在互動的博弈中，理性的人運用歸納法進行推理時，歸納法是否有效？它的合理性在哪里？

在“酒吧問題”中，我們憑什么說，以前去酒吧的人數與下次去酒吧的人數之間有聯系呢？當某人進行預測時，只有當他知道其他人預測的方法，他才能根據以往的人數和其他人的預測方法來“正確地”預測下次去酒吧的人數。這樣的預測才能是“有根據的”或者說“有理由的”。但我們除了能知道以往去酒吧的人數外，我們無法知道其他人的預測的方法。即使我們知道了其他人的預測方法，但當其他人知道了我們將根據他們的預測方法來預測時，他們將改變他們的預測方法，從而使我們的預測歸于無效。

在酒吧問題上，我們通過歸納法無法準確預測下次去酒吧的人數，那么我們通過對過去的歷史能夠知道什么？或者，在更一般的意義上說，在博弈行動中，人們通過歸納法能夠學習到什么東西？這就是歸納法的合理性問題。

我們發現，在博弈中歸納法的有效性體現在參與人對博弈均衡的認識。即通過歸納性的學習，博弈參與人對該博弈均衡獲得了認識，對其他參與人的均衡策略也獲得了認識。

任何一個博弈均存在均衡，這也是諾貝爾經濟學獎獲得者約翰·納什的貢獻，被稱為納什均衡存在定理。然而，這里的均衡有兩類：一類是純策略均衡，另一類混合策略均衡。歸納法的作用就是對這兩種均衡的認識。

當一個博弈存在惟一一個純策略納什均衡點時，并且該博弈是完全信息博弈，參與人在一次博弈中就可達到均衡點。但當博弈不是完全信息博弈時，博弈參與人通過多次博弈，“了解”其他參與人不同策略組合下的得益，一旦策略組合達到了納什均衡，博弈方均無意改變策略。因為此時，這一點是博弈各方均能夠接受的點。在這樣的過程中，參與人通過歸納法認識到該策略均衡，同時認識到其他參與人的策略選擇。

如果不存在純策略均衡，而只存在混合策略均衡，博弈參與人通過歸納法同樣能夠認識到該混合策略均衡，同樣能夠認識其他參與人的策略選取，但此時是一混合策略，即參與人在其策略空間上的一個概率分布。在酒吧問題的博弈中不存在“純策略納什均衡”點，此時的參與人通過歸納法“認識到”平均去酒吧的人數為"60%"，即每次去酒吧的人數與不去酒吧的人數的“可能”比率為60:40。

因此，當一個博弈存在純策略納什均衡時，博弈各參與人通過對以往的博弈歷史的歸納，制定出下次的策略均衡點，從而摸索著接近該均衡，最終達到一個純策略。而當博弈存在混合策略均衡時，博弈參與人所能夠做的只是逐漸認識對方的混合策略，而相應地制訂自己的混合策略，最終達到混合策略均衡。
這就是說，博弈中參與人運用的歸納推理是有效的，這種有效性是針對博弈均衡的認識而言的。

5　結語

逆向歸納法悖論只是博弈論中一個悖論而已，歸納的合理性也只是多主體互動時理性人進行歸納推理的一個問題。博弈論涉及許多關于推理的邏輯“問題”。本人希望我國有更多的邏輯研究人員參與到博弈邏輯的研究中來，邏輯學家參與到博弈論的研究定能夠結出豐碩的研究成果。（潘天群）

【參考文獻】
[1]潘天群.博弈生存[M].北京：中央編譯出版杜，2002.
[]Mamoru Kaneko,Tekashi Nagashima.Game Logic and lts Applications Ⅰ[J]. Studia Logica,vo157,1996.325-354.
[3]Mamoru Kaneko, Takashi Nagashima. Game logic and ItsApplications Ⅱ[J].Studia Logica,vo158,1997.273-303.
[]Bermudez. Rationality and the Backwards Indution Argument[J].Analysis,1999,59(4):243-248.
[5]Arthur. Inductive Reasoning and Bounded Rationality[J].American Economic Review, vo184,1994. 406.
[]Arthur. Complexity and the Economy [J]. Science, Vol 284,1999.5411.

本站僅提供存儲服務，所有內容均由用戶發布，如發現有害或侵權內容，請點擊舉報。

精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

博弈行為中的演繹與歸納推理及其問題