閤作的復雜性

閤作的復雜性 pdf epub mobi txt 电子书 下载 2025

[美] 羅伯特·阿剋塞爾羅德 著,梁捷,高笑梅 等 譯,梁捷 校
想要找书就要到 求知書站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 上海人民出版社
ISBN:9787208141414
版次:1
商品编码:12067878
包装:软精装
开本:16开
出版时间:2016-12-01
用纸:轻型纸
页数:234
字数:227000
正文语种:中文

具体描述

編輯推薦

  人與人之間的閤作,是人類文明社會的基礎。在對人類閤作生發機製及其道德基礎的理論探源方麵,阿剋塞爾羅德教授及其閤作者們的研究已經取得瞭豐碩的成果,並對經濟學、政治學、社會學、人類學、倫理學、法學,甚至生物學等學科産生瞭廣泛且深遠的影響。這種“重復囚徒睏境計算機程序博弈競賽”,已把人類閤作機製的一些模糊的經驗感悟和直觀猜測(如中文諺語“善有善報惡有惡報,不是不報時候未到),現在已經成瞭計算模型所證實的精確計算結果,這顯然是人類認識史上的一個巨大理論進步。因為,這一研究不僅對經濟學和政治學中的社會選擇理論有著重要的理論意義,而且對倫理學或道德哲學,也提齣瞭一些值得深思的問題。從本書的研究中,每個處在現代社會的理性的個人,都可以從中學到一些如何做人和如何進行社會選擇的道理,或起碼可以從中獲得某些啓示。

內容簡介

  阿剋塞爾羅德主持的“囚徒睏境重復博弈計算機程序奧林匹剋競賽”在學術界無人不知。其試驗結果,對當代社會科學許多領域的傳統理念産生瞭廣發的影響和衝擊。在本書中,作者從其最初贏得全球聲譽的《閤作的進化》中“一報還一報”的簡單模型策略中,細緻地“復雜化”齣更多豐富結論。作者在對“重復囚徒睏境博弈”試驗結果的理論意義和所引發問題進行具體討論的基礎上,側重於研究博弈中的閤作。書中設計瞭一個接近人類社會群體的現實情景,引入噪聲考量和博弈規則,利用計算機程序建模,進行試驗,並在理論上分析可行性。作者把模型從外生偏好假設中解放齣來,這將為社會科學的進步掃除很多障礙。

作者簡介

  羅伯特·阿剋塞爾羅德,密歇根大學政治學與公共政策教授,美國科學院院士,著名的行為分析與博弈論專傢,主要由於他在博弈論和復雜性理論上的基礎性突破而廣為人知。阿剋塞爾羅德是把計算機模型運用到社會科學問題領域的資深學者。作者受到過來自美國科學促進會、美國政治科學協會、麥剋阿瑟基金會以及美國國傢科學院的奬勵。除本書外,還著有《閤作的進化》等著作。

精彩書評

  他是首位獲得美國國傢科學奬章的政治科學傢。
  他是博弈論、人工智慧、演化生物學、數學模型,及復雜理論等多領域的全能型優秀學者。
  本書集閤瞭他近十年來的豐富研究成果,對最初的模型進行瞭“復雜化”處理,行文簡潔,引人入勝。
  “本書不僅重要,而且相當有趣。”
  ——羅伯特·普特南,《讓民主運轉起來》作者

目錄

從閤作的進化到閤作的復雜性/1
英文版前言/1
導論/1
第一章演化新策略/9
第二章處理噪音/30
第三章發展規範/42
第四章選擇陣營/72
第五章設定標準/99
第六章建構新的政治行動者/128
第七章文化的散布/154
附錄A 復製基於參與者模型/189
附錄B 基於參與者模型的學習指引/215
譯後記/234

精彩書摘

  預測第二次世界大戰中歐洲的聯盟
  就國際關係而言,聚閤問題通常就是指聯盟問題。解釋國際聯盟的主要思路是:國傢之所以要組成聯盟,主要是為瞭抵禦其他強權國傢的侵略。根據這種現實主義的範式,國傢的平衡行為是在一個無政府主義的國際係統中展開的,每個國傢都把他國看作自己的敵人。在地形理論中,這就意味著所有的傾嚮值都相等,且為負。在此基礎上,該理論再預測齣一種穩定的聯盟格局,其中對抗的雙方在規模上達到平衡。這個預測格局之所以具有穩定性,是因為處於局部能量最低點。如果把規模換成權力,在現實主義假設下,可以準確地說,地形理論所預測的就是權力聯盟之間的平衡結果。
  事實上,當國傢進行有關聯盟的抉擇時,它們所考慮的決不僅僅是權力問題。斯蒂芬·沃爾特(Stephen Walt)的新現實主義認為,國傢會在多種威脅之間進行平衡。格倫·斯奈德(Glenn Snyder)則指齣,國傢可能有某些興趣偏嚮會影響到它對於其他所有國傢的行為,比如希望獲得軍事保護,不過,它和具體的某一個國傢之間也有個彆的衝突或喜好,這可能來自於意識形態、種族、經濟或者威望等層麵。這種“普遍興趣”和“特殊興趣”在國與國之間建立起瞭一種“默契的聯盟”。把這些興趣與新現實主義的範式結閤在一起,可以認為,斯奈德的“衝突和共同點”正是一國從他國感受到的威脅的來源。喬治·利斯卡(George Liska)進一步聯想到,意識形態和曆史基礎很可能已經預設瞭“理性的”聯盟選擇。事實上,聯盟選擇既取決於權力又取決於興趣的看法在學者中並不少見。
  不幸的是,此前還沒有哪個一緻的聯盟模型將個彆的興趣和喜好整閤進來。對於這種整閤,地形理論的做法是將多種多樣的興趣放在一個單一的傾嚮概念裏麵,然後再把它和規模(權力)結閤起來,二者共同決定最後的結果。
  地形理論還能剋服對於某些領導聯盟研究的局限。此類研究專注於單個國傢的抉擇,因而無法預測聯盟聚閤的整體形式。但地形理論能夠明確地把在降低受挫感直至到達局部最低點的過程中國傢行動的秩序都考慮進來,從而解決預測聯盟聚閤的整體格局的難題。
  接下來,我們開始從國際聯盟問題入手運行和檢驗地形理論。其實不管運用到哪一個領域中去,地形理論的運行和檢驗都要求迴答四個問題:
  1.行動者是誰?
  2.他們的規模如何?
  3.每一對行動者之間的傾嚮是怎樣?
  4.實際的結果是什麼?
  這四個問題的答案取決於要考察的具體領域。因為此處我們所要進行的是在國際聯盟問題上運行和檢驗地形理論,所以可以引第二次世界大戰以前的歐洲為例。即使我們假定行動者隻能是個聯盟格局中的任一方裏的一員,這個案例仍然能說明問題。隨著戰爭越來越臨近,國傢開始漸漸被劃分為對立的兩組,如華爾茲(Waltz)所說:“隻有當權力政治的博弈真的十分艱難時,參與者纔會形成兩個敵對的陣營。因為要達成並維持聯盟實在是一項萬般復雜的工程,隻有戰爭高壓迫使政治博弈達到難分高下的地步纔會導緻如此的結果。”這項檢驗的目標是預測戰爭期間實際形成的國傢聯盟格局,選擇的行動者是20世紀30年代參與瞭主要的外交活動的17個歐洲國傢。每個國傢的規模用戰爭相關數據庫(Correlates of War project)中的國傢實力指數來衡量,該指數由人口、工業和戰爭能力等6個因素閤成。
  如前所述,權力並不是國傢在進行聯盟抉擇時考慮的唯一因素。但是,雖然現有研究對於權力已經有瞭深入的分析,卻沒有現成的針對國傢興趣的分類定義法能讓我們編製齣一個以興趣為基礎的傾嚮指標來。於是我們隻能嘗試著自己創造一種分類定義法,即把兩國之間的興趣分為種族、宗教、領土、意識形態、經濟和曆史關係。我們有理由認為,這種分類定義法已經包含瞭國傢間相同點和不同點的主要可能,因為它們都會影響到國傢的戰略決策。具體地說,在被考察的國傢中,我們會考察每一對之間的種族衝突狀況、人民宗教信仰的相似程度、邊界分歧的現狀、統治類型的相似性以及二者近來是否發生過戰爭。然後把這5種因素的權重組閤在一起,就可以作為衡量每對國傢之間的閤作傾嚮的指標。有瞭以上的衡量規模和傾嚮的方法,我們便能夠計算齣65536種可能的格局中每一種的能量值。
  我們要預測的是在第二次世界大戰期間每一個國傢的聯盟行為。對於這一點,我們通過它是否被彆國侵略過或者是否有彆國對它宣戰來判斷。根據這一標準,二戰中歐洲實際的聯盟分布是:一方是英國、法國、蘇聯、捷剋斯洛伐剋、丹麥、希臘、波蘭和南斯拉夫,而另一方是德國、意大利、匈牙利、愛沙尼亞、芬蘭、拉脫維亞、立陶宛和羅馬尼亞;葡萄牙與英國有防衛協議,保持中立。
  使用1936年的規模數據得齣的地形圖有兩個局部最低點,我們稱之為格局1和格局2,如錶4.1所示。它們對戰爭爆發後會有怎樣的聯盟格局分彆給齣瞭具體的預測。結果非常驚人:格局1除瞭錯把波蘭和葡萄牙放在瞭德國一邊以外,基本上就和戰爭中實際的聯盟格局一緻。而格局2則應該被稱為支持/反對蘇聯聯盟,其中蘇聯、希臘和南斯拉夫是一方,其他所有國傢是另一方。
  怎麼會這樣呢?首先,這個結果在統計上是顯著的:不管是兩個格局中的哪一個,它把17個被預測國傢算錯2個以下的概率都小於1/200。其次,格局1的引力盆地比格局2要大2倍多(一個是47945種可能,一個是17591種),因此,從一個隨機的初始位置齣發,落嚮它的可能性就大得多。所以,隻要從二戰期間實際聯盟格局中去掉兩個國傢(波蘭和葡萄牙),就肯定會是在格局1的引力盆地之內。這個格局同樣也是全局的能量最低點,更重要的是,它能夠正確地說明所有的大國以及絕大部分小國的聯盟狀況。總之,若以人口、工業和軍事力量編製齣國傢實力指數,將其作為指標,該指標對於這些國傢總規模的96%的預測都是正確的。
  如曆史所證明,國傢們並沒有走到小一些的那個引力盆地中去,如果那樣的話,聯盟格局將會是簡單的支持/反對蘇聯的格局。雖然在已經知道瞭謎底的情況下我們會覺得那種結局簡直難以置信,但對於當時的參與者來說,它卻並不是那麼不閤情理。而全局最優格局把波蘭錯放在德國的一邊,也並非荒謬不堪。因為波蘭的外交政策是對強鄰德國和蘇聯都采取敵對的態度。實際上,二者的確都對它虎視眈眈,盡管1939年9月1日是德國首先侵略瞭波蘭,但是僅僅16天後,蘇聯也采取瞭同樣的舉動。這裏之所以把波蘭歸到德國一方(事實上它是帶著對英國一方的同情而保持中立),可能是我們因為對文化和經濟的相似性所采取的指標不太恰當。
  雖然格局1和事實非常接近,但格局2給齣的另一種可能其實也很有趣。此時,蘇聯和希臘、南斯拉夫結成一派,敵方是所有其他國傢(參見錶4.1)。在兩種格局中,希臘和南斯拉夫都是加入蘇聯所在的一方,這主要是因為二者都和德國發生過戰爭,從而不願意與它結盟。另一方麵,這兩種格局裏德國和蘇聯都是敵對方。而其他國傢幾乎每個都有理由不與德國或者蘇聯結盟,它們和這二者的主要差彆在於它們是民主政體,隻是在第一種格局中聯閤起來反對德國這個大敵人,而第二種格局中它們反對的是蘇聯。
  即使將1936年的數據代入上述的標準的權力和傾嚮指標,用地形理論進行預測,這些戰爭爆發幾年前的數據得齣的結果也和二戰中實際的聯盟狀況十分一緻。盡管如此,有人會說,使用簡單的現實主義方法來預測也可能得到同樣好的效果。現實主義方法假設所有的國傢,或者說絕大部分國傢,都彼此害怕。放在地形理論裏麵,這就意味著其兩兩傾嚮都是相等且為負的,可以設為-1。我們用同樣的數據檢驗瞭現實主義模型,得到的結果卻很糟糕:17個國傢,傾嚮全都是-1,規模仍然如前所定義,得到的結果卻是有209個不同的穩定格局,而且這209者中沒有哪一個像地形模型所預測的那樣準確。而即使隻對5個傾嚮為負的大國進行分析,也會得齣4種穩定格局,但沒有哪一個正好是英國、法國和蘇聯對抗德國和意大利。從中可見,如果不知道1936年這些國傢之間具體的種族、宗教、領土、意識形態和曆史問題狀況,現實主義模型就沒有足夠的信息可以做齣準確的預測。現實主義方法的基本問題在於,它沒有足夠的信息去把各種類型的聯盟傾嚮區分開來,許多不同的聯盟看上去都是似是而非的。
  在對於二戰聯盟問題的分析上,傾嚮矩陣的集群分析也可能得齣很好的預測結果。集群分析法通常假設集群的對象是等權重的,那麼為瞭盡可能地接近地形理論,我們就要換用一個以規模為權重的傾嚮相異度矩陣(dissimilarity matrix of propensities)。然後用不加權的分對平均法(UPGMA)計算齣相異度,即采用標準分層凝聚法(standardhierarchicalagglomerativetechnique)對該矩陣進行集群處理,因為這種方法與我們的目標最為一緻。它得齣的兩方集群結果是希臘和蘇聯一組,共同反對其他所有國傢。這就和地形理論的第二種最優結果相似,卻與曆史事實大相徑庭。如果我們隻就大國進行集群,結果也是把蘇聯放在反對英國、法國、德國和意大利的對立麵。
  可見,在靜態分析的方法中,地形理論在估計聯盟結果方麵優於其他方法。我們可以用事實進一步地檢驗,隨著二戰一步一步臨近,軍事開支、尤其是德國的軍事開支迅速膨脹,國傢的相對規模(也就是說國傢實力)發生瞭變化。那麼把這種變化納入到計算當中來,看看隨著越來越接近戰爭真正爆發的時刻,地形及相應的預測結果會有什麼變化,這正是我們接下來將要進行的一個有趣的練習。
  1937年,我們得齣的兩個格局與1936年相同,即與二戰實際情況相同(除瞭波蘭和葡萄牙)的格局1和支持/反對蘇聯型的格局2。到1938年,局部最優點隻有一個,即格局1。這可能是由於英國國內輿論越來越傾嚮於與蘇聯結盟,而把對共産主義的反感暫時放在一邊。到瞭1939年,局部最優點又隻有一個,它和格局1很像,唯一不同的是把波蘭從反蘇聯的一方搬到瞭反德國的一方。這可能要歸因於德國的實力越來越強,到1939年時已經比蘇聯強大得多瞭。
  總之,這個理論用早到1936年的數據對二戰期間的歐洲聯盟格局進行預測非常準確,而且,數據年份越靠後,預測越完美。到1938年,2個預測縮減成為瞭1個,1939年的唯一預測格局則對17個國傢當中的16個都預測正確瞭。這個結果齣現的概率實際非常小,少於1/3000。而且,地形理論的預測結果與實際的曆史現實逐漸接近的過程也正是20世紀30年代後期歐洲所實際發生的變化的一麵鏡子,反映齣被動員起來投入戰爭的國傢不斷調整的行動。
  非常值得注意的是,能得齣與曆史現實如此一緻預測的,竟是這樣一個簡單的理論及其概念的少量應用。而且尤其驚人的是,除瞭與曆史相符的預測外,它的另一種結果對於曆史的可能性來說也是閤情閤理的。
  我們知道,除地形理論外,隻有一個關於二戰期間聯盟格局的預測理論,那就是理性選擇理論的阿爾特菲爾德比爾諾·德梅斯奎塔(Altfeld Buenode Mesquita)模型。它預測的內容是,一旦戰爭爆發國傢會怎樣選擇陣營。地形理論認為聯盟行為隻針對行動的國傢本身,而與此不同的是,阿爾特菲爾德比爾諾·德梅斯奎塔模型中聯盟行為影響的是國傢的效用,其對於戰時聯盟格局的預測以這些聯盟的狀態為基礎。在預測戰時聯盟格局的因果鏈條中,地形理論使用的數據(如宗教、意識形態差異等)比起聯盟類型數據來,層次要更加深入一些。而且,阿爾特菲爾德比爾諾·德梅斯奎塔模型隻能預測戰爭爆發後事件(比如說,這樣就避免瞭會把德國和波蘭判定為對立方),而地形理論使用的是戰爭爆發前、甚至是數年前的數據。二者之間的另一個不同之處在於,阿爾特菲爾德比爾諾·德梅斯奎塔模型僅對戰爭爆發後兩個月內參戰的國傢作齣預測,而地形理論會預測所有的民主政體的參與國的行為。阿爾特菲爾德比爾諾·德梅斯奎塔模型的一個主要局限性在於,它在做齣任何預測之前都需要關於實際的戰時聯盟狀態的信息,因為它要用這些信息來估計預期效用方程中各個要素的相對影響。但另一方麵,該模型容許中立方的存在,而且隻要稍加改動就可以適用於長時段(1816—1965)的戰爭中的相應預測。從結果來看,阿爾特菲爾德比爾諾·德梅斯奎塔模型沒有預測到英國和法國會參戰反對德國,而是認為二者都會保持中立。地形理論則準確地估計到瞭英國和法國的舉動,對那些前麵幾年都沒有參戰的國傢的決策也有正確的預測。
  現在我們已經看到,地形理論成功地預測瞭所有大國和幾乎所有中小國傢的戰時聯盟抉擇,接下來要做的,就是把該理論進一步應用到1990年歐洲變動的局勢中去,預測一下當蘇聯終止其強加在東歐國傢身上的控製後,事態會有怎麼樣的變化。在這項分析裏,考察的對象是1989年身為北約或華約成員的19個歐洲國傢;該分析已包含瞭德國統一的影響,但不考慮接下來的蘇聯解體事件。這裏采用的規模指標和前麵的分析一樣,但對傾嚮指標的運用有兩點調整。第一,因為實質上,幾乎所有的歐洲政府都是或希望自己是市場導嚮的民主政體,這裏就不再把意識形態算作影響傾嚮的因素之一。第二,引入經濟關係作為影響傾嚮的因素,這可以用在歐洲經濟共同體中的雙邊關係來衡量。從1989年(並非最優)的東西聯盟齣發,地形理論給齣瞭一個唯一的預測:蘇聯會被除保加利亞以外的所有前盟友拋棄。不久之後,蘇聯解體前的事實證明這確實是正確的。1991年,波蘭、捷剋斯洛伐剋和匈牙利嚮北約提齣希望建立正式關係,北約則邀請它們加入瞭新的北大西洋閤作理事會。這裏隻有對羅馬尼亞的預測失算瞭。(這麼多國傢中隻有一個預測錯誤的概率已經小於1/1000。)從規模上講,預測結果已經把該係統中國傢實力總和的97%包含進去瞭。總而言之,地形理論準確地預測到:華約的解體會使得絕大部分原蘇聯盟友轉嚮與西方國傢結盟,而北約成員沒有哪個會改變陣營。一個適用於20世紀30年代的理論放到90年代竟同樣有效,這真是令人難以置信。
  ……

前言/序言

  從閤作的進化到閤作的復雜性
  一、引言
  在當代經濟學、政治學、倫理學、人類學和其他社會科學中,甚至在生物學和其他自然科學中,阿剋塞爾羅德(Robert Axelrod)教授的“重復囚徒睏境博弈計算機程序奧林匹剋競賽”,已經是一件很少人不知曉的理論佳話瞭。其試驗結果,不僅對當代社會科學的許多領域的傳統理念都産生瞭廣泛影響和衝擊,而且從中引發齣來的一係列問題,迄今仍待學術各界進一步探討和迴答。
  在具體展開討論由阿剋塞爾羅德所主持設計的“重復囚徒睏境博弈”試驗結果的理論意義和所引發的問題之前,這裏謹對本書作者做簡要介紹。阿剋塞爾羅德教授1964年獲芝加哥大學數學學士,1966年和1969年相繼從耶魯大學獲政治學碩士和博士學位。從耶魯大學畢業後,他曾在加州大學伯剋利分校任教,並於1974年轉而在密歇根大學(the university of Michigan)執教,現為密歇根大學政治係和福特公共政策學院的“沃爾格林人類理解研究講座教授”(the Walgreen professor for study of human understanding),以及“阿瑟?W.布羅米奇(ArthurW.Bromage)政治學與公共政策傑齣教授”。阿剋塞爾羅德的主要著作有:《利益衝突:歧異目標理論以及在政治中的應用》(1970),《認知與選擇通論》(1972),《閤作的進化》(1984,這本著作已經被翻譯為11種文字),《製服復雜性:從科學前沿來審視組織的意義》(2000),以及本書《閤作的復雜性:基於參與者競爭與閤作的模型》(1997,這本書也已經被翻譯為日文、韓文、西班牙文等多國文字)。除此之外,阿剋塞爾羅德教授還有數十篇學術論文發錶在國際學術期刊或已經齣版的文集中。
  在上述著作中,最為國際學術界所熟知的還是其《閤作的進化》這部名著,而本書則是《閤作的進化》的續篇和補充。
  二、問題的提齣:人類群體是如何達緻閤作的?
  人類社會與其他動物群體的一個重要區彆是,人與人之間可以通過運用個人理性而達緻某種形式的閤作(我這裏所說的閤作,包括諸如勞動與社會分工、專業化,市場交易,閤夥和共同經營企業,以及在經濟組織、社會團體、政黨、政治聯盟、各種民間和公益團體中人們的相互協作、交往和協調行動,等等)。閤作,能産生“閤作剩餘”,這應該是經濟學的一個常識——盡管沒有多少經濟學教科書真正講“閤作剩餘”這個概念(Moulin,1995)。人類的相互交往,用現代比較時尚的博弈論術語講,就是在玩一種“社會博弈”。在人類社會的博弈中,常常會齣現一種叫“囚徒睏境”的博弈格局。囚徒睏境博弈格局錶明,若依照當代主流經濟學的理論推理假設,有著超理性(hyper rational)的最大化推理的博弈者(players)在許多博弈格局中——按照博弈論中的“無名氏定理”(the Folk Theorem),即使是在有限重復囚徒睏境博弈中——也是無法達緻閤作或言帕纍托效率的。
  然而,博弈論和經濟學的理論預測是如此,但現實情形卻是,在任何人類文明社會中,在人與人之間總是存在這樣和那樣形式的閤作,因而阿剋塞爾羅德(Axelrod,1984;羅伯特?阿剋塞爾羅德,2007年,第3頁)曾認為:“閤作現象四處可見,它是文明的基礎。”這樣就齣現瞭一個經濟社會理論所必須迴答的問題:在每個人都具有自私動機的情況下,人們怎樣纔能通過社會博弈而自發産生閤作?換言之,人類閤作能否從有著自己利益最大化推理邏輯的行動者的行為互動中自發産生?或更直接一點說,人們到底是如何跳齣這處處存在且沒完沒瞭的種種“囚徒睏境”迷局的?
  從人類經濟社會思想史的理論進展來看,盡管“囚徒睏境博弈”的理論程式到1950年纔被人們設計齣來,但如何剋服個人短期和眼前的私利而通過閤作最大化人類的社會福祉這一問題,卻在很早就被各學科的一些重要思想傢們認識到並且提瞭齣來。從西方社會思想史來看,在這方麵最為人們所熟知的例子是霍布斯(Thomas Hobbes,1943)的“利維坦”和盧梭(Jean JacquesRousseau,1968)的“社會契約理論”。按照霍布斯的理論思路,沒有一個作為利維坦的機構(可大緻理解為“作為國傢政府的集權體製機構”),人類閤作將是不可能産生的,因此,一個強權的政府機構是必要的。而按照盧梭的理論路徑,一些自由人之間相互交往會産生“公意”(general will),在公意存在的情況下,通過某種“社會契約”,就可以達緻並維持某種人類社會或社群之間的某種閤作。
  然而,問題到這裏並沒有結束。即使我們同意作為一個巨大利維坦的政府機構對促進社會閤作有某種作用,但是反過來的問題是:如何避免一個龐大的政府官僚科層製所可能帶來的效率損失?於是,通過霍布斯的利維坦形式而達緻的社會閤作,就有一個通過這種方式所達緻的“閤作剩餘”與官僚科層製可能帶來的“效率耗散”的替代關係。
  盧梭的社會契約論,就其本質而論,也是想解決人類社會的閤作問題,但盧梭的政治主張和理論路徑,也不是沒有問題的。這裏尤為值得指齣的是,盡管盧梭批評瞭霍布斯的君主專製主張,提齣在人類最初處於“自然狀態”時是人人自由平等的這種天賦人權觀,並主張在此理論基礎上通過自由人的公意簽立契約而建立國傢,設立政府,並在政府的治理之下實現社會閤作,但盧梭的社會理論本身卻以共和製為形式的專製獨裁的理論為導嚮,從而在現實中,受盧梭和其他法國啓濛思想傢的社會哲學和政治主張的影響,法國在18世紀末和19世紀上半葉也確實發生瞭一場場腥風血雨的大革命。今天究其理論邏輯,我們會發現,按照盧梭的政治理論,集體意誌(公意)是維係契約社會的紐帶,沒有對公共利益的維護,沒有集體意誌(公意)的運用,契約就等於一紙空文,人類社會的閤作也難以發生和存續,由此盧梭認為,公民有義務把公意看成是自己的意誌。在此情況下,若有任何人拒不服從公意,全體就要逼迫他服從公意。因而,根據盧梭的人民主權論的這一邏輯推理,如果某個人或某個組織代錶公意,那麼這個人或組織就有權力來統馭、控製和指導整個社會。這樣一來,一種代錶公意的專製集權統治就自然而然地內在於這一政治推理邏輯之中瞭。由此看來,與其說盧梭的社會契約論是想達緻在人人自願基礎上的某種社會閤作,而毋寜說他是主張一些人以“集體理性”和“社會公意”為名義實行個人的專製獨裁。就此而論,盡管盧梭從詞語上不同意霍布斯的君主專製政體主張,但在通過控製社會來強製人們進行某種社會選擇這一問題上,二者卻可謂是殊途同歸。
  概言之,從霍布斯到盧梭,西方古典社會契約論的一個基本理論假設是,一個具有共同利益的群體會在某種外在強製力量和社會安排下為實現共同利益而采取集體行動,並且這要麼導緻君主專製,要麼達緻共和獨裁。然而,這是人類社會所命定的必然選擇嗎?人類是否必須接受霍布斯的“利維坦”或盧梭的“人民主權者”的專製統治,並隻有在此統治之下纔能實現某種形式的社會閤作?換句話說,哈耶剋(Hayek,1988)在《緻命的自負》一書中所提齣的人類閤作的擴展秩序(the extended order of human cooperation)能否自發生成和自然成長?如果能,其自發生成和自然擴展的外在條件和社會機製又是什麼?這些問題追問到最後,都會牽涉到人類內部——或具體到個人之間——閤作的原初發生機製和維係機理問題。從這個角度來審視問題,今天我們也許會發現,在20世紀由美國著名經濟學傢曼瑟爾?奧爾森(Mancur Olson)所詰問的人類社會的“集體行動的邏輯”,實際上是把人類閤作如何可能這類霍布斯和盧梭式的老問題,在現代社會科學的話語語境中重新提瞭齣來,並把它還原到人與人之間的個人博弈的層麵上來進行考察。
  這裏不妨讓我們再簡單迴顧一下奧爾森的集體行動的邏輯。奧爾森認為,每一個個人都是理性的“經濟人”,個人不僅在個體活動中,而且在集體活動中,其目的都隻有一個,那就是不斷追求個人利益的最大化。正是由於這種個人的自利傾嚮,使得集體行動在大的集團中成為一種不可能的事。因為,集團越大,就越難剋服集體行動中的“搭便車”行為:人人都想分享集體行動的成果,但不願分擔集體行動的成本。奧爾森集體行動的邏輯所麵臨的問題,顯然也是人類社會中經常且時時存在的多人囚徒睏境博弈中眾人的“閤作選擇”如何成為可能的問題。麵對這個古老、簡單而似乎又萬古常新的理論問題,奧爾森的推理邏輯如此單刀直入卻又不乏深刻:“除非一個集團中人數很少,或者除非存在強製或其他某些特殊手段以使個人按照他們的共同利益行事,有理性的、尋求自我利益的個人不會采取行動以實現他們共同的或集團的利益。”(Olson,1980;曼瑟爾?奧爾森,1995年,第2頁)很顯然,奧爾森隻不過是在20世紀復述瞭一遍霍布斯和盧梭所提齣的老問題。
  霍布斯和盧梭的思想,以及後來奧爾森的工作,在人類思想史上無疑均有重要的曆史意義,且在人類數百年的現代化進程中,霍布斯的利維坦和盧梭的社會契約論,均能在歐洲社會的曆史上存在過的政治和社會體製中發現其理論的現實體現(incarnation)。然而,人類社會的閤作,遠比這兩位古典政治哲學傢眼中的政治體製問題要寬泛得多。從國與國之間的軍備競賽、國際貿易、關稅協定的製定和恪守,到商傢雙頭(duopoly)和多頭(oligopoly)競爭、閤夥製與現代科層製公司內部的運作和管理、公共物品的提供,再到鄰裏相處、朋友相交、夫妻之道、傢庭維係……這時時、處處、事事似乎都充滿著超越囚徒睏境博弈的閤作選擇問題,以至於可以認為,沒有人與人之間的閤作,沒有人們對單次或重復囚徒睏境博弈均衡選擇的超越,就沒有人類的文明社會。但是,反過來說,沒有人們麵臨諸種囚徒睏境博弈格局中的“均衡”選擇,即“背叛”,人類社會中的國傢、法律、禮俗、規範、組織和種種製度,在很大程度上也就成為多餘的瞭。那麼,人類社會究竟是如何在一些囚徒睏境博弈的格局中達緻相互閤作的?在麵臨著隨時齣現的囚徒睏境博弈格局時,作為一個理性(包括康德哲學意義上的純粹理性和實踐理性,或更確切說,即包括新古典主流經濟學理論話語中的個人利益和效用的最大化的理性行為,也包括休謨、斯密和康德道德哲學中的道德情感和定言命令)的行動者,在麵臨著一個又一個的重復和不重復囚徒睏境博弈格局時,對你來說最好的選擇是什麼?或言你應該如何選擇?
  這種種問題,既是些理論問題,也是些現實問題;既是牽涉到人類社群組織和社會政製的深層發生機製和原理,也牽涉到個人層麵的道德標準和個人選擇的優化問題。這一係列看似簡單但實際上又十分復雜、且看似錶層但實際上是社會和社群構成基礎的深層問題,就被阿剋塞爾羅德在20世紀80年代連續設計進行的三次“囚徒睏境重復博弈計算機程序奧林匹剋競賽”所充分展示齣來瞭。
  三、阿剋塞爾羅德“囚徒睏境重復博弈計算機程序奧林匹剋競賽”結果及理論意義
  這裏,首先讓我們介紹一下阿剋塞爾羅德所指導進行的三次重復囚徒睏境博弈實驗的模型設計和試驗結果,然後再綜閤評價這三屆博弈實驗結果的理論意義。在下一小節中,我們再來討論阿剋塞爾羅德的《閤作的復雜性》這本著作的主要理論貢獻及其現實意義。
  稍熟悉現代博弈論的讀者會知道,囚徒睏境(thePrisonerDilemma,簡稱“PD”)一般有以下簡單直觀的形式:
  C(閤作)D(背叛)
  C(閤作)R,R S,T
  D(背叛)T,S P,P
  圖1囚徒睏境博弈的一般形式
  其中,按照英文字符所代錶的縮略詞的一般意義來解釋:R,對博弈雙方閤作的報酬支付報酬(reward for mutual cooperation);T,博弈者采取背叛策略的誘惑(temptation to defect);S,對策略選擇中自己采取閤作策略,而對方采取背叛策略的“愚蠢策略”(sucker spayoff)的迴報;P,對雙方背叛的懲罰(punishment for mutual defection)。根據上述定義,囚徒睏境博弈的一般方程式為:PD=T>R>P>S。根據囚徒睏境的這種一般形式,為瞭簡便計算,阿剋塞爾羅德為其博弈競賽設計瞭一個如圖2所示的有限次重復博弈的支付矩陣。
  策略i
  C(閤作) D(背叛)
  策略j C(閤作) R=3,R=3 S=0,T=5
  D(背叛) T=5,S=0 P=1,P=1
  圖2阿剋塞爾羅德重復囚徒睏境博弈支付矩陣
  設計好瞭這個支付矩陣後,阿剋塞爾羅德為他的整個重復囚徒睏境博弈奧林匹剋錦標賽的目標設計瞭這樣一個標準:找齣在這種重復囚徒睏境博弈“錦標賽”中哪種策略是最好的(即能收到的總支付最大)。為瞭達到這一點,阿剋塞爾羅德想齣瞭一個聰明的辦法,就是嚮博弈論專傢們發齣廣告,讓有興趣參賽的博弈論專傢和一些社會科學傢各自設計一種自認為是最好的策略,來參加他的“博弈策略”比賽。在第一次實驗中,阿剋塞爾羅德共收到14個“策略參賽者”。為瞭便於評判,阿剋塞爾羅德增加瞭自己的第15個策略程序“隨機策略”,也就是“沒有策略的策略”:隨機地齣“閤作”(C)和“背叛”(D)牌。阿剋塞爾羅德還把他的“隨機策略”作為“比賽”的底綫。因為,如果有哪一個策略比“隨機策略”的總得分還差,那一定是糟糕透瞭的策略。
  在決定這15個參賽策略後,阿剋塞爾羅德把它們都轉換成同一種電腦語言並在一颱大型計算機中讓它們一一對壘。既然有15種策略,就有225場“比賽”,其中包括每個策略程序也與自己對壘(同一種策略程序對壘)。阿剋塞爾羅德還讓每場“比賽”玩200個迴閤。通過這225場200個迴閤的博弈“比賽”,看哪一個策略參賽者能獲得的支付最多。如圖2所示,支付的點數是這樣計算的:在每次博弈中,相互閤作(C,C),得支付R=3;此方背叛對方閤作(D,C),得T=5;互相背叛(D,D),雙方都受到懲罰,得P=1;此方閤作對方背叛(C,D),得被欺騙的迴報S=0。在此博弈弈局安排中,理論上隻有一種策略組閤能達15000分,那就是15場200個迴閤的比賽全是(D,C)(每個迴閤全得T=5分)。反過來,如全部(C,D),得最低總分S=0。但這兩個極端不會發生。因為沒有一個策略會在對方全齣背叛牌(D)時而自己全齣閤作牌(C)。實際上,任何一種策略平均每場“比賽”所得支付不會超過600。這是兩個參賽程序在一場200個迴閤對抗賽中全齣閤作牌(C,C)自己所能得的分數。所以,阿剋塞爾羅德把600分作為基準分,而將所有參賽策略的比賽成績換算成這一分數的百分比。
  由於阿剋塞爾羅德的“重復囚徒睏境博弈”比賽的參賽程序全由博弈論專傢所提供,有些參賽程序看來設計得非常精明。但是,令人齣乎預料的是,第一屆博弈對抗賽的冠軍竟是在所有策略中最簡單(除瞭阿剋塞爾羅德本人的“隨機策略”外)且錶麵上看來非常“憨直”的“一報還一報”(tit for tat,簡稱“TFT”)策略。這個策略是由加拿大多倫多大學的著名博弈論心理學傢阿納托爾?拉波波特(Anatol Rapoport)教授提供的。“一報還一報”策略非常簡單:第一迴閤取“閤作”,然後每一迴閤都重復對手的上一迴閤的策略。
  阿剋塞爾羅德第一屆“重復囚徒睏境博弈”比賽的結果齣來瞭:“一報還一報”得第一,平均得分504.5,即600基準分的84%。其他8個好的策略中,得基準分介於28.6%和83.4%之間。令人跌破眼鏡的是,在阿剋塞爾羅德的第一次“博弈比賽”中,最失敗的就是最復雜的那一個策略。
  為什麼簡單平直的“一報還一報”策略會獲勝?道理似乎很復雜,也似乎很簡單。當遇到“閤作對手”時,它永遠閤作。即使遇到同類“一報還一報”時,由於大傢都是從閤作開始,也就保持瞭永遠閤作,故所得“閤作剩餘”也總是最高。當“一報還一報”遇到“狡詐的”策略程序時,你怎麼來,我就怎麼往,一報還一報,故也不會比你差。從中,阿剋塞爾羅德得齣一個基本結論:好的策略的標準是永遠不先背叛。“一報還一報”就是一個例子。它會背叛,但隻是在報復時纔如此。這似乎令人相信,“善於閤作的好人”在社會博弈的長期比賽中得分結果會很好,而不管遇到的博弈對手是“善良型”的,還是“詭詐型”的。阿剋塞爾羅德的第一屆博弈大賽也錶明,好的策略必須有三個特徵:“善良”、“寬恕”和“不嫉妒”。所謂“善良”,就是從不主動地先背叛。所謂“寬恕”,就是指很容易忘卻對方過去的“錯誤”。一旦對方“改過”,即以閤作對待。這兩點“一報還一報”均具備,故占這次博弈比賽的榜首。所謂“不嫉妒”,就是當彆的參賽者“賺”得和你一樣多時,你仍然很高興,而且樂於同時從“莊傢”那裏贏錢。很顯然,“一報還一報”也是一種不嫉妒的策略。因為,它從來沒有真正地贏過任何一場比賽。由於“一報還一報”從不先背叛,它從來沒有在任何一場比賽中比對手獲得的支付更高。它似乎傾嚮於與對手分享高分。相比之下,博弈論常識中由所謂“倒推法”所推齣的“有限重復囚徒睏境博弈不會産生閤作,而隻有無限重復的囚徒睏境博弈纔會産生閤作”的“俗定理”,就是基於一種“嫉妒”心理而進行推理的。因為,它總是假定每個博弈者總想取得比對手更高的支付分數。事實上,“俗定理”所展示的是最理性、最精明但也是“最愚蠢”(聰明反被聰明誤)的博弈推理。這種博弈推理所導緻的重復囚徒睏境博弈的比賽結果肯定是最差的,因為它導緻瞭永遠背叛的策略對(D,D)。實際上,這種倒推推理的邏輯也錶明,新古典和博弈論理性最大化理論陣營所派齣的博弈參賽者隻是短視地看到它在與對手進行博弈,而沒有意識到它是與對手一起在與“莊傢”博弈。
  在第一屆重復囚徒睏境博弈對抗賽的結果齣來之後,阿剋塞爾羅德又組織瞭第二屆比賽。這次比賽他共收到62套策略程序,加上他的“沒有策略的策略”即“隨機策略”,共63套策略參賽。第二次,每局比賽也不再是每場200個迴閤瞭,而是更多,因而基準分數也不再是600瞭。在徵集第二屆博弈對抗賽的參賽策略時,阿剋塞爾羅德還把第一屆比賽結果告訴瞭所有第二屆博弈對抗賽的參賽策略程序設計者,並附有他自己的分析,說明為什麼善良及寬恕的策略會在第一屆博弈對抗賽中錶現得如此優秀。但第二屆博弈對抗賽的策略設計者們在收到第一屆對抗賽的結果和阿剋塞爾羅德的說明後,在設計他們的新參賽策略時有兩種思路。一派博弈論專傢根據“善有善報”推理送來瞭善良且寬恕的策略。著名的生物學傢、演化博弈論的奠基人約翰?梅納德?史密斯(John Maynard Smith)甚至還送來“超級寬恕”程序“兩怨還一報”的策略。另一派專傢則推想到大多數同仁會進一步提供善良和寬厚的策略而反其道而行之,設計齣更加“細膩”、“精明”、“狡詐”和“不友善”的策略,以旨在“整整”這些來參賽的“愚笨好人(策略)”。
  然而,第二屆對抗賽結果齣來瞭:狡詐的策略再度失敗,阿納托爾?拉波波特的“一報還一報”策略再度獲勝,並且得瞭基準得分的96%。而且,“善良”的策略再次普遍錶現得比“狡詐”的策略好。在前15名中隻有一個不是“善良”的策略,最後15名中隻有一個不是“狡詐”策略。不過,史密斯的“兩怨還一報”策略在這一屆博弈對抗賽沒有贏。這可能是因為它過於“善良”和“寬厚”因而被那些“精明”而“詭詐”的策略所“無情捕殺”。阿剋塞爾羅德從第二屆博弈對抗賽中甚至還發現,“一報還一報”這一“善良”、“憨直”的策略之所以獲勝,是因為參加第二屆博弈對抗賽的策略大部分是“善良型”的。他還推斷到,如果參賽的其他62個策略全是“詭詐型”的,“一報還一報”策略可能就不會贏瞭。因為,它也會像史密斯的更加“善良”和“寬厚”的“兩怨還一報”策略一樣被狡詐的策略“群狼”所“捕殺”。
  事實上,阿剋塞爾羅德後來又進行瞭他的第三屆“重復囚徒睏境博弈對抗賽”。但這次他並沒有徵集新的策略,而是在改變電腦程序後,讓第二屆的所有參賽策略重新進行比賽。在第三屆對抗賽中,阿剋塞爾羅德主要沿著演化博弈(或譯進化博弈)的理論思路,想從對抗賽中找齣史密斯的“演化穩定策略”(Evolutionary Stable Strategies,ESSs)。為瞭達到這一目的,阿剋塞爾羅德先將63套策略程序存入電腦,讓其作為演化博弈的第一代。在第一代之間的對抗賽結束時,每一種策略的勝利不是由所得分數來評判,而是根據由每種策略産生多少“後代”來決定。當一個子代生成後,有些策略逐步變得稀少起來,有些甚至完全消失瞭,而其他策略則變得多瞭起來。經過1000代,策略的比例和環境都不再改變而達到瞭一定程度的穩定。第三屆“重復囚徒睏境演化博弈”的實驗結果錶明,幾乎所有“詭詐型”策略都在200代左右完全消失瞭。“一報還一報”策略仍然在第三屆演化博弈比賽中錶現得很齣色。其他5種“善良而不懦弱”的策略也和“一報還一報”同樣成功。阿剋塞爾羅德最後還發現,當演化博弈競賽中所有“詭詐”策略都絕跡後,已無法區分“一報還一報”和彆的“善良型”策略,也無法區彆齣任何兩種競賽策略之間的差異瞭。因為,他們全是“善良”型的,即隻會嚮對方齣“閤作牌”。對於這一演化博弈結果,生物學傢道金斯(Dawkins,1989,p.233)感慨地歸納道:“即使有自私的基因掌權控製,好人仍能得好報!”
  ……
  韋森2007年9月於復旦大學

用户评价

评分

经典之作,模型很好,推荐一下。

评分

理解合作的优秀读物,值得学习

评分

很经典的说,谈的是合作博弈的问题

评分

书还没看 不过看介绍是本好书,看完再来评

评分

受《M B A不能教你的创富课》推荐买的,好评!

评分

理解合作的优秀读物,值得学习

评分

理解合作的优秀读物,值得学习

评分

合作系列都要看看

评分

书不错,很好,喜欢,还会再买的

相关图书

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 tushu.tinynews.org All Rights Reserved. 求知書站 版权所有