編輯推薦
本書是行為領域的經典之作,主題是閤作的産生和進化。作者以組織的兩輪“重復囚徒睏境”競賽為研究對象,結果發現在兩輪競賽中勝齣的都說較簡單的策略“一報還一報”。這一策略簡介明晰,具有善良性、寬容性、可激怒性和策略性,其齣色的競賽錶現為我們瞭解個人、組織和國傢間閤作産生和進化提供瞭積極的前景,其結論在社會科學的諸領域産生瞭廣泛深刻的影響,被廣泛徵引。
內容簡介
本書是博弈論的經典之作,作者的一個重要結論就是人們相互作用越頻繁,閤作的可能性就越大。關於書名,所謂閤作的進化,也就是說,閤作不是自然産生的,而是要經過一個過程的“進化”纔能達成。在這個進化過程中,人們通過學習、試錯逐步嚮閤作演化。書中對於閤作提齣瞭幾點建議:不要嫉妒,不要首先背叛,對閤作和背叛都要給以迴報,不要耍小聰明,並積極參與社會的各種閤作,促進閤作的進化,通過進化而逐步成熟,最後達到“閤作”與“和諧”。這也正是本書的意義所在。
作者簡介
羅伯特·阿剋塞爾羅德,密歇根大學政治學與公共政策教授,美國科學院院士,著名的行為分析與博弈論專傢。除本書外,還著有《閤作的復雜性》等著作。
精彩書評
“本書的確有資格取代《聖經》。”
——演化生物學大師理查德?道金斯(Richard Dawkins),《自私的基因》作者
“我們對閤作行為的看法將會永遠被改變……隻要讀過、領略並實踐本書之後,你的人生將會發生深刻的變化。”
──《華爾街日報》(Wall Street Journal)
“本書以驚人的方式巧妙地糅閤瞭理論分析、趣聞軼事,以及一種極為不尋常的經驗研究模式……從大型企業的利益衝突,到美國對越南局勢的介入等,全都在本書作者對囚徒睏境問題的應用分析之中。”
——《科學》雜誌(The Sciences)
目錄
序 理查德·道金斯/1
中文版前言/1
英文版前言/1
第一部分 導論
第一章 閤作的問題/3
第二部分 閤作的齣現
第二章 “一報還一報”在計算機競賽中的勝利/19
第三章 閤作的建立/38
第三部分 沒有友誼和預見的閤作
第四章 第一次世界大戰塹壕戰中的“自己活也讓彆人活”的係統/51
第五章 生物係統中的閤作進化(與威廉·D.漢密爾頓閤著)/62
第四部分 對參與者和改革者的建議
第六章 如何有效地選擇/77
第七章 如何促進閤作/88第五部分結論
第八章 閤作的社會結構/101
第九章 迴報的魯棒性/118
附錄A 競賽結果/132
附錄B 理論命題的證明/145
參考文獻/153
譯後記/167
精彩書摘
第六章如何有效地選擇第六章如何有效地選擇
雖然預見對於閤作的進化不是必要的,但它卻對我們很有幫助。因此這一章和下一章將分彆對參與者和改革者提供建議。
這一章為那些處於“囚徒睏境”的人提供建議。從個體的眼光看,目標是在與對手的一係列對局中盡可能地得高分。由於這個遊戲是“囚徒睏境”,參與者會受到背叛的短期誘惑,但是通過與對方建立雙方閤作的模式可以得到更多的長期好處。對計算機競賽的分析和理論研究的結果,為我們提供瞭一些有用的信息,即在不同的條件下什麼樣的策略會起作用和為什麼這些策略能錶現得好。這一章就是把這些發現轉化成對參與者的建議。
在持續的“重復囚徒睏境”中應如何錶現,下麵是四個簡單的建議:
1.不要嫉妒;
2.不要首先背叛;
3.對閤作與背叛都要給以迴報;
4.不要耍小聰明。
不要嫉妒
人們習慣於考慮零和博弈,在這種情況下,一個人贏,另一個就輸。一個很好的例子就是下棋比賽。為瞭能贏,一個參賽者必須在大部分時間裏比對手做得更好。白棋贏黑棋就輸。
然而生活中的大多數情況都是非零和的。一般來說,雙方可以都做得很好,也可以都做得很差。雙方的閤作是可能的,但並不是總能實現。這就是為什麼“囚徒睏境”是各種各樣的日常情形的有用模型。
在我的課堂中,我經常讓幾對學生玩幾十步“囚徒睏境”遊戲。我告訴他們目標是他們自己得分,就像每一分就是一美元一樣。我還告訴他們不要理會他們的得分是比對手好一些或差一些。隻要他們能得到盡可能多的“美元”。
但是,這些指導一點也不起作用,學生們總是要找一個相對的標準來衡量他們是做得好還是做得差。他們通常使用的標準是把他們的得分與對手的得分相比較。遲早,一個學生為瞭領先或為瞭看看會發生什麼而背叛,另一個學生也不甘落後而背叛。因此,情況由於雙方的相互報復而惡化瞭。不久雙方便會認識到他們做得不夠好,其中一人試圖恢復雙方的閤作,但另一個人不能肯定這是否是對方的一個花招,擔心一旦閤作開始後又要被占便宜。
人們傾嚮於采用相對的標準,這個標準經常把對方的成功與自己的成功聯係起來。這種標準導緻瞭嫉妒,嫉妒又導緻企圖抵消對方已經得到的優勢。在“囚徒睏境”的形式下,抵消對方的優勢隻能通過背叛來實現。但是背叛導緻更多的背叛和對雙方的懲罰。因此嫉妒是自我毀滅。
要求自己比對方做得好不是一個很好的標準,除非你的目的是消滅對方。在大多數情況下,這個目的是不可能實現的,或者追求這個目的有可能導緻危險的衝突。如果你並不想消滅對方,比較你的得分與對方的得分就可能産生自我毀滅的嫉妒。一個更好的相對標準是把你所做的與處在相同情況下的其他人所做的做比較。對於一個給定的對方策略,你是否做得最好?其他人在這種情況下能做得更好嗎?這就是檢驗錶現是否成功的一個很好的標準。
“一報還一報”由於與其他多種多樣策略相處得很好而贏得瞭競賽。平均來說,它比競賽中的其他任何策略都做得更好。但是“一報還一報”從來沒有一次在遊戲中比對方得更多的分!事實上,它不可能比對方多得分。它總是讓對方先背叛,並且它的背叛次數絕不比對方的多。因此“一報還一報”不是得到和對方一樣多的分,就是比對方略少。“一報還一報”贏得競賽不是靠打擊對方,而是靠從對方引齣使雙方有好處的行為。“一報還一報”如此堅持引齣雙方有利的結果,從而使它獲得比其他任何策略更高的總分。
因此在一個非零和的世界裏,為瞭你自己做得好,你沒有必要非得比對方做得更好。特彆當你要和許多不同的對手打交道時更是這樣。隻要你自己能做得更好就讓他們每個人做得和你一樣或略好些。沒有理由去嫉妒對方的成功。因為在長時間的“重復囚徒睏境”中,其他人的成功是你自己成功的前提。
國會是一個很好的例子。國會議員可以相互閤作而不威脅到各自在選區的名望。對於一個議員的主要威脅不是另一個來自這個國傢其他地區的議員的相對成功,而是來自可能在選區進行挑戰的人。因此妒忌其他議員從雙方閤作得來的成功是沒有多大意義的。
在生意場中也是這樣,一個從供應商那兒買來東西的公司期望有一個供方和買方都有好處的成功的關係。妒忌供方的利潤是完全沒有意義的。任何通過不閤作行為(如不按時付賬)來減少這種利潤的企圖,都將激起供方的報復行動,報復行為可以采用多種形式,經常以不明顯懲罰形式,諸如拖延發貨,較低的質量保證,不願意打摺扣,或者不交換市場條件變化的信息(Macaulay 1963)。這種報復使得嫉妒代價很大。買者不要擔心賣方的相對利潤,而可以考慮是否有其他更好的購買策略。
不要首先背叛
競賽和理論分析的結果都錶明,隻要對方閤作,你閤作就會有好處。第二章中的競賽結果是很令人吃驚的。決定一個規則錶現如何的唯一最好的特徵是這個規則是否善良,也就是說這個規則是否不首先背叛。在第一輪競賽中,前8名規則都是善良的,在後7名規則中沒有一個是善良的。在第二輪競賽中,前15名規則中隻有一個是非善良的(它名列第8),而後15名規則中隻有一個是善良的。
有些不善良的規則,使用相當復雜的方法來試探它是否能逃脫懲罰。例如“檢驗者”嘗試在第一步背叛,如果對方報復的話,它就馬上撤迴。在另一例子中“鎮定者”傾嚮於在背叛前等待十幾步,看看對方是否能被哄騙和被偶爾占便宜。如果是的話,“鎮定者”就更頻繁地增加背叛,直到對方反擊而被迫撤迴。但是這些嘗試首先背叛的策略都錶現得不怎麼好。因為存在許多由於願意報復而不被占便宜的策略,所以導緻衝突的代價有時是很高的。
甚至許多專傢也沒有意識到善良性對避免不必要的衝突的價值。在第一輪競賽中,由對策專傢送來的規則中幾乎有一半是不善良的。參考瞭第一輪的明顯結果,第二輪比賽中大約有1/3的規則采用不善良的策略,但是,它們都沒有占到便宜。
第三章的理論結果提供瞭另一個方式來說明為什麼善良的規則能錶現得如此好。由於善良的規則相互之間相處得很好,因此善良規則的群體是很難被侵入的。而且能夠阻止單個變異個體侵入的善良規則的群體也能阻止這個變異規則的任何小群體的侵入。
理論的結果給善良策略的優勢帶來瞭一個很大的限製,即當未來的相遇相對於從背叛得到的直接好處不足夠重要時,單等對方背叛就不是一個好主意。必須記住隻有當摺扣係數w相對於收益參數R、S、T和P足夠大時,“一報還一報”纔是一個穩定的策略。特彆是命題2錶明,如果摺扣係數不足夠大,當對方采用“一報還一報”時,你最好采用“背叛”和“閤作”交替的策略或甚至總是背叛。因此,如果對方似乎不再見麵,馬上背叛比善良要好。
這個事實對於那些大傢都知道的從一個地方遷移到另一個地方的群體有一個不幸的含義。一位人類學傢發現當吉普賽人接近非吉普賽人時,總怕惹上麻煩,非吉普賽人接近吉普賽人時總懷疑會被騙。
例如,一個醫生被叫去看一個病得很厲害的吉普賽小孩。他不是第一個被叫的醫生,但他是第一個願意來的醫生。我們擁著他走嚮後臥室,但他在病人屋門前停下說:“這次上門是15美元,上次還欠我5美元,在我看病人之前付我20美元。”“行,行,你會得到的,先看孩子吧,”吉普賽人懇求道。爭執瞭幾個迴閤後我齣麵調停,付10美元後醫生查看瞭病人。看病之後,我發現這個吉普賽人齣於報復,根本就不想付那另外的10美元。(Gropper1975,pp.106—107)
在加利福尼亞社區,時有發現吉普賽人不付醫生賬單,但是市政罰款卻都是馬上就付(Sutherland1975,p.70)。這些罰款大都是由於違反垃圾管理。這些吉普賽人每年鼕天都迴到同一城市。可以推測這些吉普賽人知道他們必須繼續與這個城市的垃圾站打交道而不能換另一個。相反,在這個地區有足夠的醫生,得罪一個醫生,在需要時可以再找另一個。
短暫的接觸不是使首先背叛有好處的唯一條件,另一個可能性是閤作得不到迴報。如果其他人都采用“總是背叛”的策略。那麼一個單一的個體就不可能做得比使用“總是背叛”更好。但是,如第三章所示,即使迴報性策略(如“一報還一報”)之間相互作用的比例很小,采用“一報還一報”也比采用群體中大多數采用的“總是背叛”的策略好。第三章的數值例子說明,隻要5%的比例與類似“一報還一報”的策略打交道就能使這個小群體的成員比大多數背叛的成員做得更好。
那麼是否有人會迴報某人最初的閤作呢?在某些情形下是很難預測的。但是如果有足夠的時間嘗試各種不同的策略,並且在某種方式下,更成功的策略能變得更普遍,那麼你就完全可以相信,會有人迴報閤作的。理由是,即使是一個相當小的善良策略的群體也能侵入到“小人”的群體,並且在它們自己相互之間所得的高分的基礎上成長起來。一旦善良的策略站穩腳跟它們就能抵製“小人”的反侵入。
當然,你可以嘗試更保險的方式,即先背叛直到對方閤作,纔開始閤作。然而,競賽的結果錶明,這實際上是一個很有風險的策略,因為你最初的背叛就可能引起對方的報復。並使你處於要麼被占便宜要麼雙方背叛的兩難境地。如果你懲罰對方的報復,這種反應就會一直延續下去。如果你寬恕瞭對方,你就得冒被欺負的風險。即使你能避免這些長遠問題,對你的最初背叛的當下報復會使你希望自己從一開始就應該是善良的。
對競賽的生態分析揭示瞭另一個為什麼首先背叛是很冒險的道理。第二輪競賽中前15名規則中唯一的非善良策略是名列第8的“哈林頓”。這個規則錶現得很好。因為它與競賽中的名次較低的規則相遇時得分都很高。在假想的未來生態競賽中,名次較低的規則在群體中的比例越來越小。最終能被這個最初挺成功的非善良策略占便宜的策略就越來越少,接著它自己也消亡瞭。因此生態分析說明,與那些自己本身得分並不高的策略相遇你錶現得很好是沒有用的,它隻不過是一個自我毀滅的過程。這個教訓說明,雖然不善良在最初看來似乎是很有希望的,但長期下去它將毀壞使自己成功所必需的環境。
對閤作與背叛都要給予迴報
“一報還一報”超常的成功給齣瞭一個簡單的但又是很有力的建議:要迴報。在第一步閤作之後,“一報還一報”隻是簡單地迴報對方在上一步的所為。這個簡單的規則具有驚人的魯棒性。它贏得瞭第一輪“囚徒睏境”計算機競賽,並取得比任何其他由對策專傢們送來的規則更高的平均得分。每一個第二輪競賽的參加者都知道這個結果,但“一報還一報”又贏瞭第二輪競賽。這個勝利顯然是令人驚訝的。因為每一個參賽者是在考慮瞭“一報還一報”在第一輪競賽中的勝利結果之後,纔提交他們的參賽規則的。顯然人們都希望他們能乾得更好,但是他們錯瞭。
“一報還一報”不僅贏得競賽本身,而且在假設的繼續比賽中比其他任何規則錶現得都好。這錶明“一報還一報”不僅與最初的各種規則相處得很好,而且能與那些可能在未來群體中占較大份額的成功的規則也相處得很好。它不毀壞自己成功的基礎,相反,它在與其他成功的規則相互交往中繁榮起來。
“一報還一報”所體現的迴報在理論上也是很重要的。當未來相對於現在是足夠重要的時候,“一報還一報”是集體穩定的。這就意味著,如果每個人都使用“一報還一報”策略,那麼對一個特定的個體的最好建議就是也采用“一報還一報”策略。或者這麼說,如果你能肯定對方是采用“一報還一報”,並且這種交道將持續足夠長時間,那麼,你最好也采用相同的策略。“一報還一報”的迴報性的精彩之處在於它能在很大範圍的環境中錶現齣色。
事實上,“一報還一報”很善於區分哪些規則會迴報它的最初閤作而哪些則不會。從第三章引入的概念看,它是有最大識彆力的。如命題6所示,這就使得它能夠以一種小群體的形式侵入“小人”的世界。並且,它迴報背叛也迴報閤作。這使得它是可激怒的。命題4證明瞭,像“一報還一報”這樣的善良策略要阻止被侵入,就必須是可激怒的。
在反應對方的背叛時,“一報還一報”保持瞭懲罰和寬恕的平衡。“一報還一報”總是在對方每次背叛之後隻背叛一次。這樣它在競賽中取得瞭成功。那麼,是否總是嚴格的一對一迴報纔是最有效的平衡?這就很難說瞭,因為稍有不同平衡的規則並沒有被提送參賽。但有一點是清楚的,即用多於一次背叛來迴報對方的背叛將有可能使衝突升級。另一方麵,少於一對一的迴報將有被占便宜的危險。
“兩報還一報”是一個隻有當對方在前兩步連續背叛時,它纔背叛的規則。因此它是一對二迴報。這個相對寬容的規則如果被提送就會贏得第一輪競賽。它能做得如此好是因為它能避免與某些甚至引起“一報還一報”麻煩的其他規則陷入雙方報復的境地,但是當它真的被送交參加第二輪競賽時,它甚至沒有進入前1/3名次。原因是在第二輪競賽中有些規則利用它對單一背叛的寬恕而占它的便宜。
以上分析的啓示是,最優的寬恕水平與環境有關。特彆是如果主要的危險是來自那些善於占“好說話”規則便宜的策略,那麼,太多的寬恕就要付齣代價。對一個給定的環境,準確的平衡是很難確定的,但是,競賽的結果證明,對背叛類似一對一的反應可能在大多數情況下都是相當有效的。因此,對參與者的一個很好的建議是對閤作和背叛都要給予迴報。
不要耍小聰明
競賽結果錶明,在“囚徒睏境”的情況下人們容易耍小聰明,然而復雜的規則並不比簡單的規則做得更好。事實上,所謂最大化規則錶現很差就是因為它們經常陷入雙方背叛。這些規則的共同問題是,使用一些復雜的方法來推斷對方。而這些推斷常常是錯誤的。一部分問題是對方經常用試探性的背叛來錶明它不會被引誘而閤作,但是問題的關鍵是這些最大化規則沒有考慮到它自己的行為會引起對方的變化。
在決定是否帶傘時,我們並不需要擔心老天會考慮我們的行為。我們可以根據以往的經驗,判斷下雨的可能性。在零和博弈中,如下棋,我們可以放心地假設對手將走他所能發現的最危險的一步棋。並且我們可以依此去行動。因此,在我們的分析中盡可能地精明和復雜是有好處的。
非零和博弈——像“囚徒睏境”——並不是這樣。不像老天下雨,對方對你的行為是有反應的,也不像下棋的對手,在“囚徒睏境”中的對方不應該被認為是一心想背叛你的。對方將把你的行為看作你是否迴報閤作的信號。因此,你自己的行為將會反射到你的身上。
試圖使得分最大化的規則把對方看作環境的一個不變的部分而忽略瞭相互的作用,不管他們在有限的假設下所做的計算是多麼的聰明。如果你離開對方適應你、你適應對方、對方又適應於你的適應這樣一直下去的反應過程去模擬你的對方,那麼你的聰明是不會有好結果的。這是一條充滿成功希望的艱難之路,顯然在兩次競賽中沒有一個復雜的規則精於此道。
另一個太聰明的方式是使用“永久報復”的策略。這個策略隻要對方閤作它就閤作,但是一旦對方背叛一次,它就決不閤作。由於這個策略是善良的,它與其他善良的策略相處得很好。並且它與那些不怎麼反應的規則(如完全隨機的規則)相遇時,乾得也不錯。但它與許多其他規則相遇就乾得很差,因為對於那些偶爾背叛但準備一旦受懲罰就撤迴的規則來說,它太快放棄閤作瞭。“永久報復”看起來似乎很聰明,因為它為避免背叛提供瞭最大的激勵,但是它為瞭自己的利益顯得太嚴厲瞭。
參加競賽的規則中還有第三種太聰明的形式是,它們采用的概率策略是如此復雜以至於其他策略不能把它們與純粹的隨機選擇區分開來。換句話說,就是太多的復雜性就顯得是完全雜亂無章。如果你采用一個看起來是隨機的策略,那麼你也就顯得對對方不反應,如果你是不反應的,對方就受不到與你閤作的激勵。因此復雜到不可理解是非常危險的。
當然,在許多人類事務中一個使用復雜規則的人可以嚮對方解釋每一個選擇的理由。然而,問題齣現瞭。對方可能懷疑所提供的這些理由,因為它們是如此復雜顯得好像是專門為這個場閤設計的。在這個情況下對方將認為不值得有任何反應。因此,對方會把一個顯得不可預測的規則看作是不可改造的。結果自然是導緻背叛。
“一報還一報”在競賽中得到巨大成功的原因之一是它具有很大的清晰性,即它非常容易被對方理解。當你使用“一報還一報”策略時,對方有很好的機會去理解你在乾什麼。你對任何背叛的一對一的反應是一個很容易被意識到的模式。而且你的未來行為是能被預測的。一旦這些情況發生瞭,對方能容易地發現應付“一報還一報”的最好方式就是與它閤作。假設這個遊戲有足夠的可能繼續下去,至少還有下一步相遇。那麼當你遇到“一報還一報”策略時隻有馬上和它閤作是最好的,這樣你將可以在下一步得到一個閤作。
另外,在零和博弈(如下棋)和非零和博弈(如“重復囚徒睏境”)之間有一個重要的不同。在下棋時,讓你的對手猜疑你的企圖是很有用的,你的對手越是懷疑,他(或她)的策略就越沒效果。在對手的任何無效行為就是你的利益的零和博弈中,隱瞞你的企圖是很有用的。但是在非零和情況下,如此聰明不總是有好處的。在“重復囚徒睏境”中,你要從對方的閤作中得到好處。訣竅在於鼓勵閤作,一個好的方式就是清楚地錶明你願意迴報,言語在這裏是有幫助的。但大傢都知道行動比言語更響亮。這就是“一報還一報”之所以如此有效的原因。
……
前言/序言
這是一本樂觀的書,但這種樂觀是可信的,它不是天上掉餡餅式的、不切實際的天真願望(或者革命的狂熱)。
為瞭可信,一個樂觀主義者首先必須承認基本的現實,它既包括人性的現實,也包括所有生命本性的現實。這裏所說的生命是達爾文意義上的生命,它涵蓋宇宙裏的所有生命。在適者生存的達爾文世界裏,充滿著那些使得生存者生存下來的特質。按照達爾文的說法,我們悲觀地假設生命在自然選擇這一層麵是極端自私的,對苦難無情地冷漠,殘忍地損人利己。然而從這個被扭麯的起點開始,即使不必是刻意的,類似於友善的兄弟姐妹般的夥伴關係也會齣現。這就是羅伯特?阿剋塞爾羅德這本不平凡的書要傳遞的令人振奮的信息。
我寫這個前言費瞭不少周摺。20世紀70年代後期,在我的第一本書,也就是闡釋瞭上述悲觀原理的《自私的基因》齣版之後幾年,我意外地收到我原本不認識的美國政治學傢羅伯特?阿剋塞爾羅德寄來的信件,他發起瞭一個“重復囚徒睏境”的計算機遊戲競賽,並邀請我參加競賽。更準確地說,他邀請我提交一個計算機程序去參賽,這也錶明瞭人和計算機的最重要差彆是計算機程序沒有有意識的遠見。其實,那時我並不想參賽,但我深深被這個主意所吸引,即使是被動的,我也為這件事做瞭點
閤作的進化(修訂版) 下載 mobi epub pdf txt 電子書