中文版譯者序 《分層綫性模型——應用與數據分析方法》(第2版)的中文版終於與讀者見麵瞭。 分層綫性模型是1990年代在國際上形成並正在迅速推廣應用的新統計分析技術。由美國芝加哥大學的布裏剋教授和密歇根州立大學的勞登布什教授於1992年閤著的《分層綫性模型——應用與數據分析方法》是這一統計分析方法的代錶作之一。 我是在1990年代後期纔知道這種分析方法的。2000年,在美國執教的朋友王豐博士送給我此書。在研讀過程中,我深為其方法論上的推進和其廣泛的應用性所吸引。 此書既是一本專著,也可以作為教材,因為作者實際上是按教材體例寫的。該書首先從方法論角度展開,指齣研究實踐中最常用的常規迴歸模型在處理多層次關係時的無效性。然後介紹瞭分層綫性模型的原理,討論瞭該模型在多種典型情況下的應用,並附以許多例題的分析示範,十分解渴。顯然,此書的宗旨並不囿於證明一種新方法,而是考慮瞭能夠為更多的研究人員和學生所理解,以促進該方法的普及應用。事實上,該書作者同時也是同名的專門統計軟件HLM的研製者。 我於2001年開始組織一些教師和博士研究生一起分工翻譯該書。2002年,勞登布什教授與布裏剋教授又齣版瞭該書的第2版。其內容大大擴展,從原來的10章擴展為14章,從原來的260頁擴展為480頁,以充分反映10年來這一方法取得的新進展。我們隨即決定中止第1版的翻譯工作,改為翻譯第2版。本來我們翻譯此書的目的隻是團結一批有誌於量化研究方法的青年學者一起追蹤國際學術前沿,但經過2年時間的反復校正與修改,最終我們形成瞭格式統一、譯法一緻、圖錶俱全的譯稿。 北京大學社會學係馬戎教授等同仁見到這個譯本後,一緻鼓勵我們應當爭取正式齣版,並且還為此事多方聯係。但是齣於各種原因,正式齣版之事一再受挫。最後,在社會科學文獻齣版社謝壽光社長的鼎力支持下,這本譯著纔得以正式齣版。 本書的翻譯采用團隊工作形式,由郭誌剛(第1、2、8、10、12章)、鄭真真(第11章)、陳衛(第5章)、周皓(第6、7、14章)、李強(第3、4章)、葛建軍(第13章)、張磊(第9章)共同承擔,最後由郭誌剛負責全書的統稿和校對工作。我的研究生巫锡煒、趙聯飛、李睿、王軍協助進行最後的清樣校對工作。 感謝楊桂鳳編輯高度認真負責的精神,她的辛勤努力使這一中文版增強瞭文本的一緻性,並提高瞭語言上的易讀性。 由於譯者水平有限,對此學術前沿巨著的理解和翻譯難免有不當之處,懇請讀者指教。 郭誌剛 於海澱藍旗營 緻謝(英文版第2版) 自本書第1版齣版以來的十年中,分層模型的有關方法得到瞭長足的發展,並且在各領域中得到瞭廣泛的運用。因此可以說,本書第2版一方麵是原作者之間長期大量閤作的成果,另一方麵也是與更多的其他同事閤作與討論的成果。需要感謝太多的人,但在此處不能一一列齣。無論如何,其中一些人是必須提到的。正是因為有瞭他們,本書纔最終得以付梓。 與Darrell Bock、 Yuk Fai Cheong、 Sema Kalaian、 Rafa Kasim、 Xiaofeng Liu和Yasuo Miyazaki等人在方法論上的討論,不斷地挑戰著我們的想法。Yeow Meng Thum的工作啓發瞭本書第6章和第11章中有關多元分析的應用。Mike Seltzer對第13章的貝葉斯方法提齣瞭極為重要且非常有用的批評,並慷慨地允許將其研究成果作為最後一個例子加入該章。Meng-Li Yang和Matheos Yosef在發展“分層一般化綫性模型”(第10章)中所用的最大似然估計方法方麵做瞭基礎工作。Young-Yun Shin仔細閱讀瞭本書的初稿,並提齣瞭許多建設性意見。Guang-lei Hong對初稿提齣的批評意見促使第12章交互分類模型的形成。作為應用程序員和長期的朋友,Richard Congdon的工作體現在本書的每一章中。Stuart Leppescu也為第2版的數據處理和新的分析工作提供瞭協助。 芝加哥社區人類發展項目(the Project on Human Development in Chicago Neighborhoods, PHDCN)中的同事,包括Felton Earls、 Rob Sampson和Christopher Johnson,都對本書第2版有著重要影響,這體現在第10章和第11章中關於社區效應的例子上。的確,我們還要感謝麥剋阿瑟基金會(the MacArthur Foundation)、國傢司法研究所(the National Institute of Justice)和國傢精神衛生研究所(the National Institute of Mental Health)對芝加哥社區人類發展項目的資助,該項目也支持瞭本版新章節中關鍵性方法論方麵的工作。 我們特彆感謝Pamela Gardner,她幫助檢查、編輯並錄入瞭本書的全稿。她的高效率和幽默感是保證整個工作順利進行的基礎。 匿名評論者對這一版的新章節提齣瞭許多有益的建議。作為Sage齣版社的方法論編輯,C.Deborah Laughton對本書的齣版給予瞭令人欽佩的耐心和精神上的支持;我們還要再次感謝係列叢書的主編Jan de Leeuw的鼓勵。 叢書主編對分層綫性模型的介紹 在社會科學中,數據結構經常在以下意義上是分層的:我們有描述個體的變量,但是個體又組成較大的群體,每一群體由一定數量的個體組成。對於較大群體還有一係列變量來描述。 首推的例子也許是教育。學生組成班級,既有變量描述學生,又有變量描述班級。班級變量也許是學生變量的匯總指標,諸如學生數量或社會經濟狀況的平均值。但是班級變量也可以是教師(如果本班隻有一個教師),或者是本班的教室(如果本班總是聚會於同一教室)。此外,在這個例子中,層次結構還會相當自然地延伸。班級還會進一步組成學校,學校構成校區,等等。我們也可以有描述學校的變量和描述校區的變量(如教學方式、學校建築、鄰裏狀況等)。 一旦我們發現這個分層數據結構的例子,我們就會看到更多的例子。它們自然地發生於地理和(區域)經濟中。在某種意義上,社會學的基本問題就是將個人屬性與所寓於其中的群體和結構的屬性聯係起來。以同一種方式,經濟學的問題是將微觀層次與宏觀層次聯係起來。此外,許多重復測量也是分層的。如果我們不斷追蹤調查一些個體,那麼對任一個體的觀察構成一組測量,按照同一種方式,一個學校或班級也構成一組測量。當每個調查員調查一組對象時,調查員便處於較高層次。隻要對這些分層結構多加思索便會不可避免地導緻一個結論,即使不能說大多數,至少也能說很多社會科學數據都有這種嵌套的或分層的結構。 在意識到分層數據的重要意義之後,下一步是考慮如何在統計技術上體現對分層結構的分析。有兩種做法已經遭到否定。第一種做法是將所有高層變量分解(disaggregate)到個體水平。比如將教師、班級和學校的特徵全都賦予學生個人,然後在個體層次進行分析。這一方法的問題是,要是我們知道一些學生是同一班級的,那麼我們也就知道他們在班級變量上取相同的值,於是,我們便不能采用經典統計技術的基本假定,即各觀測之間相互獨立。另一種做法是先將個體水平的變量匯總到較高層次,然後在較高層次進行分析。比如我們將學生特徵匯總到班級,然後再對班級進行分析,分析時也許還需要按規模對班級加權。這種做法的主要問題是,我們拋棄瞭所有的組內信息,它也許占到最初分析時信息總量的80%或90%。其結果是,匯總變量之間的關係總是顯得較為密切,然而這常常與直接分析未曾匯總的變量所反映的情況大相徑庭。於是,我們不但浪費瞭信息,而且要是我們企圖在個體層次解釋匯總分析結果,還將導緻對結果的麯解。所以,匯總方法和分解方法都不能令人滿意。 如果僅限於用常規綫性模型進行分析,我們知道其基本假定有綫性、正態性、方差齊性、獨立性。我們希望保留前兩項,但需要對後兩項(尤其是關於獨立性的假定)加以修改。修改的主要原因在於:由於同組的個體之間比異組的個體之間更為接近或相似,所以一個學生與其他班級的學生可能是相獨立的,而與同一班級的學生在許多變量上相同。那麼,這些變量並不需要觀察,這意味著它們從綫性模型中消失,進入誤差部分,並導緻殘差之間齣現相關。這一思路可以用方差成分模型來做公式錶達。殘差之間可分為組成分和個彆成分兩種。個彆成分之間相互獨立,組與組之間也是獨立的,而組成分與組特徵完全相關(即組內不獨立)。一些組可能比另一些組有更強的方差齊性,即這些組的組內成分方差有所不同。 對這一思路的公式錶達也可采取稍微不同的形式。假定每一個組都有不同的迴歸模型,在簡單迴歸的情況下,每個組都有自己的截距和斜率。由於各組都是通過抽樣得到的,因此我們假定這是以組為單位構成的總體的組截距和組斜率的隨機樣本。這定義瞭一套隨機係數的迴歸模型。要是我們僅僅假定它們的截距是隨機的,而令所有的斜率相同,其實我們麵對的正是前麵提到過的方差成分研究的情況。要是允許斜率也可以隨機變化,這套模型的情況便更為復雜,殘差的協方差將依賴於個體層次自變量的取值。 在隨機係數的迴歸模型中,也仍然不能與較高層次的(比如描述班級或學校的)變量相聯係。為瞭達到這一目的,我們需要多層模型,其中以組為單位的模型還是綫性模型。於是我們假定,學業能力測試值這一學生變量的斜率與班級規模或教師特徵等班級變量之間呈綫性關係。所以,在每一層次都有一套綫性模型,要是存在很多層次,便有很多嵌套的綫性模型。於是,我們便有瞭一整套反映分層結構的模型,使各個層次的變量聯係起來。 直到大約10年前,擬閤這樣的模型纔在技術上成為可能。大約與此同時,Aitkin和Longford、Goldstein及其閤作者, 以及勞登布什和布裏剋紛紛研發齣瞭有關分析技術及其相應的計算軟件。其中,由布裏剋和勞登布什研發的HLM軟件對用戶最友好,在技術上也最完善,並且他們還及時發錶瞭一係列既有說服力又有意思的範例。在本書中,布裏剋和勞登布什詳細地描述瞭這種模型、其計算方法,以及有關程序和範例。我認為,現在來對這一技術方法提供一個完整的介紹是既重要又及時的。分層綫性模型(hierarchical linear models),或稱多層模型(multilevel models),當然不能解決社會科學中所有的數據分析問題,因為它們還是建立在綫性關係和正態分布假設基礎之上的模型,並且它們所研究的仍是相對簡單的迴歸結構,隻是其中一些變量依賴於其他變量。然而,它們在技術層麵已經使匯總和分解的做法“嚮前邁瞭一大步”,這主要是因為它們在統計原理上是正確的,並且避免瞭信息的浪費。 我認為,這本書的主要貢獻在於通過一係列例題的分析示範為讀者提供瞭清晰的概念。本書對各種不同層次的模型做瞭清楚的分類,同時又未完全割斷其間的聯係。讀者可以分彆把握某一層次中可能的機製,然後再將不同層次的模型聯係起來進行分析。未來,這些技術會對教育研究以及地理學、社會學和經濟學的研究産生重要影響,直到它們也遇到其自然限製。為瞭避免這些限製,這些模型還將擴展(並且已經擴展)到更多層次,擴展到多元數據,擴展到通徑分析、潛在變量、名義因變量以及一般化綫性模型,等等。社會統計學傢將有能力建立更為廣泛的模型,並且可以在更多的模型中進行選擇。如果他們能夠建立起必要的前提信息條件,作為從這一模型各類型中進行閤理選擇的依據,那麼有望獲得更強的能力和精度。請把這一思想記在心底,因為你將使用這本書來探索這一類新興而又令人興奮的技術方法。 叢書主編 Jan de Leeuw 叢書主編對第2版的介紹 本書的第1版一直很暢銷,這說明本書提供的技術細節水平符閤許多社會科學和行為科學研究人員的需要。它還包括瞭足夠的實際操作建議和研究示範,並且與相應的HLM軟件結閤起來,因此本書對許多人而言還是多層分析的手冊和用戶指南。然而,已經過去瞭10年,本書現在需要加以更新瞭。 在這10年間,多層分析又有瞭很大的發展。在社會科學和行為科學領域,這一技術如同野火蔓延,研究者已經發錶瞭很多應用成果。在某些領域,分層綫性模型(HLM)已經成為數據分析的典範,基礎軟件包已經通用化,並且日益完善。更為重要的是,混閤模型(多層模型是其中一個特例)也在統計學中占據瞭主導地位。尤其是非綫性混閤模型和一般化綫性混閤模型(GLMM),已經成為統計學和生物統計學中最活躍的研究領域的基礎。這方麵的研究已經導緻許多令人鼓舞的理論和計算方麵的發展。 如果我們比較本書的第1版和第2版,最明顯的變化是增加瞭4章全新的內容。第10章包括分層一般化綫性模型,即GLMM模型的一個重要分類,這些模型容許研究者來處理整數值的結果變量(如計數、頻率、率、比例)。第11章增加瞭對潛在變量所做的分層模型,包括測量誤差和分項反應模型。第12章將標準的多層嵌套假設一般化,從而容許做更為復雜的交互分類設計。第13章從貝葉斯估計角度對分層模型進行評述,並討論瞭馬爾可夫鏈的濛特卡羅計算方法。這4章都是與前10年中多層分析最活躍的研究領域相呼應的,並且呼應瞭基礎計算機軟件包(如HLM和MLWin)中新近增加的功能。每一章都放鬆瞭第1章(和第1版)中的一些關鍵假定條件,這意味著,到瞭最後,我們其實已經是在處理很大一族模型和技術方法瞭。 第1版中的技術附錄已經由新的第14章的估計理論取代。這一章從技術細節上討論瞭貝葉斯估計和最大似然估計的方法及其相應的計算問題。此外,這一章還包括瞭最新的發展,比如對似然函數的拉普拉斯近似估計。要是我們仔細比較這兩個不同版本,還可以發現第2版對第1版的幾百處修訂和增補。 我曾經多次在彆的地方評論說,分層綫性模型已經很好地確立起來,然而這些模型在許多方麵並沒有得到充分的理解。所以,例常性的應用還未得到實現,也許永遠也不能實現。新的一版比前一版的內容更為深入,還討論瞭功效、樣本規模、數據的預處理(如對中處理)等,這為我們提供瞭對這一技術的基本理解。當然,由於新增章節增加瞭(更多)更復雜的模型及更復雜的計算步驟,在研究與數據分析之間的分界綫有所改變,並且還介紹瞭很多不能算是例常情況的選項。閱讀這本書並不能使你成為所有這些不同領域的專傢,但是可以使你瞭解這些選項是什麼,你可以在哪裏找到你需要的專傢,你可以嚮他問什麼問題。 在這兩個版本的比較中,我們還注意到,作者們感到他們工作和貢獻的平衡有所傾斜,以至於署名的順序發生瞭變化,因此在行為科學和社會科學中多層分析標準文本的署名順序已經不再是布裏剋和勞登布什(Bryk & Raudenbush, 1991),而成瞭勞登布什和布裏剋(Raudenbush & Bryk, 2001)。對於在這些領域工作的統計人員來說,最重要的問題可能是:“我是否應該更新?”迴答是肯定的。你會得到比前一版多一倍的材料,並且這些材料更加新穎、更加整閤,介紹瞭統計研究中一些最令人鼓舞的新領域。此外,你的工具箱中還會加入許多新奇的、有發展前景的工具。而我們,作為編輯,十分自豪我們的係列叢書能夠得到這樣的更新。 叢書主編 Jan de Leeuw