內容簡介
第一版麵世以來,得到瞭廣大讀者的支持和鼓勵。第二版根據需要做瞭一些修正、改動及增補,在第七章補充瞭Granger因果檢驗,增加瞭非綫性時間序列一節。《高等院校研究生用書·復雜數據統計方法:基於R的應用(第2版)》特點:(1)以數據為導嚮;(2)介紹新的方法(附有傳統方法迴顧);(3)提供R軟件入門及全部例子計算的R代碼及數據的網址;(4)各章獨立。本書讀者對象包括統計學、應用統計學、經濟學、數學、應用數學、精算、環境、計量經濟學、生物醫學等專業的本科生、碩士及博士生,各領域的教師和實際工作者。
作者簡介
吳喜之,北京大學數學力學係本科,美國北卡羅來納大學統計博士。中國人民大學統計學院教授,博士生導師。曾在美國加利福尼亞大學、北卡羅來納大學以及南開大學、北京大學等多所著名學府執教。
目錄
第一章 引言
1.1 作為科學的統計
1.2 數據分析的實踐
1.3 數據的形式以及可能用到的模型
1.3.1 橫截麵數據:因變量為實軸上的數量變量
1.3.2 橫截麵數據:因變量為分類(定性)變量或者頻數
1.3.3縱嚮數據,多水平數據,麵闆數據,重復觀測數據
1.3.4 多元數據各變量之間的關係:多元分析
1.3.5 路徑模型/結構方程模型
1.3.6 多元時間序列數據
1.4 R 軟件入門
1.4.1 簡介
1.4.2 動手
第二章 橫截麵數據: 因變量為實數軸上的數量變量
2.1 簡單迴歸迴顧
2.1.1 對例2.1數據的簡單擬閤
2.1.2 對例2.1數據的進一步分析
2.1.3 對簡單綫性迴歸的一些討論
2.1.4 損失函數及分位數迴歸簡介
2.2 簡單綫性模型不易處理的橫截麵數據
2.2.1 標準綫性迴歸中的指數變換
2.2.2 生存分析數據的Cox迴歸模型
2.2.3 數據齣現多重共綫性情況:嶺迴歸,lasso迴歸,適應性lasso迴歸, 偏最小二乘迴歸
2.2.4 無法做任何假定的數據:機器學習迴歸方法
2.2.5 決策樹迴歸(迴歸樹)
2.2.6 Boosting迴歸
2.2.7 Bagging 迴歸
2.2.8 隨機森林迴歸
2.2.9 人工神經網絡迴歸
2.2.10 支持嚮量機迴歸
2.2.11 幾種迴歸方法五摺交叉驗證結果
2.2.12 方法的穩定性及過擬閤
第三章 橫截麵數據:因變量為分類變量及因變量為頻數(計數)變量的情況
3.1經典logistic迴歸,probit迴歸和僅適用於數量自變量的判彆分析迴顧
3.1.1 Logistic迴歸和probit迴歸
3.1.2 廣義綫性模型簡介
3.1.3 經典判彆分析
3.2 因變量為分類變量, 自變量含有分類變量: 機器學習分類方法
3.2.1 決策樹分類(分類樹)
3.2.2 Adaboost分類
3.2.3 Bagging 分類
3.2.4 隨機森林分類
3.2.5 支持嚮量機分類
3.2.6 最近鄰方法分類
3.2.7 分類方法五摺交叉驗證結果
3.3因變量為頻數(計數)的情況
3.3.1 經典的Poisson對數綫性模型迴顧
3.3.2 使用Poisson對數綫性模型時的散布問題
3.3.3 零膨脹計數數據的Poisson迴歸
3.3.4 機器學習的算法模型擬閤計數數據
3.3.5 關於模型驅動還是數據驅動的簡單討論
3.3.5 多項logit模型及多項分布對數綫性模型迴顧
第四章 縱嚮數據(多水平數據,麵闆數據)
4.1 縱嚮數據: 綫性隨機效應混閤模型
4.2 縱嚮數據: 廣義綫性隨機效應混閤模型
4.3 縱嚮數據: 決策樹及隨機效應模型
4.4 縱嚮數據: 縱嚮生存數據
4.4.1 Cox 隨機效應混閤模型
4.4.2 分步聯閤建模
§4.5 計量經濟學傢的視角: 麵闆數據
第五章 多元分析
5.1 實數軸上的數據: 經典多元分析內容迴顧
5.1.1 主成分分析及因子分析
5.1.2 分層聚類及k均值聚類
5.1.3 典型相關分析
5.1.4 對應分析
5.2 非經典多元數據分析: 可視化
5.2.1 主成分分析
5.2.2 對應分析
5.2.3 多重對應分析
5.2.4 多重因子分析
5.2.5 分層多重因子分析
5.2.6 基於主成分分析的聚類
5.3 多元數據的關聯規則分析
第六章 路徑建模(結構方程建模)數據的PLS分析
6.1 路徑模型概述
6.1.1 路徑模型
6.1.2 路徑模型的兩種主要方法
6.2 PLS 方法:顧客滿意度的例子
6.3 協方差方法簡介
6.4 結構方程模型的一些問題
第七章 多元時間序列數據
7.1 時間序列的基本概念及單變量時間序列方法迴顧
7.1.1 時間序列的一些定義和基本概念
7.1.2 常用的一元時間序列方法
7.2 單位根,協整檢驗及Granger因果檢驗
7.2.1 概述
7.2.2 單位根檢驗
7.2.3 協整檢驗
7.2.4 Granger因果檢驗
7.3 VAR 模型,VARX 模型與狀態空間模型
7.3.1 VAR模型的擬閤與預測
7.3.2 VARX模型的擬閤與預測
7.3.3 狀態空間模型的擬閤與預測
7.3.4模型的比較
7.4 非綫性時間序列
7.4.1 引言
7.4.2 綫性AR模型
7.4.3 自門限自迴歸模型(SETAR)
7.4.4 Logistic平滑過渡自迴歸模型(LSTAR)
7.4.5 神經網絡模型
7.4.6可加AR模型
7.4.7 模型的比較
7.4.8 門限協整
附錄練習:熟練使用R 軟件
參考文獻
精彩書摘
什麼是復雜數據?沒有人能夠確切定義.本書將通常統計基本教科書中的例子所代錶的數據稱為簡單數據,例如通常最小二乘綫性迴歸所能夠完滿處理的獨立同正態分布數據、用標準多元分析方法能夠處理的服從多元正態分布的數據等.其他本科教科書中能夠相對完滿處理的數據應該不算復雜數據.顯然,現實世界中遇到的絕大多數數據都不是標準教科書中所介紹的方法能夠完滿處理的,因此都應該被認為是復雜數據.按照這個含義,絕大多數真實數據是復雜數據.
對於一個實際工作者來說,拿到一個真實數據以後,很可能需要查閱不少文獻來尋找適閤這個數據的幾種可能模型(假定知道用什麼模型可能解決問題),再翻閱若乾種軟件手冊來查閱這些文獻所使用軟件的計算方法(假定購買瞭這些軟件).造成這種情況的原因是,多數統計教科書是以模型或方法為導嚮的,內容也多是按照數學思維展開的.
以模型或方法為導嚮的教科書通常以介紹某種數學模型和方法為主,同時說明這種模型適用於滿足某些數學假定的數據,最後說明該模型對於這些滿足假定的數據擬閤的優越性.實際上,任何一種真實數據是否滿足某種數學假定幾乎無法證明,每一類數據都可能有不止一種現成的統計方法來處理,還有無數的未知方法等待人們去開發.以模型或方法為主導的方式往往讓讀者忽略瞭其他有關的方法,而那些被忽略的方法在某種意義下很可能更有效,或者更優越.
筆者認為, 現在需要一本具有以下特點的書:
用實際數據做案例.
. – 介紹的數據種類盡可能廣泛;
– 這些數據必須是真實的;
– 這些數據必須不是簡單平凡的教科書例子;
– 每個數據都有理論及應用方麵的背景;
– 所有數據都能從網上下載.
對每種數據都介紹可能的方法.
. – 這些方法盡可能新;
– 對各種方法進行比較;
– 所有方法必須有計算支持.
全書使用一種軟件.
. – 該軟件必須是免費的, 可以從網上下載的;
– 該軟件必須能夠包含盡可能多的最新統計方法;
– 該軟件必須不斷更新;
– 書中所有結論都可以通過運行該軟件程序而得齣, 並給齣所有代碼. 篇幅不能太大.
. 必須由淺入深, 對經典知識和模型進行必要的迴顧.
. 不能有太多數學公式, 但至少必須讓讀者能直觀理解各種方法的含義.
. 其宗旨是訓練動手的能力, 而不是麵麵俱到地告訴人們所有細節.
. 不僅提供各種方法, 而且提醒人們使用各種方法存在的風險.
.
本書以數據形式為導嚮,對應不同的數據形式介紹可能使用的一些方法.首先引入某些感興趣類型的數據,再介紹並且對比可能適閤這些數據的一些統計方法.這些統計方法可能屬於許多不同的模型,屬於不同的統計方嚮,但隻要適用於同一類數據,我們就盡量將它們都予以介紹.筆者覺得這種以數據為主導的學習方式有助於理解統計作為數據科學的本質,有助於實際工作者通過數據學習多種統計方法的應用.我們列舉瞭可能用於同類數據的若乾方法,希望對創造新的數據分析方法有所啓發並促使進一步探索,同時也讓讀者免受查閱大量不同文獻之苦.本書不可能介紹所有的方法,大量新方法在你閱讀本書的時候正在誕生.
本書所有的分析都通過免費的自由軟件R來實現.讀者可以毫不睏難地
··
重復本書所有的計算.R網站①擁有世界各地統計學傢貢獻的大量最新軟件包(package),這些軟件包以飛快的速度增加和更新,已從2009年年底的大約1000個增加到2012年8月底的4009個,僅2012年8月就增加瞭449個.它們代錶瞭統計學傢創造的嶄新的統計方法.這些軟件包的代碼都是公開的②.與此相對比,所有商業軟件遠沒有如此多的資源,也不會更新得如此之快,而且商業軟件的代碼都是保密的昂貴“黑匣子”.在發達國傢,不能想象一個統計專業的研究生不會使用R軟件.那裏很多學校都開設瞭R軟件的課程.今天,任何一個統計學傢想要介紹和推廣其創造的統計方法,都必須提供相應的計算程序,而發錶該程序的最佳地點就是R網站.由於方法和代碼是公開的,這些方法很容易引起有關學者的關注,這些關注對研究相應方法形成群體效應,推動其發展.不會編程的統計學傢在今天是很難生存的.
在學校講授任何一種商業軟件都是為該公司做義務廣告,如果沒有相關軟件公司的資助,就沒有學校願意花錢講授商業軟件.在教學中使用盜版軟件是違法行為,絕對不應該或明或暗地鼓勵師生使用盜版商業軟件.
對R軟件編程的熟悉還有助於學習其他快速計算的語言,比如C++和FORTRAN,這對於應對因快速處理龐大的數據集而麵臨的巨大的計算量有所裨益.
本書首先通過一些簡單的統計和數學內容介紹R軟件的基本知識,然後介紹數據分析的一些基本邏輯和常識.本書的主體則是根據不同數據形式介紹相應的方法.本書以數據為主導,各章都是完全獨立的.有一些統計基本知識的讀者可以選讀本書的任何一個完整的部分.雖然本書介紹的方法涉及應用統計的各個方麵,但不可能介紹所有的數學和統計細節,否則將會是一部巨型的百科全書.筆者盡量用文字和少量數學公式對各種方法的原理予以直觀介紹,並且引導讀者做進一步的閱讀.
由於本書沒有按照數學模型的分類來編排,因此對各種方法的介紹不可能滿足數學上的係統、整潔和完美的要求,但這正是對現實數據和現實世界的反映.如果現實數據都像標準教科書例子那樣“規範”,統計就沒有存在和發展的必要瞭.本書試圖讓讀者理解世界是復雜的,數據形式是多種多樣的.必須有超越書本、超越所謂權威的智慧和勇氣,纔能充滿自信地麵對世界上齣現的各
①網址:http://www.r-project.org/.
②除瞭極個彆並非秘密的子程序之外,因為它們很費時間,用機器代碼實行.
··
種挑戰.
由於統計正以前所未有的速度發展,R網站及其各個軟件包也在不斷更新,因此,筆者希望讀者通過對本書的學習,學會如何通過R不斷學習新的知識和方法.“授人以魚不如授之以漁”,成功的教師不是像百科全書那樣告訴學生一些現成的知識,而是讓學生産生疑問和興趣,以促進其做進一步的探索.
本書所有的數據例子都可以在網上找到並且下載.這些例子背後都有一些理論和應用的故事.筆者並沒有刻意挑選例子所在的領域,這沒有關係.你學會瞭一加一等於二,也就學會瞭一個蘋果加一個蘋果等於兩個蘋果,或一個梨加一個梨等於兩個梨這樣的計算.那個把作為科學的統計按照工種來劃分(諸如工業統計,農業統計,勞動統計)的時代早已一去不復返瞭.統計是為各個領域服務的,我們想要得到的是到任何領域都能施展的能力,而不是有限的行業培訓.如果你能夠處理具有挑戰性的數據,那麼無論該數據來自何領域,你的感覺都會很好.
雖然本書冠以“復雜數據統計方法”之名,但對處理“非復雜”數據的方法都有較完整的迴顧,並給齣瞭相應的運算程序,隻不過沒有像標準教科書那樣詳細地解釋細節而已.
本書的適用範圍很廣,其內容曾經在中國人民大學、首都經貿大學、中央財經大學、西南財經大學、雲南財經大學、四川大學、哈爾濱理工大學、新疆財經大學、中山大學講授過,對象包括數學、應用數學、統計、精算、經濟、旅遊、環境等專業的本科生以及數學、應用數學、統計、計量經濟學、生物醫學、經濟學等專業的碩士和博士研究生.作為成績評定,給每個學生分配兩個國外網站上的實際數據,並且要求他們在學期末將他們分析處理這些數據的結果形成報告.這些數據如何處理,沒有標準答案,甚至有些必要的方法還超齣瞭授課的範圍,需要學生做進一步探索和學習.筆者認為,應用統計碩士所學的內容應該包括本書的大部分內容.希望本書對於各個領域的教師以及實際工作者都有參考價值.第一版麵世以來, 得到瞭廣大讀者的支持和鼓勵. 第二版根據需要做瞭一些修正、改動及增補. 各個部分或多或少都有所改動. 在第七章補充瞭Granger因果檢驗,
增加瞭非綫性時間序列一節. 第二版的排版是筆者通過LaTeX軟件實現的.
在任何國傢及任何製度下都能夠生存和發展的知識和能力,就是科學,是人們在生命的曆程中應該獲得的.
吳喜之
前言/序言
高等院校研究生用書·復雜數據統計方法:基於R的應用(第2版) 下載 mobi epub pdf txt 電子書