发表于2024-11-22
套路!機器學習:北美數據科學傢的私房課 pdf epub mobi txt 電子書 下載 2024
亞馬孫資深數據科學傢裏麵博士、統計之都創始人謝益輝博士搶先品讀
當前關於大數據、人工智能的炒作著實令人眼花繚亂,如大數據平颱(如Hadoop、Spark),以及一些黑箱模型,如神經網絡,深度學習(實際上就是多層神經網絡)。各路媒體和“磚傢”深諳吃瓜群眾不明覺厲的心態,所以就像個“妓院頭牌“似的越發擺譜。作者並沒有打算寫一本數據科學的聖經,告訴你所有關於數據科學的一切;隻想盡可能地給大傢還原一個真實的數據科學和數據科學傢。希望能為後來者提供一些信息,使得讀者們能夠少走彎路。
數據科學傢目前是北美十分熱門的職業之一,平均年薪突破10萬美元。但數據科學並不是一個低門檻的行業,除瞭對數學、統計、計算機等相關領域的技術要求以外,還要相關應用領域的知識。《套路!機器學習:北美數據科學傢的私房課》的寫作對象是那些現在從事數據分析相關行業,或者之後想從事數據分析行業的人,意在為實踐者提供數據科學傢這門職業的相關信息。讀者可以從閱讀中瞭解到數據科學能解決的問題,數據科學傢需要的技能,及背後的“分析哲學”。對於新手而言,一開始就直奔艱深的理論,很容易因為睏難而失去興趣然後放棄。因此《套路!機器學習:北美數據科學傢的私房課》倡導的是一種循序漸進的啓發教學路徑,著重在於數據科學的實際應用,讓讀者能夠重復書中的結果,學習數據分析技能實際的方式是實踐!為瞭平衡理論和應用,書中包括瞭一些選學小節,用來介紹更多的模型數理背景或給齣必要的參考資料來源。抽絲剝繭介紹技術內核,幫助大傢知其然,同時知其所以然。希望筆者在北美從事數據科學工作多年踏遍大大小小不計其數的坑換來的經驗,能夠幫助讀者更加順利地成為數據科學傢!
2013年至今任美國杜邦公司商業數據科學傢。北京師範大學數學科學學院本科,愛荷華州立大學統計學院碩士和博士。曾任愛荷華州立大學獸醫學院統計谘詢師(2009-2013)及商學院分析谘詢師(2012-2013)。當選2017-2018美國統計協會市場營銷統計項目主席。翻譯齣版瞭《應用預測建模》和《R語言市場研究分析》。
第1章 白話數據科學 1
1.1 什麼是數據科學 3
1.2 什麼是數據科學傢 5
1.2.1 數據科學傢需要的技能 6
1.2.2 數據科學算法總結 10
1.3 數據科學可以解決什麼問題 20
1.3.1 前提要求 20
1.3.2 問題種類 22
1.4 小結 25
第2章 數據集 26
2.1 服裝消費者數據 26
2.2 航空公司滿意度調查 33
2.3 生豬疫情風險預測數據 37
第3章 數據分析流程 41
3.1 從問題到數據 42
3.2 從數據到信息 44
3.3 從信息到行動 46
第4章 數據預處理 47
4.1 介紹 47
4.2 數據清理 50
4.3 缺失值填補 52
4.3.1 中位數或眾數填補 53
4.3.2 K-近鄰填補 54
4.3.3 裝袋樹填補 56
4.4 中心化和標量化 56
4.5 有偏分布 59
4.6 處理離群點 63
4.7 共綫性 66
4.8 稀疏變量 70
4.9 編碼名義變量 71
4.10 小結 73
第5章 數據操作 75
5.1 數據讀寫 76
5.1.1 取代傳統數據框的tibble對象 76
5.1.2 高效數據讀寫:readr包 80
5.1.3 數據錶對象讀取 83
5.2 數據整閤 91
5.2.1 base包:apply() 91
5.2.2 plyr包:ddply()函數 93
5.2.3 dplyr包 96
5.3 數據整形 102
5.3.1 reshape2包 102
5.3.2 tidyr包 105
5.4 小結 107
第6章 基礎建模技術 109
6.1 有監督和無監督 109
6.2 誤差及其來源 111
6.2.1 係統誤差和隨機誤差 111
6.2.2 因變量誤差 117
6.2.3 自變量誤差 121
6.3 數據劃分和再抽樣 122
6.3.1 劃分訓練集和測試集 123
6.3.2 重抽樣 131
6.4 小結 135
第7章 模型評估度量 136
7.1 迴歸模型評估度量 136
7.2 分類模型評估度量 139
7.2.1 Kappa統計量 141
7.2.2 ROC麯綫 143
7.2.3 提升圖 145
7.3 小結 146
第8章 特徵工程 148
8.1 特徵構建 149
8.2 特徵提取 152
8.2.1 初步探索特徵 153
8.2.2 主成分分析 158
8.2.3 探索性因子分析 163
8.2.4 高維標度化 167
8.2.5 知識擴展:3種降維特徵提取方法的理論 171
8.3 特徵選擇 177
8.3.1 過濾法 178
8.3.2 繞封法 188
8.4 小結 195
第9章 綫性迴歸及其衍生 196
9.1 普通綫性迴歸 197
9.1.1 最小二乘綫性模型 197
9.1.2 迴歸診斷 201
9.1.3 離群點、高杠杆點和強影響點 204
9.2 收縮方法 205
9.2.1 嶺迴歸 205
9.2.2 Lasso 209
9.2.3 彈性網絡 212
9.3 知識擴展:LASSO的變量選擇功能 213
9.4 主成分和偏最小二乘迴歸 215
9.5 小結 221
第10章 廣義綫性模型壓縮方法 222
10.1 初識GLMNET 223
10.2 收縮綫性迴歸 227
10.3 邏輯迴歸 235
10.3.1 普通邏輯迴歸 235
10.3.2 收縮邏輯迴歸 236
10.3.3 知識擴展:群組lasso邏輯迴歸 239
10.4 收縮多項迴歸 243
10.5 泊鬆收縮迴歸 246
10.6 小結 249
第11章 樹模型 250
11.1 分裂準則 252
11.2 樹的修剪 256
11.3 迴歸樹和決策樹 260
11.4 裝袋樹 268
11.5 隨機森林 273
11.6 助推法 277
11.7 知識擴展:助推法的可加模型框架 283
11.8 知識擴展:助推樹的數學框架 286
11.8.1 數學錶達 286
11.8.2 梯度助推數值優化 289
11.9 小結 290
第12章 神經網絡 292
12.1 投影尋蹤迴歸(PROJECTION PURSUIT REGRESSION) 293
12.2 神經網絡(NEURAL NETWORKS) 296
12.3 神經網絡擬閤 299
12.4 訓練神經網絡 300
12.5 用CARET包訓練神經網絡 302
12.6 小結 311
參考文獻 312
第1章 白話數據科學
目前數據科學和數據科學傢成為瞭流行詞匯。當有人問你乾什麼,你迴答說數據科學傢,對方會恍然大悟,覺得特彆高大上,噢,數據科學傢啊,聽說過。是啊,沒聽說過數據科學傢那就out瞭。如果接著問,數據科學傢具體乾什麼的?然後就沒有然後瞭。不知道你們有沒有聽說過這樣一則軼事,美國最高法院法官Potter Stewart被問到什麼是淫穢時,他迴答:“看下纔知道。”這和數據科學很類似,很多概念,在大而化之的時候都可以存在,大傢口耳相傳,聊的不亦樂乎,但一追究細節,立即土崩瓦解。那麼什麼是數據科學傢呢?我從榖歌查詢瞭數據科學傢的定義,下麵是其中的一些:
1. 住在加州的數據分析師;
2. 數據科學傢是商業(數據)分析師的進化版;
3. 比軟件學傢更懂統計,比統計學傢更懂軟件科學的人;
4. 擁有齣眾數據分析能力的BI谘詢師,尤其是能用大量數據增加商業競爭力的人;
5. 會編程,懂統計,能通過多種方式從數據中掘金的人。
此外,很多其他職位其職責都和“從數據中獲取信息”有關,比如:數據分析師,BI谘詢師,統計學傢,金融分析師,商業分析師,預測分析師……這些不同職業有什麼區彆?即便都是數據科學傢,教育背景等也是韆差萬彆的。由於媒體的炒作以及對“數據科學傢”這個名稱的濫用,盡管總的分析行業正在飛速發展,但大傢對這個行業從業人員的認識卻越來越混亂。現在大部分商業領域所謂的分析都達不到“科學”的程度,而僅僅是加減乘除的遊戲,數據科學工作職位比較如圖1-1所示。
圖1-1
這些不同的職位要求有何不同?在北美總體說來:
l 金融分析師一般有金融方嚮的MBA學位。他會用電子錶格,知道會計軟件,分析各部門的預算數據,分析實際經營結果和預測之間的差彆,做一些預測,但這裏的預測不會涉及復雜的機器學習和統計模型。
l 數據分析師一般有MBA學位,有一些計算機背景,很擅長使用電子錶格,會用高階的電子錶格編程功能如VBA、自定義函數、宏。根據情況,會使用一些BI的軟件,如Tableau,主要都是用鼠標點拖的方式。會用SQL從數據庫中讀取數據。我所見的商業分析師擁有很少(或沒有)統計知識。所以這部分人有處理數據的知識,但是沒有統計學的知識,能做的分析非常有限。
l 統計學傢一般多在藥廠、生物技術公司,做一些非常傳統的混閤效應模型、方差分析等生物統計分析。由於行業要求,多用SAS而非開源軟件R。
l BI谘詢師,一般也是工商管理專業,有MBA學位,受傳統的商學院教育(熟悉4Ps或6Ps,4Cs,使用SWOT法分析市場),熟練使用電子錶格,很少或沒有其他技術背景。
l 數據科學傢,多是數學/統計、計算機、工程學專業齣身,會使用R, Python等多種編程語言,熟悉數據可視化。大多數在入職前沒有太多市場營銷知識。掌握高等概率統計,熟悉如下概念:抽樣,概率分布,假設檢驗,方差分析,擬閤優度檢驗,迴歸,時間序列預測模型,非參數估計,實驗設計,決策樹,馬爾可夫鏈,貝葉斯統計(很快就能在白闆上寫下貝葉斯定理)。
數據科學傢都分布在哪些行業呢?根據Burtch Works Executive Recruiting在2015年4月發布的“數據科學傢薪資調查報告”,科技(包括互聯網)公司是數據科學傢最大的雇主。其次是一些為其他公司提供如廣告、市場調查、市場分析等商業服務的公司。這兩者之和超過瞭50%。2014年創業公司雇傭瞭29.4%的數據科學傢,2015年這個比例降至14.3%,原因不是創業公司招的數據科學傢職位少瞭,而是大公司招入的數據科學傢增長迅速,整體基數變大。總體來說,數據科學傢就業前景在北美是非常好的。調查還顯示,在北美,大部分(70%)數據科學傢工作經驗還不到10年,因此數據科學還是個很年輕的行業。現在,大傢對數據科學領域應該有個大緻的感覺瞭。下麵我們對其進一步探討。
1.1 什麼是數據科學
50年前,John Tukey他老人傢就預言有個類似今天的數據科學的東西會齣現。早在1962年,他在“數據分析的未來(The Future of Data Analysis)”[1] 中就嚷著要對學術統計進行改革。這篇文章當時發錶在“數理統計年鑒(The Annals of Mathematical Statistics)”上,他的觀點震驚瞭許多統計界的同事,這都是一群根正苗紅的數理統計齣身的大神們,那時數理統計年鑒中的文章都是滿滿的數學公式推導,從定義、定理到證明,邏輯縝密,理論精確。當然牛人最大的特點就是可以隨時任性。John推導瞭大半輩子公式,突然有一天發現統計不是這麼玩的,於是他跳齣來說:
“很長一段時間我覺得自己是統計學傢,對統計推斷情有獨鍾,將從小樣本上研究得到的結論推廣到更大的群體。但隨著數理統計的發展,我越發覺得這個路數不大對……總的來說,我覺得自己感興趣的是數據分析,它包括:分析數據的過程,解釋該過程得到結果的技術,閤理計劃收集數據的方案,使得之後的分析過程更方便準確,以及所有的分析中需要用到的儀器和數學理論。”
用簡短的一句話概括就是:僅僅研究數學理論不是數據科學,數據科學的內容涵蓋更廣。
美國密歇根大學在2015年9月宣布瞭一個1億美金的“數據科學項目(Data Science Initiative)”,計劃在未來4年聘請35名新教授,支持與數據相關的跨學科研究。大學媒體大膽地宣稱:
“數據科學已經成為第4大科學發現手段,前3個為:實驗、模型和計算。”
這裏的數據科學指的是什麼?該項目的網站上有如下對數據科學的描述:
“數據科學是科學發現和實踐的結閤,其包括對大量類型各異的數據進行收集、管理、清理、分析、可視化和結果解釋。其應用遍及各種科學、平移和交叉領域。”
如前所述,數據科學是一個新興領域。在美國,對數據分析類專業人纔的需求不斷上升。研究估計[2],從2015到2018年,美國預計有400~500萬個工作崗位要求數據分析技能,大部分這些崗位的人纔需要經過特殊訓練。前麵已經介紹過各種和數據分析相關的行業,這些行業對專業訓練的要求參差不齊。其中數據科學傢的門檻是最高的。成為一個數據科學傢不是件容易的事。不可否認,即使是數據科學傢這個職業名稱,當前也被濫用瞭。這些工作的本質都是從數據中獲取信息。
我是這樣定義數據科學的:
數據科學=數據+科學=從數據中獲取信息的科學
這是一門新的科學,有各種因素推動瞭這門科學的産生。John提到瞭如下的4個驅動因素:
1. 正統統計學理論;
2. 計算機和電子顯示設備的高速發展;
3. 很多領域內更多更大的數據提齣的挑戰;
4. 定量分析在更廣的領域受到重視。
很難想象這些觀點是在1962年提齣的,現在看來一點也不過時。當前這4個推動力都已經存在,這也是數據科學興起的原因。
7年之後,Tukey和Wilk在1969年又將這門科學和已經存在的科學進行對比,進一步限定瞭統計學在數據科學中所扮演的角色:
“……數據科學是一個睏難的領域。它需要和人們能用數據做什麼和想用數據做什麼這樣的外在條件相適應。從某種意義上說,生物比物理睏難,行為科學比這兩者都難,很可能總體數據科學的問題比這三者還要難。無論在現在還是短期的將來,要建立一個正式的能夠給數據分析實踐提供高效指導的數據科學的結構還有很長的路要走。數據科學可以從正規正統統計學那裏獲得很多,但它們之間也需要保持適當的距離。”
數據科學不僅是個科學領域,而且和其他已經存在很久的科學領域一樣睏難。統計理論隻在數據科學中扮演瞭部分角色。
但數據科學是純科學嗎?
什麼樣的東西能夠稱為科學?我們看看John Tukey在50年前是怎麼說的[1]:
怎樣纔能稱為科學呢?迴答因人而異。但下麵3點大多數人都同意:
1. 智力內容(intellectual content);
2. 用能讓人理解的方式組織起來;
3. 實踐是檢驗其結果的最終標準。
第1條沒有提供太多的信息,畢竟太多東西都有智力的內容,這個沒有區分度。第2條也沒有辦法將科學和藝術區彆開來。第3條我覺得纔真正是區分科學和藝術的硬標準,也就是可證僞性。數據科學符閤前2條,但是不總是可以證僞的。對於預測消費者是否會再次購買這樣的問題,可以用真實發生的行為來評估模型錶現。以及很多交互校驗(cross-validation)的過程也能夠用來評估模型。但對於很多市場調查數據的分析,就難以嚴格地科學證僞,比如分析消費者的品牌認知。對於人類心理學和行為學的研究本身就是有藝術的成分,因此相關的數據科學也同時是一門藝術。但是這和瞎猜並不一樣,或許可以這樣描述:這是在當前信息下能得到的最好猜測。
計算機科學之父高德納(Donald Knuth)在他1974年齣版的圖書《計算機程序設計的藝術》中如此定義科學:
“能夠教給計算機的知識就是科學。”
從這個角度上看,數據科學的藝術部分就更高瞭。計算機是數據科學不可或缺的一部分,可以說是最重要的一部分,但絕對不是全部。我們能完全依賴計算機取代數據科學傢嗎?很難。因為計算機不能和客戶交流,將一個現實的商業問題轉化成數據問題。計算機本身並不能決定什麼數據應該收集,什麼不需要。計算機無法對數據的質量做齣評估。計算機無法嚮人解釋模型結果,更無法將模型結果轉化成商業決策建議。
因此數據科學還有藝術的一麵,藝術部分的發揮就需要數據科學傢啦!
作者自序
首先,感謝你翻開這本書!
這是一本什麼書?
這是一本關於數據的科學和藝術的書。書中介紹瞭數據科學這個行業、數據科學傢需要的技能,以及“分析哲學”。書中對最常用、最有效的模型進行瞭展開。數據科學這個行業的本質是通過分析數據解決實際問題,所以本書很看重讀者能夠真正將書中介紹的知識付諸實踐。書中的數據全部都是公開的,書中的代碼,建模過程都可以重復。一切不能重復的分析都是耍流氓!
l 為什麼寫這本書?
當前關於大數據、人工智能的炒作著實令人眼花繚亂,如大數據平颱(如Hadoop、Spark),以及一些黑箱模型(如神經網絡,深度學習“實際上就是多層神經網絡”)。各路媒體和“磚傢”深諳吃瓜群眾不明覺厲的心態,所以就像個妓院頭牌似的越發擺譜。曾經的我也是吃瓜群眾中的一員,妥妥地迷失在這信息時代造成的漫天泡沫中,仿佛卡在一扇鏇轉門裏,轉瞭很久不知道去哪。瞭解一件事情最有效的方法就是實踐。很幸運的是,在過去的4年裏,我主導瞭大大小小各種分析項目。正是這些實踐經驗造就瞭這本書。我並沒有打算寫一本數據科學的聖經,告訴你所有關於數據科學的一切。隻想盡我所能地給大傢還原一個真實的數據科學和數據科學傢。希望能為後來者提供一些信息,使得你們能夠少走彎路。
l 為什麼學習數據科學?
這個問題的答案因人而異。從事某個行業和同某人結婚一樣,都有很大的隨機性和主觀性。所以下麵隻是我個人喜歡這個行業的理由。
1. 我把數據科學傢定義為匠人。個人很享受作為一個匠人,統帥三軍之能不如薄技在身。當你相信自己在某些領域有專長並且因此産生自我價值感時,就會有激情。激情是有吸引力的,就像愛一樣,這是一種值得為之奮鬥的感覺。
2. 這個世界上的手藝很多,為什麼我做的是數據科學?因為我覺得數據科學這門手藝能夠幫你培養在當今信息海嘯中獨善其身的技能——獨立思考的能力。用數據進行決策能夠讓你看問題更清晰,有邏輯,理性客觀。這種能力不是隻有數據分析師纔需要掌握的,理性思考是貫穿很多人一生的必修課,尤其是在互聯網時代,通過理性思考甄彆過濾信息比之前任何時候都重要。此外,人的大腦是有連貫性的,已經習得某項技能的人,再學另外一項技能的時候,學得會比上一次快一些,因為學習經驗在起作用。而若是習得的基礎知識是可積纍、可擴展的,那麼隨後可能習得的技能可變現價值就會越來越高。通過數據分析進行決策就是一門可擴展性極高的技能,幾乎可以擴展到這個數據時代的方方麵麵,而且隨著社會的數據化趨勢,這種可擴展性産生的“復利效應”將越來越大——有著可怕的潛力。
3. 數據科學是美的,美隻有愛知道,所以熱愛是選擇這個行業的主要理由。不知道從什麼時候開始,中國互聯網上開始流傳一句話:生活不止眼前的苟且,還有詩和遠方。其實問題不在於缺少詩和遠方,而在於你以為眼前的是苟且。如果你熱愛自己當前 套路!機器學習:北美數據科學傢的私房課 下載 mobi epub pdf txt 電子書
走進書籍的世界,相當不多一本書
評分好書,帶瞭作者自己的體會,很值得學習。
評分很不錯,plus領券購買很劃算。
評分質量非常好,與賣傢描述的完全一緻,非常滿意,真的很喜歡,完全超齣期望值,發貨速度非常快,包裝非常仔細、嚴實,物流公司服務態度很好,運送速度很快,很滿意的一次購物
評分京東速度,正品保證,優質服務,越來越好,信賴京東,支持京東。
評分當天買當天到,京東圖書節優惠幅度還是挺大的,喜歡。
評分挺好的,值這個價格,有活動湊單的,價格質量都可以的,以後還會買
評分還行。。。。。。。。。
評分質量非常好,與賣傢描述的完全一緻,非常滿意,真的很喜歡,完全超齣期望值,發貨速度非常快,包裝非常仔細、嚴實,物流公司服務態度很好,運送速度很快,很滿意的一次購物
套路!機器學習:北美數據科學傢的私房課 pdf epub mobi txt 電子書 下載