産品特色
編輯推薦
本書涵蓋R和Python兩種主流語言,其優點在於其結構,每一章的每一節內容都是按照“準備工作—處理流程—工作原理”的方式組織,這種組織形式非常適閤一邊實踐一邊學習(learn-by-doing)。
內容簡介
這本書是基於R和Python的數據科學項目案例集錦,內容涵蓋瞭基於數據科學的所有要素,包括數據采集、處理、清洗、分析、建模、可視化以及數據産品的搭建。案例包含瞭汽車數據分析、股票市場建模、社交網絡分析、推薦係統、地理信息分析,以及Python代碼的計算優化。通過手把手的案例解析,令讀者知其然並知其所以然。業界的數據分析師、數據挖掘工程師、數據科學傢都可以讀一讀。想要瞭解實際工作中如何用數據産生價值的在校學生,或者對數據科學感興趣的人也值得一讀。
作者簡介
作者簡介
Tony Ojeda(托尼·奧傑德),華盛頓DC數據社區的聯閤創始人,一位經驗豐富的數據科學傢和企業傢,他在佛羅裏達國際大學獲得金融碩士學位,並且在德保羅大學獲得瞭MBA學位。
Sean Patrick Murphy(肖恩·派特裏剋·莫非),華盛頓DC數據社區的聯閤創始人,曾在約翰霍普金斯大學的應用物理實驗室做瞭15年的高級科學傢,他專注於機器學習、信號處理、高性能計算以及建模和模擬。現在他是舊金山、紐約和華盛頓DC多傢公司的數據顧問。
Benjamin Bengfort(本傑明·班福特),一位非常有經驗的數據科學傢和Python開發者。他曾在軍方、業界和學術界工作過8年。他目前在馬裏蘭大學派剋學院攻讀計算機博士學位,研究元識彆和自然語言處理。他擁有北達科塔州立大學的計算機碩士學位,並是喬治城大學的客座教授。
Abhijit Dasgupta(阿布吉特·達斯古普塔),華盛頓DC數據社區的成員,華盛頓DC統計編程社群的創始人和聯閤組織者,他擁有華盛頓大學生物統計的博士學位,在生物製藥行業谘詢、商業分析、生物信息以及生物工程谘詢方麵擁有多年的經驗。
譯者簡介
郝智恒,甘肅蘭州人,南開大學概率統計專業畢業,統計之都活躍會員。目前在阿裏巴巴商業智能部任職,擅長數據分析和數據挖掘,喜歡用數據探索商業世界的邊界。
王佳瑋,黃山腳下長大,香港城大-中科大聯閤培養博士畢業,現於阿裏雲大數據孵化器團隊搬磚,喜歡數據分析和挖掘在社會各領域的應用,目前正緻力於用數據和算法解決交通擁堵問題。
謝時光,2011年博士畢業於美國弗吉尼亞理工大學工業工程係運籌學專業,畢業後從事數據分析、優化和決策支持相關工作至今。曾先後在安飛士(Avis)、費埃哲(FICO)等行業領先的公司從事從供應鏈到風險控製等多個應用領域的數據分析和優化決策研究工作。
劉夢馨,靈雀雲高級軟件工程師,專注於容器虛擬化領域,機器學習愛好者。
目錄
第1章 準備你的數據科學環境 1
簡介 1
理解數據科學管道 3
處理流程 3
工作原理 3
在Windows、Mac OS X、Linux上安裝R 5
準備工作 5
處理流程 5
工作原理 7
參考資料 7
在R和RStudio中安裝擴展包 7
準備工作 8
處理流程 8
工作原理 9
更多內容 10
參考資料 10
在Linux和Mac OS X上安裝Python 10
準備工作 11
處理流程 11
工作原理 11
更多內容 11
參考資料 12
在Windows上安裝Python 12
處理流程 13
工作原理 13
參考資料 14
在Mac OS X和Linux上安裝Python數據分析庫 14
準備工作 14
處理流程 14
工作原理 15
更多內容 16
參考資料 16
安裝更多Python包 17
準備工作 17
處理流程 17
工作原理 18
更多內容 18
參考資料 18
安裝和使用virtualenv 19
準備工作 19
處理流程 19
工作原理 21
更多內容 21
參考資料 22
第2章 汽車數據的可視化分析(R) 23
簡介 23
獲取汽車燃料效率數據 24
準備工作 24
處理流程 25
工作原理 25
為瞭你的第一個項目準備好R 26
準備工作 26
處理流程 26
工作原理 26
參考資料 26
將汽車燃料效率數據導入R 27
準備工作 27
處理流程 27
工作原理 28
更多內容 29
參考資料 30
探索和描述燃料效率數據 30
準備工作 30
處理流程 30
工作原理 32
更多內容 33
進一步分析汽車燃料效率數據 34
準備工作 34
處理流程 34
工作原理 43
參考資料 44
研究汽車的産量以及車型 44
準備工作 44
處理流程 44
工作原理 46
更多內容 47
參考資料 47
第3章 模擬美式橄欖球比賽數據(R) 48
簡介 48
準備工作 49
獲取和清洗美式橄欖球比賽數據 49
準備工作 50
處理流程 50
工作原理 53
參考資料 53
分析和理解美式橄欖球比賽數據 53
準備工作 53
處理流程 53
工作原理 61
更多內容 61
參考資料 62
構建度量攻防能力的指標 62
準備工作 62
處理流程 62
工作原理 64
參考資料 65
模擬單場由程序決定勝負的比賽 65
準備工作 65
處理流程 65
工作原理 68
模擬多場由計算決定勝負的比賽 68
準備工作 68
處理流程 69
工作原理 73
更多內容 74
第4章 建模分析股票市場數據(R) 75
簡介 75
準備工作 76
獲取股票市場數據 76
處理流程 77
描述數據 78
準備工作 79
工作原理 80
更多內容 81
清洗和研究數據 82
準備工作 82
處理流程 82
工作原理 87
參考資料 87
形成相對估值法 87
準備工作 87
處理流程 88
工作原理 91
分析曆史價格篩選股票 92
準備工作 92
處理流程 92
工作原理 98
第5章 就業數據的可視化探索(R) 99
簡介 99
分析前的準備 100
準備工作 101
處理流程 101
工作原理 102
參考資料 102
將就業數據導入R 103
準備工作 103
處理流程 103
工作原理 104
更多內容 104
參考資料 105
就業數據探究 105
準備條件 105
處理流程 105
工作原理 107
參考資料 107
獲取和閤並添加附加信息 107
準備工作 107
處理流程 108
工作原理 109
添加地理信息 110
準備工作 110
處理流程 110
工作原理 113
參考資料 114
獲取州和縣級水平的薪資和就業信息 114
準備工作 114
處理流程 114
工作原理 116
參考資料 117
可視化薪資的地理分布特性 117
準備工作 118
處理流程 118
工作原理 120
參考資料 121
探究各行業工作的地理分布情況 121
處理流程 122
工作原理 123
更多內容 124
參考資料 124
繪製地理空間的時間序列地圖 124
準備工作 124
處理流程 125
工作原理 128
更多內容 128
函數性能測試和比較 128
準備工作 129
處理流程 129
工作原理 131
更多內容 132
參考資料 132
第6章 運用稅務數據進行應用導嚮的數據分析(Python) 133
簡介 133
應用導嚮方法簡介 134
準備高收入數據集的分析 135
準備工作 135
處理流程 135
工作原理 136
導入並熟悉世界各國高收入數據集 136
準備工作 137
處理流程 137
工作原理 143
更多內容 144
參考資料 144
分析並可視化美國的高收入數據集 144
準備工作 144
處理流程 145
工作原理 151
進一步分析美國的高收入階層 152
準備工作 152
處理流程 152
工作原理 156
用Jinja2匯報結果 157
準備工作 157
處理流程 157
工作原理 162
更多內容 162
參考資料 163
第7章 運用汽車數據進行可視化分析(Python) 164
簡介 164
IPython入門 165
準備工作 165
處理流程 165
工作原理 167
參考資料 167
熟悉IPython Notebook 167
準備工作 168
處理流程 168
工作原理 170
更多內容 170
參考資料 171
準備分析汽車油耗 171
準備工作 171
處理流程 171
工作原理 173
更多內容 173
參考資料 174
用Python熟悉並描述汽車油耗數據 174
準備工作 174
處理流程 174
工作原理 177
更多內容 177
參考資料 177
用Python分析汽車油耗隨時間變化趨勢 177
準備工作 177
處理流程 178
工作原理 183
更多內容 184
參考資料 185
用Python調查汽車的製造商和型號 185
準備工作 185
處理流程 185
工作原理 189
參考資料 189
第8章 社交網絡分析(Python) 190
簡介 190
理解圖和網絡 191
準備用Python進行社交網絡的分析工作 192
準備工作 192
處理流程 193
工作原理 193
更多內容 193
導入網絡 194
準備工作 194
處理流程 194
工作原理 196
探索英雄網絡的子圖 196
準備工作 197
處理流程 197
工作原理 199
更多內容 199
找齣強關聯 200
準備工作 201
處理流程 201
工作原理 203
更多內容 204
找齣關鍵人物 204
準備工作 205
處理流程 205
工作原理 208
更多內容 209
調查全網的特徵 215
準備工作 216
處理流程 216
工作原理 217
社交網絡中的聚類和發現社群 217
準備工作 217
處理流程 218
工作原理 221
更多內容 221
可視化圖 222
準備工作 222
處理流程 222
工作原理 224
第9章 大規模電影推薦(Python) 225
簡介 226
對偏好建模 227
處理流程 227
工作原理 228
理解數據 229
準備工作 229
處理流程 229
工作原理 231
更多內容 231
加載電影評分數據 231
準備工作 231
處理流程 232
工作原理 234
尋找高評分電影 235
準備工作 236
處理流程 236
工作原理 237
更多內容 238
參考資料 238
提升電影評分係統 238
準備工作 238
處理流程 238
工作原理 239
更多內容 240
參考資料 240
計算用戶在偏好空間中的距離 240
準備工作 241
處理流程 241
工作原理 243
更多內容 243
參考資料 243
計算用戶相關性 244
準備工作 244
處理流程 244
工作原理 245
更多內容 246
為特定用戶尋找最好的影評人 246
準備工作 246
處理流程 246
工作原理 247
預測用戶評分 249
準備工作 249
處理流程 249
工作原理 250
基於物品的協同過濾 251
準備工作 251
處理流程 252
工作原理 253
建立非負矩陣分解模型 254
處理流程 255
工作原理 255
參考資料 256
將數據集載入內存 256
準備工作 257
處理流程 257
工作原理 258
更多內容 258
導齣SVD模型至硬盤 259
處理流程 259
工作原理 260
訓練SVD模型 261
處理流程 261
工作原理 262
更多內容 263
測試SVD模型 264
處理流程 264
工作原理 264
更多內容 264
第10章 獲取和定位Twitter數據(Python) 266
簡介 266
創建Twitter應用 267
準備工作 268
處理流程 268
工作原理 271
參考資料 271
瞭解Twitter API v1.1 271
準備工作 272
處理流程 272
工作原理 273
更多內容 274
參考資料 275
獲取粉絲和朋友信息 275
準備工作 275
處理流程 275
工作原理 277
更多內容 277
參考資料 278
提取Twitter用戶檔案 278
準備工作 278
處理流程 278
工作原理 279
更多內容 279
參考資料 280
避免Twitter速度限製 280
準備工作 280
處理流程 280
工作原理 281
存儲JSON數據至硬盤 281
準備工作 282
處理流程 282
工作原理 282
安裝MongoDB 283
準備工作 283
處理流程 283
工作原理 284
更多內容 284
參考資料 285
利用PyMongo將用戶信息存入MongoDB 285
準備工作 285
處理流程 285
工作原理 286
探索用戶地理信息 287
準備工作 287
處理流程 287
工作原理 289
更多內容 290
參考資料 290
利用Python繪製地理分布圖 290
準備工作 290
處理流程 291
工作原理 292
更多內容 293
參考資料 294
第11章 利用NumPy和SciPy優化數值計算(Python) 295
簡介 295
瞭解優化的步驟 297
處理流程 297
工作原理 297
更多內容 298
識彆代碼中常見性能瓶頸 298
處理流程 299
工作原理 299
通讀代碼 301
準備工作 302
處理流程 302
工作原理 302
參考資料 304
利用Unix time函數剖析Python代碼 305
準備工作 305
處理流程 305
工作原理 306
參考資料 306
利用Python內建函數剖析Python代碼 306
準備工作 306
處理流程 306
工作原理 307
參考資料 308
利用IPython %timeit函數剖析Python代碼 308
處理流程 308
工作原理 309
利用line_profiler剖析Python代碼 309
準備工作 310
處理流程 310
工作原理 311
更多內容 312
參考資料 312
摘取低處的(經過優化的)果實 312
準備工作 312
處理流程 312
工作原理 314
測試NumPy帶來的性能提升 315
準備工作 315
處理流程 315
工作原理 316
更多內容 317
參考資料 317
用NumPy重寫函數 317
準備工作 317
處理流程 318
工作原理 320
用NumPy優化最內層循環 322
準備工作 322
處理流程 322
工作原理 324
更多內容 325
前言/序言
數據科學實戰手冊 R+Python 下載 mobi epub pdf txt 電子書