幫你構築數據科學的邏輯思維,幫你找到數據科學的入門鑰匙
作為認知科學的延伸,數據科學一方麵應該越來越引起廣大大數據工作者的重視,另一方麵也要撩開自己的神秘麵紗,以尤為親民的姿態和每位大數據工作者成為親密無間的戰友,為用科學的思維方式進行工作做好理論準備。《數據科學傢養成手冊》從眾多先賢及科學傢的軼事講起,以逐步歸納和遞進的脈絡總結齣科學及數據科學所應關注的要點,然後在生産的各個環節中對這些要點逐一進行討論與落實,從更高、更廣的視角迴看科學及數據科學在各個生産環節的縮影。《數據科學傢養成手冊》並不以高深的數學理論研究作為目的,也不以某一種計算機語言編程作為主綫脈絡,而是在一個個看似孤立的故事與工程中不斷拾遺,並試著從中悟齣一些道理。
《數據科學傢養成手冊》適閤大數據從業人員和對大數據相關知識感興趣的人,初級和中級程序員、架構師及希望通過對數據的感知改進工作的人,産品經理、運營經理、數據分析師、數據庫開發工程師等對數據分析工作敏感的人,以及所有對數據科學感興趣並希望逐步深入瞭解數據科學知識體係的人閱讀。
高揚,北京郵電大學計算機專業畢業,重慶工商大學管理科學與工程專業碩士研究生事業導師。10年以上IT行業工作經驗,3年海外工作經驗。2010年後一直專注於數據庫、大數據、數據挖掘、機器學習、人工智能等相關領域的研究。曾在金山軟件西山居任大數據架構師,負責大數據平颱構架與搭建。現任歡聚時代資深大數據專傢,負責大數據、深度學習等基礎技術與理論研究和實際産品的結閤。
在大數據時代,招式純熟(編程技術強)的“攻城獅”要躋身一流高手行列,缺的就是內功心法(數據科學概念和方法)。這本彆開生麵的數據科學書,正是你苦覓不得的心法——關鍵還很好看,曆史人文典故和數據公式融閤,讀來全無枯燥之感。
馭勢科技聯閤創始人、CEO 吳甘沙
數據科學讓我們越來越多地觀察到人類社會復雜的行為模式。數據科學傢需要激情與耐心,他們具備商業頭腦和數據素養,擁有獲取數據、理解統計和機器學習的算法實現、通過軟件編程解決實際問題的能力,為決策支持提供有效溝通的數據思維和數據洞察力。這是一個值得付齣時間和精力的職業領域,相信這本書是您實踐夢想的開始。
中國傳媒大學新聞學院教授、博導,中國市場研究行業協會會長 瀋浩
在理想年代,讀書的少年都想成為科學傢,互聯網浪潮奔湧,又都想當創業大牛,而未來是數據驅動的智能時代,數據科學傢將獨領風騷。這本書裏既有對科學史的追溯和思辨,又有對數據科學領域相關知識深入淺齣的講解,是非常難得的普及讀物,更是開啓新時代的一把鑰匙。
餓瞭麼北京研發中心總經理 史海峰
數據科學是在我們工作的方方麵麵都發揮著作用的基礎學科。用科學的眼光看待數據、收集數據、分析數據,用科學的眼光審視數據、解讀數據,是未來每個人都應該具備的能力。這本書通俗易懂,以小見大,適閤絕大多數接觸數據崗位的人員閱讀。
雲技術社區創始人 肖力
認知篇
第1章 什麼是科學傢 2
1.1 從太陽東升西落開始 2
1.1.1 農曆 2
1.1.2 公曆 5
1.1.3 小結 7
1.2 阿基米德愛洗澡? 7
1.3 托勒密的秘密 10
1.4 牛頓為什麼那麼牛 11
1.4.1 蘋果和三大定律 11
1.4.2 極限和微積分 12
1.5 高斯——高,實在是高 15
1.6 離經叛道的愛因斯坦 17
1.7 本章小結 20
第2章 什麼是科學 23
2.1 科學之科 23
2.2 邊界的迷茫 23
2.3 科學之殤 26
2.4 本章小結 27
第3章 數據與數學 28
3.1 什麼是數據 28
3.2 數學的奧妙 29
3.2.1 《幾何原本》 29
3.2.2 《九章算術》 30
3.2.3 高等數學 34
3.3 本章小結 37
第4章 數據科學的使命 38
4.1 走近數據科學 38
4.1.1 介質 38
4.1.2 從信息到數據 41
4.1.3 數據科學的本質 43
4.2 萬能的數據科學 44
4.2.1 測量 44
4.2.2 統計計算 47
4.2.3 指標 52
4.3 使命必達 53
4.3.1 高效生産 53
4.3.2 破除迷信 56
4.3.3 目標一緻與不一緻 57
4.4 本章小結 58
第5章 矛盾的世界 59
5.1 古希臘——學者高産的國度 59
5.2 矛盾無處不在 61
5.3 世界究竟是否可知 63
5.4 薛定諤的“喵星人” 64
5.5 本章小結 66
第6章 實驗和哲學 68
6.1 樸素的認知方法 68
6.1.1 眼見為實 69
6.1.2 歸納與總結 70
6.2 哲學靠譜嗎 71
6.3 數學的盡頭是哲學 72
6.4 本章小結 73
第7章 辯證思維 74
7.1 要不要辯證有多大區彆 74
7.2 誰對誰錯 76
7.3 做到客觀不容易 77
7.4 觀念的存弭 79
7.5 本章小結 82
分化篇
第8章 統計學 86
8.1 數理統計鼻祖—阿道夫·凱特勒 86
8.2 統計就是統共閤計 88
8.3 數據來源 90
8.4 抽樣 91
8.5 對照實驗 91
8.6 誤差 94
8.6.1 抽樣誤差 94
8.6.2 非抽樣誤差 96
8.7 概括性度量 97
8.7.1 集中趨勢度量 98
8.7.2 離散程度度量 100
8.7.3 小結 100
8.8 概率與分布 100
8.8.1 數學期望 102
8.8.2 正態分布 103
8.8.3 其他分布 106
8.9 統計學與大數據 107
第9章 信息論 109
9.1 模擬信號 109
9.2 信息量與信息熵 110
9.3 香農公式 111
9.4 數字信號 112
9.5 編碼與壓縮 113
9.5.1 無損壓縮 114
9.5.2 有損壓縮 117
9.6 本章小結 126
第10章 混沌論 127
10.1 洛倫茲在想什麼 128
10.2 羅伯特·梅的養魚計劃 129
10.3 有限的大腦,無限的維 130
10.4 謀殺上帝的拉普拉斯 132
10.5 龐加萊不是省油的燈 134
10.6 未知居然還能做預測 137
10.7 本章小結 137
第11章 算法學 139
11.1 離散的世界 139
11.2 成本的度量 142
11.3 窮舉法——暴力破解 143
11.4 分治法——化繁為簡 152
11.5 迴溯法——能省則省 154
11.6 貪心法——局部最優 155
11.7 迭代法——步步逼近 156
11.7.1 牛頓法 157
11.7.2 梯度下降法 158
11.7.3 遺傳算法 159
11.8 機器學習——自動歸納 161
11.8.1 非監督學習 162
11.8.2 監督學習 164
11.8.3 強化學習 176
11.9 神經網絡——深度學習 178
11.9.1 神經元 178
11.9.2 BP神經網絡 180
11.9.3 損失函數 181
11.9.4 非綫性分類 183
11.9.5 激勵函數 187
11.9.6 捲積神經網絡 189
11.9.7 循環神經網絡 191
11.9.8 小結 194
11.10 本章小結 195
實踐篇
第12章 數據采集 198
12.1 數據的源頭 198
12.2 日誌收集 199
12.2.1 實時上傳 200
12.2.2 延時上傳 203
12.2.3 加密問題 204
12.2.4 壓縮問題 205
12.2.5 連接方式 206
12.2.6 消息格式 208
12.2.7 維度分解 210
12.3 這隻是不靠譜的開始 211
12.4 本章小結 212
第13章 數據存儲 213
13.1 讀寫不對等 213
13.1.1 讀多寫少 214
13.1.2 讀少寫多 214
13.1.3 讀寫都多 215
13.2 進快還是齣快 216
13.2.1 最快寫入 216
13.2.2 讀齣最快 218
13.3 文件還是數據庫 218
13.4 要不要支持事務 219
13.5 錶分區和索引 221
13.5.1 錶分區 222
13.5.2 索引 222
13.6 穩定最重要 225
13.7 安全性和副本 226
13.7.1 RAID 226
13.7.2 軟冗餘 228
13.8 本章小結 229
第14章 數據統計 230
14.1 此“統計”恐非彼“統計” 230
14.2 要精確還是要簡潔 234
14.3 統計是萬能的嗎 235
14.4 注意性能 237
14.5 本章小結 238
第15章 數據建模 239
15.1 模型是寶貴的財富 240
15.2 量化是關鍵 241
15.3 該算法齣馬瞭 241
15.3.1 統計學模型 242
15.3.2 綫性關係 243
15.3.3 復雜的非綫性關係 243
15.4 算法的哲學 244
15.5 本章小結 245
第16章 數據可視化與分析 247
16.1 看得見,摸得著 247
16.2 顔色很重要 247
16.3 彆說布局沒有用 249
16.3.1 由上而下,由簡而繁 249
16.3.2 總-分,分-總,總-分-總 251
16.3.3 毗鄰吸引 252
16.4 有圖就彆要錶格 253
16.5 分析的內涵 254
16.5.1 相關性分析 255
16.5.2 預測分析 256
16.5.3 其他分析 257
16.6 有趣的統計應用 257
16.6.1 不規則圖形的麵積 258
16.6.2 套齣你的實話 258
16.6.3 巧測圓周率 259
16.7 仁者見仁,智者見智 260
16.8 永恒的睏惑 261
16.9 本章小結 263
第17章 數據決策 264
17.1 決策就是“拍腦袋” 264
17.2 哪裏有物質,哪裏就有數據 265
17.2.1 目的的統一 265
17.2.2 數據勝於雄辯 266
17.3 這是風險博弈 267
17.3.1 性價比優先 267
17.3.2 小迭代至上 268
17.3.3 不要“輸不起” 268
17.3.4 留得青山在 269
17.4 本章小結 270
第18章 案例分析 272
18.1 K綫圖裏的秘密 272
18.1.1 什麼是市場 273
18.1.2 誰在控製價格 273
18.1.3 貨幣價格的形成 276
18.1.4 零和博弈 277
18.1.5 漲跌都盈利 278
18.1.6 價格的預測 279
18.1.7 形態 280
18.1.8 K綫圖周期 282
18.1.9 造市商與點差 283
18.1.10 科學分析 284
18.1.11 小結 317
18.2 數學能救命 317
18.2.1 陰雲下的大西洋 317
18.2.2 護航船隊的救星 318
18.2.3 數學傢的天下 324
18.2.4 小結 324
18.3 人人都能運籌帷幄 325
第19章 與本書相關內容的問與答 326
後記 333
附錄A 335
A.1 VMware Workstation的安裝 335
A.1.1 VMware簡介 335
A.1.2 安裝準備工作 335
A.2 CentOS虛擬機的安裝 338
A.2.1 下載DVD鏡像 338
A.2.2 創建VMware虛擬機 338
A.3 Ubuntu虛擬機的安裝 344
A.4 Python語言簡介 350
A.4.1 安裝Python 350
A.4.2 Hello Python 350
A.4.3 行與縮進 350
A.4.4 變量類型 351
A.4.5 循環語句 352
A.4.6 函數 353
A.4.7 模塊 354
A.4.8 小結 354
A.5 Scikit-learn庫簡介 355
A.6 安裝Theano 356
A.7 安裝Keras 356
A.8 安裝MySQL 357
A.9 安裝MySQL-Python驅動 358
A.10 MT4平颱簡介 359
參考文獻 363
序
十幾二十年前,讀書是學習新技術的不二法門。當時如果要學習一門技術,都需要買上幾本“磚頭書”,一邊閱讀,一邊動手,一頁一頁“啃”下來。很多在今天叱吒風雲的高手,當年都是用這種方式打下基礎的。
最近幾年,技術學習的方式發生瞭深刻的變化,大量的在綫視頻課程、交互式學習環境、開箱即用的工具箱,使技術學習的效率大幅度提升,特彆是在動手能力方麵,培訓效率有瞭質的飛躍。最近一年,受人工智能領域突破性進展的鼓舞,機器學習和數據科學成為技術圈中的顯學,而在綫學習成為主流的學習方式。在這種情況下,大批學習者僅僅看過一些視頻教程,按要求在Jupyter Notebook中做過一些練習,就基本具備動手解決問題的能力,可以上崗瞭。
這當然很好。但是,倘若你想在某一個領域取得真知,讀書仍然是不可或缺的手段。中國信息安全領域的領軍人物馮登國院士曾經說,以他的經驗,想要真的搞懂某一個領域,非得深入“啃”至少一本書不可。讀書的效率相對於聽課、看視頻要低得多,而多維的知識體係通過單維的文字錶達齣來,也給理解帶來瞭挑戰。然而,唯其有這種挑戰,纔需要讀者進入深度思考狀態,使讀書成為一個推敲、琢磨、設問和破解的過程。不經過這個過程,我們所學到的知識一般來說隻能是浮於錶麵的,很難達到“知其然知其所以然”的高度。正因如此,我們已經開始發現,僅通過在綫視頻和動手練習的學習者,對於相關領域的理論掌握經常是膚淺的。可以說,到目前為止,讀書作為一種學習手段,依然是其他方式無法取代的。
機器學習和數據科學領域有幾本非常重要的著作,每一個有野心的學習者都應該選擇至少一本深入研究。Christopher Bishop於2006年齣版的Pattern Recognition and Machine Learning,Kevin Murphy 2012年的巨著Machine Learning: A Probabilistic Perspective,斯坦福大學兩位機器學習泰鬥Trevor Hastie和Robert Tibshirani及其學生閤著的An Introduction to Statistical Learning,當然還有Ian Goodfellow和Yoshua Bengio最近齣版的Deep Learning——稱這幾本書為這個領域的“四書五經”,應該沒有爭議。
但是,這幾本書有一個共同的問題——都是按照教材的體例編寫的,所以都是盡全力係統化地介紹知識,對這個領域豐富多彩的應用、曆史、人文和故事卻很少展開論述。而要成為一名數據科學傢,僅有知識和動手能力是不夠的,還需要有相應的素養,這包括特有的思維方式、價值觀,對相關曆史背景和掌故的瞭解,以及對數據科學社區的認知和互動——這恰恰是本書的價值。
作者把數據科學放在一個更廣闊的背景之中,從數學、統計學、方法論甚至認知論的層麵齣發,討論數據科學的內涵和外延,內容豐富,旁徵博引,語言生動,靈活有趣,幫助讀者站在一個更豐富的勢場中認識數據科學,理解數據科學的基本思想。尤為令人欣喜的是,作者將信息論、混沌理論納入討論之中,錶明作者敏銳地注意到數據科學與係統科學和認識論的深層聯係,這是難能可貴的。從這個角度來解說數據科學的書,應該說是中國首本,即使在全球範圍內也是獨具特色的。為此,我們願意嚮讀者推薦本書,並相信讀者一定能從中獲得非常有價值的啓發。
CSDN、AI100創始人 蔣 濤
AI100閤夥人 孟 岩
為什麼要寫這本書
隨著計算機科學和數據科學的發展,越來越多的人開始把目光投嚮其中最為耀眼的互聯網、物聯網、大數據、人工智能等高新技術領域,並且有相當多的高級技術人纔已經在這些領域獲得瞭令人矚目的成就。
在追逐信息技術發展浪潮的過程中,數據科學成為人們在信息技術海洋中遨遊所沉澱下來的理論與科學基礎。我們都渴望通過對數據科學的理解來對生産工作進行指導和改善,這種工作的意義與其他各種在信息技術産業一綫工作所創造價值的意義一樣非比尋常。它給我們更廣的辯證思考的空間,更高的觀察事物的眼界,更多的自新的維度與動力。它是那麼神秘且有趣。
數據科學到今天已經滲透到我們每個人的工作和生活之中。在你早上起來趕公車或者地鐵的時候,你其實正在享受由數據科學輔助進行的精確調度服務;在你閱讀工作報錶的時候,你其實正在享受由數據科學輔助進行的大數據統計服務;在你吃午餐的時候,你其實正在享受由數據科學輔助進行的外賣快餐數據分發或食堂菜品改良服務;當你晚上迴到傢,在網上盡情購物的時候,你其實正在享受由數據科學輔助進行的高效電子商務和智能推薦服務。駕車齣行有智能導航,就醫問藥有分診機器人……也許你的傢人或者朋友現在就在自己的工作崗位上,作為一名普通的銷售人員、産品經理、人力資源師、售後服務人員、商務代錶等,通過數據決策係統、數據庫甚至電子錶格來觀察數據,做齣判斷,開展工作。數據科學給我們帶來的紅利已經緊緊把我們包圍。
這本書絕無說教的想法,而是希望以書為媒,用談天說地的方式,以激發每個人的思考為主要手段,歸納總結數據科學的實質及成就一位數據科學傢所需要的基本素養。
遺憾的是,越是基礎性、本源性的學科,與變成現實利益的距離也就越遠,讓人覺得似乎不夠實惠,不夠親近。至少讀完這本書沒辦法幫你直接在第二天變齣米飯、房子和汽車。不過我認為,樓房再高再漂亮,也需要人們看不到的深厚地基來支持;花兒再芬芳再嬌艷,也需要在土壤之下吮吸養分的豐富根係來供能。這些看不到的東西,往往起著我們無法想象的巨大作用,而這纔是我希望與你一同討論並思考的。
我們熱愛生活,我們熱愛所做的工作,我們希望在不斷的攀登中看到更深更遠的世界並去僞存真。那就讓我們在點點滴滴的知識片段中一起開始慢慢思索、細細揣摩這一養成過程吧。
本書特色
本書從眾多先賢及科學傢的軼事開始講起,以逐步歸納和遞進的脈絡總結齣科學及數據科學所應關注的要點,然後在生産的各個環節中對這些要點逐一進行討論與落實,將這本書變成一本具有一定思維升華價值的參考書,從更高、更廣的視角迴看科學及數據科學在各個生産環節的縮影。
本書並不以高深的數學理論研究作為目的,也不以某一種計算機語言編程作為主綫脈絡,而是在一個個看似孤立的故事與工程中不斷拾遺,並試著從中悟齣一些道理。
簡潔與深刻並重是本書的另一大特點。作為認知科學的延伸,數據科學一方麵應該越來越引起廣大大數據工作者的重視,另一方麵也要撩開自己的神秘麵紗,以最為親民的姿態和每位大數據工作者成為親密無間的戰友,為用科學的思維方式進行工作做好理論準備。
讀者對象
(1)大數據從業人員和對大數據相關知識感興趣的人。
(2)初級和中級程序員、架構師,以及希望通過對數據的感知改進工作的人。
(3)産品經理、運營經理、數據分析師、數據庫開發工程師等對數據分析工作敏感的人。
(4)希望在思維方式領域進行拓展的高校畢業生和希望接觸並瞭解數據科學的社會人員。
(5)所有對數據科學感興趣並希望逐步深入瞭解數據科學知識體係的人。
如何閱讀本書
本書分為3篇,分彆是認知篇、分化篇和實踐篇。
認知篇(第1章~第7章)
歸納瞭什麼是科學,數據科學的範圍、定義與實踐價值,以及辯證思維、哲學和實驗的關係等問題。這些是認知觀點的基石。
分化篇(第8章~第11章)
重點介紹瞭數據科學中與現代社會各行業聯係最為緊密的統計學、信息論、算法學,另外把混沌論作為一個知識點進行瞭補充。這些是認知觀點在不同細分學科中所形成的一些具體解決問題的思維方式和科學觀點。
實踐篇(第12章~第18章)
沿著數據生命周期進行演進。任何行業的數據生命周期都是按照采集、存儲、統計與建模、算法、可視化與分析、決策支持的沿革來進行的,本篇對各個環節的注意事項和思維方式都做瞭詳細的討論,並在第18章介紹瞭兩個具體的數據分析案例。
在本書的最後,補充瞭過去與同行們討論過的,並在會議演講及日常分享的過程中總結齣來的一些精彩問答。
如果你希望讀完這本書後能夠在數學方麵有很大的提升,在工程代碼能力方麵有巨大的進步,這本書恐怕幫不上什麼大忙。但我相信,在讀完這本書後,你會在一些以前並不熟知的領域有所瞭解和感悟,並逐步完善理解和分析問題的視角。如果你不是數據研究人員,也可以把這本書當成一個休閑讀本。這本書裏既沒有太多的公式,也沒有太過高深的理論,有的隻是我在和你攀談的過程中與你一起發現的新視角。
特彆緻謝
感謝繪麟社相輝先生和李曉林女士對本書的插畫助力。
參加本書編寫工作的有高揚、衛崢、左妍、尹會生、楊藝、陳鋼、肖力。
勘誤和支持
由於作者的水平有限,編寫時間倉促,書中難免會齣現一些錯誤或者不準確的地方,懇請讀者批評指正。如果您有更多的寶貴意見,歡迎掃描本頁的二維碼,關注“奇點大數據”微信公眾號與我們進行互動討論。本書後續的代碼上傳及勘誤等相關更新內容都會在這個微信公眾號發布。關注大數據尖端技術發展,關注奇點大數據。
同時,您也可以通過郵箱77232517@qq.com與我聯係,期待能夠得到您的真摯反饋,在技術之路上互勉共進。
高 揚
2017年1月於珠海
哈哈哈哈哈哈1点半到两次都
评分对于数据认知的方法论讲的比较透彻有趣,难得的好书,适合各种人阅读。
评分京东物美价廉真是好,喜欢京东
评分……………………………
评分刚看了一下,还可以。开拓一下思维
评分很好,活动价格还可以,性价比高,送货快捷。
评分很不错哈。。。。。
评分主要是科普吧
评分打折屯书,攒了慢慢看。
本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 tushu.tinynews.org All Rights Reserved. 求知書站 版权所有