內容簡介
本書提供瞭一係列將數據轉化為重要結論的現實案例。書中覆蓋瞭廣泛的數據分析工具和算法,用於進行分類分析、聚類分析、數據可視化、數據模擬以及預測。本書的目標是幫助讀者瞭解數據從而找到相應的模式、趨勢、相互關係以及重要結論。書中所包括的實用項目充分利用瞭MongoDB、D3.js和Python語言,並采用代碼片段和詳細描述的方式呈現本書的核心概念。
目錄
譯者序
作者簡介
審校者簡介
前言
第1章 開始1
1.1 計算機科學1
1.2 人工智能2
1.3 機器學習2
1.4 統計學2
1.5 數學2
1.6 專業領域知識3
1.7 數據、信息和知識3
1.7.1 數據、信息和知識之間的相互性3
1.7.2 數據的本質4
1.8 數據分析過程5
1.8.1 問題6
1.8.2 數據準備6
1.8.3 數據探索7
1.8.4 預測建模7
1.8.5 結果可視化8
1.9 定量與定性數據分析9
1.10 數據可視化的重要性9
1.11 大數據10
1.12 自我量化12
1.12.1 傳感器和攝像頭12
1.12.2 社交網絡分析13
1.13 本書的工具和練習13
1.13.1 為什麼使用 Python14
1.13.2 為什麼使用mlpy14
1.13.3 為什麼使用D3.js14
1.13.4 為什麼使用 MongoDB15
1.14 小結15
第2章 數據預處理16
2.1 數據源16
2.1.1 開源數據17
2.1.2 文本文件18
2.1.3 Excel文件18
2.1.4 SQL數據庫18
2.1.5 NoSQL數據庫19
2.1.6 多媒體20
2.1.7 網頁檢索20
2.2 數據清洗22
2.2.1 統計方法23
2.2.2 文本解析23
2.2.3 數據轉化25
2.3 數據格式25
2.3.1 CSV26
2.3.2 JSON27
2.3.3 XML28
2.3.4 YAML29
2.4 數據歸約30
2.4.1 過濾及抽樣30
2.4.2 分箱算法30
2.4.3 降維31
2.5 開始使用OpenRefine工具32
2.5.1 text facet33
2.5.2 聚類33
2.5.3 文本過濾器34
2.5.4 numeric facet34
2.5.5 數據轉化35
2.5.6 數據輸齣36
2.5.7 操作曆史記錄36
2.6 小結37
第3章 可視化38
3.1 可視化概述39
3.2 利用網頁版的可視化39
3.3 探索科學可視化39
3.4 在藝術上的可視化40
3.5 可視化生命周期40
3.6 可視化不同類型的數據41
3.6.1 HTML41
3.6.2 DOM42
3.6.3 CSS42
3.6.4 JavaScript43
3.6.5 SVG43
3.7 開始使用D3.js43
3.7.1 柱狀圖44
3.7.2 餅圖48
3.7.3 散點圖50
3.7.4 單綫圖52
3.7.5 多綫圖55
3.8 交互與動畫59
3.9 社交網絡中的數據61
3.10 可視化分析的摘要62
3.11 小結62
第4章 文本分類63
4.1 學習和分類63
4.2 貝葉斯分類64
4.3 E-mail主題測試器65
4.4 數據66
4.5 算法68
4.6 分類器的準確性71
4.7 小結73
第5章 基於相似性的圖像檢索74
5.1 圖像相似性搜索74
5.2 動態時間規整75
5.3 處理圖像數據集77
5.4 執行DTW77
5.5 結果分析79
5.6 小結81
第6章 模擬股票價格82
6.1 金融時間序列82
6.2 隨機漫步模擬83
6.3 濛特卡羅方法84
6.4 生成隨機數85
6.5 用D3.js實現86
6.6 計量分析師91
6.7 小結93
第7章 預測黃金價格94
7.1 處理時間序列數據94
7.2 平滑時間序列97
7.3 綫性迴歸100
7.4 數據—曆史黃金價格101
7.5 非綫性迴歸101
7.5.1 核嶺迴歸102
7.5.2 平滑黃金價格時間序列104
7.5.3 平滑時間序列的預測105
7.5.4 對比預測值106
7.6 小結107
第8章 使用支持嚮量機的方法進行分析108
8.1 理解多變量數據集109
8.2 降維111
8.2.1 綫性無差彆分析112
8.2.2 主成分分析112
8.3 使用支持嚮量機114
8.3.1 核函數115
8.3.2 雙螺鏇問題116
8.3.3 在mlpy中實現SVM116
8.4 小結119
第9章 應用細胞自動機的方法對傳染病進行建模120
9.1 流行病學簡介120
9.2 流行病模型122
9.2.1 SIR模型122
9.2.2 使用SciPy來解決SIR模型的常微分方程123
9.2.3 SIRS模型124
9.3 對細胞自動機進行建模125
9.3.1 細胞、狀態、網格和鄰域126
9.3.2 整體隨機訪問模型127
9.4 通過D3.js模擬CA中的SIRS模型127
9.5 小結135
第10章 應用社交圖譜136
10.1 圖譜的結構136
10.1.1 無嚮圖137
10.1.2 有嚮圖137
10.2 社交網絡分析137
10.3 捕獲Facebook圖譜138
10.4 使用Gephi再現圖譜139
10.5 統計分析142
10.6 度的分布144
10.6.1 圖譜直方圖145
10.6.2 集中度146
10.7 將GDF轉化為JSON148
10.8 在D3.js環境下進行圖譜可視化150
10.9 小結154
第11章 分析Twitter數據155
11.1 解析Twitter數據155
11.1.1 tweet156
11.1.2 粉絲156
11.1.3 熱門話題156
11.2 使用OAuth訪問Twitter API157
11.3 開始使用Twython158
11.3.1 利用Twython進行簡單查詢159
11.3.2 獲取時間錶數據163
11.3.3 獲取粉絲數據165
11.3.4 獲取地點和趨勢信息167
11.3.5 獲取用戶數據168
11.3.6 API流169
11.4 小結171
第12章 使用MongoDB進行數據處理和聚閤172
12.1 開始使用MongoDB172
12.1.1 數據庫173
12.1.2 集閤175
12.1.3 文件175
12.1.4 Mongo shell175
12.1.5 Insert/Update/Delete176
12.1.6 查詢177
12.2 數據準備178
12.2.1 使用OpenRefine進行數據轉換179
12.2.2 通過PyMongo插入文件180
12.3 分組182
12.4 聚閤框架184
12.4.1 流水綫184
12.4.2 錶達式185
12.5 小結186
第13章 使用MapReduce方法188
13.1 MapReduce概述188
13.2 編程模型189
13.3 在MongoDB中使用MapReduce190
13.3.1 map函數190
13.3.2 reduce函數191
......
前言/序言
Preface本書提供瞭一係列將數據轉化為重要結論的現實案例。書中覆蓋瞭廣泛的數據分析工具和算法,用於進行分類分析、聚類分析、數據可視化、數據模擬以及預測。本書旨在幫助讀者瞭解數據從而找到相應的模式、趨勢、相互關係以及重要結論。
書中所包括的實用項目充分利用瞭MongoDB、D3.js和Python語言,並采用代碼片段和詳細描述的方式呈現本書的核心概念。
本書主要內容第1章探討數據分析的基本原理和數據分析步驟。
第2章解釋如何清洗並準備好數據來開展分析,同時介紹數據清洗工具OpenRefine的使用方法。
第3章展示在JavaScript可視化框架下應用D3.js語言來實現各類數據的可視化方法。
第4章介紹應用樸素貝葉斯(Naive Bayes)算法來區分垃圾文本的一種二元分類法。
第5章展示一個應用動態時間規整方法來尋找圖像間相似性的項目。
第6章解釋如何使用隨機漫步算法和可視化的D3.js動畫技術來模擬股票價格。
第7章介紹核嶺迴歸(Kernel Ridge Regression,KRR)的原理以及如何使用此方法和時間序列數據來預測黃金價格。
第8章描述如何使用支持嚮量機的方法進行分類分析。
第9章介紹對流行病進行模擬計算的基本概念並解釋如何應用細胞自動機方法、D3.js和JavaScript語言來模擬流行病爆發。
第10章解釋如何應用Gephi從Facebook獲取社交媒體圖譜並使之實現可視化。
第11章解釋如何應用Twitter的應用程序編程接口(API)來獲取Twitter的數據。讀者也將看到如何改進文本分類分析方法並將其應用於情感分析。這一過程在自然語言工具包(Natural Language Toolkit, NLTK)中應用瞭樸素貝葉斯算法。
第12章介紹在MongoDB數據庫中進行基本操作以及分組、過濾和聚閤的方法。
第13章詳細介紹如何在MongoDB數據庫中應用MapReduce編程模型。
第14章解釋如何使用Wakari平颱,同時介紹在IPython中運用pandas進行數據處理和使用PIL圖像處理庫的方法。
第15章介紹如何在Cloudera VM上使用分布式文件係統及數據環境。最後,利用實際案例介紹Apache Spark的主要特徵。
閱讀準備使用本書需要掌握如下技術:
PythonOpenRefineD3.jsmlpyNLTKGephiMongoDB讀者對象本書主要麵嚮那些希望能夠實際開展數據分析和數據可視化的軟件開發人員、分析人員、計算機科學傢。同時,本書也希望能夠為讀者提供包含時間序列數據、數值型數據、多維度數據和社交媒體數據、文本型數據等多種數據形式的實際案例,以幫助讀者獲得對數據分析的真知灼見。
讀者不需要具備數據分析的經驗,但仍需要對統計學和Python編程有基礎性的瞭解。
下載本書相關資源讀者可登錄華章網站下載本書的相關資源。
實用數據分析(原書第2版) 下載 mobi epub pdf txt 電子書