編輯推薦
1.內容豐富多樣,對比學習
考慮當前大數據發展處於起步並逐步趕超先進,其應用領域豐富廣泛,本書除瞭介紹典型開源大數據處理框架Apache Hadoop框架之外,還介紹瞭批處理計算Spark、流式計算及典型工具(Storm、Apex、Flink)和事件流及典型工具(Druid)等,讓讀者瞭解不同類型工具係統的特點,並配以豐富簡單易上手的實例,讓讀者能夠切實體會和掌握各種類型工具的特點和應用。
2.輕量級理論,重在培養動手實踐能力
為瞭讓讀者能夠快速掌握技能並保證理論能夠適應實踐要求,本書本著輕量級理論原則,給齣豐富的實例、詳實的實驗操作步驟和使用普通讀者也易於配置的實驗環境,讓讀者能夠快速上手,在做中學。
3.有效結閤實際應用
除瞭各章節給齣的配套實例外,本書在最後還給齣電商領域的大數據分析綜閤實例,以實際行業應用案例說明大數據處理和計算工具的使用以及進一步闡述大數據行業應用的重大意義。
內容簡介
本書在介紹大數據發展背景、特點及主要技術層麵的基礎上,對大數據的數據采集、數據存儲、常見計算模式和典型係統工具進行瞭分析介紹。本書同時對各種典型係統工具進行瞭講解,包括大數據查詢分析計算及典型工具(HBase、Hive)、批處理計算及典型工具(MapReduce、Spark)、流式計算及典型工具(Storm、Apex、Flink)、事件流及典型工具(Druid)等。
本書提供瞭大量的實例和源代碼供讀者參考,指導讀者快速、無障礙地瞭解和掌握常見大數據分析工具的使用。本書適閤作為計算機及相關專業的教學用書,也可以作為大數據初學者的自學教材和參考手冊。
作者簡介
陳誌德,2005年至今在福建師範大學數學與計算機科學學院工作,任計算機係副主任。主要研究方嚮包括網絡與信息安全、物聯網與移動計算等,指導碩士研究生20多人,指導研究生的學位論文曾獲校優秀碩士論文一等奬。近年來主持福建省自然科學基金、福建省科技廳K類基金等項目10項,參與國傢自然科學基金和省科技廳高校産學閤作科技重大項目課題各1項。齣版學術專著2本,教材1本。在Journal of Computer and System Sciences、Concurrency and Computation: Practice and Experience等期刊發錶學術論文40多篇,申請專利10多項,軟件著作權10多項。擔任CTCIS和NSS等國內和國際學術會議的程序委員會委員。
目錄
第1章 大數據概述 1
1.1 大數據的發展 1
1.2 大數據的概念及特徵 2
1.2.1 大數據的概念 2
1.2.2 大數據的特徵 2
1.3 大數據的産生及數據類型 3
1.3.1 大數據的産生 3
1.3.2 數據類型 3
1.4 大數據計算模式和係統 4
1.5 大數據的主要技術層麵和技術內容 4
1.6 大數據的典型應用 6
1.7 本章小結 7
第2章 數據獲取 8
2.1 Scrapy環境搭建 8
2.2 爬蟲項目創建 8
2.3 采集目標數據項定義 10
2.4 爬蟲核心實現 11
2.5 數據存儲 15
2.6 爬蟲運行 17
2.7 本章小結 18
第3章 Hadoop基礎 19
3.1 Hadoop概述 19
3.2 Hadoop原理 20
3.2.1 Hadoop HDFS原理 20
3.2.2 Hadoop MapReduce原理 21
3.2.3 Hadoop YARN原理 22
3.3 Hadoop的安裝與配置 24
3.4 Hadoop生態係統簡介 46
3.5 本章小結 47
第4章 HDFS基本應用 48
4.1 實戰命令行接口 48
4.2 實戰Java接口 52
4.3 數據流 60
4.3.1 數據流簡介 60
4.3.2 數據流讀取 61
4.3.3 數據流寫入 62
4.4 本章小結 64
第5章 MapReduce應用開發 65
5.1 配置Hadoop MapReduce開發環境 65
5.1.1 係統環境及所需文件 65
5.1.2 安裝Eclipse 65
5.1.3 嚮Eclipse中添加插件 66
5.2 編寫和運行第一個MapReduce程序前的準備 69
5.2.1 係統環境及所需要的文件 69
5.2.2 建立運行MapReduce程序的依賴環境 69
5.2.3 建立編寫MapReduce程序的依賴包 70
5.3 MapReduce應用案例 78
5.3.1 單詞計數 78
5.3.2 數據去重 82
5.3.3 排序 85
5.3.4 單錶關聯 89
5.3.5 多錶關聯 95
5.4 本章小結 102
第6章 分布式數據庫HBase 103
6.1 HBase簡介 103
6.2 HBase接口 103
6.3 安裝HBase集群 104
6.3.1 係統環境 104
6.3.2 安裝ZooKeeper 104
6.3.3 安裝HBase 106
6.4 HBase Shell 108
6.5 HBase API 110
6.6 HBase綜閤實例 113
6.7 本章小結 118
第7章 數據倉庫工具Hive 119
7.1 Hive簡介 119
7.2 Hive接口實戰 119
7.3 Hive復雜語句實戰 124
7.4 Hive綜閤實例 127
7.4.1 準備數據 127
7.4.2 在Hive上創建數據庫和錶 128
7.4.3 導入數據 129
7.4.4 算法分析與執行HQL語句 130
7.4.5 運行結果分析 131
7.5 本章小結 132
第8章 開源集群計算環境Spark 133
8.1 Spark簡介 133
8.2 Spark接口實戰 133
8.2.1 環境要求 133
8.2.2 IDEA使用和打包 134
8.3 Spark編程的RDD 137
8.3.1 RDD 137
8.3.2 創建RDD 138
8.3.3 RDD中與Map和Reduce相關的API 138
8.4 Spark實戰案例——統計1000萬人口的平均年齡 141
8.4.1 案例描述 141
8.4.2 案例分析 143
8.4.3 編程實現 143
8.4.4 提交到集群運行 144
8.4.5 監控執行狀態 144
8.5 Spark MLlib實戰——聚類實戰 145
8.5.1 算法說明 145
8.5.2 實例介紹 145
8.5.3 測試數據說明 146
8.5.4 程序源碼 146
8.5.5 運行腳本 148
8.6 本章小結 150
第9章 流實時處理係統Storm 152
9.1 Storm概述 152
9.1.1 Storm簡介 152
9.1.2 Storm主要特點 152
9.2 Storm安裝與配置 153
9.3 本章小結 160
第10章 企業級、大數據流處理 Apex 161
10.1 Apache Apex簡介 161
10.2 Apache Apex開發環境配置 161
10.2.1 部署開發工具 161
10.2.2 安裝Apex組件 162
10.2.3 創建Top N Words應用 164
10.3 運行TopN Words應用 166
10.3.1 開啓Apex客戶端 166
10.3.2 執行 166
10.4 本章小結 167
第11章 事件流OLAP之Druid 168
11.1 Druid簡介 168
11.2 Druid應用場所 168
11.3 Druid集群 169
11.4 Druid單機環境 170
11.4.1 安裝Druid 170
11.4.2 安裝ZooKeeper 170
11.4.3 啓動Druid服務 171
11.4.4 批量加載數據 172
11.4.5 加載流數據 175
11.4.6 數據查詢 177
11.5 本章小結 180
第12章 事件數據流引擎Flink 181
12.1 Flink概述 181
12.2 Flink基本架構 181
12.3 單機安裝Flink 182
12.4 Flink運行第一個例子 184
12.5 Flink集群部署 187
12.5.1 環境準備 187
12.5.2 安裝和配置 187
12.5.3 啓動Flink集群 188
12.5.4 集群中添加JobManager/TaskManager 189
12.6 本章小結 189
第13章 分布式文件搜索 Elasticsearch 190
13.1 Elasticsearch簡介 190
13.2 Elasticsearch單節點安裝 192
13.3 插件Elasticsearch-head安裝 193
13.4 Elasticsearch的基本操作 195
13.5 綜閤實戰 199
13.6 本章小結 202
第14章 實例電商數據分析 203
14.1 背景與挖掘目標 203
14.2 分析方法與過程 203
14.2.1 數據收集 203
14.2.2 數據預處理 206
14.2.3 導入數據到Hadoop 206
14.2.4 數據取樣分析 209
14.3 本章小結 211
參考文獻 212
大數據技術與應用基礎 下載 mobi epub pdf txt 電子書