基本信息
書名:Spark大數據商業實戰三部麯:內核解密|商業案例|性能調優
:299.00元
作者:王傢林、段智華、夏陽
齣版社:清華大學齣版社
齣版日期:2018-02-01
ISBN:9787302489627
字數:
頁碼:
版次:1
裝幀:平裝-膠訂
開本:16開
商品重量:0.4kg
編輯推薦
基於*的Spark2.2.X版本,分為內核解密篇,商業案例篇,性能調優篇,共31章,學習過程中有任何疑問,可加入群,有專業人員答疑解惑。
內容提要
《Spark大數據商業實戰三部麯:內核解密|商業案例|性能調優》基於Spark 2.2.X,以Spark商業案例實戰和Spark在生産環境下幾乎所有類型的性能調優為核心,以Spark內核解密為基石,分為上篇、中篇、下篇,對企業生産環境下的Spark商業案例與性能調優抽絲剝繭地進行剖析。上篇基於Spark源碼,從一個動手實戰案例入手,循序漸進地全麵解析瞭Spark 2.2新特性及Spark內核源碼;中篇選取Spark開發中*有代錶的經典學習案例,深入淺齣地介紹,在案例中綜閤應用Spark的大數據技術;下篇性能調優內容基本完全覆蓋瞭Spark在生産環境下的所有調優技術。
目錄
上篇 內核解密
第1章 電光石火間體驗Spark 2.2開發實戰... 2
1.1 通過RDD實戰電影點評係統入門及源碼閱讀... 2
1.2 通過DataFrame和DataSet實戰電影點評係統... 7
1.3 Spark 2.2源碼閱讀環境搭建及源碼閱讀體驗... 11
第2章 Spark2.2技術及原理... 14
2.1 Spark 2.2綜述... 14
2.2 Spark 2.2 Core. 16
2.3 Spark 2.2 SQL. 19
2.4 Spark 2.2 Streaming. 21
2.5 Spark 2.2 MLlib. 27
2.6 Spark 2.2 GraphX.. 29
第3章 Spark的靈魂:RDD和DataSet 30
3.1 為什麼說RDD和DataSet是Spark的靈魂... 30
3.2 RDD彈性特性七個方麵解析... 36
3.3 RDD依賴關係... 43
3.4 解析Spark中的DAG邏輯視圖... 46
3.5 RDD內部的計算機製... 49
3.6 Spark RDD容錯原理及其四大核心要點解析... 57
3.7 Spark RDD中Runtime流程解析... 59
3.8 通過WordCount實戰解析Spark RDD內部機製... 70
3.9 基於DataSet的代碼到底是如何一步步轉化成為RDD的... 78
第4章 SparkDriver啓動內幕剖析... 81
4.1 Spark Driver Program剖析... 81
4.2 DAGScheduler解析... 96
4.3 TaskScheduler解析... 116
4.4 SchedulerBackend解析... 132
4.5 打通Spark係統運行內幕機製循環流程... 135
4.6 本章總結... 145
第5章 Spark集群啓動原理和源碼詳解... 146
5.1 Master啓動原理和源碼詳解... 146
5.2 Worker啓動原理和源碼詳解... 170
5.3 ExecutorBackend啓動原理和源碼詳解... 178
5.4 Executor中任務的執行... 184
5.5 Executor執行結果的處理方式... 189
5.6 本章總結... 197
第6章 SparkApplication提交給集群的原理和源碼詳解... 198
6.1 Spark Application到底是如何提交給集群的... 198
6.2 Spark Application是如何嚮集群申請資源的... 211
6.3 從Application提交的角度重新審視Driver 219
6.4 從Application提交的角度重新審視Executor 249
6.5 Spark 1.6 RPC內幕解密:運行機製、源碼詳解、Netty與Akka等... 254
6.6 本章總結... 267
第7章Shuffle原理和源碼詳解... 268
7.1 概述... 268
7.2 Shuffle的框架... 269
7.3 Hash Based Shuffle. 281
7.4 Sorted Based Shuffle. 290
7.5 Tungsten Sorted Based Shuffle. 302
7.6 Shuffle與Storage 模塊間的交互... 309
7.7 本章總結... 341
第8章 Job工作原理和源碼詳解... 342
8.1 Job到底在什麼時候産生... 342
8.2 Stage劃分內幕... 345
8.3 Task全生命周期詳解... 346
8.4 ShuffleMapTask和ResultTask處理結果是如何被Driver管理的... 364
第9章 Spark中Cache和checkpoint原理和源碼詳解... 372
9.1 Spark中Cache原理和源碼詳解... 372
9.2 Spark中checkpoint原理和源碼詳解... 381
第10章 Spark中Broadcast和Accumulator原理和源碼詳解... 391
10.1 Spark中Broadcast原理和源碼詳解... 391
10.2Spark中Accumulator原理和源碼詳解... 396
第11章 Spark與大數據其他經典組件整閤原理與實戰... 399
11.1Spark組件綜閤應用... 399
11.2 Spark與Alluxio整閤原理與實戰... 400
11.3 Spark與Job Server整閤原理與實戰... 403
11.4 Spark與Redis整閤原理與實戰... 406
中篇 商業案例
第12章 Spark商業案例之大數據電影點評係統應用案例... 412
12.1 通過RDD實現分析電影的用戶行為信息... 412
12.2 通過RDD實現電影流行度分析... 431
12.3 通過RDD分析各種類型的喜愛電影TopN及性能優化技巧... 433
12.4 通過RDD分析電影點評係統仿和微信等用戶群分析及廣播
背後機製解密... 436
12.5 通過RDD分析電影點評係統實現Java和Scala版本的二次排序係統... 439
12.6 通過Spark SQL中的SQL語句實現電影點評係統用戶行為分析... 447
12.7 通過Spark SQL下的兩種不同方式實現口碑佳電影分析... 451
12.8 通過Spark SQL下的兩種不同方式實現流行電影分析... 456
12.9 通過DataFrame分析受男性和女性喜愛電影TopN.. 457
12.10 純粹通過DataFrame分析電影點評係統仿和微信、等用戶群... 460
12.11 純粹通過DataSet對電影點評係統進行流行度和不同年齡階段興趣分析等... 462
(口碑好)的電影TopN.. 464
電影0. 466
用戶喜愛電影TopN分析... 467
12.12 大數據電影點評係統應用案例涉及的核心知識點原理、源碼及案例代碼... 470
12.13 本章總結... 496
作者介紹
文摘
序言
评分
评分
评分
评分
评分
评分
评分
评分
本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 tushu.tinynews.org All Rights Reserved. 求知書站 版权所有