Spark內核機製解析及性能調優 pdf epub mobi txt 電子書 下載 2024

圖書介紹


Spark內核機製解析及性能調優


王傢林 著



點擊這裡下載
    


想要找書就要到 求知書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

发表于2024-11-26

類似圖書 點擊查看全場最低價

齣版社: 機械工業齣版社
ISBN:9787111554424
版次:1
商品編碼:12034497
品牌:機工齣版
包裝:平裝
叢書名: 大數據科學叢書
開本:16開
齣版時間:2017-01-01
用紙:膠版紙
頁數:344

Spark內核機製解析及性能調優 epub 下載 mobi 下載 pdf 下載 txt 電子書 下載 2024

相關圖書



Spark內核機製解析及性能調優 epub 下載 mobi 下載 pdf 下載 txt 電子書 下載 2024

Spark內核機製解析及性能調優 pdf epub mobi txt 電子書 下載 2024



具體描述

編輯推薦

適讀人群 :大數據開發者
  源碼入手分析spark核心機製

內容簡介

  本書緻力於Spark內核的深入解析,帶領讀者掌握Spark內核的各個關鍵知識點。具體內容由詳細講述RDD提供的功能以及內部實現的機製開始,通過源碼引導讀者深入理解Spark的集群部署的內部機製、Spark內部調度的機製、Executor的內部機製、Shuffle的內部機製,進而講述Tungsten的內部機製,接著又進一步深入分析瞭SparkStreaming的內部機製。本書的後部分,是任何Spark應用者都非常關注的Spark性能調優的內容。本書可以使讀者對Spark內核有更深入徹底的理解,從而實現對Spark係統深度調優、Spark生産環境下故障的定位和排除、Spark的二次開發和係統高級運維。本書的每章開篇均有重點介紹以引導讀者有目的有重點的閱讀或查閱。本書適閤於對大數據開發有興趣的在校學生。同時,對有分布式計算框架應用經驗的人員,本書也可以作為Spark源碼解析的參考書籍。

目錄

前言
第1章RDD功能解析
1.1RDD産生的技術背景及功能
1.2RDD的基本概念
1.2.1RDD的定義
1.2.2RDD五大特性
1.2.3RDD彈性特性的7個方麵
1.3創建RDD的方式
1.3.1通過已經存在的Scala集閤創建RDD
1.3.2通過HDFS和本地文件係統創建RDD
1.3.3其他的RDD的轉換
1.3.4其他的RDD的創建
1.4RDD算子
1.5RDD的Transformation算子
1.5.1Transformation的定義
1.5.2Transformation在RDD中的角色定位及功能
1.5.3Transformation操作的Lazy特性
1.5.4通過實踐說明Transformation的Lazy特性
1.6RDD的Action算子
1.6.1Action的定義
1.6.2Action 在RDD中的角色定位及功能
1.7小結
第2章RDD的運行機製
2.1RDD依賴關係
2.1.1窄依賴(Narrow Dependency)
2.1.2寬依賴(Shuffle Dependency)
2.2有嚮無環圖(Directed Acyclic Graph,DAG)
2.2.1什麼是DAG
2.2.2DAG的生成機製
2.2.3DAG的邏輯視圖
2.3RDD內部的計算機製
2.3.1RDD的計算任務(Task)
2.3.2RDD的計算過程
2.4RDD中緩存的適用場景和工作機製
2.4.1緩存的使用
2.4.2緩存的適用場景
2.4.3緩存工作機製解析
2.5RDD的檢查點(Checkpoint)的適用場景和工作機製
2.5.1Checkpoint的觸發
2.5.2Checkpoint的適用場景
2.5.3Checkpoint工作機製解析
2.6RDD容錯原理及其四大核心要點
2.6.1RDD容錯原理
2.6.2RDD容錯的四大核心要點
2.7通過WordCount實踐RDD內部機製
2.7.1WordCount案例實踐
2.7.2解析RDD生成的內部機製
2.8小結
第3章部署模式(Deploy)解析
3.1部署模式概述
3.2應用程序的部署
3.2.1應用程序部署的腳本解析
3.2.2應用程序部署的源代碼解析
3.3Local與Local-Cluster部署
3.3.1Local部署
3.3.2Local[*]與Local[N]部署
3.3.3Local[*,M]與Local[N,M]部署
3.3.4Local-Cluster[S,C,M]部署
3.4Spark Standalone部署
3.4.1部署框架
3.4.2應用程序的部署
3.4.3Master的部署
3.4.4Worker的部署
3.4.5內部交互的消息機製
3.4.6Master HA的部署
3.5Spark on YARN的部署模型
3.5.1部署框架
3.5.2應用程序的部署
3.6小結
第4章Spark調度器(Scheduler)運行機製
4.1Spark運行的核心概念
4.1.1Spark運行的基本對象
4.1.2Spark運行框架及各組件的基本運行原理
4.2Spark Driver Program剖析
4.2.1什麼是Spark Driver Program
4.2.2SparkContext原理剖析
4.2.3SparkContext源代碼解析
4.3Spark Job的觸發
4.3.1Job的邏輯執行(General Logical Plan)
4.3.2Job具體的物理執行
4.3.3Job觸發流程源代碼解析
4.4高層的DAG調度器(DAGScheduler)
4.4.1DAG的定義
4.4.2DAG的實例化
4.4.3DAGScheduer劃分Stage的原理
4.4.4DAGScheduer劃分Stage的具體算法
4.4.5Stage內部Task獲取最佳位置的算法
4.5底層的Task調度器(TaskScheduler)
4.5.1TaskScheduer原理剖析
4.5.2TaskScheduer源代碼解析
4.6調度器的通信終端(SchedulerBackend)
4.6.1SchedulerBackend原理
4.6.2SchedulerBackend源代碼解析
4.6.3Spark程序的注冊機製
4.6.4Spark程序對計算資源Executor的管理
4.7小結
第5章執行器(Executor)
5.1Executor的創建、分配、啓動及異常處理
5.1.1Executor的創建
5.1.2Executor的資源分配
5.1.3Executor的啓動
5.1.4Executor的異常處理
5.2執行器的通信接口(ExecutorBackend)
5.2.1ExecutorBackend接口與Executor的關係
5.2.2ExecutorBackend的不同實現
5.2.3ExecutorBackend中的通信
5.3執行器(Executor)中任務的執行
5.3.1Executor中任務的加載
5.3.2Executor中的任務綫程池
5.3.3任務執行失敗處理
5.3.4剖析TaskRunner
5.4小結
第6章Spark的存儲模塊(Storage)
6.1Storage概述
6.1.1Storage的概念
6.1.2Storage的設計模式
6.2Storage模塊整體架構
6.2.1通信層
6.2.2存儲層
6.2.3Partition與Block的對應關係
6.3不同Storage Level對比
6.4Executor內存模型
6.5Tachyon
6.5.1Tachyon簡介
6.5.2Tachyon API的使用
6.5.3Tachyon在Spark中的使用
6.6小結
第7章Shuffle機製
7.1Shuffle概述
7.2Shuffle的框架
7.2.1Shuffle的框架演進
7.2.2Shuffle的框架內核
7.2.3Shuffle框架的源代碼解析
7.2.4Shuffle 的注冊
7.2.5Shuffle讀寫數據的源代碼解析
7.3基於Hash的Shuffle
7.3.1基於Hash的Shuffle內核
7.3.2基於Hash的Shuffle寫數據的源代碼解析
7.4基於Sort的Shuffle
7.4.1基於Sort的Shuffle內核
7.4.2基於Sort的Shuffle寫數據的源代碼解析
7.5基於Tungsten Sort的Shuffle
7.5.1基於Tungsten Sort的Shuffle內核
7.5.2基於Tungsten Sort的Shuffle寫數據的源代碼解析
7.6小結
第8章鎢絲計劃(Project Tungsten)
8.1鎢絲計劃(Project Tungsten)概述
8.2內存管理模型
8.2.1現有內存管理的機製
8.2.2Project Tungsten內存管理的模型及其源代碼的解析
8.3基於內存管理模型的Shuffle二進製數據處理
8.3.1插入記錄時二進製數據的處理
8.3.2spill時二進製數據的處理
8.4小結
第9章性能優化
9.1Spark的配置機製
9.1.1

前言/序言

  起源於美國加州大學伯剋利分校AMP實驗室的Spark是當今大數據領域最活躍、最熱門的大數據計算處理框架,2009年Spark誕生於AMP實驗室,2010年Spark正式成為開源項目,2013年Spark成為Apache基金項目,2014年Spark成為Apache基金的頂級項目。Spark成功構建瞭一體化、多元化的大數據處理體係,成功使用Spark SQL、Spark Streaming、MLlib、GraphX解決瞭大數據領域的Batch Processing、Stream Processing、Adhoc Query等核心問題,Spark SQL、Spark Streaming、Mllib、GraphX四個子框架和Spark核心庫之間互相共享數據及相互操作,Spark生態係統強大的集成能力是其他大數據平颱無可匹敵的。
  本書主要麵嚮的對象是廣大的Spark愛好者和大數據開發者,以Spark內核解析及性能調優為主導,由淺入深,對Spark內核運行機製從源代碼角度加以詳細解析,全書共分9章,分彆是:RDD的功能解析、RDD的運行機製、部署模式(Deploy)解析、Spark調度器(Scheduler)運行機製、執行器(Executor)、Spark的存儲模塊(Storage)、Shuffle機製、鎢絲計劃(Project Tungsten)以及性能優化。讀者通過對這些內容的深入學習,將能夠較為透徹地掌握Spark這一大數據計算框架的應用方法。
  參與本書編寫的有王傢林、段智華、張敏等。
  在本書閱讀過程中,如發現任何紕漏或有任何疑問,可以加入本書的閱讀群(QQ:284078981)提齣問題,會有專人答疑。同時,該群也會提供本書所用案例源代碼。
  如果讀者想要瞭解或者學習更多大數據相關技術,可以關注DT大數據夢工廠微信公眾號DT_Spark及QQ群284078981,或者掃描下方二維碼谘詢,也可以通過YY客戶端登錄68917580永久頻道直接體驗。
  王傢林老師的新浪微博是http://weibo�眂om/ilovepains/,歡迎大傢在微博上與作者進行互動。
  由於時間倉促,書中難免存在不妥之處,請讀者諒解,並提齣寶貴意見。
  王傢林2016.10.8日

Spark內核機製解析及性能調優 下載 mobi epub pdf txt 電子書
Spark內核機製解析及性能調優 pdf epub mobi txt 電子書 下載
想要找書就要到 求知書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

用戶評價

評分

正品圖書

評分

這本書很差,說是核心源碼分析,就是沒有由頭的貼齣大段大段代碼,然後就是大段大段的講怎麼配置。作為分析源碼的書,竟然連spark的源碼結構都不講。

評分

內容感覺一般,講太多細節瞭,然而怎麼優化還是少瞭點

評分

書不錯

評分

簡練而有效的一本書,國內作者寫的

評分

這本書真的很適閤我,由淺入深

評分

評分

很好的書

評分

基礎部分奬的比較詳細,對於Scala的特性說明的到位。後半部分實例也很多,不過需要校準的地方更多…… 看例子的時候建議自己敲一遍,很多地方因為一些錯誤顯得有些迷惑性

類似圖書 點擊查看全場最低價

Spark內核機製解析及性能調優 pdf epub mobi txt 電子書 下載





相關圖書


本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

友情鏈接

© 2024 tushu.tinynews.org All Rights Reserved. 求知書站 版权所有