作 者:夏俊鸞 等 著 定 價:65 齣 版 社:電子工業齣版社 齣版日期:2015年01月01日 頁 數:336 裝 幀:平裝 ISBN:9787121250811 優選首部全麵介紹Spark及Spark生態圈相關技術的技術書籍俯覽未來大局,不失精細剖析,呈現一個現代大數據框架的架構原理和實現細節透徹講解Spark原理和架構,以及部署模式、調度框架、存儲管理及應用監控等重要模塊Spark生態圈深度檢閱:SQL處理Shark和SparkSQL、流式處理SparkStreaming、圖計算Graphx及內存文件係統Tachyon。
●第1章Spark係統概述1
●1.1大數據處理框架1
●1.2Spark大數據處理框架3
●1.2.1RDD錶達能力3
●1.2.2Spark子係統4
●1.3小結7
●●第2章SparkRDD及編程接口9
●2.1Spark程序“HelloWorld”9
●2.2SparkRDD12
●2.2.1RDD分區(partitions)13
●2.2.2RDD優先位置(preferredLocations)13
●2.2.3RDD依賴關係(dependencies)15
●2.2.4RDD分區計算(compute)19
●2.2.5RDD分區函數(partitioner)20
●2.3創建操作23
●2.3.1集閤創建操作23
●2.3.2存儲創建操作23
●2.4轉換操作26
●2.4.1RDD基本轉換操作26
●部分目錄
內容簡介
本書以Spark0.9版本為基礎進行編寫,是一本全麵介紹Spark及Spark生態圈相關技術的書籍,是靠前首本深入介紹Spark原理和架構的技術書籍。主要內容有Spark基礎功能介紹及內部重要模塊分析,包括部署模式、調度框架、存儲管理以及應用監控;同時也詳細介紹瞭Spark生態圈中其他的軟件和模塊,包括SQL處理引擎Shark和SparkSQL、流式處理引擎SparkStreaming、圖計算框架Graphx以及分布式內存文件係統Tachyon。本書從概念和原理上對Spark核心框架和生態圈做瞭詳細的解讀,並對Spark的應用現狀和未來發展做瞭一定的介紹,旨在為大數據從業人員和Spark愛好者提供一個更深入學習的平颱。
本書適閤任何大數據、Spark領域的從業人員閱讀,同時也為架構師、軟件開發工程師和大數據愛好者展現瞭一個現代大數據框架的架構原理和實現細節。相信通過學習本等 夏俊鸞 等 著 夏俊鸞,現任阿裏巴巴數據平颱部不錯技術專傢,ApacheSpark項目Committer,曾就職於英特爾亞太研發中心,微博賬號@Andrew-Xia。
劉旭暉,現任蘑菇街數據平颱資曆架構師(花名天火),曾就職於英特爾亞太研發中心大數據軟件部,Spark/Hadoop/Hbase/Phoenix等眾多大數據相關開源項目的積極貢獻者。樂於分享,著有CSDN博客。
邵賽賽,英特爾亞太研發有限公司開發工程師,專注於大數據領域,開源愛好者,現從事Spark相關工作,Spark代碼貢獻者。
程浩,英特爾大數據技術團隊軟件工程師,Shark和SparkSQL活躍開發者,緻力於SQLo等 2009年的時候,Netflix公司舉辦瞭一個叫作NetflixPrize的推薦算法比賽。這個比賽匿名公布瞭Netflix五十萬用戶對近兩萬部電影的一億個評分數據,希望參賽者能夠開發齣更好的推薦算法,以提高推薦係統的質量。這個比賽的奬金有一百萬美元。一百萬美元看似很多,但是和一個更好的推薦算法給Netflix帶來的效益相比,實則九牛一毛。高昂的奬金和Netflix提供的真實數據吸引瞭不少的參賽者,其中也包括瞭來自加州大學伯剋利分校(UCBerkeley)的博士生LesterMackey。Lester師從機器學習領域泰鬥MichaelJordan,在一個叫作AMPLab的大數據實驗室裏進行博士研究。AMPLab和大多數學術界實驗室不同的地方在於實驗室內有多個教授和他們帶領的學生一起閤作。這些研究人員來自不同的領域,包括機器學習、數據庫、計算機網等
Spark 大數據處理技術 下載 mobi epub pdf txt 電子書