Hadoop權威指南(第3版 修訂版) [Hadoop: The Definitive Guide,3rd Edition] pdf epub mobi txt 電子書 下載 2025
産品特色
編輯推薦
新版新特色,內容更詳細,更適閤收藏和找Hadoop之父簽名兒!
內容簡介
準備好釋放數據的強大潛能瞭嗎?藉助於這本本書,你將學習如何使用ApacheHadoop構建和維護穩定性高、伸縮性強的分布式係統。本書是為程序員寫的,可幫助他們分析任何大小的數據集。本書同時也是為管理員寫的,幫助他們瞭解如何設置和運行Hadoop集群。
本書通過豐富的案例學習來解釋Hadoop的幕後機理,闡述瞭Hadoop如何解決現實生活中的具體問題。第3版覆蓋Hadoop的新動態,包括新增的MapReduceAPI,以及MapReduce2及其靈活性更強的執行模型(YARN)。
作者簡介
Tom White,數學王子&Hadoop;專傢。身為Apache Hadoop提交者八年之久,Apache軟件基金會成員之一。全球知名雲計算公司Cloudera的軟件工程師。Tom擁有英國劍橋大學數學學士學位和利茲大學科學哲學碩士學位。
目錄
第1章 初識Hadoop
1.1 數據!數據!
1.2 數據的存儲與分析
1.3 相較於其他係統的優勢
1.3.1 關係型數據庫管理係統
1.3.2 網格計算
1.3.3 誌願計算
1.4 Hadoop發展簡史
1.5 Apache Hadoop和Hadoop生態係統
1.6 Hadoop的發行版本
1.6.1 本書包含的內容
1.6.2 兼容性
第2章 關於MapReduce
2.1 氣象數據集
2.2 使用Unix工具來分析數據
2.3 使用Hadoop來分析數據
2.3.1 map和reduce
2.3.2 Java MapReduce
2.4 橫嚮擴展
2.4.1 數據流
2.4.2 combiner函數
2.4.3 運行分布式的MapReduce作業
2.5 Hadoop Streaming
2.5.1 Ruby版本
2.5.2 Python版本
2.6 Hadoop Pipes
第3章 Hadoop分布式文件係統
3.1 HDFS的設計
3.2 HDFS的概念
3.2.1 數據塊
3.2.2 namenode和datanode
3.2.3 聯邦HDFS
3.2.4 HDFS的高可用性
3.3 命令行接口
3.4 Hadoop文件係統
3.5 Java接口
3.5.1 從Hadoop URL讀取數據
3.5.2 通過FileSystem API讀取數據
3.5.3 寫入數據
3.5.4 目錄
3.5.5 查詢文件係統
3.5.6 刪除數據
3.6 數據流
3.6.1 剖析文件讀取
3.6.2 剖析文件寫入
3.6.3 一緻模型
3.7 通過Flume和Sqoop導入數據
3.8 通過distcp並行復製
3.9 Hadoop存檔
3.9.1 使用Hadoop存檔工具
3.9.2 不足
第4章 Hadoop的I/O操作
4.1 數據完整性
4.1.1 HDFS的數據完整性
4.1.2 LocalFileSystem
4.1.3 ChecksumFileSystem
4.2 壓縮
4.2.1 codec
4.2.2 壓縮和輸入分片
4.2.3 在MapReduce中使用壓縮
4.3 序列化
4.3.1 Writable接口
4.3.2 Writable類
4.3.3 實現定製的Writable集閤
4.3 序列化框架
4.4 Avro
4.4.1 Avro數據類型和模式
4.4.2 內存中的序列化和反序列化
4.4.3 Avro數據文件
4.4.4 互操作性
4.4.5 模式的解析
4.4.6 排列順序
4.4.7 關於Avro MapReduce
4.4.8 使用Avro MapReduce進行排序
4.4.9 其他語言的Avro MapReduce
4.5 基於文件的數據結構
4.5.1 關於SequenceFile
4.5.2 關於MapFile
第5章 MapReduce應用開發
5.1 用於配置的API
5.1.1 資源閤並
5.1.2 可變的擴展
5.2 配置開發環境
5.2.1 管理配置
5.2.2 輔助類GenericOptionsParser,Tool和ToolRunner
5.3 用MRUnit來寫單元測試
5.3.1 關於Mapper
5.3.2 關於Reducer
5.4 本地運行測試數據
5.4.1 在本地作業運行器上運行作業
5.4.2 測試驅動程序
5.5 在集群上運行
5.5.1 打包作業
5.5.2 啓動作業
5.5.3 MapReduce的Web界麵
5.5.4 獲取結果
5.5.5 作業調試
5.5.6 Hadoop日誌
5.5.7 遠程調試
5.6 作業調優
5.7 MapReduce的工作流
5.7.1 將問題分解成MapReduce作業
5.7.2 關於JobControl
5.7.3 關於Apache Oozie
第6章 MapReduce的工作機製
6.1 剖析MapReduce作業運行機製
6.1.1 經典的MapReduce (MapReduce 1)
6.1.2 YARN (MapReduce 2)
6.2 失敗
6.2.1 經典MapReduce中的失敗
6.2.2 YARN中的失敗
6.3 作業的調度
6.3.1 公平調度器
6.3.2 容量調度器
6.4 shuffle和排序
6.4.1 map端
6.4.2 reduce端
6.4.3 配置調優
6.5 任務的執行
6.5.1 任務執行環境
6.5.2 推測執行
6.5.3 關於OutputCommitters
6.5.4 任務JVM重用
6.5.5 跳過壞記錄
第7章 MapReduce的類型與格式
7.1 MapReduce的類型
7.1.1 默認的MapReduce作業
7.1.2 默認的Streaming作業
7.2 輸入格式
7.2.1 輸入分片與記錄
7.2.2 文本輸入
7.2.3 二進製輸入
7.2.4 多個輸入
7.2.5 數據庫輸入(和輸齣)
7.3 輸齣格式
7.3.1 文本輸齣
7.3.2 二進製輸齣
7.3.3 多個輸齣
7.3.4 延遲輸齣
7.3.5 數據庫輸齣
第8章 MapReduce的特性
8.1 計數器
8.1.1 內置計數器
8.1.2 用戶定義的Java計數器
8.1.3 用戶定義的Streaming計數器
8.2 排序
8.2.1 準備
8.2.2 部分排序
8.2.3 全排序
8.2.4 輔助排序
8.3 連接
8.3.1 map端連接
8.3.2 reduce端連接
8.4 邊數據分布
8.4.1 利用JobConf來配置作業
8.4.2 分布式緩存
8.5 MapReduce庫類
第9章 構建Hadoop集群
9.1 集群規範
9.2 集群的構建和安裝
9.2.1 安裝Java
9.2.2 創建Hadoop用戶
9.2.3 安裝Hadoop
9.2.4 測試安裝
9.3 SSH配置
9.4 Hadoop配置
9.4.1 配置管理
9.4.2 環境設置
9.4.3 Hadoop守護進程的關鍵屬性
9.4.4 Hadoop守護進程的地址和端口
9.4.5 Hadoop的其他屬性
9.4.6 創建用戶帳號
9.5 YARN配置
9.5.1 YARN守護進程的重要屬性
9.5.2 YARN守護進程的地址和端口
9.6 安全性
9.6.1 Kerberos和Hadoop
9.6.2 委托令牌
9.6.3 其他安全性改進
9.7 利用基準評測程序測試Hadoop集群
9.7.1 Hadoop基準評測程序
9.7.2 用戶作業
9.8 雲端的Hadoop
第10章 管理Hadoop
10.1 HDFS
10.1.1 永久性數據結構
10.1.2 安全模式
10.1.3 日誌審計
10.1.4 工具
10.2 監控
10.2.1 日誌
10.2.2 度量
10.2.3 Java管理擴展(JMX)
10.3 維護
10.3.1 日常管理過程
10.3.2 委任和解除節點
10.3.3 升級
第11章 關於Pig
11.1 安裝與運行Pig
11.1.1 執行類型
11.1.2 運行Pig程序
11.1.3 Grunt
11.1.4 Pig Latin編輯器
11.2 示例
11.3 與數據庫進行比較
11.4 Pig Latin
11.4.1 結構
11.4.2 語句
11.4.3 錶達式
11.4.4 類型
11.4.5 模式
11.4.6 函數
11.4.7 宏
11.5 用戶自定義函數
11.5.1 過濾UDF
11.5.2 計算UDF
11.5.3 加載UDF
11.6 數據處理操作
11.6.1 數據的加載和存儲
11.6.2 數據的過濾
11.6.3 數據的分組與連接
11.6.4 數據的排序
11.6.5 數據的組閤和切分
11.7 Pig實戰
11.7.1 並行處理
11.7.2 參數代換
第12章 關於Hive
12.1 安裝Hive
12.2 示例
12.3 運行Hive
12.3.1 配置Hive
12.3.2 Hive服務
12.3.3 Metastore
12.4 Hive與傳統數據庫相比
12.4.1 讀時模式vs.寫時模式
12.4.2 更新、事務和索引
12.5 HiveQL
12.5.1 數據類型
12.5.2 操作與函數
12.6 錶
12.6.1 托管錶和外部錶
12.6.2 分區和桶
12.6.3 存儲格式
12.6.4 導入數據
12.6.5 錶的修改
12.6.6 錶的丟棄
12.7 查詢數據
12.7.1 排序和聚集
12.7.2 MapReduce腳本
12.7.3 連接
12.7.4 子查詢
12.7.5 視圖
12.8 用戶定義函數
12.8.1 寫UDF
12.8.2 寫UDAF
第13章 關於HBase
13.1 HBase基礎
13.2 概念
13.3.1 數據模型的"鏇風之旅"
13.3.2 實現
13.3 安裝
13.4 客戶端
13.4.1 Java
13.4.2 Avro、REST和Thrift
13.5 示例
13.5.1 模式
......
精彩書摘
初識Hadoop
在古時候,人們用牛來拉重物。當一頭牛拉不動一根圓木時,人們從來沒有考慮過要培育更強壯的牛。同理,我們也不該想方設法打造超級計算機,而應該韆方百計綜閤利用更多計算機來解決問題。
——格蕾斯·霍珀(Grace Hopper)
1.1 數據!數據!
我們生活在這個數據大爆炸的時代,很難估算全球電子設備中存儲的數據總共有多少。國際數據公司(IDC)曾經發布報告稱,2006年數字世界(digital universe)項目統計得齣全球數據總量為0.18 ZB並預測在2011年將達到1.8 ZB。 1 ZB等於1021字節,等於1000 EB(exabytes),1 000 000 PB (petabytes),等於大傢更熟悉的10億TB(terrabytes)!這相當於全世界每人一個硬盤中保存的數據總量!
數據“洪流”有很多來源。以下麵列齣的為例:
紐約證交所每天産生的交易數據多達1 TB
臉譜網(Facebook)存儲的照片約100 億張,存儲容量約為 1 PB
傢譜網站Ancestry.com存儲的數據約為2.5 PB
互聯網檔案館(The Internet Archive)存儲的數據約為2 PB,並以每月至少20 TB的速度持續增長
瑞士日內瓦附近的大型強子對撞機每年産生的數據約為15 PB
還有其他大量的數據。但是你可能會想它對自己又有哪些影響呢?地球人都知道,大部分數據都嚴密鎖存在一些大型互聯網公司(如搜索引擎公司)或科學機構與金融機構中。難道所謂的“大數據”隻影響小機構和個人?
我個人是這樣認為的。以照片為例,我妻子的爺爺是一個骨灰級的攝影愛好者。在成年之後,他一直都在拍照。他的整個相冊,包括普通膠片、幻燈片、35mm膠片,在掃描成高分辨率的圖片之後,大約有10 GB。相比之下,在2008年,我傢用數碼相機拍攝的照片總共有5 GB。對照爺爺的照片生成速度,我傢是他老人傢的35倍!並且,而且這個速度還在不斷增長中,因為現在拍照片真的是越來越容易瞭。
有句話說得好:“大數據勝於好算法。” 意思是說對於某些應用 (譬如根據以往的偏好來推薦電影和音樂),不論算法有多牛,基於小數據的推薦效果往往都不如基於大量可用數據的一般算法的推薦效果。
現在,我們已經有瞭大量數據,這是個好消息。但不幸的是,我們必須想方設法好好地存儲和分析這些數據。
1.2 數據的存儲與分析
我們遇到的問題很簡單:在硬盤存儲容量多年來不斷提升的同時,訪問速度(硬盤數據讀取速度)卻沒有與時俱進。1990年,一個普通硬盤可以存儲1370 MB數據,傳輸速度為4.4 MB/s ,因此隻需要5分鍾就可以讀完整個硬盤中的數據。20年過去瞭,1 TB的硬盤已然成為主流,但其數據傳輸速度約為100 MB/s,讀完整個硬盤中的數據至少得花2.5個小時。
讀完整個硬盤中的數據需要更長時間,寫入數據就彆提瞭。一個很簡單的減少讀取時間的辦法是同時從多個硬盤上讀數據。試想,如果我們有100個硬盤,每個硬盤存儲1%的數據,並行讀取,那麼不到兩分鍾就可以讀完所有數據。
僅使用硬盤容量的1%似乎很浪費。但是我們可以存儲100個數據集,每個數據集1 TB,並實現共享硬盤的讀取。可以想象,用戶肯定很樂於通過硬盤共享來縮短數據分析時間;並且,從統計角度來看,用戶的分析工作都是在不同時間點進行的,所以彼此之間的乾擾並不太大。
雖然如此,但要對多個硬盤中的數據並行進行讀寫數據,還有更多問題要解決。第一個需要解決的是硬件故障問題。一旦開始使用多個硬件,其中個彆硬件就很有可能發生故障。為瞭避免數據丟失,最常見的做法是復製(replication):係統保存數據的復本(replica),一旦有係統發生故障,就可以使用另外保存的復本。例如,冗餘硬盤陣列(RAID)就是按這個原理實現的,另外,Hadoop的文件係統(HDFS,Hadoop Distributed FileSystem)也是一類,不過它采取的方法稍有不同,詳見後文的描述。
第二個問題是大多數分析任務需要以某種方式結閤大部分數據來共同完成分析,即從一個硬盤讀取的數據可能需要與從另外99個硬盤中讀取的數據結閤使用。各種分布式係統允許結閤不同來源的數據進行分析,但保證其正確性是一個非常大的挑戰。MapReduce提齣一個編程模型,該模型抽象齣這些硬盤讀寫問題並將其轉換為對一個數據集(由鍵值對組成)的計算。後文將詳細討論這個模型,這樣的計算由map和reduce兩部分組成,而且隻有這兩部分提供對外的接口。與HDFS類似,MapReduce自身也有很高的可靠性。
簡而言之,Hadoop為我們提供瞭一個可靠的共享存儲和分析係統。HDFS實現數據的存儲,MapReduce實現數據的分析和處理。雖然Hadoop還有其他功能,但HDFS和MapReduce是它的核心價值。
1.3 相較於其他係統的優勢
MapReduce看似采用瞭一種蠻力方法。每個查詢需要處理整個數據集或至少一個數據集的絕大部分。但反過來想,這也正是它的能力。MapReduce是一個批量查詢處理器,能夠在閤理的時間範圍內處理針對整個數據集的動態查詢。它改變瞭我們對數據的傳統看法,解放瞭以前隻是保存在磁帶和硬盤上的數據。它讓我們有機會對數據進行創新。以前需要很長時間處理纔能獲得結果的問題,到現在變得頃刻之間就迎刃而解,同時還可以引發新的問題和新的見解。
例如,Rackspace公司的郵件部門Mailtrust就用Hadoop來處理郵件日誌。他們寫動態查詢,想藉此找齣用戶的地理分布。他們是這麼描述的:“這些數據非常有用,我們每月運行一次MapReduce任務來幫助我們決定哪些Rackspace數據中心需要添加新的郵件服務器。”
通過整閤好幾百GB的數據,用MapReduce來分析這些數據,Rackspace的工程師從中發現瞭以前從來沒有注意到的數據,甚至還運用這些信息來改善瞭現有的服務。第16章將詳細介紹Rackspace公司內部是如何使用Hadoop的。
1.3.1 關係型數據庫管理係統
為什麼不能用數據庫來對
Hadoop權威指南(第3版 修訂版) [Hadoop: The Definitive Guide,3rd Edition] 下載 mobi epub pdf txt 電子書
Hadoop權威指南(第3版 修訂版) [Hadoop: The Definitive Guide,3rd Edition] pdf epub mobi txt 電子書 下載