內容簡介
Impala是 Cloudera公司主導開發的新型查詢係統,它提供 SQL語義,能查詢存儲在 Hadoop的 HDFS和 HBase中的 PB級大數據。Impala 1.0版比原來基於 MapReduce的 Hive SQL查詢速度提升 3~90倍,因此, Impala有可能完全取代 Hive。作者基於自己在本職工作中應用 Impala的實踐和心得編寫瞭《開源大數據分析引擎Impala實戰》。
《開源大數據分析引擎Impala實戰》共分 10章,全麵介紹開源大數據分析引擎 Impala的技術背景、安裝與配置、架構、操作方法、性能優化,以及富技術含量的應用設計原則和應用案例。《開源大數據分析引擎Impala實戰》緊扣目前計算技術發展熱點,適閤所有大數據分析人員、大數據開發人員和大數據管理人員參考使用。
內頁插圖
精彩書評
★看到將為中國讀者發布的這一本中文版的Impala書籍,我非常欣喜,這無疑對中國用戶更好地使用Hadoop,解決他們的業務問題有很大幫助。因此,我要感謝所有為發布本書的中文版做齣貢獻的人們。
——Cloudera副總裁 苗凱翔博士
★Impala是Hadoop生態圈不可或缺的一個環節,它提供SQL語義,能夠對HDFS和HBase中的PB級大數據進行交互式實時查詢,從而彌補瞭Hive批處理的不足。本書是國內第1本Impala專業書籍,相信對您有益。
——中國雲計算專傢谘詢委員會副主任、秘書長中國信息協會大數據分會副會長 劉鵬
★這是國內第1本全麵講解Impala的書籍,既可以作為想快速搭建基於Hadoop的數據倉庫的原數據庫愛好者們的優秀參考書籍,又可以成為對Spark感興趣的用戶的架構理解入門書籍。本書融入作者多年的數據庫和分布式工作的經驗,可以說是Impala在目前國內全麵、完整的技術講解書籍。
——EasyHadoop社區創始人eXadoop公司創始人 嚮磊
★作者賈傳青執著於技術並樂於分享,他一直想寫一本看著舒服的技術書籍。希望本書能夠為有興趣研究Impala的專業人員或學習者有所幫助。
——慧聰網CTO 郭剛
★賈先生與我在多個大數據技術領域有過深入交流,賈先生深厚的技術功底和嚴謹的鑽研精神給我留下深刻印象。非常高興能看見賈先生的新著。這是我截至目前看到的,闡述Impala技術和應用體係化的中文書籍,本書將帶領讀者快速地掌握這個技術,打開大數據時代的窗戶。
——中信證券 莊偉波
★天下武學,唯快不破,竊以為IT係統亦是如此。本書中詳盡地講解瞭Hadoop生態係統中的實時分析引擎Impala,相信能幫助每個讀者快速地掌握這-技術。
——山西聯通 郭瑜敏
★在商業領域,如何發揮“大數據”的商業價值,幫助企業形成核心能力還沒有形成-個成熟的框架模式.一些運用“大數據”技術的先行者們開展瞭積極的嘗試,傳青就是其中的-位專傢.他的努力,所取得的成果和工作精神值得敬佩。
——《實用數據分析》譯者中國郵政 刁曉純博士
目錄
第1章 Impala概述、安裝與配置
1.1 Impala概述
1.2 Cloudera Manager安裝準備
1.3 CM及 CDH安裝
1.4 Hive安裝
1.5 Impala安裝
第2章 Impala入門示例
2.1 數據加載
2.2 數據查詢
2.3 分區錶
2.4 外部分區錶
2.5 笛卡爾連接
2.6 更新元數據
第3章 Impala概念及架構
3.1 Impala服務器組件
3.1.1 Impala Daemon
3.1.2 Impala Statestore
3.1.3 Impala Catalog
3.2 Impala應用編程
3.2.1 Impala SQL方言
3.2.2 Impala編程接口概述
3.3 與Hadoop生態係統集成
3.3.1 與Hive集成
3.3.2 與HDFS集成
3.3.3 使用HBase
第4章 SQL語句
4.1 注釋
4.2 數據類型
4.2.1 BIGINT
4.2.2 BOOLEAN
4.2.3 DOUBLE
4.2.4 FLOAT
4.2.5 INT
4.2.6 REAL
4.2.7 SMALLINT
4.2.8 STRING
4.2.9 TIMESTAMP
4.2.10 TINYINT
4.3 常量
4.3.1 數值常量
4.3.2 字符串常量
4.3.3 布爾常量
4.3.4 時間戳常量
4.3.5 NULL
4.4 SQL操作符
4.4.1 BETWEEN操作符
4.4.2 比較操作符
4.4.3 IN操作符
4.4.4 IS NULL操作符
4.4.5 LIKE操作符
4.4.6 REGEXP操作符
4.5 模式對象和對象名稱
4.5.1 彆名
4.5.2 標示符
4.5.3 數據庫
4.5.4 錶
4.5.5 視圖
4.5.6 函數
4.6 SQL語句
4.6.1 ALTER TABLE
4.6.2 ALTER VIEW
4.6.3 COMPUTE STATS
4.6.4 CREATE DATABASE
4.6.5 CREATE FUNCTION
4.6.6 CREATE TABLE
4.6.7 CREATE VIEW
4.6.8 DESCRIBE
4.6.9 DROP DATABASE
4.6.10 DROP FUNCTION
4.6.11 DROP TABLE
4.6.12 DROP VIEW
4.6.13 EXPLAIN
4.6.14 INSERT
4.6.15 INVALIDATE METADATA
4.6.16 LOAD DATA
4.6.17 REFRESH
4.6.18 SELECT
4.6.19 SHOW
4.6.20 USE
4.7 內嵌函數
4.7.1 數學函數
4.7.2 類型轉換函數
4.7.3 時間和日期函數
4.7.4 條件函數
4.7.5 字符串函數
4.7.6 特殊函數
4.8 聚集函數
4.8.1 AVG
4.8.2 COUNT
4.8.3 GROUP_CONCAT
4.8.4 MAX
4.8.5 MIN
4.8.6 NDV
4.8.7 SUM
4.9 用戶自定義函數UDF
4.9.1 UDF概念
4.9.2 安裝UDF開發包
4.9.3 編寫UDF
4.9.4 編寫UDAF
4.9.5 編譯和部署UDF
4.9.6 UDF性能
4.9.7 創建和使用UDF示例
4.9.8 UDF安全
4.9.9 Impala UDF的限製
4.10 Impala SQL &Hive; QL
4.11 將 SQL移植到Impala上
第5章 Impala shell
5.1 命令行選項
5.2 連接到Impalad
5.3 運行命令
5.4 命令參考
5.5 查詢參數設置
第6章 Impala管理
6.1 準入控製和查詢隊列
6.1.1 準入控製概述
6.1.2 準入控製和YARN
6.1.3 並發查詢限製
6.1.4 準入控製和Impala客戶端協同工作
6.1.5 配置準入控製
6.1.6 使用準入控製指導原則
6.2 使用YARN資源管理(CDH5)
6.2.1 Llama進程
6.2.2 檢查計算的資源和實際使用的資源
6.2.3 資源限製如何生效
6.2.4 啓用Impala資源管理
6.2.5 資源管理相關impala-shell參數
6.2.6 Impala資源管理的限製
6.3 為進程,查詢,會話設定超時限製
6.4 通過代理實現Impala高可用性
6.5 管理磁盤空間
第7章 Impala存儲
7.1 文件格式選擇
7.2 Text
7.2.1 查詢性能
7.2.2 創建文本錶
7.2.3 數據文件
7.2.4 加載數據
7.2.5 LZO壓縮
7.3 Parquet
7.3.1 創建Parquet錶
7.3.2 加載數據
7.3.3 查詢性能
7.3.4 Snappy/Gzip壓縮
7.3.5 與其他組件交換 Parquet數據文件
7.3.6 Parquet數據文件組織方式
7.4 Avro
7.4.1 創建Avro錶
7.4.2 使用Hive創建的Avro錶
7.4.3 通過JSON指定Avro模式
7.4.4 啓用壓縮
7.4.5 模式進化
7.5 RCFile
7.5.1 創建RCFile錶和加載數據
7.5.2 啓用壓縮
7.6 SequenceFile
7.6.1 創建和加載數據
7.6.2 啓用壓縮
7.7 HBase
7.7.1 支持的 Hbase列類型
7.7.2 性能問題
7.7.3 適用場景
7.7.4 數據加載
7.7.5 啓用壓縮
7.7.6 限製
7.7.7 示例
第8章 Impala分區
8.1 分區技術適用場閤
8.2 分區錶相關 SQL語句
8.3 分區修剪
8.4 分區鍵列
8.5 使用不同的文件格式
第9章 Impala性能優化
9.1 最佳實踐
9.2 連接查詢優化
9.3 使用統計信息
9.4 基準測試
9.5 控製資源使用
9.6 性能測試
9.7 使用 EXPLAIN信息
9.8 使用 PROFILE信息
第10章 Impala設計原則與應用案例
10.1 設計原則
10.2 應用案例
前言/序言
開源大數據分析引擎Impala實戰 下載 mobi epub pdf txt 電子書