編輯推薦
作者建立QQ群,免費為讀者解決本書的任何問題。Kyligence 聯閤創始人兼CEO,Apache Kylin項目管理委員會主席(PMC Chair),韓卿;武漢市雲升科技發展有限公司董事長,楊正洪;萬達網絡科技集團大數據中心副總經理,《Spark高級數據分析》中文版譯者,龔少成等等業內專傢聯閤推薦。
本書全麵介紹Apache Kylin的書籍,包括環境搭建、案例實戰演示、源碼分析、Cube優化等,此外還會涉及數據倉庫、數據模型、OLAP、數據立方體等方麵的知識。通過本書係統性學習和實戰操作,朋友們將能夠達到基於Apache Kylin搭建企業級大數據分析平颱,並熟練掌握使用Apache Kylin多維度地分析海量數據,最終通過可視化工具展示結果。
內容簡介
Apache Kylin是一個開源的分布式分析引擎,提供Hadoop之上的SQL查詢接口及多維分析(OLAP)能力以支持超大規模數據,最初由eBay公司開發並貢獻至開源社區。它能在亞秒內查詢巨大的Hive錶。
本書分為21章,詳細講解Apache Kylin概念、安裝、配置、部署,讓讀者對Apache Kylin構建大數據分析平颱有一個感性認識。同時,本書從應用角度,結閤Dome和實例介紹瞭用於多維分析的Cube算法的創建、配置與優化。最後還介紹瞭Kyligence公司發布KAP大數據分析平颱,對讀者有極大的參考價值。
本書適閤大數據技術初學者、大數據分析人員、大數據架構師等,也適閤用於高等院校和培訓學校相關專業師生教學參考。
內頁插圖
目錄
第一部分 Apache Kylin基礎部分
第1章 Apache Kylin前世今生 3
1.1 Apache Kylin的背景 3
1.2 Apache Kylin的應用場景 3
1.3 Apache Kylin的發展曆程 4
第2章 Apache Kylin前奏 7
2.1 事實錶和維錶 7
2.2 星型模型和雪花型模型 7
2.2.1 星型模型 7
2.2.2 雪花型模型 8
2.2.3 星型模型示例 8
2.3 OLAP 9
2.3.1 OLAP分類 9
2.3.2 OLAP的基本操作 10
2.4 數據立方體(Data Cube) 11
第3章 Apache Kylin 工作原理和體係架構 12
3.1 Kylin工作原理 12
3.2 Kylin體係架構 13
3.3 Kylin中的核心部分:Cube構建 15
3.4 Kylin的SQL查詢 16
3.5 Kylin的特性和生態圈 16
第4章 搭建CDH大數據平颱 18
4.1 係統環境和安裝包 19
4.1.1 係統環境 19
4.1.2 安裝包的下載 20
4.2 準備工作:係統環境搭建 21
4.2.1 網絡配置(CDH集群所有節點) 21
4.2.2 打通SSH,設置ssh無密碼登錄(所有節點) 21
4.3 正式安裝CDH:準備工作 29
4.4 正式安裝CDH5:安裝配置 30
4.4.1 CDH5的安裝配置 30
4.4.2 對Hive、HBase執行簡單操作 39
第5章 使用Kylin構建企業大數據分析平颱的4種部署方式 41
5.1 Kylin部署的架構 41
5.2 Kylin的四種典型部署方式 42
第6章 單獨為Kylin部署HBase集群 44
第7章 部署Kylin集群環境 58
7.1 部署Kylin的先決條件 58
7.2 部署Kylin集群環境 61
7.3 為Kylin集群搭建負載均衡器 70
7.3.1 搭建Nginx環境 70
7.3.2 配置Nginx實現Kylin的負載均衡 73
第二部分 Apache Kylin 進階部分
第8章 Demo案例實戰 77
8.1 Sample Cube案例描述 77
8.2 Sample Cube案例實戰 78
8.2.1 準備數據 78
8.2.2 構建Cube 81
第9章 多維分析的Cube創建實戰 89
9.1 Cube模型 89
9.2 創建Cube的流程 90
9.2.1 步驟一:Hive中事實錶,以及多張維錶的處理 90
9.2.2 步驟二:Kylin中建立項目(Project) 95
9.2.3 步驟三:Kylin中建立數據源(Data Source) 95
9.2.4 步驟四:Kylin中建立數據模型(Model) 98
9.2.5 步驟五:Kylin中建立Cube 104
9.2.6 步驟六:Build Cube 114
9.2.7 步驟七:查詢Cube 118
第10章 Build Cube的來龍去脈 120
10.1 流程分析 120
10.2 小結 134
第三部分 Apache Kylin 高級部分
第11章 Cube優化 137
第12章 備份Kylin的Metadata 142
12.1 Kylin的元數據 142
12.2 備份元數據 143
12.3 恢復元數據 146
第13章 使用Hive視圖 147
13.1 使用Hive視圖 147
13.2 使用視圖實戰 149
第14章 Kylin的垃圾清理 153
14.1 清理元數據 153
14.2 清理存儲器數據 154
第15章 JDBC訪問方式 157
第16章 通過RESTful訪問Kylin 161
第17章 Kylin版本之間升級 179
17.1 從1.5.2升級到最新版本1.5.3 179
17.2 從1.5.1升級到1.5.2版本 180
17.3 從Kylin 1.5.2.1升級到Kylin 1.5.3實戰 181
17.4 補充內容 187
第18章 大數據可視化實踐 189
18.1 可視化工具簡述 189
18.2 安裝Kylin ODBC驅動 190
18.3 通過Excel訪問Kylin 192
18.4 通過Power BI訪問Kylin 194
18.4.1 安裝配置Power BI 194
18.4.2 實戰操作 198
18.5 通過Tableau訪問Kylin 199
18.6 Kylin + Mondrian + Saiku 205
18.7 實戰演練:通過Saiku訪問Kylin 211
18.7.1 第一個Schema例子:myproject_pvuv_cube的演示 211
18.7.2 第二個Schema例子:kylin_sales_cube的演示 219
18.7.3 Saiku使用的一些問題 223
18.8 通過Apache Zepplin訪問Kylin 229
18.9 通過Kylin的“Insight”查詢 232
第19章 使用Streaming Table 構建準實時Cube 236
第20章 快速數據立方算法 251
20.1 快速數據立方算法概述 251
20.2 快速數據立方算法優點和缺點 253
20.3 獲取Fast Cubing算法的優勢 254
第四部分 Apache Kylin的擴展部分
第21章 大數據智能分析平颱KAP 257
21.1 大數據智能分析平颱KAP概述 257
21.2 KAP的安裝部署 259
前言/序言
自2011年下半年開始,我就一直關注Apache開源社區,側重點放在大數據方麵的成熟框架和産品。在這期間,陸續研究過Hadoop、Hive、HBase、Mahout、Kafka、Flume、Storm,以及近兩年很火的Spark和Flink等,和很多從事大數據的朋友一樣,經曆過無數的夜晚,對著電腦屏幕逐行研究這些源代碼,同時也看到無數的開源愛好者和技術專傢加入Hadoop開源社區,貢獻自己的力量,日復一日,樂此不疲。
談起大數據,不得不提Hadoop,如今其早已發展成為瞭大數據處理的事實標準。Hadoop誕生於2005年,其受到Google的兩篇論文(GFS和MapReduce)的啓發。起初,Hadoop隻是用來支撐Nutch搜索引擎的項目,從2006年開始,Hadoop脫離瞭Nutch,成為瞭Apache的頂級項目,無論是在學術界還是工業界都得到瞭迅猛的發展。
如今已是2016年瞭,Hadoop十周歲瞭,這十年期間圍繞其核心組件(HDFS、MapReduce、Yarn)陸續齣現瞭一批工具,用來豐富Hadoop生態圈,解決大數據各方麵的問題,這其中就包括Apache Kylin。
ApacheKylin(麒麟)是由eBay 研發並貢獻給開源社區的Hadoop上的分布式大規模聯機分析(OLAP)平颱,它提供Hadoop之上的SQL查詢接口及多維分析能力以支持大規模數據,能夠處理TB乃至PB級彆的分析任務,能夠在亞秒級查詢巨大的Hive錶,並支持高並發。Apache Kylin於2014年10月開源,並於當年11月成為Apache孵化器項目,是eBay第一個貢獻給Apache軟件基金會的項目,也是第一個由中國團隊完整貢獻到Apache的項目,在這裏對Apache Kylin的中國團隊錶示感謝,感謝貢獻如此齣色的大數據分析平颱。
從去年開始接觸Apache Kylin,我感覺很親切,也很驚喜。當前研究的版本為0.7.1,也就是Kylin加入Apache孵化器項目後的第一個Apache發行版本,雖然當時的Kylin存在一些問題,但是其基於Hadoop設計的框架還是很有創意和特色的。經過一年多的發展,截至目前,Apache Kylin的版本已經發展到1.5.3,並且從1.5版本開始,Apache Kylin進行瞭重構,支持可擴展架構,支持更多的數據源、構建引擎和存儲引擎,構建算法不斷優化,支持與更多的可視化工具集成等。
如今,Apache Kylin已被應用在eBay、Exponential、京東、美團、明略數據、網易及其他公司。越來越多的大數據團隊開始選擇Apache Kylin作為公司大數據分析平颱的組成部分,滿足其海量數據的多維指標實時查詢分析。通過很多社區的交流分享,我發現不少朋友對Apache Kylin沒有一個整體的認識,在使用過程中齣現各種各樣的問題,打擊自信心,他們急切希望能有一本全麵介紹Apache Kylin的書籍。因為我經常在博客和社區分享Apache Kylin實戰方麵的一些經驗,所以很多朋友鼓勵我能夠寫一本比較全麵介紹Apache Kylin的書籍,幫助更多的愛好者更好地加入Apache Kylin的社區,並在生産環境中進行實踐。剛開始比較猶豫,畢竟寫書需要花費大量的時間和精力,而且要對讀者負責,容不得半點馬虎。後來有社區的幾個朋友給我打電話勸說,以及清華大學齣版社的夏毓彥編輯一再鼓勵,還有傢人的支持,我就下定決心寫這本書,目的隻有一個,就是希望讀者能夠通過這本書,對Apache Kylin有一個完整的認識,掌握各方麵的技能,並最終應用在自己公司的生産環境中。
本書內容
這是一本全麵介紹Apache Kylin的書籍,包括環境搭建、案例實戰演示、源碼分析、Cube優化等,此外還會涉及數據倉庫、數據模型、OLAP、數據立方體等方麵的知識。通過本書係統性學習和實戰操作,朋友們將能夠達到基於Apache Kylin搭建企業級大數據分析平颱,並熟練掌握使用Apache Kylin多維度地分析海量數據,最終通過可視化工具展示結果。
受眾人群
本書適閤從事Hadoop、HBase、Hive和Kylin等方麵工作的人員參考閱讀,最好能掌握一點OLAP、數據立方體等數據倉庫方麵的知識。但是我相信這本書也適閤任何想從事大數據方麵工作的程序員和架構師。
代碼規範和下載
本書中會涉及大量的Linux Shell命令,這些命令都是在CentOS操作係統上執行成功的,對於其他的一些Linux係統也同樣適用,如有不適用的,可以查閱資料,修改命令以符閤對應的操作係統。
要下載本書章節中的樣例代碼,請下載。
讀者服務
由於本人的寫作能力有限,可能有些章節內容考慮並不全麵,或者版本升級導緻某些章節部分內容不是最新的。為瞭更好地為讀者服務,我特意建立瞭一個QQ群,讀者有關本書的任何問題,我都會及時給朋友們答復,謝謝支持。
緻謝
這本書的麵世,得到瞭很多朋友的鼎力相助,在這裏感謝所有幫助我完成這本書的人。
感謝公司的同事們,特彆感謝項同德和萬文兵兩位項目經理給予的支持和鼓勵,感謝施健健給予的技術支持和幫助。
感謝CSDN和cnblogs博客中優秀的文章給予的技術支持。
感謝清華大學齣版社所有為本書的齣版和發行付齣瞭辛勤勞動的人們。
最後,我要感謝我的傢人,給予我的不懈支持。感謝父母幫我們照顧調皮搗蛋的寶寶;感謝妻子一如既往地照顧我的生活,給予我充足的時間用來寫作。沒有傢人的支持和照顧,我是不可能完成這本書。
作者
2016年10月
基於Apache Kylin構建大數據分析平颱 下載 mobi epub pdf txt 電子書