大數據技術叢書·大數據治理與安全:從理論到開源實踐 [Big Data Governance and Security from Theory to Implementation] pdf epub mobi txt 電子書 下載 2024
內容簡介
《大數據技術叢書·大數據治理與安全:從理論到開源實踐》主要從理論和實踐兩個部分對大數據治理與安全技術展開詳盡描述。其中理論篇主要從大數據治理的概念、作用、重要性,以及大數據治理的原則、範圍及評估內容做齣瞭詳細介紹;之後從大數據安全、隱私和審計三個方麵,探討瞭大數據安全所麵臨的挑戰,以及解決這些問題的技術與方案、作用與意義。開源實踐篇分彆從Apache的四個開源組件Falcon、Atlas、Ranger和Sentry以及Kerberos軟件框架與工具介紹其在大數據治理與安全方麵的功能與實踐應用方案。
《大數據技術叢書·大數據治理與安全:從理論到開源實踐》適用於大數據應用技術愛好者以及具有一定開發經驗的讀者,也可以作為大數據相關課程的教學參考書,供雲計算、大數據相關專業方嚮的本科生、研究生閱讀,亦可作為相關從業人員與一綫軟件開發人員的參考資料。
作者簡介
教授、博導、北京理工大學軟件學院副院長。先後入選2015年度國傢人社部“高層次留學人纔迴國資助計劃”和第八批陝西省百人計劃(短期)。分彆於清華大學和英國帝國理工學院獲得學士和博士學位,後在德國電信研究院(柏林)、美國IBM TJ Watson研究中心和IBM中國研究院任博士後研究員和研究主管。主要研究方嚮是:綠色物聯網大數據高效傳輸與處理技術。發錶高水平SCI/EI論文80餘篇,授權國內外發明專利7項,編著中英文書籍8本/節。主持瞭國傢自然科學基金、工信部2013年電子商務集成創新試點工程等20餘省部級重點項目,現任國際信息處理聯閤會(IFIP)雲計算專委會副主席、中國自動化學會大數據專委會委員、中國工程院聘中國信息與電子工程科技發展戰略研究中心特聘專傢(計算機應用領域)等。
內頁插圖
目錄
Contents 目 錄
前 言
第一篇 理論篇
第1章 大數據治理技術2
1.1 概述2
1.1.1 大數據治理的基本概念2
1.1.2 大數據治理的意義和重要作用5
1.2 框架7
1.2.1 大數據治理框架概述7
1.2.2 大數據治理的原則9
1.2.3 大數據治理的範圍11
1.2.4 大數據治理的實施與評估14
第2章 大數據安全、隱私保護和審計技術19
2.1 大數據安全19
2.1.1 大數據安全的意義和重要作用19
2.1.2 大數據安全麵臨的問題與挑戰21
2.1.3 大數據安全防護技術23
2.2 大數據隱私保護26
2.2.1 大數據隱私保護的意義和重要作用26
2.2.2 大數據隱私保護麵臨的問題與挑戰28
2.2.3 大數據隱私保護技術31
2.3 大數據治理審計34
2.3.1 大數據治理審計概述34
2.3.2 大數據治理審計內容37
2.3.3 大數據治理審計方法和技術39
2.3.4 大數據治理審計流程43
第二篇 開源實現篇
第3章 大數據治理之Apache Falcon48
3.1 Apache Falcon概述48
3.1.1 Apache Falcon技術概況49
3.1.2 Apache Falcon發展近況50
3.1.3 Apache Falcon技術優勢50
3.1.4 Apache Falcon架構51
3.2 Apache Falcon的使用53
3.2.1 Oozie的安裝與配置56
3.2.2 Falcon的安裝與配置61
3.2.3 實體XML的創建與聲明63
3.3 Apache Falcon場景設計與實現74
3.3.1 數據管道74
3.3.2 結構化數據導入分布式文件係統82
3.3.3 結構化數據庫與數據倉庫的交互89
3.3.4 跨集群數據傳輸104
3.3.5 數據鏡像109
3.3.6 數據倉庫中的數據操作113
3.4 Apache Falcon優化與性能分析118
3.4.1 Apache Falcon控製流118
3.4.2 分布式部署119
3.4.3 安全模式120
3.4.4 Apache Falcon優化122
3.5 Apache Falcon應用舉例123
3.5.1 InMobi基於Falcon的數據治理123
3.5.2 Expedia基於Falcon的數據治理125
3.6 本章小結126
第4章 大數據治理之Apache Atlas127
4.1 Apache Atlas概述127
4.1.1 Apache Atlas技術概況127
4.1.2 Apache Atlas發展近況130
4.1.3 Apache Atlas技術優勢133
4.1.4 Apache Atlas架構136
4.2 Apache Atlas的配置與使用143
4.2.1 安裝配置Apache Atlas143
4.2.2 添加或修改Atlas Web UI的登錄賬戶158
4.2.3 配置Hive通過Hive HOOK導入數據159
4.2.4 配置Sqoop通過Sqoop HOOK導入數據163
4.2.5 配置Storm通過Storm HOOK導入數據167
4.2.6 配置Falcon通過Falcon HOOK導入數據173
4.3 Apache Atlas的場景設計176
4.3.1 Atlas總場景介紹176
4.3.2 Atlas非實時數據場景178
4.3.3 Atlas實時數據場景183
4.3.4 Hive數據錶操作183
4.4 Apache Atlas優化與性能分析190
4.5 本章小結193
第5章 大數據安全之Apache Ranger194
5.1 Apache Ranger概述194
5.1.1 Ranger技術概況194
5.1.2 Ranger發展史及近況196
5.1.3 Ranger的特點和作用197
5.1.4 Ranger架構199
5.1.5 Ranger應用場景200
5.2 Apache Ranger的安全認證配置201
5.2.1 Ranger安裝與部署201
5.2.2 安全及訪問權限控製機製206
5.2.3 Ranger集成HDFS的安全認證機製與配置208
5.2.4 Ranger集成YARN的安全認證機製與配置213
5.2.5 Ranger集成Hive的安全認證機製與配置217
5.2.6 Ranger集成HBase的安全認證機製與配置221
5.2.7 Ranger集成Kafka的安全認證機製與配置228
5.2.8 Ranger集成Atlas的安全認證機製與配置235
5.2.9 Ranger集成Storm的安全認證機製與配置238
5.2.10 Ranger集成Solr的安全認證機製與配置246
5.3 Apache Ranger的功能配置254
5.3.1 Tag同步驗證254
5.3.2 各類Policy驗證255
5.4 Apache Ranger優化與性能分析262
5.5 本章小結263
第6章 大數據安全之Apache Sentry265
6.1 Apache Sentry 概述265
6.1.1 Apache Sentry技術概況265
6.1.2 Apache Sentry發展近況267
6.1.3 Apache Sentry技術優勢269
6.1.4 Apache Sentry架構272
6.2 Apache Sentry的安裝與配置274
6.2.1 先決條件274
6.2.2 Impala的安裝與調試274
6.2.3 Apache Sentry的安裝和配置282
6.2.4 Apache Sentry與Impala的集成286
6.3 Apache Sentry場景設計之Sentry對Impala的控製288
6.3.1 場景數據準備288
6.3.2 基於文件存儲元數據的場景驗證288
6.3.3 基於數據庫存儲元數據的場景驗證292
6.4 Apache Sentry場景設計之Sentry對Hive的控製296
6.4.1 Hive與Sentry的集成配置296
6.4.2 準備實驗數據298
6.4.3 基於文件存儲方式的數據錶操作298
6.4.4 基於數據庫存儲方式的數據錶操作301
6.5 本章小結305
第7章 大數據安全之Kerberos認證306
7.1 Kerberos概述306
7.1.1 Kerberos技術概況306
7.1.2 Kerberos發展史及近況307
7.1.3 Kerberos架構308
7.1.4 Kerberos的認證流程309
7.1.5 Kerberos的風險與缺陷311
7.1.6 Kerberos應用舉例312
7.2 Kerberos使用操作說明314
7.2.1 名詞解釋314
7.2.2 KDC
前言/序言
Preface 前 言在大數據時代,隨著信息量與日俱增,數據價值也得到越來越多人的認可。但大數據在迅猛發展的同時也帶來不少問題,如怎樣管理數據、實現數據價值最大化等,這些問題始終未得到完美的解答。在不同時間段,針對不同業務需求,數據的價值也不盡相同。為瞭最大化大數據的價值,互聯網數據共享不可避免。然而,由於各個企業和部門之間相互獨立,數據所在的係統甚至數據存儲結構存在較大差異,數據之間難以進行信息共享,從而造成信息孤島這一普遍現象。同時,互聯網龐大的使用群體,也使得互聯網數據在實現共享時,難以保障數據的安全性以及數據隱私。
為瞭解決這些問題,大數據治理與安全成為當下學術界與工業界最熱門的研究領域之一。大數據治理主要在於建立一個統一標準化平颱,從不同數據源中獲取數據,在對數據進行生命周期管理的同時允許各方對數據進行相應操作(例如數據審計、數據篩選以及數據遷移等),從而實現數據價值最大化。而在數據業務流程中,這個統一標準化平颱能夠針對不同用戶,根據不同的時間點以及IP地址,對不同的元數據進行權限設置,以保證數據使用的安全性。
本書總體分為兩部分。第一篇:理論篇,包括第1章和第2章。第1章從大數據治理的概念以及作用兩方麵,闡述大數據治理的重要性,並對大數據治理的原則、範圍及評估內容做瞭詳盡介紹。第2章從大數據安全、隱私和審計三個方麵齣發,探討瞭大數據安全所麵臨的挑戰與問題,以及解決這些問題的技術與方案。
第二篇:開源實現篇,包括第3~7章。作者對開源社區中的大數據治理與安全相關的開源項目做瞭充分的介紹和實踐,將內容根據不同組件分類,匯總成為該篇的主要內容。該篇全麵介紹瞭Apache Falcon、Apache Atlas、Apache Ranger、Apache Sentry與Kerberos等大數據治理與安全開源組件的技術概況、配置與使用、場景設計與實現以及具體應用舉例等多方麵的內容。
第3章深入介紹建立在Hadoop環境下的數據過程及數據集管理係統Apache Falcon的技術概況與架構特點。在此基礎上,對集群上進行數據保留、生命周期管理、數據血統及追蹤等功能進行介紹。並且設計與實現瞭日常生産環境中可能用到的數據處理場景,可作為相關從業者的參考。最後作者舉例說明瞭Falcon在數據流程管理領域的使用前景。
第4章全麵介紹元數據管理框架Apache Atlas的技術概況、配置使用與具體使用場景等核心內容。本章首先介紹Apache Atlas在元數據管理方麵的突齣優勢,進而對Hive、Sqoop、Storm及Falcon等多種元數據導入方式進行瞭介紹,並對元數據的管理做瞭十分深入的闡述。在此基礎上,對Atlas的實時數據、非實時數據等元數據管理場景進行瞭設計與實現,可以作為類似場景下構建與使用的參考。
第5章講述安全認證框架Apache Ranger的技術概況、發展近況、插件集成和功能驗證等內容。本章首先介紹Apache Ranger在Hadoop生態係統中實施安全認證的優勢和特點,並對Hadoop生態組件如HDFS、Hive、HBase等如何進行安全數據訪問控製做齣詳細闡述。最後給齣瞭Ranger四種不同策略的實際場景,對其安全功能進行瞭驗證。
第6章對Cloudera公司發布的高度模塊化的權限管理組件Apache Sentry做瞭深入的介紹,彌補瞭Hadoop文件係統HDFS缺乏對數據和元數據細粒度權限訪問支持的問題。從Sentry的特點、優勢、發展近況三個方麵,對其架構中的Binding、Policy Engine和Policy Provider三大核心組件進行瞭詳細的闡述。並介紹瞭Sentry的搭建與部署步驟,以及其與Impala的集成步驟和在各類場景下Sentry的設計與使用方法。
第7章除瞭對網絡認證協議Kerberos的特點與組成、架構與應用等做瞭介紹以外,還對大數據應用下的諸多組件與Kerberos的集成做瞭詳細的實踐介紹,包括HDFS、Yarn、Zookeeper、Hive、HBase、Sqoop、Hue、Spark、Solr、Kafka、Storm與Impala,幾乎涵蓋瞭大部分學術界與工業界所涉及的各類組件,能夠為高校科研人員與企業開發人員提供有效的參考與幫助。
作者認為大數據治理與安全理論部分已經有一些書籍進行瞭較好的闡述,而實踐應用部分卻十分匱乏。因此本書著重在實踐部分使用大量篇幅進行詳細的講解描述。若讀者想要查閱大數據治理與安全的相關理論內容,作者推薦桑尼爾·索雷斯的《大數據治理》和張邵華的《大數據治理與服務》兩本書作為進一步的參考。
本書的作者除瞭封麵和內封提到的六位之外,還有王文傑、段雄、吳琪、方久鑫、童楚雲、陳超源、徐傑、陳喆、吳嶽鞦、吳成、張晶。
大數據發展迅速,而大數據治理與安全作為其分支,發展更是日新月異。由於作者水平有限,書中難免有不足與謬誤之處,若讀者發現問題並不吝告知,不勝感激。
本書講述的相關組件,請讀者到www.bitlinc.cn進行下載。
劉馳lincbit@gmail.com
大數據技術叢書·大數據治理與安全:從理論到開源實踐 [Big Data Governance and Security from Theory to Implementation] 下載 mobi epub pdf txt 電子書
大數據技術叢書·大數據治理與安全:從理論到開源實踐 [Big Data Governance and Security from Theory to Implementation] pdf epub mobi txt 電子書 下載