産品特色
編輯推薦
中興大數據平颱DAP團隊誠意之作
大數據實踐指南
結閤案例
總結大數據建設實踐中的經驗與知識
內容簡介
如果你是一名IT工程師,CTO希望你在一周內提交一份公司未來IT係統基礎架構的初步建議;
如果你是一位IT營銷人員,客戶需要你在一周內嚮他匯報未來大數據係統的大緻技術方嚮;
…
在這個信息嚴重過剩的時代,一周內從浩渺的技術細節的海洋中抓住關鍵的技術脈絡,並進一步提齣有一定理論依據的技術思考,這幾乎是不可能完成的任務。
您是否想過閱讀一本關於大數據的圖書幫助解決如上問題?
浩如煙海的大數據領域圖書可以大緻歸納為三類:第一類是描述大數據的應用前景與社會意義;第二類是研討大數據作為一個大型IT係統的係統架構與技術架構;第三類是研討大數據領域的具體技術,例如HADOOP相關的編程等。
對於需要快速掌握大數據係統技術脈絡,或者是需要對未來IT係統做係統思考的技術工作者來說,需要的是第二類圖書所提供的係統化知識。但目前業界大數據相關的書籍與資料,大多是第一類與第三類,第二類非常稀少,以至於某些希望開展大數據課程教學的高校難以找到閤適的教材與參考數據。通過閱讀本書,您將可以迅速建立大數據技術架構相關的知識與脈絡,而不是迷失在浩如煙海的知識細節中。
本書的目的就是為瞭幫助讀者在短的時間內,係統地把握大數據相關的技術框架,建立係統架構級彆的技術思考能力與原則。本書適用於企業的IT與大數據的從業人員,IT與大數據相關的銷售人員,企業的首席技術官(CTO)、首席信息官(CIO),由於本書在大數據知識具備係統性,也可以作為高校大數據方麵課程的教材或輔導書。
內頁插圖
目錄
第一部分 大數據架構師入門
第1章 大數據概述 3
1.1 什麼是大數據 4
1.2 大數據的本質 6
1.3 大數據技術當前狀態 8
1.4 大數據的技術發展趨勢 11
第2章 大數據項目常見場景 13
2.1 實驗型部署場景 14
2.2 中小型部署場景 16
2.3 大型部署場景 19
第3章 大數據方案關鍵因素 23
3.1 數據存儲規模與數據類型 24
3.2 數據來源與數據質量 25
3.3 業務特徵 26
3.4 經濟可行性 27
3.5 運維管理要求 28
3.6 安全性要求 29
3.7 部署要求 31
3.8 係統邊界 32
3.9 約束條件 34
3.10 要點迴顧 34
第二部分 大數據架構師基礎
第4章 Hadoop基礎組件 39
4.1 Hadoop簡介 40
4.2 Hadoop版本演進 41
4.3 Hadoop2.0生態係統簡介 42
4.4 Hadoop分布式文件係統HDFS 43
4.5 Hadoop統一資源管理框架YARN 48
4.6 Hadoop分布式計算框架MapReduce 52
4.7 Hadoop分布式集群管理係統ZooKeeper 57
第5章 Hadoop其他常用組件 61
5.1 Hadoop數據倉庫工具Hive 62
5.2 Hadoop分布式數據庫 HBase 65
5.3 Hadoop實時流處理引擎 Storm 70
5.4 Hadoop交互式查詢引擎 Impala 74
5.5 其他常用組件 78
第6章 Spark內存計算框架 83
6.1 內存計算與Spark 84
6.2 Spark的主要概念 86
6.3 Spark核心組件介紹 96
6.4 Spark與Hadoop之間的關係 100
6.5 要點迴顧 104
第7章大數據中間件層 105
7.1 中間件層簡介 106
7.2 中間件層産品介紹 107
7.3 中間件層的應用 121
7.4 中間件層的發展 124
7.5 要點迴顧 128
第8章大數據分析 129
8.1 數據時代 131
8.2 先進分析 133
8.3 架構與平颱 136
8.4 數據分析流程 140
8.5 要點迴顧 143
第9章可視化技術 145
9.1 可視化技術引言 146
9.2 什麼是數據可視化 147
9.3 數據可視化設計 151
9.4 數據可視化的發展趨勢 160
9.5 要點迴顧 161
第10章大數據安全 163
10.1 安全體係 164
10.2 大數據係統安全 168
10.3 要點迴顧 180
第11章大數據管理 181
11.1 數據管理的範圍和定義 182
11.2 開源軟件的管理能力 183
11.3 國內主流管理 187
11.4 大數據管理展望 195
11.5 要點迴顧 195
第三部分大數據架構師實踐
第12章大數據項目實踐 199
12.1 大數據項目架構關鍵步驟 201
12.2 架構師實踐思考 213
第13章大數據部署實踐 217
13.1 中興通訊DAP大數據平颱功能和架構 218
13.2 DAP平颱特點 219
13.3 某銀行成功案例 220
第四部分 大數據架構師拓展
第14章分布式係統與大數據的關係 229
14.1 分布式係統概述 230
14.2 分布式係統關鍵協議和算法概述 237
14.3 分布式係統和大數據 241
第 15 章數據庫係統與大數據的關係 245
15.1 數據庫係統的曆史 246
15.2 各類係統求同存異 258
15.3 大數據的發展展望 259
第16章雲計算與大數據的關係 261
16.1 虛擬化概述 262
16.2 OpenStack雲管理架構實現 267
16.3 大數據基於雲計算IAAS部署的探討 274
後記 277
前言/序言
毫無疑問,這是屬於大數據的時代。隨著移動互聯網的進步、自媒體的風行和物聯網的興起,信息傳播技術和信息傳播渠道得到極大發展,海量級甚至銀河級的數據不斷湧現,呈現齣“信息爆炸”的態勢。這種情況下,似乎我們獲取信息變得更加容易和方便;而實際上,由於對個體有用的信息淹沒在浩如煙海的無關信息中,獲取“有用信息”反而變得更加睏難。
大數據相關技術就是在這種情況下應運而生的。作為一門新興技術,大數據技術被人熟知和掌握需要一個過程;同時,由於其始終處於一個高速發展的過程,對其認識也是不斷修正提高的過程。
鑒於此,本書總結瞭中興通訊大數據平颱DAP團隊對大數據技術的最新研究成果,結閤中興大數據平颱在各行業的應用實踐經驗,旨在幫助讀者建立係統化的大數據技術脈絡,並針對業界一些似是而非的問題進行係統性的講解與澄清。閱讀完本書,讀者就可以基本掌握大數據技術的係統架構和核心思想。
為何要寫這本書
在大數據項目建設過程中,往往需要三個層次的知識。第一個層次是關於大數據是什麼,能做什麼等理念方麵的知識;第二個層次是如果去端到端進行大數據方案設計,要厘清大數據方案所需的關注重點,並結閤具體的實踐案例進行說明;第三個層次是大數據相關的基礎技術知識,例如,對HDFS、MR、SPARK等技術點的掌握。
第一個層次的書籍,業界已經有很多,其中以《大數據時代》為典型代錶;第三個層次的書籍,業界也比較多,讀者不難獲得相關的學習材料。
但第二個層次的書籍,屬於承上啓下的層次。該層次的知識需要從實踐中總結齣經驗與知識。由於大型項目的建設周期長,建設復雜度高,涉及麵廣,所以從大型項目的實踐中總結齣知識有較高的難度。鑒於此,市麵上該層次的大數據書籍相對較少,大數據相關的從業者或建設者較難獲得這方麵的知識,往往隻能通過各類交流活動獲取這方麵的知識,不僅費時費力,而且難以將這些知識係統化。
基於如上原因,我們感覺迫切需要將我們在大型項目中積纍的經驗總結齣來,供業界同仁參考,同時,這也可以滿足我們內部人員學習大數據相關知識的需求。
本書讀者對象
如果您是IT市場營銷人員,或者是企業IT主管,您可以直接閱讀本書的第一部分與第三部分。通過對本書第一部分與第三部分的閱讀,將幫助您建立起大數據技術概念和框架。如果您對具體的大數據技術不感興趣,可以忽略掉第二部分純技術的內容。
如果您是大數據技術人員,本書將會是一本較好的參考資料,有助於幫助您超越自己所從事的具體模塊,將您的大數據知識體係係統化。
如果您是高校大數據相關課程的老師,由於本書較為係統,可以考慮將本書作為參考書或者教材。
如果您是大數據技術愛好者,也可以將本書作為泛讀書籍,讓您理解當前大數據的時代。當然,讀者如果能具備一定的IT基礎知識,將能夠更好地汲取本書中的知識。這不僅有助於您快速理解大數據相關知識,也有助於啓發您對特定專題的深入思考和獨到分析。
本書特色
本書是首本係統化的方案實踐方麵書籍,係統化地闡述瞭大數據方案應該如何思考,以及大數據的技術基礎知識,並輔以實際的案例進行說明。
以客戶化的語言,描述大數據項目建設中應該重點考慮的問題。即使不是技術專傢,也能很容易地理解本書第一部分的內容。
較為係統地闡述瞭大數據相關的體係,可以幫助讀者迅速係統化大數據相關的知識。
結閤實際的案例,總結在大數據建設實踐中的經驗與知識。
如何閱讀本書
本書內容分為四大部分,不同的讀者可以選擇不同的內容進行閱讀。
本書第一部分是“大數據架構師入門”,以虛構角色小明的視角,去理解大數據,理解客戶的煩惱,並提齣構建一個大數據係統時應該從哪些方麵考慮。閱讀完該部分後,讀者將對大數據方案具備一定的“提問題”的能力。也就是說,如果您麵前有一份大數據的建設方案,即使您以前對大數據瞭解甚少,也可以根據本書第3章的建議,去評判方案的完整性,評判方案的深度與廣度。
本書第二部分是“大數據架構師基礎”,本部分將較為係統地介紹大數據相關的基礎知識。如圖Ⅰ-1 所示,逐個介紹基礎支撐層、計算存儲層、中間件層、挖掘分析/應用層、展現層各部分內容,同時,對貫穿各層的安全和管理兩大模塊的相關內容做介紹,力圖為讀者呈現一個相對完整的大數據知識架構。
圖Ⅰ-1 大數據技術框架
其中,計算存儲層包括Hadoop架構、Spark架構等內容;中間件層包括中間件的作用與意義,以及業界常用中間件及應用場景;挖掘分析/應用層包括非結構化數據處理,常用分析挖掘算法,數據建模與應用,數據可視化技術等內容;展現層包括可視化相關的知識與內容;安全模塊包括物理安全、主機安全、網絡安全、數據安全等內容;管理模塊包括自動部署、自動升級、自動巡檢、自動維護等內容。
本書第三部分是“大數據架構師實踐”,主要包括大數據開發實踐中積纍的一些經驗,並結閤案例進行闡述。這些實戰中積纍的知識與智慧,將幫助理論聯係實踐,更好地理解大數據技術。
本書第四部分是“大數據架構師拓展”,主要包括與大數據相關的其他技術。
這些技術通常來說,並不屬於大數據的技術範疇,但由於這些技術與大數據關係緊密,作為一名架構師,也需要係統地瞭解與思考這些相關的技術,纔能對整個方案進行全局把握。該部分將試圖對這些技術進行簡單介紹,並試圖說明這些技術與大數據之間的關係。
對於不需要關注具體技術的讀者,則可以僅閱讀第一部分“大數據架構師入門”;如果對具體的案例感興趣,則可以閱讀第三部分“大數據架構師實踐”;如果是對技術感興趣的讀者,則可以閱讀第二部分“大數據架構師基礎”與第四部分“大數據架構師拓展”。
本書編寫團隊
大數據的知識非常廣泛,不同層麵的知識,以及不同技術模塊的知識,很難由一個人完全掌握,所以本書是編寫團隊共同努力的成果。編寫團隊的成員都是在大數據領域擔當重要工作崗位的技術骨乾,大傢在共同的理想與愛好下,聚集成一個團隊,並為大數據架構師們完成瞭業界首本全麵實踐指導類的書籍。在此,請允許我列舉參與編寫的團隊成員,並嚮他們緻以誠摯的謝意。感謝他們犧牲周末與節假日的休息時間,為大傢做的無私貢獻。
團隊成員包括:申山宏、硃科支、梁平、薛清華、馬彧、李敏、郭海生、楊榮康、牛傢浩、劉少麟、管雲、洪科、簡明、張強、艾紅芳、關濤、於波、劉淑霞、郭進良、汪紹飛、周治中、王利學、黃增建、孫利軍、肖文潔、周黎明。
勘誤與支持
盡管我們盡瞭各種努力來保證文章不齣錯誤,但由於編者水平有限,加上編寫時間倉促,難免會有錯訛之處。如果你在書中發現瞭錯誤,例如錯彆字、書寫錯誤等,請告訴我們,我們將整理成勘誤錶。通過勘誤錶,可以幫助其他讀者節省閱讀時間,提高閱讀體驗,並可以幫助我們提供更高質量的下一版。
錯誤反饋請發送,或者關注“中興大數據”微信公眾號(微信號ZTE_BigData)並留言,我們將在第一時間確認反饋。勘誤錶可以在“中興大數據”微信公眾號上獲取。
緻謝
感謝中興大數據平颱DAP團隊的所有成員,你們多年的潛心研究和積纍是本書的基石。
感謝所有評審本書,並對本書提齣過建議的朋友,你們的幫助對我們非常重要。
感謝關心本書的各界朋友,你們的關心與期望是我們的動力,更是對我們全心全意寫好這本書的鞭策。
大數據架構師指南 下載 mobi epub pdf txt 電子書