內容簡介
1)對大數據計算的標準、模型、計算架構、開發技術體係做瞭一個較完整的論述和總結,適宜於作為計算機和軟件工程專業高年級課程或研究生課程的教材;2)本書也對大數據計算架構和開發平颱及技術進行瞭論述,給齣瞭相關領域的工程案例,也可作為IT技術人士的專業參考書。
目錄
第1章緒論
1.1數據與數據科學
1.2大數據概念
1.3大數據技術特徵
參考文獻
習題
第2章大數據計算體係
2.1大數據計算架構
2.2數據存儲係統
2.2.1數據清洗與建模
2.2.2分布式文件係統
2.2.3NoSQL數據庫
2.2.4統一數據訪問接口
2.3數據處理平颱
2.3.1數據分析算法
2.3.2計算處理模型
2.3.3計算平颱與引擎
2.4數據應用係統
2.4.1大數據應用領域
2.4.2大數據解決方案
參考文獻
習題
第3章大數據標準與模式
3.1大數據標準體係
3.2大數據計算模式
參考文獻
習題
第4章數據采集方法
4.1係統日誌采集
4.1.1日誌采集的目的
4.1.2日誌采集過程
4.2網絡數據采集
4.2.1網絡爬蟲工作原理
4.2.2網頁搜索策略
4.2.3網頁分析算法
4.2.4網絡爬蟲框架
4.3數據采集接口
參考文獻
習題
第5章數據清洗與規約方法
5.1數據預處理研究現狀
5.1.1數據清洗的研究現狀
5.1.2數據規約的研究現狀
5.2數據質量問題分類
5.2.1單數據源的問題
5.2.2多數據源的問題
5.3數據清洗技術
5.3.1重復記錄清洗
5.3.2消除噪聲數據
5.3.3缺失值清洗
5.4數據歸約
5.4.1維歸約
5.4.2屬性選擇
5.4.3離散化方法
5.5數據清洗工具
參考文獻
習題
第6章數據分析算法
6.1C4.5算法
6.1.1算法描述
6.1.2屬性選擇度量
6.1.3其他特徵
6.2k�簿�值算法
6.3支持嚮量機
6.4Apriori算法
6.5EM算法
6.5.1案例:估計k個高斯分布的均值
6.5.2EM算法步驟
6.6PageRank算法
6.6.1PageRank的核心思想
6.6.2PageRank的計算過程
6.7AdaBoost算法
6.7.1Boosting算法的發展曆史
6.7.2AdaBoost算法及其分析
6.8k�擦誚�算法
6.9樸素貝葉斯
6.9.1樸素貝葉斯分類器
6.9.2貝葉斯網絡
6.10分類迴歸樹算法
6.10.1建立迴歸樹
6.10.2剪枝過程
參考文獻
習題
第7章文本讀寫技術
7.1讀取文本文件
7.1.1讀取txt文件
7.1.2讀取csv文件
7.2寫入文本文件
7.3處理二進製數據
7.4數據庫的使用
7.4.1數據庫的連接
7.4.2執行SQL語句
7.4.3選擇和打印
7.4.4動態插入
7.4.5update操作
參考文獻
習題
第8章數據處理技術
8.1閤並數據集
8.1.1索引上的閤並
8.1.2軸嚮連接
8.1.3閤並重疊數據
8.2數據轉換
8.2.1移除重復數據
8.2.2利用函數進行數據轉換
8.2.3替換值
8.2.4重命名軸索引
8.2.5離散化數據
8.2.6檢測異常值
8.2.7排列和隨機采樣
8.2.8啞變量
8.3字符串操作
8.3.1內置字符串方法
8.3.2正則錶達式
8.3.3Pandas中矢量化的字符串函數
參考文獻
習題
第9章數據分析技術
9.1NumPy工具包
9.1.1創建數組
9.1.2打印數組
9.1.3基本運算
9.1.4索引、切片和迭代
9.1.5形狀操作
9.1.6復製和視圖
9.1.7NumPy實用技巧
9.2Pandas工具包
9.2.1Series
9.2.2DataFrame
9.3Scikit�睱earn工具包
9.3.1邏輯迴歸
9.3.2樸素貝葉斯
9.3.3k�滄罱�鄰
9.3.4決策樹
9.3.5支持嚮量機
9.3.6優化算法參數
參考文獻
習題
第10章數據可視化技術
10.1Matplotlib繪圖
10.1.1MatplotlibAPI入門
10.1.2Figure和Subplot的畫圖方法
10.1.3調整Subplot周圍的間距
10.1.4顔色、標記和綫型的設置
10.1.5刻度、標簽和圖例
10.2Mayavi2繪圖
10.2.1使用mlab快速繪圖
10.2.2Mayavi嵌入到界麵中
10.3其他圖形化工具
參考文獻
習題
第11章Hadoop生態係統
11.1Hadoop係統架構
11.2HDFS分布式文件係統
11.2.1HDFS體係結構
11.2.2HDFS存儲結構
11.2.3數據容錯與恢復
11.2.4Hadoop/HDFS安裝
11.3分布式存儲架構
11.3.1HBase係統架構
11.3.2數據模型與存儲模式
11.3.3HBase數據讀寫
11.3.4數據倉庫工具Hive
11.3.5HBase安裝與配置
11.4HBase索引與檢索
11.4.1二次索引錶機製
11.4.2二次索引技術方案
11.5資源管理與作業調度
11.5.1分布式協同管理組件ZooKeeper
11.5.2作業調度與工作流引擎Oozie
11.5.3集群資源管理框架YARN
參考文獻
習題
第12章MapReduce計算模型
12.1分布式並行計算係統
12.2MapReduce計算架構
12.3鍵值對與輸入格式
12.4映射與化簡
12.5應用編程接口
參考文獻
習題
第13章圖並行計算框架
13.1圖基本概念
13.2BSP模型
13.3Pregel圖計算引擎
13.4Hama開源框架
13.5應用編程接口
參考文獻
習題
第14章交互式計算模式
14.1數據模型
14.2存儲結構
14.3並行查詢
14.4開源實現
參考文獻
習題
第15章流計算係統
15.1流計算模型
15.2Storm計算架構
15.3工作機製實現
15.4Storm編程接口
參考文獻
習題
精彩書摘
第3章大數據標準與模式
3.1大數據標準體係
近年來隨著大數據計算的興起,國際標準化組織ISO/IEC、國際電信聯盟ITU、美國國傢技術標準研究院NIST和我國工信部、全國信息技術標準化技術委員會均開展瞭大數據計算標準的研究。ISO/IECJCT1S32(ISO/IEC聯閤技術委員會第32“數據管理與交換”分委員會)[1]是一個緻力於研製信息係統環境及之間的數據管理和交換標準、為跨行業領域協調數據管理提供技術性支持的國際組織。其主要工作內容包括:協調現有和新生數據標準化領域的參考模型和框架;負責數據域、數據類型和數據結構及相關的語義;負責用於持久存儲、並發訪問、並發更新和數據交換的語言、服務和協議等標準;負責用於構造、組織和注冊元數據及共享和互操作相關的其他信息資源(電子商務等)的方法、語言服務和協議的製定。SC32目前下設4個工作組和幾個研究組,其主要工作範圍如下。
1.WG1(WorkGroup1):電子業務
工作範圍為研製各組織使用的信息係統間全球互操作所需的開放電子數據交換方麵的通用IT標準,包括商務和信息技術兩方麵的互操作標準。
2.WG2(WorkGroup2):元數據
工作範圍為研製、開發和維護有利於規範和管理元數據、元模型和本體的標準,此類標準有助於理解和共享數據、信息過程、互操作性、電子商務以及基於模型和基於服務的開發,包括:建議用於規定和管理元數據、元模型和本體的框架;規定和管理元數據、元模型和本體;規定和管理過程、服務和行數據;開發管理元數據、元模型和本體的機製,包括注冊和存儲;開發交換元數據、元模型和本體的機製,包括基於互聯網、局域網等的語義等。
3.WG3(WorkGroup3):數據庫語言
工作範圍為動態規定、維護和描述多用戶環境中的數據庫結構和組件製定和維護語言標準;通過規定事務的提交、恢復和安全機製提供額外的對數據庫管理係統完整性的支持;為存儲、訪問和處理多並發用戶數據庫製定和維護語言標準;為其他標準編程語言提供開發接口;為描述數據類型和行為的其他標準提供訪問接口或為應用開發提供數據庫組件。
4.WG4(WorkGroup4):SQL多媒體和應用包
工作範圍為規定各種應用領域使用的抽象數據類型的定義。抽象數據類型定義是使用數據庫語言SQL標準中提供的用戶定義類型機製來規定的,包括全文、空間、靜態圖像、靜態圖形、動畫、視頻、音頻、地震和音樂等數據包。為應用API需求進行數據管理,其他數據包使用SQL機製的定義,而不是用戶自定義類型。
2012年,SC32在柏林全會上決定成立下一代分析和大數據研究組(SGNextGenerationAnalyticsandBigData),該研究組主要的研究內容為下一代數據分析、社會分析和底層技術領域中潛在的標準化需求。SC32其他的研究組還包括雲計算元數據研究組(SGMetadataforCloudComputing)和基於事實基礎的建模元模型研究組(SGMetamodelforFactBasedModelling)。
2013年11月,ISO/IECJTC1新成立瞭負責大數據國際標準化的研究小組ISO/IECJTC1SG2,由美國國傢標準與技術研究院(NIST)專傢WoChang擔任召集人[2]。2014年,ISO/IECJTC1SG2的工作重點包括:調研ISO/IECJTC1在大數據領域的關鍵技術、參考模型以及用例等標準基礎;確定大數據領域應用需要的術語與定義;評估分析當前大數據標準的具體需求,提齣ISO/IECJTC1大數據標準優先順序;嚮2014年ISO/IECJTC1全會提交大數據建議的技術報告和其他研究成果。2014年,根據ISO/IECJCT1SG2的建議新成立瞭負責大數據國際標準化的大數據工作組(IS0/IECJTC1WG9)。
ITU在2013年11月發布瞭題目為“大數據:今天巨大,明天平常”的技術觀察報告[11],這個技術觀察報告分析瞭大數據相關的應用實例,指齣大數據的基本特徵、促進大數據發展的技術,在報告的最後部分分析瞭大數據麵臨的挑戰和ITU�睺可能開展的標準化工作。在這份報告中,特彆提及瞭NIST和JTC1/SC32正在開展的工作。從ITU�睺的角度來看,大數據發展麵臨的最大挑戰包括數據保護、隱私和網絡安全、法律和法規的完善。根據ITU�睺現有的工作基礎,開展的標準化工作包括:高吞吐量、低延遲、安全、靈活和規模化的網絡基礎設施;匯聚數據機和匿名;網絡數據分析;垂直行業平颱的互操作;多媒體分析;開放數據標準。
目前,ITU�睺的大數據標準化工作主要是在SG13(第13研究組)開展[2],具體包括該研究組下設的Q2課題組、Q17課題組,以及Q18課題組,由Q17牽頭開展ITU�睺大數據標準化路標的製定工作並負責嚮TSAG(電信標準化谘詢委員會)匯報。其中,Q2涉及的研究課題為“針對大數據的物聯網具體需求和能力要求”,其主要內容為針對大數據在物聯網數據傳輸、數據處理、數據存儲、訪問控製、數據査詢和數據驗證等方麵的具體要求和能力要求,目前處於標準研製階段。
……
前言/序言
前言
大數據(BigData)已被視為硬件、軟件、網絡之外的第四種計算資源,隨著各類大數據應用的興起,大數據的采集、存儲、建模及計算處理已成為分布式計算領域的熱門研究課題,也引起産業界極大的興趣和關注。大數據的計算處理不僅涉及各類數據分析挖掘算法,其計算係統的性能更多依賴於計算模型與計算架構。目前,比較一緻的看法是大數據計算係統大緻可分為三個層次:數據存儲層、數據處理層和數據應用層。數據存儲層提供海量數據存儲架構與數據訪問界麵;數據處理層提供對數據分析算法和計算模型的支持;數據應用層則包含各種基於大數據計算分析的應用軟件係統。這三個層麵都涉及不同的數據模型、計算架構及開發技術標準,目前主流的有兩個主綫:以Google為代錶的商業産品和以Hadoop為代錶的開源技術。在學習和研究大數據計算技術時,需要對上述計算架構、技術和標準有一個總體的瞭解,這樣纔能做到不限於一點而把握全局。
針對國傢“互聯網+”的戰略發展需求,近期國內不少高校新開設瞭數據科學與大數據計算技術專業,大數據分析與計算成為其主乾專業課程,其他如計算機科學與技術、互聯網應用係統、物聯網工程等專業都需要開設大數據計算課程,因此迫切需要一本對大數據處理與計算有一個較全麵的論述、適閤高年級本科生或研究生學習的教材,正是基於這種需求,本書作者編著瞭此書,希望對大數據計算係統的各類分析算法、計算模型、計算架構與開發技術做齣一個綜閤性的介紹與闡述,為大傢進一步學習大數據技術及應用開發打下基礎。
全書共計20章,第1~3章介紹大數據計算的概念、計算體係總體架構、技術標準等,讓讀者建立大數據計算的基本概念;第4~6章介紹數據采集方法、數據建模及各類分析算法;第7~10章介紹文本數據讀取、數據處理與分析、數據可視化技術;第11章和第12章詳細介紹Hadoop計算平颱,包括HDFS分布式文件係統與MapReduce計算模型;第13~16章具體介紹各類大數據計算模型與架構,包括圖並行計算、交互式計算、流計算、內存計算等,其中重點闡述瞭Pregel、Hama、Storm、Spark等計算架構;第17~20章則介紹瞭大數據計算技術在醫療保險係統、互聯網電子商務、金融信貸係統等領域的應用。本書包含內容較多、篇幅較長,教師在講授時可根據自己的需要對章節進行選取裁剪。
湯羽教授負責本書的總體結構及第1~3章、第11章和第12章的撰寫,林迪副教授負責第4~10章,範愛華副教授負責第13~16章,吳薇薇碩士負責第17~20章。本書部分圖片取自互聯網,部分文字也參考瞭網頁內容,作者盡可能將引用鏈接在參考文獻羅列中給齣,少部分無法給齣引用的,作者在此一並緻謝。
大數據計算是一個新興技術領域且仍在高速發展中,新的概念、方法和技術不斷湧現。作者因學識有限,本書必然會存在不足,希望得到學界同仁的批評指正,以利我們改進完善。“業精於勤荒於嬉、行成於思毀於隨”,作者願與科學界同行一起努力在這個領域耕耘。
湯羽2017年7月於蓉城
大數據分析與計算 下載 mobi epub pdf txt 電子書