內容簡介
《數據質量導論》結閤國內信息環境特點,係統分析瞭數據質量以及數據全生命周期質量管理的內涵,構建瞭數據質量研究和數據清洗係統框架,並引入瞭數據質量管理的並行發展模式;深入研究瞭實體分辨、不完整數據、不一緻數據三類實例層數據質量問題的數據清洗技術,提齣瞭若乾數據清洗技術方法;歸納瞭數據質量工具的發展概況,提齣瞭兩種數據質量工具設計方法;總結提齣瞭大數據質量麵臨的十大挑戰,構建瞭適用於國內信息環境特點的數據治理係統框架。
《數據質量導論》內容由淺入深,係統性強,易讀性和可操作性強,既可作為數據質量領域的入門和進階用書,又可作為數據資源建設與利用、信息技術等相關學科的教學參考用書。
作者簡介
曹建軍,副研究員,碩士生導師,全國優秀博士學位論文提名奬、中國博士後科學基金特彆資助獲得者,主要從事數據質量控製與數據治理等方麵的研究工作。2008年組建信息質量研究組(Information Quality Research Group.IORG),結閤國內信息環境特點係統開展相關研究與實踐。先後主持省部級重點項目7項,獲省部級奬勵4項,授權發明專利4項,注冊軟件著作權2項,齣版專譯著4部,發錶學術論文80餘篇。
刁興春,研究員,博士生導師,享受國務院特殊津貼專傢,長期從事數據資源管理與分析等方麵的研究工作。信息質量研究組的共同發起人。先後主持多項重大科研項目,獲省部級科技進步奬10餘項和發明專利6項,齣版數據質量方麵譯著3部,在國內外重要會議和期刊上發錶學術論文90餘篇。
內頁插圖
目錄
第1章 緒論
1.1 引言
1.2 數據工程建設概述
1.2.1 數據處理與應用的發展簡況
1.2.2 信息係統建設中的數據工程
1.2.3 我國數據工程建設麵臨的問題
1.3 數據質量概述
1.3.1 數據質量的含義
1.3.2 數據全生命周期質量管理
1.3.3 數據質量問題的來源
1.3.4 數據質量研究發展簡況
1.4 本書內容結構安排
參考文獻
第2章 數據質量研究和數據清洗係統框架
2.1 引言
2.2 數據質量研究框架
2.2.1 典型的數據質量框架
2.2.2 數據質量的研究主題
2.2.3 數據質量的研究方法
2.3 對數據質量管理的思考
2.3.1 數據質量管理的發展模式
2.3.2 數據質量管理問題剖析
2.4 典型數據質量控製的框架
2.4.1 層次結構數據質量控製框架
2.4.2 層次結構數據質量控製所涉及的關鍵問題
2.4.3 數據清洗技術簡介
2.4.4 數據清洗的概念辨析.
2.4.5 數據清洗的一般性係統框架
2.5 本章小結
參考文獻
第3章 典型數據清洗技術的發展動態
3.1 引言
3.2 實體分辨技術的發展動態
3.2.1 數據分塊算法
3.2.2 記錄比較算法
3.2.3 匹配決策模型
3.2.4 基於關係的實體分辨
3.2.5 實體分辨中的訓練和測試數據集
3.2.6 實體分辨麵臨的挑戰
3.3 不完整數據清洗技術的發展動態
3.3.1 數據完整性及其評價方法
3.3.2 不完整數據的分類
3.3.3 不完整數據清洗技術
3.4 一緻數據清洗技術的發展動態
3.4.1 針對一緻性的數據依賴理論
3.4.2 典型數據依賴(規則)挖掘方法
3.4.3 基於數據依賴的數據一緻性保證
3.5 本章小結
參考文獻
第4章 實體分辨中的數據分塊方法
4.1 引言
4.2 基於冗餘的數據分塊
4.3 基於倒排索引消除冗餘記錄對
4.3.1 數據塊排序索引
4.3.2 記錄倒排索引
4.3.3 冗餘記錄對識彆
4.3.4 實驗分析
4.4 基於空間映射的數據塊約減
4.4.1 數據塊映射
4.4.2 數據塊約減
4.4.3 實驗分析
4.5 基於Canopy聚類的數據分塊
4.5.1 整體流程
4.5.2 ID指定
4.5.3 BK生成
4.5.4 Canopy聚類
4.5.5 候選對象獲取
4.5.6 復雜性分析
4.5.7 實驗分析
4.6 本章小結
參考文獻
第5章 實體分辨中的相似度計算方法
5.1 引言
5.2 基於多編輯距離融閤的相似度計算
5.2.1 相似特徵定義及其標準化
5.2.2 編輯距離
5.2.3 中西文混閤字符串的編輯距離
5.2.4 多編輯距離字符串相似度融閤
5.2.5 實驗分析
5.3 屬性相似度與函數依賴的關係
5.4 基於函數依賴的屬性相似度調整
5.4.1 屬性相似度劃分
5.4.2 屬性相似度調整
5.4.3 算法描述
5.4.4 實驗分析
5.5 本章小結
參考文獻
第6章 基於關係的實體分辨
6.1 引言
6.2 基於雲模型的實體分辨記錄對劃分
6.2.1 雲模型簡介
6.2.2 記錄相似度的分布
6.2.3 記錄相似度的雲模型錶示
6.2.4 劃分方法
6.2.5 結果分析
6.3 基於鄰域粗糙集的實體分辨記錄對劃分
6.3.1 鄰域粗糙集
6.3.2 基於鄰域粗糙集的記錄對劃分
6.3.3 實驗分析
6.4 基於關係類型的自適應實體分辨
6.4.1 路徑權重
6.4.2 路徑概率
6.4.3 連接強度
6.4.4 自適應關係類型權重學習
6.4.5 實驗分析
6.5 本章小結
參考文獻
第7章 不完整數據的分類與檢測
7.1 引言
7.2 基於位運算的不完整數據分類與檢測
7.2.1 不完整數據及其分類
7.2.2 記錄的二進製錶示
7.2.3 不完整記錄的位運算分類檢測方法
7.2.4 應用實例
7.3 基於統計關係的不完整數據分類
7.3.1 數據缺失模式分類
7.3.2 數據缺失機製分類
7.4 本章小結
參考文獻
第8章 不完整數據的估計與填充
8.1 引言
8.2 基於統計關係學習的缺失數據估計與填充
8.2.1 統計關係學習概述
8.2.2 基於馬爾可夫模型的缺失值估計方法
8.2.3 基於關係馬爾可夫模型的缺失值估計
8.3 基於機器學習的缺失數據估計與填充
8.3.1 基於後一近鄰的填補算法
8.3.2 局部敏感哈希技術
8.3.3 LSH-KNN數據填補算法
8.3.4 實驗驗證
8.4 函數依賴一緻性數據生成
8.4.1 函數依賴一緻性
8.4.2 單函數依賴一緻性數據生成算法
8.4.3 基於有嚮無環圖的多函數依賴一緻性數據生成
8.4.4 屬性集劃分和數據生成流水綫
8.5 本章小結
參考文獻
第9章 條件函數依賴挖掘及其優化方法
9.1 引言
9.2 條件函數依賴挖掘及其常用算法
9.2.1 條件函數依賴及其挖掘問題
9.2.2 函數依賴挖掘
9.2.3 CTANE算法
9.2.4 CFDMiner算法
9.3 基於開項集剪枝的常量條件函數依賴挖掘算法
9.3.1 剪枝與優化策略
9.3.2 優化前後復雜度對比
9.3.3 實驗驗證與結果分析
9.4 本章小結
參考文獻
第10章 基於規則的不一緻數據檢測與修復方法
10.1 引言
10.2 基於Fellegi一Holt方法的不一緻數據檢測
10.2.1 Fellegi-Holt方法
10.2.2 檢測流程及策略
10.2.3 實驗及分析
10.3 基於:Evidence-Rules模型的不一緻數據修復
10.3.1 確定問題記錄中待修改屬性集
10.3.2 基於函數依賴規則的屬性值修復
10.3.3 Evidence-Rules模型與問題數據修復
10.3.4 實驗及分析
10.4 本章小結
參考文獻
第11章 數據質量工具
11.1 引言
11.2 數據質量工具發展概況
11.2.1 Gartner分析報告
11.2.2 數據質量管理工具分析
11.3 基於錶達式樹的數據質量工具設計
11.3.1 數據質量規則的分類與錶達
11.3.2 數據質量規則的存儲與識彆
11.4 基於流程的數據質量工具設計
11.4.1 數據模型
11.4.2 作業模型
11.4.3 執行方案模型
11.5 本章小結
參考文獻
第12章 大數據與大數據質量問題
12.1 引言
12.2 大數據時代的特徵
12.2.1 大數據的含義
12.2.2 大數據的特徵
12.2.3 進入大數據時代的必要條件
12.2.4 大數據時代的革命性轉變
12.2.5 大數據時代的核心任務
12.3 大數據質量麵臨的挑戰
12.3.1 數據安全問題
12.3.2 大數據的偏見和盲區
12.3.3 非結構化數據的質量控製
12.3.4 結構化數據內缺少結構性
12.3.5 分布式數據清洗
12.3.6 數據化程度不夠
12.3.7 數據稀缺
12.3.8 數據冗餘
12.3.9 數據對實際需求的適用性
12.3.1 0人為選擇導緻的信息失真.
12.4 數據治理
12.4.1 數據治理的齣發點
12.4.2 數據治理的一般流程
12.4.3 數據治理的係統框架
12.5 本章小結
參考文獻
基金資助目錄
前言/序言
大數據戰略進展如火如荼,數據質量問題日益突顯。好産品的典型特徵是具有較好的自身守恒能力,能夠穩定保持用戶期望的産品使用價值,較之其他有形聲品或軟件産品,數據産品的這種能力恰恰較差。同時,數據的價值主要體現在7iiK通”,而非“存儲”,所以,數據質量問題較傳統産品質量麵臨更多挑戰。
信息質量研究組(Infonnation Quality Reaearch Group,IQRG)成立於2008年,以結閤我國信息環境特點係統開展數據質量研究與實踐為己任,隨著相關工作的深入推進,對國內數據現狀及特點的認識也逐漸清晰。
信息質量研究組成立以來,我們陸續齣版瞭譯著《數據質量工程實踐》、《信息質量)和《數據質量改進實踐指南》,後兩者受到瞭裝備科技譯著齣版基金的資助。“禦數坊”在介紹第20屆企業數據世界(Enterprise Data Wodd)大會(加利福尼亞州聖迭戈.2016年4月17-22日)時,嚮關注數據質量的同學推薦瞭《數據質量工程實踐》。三本譯著在國內普及數據質量理論與實踐體係、提升數據質量認識層次上發揮瞭積極作用。為瞭有計劃地推齣研究成果,立足我國信息環境特點逐步構建數據治理與應用理論技術體係,2016年上半年,受國防工業齣版社之邀,信息質量研究組啓動瞭“大數據治理與應用叢書”齣版工作,譯著《數據質量改進實踐指南)是叢書開捲,本書是此叢書的第二個成員。
本書共分12章。第1章至第3章是本書的總述部分。第1章為緒論,引齣數據質量問題,介紹瞭數據質量以及數據全生命周期質量管理的含義,分析瞭數據質量問題的來源並歸納其研究發展簡況;第2章分析構建瞭數據質量研究和數據清洗係統框架,引入瞭數據質量管理的並行發展模式,構建瞭數據質量控製層次框架,分析瞭其實現所涉及的關鍵問題,在進一步辨析數據清洗概念的基礎上,構建瞭數據清洗的一般性係統框架;第3章綜述瞭典型數據清洗技術的發展動態,係統歸納瞭實體分辨、不完整數據、不一緻數據三類實例層數據質量問題的數據清洗技術發展動態。第4章至第10章是以上三類數據清洗技術的研究成果。第4章研究瞭實體分辨中的數據分塊問題,第5章研究瞭實體分辨中的相似度算法,第6章研究瞭基於關係的實體分辨;第7章研究瞭不完整數據的分類與檢測,第8章研究瞭不完整數據的估計與填充;第9章研究瞭條件函數依賴挖掘及其優化方法,第10章研究瞭基於規則的不一緻數據檢測與修復方法。第11章研究瞭數據質量工具的發展概況及設計方法,分彆研究瞭基於錶達式樹的數據質量工具設計和基於流程的數據質量工具設計方法。第12章研究瞭大數據與大數據質量問題,歸納瞭大數據時代的特徵,總結提齣瞭大數據質量麵臨的十大挑戰,構建瞭適用於我國信息環境特點的數據治理係統框架。
本書由曹建軍、刁興春全麵籌劃,並負責瞭第1章至第3章、第12章的研究撰寫工作,指導參與瞭其他各章的研究撰寫;譚明超、周星負責瞭第4章至第6章的研究撰寫;鄭奇斌、譚明超負責瞭第7章的研究撰寫;鄭奇斌、譚明超、陳爽負責瞭第8章的研究撰寫;周金陵負責瞭第9章的研究撰寫;高科負責瞭第10章的研究撰寫;江春、翁年風、高科負責瞭第11章的研究撰寫。許永平參與瞭第9章、第10章的編輯整理,劉藝、馮欽參與瞭部分章節的編輯整理。江春、彭琮負責瞭全書的文字編輯潤色;尚玉玲、劉藝、李紅梅、張磊、馮欽負責瞭全書的規範性審核與修改工作。
感謝兩位國際著名數據質量領域專傢David Loahin、Danette McGilvray為本書撥冗作序,感謝二位對信息質量研究組相關工作的支持與肯定。
本書是作者在數據質量領域研究成果的梳理小結,試圖傳遞三個信息:一是國內數據質量領域的發展模式要緊貼國內信息環境特點與數據應用實際;二是數據質量控製技術研究要緊貼國際前沿;三是數據質量管理實踐既要重視具體的數據質量工具又要重視體係化的數據治理平颱。通過閱讀本書,甚望讀者能夠在概念層麵對數據質量有全麵客觀的認識,在技術層麵能夠管中窺豹,在實踐層麵獲得可用參考。
本書可作為數據資源建設與利用、信息技術等領域科研和工程技術人員進行數據質量研究與實踐的入門指導及工程參考用書。
在本書內容的研究整理過程中,廣泛參考瞭國內外相關成果,並與多傢兄弟科研團隊及專傢同仁進行有益的經常化交流研討,在此一並緻以誠摯的謝意。
受水平所限,書中若有錯誤和不妥之處,懇請廣大讀者批評指正,並歡迎與作者直接交流。
作者
2016年10月
數據質量導論 [Introdnction to Data quality] 下載 mobi epub pdf txt 電子書