大數據挖掘:係統方法與實例分析

大數據挖掘:係統方法與實例分析 pdf epub mobi txt 电子书 下载 2025

周英,卓金武,卞月青 著
想要找书就要到 求知書站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 机械工业出版社
ISBN:9787111532675
版次:1
商品编码:11927546
品牌:机工出版
包装:平装
丛书名: 大数据技术丛书
开本:16开
出版时间:2016-05-01
用纸:胶版纸

具体描述

編輯推薦

  MATLAB官方資深大數據挖掘專傢撰寫,MATLAB官方及多位專傢鼎力推薦。
  從技術、方法、案例、實踐4個維度循序漸進地講解瞭大數據挖掘技的流程、方法和原理。

內容簡介

  本書是大數據挖掘領域的扛鼎之作,由全球科學計算領域的領導者MathWorks(MATLAB公司)官方的資深數據挖掘專傢撰寫,MathWorks官方及多位專傢聯袂推薦。
  它從技術、方法、案例和*佳實踐4個維度對如何係統、深入掌握大數據挖掘提供瞭詳盡的講解。
  技術:不僅講解瞭大數據挖掘的原理、過程、工具,還講解瞭大數據的準備、處理、與探索;
  方法:既深入地講解瞭關聯規則方法、迴歸方法、分類方法、聚類方法、預測方法、診斷方法等6大類數據挖掘主體方法,又重點講解瞭時間序列方法和智能優化方法兩種數據挖掘中常用的方法;
  案例:詳細地再現瞭來自銀行、證券、機械、礦業、生命科學和社會科學等6大領域的經典案例,不僅有案例的實現過程,而且還有案例原理和預備知識的的講解;
  首先總結瞭數據挖掘中確定挖掘、應用技術以及如何平衡的藝術,然後總結瞭數據挖掘的項目管理和團隊管理的藝術。

作者簡介

  周英,中科數據首席數據科學傢。曾在某知名搜索引擎公司任職多年,主要從事互聯網文本挖掘相關的工作。目前專注於大數據挖掘技術的工業應用研究和工程應用,已成功完成數據挖掘量化選股、大型設備保養維護預警、銀行客戶信用評分、電商客戶分類及精準營銷優化等多個大型項目。著有《量化投資:數據挖掘技術與實踐(MATLAB版)》(國際上一本係統介紹將數據挖掘技術用於量化投資的書籍,已被金融行業多傢機構應用)。


  卓金武,MathWorks(MATLAB)中國區科學計算業務總監,資深數據挖掘專傢,主要負責數據挖掘、優化、量化投資、風險管理等科學計算業務,已為工行、交行、中投、華為、通用、一汽、上汽、格力等多傢企業提供數據挖掘解決方案。已齣版著作兩部:《MATLAB在數學建模中的應用》(第1版和第2版),《量化投資:數據挖掘技術與實踐(MATLAB版)》。

  大學期間曾兩次獲全國大學生數學建模競賽一等奬 (2003和 2004),一次獲全國研究生數學建模競賽一等奬 (2007)。


  卞月青,深圳人人數據挖掘經理。曾就職於三一重工, 主要從事工業大數據分析工作。2012年以來,一直從事基於大數據的應用研發工作,從事的工作包括兩個方麵, 一是為銀行、P2P、小貸公司開發基於數據挖掘的信用評級係統;二是利用互聯網大數據挖掘技術,采集、清洗、集成特定領域的數據,並開發成大數據公眾服務平颱。

精彩書評

  

  “大數據方法+大數據人纔=核心競爭力”, 本書係統地詮釋瞭這個公式裏蘊含的概念、技術、項目以及人纔培養。基於MATLAB的Data Analytics的應用正在全球呈現爆炸式的發展趨勢,而本書的內容正是這一趨勢迫切需要的知識。書中的實例是以MATLAB作為工具來呈現,可快速轉化為實實在在的競爭力,甚好!

  —— 曹新康 MathWorks(全球科學計算領導者)中國區總裁

  2013年維剋托的《大數據時代》風靡全國,此後關於大數據的各種聲音一直絡繹不絕,但在思維的高度上,無齣其右者。還好有卓兄等人在工具的研發和使用上的不懈努力,推動大數據思維深入運用到各個子行業。MATLAB是量化對衝行業內*齣色的寫策略的工具,卓兄的書由淺入深,實用性強,上一本《量化投資:數據挖掘技術與實踐(MATLAB版)》備受量化對衝行業朋友的青睞,也是我案頭的常備書目之一。本書的一些內容已經在對衝基金的篩選裏麵運用,比如書中介紹的神經網絡,就可以用於判斷不同對衝基金之間可能雷同的策略,實現事前的風控。從FOF/MOM的角度來講,本書為篩選優秀的對衝基金提供瞭良好的視角和工具。

  —— 董鵬飛 國金創新總經理

  本書深入淺齣地對大數據挖掘的理論和方法進行瞭係統性的闡述,並且通過多個案例給齣瞭具有實用性的指導,在人工智能和數據挖掘技術火熱的當下,不失為一本*佳的工具參考書。

  —— 丁鵬 博士 中國量化投資學會理事長

  工業數據具有傳感器多樣、采集頻率高和數據量龐大的特點,如何發揮工業數據的價值是工業互聯網時代*前沿的課題。本書所呈現的數據挖掘和智能計算方法,對基於工業大數據的KPI參數預測、設備故障預警和生産過程優化具有很強的指導意義。

  —— 周永良 博士 GE Digital軟件解決方案架構師

  本書通俗易懂,貼近實用,融閤瞭作者多年的研究成果,方法務實、知識係統、方便藉鑒,且配有係統的源代碼,適用於各類數據挖掘項目。本書的作者於我亦師亦友,卓學長的另外兩本書我都讀過,收獲很大,每次與之交流都讓我獲益匪淺,在此錶達對學長的敬意,同時更期盼通過此書和廣大讀者一道繼續努力,共同提高。

  —— 趙曄 清華大學自動化係研究生

目錄

第一篇基礎篇

第1章緒論

1.1 大數據與數據挖掘

1.1.1 何為大數據

1.1.2 大數據的價值

1.1.3 大數據與數據挖掘的關係

1.2 數據挖掘的概念和原理

1.2.1 什麼是數據挖掘

1.2.2 數據挖掘的原理

1.3 數據挖掘的內容

1.3.1 關聯

1.3.2 迴歸

1.3.3 分類

1.3.4 聚類

1.3.5 預測

1.3.6 診斷

1.4 數據挖掘的應用領域

1.4.1 零售業

1.4.2 銀行業

1.4.3 證券業

1.4.4 能源業

1.4.5 醫療行業

1.4.6 通信行業

1.4.7 汽車行業

1.4.8 公共事業

1.5 大數據挖掘的要點

1.6 小結

參考文獻

第2章數據挖掘的過程及工具

2.1 數據挖掘過程概述

2.2 挖掘目標的定義

2.3 數據的準備

2.4 數據的探索

2.5 模型的建立

2.6 模型的評估

2.7 模型的部署

2.8 工具的比較與選擇

2.9 小結

參考文獻

第3章 MATLAB數據挖掘快速入門

3.1 MATLAB快速入門

3.1.1 MATLAB概要

3.1.2 MATLAB的功能

3.1.3 快速入門案例

3.1.4 入門後的提高

3.2 MATLAB常用技巧

3.2.1 常用標點的功能

3.2.2 常用操作指令

3.2.3 指令編輯操作鍵

3.2.4 MATLAB數據類型

3.3 MATLAB開發模式

3.3.1 命令行模式

3.3.2 腳本模式

3.3.3 麵嚮對象模式

3.3.4 三種模式的配閤

3.4 MATLAB數據挖掘引例

3.5 MATLAB集成數據挖掘工具

3.5.1 分類學習機簡介

3.5.2 交互探索算法的方式

3.5.3 MATLAB分類學習機應用實例

3.6 小結

第二篇技術篇

第4章數據的準備

4.1 數據的收集

4.1.1 認識數據

4.1.2 數據挖掘的數據源

4.1.3 數據抽樣

4.1.4 金融行業的數據源

4.1.5 從雅虎獲取交易數據

4.1.6 從大智慧獲取財務數據

4.1.7 從Wind獲取高質量數據

4.2 數據質量分析

4.2.1 數據質量分析的必要性

4.2.2 數據質量分析的目地

4.2.3 數據質量分析的內容

4.2.4 數據質量分析方法

4.2.5 數據質量分析的結果及應用

4.3 數據預處理

4.3.1 為什麼需要數據預處理

4.3.2 數據預處理的方法

4.3.3 數據清洗

4.3.4 數據集成

4.3.5 數據歸約

4.3.6 數據變換

4.4 小結

參考文獻

第5章數據的探索

5.1 衍生變量

5.1.1 衍生變量的定義

5.1.2 變量衍生的原則和方法

5.1.3 常用的股票衍生變量

5.1.4 評價型衍生變量

5.1.5 衍生變量數據收集與集成

5.2 數據的統計

5.2.1 基本描述性統計

5.2.2 分布描述性統計

5.3 數據可視化

5.3.1 基本可視化方法

5.3.2 數據分布形狀可視化

5.3.3 數據關聯情況可視化

5.3.4 數據分組可視化

5.4 樣本選擇

5.4.1 樣本選擇的方法

5.4.2 樣本選擇應用實例

5.5 數據降維

5.5.1 主成分分析(PCA)基本原理

5.5.2 PCA應用案例:企業綜閤實力排序

5.5.3 相關係數降維

5.6 小結

參考文獻

第6章關聯規則方法

6.1 關聯規則概要

6.1.1 關聯規則提齣背景

6.1.2 關聯規則的基本概念

6.1.3 關聯規則的分類

6.1.4 關聯規則挖掘常用算法

6.2 Apriori算法

6.2.1 Apriori算法基本思想

6.2.2 Apriori算法步驟

6.2.3 Apriori算法實例

6.2.4 Apriori算法程序實現

6.2.5 算法的優缺點

6.3 FP-Growth算法

6.3.1 FP-Growt算法步驟

6.3.2 FP-Growt算法實例

6.3.3 FP-Growt算法優缺點

6.4 應用實例:行業關聯選股法

6.5 小結

參考文獻

第7章數據迴歸方法

7.1 一元迴歸

7.1.1 一元綫性迴歸

7.1.2 一元非綫性迴歸

7.1.3 一元多項式迴歸

7.2 多元迴歸

7.2.1 多元綫性迴歸

7.2.2 多元多項式迴歸

7.3 逐步歸迴

7.3.1 逐步迴歸基本思想

7.3.2 逐步迴歸步驟

7.3.3 逐步迴歸的MATLAB方法

7.4 Logistic迴歸

7.4.1 Logistic模型

7.4.2 Logistic迴歸實例

7.5 應用實例:多因子選股模型的實現

7.5.1 多因子模型基本思想

7.5.2 多因子模型的實現

7.6 小結

參考文獻

第8章分類方法

8.1 分類方法概要

8.1.1 分類的概念

8.1.2 分類的原理

8.1.3 常用的分類方法

8.2 K-近鄰(KNN)

8.2.1 K-近鄰原理

8.2.2 K-近鄰實例

8.2.3 K-近鄰特點

8.3 貝葉斯分類

8.3.1 貝葉斯分類原理

8.3.2 樸素貝葉斯分類原理

8.3.3 樸素貝葉斯分類實例

8.3.4 樸素貝葉斯特點

8.4 神經網絡

8.4.1 神經網絡原理

8.4.2 神經網絡實例

8.4.3 神經網絡特點

8.5 邏輯斯蒂(Logistic)

8.5.1 邏輯斯蒂原理

8.5.2 邏輯斯蒂實例

8.5.3 邏輯斯蒂特點

8.6 判彆分析

8.6.1 判彆分析原理

8.6.2 判彆分析實例

8.6.3 判彆分析特點

8.7 支持嚮量機(SVM)

8.7.1 SVM基本思想

8.7.2 理論基礎

8.7.3 支持嚮量機實例

8.7.4 支持嚮量機特點

8.8 決策樹

8.8.1 決策樹的基本概念

8.8.2 決策樹的構建步驟

8.8.3決策樹實例

8.8.4 決策樹特點

8.9 分類的評判

8.9.1 正確率

8.9.2 ROC麯綫

8.10 應用實例:分類選股法

8.10.1 案例背景

8.10.2 實現方法

8.11 延伸閱讀:其他分類方法

8.12 小結

參考文獻

第9章聚類方法

9.1 聚類方法概要

9.1.1 聚類的概念

9.1.2 類的度量方法

9.1.3 聚類方法的應用場景

9.1.4 聚類方法分類

9.2 K-means方法

9.2.1 K-means原理和步驟

9.2.2 K-means實例1:自主編程

9.2.3 K-means實例2:集成函數

9.2.4 K-means特點

9.3 層次聚類

9.3.1 層次聚類原理和步驟

9.3.2 層次聚類實例

9.3.3 層次聚特點

9.4 神經網絡聚類

9.4.1 神經網絡聚類原理和步驟

9.4.2 神經網絡聚類實例

9.4.3 神經網絡聚類特點

9.5 模糊C-均值(FCM)方法

9.5.1 FCM原理和步驟

8.5.2 FCM應用實例

9.5.3 FCM算法特點

9.6 高斯混閤聚類方法

9.6.1 高斯混閤聚類原理和步驟

9.6.2 高斯聚類實例

9.6.3 高斯聚類特點

9.7 類彆數的確定方法

9.7.1 原理

9.7.2 實例

9.8 應用實例:股票聚類分池

9.8.1 聚類目標和數據描述

9.8.2 實現過程

9.8.3 結果及分析

9.9 延伸閱讀

9.9.1 目前聚類分析研究的主要內容

9.9.2 SOM智能聚類算法

9.10 小結

參考文獻

第10章預測方法

10.1 預測方法概要

10.1.1 預測的概念

10.1.2 預測的基本原理

10.1.3 預測的準確度評價及影響因素

10.1.4 常用的預測方法

10.2 灰色預測

10.2.1 灰色預測原理

10.2.2 灰色預測的實例

10.3 馬爾科夫預測

10.3.1 馬爾科夫預測原理

10.3.2 馬爾科夫過程的特性

10.3.3 馬爾科夫預測實例

10.4 應用實例:大盤走勢預測

10.4.1 數據的選取及模型的建立

10.4.2 預測過程

10.4.3 預測結果與分析

10.5 小結

參考文獻

第11章診斷方法

11.1 離群點診斷概要

11.1.1 離群點診斷的定義

11.1.2 離群點診斷的作用

11.1.3 離群點診斷方法分類

11.2 基於統計的離群點診斷

11.2.1 理論基礎

11.2.2 應用實例

11.2.3 優點與缺點

11.3 基於距離的離群點診斷

11.3.1 理論基礎

11.3.2 應用實例

11.3.3 優點與缺點

11.4 基於密度的離群點挖掘

11.4.1 理論基礎

11.4.2 應用實例

11.4.3 優點與缺點

11.5 基於聚類的離群點挖掘

11.5.1 理論基礎

11.5.2 應用實例

11.5.3 優點與缺點

11.6 應用實例:離群點診斷股票買賣擇時

11.7 延伸閱讀:新興的離群點挖掘方法

11.7.1 基於關聯的離群點挖掘

11.7.2 基於粗糙集的離群點挖掘

11.7.3 基於人工神經網絡的離群點挖掘

11.8 小結

參考文獻

第12章時間序列方法

12.1 時間序列基本概念

12.1.1 時間序列的定義

12.1.2 時間序列的組成因素

12.1.3 時間序列的分類

12.1.4 時間序列分析方法

12.2 平穩時間序列分析方法

12.2.1 移動平均法

12.2.2 指數平滑法

12.3 季節指數預測法

12.3.1 季節性水平模型

12.3.2 季節性趨勢模型

12.4 時間序列模型

12.4.1 ARMA模型

12.4.2 ARIMA模型

12.4.3 ARCH模型

12.4.4 GARCH模型

12.5 應用實例:基於時間序列的股票預測

12.6 小結

參考文獻

第13章智能優化方法

13.1 智能優化方法概要

13.1.1 智能優化方法的概念

13.1.2 常用的智能優化方法

13.2 遺傳算法

13.2.1 遺傳算法的原理

13.2.2 遺傳算法的步驟

13.2.3 遺傳算法實例

13.2.4 遺傳算法的特點

13.3 模擬退火算法

13.3.1 模擬退火算法的原理

13.3.2 模擬退火算法步驟

13.3.3 模擬退火算法實例

13.3.4 模擬退火算法的特點

13.4 延伸閱讀:其它智能方法

13.4.1 粒子群算法

13.4.2 蟻群算法

13.5 小結

參考文獻

第三篇項目篇

第14章數據挖掘在銀行信用評分中的應用

14.1 概述

14.1.1 信用評分的概念

14.1.2 信用評分的意義

14.1.3 個人信用評分的影響因素

14.1.4 信用評分的方法

14.2 DM法信用評分實施過程

14.2.1 數據的準備

14.2.2 數據預處理

14.2.3 logistics模型

14.2.4 神經網絡模型

14.3 AHP信用評分方法

14.3.1 AHP法簡介

14.3.2 AHP法信用評分實例

14.4 延伸閱讀:企業信用評級

14.5 小結

第15章數據挖掘在量化選股中的應用

15.1 量化選股概述

15.1.1 量化選股定義

15.1.2 量化選股實現過程

15.1.3 量化選股的分類

15.2 數據的處理及探索

15.2.1 獲取股票日交易數據

15.2.2 計算指標

15.2.3 數據標準化

15.2.4 變量篩選

15.3 模型的建立及評估

15.3.1 股票預測的基本思想

15.3.2 模型的訓練及評價

15.4 組閤投資的優化

15.4.1 組閤投資的理論基礎

15.4.2 組閤投資的實現

15.5 量化選股的實施

15.6 小結

參考文獻

第16章數據挖掘在工業故障診斷中的應用

16.1 故障診斷概述

16.1.1 故障診斷的概念

16.1.2 故障診斷的方法

16.1.3 數據挖掘技術的故障診斷原理

16.2 DM設備故障診斷實例

16.2.1 加載數據

16.2.2 探索數據

16.2.3 設置訓練樣本的測試樣本

16.2.4 決策樹方法訓練模型

16.2.5 集成決策樹方法訓練模型

16.3 小結

第17章數據挖掘技術在礦業工程中的應用

17.1 概述

17.1.1 礦業工程的內容

17.1.2 礦業工程的數據及特徵

17.1.3 數據挖掘技術在礦業工程中的作用

17.2 礦業工程數據挖掘實例:提純預測

17.2.1 數據的集成

17.2.2 采用插值方式處理缺失值

17.2.3 設置建模數據及驗證方式

17.2.4 多元綫性迴歸模型

17.3 小結

參考文獻

第18章數據挖掘技術在生命科學中的應用

18.1 概述

18.1.1 生命科學的研究內容

18.1.2 生命科學中大數據的特徵

18.1.3 數據挖掘技術在生命科學中的作用

18.2 生命科學數據挖掘實例:基因錶達模式挖掘

18.2.1 加載數據

18.2.2 數據初探

18.2.3 數據清洗

18.2.4 層次聚類

18.2.5 K-means聚類

18.3 小結

參考文獻

第19章數據挖掘在社會科學研究中的應用

19.1 概述

19.1.1 社會學研究的內容

19.1.2 社會學研究的方法

19.1.3 數據挖掘在社會科學研究中的應用情況

19.2 社會科學挖掘實例:人類行為研究

19.2.1 加載數據

19.2.2 數據可視化

19.2.3 神經網絡

19.2.4 混淆矩陣評價分類器

19.2.5 ROC法評價分類器

19.2.6 變量優選

19.2.7 用優選的變量訓練網絡

19.3 小結

第四篇理念篇

第20章數據挖掘的藝術

20.1 確定數據挖掘目標的藝術

20.1.1 數據挖掘中的商業意識

20.1.2 商業意識到數據挖掘目標

20.1.3 商業意識的培養

20.2 應用技術的藝術

20.2.1 技術服務於業務的藝術

20.2.2 算法選擇的藝術

20.2.3 與機器配閤的藝術

20.3 數據挖掘中平衡的藝術

20.3.1 客觀與主觀的平衡

20.3.2 數據量的平衡

20.4 理性對待大數據時代

20.4.1 發展大數據應避免的誤區

20.4.2 正確認識大數據的價值

20.4.3 正麵大數據應用麵臨的挑戰

20.5 小結

參考文獻

第21章數據挖掘的項目管理和團隊管理

21.1 數據挖掘項目實施之道

21.1.1 確定可行的目標

21.1.2 遵守數據挖掘流程

21.1.3 項目的質量控製

21.1.4 項目效率

21.1.5 成本控製

21.1.6 數據挖掘過程改進

21.2 數據挖掘團隊的組建

21.2.1 數據挖掘項目團隊的構成

21.2.2 團隊負責人

21.3 數據挖掘團隊的管理

21.3.1 團隊管理的目標與策略

21.3.2 規範化的管理

21.4 優秀數據挖掘人纔的修煉

21.4.1 專業知識與技術

21.4.2 快速獲取知識的技能

21.4.3 提高錶達能力

21.4.4 提高管理能力

21.4.5 培養對數據挖掘的熱情

21.5 小結


前言/序言

序言

欣聞三位好友新書《大數據挖掘:係統方法與實例分析》即將齣版,榮幸能為該書撰寫序言。非常興奮終於見到不再僅僅是概念介紹而是實實在在介紹如何利用大數據的書籍瞭。所以非常願意為本書作序,希望讓更多的讀者能夠更具體的瞭解大數據,瞭解大數據的價值,並利用好大數據挖掘技術來讓大數據更好地服務我們的生産和生活,從而提升整個社會價值體係。

大數據是最近幾年興起的概念,雖然有被過分炒作之嫌,但我覺得是有客觀原因的。因為隨著信息技術的發展,各行業都已經有足夠的數據積纍,而且有的行業已經體驗到瞭數據的巨大能量。國內最直接體驗到大數據價值的當屬BAT(百度、阿裏、騰訊),在傳統行業,大數據也已經開始應用。比如,銀行利用大數據進行風險管理;電力公司利用大數據進行負載預測,從而分時定價,並可以根據預測結果優化電能的儲蓄和調配;礦業公司利用大數據進行精細加工,提高産品競爭力。總之,大數據已對各行業産生瞭十分明顯的影響,無論是銀行、證券、通訊、鐵路、航空,還是軍事、政治、工業、商業,基於大數據的決策已經成為現代社會各行業運行的基礎。但縱然這樣,各行業對大數據的利用還處於初期階段,然各行業已經存儲瞭海量的數據,如何更有效地利用這些數據已成為各行業一個大課題!

這本書齣版的太及時瞭!正當人們急切地希望知道如何利用大數據的時候,來瞭本實實在在的介紹如何利用大數據、如何挖掘大數據價值的真經——《大數據挖掘:係統方法與實例分析》。

瀏覽一下本書的目錄,頓時振奮起來!概念、技術、項目、經驗四位一體,層層遞進,太符閤我們的閱讀習慣瞭:概念篇讓大傢知道大數據的基本概念、分類和挖掘流程,這是基礎,所以首先介紹;技術篇係統地介紹瞭整個大數據挖掘理論體係裏的具體技術,包括數據預處理和六大類核心算法,即關聯、迴歸、分類、聚類、預測、診斷,每類算法中又詳細講解瞭常用算法的原理、實現步驟、應用實例,並且每個實例都有一個MATLAB實現實例,對於當代的讀者來說,這些實例太有價值瞭,可以直接藉鑒、研讀、修改、提升。技術學習的同時也可以深化對概念的理解,從而與概念篇的內容相得益彰;項目篇相當於大數據挖掘技術在各行業的具體應用,技術與應用融會貫通,既可啓發讀者在各行業如何應用大數據又可讓讀者知道如何去使用這些技術,並且這些項目本身都是各行業的經典,可以直接加以藉鑒、拓展和推廣;理念篇起到一個畫龍點睛的作用,介紹的都是需要時間和項目磨礪的經驗和心得,讓人心曠神怡,讓讀者在共鳴中感知大數據的價值和應用技術的藝術性。全書讀完,甚是暢快!

我本人所就職的九次方也從事大數據相關工作,我們公司已與不少地方政府聯閤成立閤資公司並建立各地的大數據中心,這些中心負責存儲各地政府、企業的重要數據,並對這些數據進行運營,從而實現數據的商業價值,隨著《國務院關於印發促進大數據發展行動綱要的通知》的齣颱,各級政府開始非常重視大數據這項工作,同時也說明我們的大數據資源已經日益豐富。對於如何利用這些數據的課題,本書正好也給我本人提供瞭思路,讓我知道各行業應該如何挖掘這些大數據,讓我堅信大數據未來的發展潛力,也給瞭我信心繼續在大數據這個領域揚帆遠航!

此時,突然想起一首古詩,拙改幾字,以作為本序的總結:

好書知時節,此時乃齣版。隨勢入眼簾,傳知細無聲!

張傑

九次方大數據執行副總裁

2015年12月於深圳


前  言

為什麼要寫這本書

大數據是當前最熱的概念之一,在“互聯網+”的背景下,大數據的開放、挖掘和應用已成為趨勢。大數據已經成為國傢科技競爭的前沿,以及産業競爭力和商業模式創新的源泉。聯閤國“數據脈動”計劃、美國“大數據”戰略、英國“數據權”運動、韓國大數據中心戰略等先後開啓瞭大數據創新戰略的大幕。國務院發布《關於促進大數據發展的行動綱要》,重點強調政府數據的互聯互通、共享和開放,並明確提齣瞭具體的時間錶。大數據作為目前全球科技創新最主要的戰場,有望迎來百花齊放的繁榮盛景。

一花獨放不是春,百花齊放春滿園,大數據生態係統也生機勃勃。繼貴陽大數據交易所成立以來,多個城市相繼成立自己的大數據中心,各種數據存儲中心和數據評估中心也如雨後春芽。然,還有相當多的朋友並不瞭解什麼是大數據。雖然市麵上已經有些書籍介紹瞭大數據的概念,但並沒有介紹如何去應用大數據,並且很多書都是國外的譯著,由於文化的差異,很多讀者反饋這些書過於囉嗦,看瞭半天也不知道到底講什麼內容。

現在大傢都知道大數據有用,但究竟如何去應用大數據卻很少有書介紹。大數據的落腳點還是要在於應用,如果不能從大數據中挖掘到有利於社會發展的知識,大數據也就沒有意義瞭。數據挖掘技術是從數據中挖掘有用知識的一門係統性的技術,剛好解決瞭數據利用的問題,所以數據挖掘與大數據便很自然地結閤在一起瞭,所以也就有瞭本書的構想。

本書特色

縱觀全書,可發現本書的特點鮮明,主要錶現在:

(1)方法務實,學以緻用。本書介紹的方法都是數據挖掘中的主流方法,都經過實踐的檢驗,具有較強的實踐性。對於每種方法,本書基本都給齣瞭完整、詳細的源代碼,這對於讀者來說,具有非常大的參考價值,很多程序可供讀者直接套用並加以學習。

(2)知識係統,易於理解。本書的知識體係應該是當前數據挖掘書籍中最全、最完善的,從基本概念與技術,到項目實踐,到理念的整體架構,使得概念、技術、實踐、經驗四位一體,自然形成整套大數據挖掘的整體體係。而對於具體的技術,也是脈絡清晰、循序漸進,不僅包含詳細的數據挖掘流程、數據準備方法、數據探索方法,還包含六大類數據挖掘主體方法、時序數據挖掘方法、智能優化方法。正因為有完整的知識體係,讀者讀起來纔有很好的完整感,從而更利於理解數據挖掘的知識體係,這對於學習是非常有幫助的。

(3)結構閤理,易於學習。在講解方法時,由淺入深,循序漸進,讓初學者知道入門的切入點,讓專業人員又有值得藉鑒的乾貨。這讓讀者在學習數據挖掘時有一個循序漸進的過程,使讀者在短時間內成為一位數據挖掘高手。

(4)案例實用,易於藉鑒。本書選擇的案例都是來自不同行業的經典案例,並且帶有數據和程序,所以很容易讓讀者對案例産生共鳴,同時可以利用案例的數據,進行模仿式的學習,所帶的程序也能提高讀者的學習效率,也可以直接藉鑒這些案例,並應用到自己的商業項目中。

(5)理論與實踐相得益彰。對於本書的每個方法,除瞭理論的講解,都配有一個典型的應用案例,讀者可以通過案例加深對理論的理解,同時理論也讓案例的應用更有信服力。技術的介紹都是以實現實例為目地,同時提供大量技術實現的源程序,方便讀者學習,注重實踐和應用,秉承筆者務實、切近讀者的寫作風格。

(6)內容獨特,趣味橫生,文字簡潔,易於閱讀。很多方法和內容是同類書籍所沒有的,這無疑增強瞭本書的新穎性和趣味性。另外,在本書編寫過程中,在保證描述精準的前提下,我們摒棄那些刻闆、索然無味的文字,讓文字也有活力,更易於閱讀。

如何閱讀本書

全書內容分四個部分,故成四篇。

第一部分(基礎篇)主要介紹一些基本概念和知識,包括大數據和數據挖掘的概念,數據挖掘的實現過程、主要內容等基礎知識。

第二部分(技術篇)是數據挖掘技術的主體部分,係統介紹瞭數據挖掘的主流技術,這個部分又分三個層次:

(1)數據挖掘前期的一些技術,包括數據的準備(收集數據、數據質量分析、數據預處理等)和數據的探索(衍生變量、數據可視化、樣本選擇、數據降維等)。

(2)數據挖掘的六大類核心方法,包括關聯規則、迴歸、分類、聚類、預測和診斷。對於每類方法,則詳細介紹瞭其包含的典型算法,包括基本思想、應用場景、算法步驟、MATLAB實現程序、應用案例。

(3)數據挖掘中特殊的實用技術,包含2章內容,一是關於時序數據挖掘的時間序列技術,二是關於優化的智能優化方法。這個層次也是數據技術體係中不可或缺的技術。時序數據是數據挖掘中的一類特殊數據,所以針對該類特殊的數據類型,又介紹瞭時間序列方法。另外,數據挖掘離不開優化,所以又以一章智能優化方法介紹瞭兩個比較常用的優化方法——遺傳算法和模擬退火算法。

第三部分是實踐篇,主要介紹數據挖掘技術在各行業的典型應用實例。所介紹的項目分彆來自銀行、證券、機械、礦業、生命科學和社會科學等行業和學科,已基本覆蓋數據挖掘技術應用的主流行業,通過這些項目的研學,讀者也可以瞭解各行業數據挖掘技術的應用領域和應用情況,培養對行業的敏感度。

第四部分是理念篇,是數據挖掘應用思想和經驗的整閤。本篇包含第20和21兩章,第20章側重數據挖掘項目實施過程中各種技術應用的經驗和對各方麵問題的權衡和拿捏,體現瞭技術應用中藝術性的一麵;第21章側重數據挖掘項目實施過程中的項目管理和團隊管理,以及對團隊中的個體如何成長的經驗介紹。

其中,前三篇為本書的重點內容,建議重點研讀,第四篇偏經驗,適閤結閤項目實踐反復閱讀、體會。

讀者對象

(1) 從事大數據挖掘的專業人士;

(2) 統計、數據挖掘、機器學習等學科的教師和學生;

(3) 從事數據挖掘、數據分析、數據管理工作的專業人士;

?(4) 需要用到數據挖掘技術的各領域的科研工作者;

?(5) 希望學習MATLAB的工程師或科研工作者,因為本書的代碼都是用MATLAB編寫的,所以對於希望學習MATLAB的讀者來說,也是一本很好的參考書;

?(6) 其他對大數據挖掘感興趣的人員。

緻讀者

專業人士

對於從事大數據挖掘的專業人士來說,大傢可以關注整個數據挖掘知識體係和數據挖掘的流程,因為本書的數據挖掘知識體係應該是當前數據挖掘書籍中體係最全、最完善的,另外數據挖掘流程也介紹得很詳細,具有很強的操作性。此外,書中的算法案例和項目案例,也算是本書的特色,值得藉鑒。

緻教師

本書係統地介紹瞭大數據挖掘的理論、技術、項目、工具和理念,可以作為統計、計算機、經管、數學、信科等專業本科或研究生的教材。書中的內容雖然係統,但也相對獨立,教師可以根據課程的學時安排和專業方嚮的側重,選擇閤適的內容進行課堂教學,其他內容則可以作為參考章節。授課部分,一般會包含第一篇、第二篇的章節,而如果課時較多,則可以增加其他章節中的一些項目案例的學習。

在進行課程備課的過程中,如果您需要書中的一些電子資料作為課件或授課支撐材料,可以直接給筆者發郵件(70263215@qq.com)說明您需要的材料和用途,筆者會根據具體情況,為您提供力所能及的幫助。

緻學生

作為21世紀的大學生,無論是什麼專業背景,都有必要學習大數據挖掘。在21世紀和未來,很多信息都以數據形式存在,學習並掌握數據挖掘技術,有助於我們從更深層次瞭解這個社會,也更有助於我們每人從事的工作。所以,無論現在是學習什麼專業,都建議要好好讀一下這本書或同類的書籍。相信,您一定會因為曾學習過大數據挖掘而倍感欣慰!

配套資源

(一)配套程序和數據

為瞭方便讀者的學習,本書將提供書中使用的程序和數據的下載,下載地址為:

http://www.ilovematlab.cn/thread-452656-1-1.html

如遇到下載問題,也可以直接發郵件與作者聯係:

70263215@qq.com

(二)配套教學課件

為瞭方便教師授課,我們也開發瞭本書配套的教學課件,如有需要,也可以與作者聯係。

勘誤和支持

由於時間倉促,加之作者水平有限,所以錯誤和疏漏之處在所難免。在此,誠懇地期待得到廣大讀者的批評指正。如果您有什麼建議也可以直接將你的建議發送至以上郵箱,期待能夠得到你們的真摯反饋。在技術之路上如能與大傢互勉共進,我們也倍感榮幸!對於書中齣現的問題,將在論壇的勘誤部分進行修正, 勘誤地址為:

http://www.ilovematlab.cn/thread-452657-1-1.html

緻謝

感謝MathWorks官方文檔,在寫作期間提供給我最全麵、最深入、最準確的參考材料,強大的官方文檔支持也是其他資料所無法企及的,同時感謝MATLAB中文論壇為本書提供的交流討論專區。

感謝機械工業齣版社華章公司的首席策劃楊福川和編輯高婧雅,在近三年的時間中始終支持我們的寫作,你們的鼓勵和幫助引導我們順利完成全部書稿。

特彆感謝好友張傑在百忙之中指導本書的編寫並為本書寫序!在本書的編寫過程中,中科院金屬所的王愷博士,MathWorks的陳建平、董淑成、陳小挺等好友和同事對本書書稿進行瞭校對並給齣修改建議,在此嚮他們錶示感謝!



作者

2015年10月




用户评价

评分

在京东的评价一向是应付字数,这次是第一次认真写评论,因为它还可以

评分

书不错,认真读一下还是有很大收获的

评分

不错不羡慕不错?好的

评分

书的质量还行

评分

还行还行海还行还行阿里斯顿见覅时代峰峻

评分

速度很快的,很快收到了,还没有看呢

评分

想买很久了,只是买了以后才发现写的没有想像中那么好

评分

挺好的书,值得看看,学习提升

评分

为了几个京豆还得评论超过十个字。。。。

相关图书

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 tushu.tinynews.org All Rights Reserved. 求知書站 版权所有