內容簡介
《Python數據分析與挖掘實戰》:
10餘位數據挖掘領域專傢和科研人員,10餘年大數據挖掘谘詢與實施經驗結晶。從數據挖掘的應用齣發,以電力、航空、醫療、互聯網、生産製造以及公共服務等行業真實案例為主綫,深入淺齣介紹Python數據挖掘建模過程,實踐性極強。
張良均、王路、譚立雲、蘇劍林、雲偉標等著的《Python數據分析與挖掘實戰》共15章,分兩個部分:基礎篇、實戰篇。基礎篇介紹瞭數據挖掘的基本原理,實戰篇介紹瞭一個個真實案例,通過對案例深入淺齣的剖析,使讀者在不知不覺中通過案例實踐獲得數據挖掘項目經驗,同時快速領悟看似難懂的數據挖掘理論。讀者在閱讀過程中,應充分利用隨書配套的案例建模數據,藉助相關的數據挖掘建模工具,通過上機實驗,以快速理解相關知識與理論。
基礎篇(第1~5章),第1章的主要內容是數據挖掘概述;第2章對《Python數據分析與挖掘實戰》所用到的數據挖掘建模工具Python語言進行瞭簡明扼要的說明;第3章、第4章、第5章對數據挖掘的建模過程,包括數據探索、數據預處理及挖掘建模的常用算法與原理進行瞭介紹。
實戰篇(第6~15章),重點對數據挖掘技術在電力、航空、醫療、互聯網、生産製造以及公共服務等行業的應用進行瞭分析。在案例結構組織上,《Python數據分析與挖掘實戰》是按照先介紹案例背景與挖掘目標,再闡述分析方法與過程,最後完成模型構建的順序進行的,在建模過程的關鍵環節,穿插程序實現代碼。最後通過上機實踐,加深讀者對數據挖掘技術在案例應用中的理解。
《Hadoop大數據分析與挖掘實戰》:
10多位技術專傢結閤自己10多年的經驗,以電信、航空、醫療等多個行業的實戰案例為主綫,深入淺齣地講解瞭如何基於Hado叩架構技術進行大數據挖掘建模、數據分析和二次開發。
張良均、樊哲、趙雲龍、李成華、劉麗君等《Hadoop大數據分析與挖掘實戰》編著共16章,分三個部分:基礎篇、實戰篇、高級篇。
基礎篇(第l~6章),第1章的主要內容是數據挖掘概述、大數據餐飲行業應用;第2章針對大數據理論知識進行基礎講解,簡明扼要地對Hadoop安裝、原理等做瞭介紹;第3章介紹瞭大數據倉庫Hive的安裝、原理等內容;第4章介紹瞭大數據數據庫HBase的安裝、原理等內容;第5章介紹瞭幾種大數據挖掘建模平颱,同時重點介紹瞭《Hadoop大數據分析與挖掘實戰》使用的開源TipDM—HB大數據挖掘平颱;第6章對數據挖掘的建模過程,各種挖掘建模的常用算法與原理及其在大數據挖掘算法庫Mahout的實現原理進行瞭介紹。
實戰篇(第7~14章),重點對大數據挖掘技術在法律谘詢、電子商務、航空、移動通信、互聯網、生産製造以及公共服務等行業的應用進行瞭分析。在案例結構組織上,《Hadoop大數據分析與挖掘實戰》是按照先介紹案例背景與挖掘目標,再闡述大數據時代針對大數據的分析方法與過程,最後完成模型構建的順序進行,對建模過程等關鍵環節進行瞭詳細的分析。最後通過上機實踐,加深對大數據挖掘技術以及分析流程的認識。
高級篇(第15~16章),介紹瞭基於Hadoop大數據開發的相關技術以及開發步驟,同時使用實例來展示這些步驟,使讀者可以自己動手實踐,親自體會開發的樂趣;同時,還介紹瞭基於TipDM—HB大數據挖掘平颱的二次開發實例,藉助TipDM—HB大數據挖掘平颱二次開發工具,可以更加怏捷、高效地完成相關大數據應用的二次開發,降低開發難度,使讀者更方便地體會到大數據分析與挖掘的強大魅力。
圖書配套提供原始樣本數據文件、相關代碼及教學用PPT等。
內頁插圖
目錄
《Python數據分析與挖掘實戰》:
前言
基礎篇
第1章 數據挖掘基礎
1.1 某知名連鎖餐飲企業的睏惑
1.2 從餐飲服務到數據挖掘
1.3 數據挖掘的基本任務
1.4 數據挖掘建模過程
1.4.1 定義挖掘目標
1.4.2 數據取樣
1.4.3 數據探索
1.4.4 數據預處理
1.4.5 挖掘建模
1.4.6 模型評價
1.5 常用的數據挖掘建模工具
1.6 小結
第2章 Python數據分析簡介
2.1 搭建Python開發平颱
2.1.1 所要考慮的問題
2.1.2 基礎平颱的搭建
2.2 Python使用入門
2.2.1 運行方式
2.2.2 基本命令
2.2.3 數據結構
2.2.4 庫的導入與添加
2.3 Python數據分析工具
2.3.1 Numpy
2.3.2 Scipy
2.3.3 Matplotlib
2.3.4 Pandas
2.3.5 StatsModels
2.3.6 Scikit-Learn
2.3.7 Keras
2.3.8 Gensim
2.4 配套資源使用設置
2.5 小結
第3章 數據探索
3.1 數據質量分析
3.1.1 缺失值分析
3.1.2 異常值分析
3.1.3 一緻性分析
3.2 數據特徵分析
3.2.1 分布分析
3.2.2 對比分析
3.2.3 統計量分析
3.2.4 周期性分析
3.2.5 貢獻度分析
3.2.6 相關性分析
3.3 Python主要數據探索函數
3.3.1 基本統計特徵函數
3.3.2 拓展統計特徵函數
3.3.3 統計作圖函數
3.4 小結
第4章 數據預處理
4.1 數據清洗
4.1.1 缺失值處理
4.1.2 異常值處理
4.2 數據集成
4.2.1 實體識彆
4.2.2 冗餘屬性識彆
4.3 數據變換
4.3.1 簡單函數變換
4.3.2 規範化
4.3.3 連續屬性離散化
4.3.4 屬性構造
4.3.5 小波變換
4.4 數據規約
4.4.1 屬性規約
4.4.2 數值規約
4.5 Python主要數據預處理函數
4.6 小結
第5章 挖掘建模
5.1 分類與預測
5.1.1 實現過程
5.1.2 常用的分類與預測算法
5.1.3 迴歸分析
5.1.4 決策樹
5.1.5 人工神經網絡
5.1.6 分類與預測算法評價
5.1.7 Python分類預測模型特點
5.2 聚類分析
5.2.1 常用聚類分析算法
5.2.2 K-Means聚類算法
5.2.3 聚類分析算法評價
5.2.4 Python主要聚類分析算法
5.3 關聯規則
5.3.1 常用關聯規則算法
5.3.2 Apriori算法
5.4 時序模式
5.4.1 時間序列算法
5.4.2 時間序列的預處理
5.4.3 平穩時間序列分析
5.4.4 非平穩時間序列分析
5.4.5 Python主要時序模式算法
5.5 離群點檢測
5.5.1 離群點檢測方法
5.5.2 基於模型的離群點檢測方法
5.5.3 基於聚類的離群點檢測方法
5.6 小結
實戰篇
第6章 電力竊漏電用戶自動識彆
6.1 背景與挖掘目標
6.2 分析方法與過程
6.2.1 數據抽取
6.2.2 數據探索分析
6.2.3 數據預處理
6.2.4 構建專傢樣本
6.2.5 模型構建
6.3 上機實驗
6.4 拓展思考
6.5 小結
第7章 航空公司客戶價值分析
7.1 背景與挖掘目標
7.2 分析方法與過程
7.2.1 數據抽取
7.2.2 數據探索分析
7.2.3 數據預處理
7.2.4 模型構建
7.3 上機實驗
7.4 拓展思考
7.5 小結
第8章 中醫證型關聯規則挖掘
8.1 背景與挖掘目標
8.2 分析方法與過程
8.2.1 數據獲取
8.2.2 數據預處理
8.2.3 模型構建
8.3 上機實驗
8.4 拓展思考
8.5 小結
第9章 基於水色圖像的水質評價
9.1 背景與挖掘目標
9.2 分析方法與過程
9.2.1 數據預處理
9.2.2 模型構建
9.2.3 水質評價
9.3 上機實驗
9.4 拓展思考
9.5 小結
第10章 傢用電器用戶行為分析與事件識彆
10.1 背景與挖掘目標
10.2 分析方法與過程
10.2.1 數據抽取
10.2.2 數據探索分析
10.2.3 數據預處理
10.2.4 模型構建
10.2.5 模型檢驗
10.3 上機實驗
10.4 拓展思考
10.5 小結
第11章 應用係統負載分析與磁盤容量預測
11.1 背景與挖掘目標
11.2 分析方法與過程
11.2.1 數據抽取
11.2.2 數據探索分析
11.2.3 數據預處理
11.2.4 模型構建
11.3 上機實驗
11.4 拓展思考
11.5 小結
第12章 電子商務網站用戶行為分析及服務推薦
12.1 背景與挖掘目標
12.2 分析方法與過程
12.2.1 數據抽取
12.2.2 數據探索分析
12.2.3 數據預處理
12.2.4 模型構建
12.3 上機實驗
12.4 拓展思考
12.5 小結
第13章 財政收入影響因素分析及預測模型
13.1 背景與挖掘目標
13.2 分析方法與過程
13.2.1 灰色預測與神經網絡的組閤模型
13.2.2 數據探索分析
13.2.3 模型構建
13.3 上機實驗
13.4 拓展思考
13.5 小結
第14章 基於基站定位數據的商圈分析
14.1 背景與挖掘目標
14.2 分析方法與過程
14.2.1 數據抽取
14.2.2 數據探索分析
14.2.3 數據預處理
14.2.4 模型構建
14.3 上機實驗
14.4 拓展思考
14.5 小結
第15章 電商産品評論數據情感分析
15.1 背景與挖掘目標
15.2 分析方法與過程
15.2.1 評論數據采集
15.2.2 評論預處理
15.2.3 文本評論分詞
15.2.4 模型構建
15.3 上機實驗
15.4 拓展思考
15.5 小結
參考文獻
《Hadoop大數據分析與挖掘實戰》:
前言
基礎篇
第1章 數據挖掘基礎
1.1 某知名連鎖餐飲企業的睏惑
1.2 從餐飲服務到數據挖掘
1.3 數據挖掘的基本任務
1.4 數據挖掘建模過程
1.4.1 定義挖掘目標
1.4.2 數據取樣
1.4.3 數據探索
1.4.4 數據預處理
1.4.5 挖掘建模
1.4.6 模型評價
1.5 餐飲服務中的大數據應用
1.6 小結
第2章 Hadoop基礎
2.1 概述
2.1.1 Hadoop簡介
2.1.2 Hadoop生態係統
2.2 安裝與配置
2.3 Hadoop原理
2.3.1 Hadoop HDFS原理
2.3.2 Hadoop MapReduce原理
2.3.3 Hadoop YARN原理
2.4 動手實踐
2.5 小結
第3章 Hadoop生態係統:
3.1 概述
3.1.1 Hive簡介
3.1.2 Hive安裝與配置
3.2 Hive原理
3.2.1 Hive架構
3.2.2 Hive的數據模型
3.3 動手實踐
3.4 小結
第4章 Hadoop生態係統:
4.1 概述
4.1.1 HBase簡介
4.1.2 HBase安裝與配置
4.2 HBase原理
4.2.1 HBase架構
4.2.2 HBase與
4.2.3 HBase訪問接口
4.2.4 HBase數據模型
4.3 動手實踐
4.4 小結
第5章 大數據挖掘建模平颱
5.1 常用的大數據平颱
5.2 TipDM-HB大數據挖掘建模平颱
5.2.1 TipDM-HB大數據挖掘建模平颱的功能
5.2.2 TipDM-HB大數據挖掘建模平颱操作流程及實例
5.2.3 TipDM-HB大數據挖掘建模平颱的特點
5.3 小結
第6章 挖掘建模
6.1 分類與預測
6.1.1 實現過程
6.1.2 常用的分類與預測算法
6.1.3 決策樹
6.1.4 Mahout中Random Forests算法的實現原理
6.1.5 動手實踐
6.2 聚類分析
6.2.1 常用聚類分析算法
6.2.2 K-Means聚類算法
6.2.3 Mahout中K-Means算法的實現原理
6.2.4 動手實踐
6.3 關聯規則
6.3.1 常用的關聯規則算法
6.3.2 FP-Growth關聯規則算法
6.3.3 Mahout中Parallel FrequentPattern Mining算法的實現原理
6.3.4 動手實踐
6.4 協同過濾
6.4.1 常用的協同過濾算法
6.4.2 基於項目的協同過濾算法簡介
6.4.3 Mahout中ItembasedCollaborative Filtering算法的實現原理
6.4.4 動手實踐
6.5 小結
實戰篇
第7章 法律谘詢數據分析與服務推薦
7.1 背景與挖掘目標
7.2 分析方法與過程
7.2.1 數據抽取
7.2.2 數據探索分析
7.2.3 數據預處理
7.2.4 模型構建
7.3 上機實驗
7.4 拓展思考
7.5 小結
第8章 電商産品評論數據情感分析
8.1 背景與挖掘目標
8.2 分析方法與過程
8.2.1 評論數據采集
8.2.2 評論預處理
8.2.3 文本評論分詞
8.2.4 構建模型
8.3 上機實驗
8.4 拓展思考
8.5 小結
第9章 航空公司客戶價值分析
9.1 背景與挖掘目標
9.2 分析方法與過程
9.2.1 數據抽取
9.2.2 數據探索分析
9.2.3 數據預處理
9.2.4 模型構建
9.3 上機實驗
9.4 拓展思考
9.5 小結
第10章 基站定位數據商圈分析
10.1 背景與挖掘目標
10.2 分析方法與過程
10.2.1 數據抽取
10.2.2 數據探索分析
10.2.3 數據預處理
10.2.4 構建模型
10.3 上機實驗
10.4 拓展思考
10.5 小結
第11章 互聯網電影智能推薦
11.1 背景與挖掘目標
11.2 分析方法與過程
11.2.1 數據抽取
11.2.2 構建模型
11.3 上機實驗
11.4 拓展思考
11.5 小結
第12章 傢電故障備件儲備預測分析
12.1 背景與挖掘目標
12.2 分析方法與過程
12.2.1 數據探索分析
12.2.2 數據預處理
12.2.3 構建模型
12.3 上機實驗
12.4 拓展思考
12.5 小結
第13章 市供水混凝投藥量控製分析
13.1 背景與挖掘目標
13.2 分析方法與過程
13.2.1 數據抽取
13.2.2 數據探索分析
13.2.3 數據預處理
13.2.4 構建模型
13.3 上機實驗
13.4 拓展思考
13.5 小結
第14章 基於圖像處理的車輛壓雙黃綫檢測
14.1 背景與挖掘目標
14.2 分析方法與過程
14.2.1 數據抽取
14.2.2 數據探索分析
14.2.3 數據預處理
14.2.4 構建模型
14.3 上機實驗
14.4 拓展思考
14.5 小結
高級篇
第15章 基於Mahout的大數據挖掘開發
15.1 概述
15.2 環境配置
15.3 基於Mahout算法接口的二次開發
15.3.1 Mahout算法實例
15.3.2 Mahout算法接口的二次開發示例
15.4 小結
第16章 基於TipDM-HB的數據挖掘二次開發
16.1 概述
16.1.1 TipDM-HB大數據挖掘建模平颱服務接口
16.1.2 Apache CXF簡介
16.2 TipDM-HB大數據挖掘建模平颱服務開發實例
16.2.1 環境配置
16.2.2 開發實例
16.3 小結
參考資料
前言/序言
為什麼要寫這本書
Linkedln對全球超過3.3億用戶的工作經曆和技能進行分析後得齣,目前最炙手可熱的25項技能中,數據挖掘排名第一。那麼數據挖掘是什麼?
數據挖掘是從大量數據(包括文本)中挖掘齣隱含的、先前未知的、對決策有潛在價值的關係、模式和趨勢,並用這些知識和規則建立用於決策支持的模型,提供預測性決策支持的方法、工具和過程。數據挖掘有助於企業發現業務的趨勢,揭示已知的事實,預測未知的結果,因此“數據挖掘”已成為企業保持競爭力的必要方法。
但跟國外相比,由於我國信息化程度不太高,企業內部信息不完整,零售業、銀行、保險和證券等對數據挖掘的應用並不理想。但隨著市場競爭的加劇,各行業對數據挖掘技術的需求越來越強烈,可以預計,未來幾年各行業的數據分析應用一定會從傳統的統計分析發展到大規模數據挖掘應用。在大數據時代,數據過剩、人纔短缺,數據挖掘專業人纔的培養又需要專業知識和職業經驗積纍。本書注重數據挖掘理論與項目案例實踐相結閤,可以讓讀者獲得真實的數據挖掘學習與實踐環境,更快、更好地學習數據挖掘知識與積纍職業經驗。
到剄每一個行業和業務職能領域,逐漸成為重要的生産要素,人們對於海量數據的運用預示著新一輪生産率增長和消費者盈餘浪潮的到來。大數據分析技術將幫助企業用戶在閤理時間內攫取、管理、處理、整理海量數據,為企業經營決策提供幫助。大數據分析作為數據存儲和
大數據技術叢書:Python/Hadoop數據分析與挖掘實戰(套裝共2冊) 下載 mobi epub pdf txt 電子書