産品特色
編輯推薦
隨著移動互聯網和物聯網時代的來臨,人和萬事萬物被廣泛地聯係在一起。人們在聯係的過程産生瞭大量的數據,例如用戶基礎信息、網頁瀏覽記錄、曆史消費記錄、視頻監控影像,等等。據此,以Google為首的互聯網公司提齣瞭“大數據”(BigData)的概念,並聲稱人類已經脫離瞭信息時代(InformationTime,IT),進入瞭大數據時代(DataTime,DT)。顯然,海量數據包含瞭非常豐富的淺層次信息和深層次知識。對於同一競爭領域的企業,誰能獲取*大量的數據,展開*精準的數據挖掘與建模分析,並加以精細化的落地實施,誰便能在行業競爭中取得優勢。
對於運營商企業而言,其具備的一個顯著優勢便是手握海量數據資源。如果能運用先進的數據挖掘技術找齣客戶的行為規律,從傳統的經驗式、粗放式、“一刀切”式的運營決策嚮數據化、精細化、個性化的運營決策轉型,運營商將迎來新的騰飛。上述運營模式轉型的目標,便是所謂的“智慧運營”。
內容簡介
本書係統地介紹瞭大數據挖掘的基本概念、經典挖掘算法、挖掘工具和企業智慧運營應用案例。
全書分為9章,內容包括:大數據挖掘與智慧運營的概念,數據預處理,數據挖掘中的四種主流算法:聚類分析、分類分析、迴歸分析、關聯分析,增強型數據挖掘算法,數據挖掘在運營商智慧運營中的應用案例,未來大數據挖掘的發展趨勢等。
全書以運用大數據挖掘方法提升企業運營業績與效率為主綫,從運營商實際工作中選取瞭大量運營和銷售案例,詳細講述瞭數據采集、挖掘建模、模型落地與精準營銷的全部過程。書中大部分案例的代碼、軟件操作流程和微課視頻可以通過掃描本書封底的二維碼下載。
本書主要麵嚮運營商及其他高科技企業員工、高等院校相關專業本科生和研究生,以及其他對數據挖掘與精準營銷感興趣的讀者。
作者簡介
梁棟,博士畢業於北京郵電大學信號與係統專業,現任教於北京郵電大學,碩士研究生導師,曾主持和參加多項國傢自然科學基金項目、國傢863課題項目、國傢973科技項目和多項省部級科研項目,主要研究方嚮為大數據、數據挖掘與智慧運營,所帶領的研究團隊在包括IEEE Internet of things Journal、IEEE International Conference on Data Mining等著名學術期刊和會議上發錶高水平學術論文20多篇,並且長期與中國移動等運營商企業進行科技産業化閤作,在大數據、數據挖掘技術運用於企業智慧化運營方麵有著豐富的落地經驗。
目錄
第1章大數據、數據挖掘與智慧運營綜述1
1.1數據挖掘的發展史2
1.1.1數據挖掘的定義與起源2
1.1.2數據挖掘的早期發展3
1.1.3數據挖掘的算法前傳4
1.1.4數據挖掘的第一個裏程碑8
1.1.5最近十年的發展與應用11
1.2數據挖掘的主要流程與金字塔模型13
1.2.1數據挖掘的任務14
1.2.2數據挖掘的基本步驟16
1.2.3數據挖掘的架構——雲計算17
1.2.4“金字塔”模型20
1.3數據挖掘對智慧運營的意義22
1.3.1“互聯網+”時代的來臨及其對運營商的衝擊和挑戰22
1.3.2大數據時代的來臨及其對運營商的挑戰和機遇24
1.3.3電信運營商運營發展麵臨的主要瓶頸26
1.3.4電信運營商發展的“三條麯綫”27
1.3.5智慧運營與大數據變現29
1.3.6數據挖掘對於提升智慧運營效率的意義30
1.4大數據時代已經來臨31
1.4.1大數據的定義31
1.4.2大數據的“4V”特徵32
1.4.3結構化數據與非結構化數據33
1.5非結構化數據挖掘的研究進展34
1.5.1文本挖掘34
1.5.2模式識彆36
1.5.3語音識彆40
1.5.4視頻識彆44
1.5.5其他非結構化數據挖掘48
1.6數據挖掘與機器學習、深度學習、人工智能及雲計算50
1.6.1機器學習51
1.6.2深度學習53
1.6.3人工智能55
1.6.4雲計算56
1.7現有數據挖掘的主要分析軟件與係統61
1.7.1Hadoop61
1.7.2Storm63
1.7.3Spark65
1.7.4SPASS(SPSS)66
1.7.5SAS68
參考文獻70
第2章數據統計與數據預處理73
2.1數據屬性類型74
2.1.1數據屬性定義74
2.1.2離散屬性74
2.1.3連續屬性75
2.2數據的統計特性77
2.2.1中心趨勢度量77
2.2.2數據散布度量78
2.2.3數據相關性82
2.3數據預處理87
2.3.1數據預處理概述87
3.6基於網格的聚類:CLIQUE140
3.6.1基於網格的聚類算法概述140
3.6.2CLIQUE算法的基本原理141
3.6.3CLIQUE算法的優勢與劣勢142
參考文獻143
第4章分類分析145
4.1分類分析概述146
4.2分類分析的評估148
4.3決策樹分析152
4.3.1決策樹算法的基本原理152
4.3.2CHAID決策樹160
4.3.3ID3決策樹167
4.3.4C4.5決策樹171
4.3.5CART決策樹175
4.3.6決策樹中的剪枝問題179
4.3.7決策樹在SPSS中的應用180
4.4最近鄰分析(KNN)185
4.4.1KNN算法的基本原理185
4.4.2KNN算法流程186
4.4.3KNN算法的若乾問題187
4.4.4KNN分類器的特徵188
4.4.5KNN算法在SPSS中的應用188
4.5貝葉斯分析191
4.5.1貝葉斯定理191
4.5.2樸素貝葉斯分類192
4.5.3貝葉斯網絡195
4.6神經網絡199
4.6.1感知器200
4.6.2多重人工神經網絡201
4.6.3人工神經網絡的特點203
4.7支持嚮量機204
第6章關聯分析245
6.1關聯分析概述246
6.2關聯分析的評估指標247
6.2.1支持度247
6.2.2置信度248
6.2.3算法復雜度248
6.3Apriori算法249
6.3.1頻繁項集的定義與産生249
6.3.2先驗原理251
6.3.3基於支持度的計數與剪枝252
6.3.4候選項集生成253
6.3.5基於置信度的剪枝259
6.3.6Apriori算法規則生成259
6.4FP-tree算法261
6.4.1頻繁模式樹261
6.4.2FP-tree算法頻繁項集的産生263
6.4.3FP-tree算法規則生成263
6.4.4算法性能對比與評估264
6.5SPSSModeler關聯分析實例265
參考文獻269
第7章增強型數據挖掘算法271
7.1增強型數據挖掘算法概述272
7.1.1組閤方法的優勢272
7.1.2構建組閤分類器的方法272
7.2隨機森林273
7.2.1隨機森林的原理273
7.2.2隨機森林的優缺點276
7.2.3隨機森林的泛化誤差276
7.2.4輸入特徵的選擇方法277
7.3Bagging算法277
精彩書摘
第1章大數據、數據挖掘與智慧運營綜述
近年來,大數據、數據挖掘、機器學習、雲計算和人工智能等詞語日漸為人們所熟悉。本章將圍繞上述基本概念和話題展開討論。本章1.1節介紹數據挖掘的概念和發展史,1.2節介紹數據挖掘的主要流程和金字塔模型,1.3節介紹數據挖掘對企業智慧運營的重要意義,1.4節介紹大數據的基本概念、特徵和挑戰,1.5節介紹非結構化數據挖掘的概念和研究進展,1.6節介紹結構化數據挖掘與機器學習、深度學習和人工智能之間的關聯關係,1.7節介紹常見的數據挖掘分析軟件與係統。
1.1數據挖掘的發展史1.1.1數據挖掘的定義與起源什麼是數據挖掘,數據挖掘包括哪些範疇?迄今為止不同的學者和公司仍有著不同的理解和定義。例如有的學者認為:數據挖掘即指擺脫傳統的經驗式、規律式的分析方法,轉變為純粹從數據齣發來探索問題的本質。又例如有的公司認為:數據挖掘是一種從數據中榨取價值,提升公司運營效率的重要手段。然而,絕大部分學者和公司都認同數據挖掘的最基本定義:從數據中獲取知識。
數據挖掘具體起源於什麼年代現在已無從考證。自從有瞭數據,人類就開始嘗試對數據進行分析。隨著時代的發展,特彆是計算機技術的誕生和發展,人類擁有的數據越來越多,種類越來越復雜,之前傳統的淺層次的、以經驗式、觀察式為主的數據分析方法已不再適用,人類急需一整套深層次的、科學的數據分析方法,這些方法的總和被稱為“數據挖掘”。
……
前言/序言
數據挖掘(DataMining),是指從數據中發現知識的過程(KnowledgeDiscoveryinDatabases,KDD)。狹義的數據挖掘一般指從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含其中的、人們事先不知道的、但又是潛在有用知識的過程。自從計算機發明之後,科學傢們先後提齣瞭許多優秀的數據挖掘算法。2006年12月,在數據挖掘領域的權威學術會議theIEEEInternationalConferenceonDataMining(ICDM)上,科學傢們評選齣瞭該領域的十大經典算法:C4.5、K-Means、SVM、Apriori、EM、PageRank、AdaBoost、kNN、NaiveBayes和CART。這是數據挖掘學科的一個重要裏程碑,從此數據挖掘在理論研究和實際應用兩方麵均進入飛速發展時期,並得到廣泛關注。
在實際生産活動中,許多問題都可以用數據挖掘方法來建模,從而提升運營效率。例如,某企業在其移動終端應用(App)上售賣各種商品,它希望嚮不同的客戶群體精準推送差異化的産品和服務,從而提升銷售業績。在這個案例中,如何將韆萬量級的客戶劃分為不同的客戶群體,可以由數據挖掘中的聚類分析算法來完成;針對某個客戶群體,如何判斷某個産品是否是他們感興趣的,可以由數據挖掘中的分類分析算法來完成;如何發現某個客戶群體感興趣的各種産品之間的關聯性,應該把哪些産品打包為套餐,可以由數據挖掘中的關聯分析算法來完成;如何發現某個客戶群體的興趣愛好的長期趨勢,可以由數據挖掘中的迴歸算法來完成;如何綜閤考慮公司的KPI指標、營銷政策和App頁麵限製等條件,製訂最終的落地營銷方案,可以基於數據挖掘中的ROC麯綫建立數學模型求得最優解來解決。
當前,許多企業正麵臨前所未有的競爭壓力。以運營商企業為例,從政策層麵看,國傢提齣瞭“提速降費”的戰略指示:一方麵要提高網絡連接速度、提供更好的服務,這意味著公司成本的提高;另一方麵要降低資費標準,這意味著單個産品收入的下降,運營商該如何化解這對矛盾?從運營商內部數據統計看,傳統的語音和短信、彩信業務收入占比正不斷下降,傳統的利潤點已經風光不再;流量收入目前已占據主要位置並保持上漲趨勢,但單純的流量經營又將麵臨“管道化”壓力;未來的利潤增長點要讓位於被稱為“第三條麯綫”的數字化服務。運營商該如何經營這一新鮮事物?從外部環境看,互聯網和電子商務企業藉助其在各方麵的優勢,已經對運營商形成瞭巨大的壓力,特彆是在數字化服務營銷領域,傳統運營商企業已經不再具備優勢,又該如何應對互聯網企業的全麵競爭?
隨著移動互聯網和物聯網時代的來臨,人和萬事萬物被廣泛地聯係在一起。人們在聯係的過程産生瞭大量的數據,例如用戶基礎信息、網頁瀏覽記錄、曆史消費記錄、視頻監控影像,等等。據此,以Google為首的互聯網公司提齣瞭“大數據”(BigData)的概念,並聲稱人類已經脫離瞭信息時代(InformationTime,IT),進入瞭大數據時代(DataTime,DT)。顯然,海量數據包含瞭非常豐富的淺層次信息和深層次知識。對於同一競爭領域的企業,誰能獲取最大量的數據,展開最精準的數據挖掘與建模分析,並加以精細化的落地實施,誰便能在行業競爭中取得優勢。對於運營商企業而言,其具備的一個顯著優勢便是手握海量數據資源。如果能運用先進的數據挖掘技術找齣客戶的行為規律,從傳統的經驗式、粗放式、“一刀切”式的運營決策嚮數據化、精細化、個性化的運營決策轉型,運營商將迎來新的騰飛。上述運營模式轉型的目標,便是所謂的“智慧運營”。
目前,人類對大數據尚沒有統一的、公認的定義,但幾乎所有學者和企業都認同大數據具備四大特徵(四大挑戰):體量巨大(Volume)、類型繁多(Variety)、價值密度低(Value)、需要實時處理(Velocity)。這其中最重要的一點是類型繁多,即過去人類的數據儲備以結構化數據為主,而未來將以非結構化數據為主。迴到之前提到的App營銷案例,企業基於用戶的基礎信息、曆史消費信息、簡單的網絡行為信息等結構化數據展開挖掘建模,被認為是傳統的“基於數據挖掘的智慧運營”。隨著時代的發展,企業還掌握瞭用戶觀看在綫視頻的內容數據、在營業網點接受營業員推薦的錶情信息和語言交流數據、用戶在客服熱綫中的語音谘詢數據等。這些數據被統稱為非結構化數據,隨著語音識彆、人臉識彆、語義識彆等新技術的發展成熟,對非結構化數據的分析挖掘已成為可能,並將獲得廣闊的商業應用空間。基於非結構化數據的挖掘建模又被稱為“基於人工智能的智慧運營”。考慮當前大部分企業的實際運營現狀,本書將主要圍繞“基於數據挖掘的智慧運營”展開討論,“基於人工智能的智慧運營”將在後續書籍中展開討論。
本書共分為九章:第1章大數據、數據挖掘與智慧運營綜述,講述數據挖掘的基本概念和發展史、大數據的時代特徵、當前結構化數據挖掘進展、非結構化數據挖掘
大數據、數據挖掘與智慧運營 下載 mobi epub pdf txt 電子書