发表于2024-11-22
大數據分析師權威教程 機器學習、大數據分析和可視化 pdf epub mobi txt 電子書 下載 2024
大數據是當今科技行業中非常受歡迎的流行語之一。全世界的企業都已經意識到瞭可用的大量數據的價值,並盡努力來管理和分析數據、發揮其作用,以建立戰略和發展競爭優勢。與此同時,這項技術的齣現,導緻瞭各種新的和增強的工作角色的演變。
《大數據分析師**教程》係列的目標是培養新一代的國際化全能大數據分析師,使他們精通數據挖掘、數據操縱和數據分析方麵的基本及高級分析技術,熟悉大數據平颱以及業務和行業需求,能夠高效地參與大數據分析項目。
本係列旨在使參與者熟悉整個數據分析生命期,通過眾多案例分析,使參與者熟悉大數據在不同相關行業中的角色和用途,提供基本及高級大數據分析以及可視化技術的完整技術訣竅,幫助他們分析數據、創建統計模型和提供業務洞察力。
本係列共兩捲,第1捲“大數據分析與預測建模”包含4個模塊,涉及大數據入門,分析和R編程入門,使用R語言進行數據分析,用R語言進行高級分析;第2捲“機器學習、大數據分析和可視化”包含3個模塊,涉及機器學習的概念,社交媒體、移動分析和可視化,大數據分析的行業應用。
“大數據”已連年入選IT領域的熱點話題,人們每天都會通過互聯網、移動設備等生産大量數據。如何從海量數據中洞悉齣隱藏其後的見解是當今社會各領域人士極為關注的話題。本係列圖書以“大數據分析師”應掌握的IT技術為主綫,共分兩捲,以7個模塊(第1捲含4個模塊,第2捲含3個模塊)分彆介紹大數據入門,分析和R編程入門,使用R進行數據分析,用R進行高級分析,機器學習的概念,社交媒體、移動分析和可視化,大數據分析的行業應用等核心內容,全麵且詳盡地涵蓋瞭大數據分析的各個領域。
本書為第2捲,首先介紹機器學習的類型和方法,R上的圖模型和貝葉斯網絡、人工神經網絡、使用PCA和因子分析降維法以及支持嚮量機,並講解如何用R語言實現各種網絡,然後介紹大數據解決方案工程、社交媒體分析和文本分析、移動分析和大數據可視化,最後通過幾個實際案例講解大數據分析在各行業中的應用。
本書適用於想成為大數據分析師的人員以及所有對大數據分析感興趣的技術人員和決策者閱讀。
國際知名IT培訓機構中的多名大牛講師,通過對技術、IT市場需求以及當今就業培訓方麵的全球行業標準進行瞭廣泛並嚴格的調研之後,開發而成。作者們的這些計劃的構思目標是,成為理想的就業能力培訓項目,為那些有誌於在國際IT行業取得事業成功的人提供服務。
模塊1 機器學習的概念
第1講 理解機器學習技術 3
1.1 什麼是機器學習 4
1.1.1 數據挖掘與機器學習之間的差異 5
1.1.2 SpamAssassin特性 6
1.2 機器學習的應用 8
1.2.1 圖像識彆 8
1.2.2 語音識彆 10
1.2.3 醫療診斷 10
1.2.4 統計套利 11
1.2.5 關聯學習 11
1.2.6 分類 11
1.2.7 預測 12
1.2.8 提取 13
1.2.9 迴歸 13
1.2.10 概率 13
1.3 機器學習的類型 14
1.3.1 有監督學習 14
1.3.2 無監督學習 15
1.3.3 強化學習 15
1.4 機器學習方法 16
1.4.1 決策樹學習 16
1.4.2 關聯規則學習 16
1.4.3 人工神經網絡 17
1.4.4 歸納邏輯編程 17
1.4.5 支持嚮量機 17
1.4.6 聚類 18
1.4.7 貝葉斯網絡 18
1.4.8 強化學習 18
1.4.9 錶示學習 18
1.4.10 相似性和度量學習 18
1.4.11 稀疏字典學習 19
1.5 機器學習算法列錶 19
練習 22
備忘單 24
第2講 R上的圖模型和貝葉斯網絡 25
2.1 圖模型簡介 26
2.1.1 圖模型的類型 30
2.1.2 圖中的條件獨立性 32
2.1.3 圖中的條件獨立性與分割 33
2.1.4 圖的分解或者因子化 35
2.1.5 圖模型的應用 36
2.2 案例研究——圖模型在大眾公司的應用 37
2.2.1 背景 37
2.2.2 問題 37
2.2.3 解決方案 38
2.3 貝葉斯統計簡介 38
2.3.1 貝葉斯定理 39
2.3.2 貝葉斯網絡 39
2.4 貝葉斯網絡特性 43
2.5 貝葉斯網絡中的概率推理 49
2.5.1 推斷未觀測變量 49
2.5.2 參數學習 49
2.5.3 結構學習 49
2.6 貝葉斯方法 51
2.6.1 變量消除 51
2.6.2 動態編程 52
2.6.3 逼近算法 52
2.7 貝葉斯網絡的應用 54
練習 57
備忘單 59
第3講 人工神經網絡 60
3.1 神經網絡簡介 62
3.2 神經網絡的應用 65
3.3 神經網絡的結構 66
3.4 人工神經網絡模型 68
3.4.1 多層感知器 68
3.4.2 徑嚮基函數網絡 69
3.4.3 Kohonen網絡 70
3.5 學習規則 72
3.5.1 Hebbian學習規則 73
3.5.2 感知器學習規則 73
3.5.3 Delta學習規則(Windrow-Hoff學習規則) 74
3.5.4 相關學習規則 74
3.5.5 外嚮星學習規則 74
3.6 神經網絡訓練算法 75
3.6.1 梯度下降 76
3.6.2 演化算法 77
3.6.3 遺傳算法 78
3.7 在R中實現神經網絡 80
練習 84
備忘單 87
第4講 在R中使用PCA和因子分析降維 88
4.1 降維簡介 90
4.2 降維的應用 91
4.2.1 文檔分類 91
4.2.2 基因錶達微陣列分析 92
4.2.3 麵部識彆 93
4.3 因子分析 94
4.4 因子分析的應用 96
4.4.1 心理測驗學中的因子分析 96
4.4.2 營銷中的因子分析 97
4.5 因子分析方法 98
4.5.1 EFA和CFA的相似之處 98
4.5.2 EFA和CFA之間的差異 98
4.6 作為數據歸約方法的因子分析 99
4.6.1 確定因子數量的標準 101
4.6.2 公因子方差 102
4.6.3 因子載荷 103
4.6.4 因子結構的鏇轉 104
4.6.5 鏇轉策略 104
4.6.6 因子結構的解讀 105
4.6.7 層次化因子分析 106
4.6.8 因子得分 107
4.7 主成分分析 107
4.7.1 主成分分析的顯著性 108
4.7.2 主成分的提取 108
4.7.3 主成分的特性 108
4.7.4 主成分分析的特性 109
4.8 主成分分析中的數據歸約和解讀 109
4.8.1 投影於一個軸上的慣性 110
4.8.2 距離 110
4.8.3 逆方差 110
4.8.4 協方差 111
4.8.5 變量的範數 112
4.8.6 因子軸 112
4.8.7 因子平麵 112
4.8.8 主成分分析的目標 113
4.8.9 相關矩陣的特徵值 113
4.8.10 變量的錶示 113
4.8.11 個體的錶示 114
4.8.12 主成分分析過程 114
4.8.13 選擇主成分數量 116
4.8.14 主成分分析的變種 118
4.9 在R上實現主成分分析 120
4.9.1 示例1:歐洲人的蛋白質消耗 120
4.9.2 示例2:美國月度失業率 122
練習 123
備忘單 125
第5講 支持嚮量機 127
5.1 支持嚮量機簡介 128
5.2 支持嚮量機的應用領域 129
5.3 SVM算法 131
5.3.1 可分情況 132
5.3.2 不可分情況 133
5.4 綫性支持嚮量機 135
5.4.1 原型 135
5.4.2 對偶形式 136
5.4.3 有偏和無偏超平麵 137
5.5 核函數 137
5.5.1 核規則 137
5.5.2 支持嚮量機核示例 139
5.6 在R中訓練和測試SVM模型 139
5.7 用SVM模型預測的實例 143
5.7.1 數據集 143
5.7.2 準備數據集 144
5.7.3 選擇參數 144
5.7.4 訓練模型 145
5.7.5 測試模型 146
練習 147
備忘單 149
模塊2 社交媒體、移動分析和可視化
第1講 大數據解決方案工程 153
1.1 大數據展望過程 154
1.1.1 步驟1:研究和麵談以理解業務活動 155
1.1.2 步驟2:獲取和分析數據 157
1.1.3 步驟3:對新思路展開頭腦風暴 158
1.1.4 步驟4:排定大數據集用例的優先級 159
1.1.5 步驟5:文檔 160
1.2 大數據用例的優先級排定 160
1.2.1 優先順序矩陣過程 161
1.2.2 優先順序矩陣的陷阱 162
1.3 解決方案工程過程 164
1.3.1 第1步:理解組織是如何賺錢的 164
1.3.2 第2步:識彆組織的關鍵業務活動 167
1.3.3 第3步:進行頭腦風暴,確定大數據在業務上的作用 167
1.3.4 第4步:將業務活動分解為用例 168
1.3.5 第5步:證明用例 168
1.3.6 第6步:設計和實施大數據解決方案 169
1.4 解決方案工程示例 170
1.4.1 客戶行為分析 171
1.4.2 減少欺詐行為 172
1.5 大數據解決方案的挑戰 172
練習 174
備忘單 176
第2講 社交媒體分析和文本分析 177
2.1 什麼是社交媒體 178
2.2 社交分析、指標和計量 181
2.2.1 社交媒體分析工具 181
2.2.2 社交媒體分析與業務決策 182
2.2.3 社交媒體分析與其他分析類型的對比 184
2.3 社交媒體分析的關鍵要素 184
2.3.1 目標受眾 184
2.3.2 預期行動 185
2.3.3 內容 185
2.3.4 內容機製 185
2.3.5 社交媒體分析中使用的技術 186
2.3.6 在綫社交媒體分析工具 187
2.3.7 社交媒體分析所用的桌麵應用程序 187
2.4 文本挖掘簡介 188
2.4.1 文本挖掘工作方式 189
2.4.2 文本挖掘的應用 190
2.5 文本分析過程 190
2.6 情緒分析 192
2.6.1 情緒分析使用的方法 193
2.6.2 在綫情緒分析 193
2.7 在R上實施Twitter情緒分析 194
練習 203
備忘單 205
第3講 執行移動分析 207
3.1 移動分析簡介 208
3.1.1 什麼是移動分析 209
3.1.2 移動分析和Web分析 209
3.1.3 移動分析和商業價值 210
3.1.4 移動分析結果類型 210
3.1.5 移動分析應用類型 211
3.1.6 使用移動分析的領域 212
3.2 移動分析工具 212
3.2.1 基於位置的跟蹤工具 213
3.2.2 實時分析工具 213
3.2.3 用戶行為跟蹤工具 214
3.3 執行移動分析 216
3.3.1 通過移動應用收集數據 216
3.3.2 將數據收集到服務器 217
3.4 應用分析報告 218
3.5 移動分析的挑戰 219
3.5.1 網絡問題 219
3.5.2 安全性問題和政府協議 220
練習 221
備忘單 223
第4講 大數據可視化 225
4.1 什麼是可視化 226
4.1.1 為什麼對數據進行可視化 226
4.1.2 可視化技術 227
4.1.3 可視化類型 227
4.1.4 可視化的應用 228
4.2 大數據可視化的重要性 229
4.2.1 傳統信息可視化的不足 229
4.2.2 大數據可視化的商業價值 229
4.2.3 用可視化將數據變成信息 230
4.2.4 使用不同工具的可視化示例 231
4.2.5 大數據可視化中的障礙 233
4.3 大數據可視化工具 233
4.3.1 大數據可視化專屬服務 234
4.3.2 開源可視化程序庫 234
4.3.3 用於大數據可視化的技術 235
4.4 Tableau産品 235
4.4.1 用Tableau Desktop創建可視化 236
4.4.2 Tableau Desktop工作區簡介 239
4.4.3 多個工作錶頁麵 240
4.4.4 Tableau工作區 240
4.5 使用數據源 246
4.5.1 用Tableau聯閤數據庫錶 246
4.5.2 連接到SQL 247
4.6 數據運算(排序、聚閤、聯接) 248
4.6.1 地圖和地理單元 249
4.6.2 創建交互式可視化 251
練習 254
備忘單 256
第5講 招聘準備 258
5.1 大數據分析師所需要的關鍵技能 260
5.2 大數據分析崗位職責 262
5.2.1 初級分析師 262
5.2.2 中級分析師 263
5.2.3 高級分析師 263
5.3 大數據工作機會領域 264
模塊3 大數據分析的行業應用
第1講 大數據業務問題和解決方案—保險欺詐分析 273
1.1 背景 274
1.1.1 保險閤同 275
1.1.2 保單類型 275
1.2 保險欺詐及其影響 276
1.3 場景 277
1.4 數據的解釋 277
1.5 方法論 278
1.6 具體做法 279
1.7 結論 280
第2講 大數據業務問題和解決方案—信用風險 281
2.1 背景 282
2.2 場景 283
2.3 數據的解釋 284
2.4 方法論和具體做法 285
2.5 結論 287
第3講 大數據業務問題和解決方案—典型行業 288
3.1 背景 289
3.1.1 客戶流失 289
3.1.2 缺乏最優營銷策略 289
3.1.3 呼叫數據記錄(CDR)分析的需求 290
3.2 為增加利潤而進行數據分析 290
3.2.1 避免客戶流失 290
3.2.2 采用最優的營銷策略 290
3.2.3 分析呼叫詳細記錄 291
3.3 場景 291
3.4 數據的解釋 291
3.5 方法論 294
3.6 具體做法 295
3.6.1 高管視圖 295
3.6.2 中層管理視圖 296
3.6.3 代理人視圖 296
3.7 結論 298
第4講 大數據業務問題和解決方案—在綫客戶細分 299
4.1 背景 300
4.2 為客戶細分進行數據分析 301
4.3 場景 302
4.4 數據的解釋 302
4.5 方法論 302
4.6 具體做法 303
4.7 結論 305
第5講 大數據業務問題和解決方案—在電子商務中使用可視化工具 306
5.1 背景 307
5.2 場景 310
5.3 數據的解釋 310
5.4 方法論 311
5.5 具體做法 311
5.6 結論 317
書很好書很好書很好書很好書很好書很好書很好書很好
評分Good!
評分 21世紀經濟與管理規劃教材.管理科學與工程係列
評分大數據分析、可視化,值得學習
評分好
評分沒有大數據那本書有層次感,這本太雜亂瞭
評分拿到書瞭,開始看起來,不錯呢
評分很不錯的書,
評分很經典的書籍,比較實用
大數據分析師權威教程 機器學習、大數據分析和可視化 pdf epub mobi txt 電子書 下載