産品特色
編輯推薦
本書的14章可以分為4部分。前3章介紹SQL、Excel和統計學的核心概念。中間7章討論特彆適閤使用SQL和Excel的數據探索和數據分析技術。在後續的3章中,從統計學和數據挖掘的角度,介紹瞭關於建模的更正式的思想。*後,新增的第14章討論編寫SQL查詢時的性能問題。
每一章都通過不同的視角,介紹使用SQL和Excel做數據分析的方方麵麵,包括:
● 使用數據分析的基礎示例
● 分析師需要迴答的問題
● 詳解數據分析技術的工作原理
● 實現技術的SQL語法
● 以錶格或圖錶展示結果,以及如何在Excel中創建它們
內容簡介
SQL是數據查詢的基本語言,Excel是數據分析和展示的*常見工具。兩者結閤,可以組成一個強大且易於理解的業務數據分析工具。很多類重要的數據分析並不需要復雜且昂貴的數據挖掘工具。答案就在你的電腦桌上。
這是一本實用指南,作者Gordon S. Linoff是數據挖掘領域的*專傢。書中介紹瞭如何使用SQL和Excel來設計並完成復雜的數據分析。本書的第1版被廣泛認可,第2版涵蓋瞭對SQL和Excel新功能的介紹,同時包括新的技術和實際業務示例。第2版介紹瞭業務經理和數據分析人員所需掌握的*新信息。
本書首先介紹數據挖掘所用的SQL基礎知識,如何使用Excel展示結果,以及用於理解數據的簡單的統計學概念。熟悉執行SQL和操作Excel後,本書介紹瞭核心分析技術。本書內容逐步從基礎查詢擴展到復雜的應用,使讀者能夠學習到某種數據分析的使用原因和時機,如何設計和實現,以及展示數據分析結果的強大方法。每一步都詳細解釋瞭業務環境、技術方法以及在所熟悉工具中的具體實現。
隨著對本書的閱讀,你會發現很多知識點,包括地理信息的重要性,圖錶中的數據隨時間的變化方式,如何使用生存分析理解客戶任期和變動,以及影響生存率的因素。同時,還會探索到一些方法,包括分析客戶的購買模式、分析購物車以及計算關聯規則。此外,本書還包含重要的SQL數據挖掘模型(綫性迴歸模型、樸素貝葉斯模型等)、建立客戶簽名所需的信息、用於分析結果集的模型、包含纍積增量圖錶和ROC圖錶、使用SQL的*佳實踐、提高查詢性能的方法等。
作者簡介
Gordon S. Linoff,從事數據庫工作數十年。在他的記憶中,他開始學習SQL時,還是SQL92標準版。當時他正領導一支開發團隊(現已不存在的Thinking Machines公司),編寫*個側重於復雜查詢的高性能數據庫,用於支持決策分析。
此後,Gordon在1998年閤作創建瞭Data Miners公司,這是一傢緻力於數據挖掘、分析和大數據的谘詢公司。在他的工作生涯中,數據仍然是永恒的主題——而且通常是存儲於關係型數據庫中的數據。他對SQL的理解和應用也變得越來越深刻和嫻熟。在2014年,他是Stack Overflow的*多貢獻者,Stack Overflow是行業內領先的技術問答網站。
Gordon編寫的另外幾本書也都是暢銷書:《數據挖掘技術(第3版)——應用於市場營銷、銷售與客戶關係管理》、Mastering Data Mining和Mining the Web——這些書籍都側重於數據挖掘和數據分析。本書延續廣受好評的第1版,側重於如何實際地獲取和解釋數據結果,更具有實踐性。
內頁插圖
目錄
第1章 數據挖掘者眼中的SQL 1
1.1 數據庫、SQL和大數據 2
1.1.1 什麼是大數據? 2
1.1.2 關係型數據庫 3
1.1.3 Hadoop和Hive 3
1.1.4 NoSQL和其他類型的數據庫 3
1.1.5 SQL 4
1.2 繪製數據結構 4
1.2.1 什麼是數據模型? 5
1.2.2 什麼是錶? 5
1.2.3 什麼是實體-關係圖錶? 8
1.2.4 郵政編碼錶 9
1.2.5 訂閱數據集 10
1.2.6 訂單數據集 11
1.2.7 關於命名的提示 12
1.3 使用數據流描述數據分析 12
1.3.1 什麼是數據流? 13
1.3.2 數據流、SQL和關係代數 16
1.4 SQL查詢 16
1.4.1 做什麼,而不是怎麼去做 16
1.4.2 SELECT語句 17
1.4.3 一個基礎的SQL查詢 17
1.4.4 一個基本的SQL求和查詢 19
1.4.5 聯接錶的意義 20
1.4.6 SQL的其他重要功能 26
1.5 子查詢和公用錶錶達式 29
1.5.1 用於命名變量的子查詢 29
1.5.2 處理統計信息的子查詢 32
1.5.3 子查詢和IN 33
1.5.4 用於UNION ALL的子查詢 37
1.6 小結 38
第2章 錶中有什麼?開始數據探索 39
2.1 什麼是數據探索? 40
2.2 Excel中的繪圖 40
2.2.1 基礎圖錶:柱形圖 41
2.2.2 單元格中的條形圖 45
2.2.3 柱形圖的有用變化形式 47
2.2.4 其他類型的圖錶 50
2.3 迷你圖 53
2.4 列中包含的值 55
2.4.1 直方圖 55
2.4.2 計數的直方圖 58
2.4.3 計數的纍積直方圖 60
2.4.4 數字值的直方圖(頻率) 60
2.5 探索更多的值——*小值、*大
值和模式 64
2.5.1 *小值和*大值 64
2.5.2 *常見的值(模式) 65
2.6 探索字符串值 66
2.6.1 長度的直方圖 66
2.6.2 起始或結尾包含空白字符
的字符串 66
2.6.3 處理大小寫問題 67
2.6.4 字符串中存儲的字符是
什麼? 67
2.7 探索兩個列中的值 69
2.7.1 每個州的平均銷售額
是多少? 70
2.7.2 在一個單獨的訂單中,産品重復
齣現的頻率是多少? 70
2.7.3 哪個州的American Express
用戶*多? 73
2.8 由一個列的數據擴展到所有列
的數據匯總 73
2.8.1 針對單列的匯總 74
2.8.2 返迴錶中所有列的查詢 76
2.8.3 使用SQL生成匯總編碼 76
2.9 小結 78
第3章 不同之處是如何不同? 79
3.1 基本的統計學概念 80
3.1.1 虛擬假設 80
3.1.2 可信度和概率 81
3.1.3 正態分布 82
3.2 平均值的區彆有多大? 85
3.2.1 方法 85
3.2.2 子集平均值的標準差 85
3.2.3 三個方法 87
3.3 對錶做抽樣 89
3.3.1 隨機抽樣 89
3.3.2 可重復的隨機樣本 90
3.3.3 分層比例抽樣 91
3.3.4 平衡的樣本 92
3.4 計數的可能性 93
3.4.1 有多少男性成員? 96
3.4.2 有多少加利福尼亞人? 98
3.4.3 虛擬假設和可信度 99
3.4.4 有多少客戶仍然是活躍
客戶? 100
3.4.5 比率或數字? 103
3.5 概率和它們的統計 104
3.5.1 概率的標準差 104
3.5.2 概率的置信區間 105
3.5.3 概率的不同 106
3.5.4 保守的下限值 107
3.6 卡方檢驗 107
3.6.1 期望值 108
3.6.2 卡方計算 108
3.6.3 卡方分布 109
3.6.4 SQL中的卡方檢驗 111
3.6.5 州和産品之間的特殊關係 112
3.7 月份和支付類型與不同産品
類型的特殊關係 114
3.7.1 多維卡方 114
3.7.2 使用SQL查詢 115
3.7.3 結果 115
3.8 小結 116
第4章 發生的地點在何處? 119
4.1 緯度和經度 120
4.1.1 緯度和經度的定義 120
4.1.2 度數、分鍾和秒 121
4.1.3 兩個位置之間的距離 122
4.1.4 包含郵政編碼的圖片 128
4.2 人口統計 131
4.2.1 極端情況:*富有的和*貧
窮的人 132
4.2.2 分彆在使用訂單和不使用訂
單的情況下比較郵政編碼 137
4.3 地理等級 142
4.3.1 州中*富有的郵政編碼 142
4.3.2 州中擁有*多訂單的郵政
編碼 143
4.3.3 地理數據中有趣的層級
結構 145
4.3.4 計算郡的財富 148
4.3.5 財富值的分布 150
4.3.6 在郡中,哪個郵政編碼是相對
*富有的? 151
4.3.7 擁有*高的相對訂單占有
份額的郡 152
4.4 在Excel中繪製地圖 155
4.4.1 為什麼繪製地圖? 155
4.4.2 不能繪圖 156
4.4.3 網絡地圖 156
4.4.4 郵政編碼散點圖之上的州
邊界 157
4.5 小結 159
第5章 關於時間 161
5.1 數據庫中的日期和時間 162
5.2 開始調研日期 166
5.2.1 確認日期中沒有時間 166
5.2.2 根據日期比較計數 167
5.2.3 訂單數和訂單大小 172
5.2.4 星期 175
5.3 兩個日期之間有多長? 178
5.3.1 以天為單位的持續時間 178
5.3.2 以星期為單位的持續時間 180
5.3.3 以月為單位的持續時間 180
5.3.4 有多少個星期一? 181
5.3.5 下一個周年紀念日(或生日)
是什麼時候? 184
5.4 跨年比較 188
5.4.1 以天為單位比較 188
5.4.2 以星期為單位比較 189
5.4.3 以月為單位比較 190
5.5 以天計算活躍客戶數量 196
5.5.1 某天的活躍客戶數量 196
5.5.2 每天的活躍客戶數量 196
5.5.3 有多少不同類型的客戶? 198
5.5.4 不同任期時段的客戶數量 198
5.5.5 隻使用SQL計算活躍客戶 201
5.6 Excel中的簡單圖錶動畫 203
5.6.1 從訂單生成日期到運貨
日期 203
5.6.2 訂單延時在每年中的變化 205
5.7 小結 208
第6章 客戶的持續時間有多久?使用
生存分析理解客戶和他們的
價值 209
6.1 生存分析 210
6.1.1 平均壽命 211
6.1.2 醫學研究 212
6.1.3 關於風險率的示例 212
6.2 風險計算 213
6.2.1 數據調研 214
6.2.2 風險率 216
6.2.3 客戶可視化:時間與任期 217
6.2.4 截尾 219
6.3 生存率和保留率 220
6.3.1 生存率的點的估計 220
6.3.2 計算任意任期的生存率 221
6.3.3 在SQL中計算生存率 222
6.3.4 簡單的客戶保留率計算 225
6.3.5 保留率和生存率的區彆 226
6.3.6 風險率和生存率的簡單
示例 227
6.4 對比不同的客戶分組 230
6.4.1 市場總結 230
6.4.2 市場分層 231
6.4.3 生存率比例 234
6.4.4 條件生存率 234
6.5 隨時間變化的生存率 236
6.5.1 特定風險率隨時間的變化 236
6.5.2 按照起始年份分類的客戶
生存率 238
6.5.3 之前的生存率什麼樣? 239
6.6 由生存率衍生齣來的重要
指標 241
6.6.1 估算生存點 241
6.6.2 客戶任期的中間值 242
6.6.3 客戶生命周期的中間值 242
6.6.4 風險率的置信度 243
6.7 使用生存率計算客戶價值 245
6.7.1 估算收入 246
6.7.2 對個體的未來收入的估算 247
6.7.3 當前客戶分組的收入估算 249
6.7.4 所有客戶未來收入的估算 251
6.8 預測 253
6.8.1 對已有客戶的預測 254
6.8.2 對新開始者的預測 258
6.9 小結 259
第7章 影響生存率的因素:客戶
任期 261
7.1 哪些因素是重要的,何時
重要? 262
7.1.1 方法說明 262
7.1.2 使用平均值比較數字因素 264
7.1.3 風險比例 268
7.2 左截斷 271
7.2.1 認識左截斷 271
7.2.2 左截斷的影響 273
7.2.3 如何從理論上解決左截斷
問題 274
7.2.4 估算一個任期的風險率 275
7.2.5 估算所有任期的風險率 276
7.2.6 在SQL中計算 277
7.3 時間窗 278
7.3.1 一個商業問題 278
7.3.2 時間窗=左截斷+右截尾 278
7.4 競爭風險 283
7.4.1 競爭風險的示例 283
7.4.2 競爭風險的“風險率” 284
7.4.3 競爭風險的“生存率” 286
7.4.4 隨著時間的變化,客戶身上
發生瞭什麼? 287
7.5 事件前後 291
7.5.1 三種情況 291
7.5.2 使用生存率預測來理解一次
性事件 293
7.5.3 比較前後風險率 294
7.5.4 基於對列的方法 294
7.5.5 基於對列的方法:完全隊列 295
7.5.6 事件影響的直接估計 297
7.6 小結 301
第8章 多次購買以及其他重復事件 303
8.1 標識客戶 304
8.1.1 誰是那個客戶? 304
8.1.2 其他客戶信息 313
8.1.3 每一年齣現多少新客戶? 316
8.2 RFM分析 325
8.2.1 維度 325
8.2.2 計算RFM單元格 329
8.2.3 RFM的有用程度 330
8.3 隨著時間的變化,哪些傢庭的
購買金額在增長? 334
8.3.1 *早值和*晚值的比較 334
8.3.2 *年和*後一年的值的
比較 341
8.3.3 *佳擬閤綫的趨勢 343
8.4 距離下一次事件的時間 344
8.4.1 計算背後的想法 344
8.4.2 使用SQL計算下一次購買
日期 345
8.4.3 從下一次購買日期到時間至
事件的分析 346
8.4.4 時間到事件分析的分層 347
8.5 小結 347
第9章 購物車裏有什麼?購物車
分析 349
9.1 探索産品 349
9.1.1 産品的散點圖 350
9.1.2 産品組的運輸年份 351
9.1.3 訂單中的重復産品 353
9.1.4 單位數量的直方圖 358
9.1.5 在一個訂單中,哪個産品可能
齣現多次購買的情況? 359
9.1.6 改變價格 361
9.2 産品和客戶價值 362
9.2.1 訂單大小的一緻性 362
9.2.2 與一次性客戶關聯的産品 365
9.2.3 與*好的客戶相關的産品 368
9.2.4 剩餘價值 370
9.3 産品的地理分布 372
9.3.1 每一個州中*常見的産品 372
9.3.2 哪些産品廣受歡迎,哪些産品
隻在本地受歡迎? 373
9.4 哪些客戶購買瞭指定産品? 375
9.4.1 哪些客戶擁有*受歡迎的
産品? 375
9.4.2 客戶擁有哪個産品? 376
9.4.3 哪些客戶有3個特定的
産品? 381
9.4.4 普遍的嵌套集閤的查詢 384
9.5 小結 385
第10章 關聯規則 387
10.1 項集 388
10.1.1 兩個産品的組閤 388
10.1.2 更常見的項集 391
10.1.3 傢庭,而不是訂單 396
10.2 *簡單的關聯規則 399
10.2.1 關聯和規則 400
10.2.2 零項關聯規則 400
10.2.3 概率的分布情況 401
10.2.4 零項關聯告訴瞭我們
什麼? 402
10.3 單項關聯規則 402
10.3.1 單項關聯規則的價值 402
10.3.2 生成所有的單項規則 404
10.3.3 包含評估信息的單項
規則 405
10.3.4 基於産品組的單項規則 406
10.4 雙項關聯 407
10.4.1 計算雙項關聯 408
10.4.2 使用卡方找到*佳規則 409
10.4.3 異質相關 413
10.5 擴展關聯規則 416
10.5.1 多項關聯 416
10.5.2 一個查詢中的多項關聯 418
10.5.3 使用産品屬性的規則 418
10.5.4 左右兩側項集內容不同
的規則 419
10.5.5 之前和之後:有序關聯
規則 419
10.6 小結 422
第11章 SQL數據挖掘模型 423
11.1 定嚮數據挖掘介紹 424
11.1.1 定嚮模型 424
11.1.2 建模中的數據 425
11.1.3 建模應用示例 427
數據分析技術(第2版) 使用SQL和Excel工具 下載 mobi epub pdf txt 電子書
評分
☆☆☆☆☆
這本書對於維度建模可以說是基礎且必要的書,理論結閤實踐,非常不錯
評分
☆☆☆☆☆
京東買書就是劃算,一年兩波,618,雙11,全年的精神食糧就靠這兩次。
評分
☆☆☆☆☆
挺好的書,大傢覺得很有用,支持京東書城哦
評分
☆☆☆☆☆
Hadoop高級數據分析 使用Hadoop生態係統設計和構建大數據係統/大數據應用與技術叢書
評分
☆☆☆☆☆
挺好的,發貨速度很快,服務態度很好!迴來收到貨檢查瞭下,書籍紙質很好,以後買書就在京東瞭,服務態度好,售後很好!唯一不太好的是開的發票不能開明細,報賬有點睏難,其他都挺好
評分
☆☆☆☆☆
老外的書,非常詳細,可以多整個數據處理有非常全麵的瞭解!
評分
☆☆☆☆☆
講瞭幾個不同行業的數據倉庫應用,非常適閤數據挖掘初學者
評分
☆☆☆☆☆
書本身有點輕,內容還是很好的
評分
☆☆☆☆☆
◆有關KiallDW/BI項目生命周期方法論的概論