數據分析技術(第2版) 使用SQL和Excel工具

數據分析技術(第2版) 使用SQL和Excel工具 pdf epub mobi txt 电子书 下载 2025

[美] Gordon S.Linoff 著,陶佰明 譯
想要找书就要到 求知書站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 清华大学出版社
ISBN:9787302461395
版次:1
商品编码:12149366
包装:平装
开本:16开
出版时间:2017-03-01
用纸:胶版纸
页数:604
字数:961000
正文语种:中文

具体描述

産品特色

編輯推薦

  本書的14章可以分為4部分。前3章介紹SQL、Excel和統計學的核心概念。中間7章討論特彆適閤使用SQL和Excel的數據探索和數據分析技術。在後續的3章中,從統計學和數據挖掘的角度,介紹瞭關於建模的更正式的思想。*後,新增的第14章討論編寫SQL查詢時的性能問題。
  每一章都通過不同的視角,介紹使用SQL和Excel做數據分析的方方麵麵,包括:
  ● 使用數據分析的基礎示例
  ● 分析師需要迴答的問題
  ● 詳解數據分析技術的工作原理
  ● 實現技術的SQL語法
  ● 以錶格或圖錶展示結果,以及如何在Excel中創建它們

內容簡介

  SQL是數據查詢的基本語言,Excel是數據分析和展示的*常見工具。兩者結閤,可以組成一個強大且易於理解的業務數據分析工具。很多類重要的數據分析並不需要復雜且昂貴的數據挖掘工具。答案就在你的電腦桌上。
  這是一本實用指南,作者Gordon S. Linoff是數據挖掘領域的*專傢。書中介紹瞭如何使用SQL和Excel來設計並完成復雜的數據分析。本書的第1版被廣泛認可,第2版涵蓋瞭對SQL和Excel新功能的介紹,同時包括新的技術和實際業務示例。第2版介紹瞭業務經理和數據分析人員所需掌握的*新信息。
  本書首先介紹數據挖掘所用的SQL基礎知識,如何使用Excel展示結果,以及用於理解數據的簡單的統計學概念。熟悉執行SQL和操作Excel後,本書介紹瞭核心分析技術。本書內容逐步從基礎查詢擴展到復雜的應用,使讀者能夠學習到某種數據分析的使用原因和時機,如何設計和實現,以及展示數據分析結果的強大方法。每一步都詳細解釋瞭業務環境、技術方法以及在所熟悉工具中的具體實現。
  隨著對本書的閱讀,你會發現很多知識點,包括地理信息的重要性,圖錶中的數據隨時間的變化方式,如何使用生存分析理解客戶任期和變動,以及影響生存率的因素。同時,還會探索到一些方法,包括分析客戶的購買模式、分析購物車以及計算關聯規則。此外,本書還包含重要的SQL數據挖掘模型(綫性迴歸模型、樸素貝葉斯模型等)、建立客戶簽名所需的信息、用於分析結果集的模型、包含纍積增量圖錶和ROC圖錶、使用SQL的*佳實踐、提高查詢性能的方法等。

作者簡介

  Gordon S. Linoff,從事數據庫工作數十年。在他的記憶中,他開始學習SQL時,還是SQL92標準版。當時他正領導一支開發團隊(現已不存在的Thinking Machines公司),編寫*個側重於復雜查詢的高性能數據庫,用於支持決策分析。
  此後,Gordon在1998年閤作創建瞭Data Miners公司,這是一傢緻力於數據挖掘、分析和大數據的谘詢公司。在他的工作生涯中,數據仍然是永恒的主題——而且通常是存儲於關係型數據庫中的數據。他對SQL的理解和應用也變得越來越深刻和嫻熟。在2014年,他是Stack Overflow的*多貢獻者,Stack Overflow是行業內領先的技術問答網站。
  Gordon編寫的另外幾本書也都是暢銷書:《數據挖掘技術(第3版)——應用於市場營銷、銷售與客戶關係管理》、Mastering Data Mining和Mining the Web——這些書籍都側重於數據挖掘和數據分析。本書延續廣受好評的第1版,側重於如何實際地獲取和解釋數據結果,更具有實踐性。

內頁插圖

目錄

第1章 數據挖掘者眼中的SQL 1
1.1 數據庫、SQL和大數據 2
1.1.1 什麼是大數據? 2
1.1.2 關係型數據庫 3
1.1.3 Hadoop和Hive 3
1.1.4 NoSQL和其他類型的數據庫 3
1.1.5 SQL 4
1.2 繪製數據結構 4
1.2.1 什麼是數據模型? 5
1.2.2 什麼是錶? 5
1.2.3 什麼是實體-關係圖錶? 8
1.2.4 郵政編碼錶 9
1.2.5 訂閱數據集 10
1.2.6 訂單數據集 11
1.2.7 關於命名的提示 12
1.3 使用數據流描述數據分析 12
1.3.1 什麼是數據流? 13
1.3.2 數據流、SQL和關係代數 16
1.4 SQL查詢 16
1.4.1 做什麼,而不是怎麼去做 16
1.4.2 SELECT語句 17
1.4.3 一個基礎的SQL查詢 17
1.4.4 一個基本的SQL求和查詢 19
1.4.5 聯接錶的意義 20
1.4.6 SQL的其他重要功能 26
1.5 子查詢和公用錶錶達式 29
1.5.1 用於命名變量的子查詢 29
1.5.2 處理統計信息的子查詢 32
1.5.3 子查詢和IN 33
1.5.4 用於UNION ALL的子查詢 37
1.6 小結 38
第2章 錶中有什麼?開始數據探索 39
2.1 什麼是數據探索? 40
2.2 Excel中的繪圖 40
2.2.1 基礎圖錶:柱形圖 41
2.2.2 單元格中的條形圖 45
2.2.3 柱形圖的有用變化形式 47
2.2.4 其他類型的圖錶 50
2.3 迷你圖 53
2.4 列中包含的值 55
2.4.1 直方圖 55
2.4.2 計數的直方圖 58
2.4.3 計數的纍積直方圖 60
2.4.4 數字值的直方圖(頻率) 60
2.5 探索更多的值——*小值、*大
值和模式 64
2.5.1 *小值和*大值 64
2.5.2 *常見的值(模式) 65
2.6 探索字符串值 66
2.6.1 長度的直方圖 66
2.6.2 起始或結尾包含空白字符
的字符串 66
2.6.3 處理大小寫問題 67
2.6.4 字符串中存儲的字符是
什麼? 67
2.7 探索兩個列中的值 69
2.7.1 每個州的平均銷售額
是多少? 70
2.7.2 在一個單獨的訂單中,産品重復
齣現的頻率是多少? 70
2.7.3 哪個州的American Express
用戶*多? 73
2.8 由一個列的數據擴展到所有列
的數據匯總 73
2.8.1 針對單列的匯總 74
2.8.2 返迴錶中所有列的查詢 76
2.8.3 使用SQL生成匯總編碼 76
2.9 小結 78
第3章 不同之處是如何不同? 79
3.1 基本的統計學概念 80
3.1.1 虛擬假設 80
3.1.2 可信度和概率 81
3.1.3 正態分布 82
3.2 平均值的區彆有多大? 85
3.2.1 方法 85
3.2.2 子集平均值的標準差 85
3.2.3 三個方法 87
3.3 對錶做抽樣 89
3.3.1 隨機抽樣 89
3.3.2 可重復的隨機樣本 90
3.3.3 分層比例抽樣 91
3.3.4 平衡的樣本 92
3.4 計數的可能性 93
3.4.1 有多少男性成員? 96
3.4.2 有多少加利福尼亞人? 98
3.4.3 虛擬假設和可信度 99
3.4.4 有多少客戶仍然是活躍
客戶? 100
3.4.5 比率或數字? 103
3.5 概率和它們的統計 104
3.5.1 概率的標準差 104
3.5.2 概率的置信區間 105
3.5.3 概率的不同 106
3.5.4 保守的下限值 107
3.6 卡方檢驗 107
3.6.1 期望值 108
3.6.2 卡方計算 108
3.6.3 卡方分布 109
3.6.4 SQL中的卡方檢驗 111
3.6.5 州和産品之間的特殊關係 112
3.7 月份和支付類型與不同産品
類型的特殊關係 114
3.7.1 多維卡方 114
3.7.2 使用SQL查詢 115
3.7.3 結果 115
3.8 小結 116
第4章 發生的地點在何處? 119
4.1 緯度和經度 120
4.1.1 緯度和經度的定義 120
4.1.2 度數、分鍾和秒 121
4.1.3 兩個位置之間的距離 122
4.1.4 包含郵政編碼的圖片 128
4.2 人口統計 131
4.2.1 極端情況:*富有的和*貧
窮的人 132
4.2.2 分彆在使用訂單和不使用訂
單的情況下比較郵政編碼 137
4.3 地理等級 142
4.3.1 州中*富有的郵政編碼 142
4.3.2 州中擁有*多訂單的郵政
編碼 143
4.3.3 地理數據中有趣的層級
結構 145
4.3.4 計算郡的財富 148
4.3.5 財富值的分布 150
4.3.6 在郡中,哪個郵政編碼是相對
*富有的? 151
4.3.7 擁有*高的相對訂單占有
份額的郡 152
4.4 在Excel中繪製地圖 155
4.4.1 為什麼繪製地圖? 155
4.4.2 不能繪圖 156
4.4.3 網絡地圖 156
4.4.4 郵政編碼散點圖之上的州
邊界 157
4.5 小結 159
第5章 關於時間 161
5.1 數據庫中的日期和時間 162
5.2 開始調研日期 166
5.2.1 確認日期中沒有時間 166
5.2.2 根據日期比較計數 167
5.2.3 訂單數和訂單大小 172
5.2.4 星期 175
5.3 兩個日期之間有多長? 178
5.3.1 以天為單位的持續時間 178
5.3.2 以星期為單位的持續時間 180
5.3.3 以月為單位的持續時間 180
5.3.4 有多少個星期一? 181
5.3.5 下一個周年紀念日(或生日)
是什麼時候? 184
5.4 跨年比較 188
5.4.1 以天為單位比較 188
5.4.2 以星期為單位比較 189
5.4.3 以月為單位比較 190
5.5 以天計算活躍客戶數量 196
5.5.1 某天的活躍客戶數量 196
5.5.2 每天的活躍客戶數量 196
5.5.3 有多少不同類型的客戶? 198
5.5.4 不同任期時段的客戶數量 198
5.5.5 隻使用SQL計算活躍客戶 201
5.6 Excel中的簡單圖錶動畫 203
5.6.1 從訂單生成日期到運貨
日期 203
5.6.2 訂單延時在每年中的變化 205
5.7 小結 208
第6章 客戶的持續時間有多久?使用
生存分析理解客戶和他們的
價值 209
6.1 生存分析 210
6.1.1 平均壽命 211
6.1.2 醫學研究 212
6.1.3 關於風險率的示例 212
6.2 風險計算 213
6.2.1 數據調研 214
6.2.2 風險率 216
6.2.3 客戶可視化:時間與任期 217
6.2.4 截尾 219
6.3 生存率和保留率 220
6.3.1 生存率的點的估計 220
6.3.2 計算任意任期的生存率 221
6.3.3 在SQL中計算生存率 222
6.3.4 簡單的客戶保留率計算 225
6.3.5 保留率和生存率的區彆 226
6.3.6 風險率和生存率的簡單
示例 227
6.4 對比不同的客戶分組 230
6.4.1 市場總結 230
6.4.2 市場分層 231
6.4.3 生存率比例 234
6.4.4 條件生存率 234
6.5 隨時間變化的生存率 236
6.5.1 特定風險率隨時間的變化 236
6.5.2 按照起始年份分類的客戶
生存率 238
6.5.3 之前的生存率什麼樣? 239
6.6 由生存率衍生齣來的重要
指標 241
6.6.1 估算生存點 241
6.6.2 客戶任期的中間值 242
6.6.3 客戶生命周期的中間值 242
6.6.4 風險率的置信度 243
6.7 使用生存率計算客戶價值 245
6.7.1 估算收入 246
6.7.2 對個體的未來收入的估算 247
6.7.3 當前客戶分組的收入估算 249
6.7.4 所有客戶未來收入的估算 251
6.8 預測 253
6.8.1 對已有客戶的預測 254
6.8.2 對新開始者的預測 258
6.9 小結 259
第7章 影響生存率的因素:客戶
任期 261
7.1 哪些因素是重要的,何時
重要? 262
7.1.1 方法說明 262
7.1.2 使用平均值比較數字因素 264
7.1.3 風險比例 268
7.2 左截斷 271
7.2.1 認識左截斷 271
7.2.2 左截斷的影響 273
7.2.3 如何從理論上解決左截斷
問題 274
7.2.4 估算一個任期的風險率 275
7.2.5 估算所有任期的風險率 276
7.2.6 在SQL中計算 277
7.3 時間窗 278
7.3.1 一個商業問題 278
7.3.2 時間窗=左截斷+右截尾 278
7.4 競爭風險 283
7.4.1 競爭風險的示例 283
7.4.2 競爭風險的“風險率” 284
7.4.3 競爭風險的“生存率” 286
7.4.4 隨著時間的變化,客戶身上
發生瞭什麼? 287
7.5 事件前後 291
7.5.1 三種情況 291
7.5.2 使用生存率預測來理解一次
性事件 293
7.5.3 比較前後風險率 294
7.5.4 基於對列的方法 294
7.5.5 基於對列的方法:完全隊列 295
7.5.6 事件影響的直接估計 297
7.6 小結 301
第8章 多次購買以及其他重復事件 303
8.1 標識客戶 304
8.1.1 誰是那個客戶? 304
8.1.2 其他客戶信息 313
8.1.3 每一年齣現多少新客戶? 316
8.2 RFM分析 325
8.2.1 維度 325
8.2.2 計算RFM單元格 329
8.2.3 RFM的有用程度 330
8.3 隨著時間的變化,哪些傢庭的
購買金額在增長? 334
8.3.1 *早值和*晚值的比較 334
8.3.2 *年和*後一年的值的
比較 341
8.3.3 *佳擬閤綫的趨勢 343
8.4 距離下一次事件的時間 344
8.4.1 計算背後的想法 344
8.4.2 使用SQL計算下一次購買
日期 345
8.4.3 從下一次購買日期到時間至
事件的分析 346
8.4.4 時間到事件分析的分層 347
8.5 小結 347
第9章 購物車裏有什麼?購物車
分析 349
9.1 探索産品 349
9.1.1 産品的散點圖 350
9.1.2 産品組的運輸年份 351
9.1.3 訂單中的重復産品 353
9.1.4 單位數量的直方圖 358
9.1.5 在一個訂單中,哪個産品可能
齣現多次購買的情況? 359
9.1.6 改變價格 361
9.2 産品和客戶價值 362
9.2.1 訂單大小的一緻性 362
9.2.2 與一次性客戶關聯的産品 365
9.2.3 與*好的客戶相關的産品 368
9.2.4 剩餘價值 370
9.3 産品的地理分布 372
9.3.1 每一個州中*常見的産品 372
9.3.2 哪些産品廣受歡迎,哪些産品
隻在本地受歡迎? 373
9.4 哪些客戶購買瞭指定産品? 375
9.4.1 哪些客戶擁有*受歡迎的
産品? 375
9.4.2 客戶擁有哪個産品? 376
9.4.3 哪些客戶有3個特定的
産品? 381
9.4.4 普遍的嵌套集閤的查詢 384
9.5 小結 385
第10章 關聯規則 387
10.1 項集 388
10.1.1 兩個産品的組閤 388
10.1.2 更常見的項集 391
10.1.3 傢庭,而不是訂單 396
10.2 *簡單的關聯規則 399
10.2.1 關聯和規則 400
10.2.2 零項關聯規則 400
10.2.3 概率的分布情況 401
10.2.4 零項關聯告訴瞭我們
什麼? 402
10.3 單項關聯規則 402
10.3.1 單項關聯規則的價值 402
10.3.2 生成所有的單項規則 404
10.3.3 包含評估信息的單項
規則 405
10.3.4 基於産品組的單項規則 406
10.4 雙項關聯 407
10.4.1 計算雙項關聯 408
10.4.2 使用卡方找到*佳規則 409
10.4.3 異質相關 413
10.5 擴展關聯規則 416
10.5.1 多項關聯 416
10.5.2 一個查詢中的多項關聯 418
10.5.3 使用産品屬性的規則 418
10.5.4 左右兩側項集內容不同
的規則 419
10.5.5 之前和之後:有序關聯
規則 419
10.6 小結 422
第11章 SQL數據挖掘模型 423
11.1 定嚮數據挖掘介紹 424
11.1.1 定嚮模型 424
11.1.2 建模中的數據 425
11.1.3 建模應用示例 427
11.1.4 模型評估 429
11.2 相似性模型 429
11.2.1 模型是什麼? 430
11.2.2 *好的郵政編碼是
哪個? 430
11.2.3 基礎的相似性模型 431
11.2.4 使用Z分數計算相似性
模型 433
11.2.5 鄰近模型示例 434
11.3 *受歡迎産品的查找模型 435
11.3.1 *受歡迎的産品 435
11.3.2 計算*受歡迎的産品組 436
11.3.3 評估查找模型 437
11.3.4 使用調試查找模型做
預測 437
11.3.5 使用二元分類 439
11.4 用於訂單大小的查找模型 440
11.4.1 *基本的模型:無維度
模型 440
11.4.2 添加一個維度 441
11.4.3 添加額外的維度 443
11.4.4 檢查不穩定性 443
11.4.5 使用平均值圖錶評估
模型 444
11.5 用於響應率的查找模型 445
11.5.1 將整體概率作為一個
模型 445
11.5.2 探索不同的維度 446
11.5.3 模型的精準度 447
11.5.4 ROC圖錶和AUC 450
11.5.5 加入更多的維度 453
11.6 樸素貝葉斯模型(證據模型) 455
11.6.1 概率的一些概念 455
11.6.2 計算樸素貝葉斯模型 457
11.6.3 樸素貝葉斯模型:評分和
提升度 463
11.6.4 樸素貝葉斯模型和查找
模型的比較 465
11.7 小結 466
第12章 *佳擬閤綫:綫性迴歸
模型 467
12.1 *佳擬閤綫 468
12.1.1 任期和支付金額 468
12.1.2 *佳擬閤綫的屬性 469
12.1.3 小心數據 473
12.1.4 圖錶中的趨勢綫 474
12.1.5 使用LINEST()函數的
*佳擬閤 479
12.2 使用R2衡量擬閤程度 483
12.2.1 R2值 483
12.2.2 R2的局限性 484
12.2.3 R2的含義 484
12.3 直接計算*佳擬閤綫係數 485
12.3.1 計算係數 485
12.3.2 在SQL中計算*佳
擬閤綫 486
12.3.3 價格彈性 487
12.4 加權的綫性迴歸 492
12.4.1 在*年停止的客戶 492
12.4.2 加權的*佳擬閤 493
12.4.3 圖錶中的加權*佳
擬閤綫 494
12.4.4 SQL中的加權*佳
擬閤綫 495
12.4.5 使用Solver的加權*佳
擬閤綫 496
12.5 多個輸入 498
12.5.1 Excel中的多維迴歸 498
12.5.2 建立包含三個變量的
模型 500
12.5.3 使用Solver處理多維
迴歸 501
12.5.4 逐個選擇輸入變量 501
12.5.5 SQL中的多維迴歸 502
12.6 小結 503
第13章 為進一步分析數據創建客戶
簽名 505
13.1 什麼是客戶簽名? 506
13.1.1 什麼是客戶? 506
13.1.2 客戶簽名的源數據 507
13.1.3 使用客戶簽名 510
13.2 設計客戶簽名 511
13.2.1 調試和預測 511
13.2.2 字段的角色 511
13.2.3 時間段 512
13.3 建立客戶簽名的操作 515
13.3.1 驅動錶 515
13.3.2 查找數據 518
13.3.3 *初的交易 520
13.3.4 鏇轉 521
13.3.5 總結 528
13.4 抽取特徵 530
13.4.1 地理位置信息 530
13.4.2 日期時間列 531
13.4.3 字符串中的模式 532
13.5 總結客戶行為 534
13.5.1 計算時間序列的斜率 534
13.5.2 周末消費者 537
13.5.3 下降的使用行為 540
13.6 小結 541
第14章 性能問題:高效使用SQL 543
14.1 查詢引擎和性能 544
14.1.1 用於理解性能的時間
復雜度 544
14.1.2 一個簡單的示例 545
14.1.3 與性能相關的思考 547
14.1.4 性能的含義和測量 549
14.1.5 性能提升入門 549
14.2 高效使用索引 553
14.2.1 什麼是索引? 553
14.2.2 索引的簡單示例 557
14.2.3 索引的限製 560
14.2.4 高效使用復閤索引 562
14.3 何時使用OR是低效的? 566
14.3.1 有時UNION ALL比OR
更好 566
14.3.2 有時LEFT OUTER JOIN比
OR更高效 567
14.3.3 有時多個條件錶達式
更好 568
14.4 贊成和反對:錶達一件事情的
不同方法 569
14.4.1 在Orders錶中,哪些州
沒有被識彆? 569
14.4.2 一個關於GROUP BY的
難題 571
14.4.3 小心COUNT(*)=0 573
14.5 窗口函數 576
14.5.1 窗口函數適用於什麼
地方? 576
14.5.2 窗口函數的靈活使用 576
14.6 小結 582
附錄 數據庫之間的等價結構 583


前言/序言

  本書的第1版使用我們熟悉的工具SQL和Excel,從實用的角度解釋數據分析。這本書的指導原則是從問題齣發,同時從業務角度和技術角度提供解決方案,以指導讀者。這個方法被證明是非常成功的。
  從第1版到現在已經過去瞭10年,這期間已經發生瞭很多變化,工具本身也發生瞭很多變化。例如,當年的Excel還沒有功能區,而且在當時的數據庫中,窗口函數也非常罕見。一些工具,如Python和R,以及NoSQL數據庫變得越來越常見,它們改變瞭分析師賴以生存的工具世界。然而,隨著技術延伸到大大小小的各項業務中,關係型數據庫在今天仍然被廣泛使用,而且SQL也變得更加至關重要。對於很多商務人士,Excel工具仍然是做報錶和展示的理想之選。大數據不再是未知的領域,它是我們每天都會麵臨的問題、挑戰和機遇。
  根據底層軟件的變化,在第2版中對本書的內容做瞭調整和更新,同時包含瞭更多的示例和技術,以及增加瞭關於數據庫性能的一整章新內容。同時,我一直在努力保持本書第1版的優勢。本書仍然圍繞著數據、分析和展示的原則—— 少見地將三個功能放在一起處理。示例圍繞著所提齣的問題,同時討論瞭這些問題的業務相關性和技術實現。示例使用的是真實的代碼。數據、代碼以及Excel示例都可以在配套網站上找到。
  撰寫這本書的*初動機來源於我的一個同事—— Nick Drake,他是受過培訓的統計學傢。曾經,他一直在尋找一本書,關於介紹如何使用SQL編寫可用於數據分析的復雜查詢。當時,基於SQL的書籍,要麼介紹SQL的基礎查詢結構,要麼介紹數據庫的工作原理。嚴格地講,沒有從分析數據的角度介紹SQL的書籍,也沒有基於迴答數據問題的書籍。在統計學的眾多書籍中,沒有一本書能夠麵對這樣一個事實提齣解決方案:統計學所用的數據,多數都存儲於關係型數據庫中,而本書則填補瞭這一空白。
  筆者與Michael Berry一起撰寫的其他關於數據挖掘的書籍,側重於高級算法和案例學習。相比之下,本書側重於“操作方式”。首先描述瞭存儲在數據庫中的數據,然後繼續完成準備數據和生成結果集的過程。書中穿插的內容,是我在這個領域多年經驗的結晶,解釋瞭結果集被應用的可能方式,以及為什麼有些事情有效果,而有些事情無效。書中示例非常具有實踐性,它們所使用的數據都在本書的配套網站上(www.wiley.com/go/dataanaly- sisusingsqlandexcel2e)。
  關於數據倉庫和分析數據庫的一個老生常談的話題是它們實際上沒有做任何事。是的,它們存儲數據,能夠將不同來源的數據匯集在一起,並整理數據使數據變得清晰。是的,它們定義業務維度,存儲關於客戶的事務,還可能總結重要的數據(是的,所有這些都非常重要!)然而,數據庫中的數據存儲在鏇轉的硬盤上,而且數據在計算機內存中的數據結構非常復雜。對於如此多的數據,信息卻很少。
  我們如何探索這些數據(特彆是描述客戶的數據)?很多關於統計學建模和數據挖掘的華麗算法都有一條簡單的規則:“無用輸入,無用輸齣”。即使是*復雜的技術,也隻有當數據是好數據時,結果纔是好的。數據是理解客戶、産品以及市場的中心。
  本書中的章節覆蓋瞭數據的不同方麵,同時包含瞭SQL和Excel支持的重要的數據分析技術。這些數據分析技術的範圍涵蓋瞭很多內容,從*初的探索性數據分析到生存分析,從超市購物車分析到樸素貝葉斯模型,從簡單的動畫到綫性迴歸。當然,本書不可能涵蓋所有的數據分析技術。本書所介紹的方法曆經時間的考驗,被認為是有用的且適用於很多不同的領域。
  *後,隻有數據和分析還不夠,還必須將結果展示給正確的觀眾。為完整地探索數據值,需要將數據轉化為故事和情景、圖錶、數據指標和透視圖。
  本書內容和技術綜述
  本書側重於三個關鍵的技術領域,這些技術用於將數據轉化為可操作的信息:
  ● 關係型數據庫存儲數據。獲取數據的*基本的語言是SQL(注意,變種的SQL也用於NoSQL數據庫)。
  ● Excel工作錶是展示數據的*常見工具。或許,Excel*強大的功能是繪圖,它能夠將包含數字的列轉換為圖片。
  ● 統計學是數據分析的基礎。
  這三種技術一並介紹,是因為它們是彼此相關的。SQL迴答“我們如何訪問數據?”統計學迴答:“數據是如何相關的?”而使用Excel可以方便地嚮人們展示和證明我們所發現的結論。
  關於數據處理的描述圍繞著SQL語言。在實際業務中,Oracle、PostgresSQL、MySQL、IBM DB2,以及微軟的SQL Server等都是常見的數據庫,它們存儲海量的業務數據事務信息。好消息是所有的關係型數據庫都支持SQL作為查詢語言。然而,正如英國和美國被稱為是“擁有共同語言的兩個國傢”一樣,每種數據庫支持一些與眾不同的SQL方言。附錄列齣瞭如何使用不同的SQL方言實現一些常見的功能。
  相似地,也有其他華麗的展示工具和專業的製圖包。然而,對於一颱用於工作的電腦,安裝Excel或類似的電子錶格工具是再常見不過的事情瞭。
  統計學和數據挖掘技術通常並不需要高級工具。其中一些非常重要的技術,可以使用SQL和Excel輕易地實現,包括生存分析、相似模型、樸素貝葉斯模型和關聯規則。事實上,本書中介紹的方法通常比這些工具中的方法更強大,因為書中的方法更接近數據,因此它們更精準,而且容易定製。對這些技術的介紹涵蓋瞭基礎思想和深度擴展,這是在其他工具中所沒有的內容。
  本書章節描述瞭不同的技術,在熟悉工具和數據的前提下,為數據建模和數據探索提供紮實的知識介紹。本書同時強調,當簡單工具遇到瓶頸時,高級工具是非常有用的。
  內容結構
  本書的14章可以分為4部分。前3章介紹SQL、Excel和統計學的核心概念。中間7章討論特彆適閤使用SQL和Excel的數據探索和數據分析技術。在後續的3章中,從統計學和數據挖掘的角度,介紹瞭關於建模的更正式的思想。*後,新增的第14章討論編寫SQL查詢時的性能問題。
  每一章都通過不同的視角,介紹使用SQL和Excel做數據分析的方方麵麵,包括:
  ● 使用數據分析的基礎示例
  ● 分析師需要迴答的問題
  ● 詳解數據分析技術的工作原理
  ● 實現技術的SQL語法
  ● 以錶格或圖錶展示結果,以及如何在Excel中創建它們
  SQL是一門精準的語言,以至於有時難以讀懂。數據流程圖通常有助於理解SQL的工作原理。這些數據流程圖是SQL引擎實際處理數據的閤理預測,當然,實際上的數據處理細節由數據庫引擎決定。
  結果以錶格或圖錶的形式展現,分布在本書的所有章節中。此外,本書強調瞭Excel的一些重要特徵,介紹瞭Excel圖錶的一些有趣用法。每一章都有技術專欄,通常講述某項技術的重要方麵或與正文內容相關的一些有趣曆史背景。
  章節引導
  第1章“數據挖掘者眼中的SQL”從數據分析的角度介紹SQL,這是SQL語言的查詢部分,使用SELECT查詢從數據庫中獲取數據。
  第1章介紹瞭描述數據結構的實體-關係圖——錶、列,以及它們彼此間的關係。該章同時介紹瞭用於描述查詢處理過程的數據流程圖;通過數據流程圖,能夠可視化地理解數據的處理過程。本章介紹瞭全書中使用到的一些重要功能——例如聯接、聚閤和窗口函數。
  此外,第1章還描述瞭全書示例所使用的數據集(該數據集也可以從網站自行下載)。數據包括存儲零售數據的錶,存儲手機客戶數據的錶,以及其他描述郵政編碼和日曆的引用錶。
  第2章“錶中有什麼?開始數據探索”介紹使用Excel做數據探索和結果展現。在Excel的眾多功能中,或許*有用的功能就是繪圖瞭。正如一句古老的中國諺語所說,“百聞不如一見”。Excel的繪圖依據是數據。這樣的圖錶不僅美觀有用,同時在Word文檔、PPT展示、電子郵件、網站中也非常實用。
  圖錶並非終點,它們隻是探索數據分析的一個方麵。此外,本章還介紹瞭在錶格中匯總列,以及使用Excel生成SQL查詢的有趣想法。
  第3章“不同之處是如何不同”介紹瞭一些描述性統計學的核心概念,例如平均值、P值和卡方檢測。本章的目的是展示如何將這些技術應用於數據錶中的數據上。至於這些統計學內容和統計學測試方法的選擇,是由它們的實用性決定的。同時,本章側重介紹這些知識的使用方法,而不是它們的理論內容。多數的統計學測試方法都可以使用Excel(甚至SQL)來實現。
  SQL技術
  一些技術非常適閤使用SQL和Excel。
  第4章“發生的地點在何處?”介紹瞭地理數據以及如何將地理信息納入數據分析中。地理信息首先是位置,以經度和緯度描述。位置也可以用不同等級的地理信息描述,例如人口普查區、郵政編碼區域,以及其他我們熟悉的國傢和省份,這些數據都可從人口統計局(或是其他相似的政府機構)獲取。這一章也討論瞭如何使用不同地理等級比較結果集。*後,不包含地圖的地理信息是不完整的。使用基礎的Excel功能,可以創建非常初級的地圖。
  第5章“關於時間”討論瞭客戶行為的另一個關鍵特徵:什麼時候發生。該章描述瞭如何訪問數據庫中的日期和時間,以及如何使用這些信息來幫助理解客戶。該章包含的示例,可以用於準確地比較不同年份的數據,並從曆史上計算每天的活躍客戶數量。該章*後介紹Excel中的一個簡單的動畫——也是本書中*一處使用Visual Basic的地方。
  第6章和第7章介紹瞭用於理解客戶隨時間變化的*重要的數據分析技術。在傳統的統計學中,生存分析根深蒂固,而且它也很適閤處理與客戶相關的問題。
  第6章“客戶的持續時間有多久?使用生存分析理解客戶和他們的價值”介紹瞭風險率和生存率的基本思想,解釋瞭如何使用SQL和Excel簡單地計算它們。或許令人感到驚訝的是,在使用生存分析時,並不需要復雜的統計學工具。第6章後續介紹瞭生存分析應用在實際業務中的重要性,例如平均客戶生命周期。然後講解如何將這些片段拼接在一起,形成對客戶值計算的預測。
  第7章“影響生存率的因素:客戶任期”擴展討論三個不同的領域。*,它解決瞭在以客戶為中心的數據庫中的重要問題:左截斷(left-truncation)。第二,它介紹瞭生存分析領域中的一個非常有趣的思想:競爭風險。這個思想考慮瞭一個事實,即客戶是因不同原因而離開的。第三,將生存分析應用在分析前和分析後。即當客戶在其生命周期內發生一些事情時,我們如何量化所發生的事情,例如量化客戶加入忠誠計劃之後的影響,或量化一次失敗的主要計費方法。
  第8章至第10章使用SQL和Excel介紹如何理解客戶正在購買的內容。
  第8章“多次購買以及其他重復事件”介紹瞭關於購買事件的所有事——什麼時候發生,在哪裏發生,發生頻率——除瞭購買的東西。該章介紹瞭RFM,一種理解客戶購買行為的傳統技術。同時介紹瞭隨時間推移,在識彆客戶時的種種問題。即使是在我們查看詳細的購買信息之前,我們也能發現很多關於購買的信息。
  在第9章“購物車裏有什麼?購物車分析”中,産品成瞭焦點。該章介紹瞭隨時間推移,針對購買行為的探索性分析。該章包括瞭如何識彆驅動客戶行為的産品,同時介紹瞭Excel中一些有趣的可視化方法。
  第10章“關聯規則”轉移到對關聯規則的正式討論。關聯規則是指被同時購買或按序購買的産品組閤。在SQL中建立關聯規則是相當復雜的。本章討論的方法擴展瞭傳統的關聯規則分析,介紹更有效的替換指標,並展示如何生成不同事物的組閤。例如,單擊會導緻一次購買行為(使用網站的一個實例)。在本章中解釋的關聯規則技術,比數據挖掘工具中的技術更強大,因為這裏的技術是可以擴展的,並使用支持度、置信度和提升度之外的指標。
  建模技術
  接下來的3章討論統計學和數據挖掘的建模技術和方法。
  第11章“SQL數據挖掘模型”介紹瞭數據挖掘的建模思想,以及建模相關的名詞。同時討論瞭一些重要的模型類型,這些模型適用於處理業務問題和SQL環境。相似性模型找到與給定示例相似的事物。查找模型使用查找錶返迴模型評分。
  該章同時介紹瞭一種更復雜的建模技術,即樸素貝葉斯模型。這門技術可以總結不同業務維度的信息來估算未知的數值。
  第12章“*佳擬閤綫:綫性迴歸模型”介紹瞭一種更傳統的統計學技術:綫性迴歸。該章介紹瞭不同種類的綫性迴歸,包括多項式迴歸、加權迴歸、多維迴歸和指數迴歸。這些內容以Excel圖錶的形式介紹,同時包含R2值,用於衡量模型與數據的擬閤度。
  對迴歸的介紹同時用到瞭Excel和SQL。雖然Excel中有幾種內置的功能可以處理迴歸問題,但Solver比這些內置功能更強大。本章從綫性迴歸的角度介紹瞭Solver(Solver是可與Excel綁定的免費加載項)。
  第13章“為進一步分析數據創建客戶簽名”介紹瞭客戶簽名。客戶簽名是一個數據結構,它總結瞭客戶在某個特定的時間點的數據。客戶簽名在建模時非常強大。
  在介紹該章時認識到雖然SQL和Excel都非常強大,但有時還需要一些更復雜的工具。很多情況下,客戶簽名是總結客戶信息的正確方法,而且SQL是完成這類總結的強大工具。
  性能
  編寫SQL查詢的一個原因是性能——通過至少完成一些分析工作,可以將已有的硬件資源分配給關係型數據庫。編寫一本關於通用SQL而非指定數據庫的書籍,其缺點就是缺少關於特定數據庫的一些技巧和提示。
  令人欣慰的是,很多關於編寫SQL的*佳實踐能夠普遍提升查詢在不同數據庫中的執行速度。第14章“性能問題:高效使用SQL”緻力於這個話題。其中特彆討論瞭索引和如何利用索引,同時還介紹瞭編寫查詢的不同方法?——以及為什麼有些方法的性能更好。
  本書讀者對象
  本書麵嚮不同技術等級的各類讀者。
  技術方麵不足的管理者,特彆是那些負責理解客戶或業務單元的管理者。通常情況下,這樣的人精通Excel,然而,他們所需要的數據存儲於關係型數據庫中。為瞭幫助他們,本書中的示例提供瞭有用的結果集。這些示例十分詳盡,不僅展示瞭業務問題,同時展示瞭技術方法和結果。
  另一部分讀者,他們的工作是理解數據和客戶,通常他們的職位描述中包含“分析師”字樣。這些人通常使用Excel和其他工具,有時直接訪問數據倉庫或一些以客戶為中心的數據庫。本書能幫助他們提高SQL查詢技巧,展示好的圖錶示例,以及介紹生存分析和關聯規則,以便他們理解客戶和業務。
  一部分重要的讀者是數據科學傢,他們精通諸如R或Python這樣的工具,但是他們發現需要學習其他的工具。在業務世界中,以編程為中心的工具可能並不足以解決問題,分析師可能會發現他們不得不直接處理關係型數據庫中的數據,並以Excel形式展現給用戶。
  技術等級更高的是統計學傢,他們通常使用有特殊功能的工具,例如SAS、SPSS、R和S-plus。然而,數據存儲於數據庫中。本書可以在SQL技術方麵為他們提供幫助,並提供數據分析示例以幫助他們解決業務問題。
  此外,數據庫管理員、數據庫設計者和架構師應該會發現本書是非常有趣的。在不同章節中展示的查詢,說明瞭人們對數據的使用方式和方法。這些查詢應該可以促進數據庫管理員和設計者創建更適閤使用的高效數據庫。
  建議所有的讀者,即使是技術專傢,閱讀或至少瀏覽前3章內容。這些章節全部從分析海量數據的視角,介紹SQL、Excel和統計學知識。這個視角與平常所讀書籍的視角不同。在這些章節中,有相當一部分的內容和想法貫穿全書,例如樣本數據、數據流、SQL語法和格式轉換、齣色的圖標繪製。
  需要的工具
  本書是獨立的——讀者應該可以直接通過書中的內容閱讀並學習。
  本書中的所有SQL語句都經過測試(在微軟SQL Server數據庫上,少量查詢在其他數據庫(PostgresSQL)上測試)。可以從網上下載數據集和結果,網址為www.wiley.com/go/data-
  analysisusingsqlandexcel2e。對於想要嘗試的讀者,我們建議下載數據並執行書中的示例代碼。
  本書中,多數示例是與數據庫供應商無關的,因此,它們(或稍作修改後)應該可以在所有的關係型數據庫中執行。這裏不建議使用Microsoft Access或MySQL,因為它們缺少窗口函數——窗口函數是分析性查詢的關鍵功能。
  如果沒有數據庫,可以下載一些程序包;數據庫供應商通常會提供一些免費的單機版本。例如,SQL Server Express是微軟提供的免費SQL Server版本,Oracle也提供免費版本的Oracle數據庫,可以從下載PostgresSQL數據庫,其他數據庫也有它們的免費版本。
  網站內容介紹
  配套網站上包含本書使用的數據集。這些數據集包含如下信息:
  ● 引用錶。共有3個引用錶,其中兩張錶包含人口統計信息(來自於人口統計局2000年的統計數據),另一張錶包含關於日期的日曆信息。
  ● Subscribers數據集,用於描述移動電話公司的客戶子集。
  ● Purchases數據集,用於描述客戶購買模式的數據集。
  下載這些數據的同時,還可以下載將數據導入SQL Server和其他數據庫的使用說明。
  此外,配套網站的其他頁麵包含更多的信息。例如,將數據導入常見數據庫中的腳本,包含SQL查詢的工作錶,以及本書中使用Excel生成的所有錶格和圖錶。
  總 結
  本書起源於一個同事的問題,他詢問是否有一本關於使用SQL做數據分析的參考書。然而,所需要的並不是簡單的關於SQL的參考書,即使它側重介紹使用SQL做數據查詢的實際使用。
  對於數據分析,不能憑空學習SQL。一個SQL查詢,不管它編寫的多麼精妙,通常不是一個業務問題的完整解決方案。業務問題,需要被轉換為可以使用查詢迴答的問題。然後需要將結果展示齣來,通常以錶格或Excel圖錶的形式。
  筆者想要擴展這個觀點。在現實世界中,也不能憑空學習統計學知識。曾經,收集數據不僅花費時間且難以操作。現在,數據量非常足夠。例如,本書的配套網站,隻需要輕點幾下,就能上傳幾GB的數據。數據分析的問題不再局限於幾個統計學方法,同時包括管理和抽取數據。
  本書將三個核心概念融入到解決問題這一條綫中。在筆者的數據挖掘生涯中,筆者發現SQL、Excel和統計學是分析數據的關鍵性工具,比某些特殊的技術更加重要。希望本書可以幫助讀者改進他們的技術,並為他們理解客戶和理解業務提供新思路。

用户评价

评分

这本书有点啃不下去了的样子,看起来进度比较慢,没之前的进度快~

评分

质量杠杠的,内容讲的也挺不错,纸质好,618买的,送货也快,相信品牌的力量,值得拥有!

评分

做活动买的,很核算

评分

经常网购,总有大量的包裹收,感觉写评语花掉了我大量的时间和精力!所以在一段时间里,我总是我又总是觉得好像不去评价或者随便写写!但是,有点对不住那些辛苦工作的卖家客服、仓管、老板。于是我写下了一小段话,给我觉得能拿到我五星好评的卖家的宝贝评价里面以示感谢和尊敬!首先,宝贝是性价比很高的,我每次都会先试用再评价的,虽然宝贝不一定是最好的,但在同等的价位里面绝对是表现最棒的。京东的配送绝对是一流的,送货速度快,配送员服务态度好,每样东西都是送货上门。希望京东能再接再厉,做得更大更强,提供更多更好的东西给大家。为京东的商品和服务点赞。

评分

有点儿简单。适合文科生看。工业界的兄弟们就不要看了。

评分

送货快,书看起来不错。顺应时代的发展,工作要转型了,从做硬件转向软件和数据分析,顺不顺利就靠你们了!

评分

618期间200-100,然后用券200-80,虽然总价比活动前提了很多,但是到手价还是比以前低,比较划算。

评分

书挺厚,内容也丰富,物流挺快的。

评分

r语言建模集大成者,各种各样的模型,建模的思想都很有帮助

相关图书

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 tushu.tinynews.org All Rights Reserved. 求知書站 版权所有