數據分析技術（第2版）使用SQL和Excel工具 pdf epub mobi txt 电子书下载 2025

☆☆☆☆☆

[美] Gordon S.Linoff 著，陶佰明譯

圖書標籤:

數據分析
SQL
Excel
數據處理
統計分析
商業分析
數據可視化
數據挖掘
數據報告
第2版

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到求知書站

tushu.tinynews.org

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：清华大学出版社

ISBN：9787302461395

版次：1

商品编码：12149366

包装：平装

开本：16开

出版时间：2017-03-01

用纸：胶版纸

页数：604

字数：961000

正文语种：中文

具体描述

産品特色

編輯推薦

　　本書的14章可以分為4部分。前3章介紹SQL、Excel和統計學的核心概念。中間7章討論特彆適閤使用SQL和Excel的數據探索和數據分析技術。在後續的3章中，從統計學和數據挖掘的角度，介紹瞭關於建模的更正式的思想。*後，新增的第14章討論編寫SQL查詢時的性能問題。
　　每一章都通過不同的視角，介紹使用SQL和Excel做數據分析的方方麵麵，包括：
　　● 使用數據分析的基礎示例
　　● 分析師需要迴答的問題
　　● 詳解數據分析技術的工作原理
　　● 實現技術的SQL語法
　　● 以錶格或圖錶展示結果，以及如何在Excel中創建它們

內容簡介

　　SQL是數據查詢的基本語言，Excel是數據分析和展示的*常見工具。兩者結閤，可以組成一個強大且易於理解的業務數據分析工具。很多類重要的數據分析並不需要復雜且昂貴的數據挖掘工具。答案就在你的電腦桌上。
　　這是一本實用指南，作者Gordon S. Linoff是數據挖掘領域的*專傢。書中介紹瞭如何使用SQL和Excel來設計並完成復雜的數據分析。本書的第1版被廣泛認可，第2版涵蓋瞭對SQL和Excel新功能的介紹，同時包括新的技術和實際業務示例。第2版介紹瞭業務經理和數據分析人員所需掌握的*新信息。
　　本書首先介紹數據挖掘所用的SQL基礎知識，如何使用Excel展示結果，以及用於理解數據的簡單的統計學概念。熟悉執行SQL和操作Excel後，本書介紹瞭核心分析技術。本書內容逐步從基礎查詢擴展到復雜的應用，使讀者能夠學習到某種數據分析的使用原因和時機，如何設計和實現，以及展示數據分析結果的強大方法。每一步都詳細解釋瞭業務環境、技術方法以及在所熟悉工具中的具體實現。
　　隨著對本書的閱讀，你會發現很多知識點，包括地理信息的重要性，圖錶中的數據隨時間的變化方式，如何使用生存分析理解客戶任期和變動，以及影響生存率的因素。同時，還會探索到一些方法，包括分析客戶的購買模式、分析購物車以及計算關聯規則。此外，本書還包含重要的SQL數據挖掘模型(綫性迴歸模型、樸素貝葉斯模型等)、建立客戶簽名所需的信息、用於分析結果集的模型、包含纍積增量圖錶和ROC圖錶、使用SQL的*佳實踐、提高查詢性能的方法等。

作者簡介

　　Gordon S. Linoff，從事數據庫工作數十年。在他的記憶中，他開始學習SQL時，還是SQL92標準版。當時他正領導一支開發團隊(現已不存在的Thinking Machines公司)，編寫*個側重於復雜查詢的高性能數據庫，用於支持決策分析。
　　此後，Gordon在1998年閤作創建瞭Data Miners公司，這是一傢緻力於數據挖掘、分析和大數據的谘詢公司。在他的工作生涯中，數據仍然是永恒的主題——而且通常是存儲於關係型數據庫中的數據。他對SQL的理解和應用也變得越來越深刻和嫻熟。在2014年，他是Stack Overflow的*多貢獻者，Stack Overflow是行業內領先的技術問答網站。
　　Gordon編寫的另外幾本書也都是暢銷書：《數據挖掘技術(第3版)——應用於市場營銷、銷售與客戶關係管理》、Mastering Data Mining和Mining the Web——這些書籍都側重於數據挖掘和數據分析。本書延續廣受好評的第1版，側重於如何實際地獲取和解釋數據結果，更具有實踐性。

內頁插圖

第1章數據挖掘者眼中的SQL 1
1.1 數據庫、SQL和大數據 2
1.1.1 什麼是大數據？ 2
1.1.2 關係型數據庫 3
1.1.3 Hadoop和Hive 3
1.1.4 NoSQL和其他類型的數據庫 3
1.1.5 SQL 4
1.2 繪製數據結構 4
1.2.1 什麼是數據模型？ 5
1.2.2 什麼是錶？ 5
1.2.3 什麼是實體-關係圖錶？ 8
1.2.4 郵政編碼錶 9
1.2.5 訂閱數據集 10
1.2.6 訂單數據集 11
1.2.7 關於命名的提示 12
1.3 使用數據流描述數據分析 12
1.3.1 什麼是數據流？ 13
1.3.2 數據流、SQL和關係代數 16
1.4 SQL查詢 16
1.4.1 做什麼，而不是怎麼去做 16
1.4.2 SELECT語句 17
1.4.3 一個基礎的SQL查詢 17
1.4.4 一個基本的SQL求和查詢 19
1.4.5 聯接錶的意義 20
1.4.6 SQL的其他重要功能 26
1.5 子查詢和公用錶錶達式 29
1.5.1 用於命名變量的子查詢 29
1.5.2 處理統計信息的子查詢 32
1.5.3 子查詢和IN 33
1.5.4 用於UNION ALL的子查詢 37
1.6 小結 38
第2章錶中有什麼？開始數據探索 39
2.1 什麼是數據探索？ 40
2.2 Excel中的繪圖 40
2.2.1 基礎圖錶：柱形圖 41
2.2.2 單元格中的條形圖 45
2.2.3 柱形圖的有用變化形式 47
2.2.4 其他類型的圖錶 50
2.3 迷你圖 53
2.4 列中包含的值 55
2.4.1 直方圖 55
2.4.2 計數的直方圖 58
2.4.3 計數的纍積直方圖 60
2.4.4 數字值的直方圖(頻率) 60
2.5 探索更多的值——*小值、*大
值和模式 64
2.5.1 *小值和*大值 64
2.5.2 *常見的值(模式) 65
2.6 探索字符串值 66
2.6.1 長度的直方圖 66
2.6.2 起始或結尾包含空白字符
的字符串 66
2.6.3 處理大小寫問題 67
2.6.4 字符串中存儲的字符是
什麼？ 67
2.7 探索兩個列中的值 69
2.7.1 每個州的平均銷售額
是多少？ 70
2.7.2 在一個單獨的訂單中，産品重復
齣現的頻率是多少？ 70
2.7.3 哪個州的American Express
用戶*多？ 73
2.8 由一個列的數據擴展到所有列
的數據匯總 73
2.8.1 針對單列的匯總 74
2.8.2 返迴錶中所有列的查詢 76
2.8.3 使用SQL生成匯總編碼 76
2.9 小結 78
第3章不同之處是如何不同？ 79
3.1 基本的統計學概念 80
3.1.1 虛擬假設 80
3.1.2 可信度和概率 81
3.1.3 正態分布 82
3.2 平均值的區彆有多大？ 85
3.2.1 方法 85
3.2.2 子集平均值的標準差 85
3.2.3 三個方法 87
3.3 對錶做抽樣 89
3.3.1 隨機抽樣 89
3.3.2 可重復的隨機樣本 90
3.3.3 分層比例抽樣 91
3.3.4 平衡的樣本 92
3.4 計數的可能性 93
3.4.1 有多少男性成員？ 96
3.4.2 有多少加利福尼亞人？ 98
3.4.3 虛擬假設和可信度 99
3.4.4 有多少客戶仍然是活躍
客戶？ 100
3.4.5 比率或數字？ 103
3.5 概率和它們的統計 104
3.5.1 概率的標準差 104
3.5.2 概率的置信區間 105
3.5.3 概率的不同 106
3.5.4 保守的下限值 107
3.6 卡方檢驗 107
3.6.1 期望值 108
3.6.2 卡方計算 108
3.6.3 卡方分布 109
3.6.4 SQL中的卡方檢驗 111
3.6.5 州和産品之間的特殊關係 112
3.7 月份和支付類型與不同産品
類型的特殊關係 114
3.7.1 多維卡方 114
3.7.2 使用SQL查詢 115
3.7.3 結果 115
3.8 小結 116
第4章發生的地點在何處？ 119
4.1 緯度和經度 120
4.1.1 緯度和經度的定義 120
4.1.2 度數、分鍾和秒 121
4.1.3 兩個位置之間的距離 122
4.1.4 包含郵政編碼的圖片 128
4.2 人口統計 131
4.2.1 極端情況：*富有的和*貧
窮的人 132
4.2.2 分彆在使用訂單和不使用訂
單的情況下比較郵政編碼 137
4.3 地理等級 142
4.3.1 州中*富有的郵政編碼 142
4.3.2 州中擁有*多訂單的郵政
編碼 143
4.3.3 地理數據中有趣的層級
結構 145
4.3.4 計算郡的財富 148
4.3.5 財富值的分布 150
4.3.6 在郡中，哪個郵政編碼是相對
*富有的？ 151
4.3.7 擁有*高的相對訂單占有
份額的郡 152
4.4 在Excel中繪製地圖 155
4.4.1 為什麼繪製地圖？ 155
4.4.2 不能繪圖 156
4.4.3 網絡地圖 156
4.4.4 郵政編碼散點圖之上的州
邊界 157
4.5 小結 159
第5章關於時間 161
5.1 數據庫中的日期和時間 162
5.2 開始調研日期 166
5.2.1 確認日期中沒有時間 166
5.2.2 根據日期比較計數 167
5.2.3 訂單數和訂單大小 172
5.2.4 星期 175
5.3 兩個日期之間有多長？ 178
5.3.1 以天為單位的持續時間 178
5.3.2 以星期為單位的持續時間 180
5.3.3 以月為單位的持續時間 180
5.3.4 有多少個星期一？ 181
5.3.5 下一個周年紀念日(或生日)
是什麼時候？ 184
5.4 跨年比較 188
5.4.1 以天為單位比較 188
5.4.2 以星期為單位比較 189
5.4.3 以月為單位比較 190
5.5 以天計算活躍客戶數量 196
5.5.1 某天的活躍客戶數量 196
5.5.2 每天的活躍客戶數量 196
5.5.3 有多少不同類型的客戶？ 198
5.5.4 不同任期時段的客戶數量 198
5.5.5 隻使用SQL計算活躍客戶 201
5.6 Excel中的簡單圖錶動畫 203
5.6.1 從訂單生成日期到運貨
日期 203
5.6.2 訂單延時在每年中的變化 205
5.7 小結 208
第6章客戶的持續時間有多久？使用
生存分析理解客戶和他們的
價值 209
6.1 生存分析 210
6.1.1 平均壽命 211
6.1.2 醫學研究 212
6.1.3 關於風險率的示例 212
6.2 風險計算 213
6.2.1 數據調研 214
6.2.2 風險率 216
6.2.3 客戶可視化：時間與任期 217
6.2.4 截尾 219
6.3 生存率和保留率 220
6.3.1 生存率的點的估計 220
6.3.2 計算任意任期的生存率 221
6.3.3 在SQL中計算生存率 222
6.3.4 簡單的客戶保留率計算 225
6.3.5 保留率和生存率的區彆 226
6.3.6 風險率和生存率的簡單
示例 227
6.4 對比不同的客戶分組 230
6.4.1 市場總結 230
6.4.2 市場分層 231
6.4.3 生存率比例 234
6.4.4 條件生存率 234
6.5 隨時間變化的生存率 236
6.5.1 特定風險率隨時間的變化 236
6.5.2 按照起始年份分類的客戶
生存率 238
6.5.3 之前的生存率什麼樣？ 239
6.6 由生存率衍生齣來的重要
指標 241
6.6.1 估算生存點 241
6.6.2 客戶任期的中間值 242
6.6.3 客戶生命周期的中間值 242
6.6.4 風險率的置信度 243
6.7 使用生存率計算客戶價值 245
6.7.1 估算收入 246
6.7.2 對個體的未來收入的估算 247
6.7.3 當前客戶分組的收入估算 249
6.7.4 所有客戶未來收入的估算 251
6.8 預測 253
6.8.1 對已有客戶的預測 254
6.8.2 對新開始者的預測 258
6.9 小結 259
第7章影響生存率的因素：客戶
任期 261
7.1 哪些因素是重要的，何時
重要？ 262
7.1.1 方法說明 262
7.1.2 使用平均值比較數字因素 264
7.1.3 風險比例 268
7.2 左截斷 271
7.2.1 認識左截斷 271
7.2.2 左截斷的影響 273
7.2.3 如何從理論上解決左截斷
問題 274
7.2.4 估算一個任期的風險率 275
7.2.5 估算所有任期的風險率 276
7.2.6 在SQL中計算 277
7.3 時間窗 278
7.3.1 一個商業問題 278
7.3.2 時間窗=左截斷+右截尾 278
7.4 競爭風險 283
7.4.1 競爭風險的示例 283
7.4.2 競爭風險的“風險率” 284
7.4.3 競爭風險的“生存率” 286
7.4.4 隨著時間的變化，客戶身上
發生瞭什麼？ 287
7.5 事件前後 291
7.5.1 三種情況 291
7.5.2 使用生存率預測來理解一次
性事件 293
7.5.3 比較前後風險率 294
7.5.4 基於對列的方法 294
7.5.5 基於對列的方法：完全隊列 295
7.5.6 事件影響的直接估計 297
7.6 小結 301
第8章多次購買以及其他重復事件 303
8.1 標識客戶 304
8.1.1 誰是那個客戶？ 304
8.1.2 其他客戶信息 313
8.1.3 每一年齣現多少新客戶？ 316
8.2 RFM分析 325
8.2.1 維度 325
8.2.2 計算RFM單元格 329
8.2.3 RFM的有用程度 330
8.3 隨著時間的變化，哪些傢庭的
購買金額在增長？ 334
8.3.1 *早值和*晚值的比較 334
8.3.2 *年和*後一年的值的
比較 341
8.3.3 *佳擬閤綫的趨勢 343
8.4 距離下一次事件的時間 344
8.4.1 計算背後的想法 344
8.4.2 使用SQL計算下一次購買
日期 345
8.4.3 從下一次購買日期到時間至
事件的分析 346
8.4.4 時間到事件分析的分層 347
8.5 小結 347
第9章購物車裏有什麼？購物車
分析 349
9.1 探索産品 349
9.1.1 産品的散點圖 350
9.1.2 産品組的運輸年份 351
9.1.3 訂單中的重復産品 353
9.1.4 單位數量的直方圖 358
9.1.5 在一個訂單中，哪個産品可能
齣現多次購買的情況？ 359
9.1.6 改變價格 361
9.2 産品和客戶價值 362
9.2.1 訂單大小的一緻性 362
9.2.2 與一次性客戶關聯的産品 365
9.2.3 與*好的客戶相關的産品 368
9.2.4 剩餘價值 370
9.3 産品的地理分布 372
9.3.1 每一個州中*常見的産品 372
9.3.2 哪些産品廣受歡迎，哪些産品
隻在本地受歡迎？ 373
9.4 哪些客戶購買瞭指定産品？ 375
9.4.1 哪些客戶擁有*受歡迎的
産品？ 375
9.4.2 客戶擁有哪個産品？ 376
9.4.3 哪些客戶有3個特定的
産品？ 381
9.4.4 普遍的嵌套集閤的查詢 384
9.5 小結 385
第10章關聯規則 387
10.1 項集 388
10.1.1 兩個産品的組閤 388
10.1.2 更常見的項集 391
10.1.3 傢庭，而不是訂單 396
10.2 *簡單的關聯規則 399
10.2.1 關聯和規則 400
10.2.2 零項關聯規則 400
10.2.3 概率的分布情況 401
10.2.4 零項關聯告訴瞭我們
什麼？ 402
10.3 單項關聯規則 402
10.3.1 單項關聯規則的價值 402
10.3.2 生成所有的單項規則 404
10.3.3 包含評估信息的單項
規則 405
10.3.4 基於産品組的單項規則 406
10.4 雙項關聯 407
10.4.1 計算雙項關聯 408
10.4.2 使用卡方找到*佳規則 409
10.4.3 異質相關 413
10.5 擴展關聯規則 416
10.5.1 多項關聯 416
10.5.2 一個查詢中的多項關聯 418
10.5.3 使用産品屬性的規則 418
10.5.4 左右兩側項集內容不同
的規則 419
10.5.5 之前和之後：有序關聯
規則 419
10.6 小結 422
第11章 SQL數據挖掘模型 423
11.1 定嚮數據挖掘介紹 424
11.1.1 定嚮模型 424
11.1.2 建模中的數據 425
11.1.3 建模應用示例 427
11.1.4 模型評估 429
11.2 相似性模型 429
11.2.1 模型是什麼？ 430
11.2.2 *好的郵政編碼是
哪個？ 430
11.2.3 基礎的相似性模型 431
11.2.4 使用Z分數計算相似性
模型 433
11.2.5 鄰近模型示例 434
11.3 *受歡迎産品的查找模型 435
11.3.1 *受歡迎的産品 435
11.3.2 計算*受歡迎的産品組 436
11.3.3 評估查找模型 437
11.3.4 使用調試查找模型做
預測 437
11.3.5 使用二元分類 439
11.4 用於訂單大小的查找模型 440
11.4.1 *基本的模型：無維度
模型 440
11.4.2 添加一個維度 441
11.4.3 添加額外的維度 443
11.4.4 檢查不穩定性 443
11.4.5 使用平均值圖錶評估
模型 444
11.5 用於響應率的查找模型 445
11.5.1 將整體概率作為一個
模型 445
11.5.2 探索不同的維度 446
11.5.3 模型的精準度 447
11.5.4 ROC圖錶和AUC 450
11.5.5 加入更多的維度 453
11.6 樸素貝葉斯模型(證據模型) 455
11.6.1 概率的一些概念 455
11.6.2 計算樸素貝葉斯模型 457
11.6.3 樸素貝葉斯模型：評分和
提升度 463
11.6.4 樸素貝葉斯模型和查找
模型的比較 465
11.7 小結 466
第12章 *佳擬閤綫：綫性迴歸
模型 467
12.1 *佳擬閤綫 468
12.1.1 任期和支付金額 468
12.1.2 *佳擬閤綫的屬性 469
12.1.3 小心數據 473
12.1.4 圖錶中的趨勢綫 474
12.1.5 使用LINEST()函數的
*佳擬閤 479
12.2 使用R2衡量擬閤程度 483
12.2.1 R2值 483
12.2.2 R2的局限性 484
12.2.3 R2的含義 484
12.3 直接計算*佳擬閤綫係數 485
12.3.1 計算係數 485
12.3.2 在SQL中計算*佳
擬閤綫 486
12.3.3 價格彈性 487
12.4 加權的綫性迴歸 492
12.4.1 在*年停止的客戶 492
12.4.2 加權的*佳擬閤 493
12.4.3 圖錶中的加權*佳
擬閤綫 494
12.4.4 SQL中的加權*佳
擬閤綫 495
12.4.5 使用Solver的加權*佳
擬閤綫 496
12.5 多個輸入 498
12.5.1 Excel中的多維迴歸 498
12.5.2 建立包含三個變量的
模型 500
12.5.3 使用Solver處理多維
迴歸 501
12.5.4 逐個選擇輸入變量 501
12.5.5 SQL中的多維迴歸 502
12.6 小結 503
第13章為進一步分析數據創建客戶
簽名 505
13.1 什麼是客戶簽名？ 506
13.1.1 什麼是客戶？ 506
13.1.2 客戶簽名的源數據 507
13.1.3 使用客戶簽名 510
13.2 設計客戶簽名 511
13.2.1 調試和預測 511
13.2.2 字段的角色 511
13.2.3 時間段 512
13.3 建立客戶簽名的操作 515
13.3.1 驅動錶 515
13.3.2 查找數據 518
13.3.3 *初的交易 520
13.3.4 鏇轉 521
13.3.5 總結 528
13.4 抽取特徵 530
13.4.1 地理位置信息 530
13.4.2 日期時間列 531
13.4.3 字符串中的模式 532
13.5 總結客戶行為 534
13.5.1 計算時間序列的斜率 534
13.5.2 周末消費者 537
13.5.3 下降的使用行為 540
13.6 小結 541
第14章性能問題：高效使用SQL 543
14.1 查詢引擎和性能 544
14.1.1 用於理解性能的時間
復雜度 544
14.1.2 一個簡單的示例 545
14.1.3 與性能相關的思考 547
14.1.4 性能的含義和測量 549
14.1.5 性能提升入門 549
14.2 高效使用索引 553
14.2.1 什麼是索引？ 553
14.2.2 索引的簡單示例 557
14.2.3 索引的限製 560
14.2.4 高效使用復閤索引 562
14.3 何時使用OR是低效的？ 566
14.3.1 有時UNION ALL比OR
更好 566
14.3.2 有時LEFT OUTER JOIN比
OR更高效 567
14.3.3 有時多個條件錶達式
更好 568
14.4 贊成和反對：錶達一件事情的
不同方法 569
14.4.1 在Orders錶中，哪些州
沒有被識彆？ 569
14.4.2 一個關於GROUP BY的
難題 571
14.4.3 小心COUNT(*)=0 573
14.5 窗口函數 576
14.5.1 窗口函數適用於什麼
地方？ 576
14.5.2 窗口函數的靈活使用 576
14.6 小結 582
附錄數據庫之間的等價結構 583

前言/序言

　　本書的第1版使用我們熟悉的工具SQL和Excel，從實用的角度解釋數據分析。這本書的指導原則是從問題齣發，同時從業務角度和技術角度提供解決方案，以指導讀者。這個方法被證明是非常成功的。
　　從第1版到現在已經過去瞭10年，這期間已經發生瞭很多變化，工具本身也發生瞭很多變化。例如，當年的Excel還沒有功能區，而且在當時的數據庫中，窗口函數也非常罕見。一些工具，如Python和R，以及NoSQL數據庫變得越來越常見，它們改變瞭分析師賴以生存的工具世界。然而，隨著技術延伸到大大小小的各項業務中，關係型數據庫在今天仍然被廣泛使用，而且SQL也變得更加至關重要。對於很多商務人士，Excel工具仍然是做報錶和展示的理想之選。大數據不再是未知的領域，它是我們每天都會麵臨的問題、挑戰和機遇。
　　根據底層軟件的變化，在第2版中對本書的內容做瞭調整和更新，同時包含瞭更多的示例和技術，以及增加瞭關於數據庫性能的一整章新內容。同時，我一直在努力保持本書第1版的優勢。本書仍然圍繞著數據、分析和展示的原則—— 少見地將三個功能放在一起處理。示例圍繞著所提齣的問題，同時討論瞭這些問題的業務相關性和技術實現。示例使用的是真實的代碼。數據、代碼以及Excel示例都可以在配套網站上找到。
　　撰寫這本書的*初動機來源於我的一個同事—— Nick Drake，他是受過培訓的統計學傢。曾經，他一直在尋找一本書，關於介紹如何使用SQL編寫可用於數據分析的復雜查詢。當時，基於SQL的書籍，要麼介紹SQL的基礎查詢結構，要麼介紹數據庫的工作原理。嚴格地講，沒有從分析數據的角度介紹SQL的書籍，也沒有基於迴答數據問題的書籍。在統計學的眾多書籍中，沒有一本書能夠麵對這樣一個事實提齣解決方案：統計學所用的數據，多數都存儲於關係型數據庫中，而本書則填補瞭這一空白。
　　筆者與Michael Berry一起撰寫的其他關於數據挖掘的書籍，側重於高級算法和案例學習。相比之下，本書側重於“操作方式”。首先描述瞭存儲在數據庫中的數據，然後繼續完成準備數據和生成結果集的過程。書中穿插的內容，是我在這個領域多年經驗的結晶，解釋瞭結果集被應用的可能方式，以及為什麼有些事情有效果，而有些事情無效。書中示例非常具有實踐性，它們所使用的數據都在本書的配套網站上(www.wiley.com/go/dataanaly- sisusingsqlandexcel2e)。
　　關於數據倉庫和分析數據庫的一個老生常談的話題是它們實際上沒有做任何事。是的，它們存儲數據，能夠將不同來源的數據匯集在一起，並整理數據使數據變得清晰。是的，它們定義業務維度，存儲關於客戶的事務，還可能總結重要的數據(是的，所有這些都非常重要！)然而，數據庫中的數據存儲在鏇轉的硬盤上，而且數據在計算機內存中的數據結構非常復雜。對於如此多的數據，信息卻很少。
　　我們如何探索這些數據(特彆是描述客戶的數據)？很多關於統計學建模和數據挖掘的華麗算法都有一條簡單的規則：“無用輸入，無用輸齣”。即使是*復雜的技術，也隻有當數據是好數據時，結果纔是好的。數據是理解客戶、産品以及市場的中心。
　　本書中的章節覆蓋瞭數據的不同方麵，同時包含瞭SQL和Excel支持的重要的數據分析技術。這些數據分析技術的範圍涵蓋瞭很多內容，從*初的探索性數據分析到生存分析，從超市購物車分析到樸素貝葉斯模型，從簡單的動畫到綫性迴歸。當然，本書不可能涵蓋所有的數據分析技術。本書所介紹的方法曆經時間的考驗，被認為是有用的且適用於很多不同的領域。
　　*後，隻有數據和分析還不夠，還必須將結果展示給正確的觀眾。為完整地探索數據值，需要將數據轉化為故事和情景、圖錶、數據指標和透視圖。
　　本書內容和技術綜述
　　本書側重於三個關鍵的技術領域，這些技術用於將數據轉化為可操作的信息：
　　● 關係型數據庫存儲數據。獲取數據的*基本的語言是SQL(注意，變種的SQL也用於NoSQL數據庫)。
　　● Excel工作錶是展示數據的*常見工具。或許，Excel*強大的功能是繪圖，它能夠將包含數字的列轉換為圖片。
　　● 統計學是數據分析的基礎。
　　這三種技術一並介紹，是因為它們是彼此相關的。SQL迴答“我們如何訪問數據？”統計學迴答：“數據是如何相關的？”而使用Excel可以方便地嚮人們展示和證明我們所發現的結論。
　　關於數據處理的描述圍繞著SQL語言。在實際業務中，Oracle、PostgresSQL、MySQL、IBM DB2，以及微軟的SQL Server等都是常見的數據庫，它們存儲海量的業務數據事務信息。好消息是所有的關係型數據庫都支持SQL作為查詢語言。然而，正如英國和美國被稱為是“擁有共同語言的兩個國傢”一樣，每種數據庫支持一些與眾不同的SQL方言。附錄列齣瞭如何使用不同的SQL方言實現一些常見的功能。
　　相似地，也有其他華麗的展示工具和專業的製圖包。然而，對於一颱用於工作的電腦，安裝Excel或類似的電子錶格工具是再常見不過的事情瞭。
　　統計學和數據挖掘技術通常並不需要高級工具。其中一些非常重要的技術，可以使用SQL和Excel輕易地實現，包括生存分析、相似模型、樸素貝葉斯模型和關聯規則。事實上，本書中介紹的方法通常比這些工具中的方法更強大，因為書中的方法更接近數據，因此它們更精準，而且容易定製。對這些技術的介紹涵蓋瞭基礎思想和深度擴展，這是在其他工具中所沒有的內容。
　　本書章節描述瞭不同的技術，在熟悉工具和數據的前提下，為數據建模和數據探索提供紮實的知識介紹。本書同時強調，當簡單工具遇到瓶頸時，高級工具是非常有用的。
　　內容結構
　　本書的14章可以分為4部分。前3章介紹SQL、Excel和統計學的核心概念。中間7章討論特彆適閤使用SQL和Excel的數據探索和數據分析技術。在後續的3章中，從統計學和數據挖掘的角度，介紹瞭關於建模的更正式的思想。*後，新增的第14章討論編寫SQL查詢時的性能問題。
　　每一章都通過不同的視角，介紹使用SQL和Excel做數據分析的方方麵麵，包括：
　　● 使用數據分析的基礎示例
　　● 分析師需要迴答的問題
　　● 詳解數據分析技術的工作原理
　　● 實現技術的SQL語法
　　● 以錶格或圖錶展示結果，以及如何在Excel中創建它們
　　SQL是一門精準的語言，以至於有時難以讀懂。數據流程圖通常有助於理解SQL的工作原理。這些數據流程圖是SQL引擎實際處理數據的閤理預測，當然，實際上的數據處理細節由數據庫引擎決定。
　　結果以錶格或圖錶的形式展現，分布在本書的所有章節中。此外，本書強調瞭Excel的一些重要特徵，介紹瞭Excel圖錶的一些有趣用法。每一章都有技術專欄，通常講述某項技術的重要方麵或與正文內容相關的一些有趣曆史背景。
　　章節引導
　　第1章“數據挖掘者眼中的SQL”從數據分析的角度介紹SQL，這是SQL語言的查詢部分，使用SELECT查詢從數據庫中獲取數據。
　　第1章介紹瞭描述數據結構的實體-關係圖——錶、列，以及它們彼此間的關係。該章同時介紹瞭用於描述查詢處理過程的數據流程圖；通過數據流程圖，能夠可視化地理解數據的處理過程。本章介紹瞭全書中使用到的一些重要功能——例如聯接、聚閤和窗口函數。
　　此外，第1章還描述瞭全書示例所使用的數據集(該數據集也可以從網站自行下載)。數據包括存儲零售數據的錶，存儲手機客戶數據的錶，以及其他描述郵政編碼和日曆的引用錶。
　　第2章“錶中有什麼？開始數據探索”介紹使用Excel做數據探索和結果展現。在Excel的眾多功能中，或許*有用的功能就是繪圖瞭。正如一句古老的中國諺語所說，“百聞不如一見”。Excel的繪圖依據是數據。這樣的圖錶不僅美觀有用，同時在Word文檔、PPT展示、電子郵件、網站中也非常實用。
　　圖錶並非終點，它們隻是探索數據分析的一個方麵。此外，本章還介紹瞭在錶格中匯總列，以及使用Excel生成SQL查詢的有趣想法。
　　第3章“不同之處是如何不同”介紹瞭一些描述性統計學的核心概念，例如平均值、P值和卡方檢測。本章的目的是展示如何將這些技術應用於數據錶中的數據上。至於這些統計學內容和統計學測試方法的選擇，是由它們的實用性決定的。同時，本章側重介紹這些知識的使用方法，而不是它們的理論內容。多數的統計學測試方法都可以使用Excel(甚至SQL)來實現。
　　SQL技術
　　一些技術非常適閤使用SQL和Excel。
　　第4章“發生的地點在何處？”介紹瞭地理數據以及如何將地理信息納入數據分析中。地理信息首先是位置，以經度和緯度描述。位置也可以用不同等級的地理信息描述，例如人口普查區、郵政編碼區域，以及其他我們熟悉的國傢和省份，這些數據都可從人口統計局(或是其他相似的政府機構)獲取。這一章也討論瞭如何使用不同地理等級比較結果集。*後，不包含地圖的地理信息是不完整的。使用基礎的Excel功能，可以創建非常初級的地圖。
　　第5章“關於時間”討論瞭客戶行為的另一個關鍵特徵：什麼時候發生。該章描述瞭如何訪問數據庫中的日期和時間，以及如何使用這些信息來幫助理解客戶。該章包含的示例，可以用於準確地比較不同年份的數據，並從曆史上計算每天的活躍客戶數量。該章*後介紹Excel中的一個簡單的動畫——也是本書中*一處使用Visual Basic的地方。
　　第6章和第7章介紹瞭用於理解客戶隨時間變化的*重要的數據分析技術。在傳統的統計學中，生存分析根深蒂固，而且它也很適閤處理與客戶相關的問題。
　　第6章“客戶的持續時間有多久？使用生存分析理解客戶和他們的價值”介紹瞭風險率和生存率的基本思想，解釋瞭如何使用SQL和Excel簡單地計算它們。或許令人感到驚訝的是，在使用生存分析時，並不需要復雜的統計學工具。第6章後續介紹瞭生存分析應用在實際業務中的重要性，例如平均客戶生命周期。然後講解如何將這些片段拼接在一起，形成對客戶值計算的預測。
　　第7章“影響生存率的因素：客戶任期”擴展討論三個不同的領域。*，它解決瞭在以客戶為中心的數據庫中的重要問題：左截斷(left-truncation)。第二，它介紹瞭生存分析領域中的一個非常有趣的思想：競爭風險。這個思想考慮瞭一個事實，即客戶是因不同原因而離開的。第三，將生存分析應用在分析前和分析後。即當客戶在其生命周期內發生一些事情時，我們如何量化所發生的事情，例如量化客戶加入忠誠計劃之後的影響，或量化一次失敗的主要計費方法。
　　第8章至第10章使用SQL和Excel介紹如何理解客戶正在購買的內容。
　　第8章“多次購買以及其他重復事件”介紹瞭關於購買事件的所有事——什麼時候發生，在哪裏發生，發生頻率——除瞭購買的東西。該章介紹瞭RFM，一種理解客戶購買行為的傳統技術。同時介紹瞭隨時間推移，在識彆客戶時的種種問題。即使是在我們查看詳細的購買信息之前，我們也能發現很多關於購買的信息。
　　在第9章“購物車裏有什麼？購物車分析”中，産品成瞭焦點。該章介紹瞭隨時間推移，針對購買行為的探索性分析。該章包括瞭如何識彆驅動客戶行為的産品，同時介紹瞭Excel中一些有趣的可視化方法。
　　第10章“關聯規則”轉移到對關聯規則的正式討論。關聯規則是指被同時購買或按序購買的産品組閤。在SQL中建立關聯規則是相當復雜的。本章討論的方法擴展瞭傳統的關聯規則分析，介紹更有效的替換指標，並展示如何生成不同事物的組閤。例如，單擊會導緻一次購買行為(使用網站的一個實例)。在本章中解釋的關聯規則技術，比數據挖掘工具中的技術更強大，因為這裏的技術是可以擴展的，並使用支持度、置信度和提升度之外的指標。
　　建模技術
　　接下來的3章討論統計學和數據挖掘的建模技術和方法。
　　第11章“SQL數據挖掘模型”介紹瞭數據挖掘的建模思想，以及建模相關的名詞。同時討論瞭一些重要的模型類型，這些模型適用於處理業務問題和SQL環境。相似性模型找到與給定示例相似的事物。查找模型使用查找錶返迴模型評分。
　　該章同時介紹瞭一種更復雜的建模技術，即樸素貝葉斯模型。這門技術可以總結不同業務維度的信息來估算未知的數值。
　　第12章“*佳擬閤綫：綫性迴歸模型”介紹瞭一種更傳統的統計學技術：綫性迴歸。該章介紹瞭不同種類的綫性迴歸，包括多項式迴歸、加權迴歸、多維迴歸和指數迴歸。這些內容以Excel圖錶的形式介紹，同時包含R2值，用於衡量模型與數據的擬閤度。
　　對迴歸的介紹同時用到瞭Excel和SQL。雖然Excel中有幾種內置的功能可以處理迴歸問題，但Solver比這些內置功能更強大。本章從綫性迴歸的角度介紹瞭Solver(Solver是可與Excel綁定的免費加載項)。
　　第13章“為進一步分析數據創建客戶簽名”介紹瞭客戶簽名。客戶簽名是一個數據結構，它總結瞭客戶在某個特定的時間點的數據。客戶簽名在建模時非常強大。
　　在介紹該章時認識到雖然SQL和Excel都非常強大，但有時還需要一些更復雜的工具。很多情況下，客戶簽名是總結客戶信息的正確方法，而且SQL是完成這類總結的強大工具。
　　性能
　　編寫SQL查詢的一個原因是性能——通過至少完成一些分析工作，可以將已有的硬件資源分配給關係型數據庫。編寫一本關於通用SQL而非指定數據庫的書籍，其缺點就是缺少關於特定數據庫的一些技巧和提示。
　　令人欣慰的是，很多關於編寫SQL的*佳實踐能夠普遍提升查詢在不同數據庫中的執行速度。第14章“性能問題：高效使用SQL”緻力於這個話題。其中特彆討論瞭索引和如何利用索引，同時還介紹瞭編寫查詢的不同方法？——以及為什麼有些方法的性能更好。
　　本書讀者對象
　　本書麵嚮不同技術等級的各類讀者。
　　技術方麵不足的管理者，特彆是那些負責理解客戶或業務單元的管理者。通常情況下，這樣的人精通Excel，然而，他們所需要的數據存儲於關係型數據庫中。為瞭幫助他們，本書中的示例提供瞭有用的結果集。這些示例十分詳盡，不僅展示瞭業務問題，同時展示瞭技術方法和結果。
　　另一部分讀者，他們的工作是理解數據和客戶，通常他們的職位描述中包含“分析師”字樣。這些人通常使用Excel和其他工具，有時直接訪問數據倉庫或一些以客戶為中心的數據庫。本書能幫助他們提高SQL查詢技巧，展示好的圖錶示例，以及介紹生存分析和關聯規則，以便他們理解客戶和業務。
　　一部分重要的讀者是數據科學傢，他們精通諸如R或Python這樣的工具，但是他們發現需要學習其他的工具。在業務世界中，以編程為中心的工具可能並不足以解決問題，分析師可能會發現他們不得不直接處理關係型數據庫中的數據，並以Excel形式展現給用戶。
　　技術等級更高的是統計學傢，他們通常使用有特殊功能的工具，例如SAS、SPSS、R和S-plus。然而，數據存儲於數據庫中。本書可以在SQL技術方麵為他們提供幫助，並提供數據分析示例以幫助他們解決業務問題。
　　此外，數據庫管理員、數據庫設計者和架構師應該會發現本書是非常有趣的。在不同章節中展示的查詢，說明瞭人們對數據的使用方式和方法。這些查詢應該可以促進數據庫管理員和設計者創建更適閤使用的高效數據庫。
　　建議所有的讀者，即使是技術專傢，閱讀或至少瀏覽前3章內容。這些章節全部從分析海量數據的視角，介紹SQL、Excel和統計學知識。這個視角與平常所讀書籍的視角不同。在這些章節中，有相當一部分的內容和想法貫穿全書，例如樣本數據、數據流、SQL語法和格式轉換、齣色的圖標繪製。
　　需要的工具
　　本書是獨立的——讀者應該可以直接通過書中的內容閱讀並學習。
　　本書中的所有SQL語句都經過測試(在微軟SQL Server數據庫上，少量查詢在其他數據庫(PostgresSQL)上測試)。可以從網上下載數據集和結果，網址為www.wiley.com/go/data-
　　analysisusingsqlandexcel2e。對於想要嘗試的讀者，我們建議下載數據並執行書中的示例代碼。
　　本書中，多數示例是與數據庫供應商無關的，因此，它們(或稍作修改後)應該可以在所有的關係型數據庫中執行。這裏不建議使用Microsoft Access或MySQL，因為它們缺少窗口函數——窗口函數是分析性查詢的關鍵功能。
　　如果沒有數據庫，可以下載一些程序包；數據庫供應商通常會提供一些免費的單機版本。例如，SQL Server Express是微軟提供的免費SQL Server版本，Oracle也提供免費版本的Oracle數據庫，可以從下載PostgresSQL數據庫，其他數據庫也有它們的免費版本。
　　網站內容介紹
　　配套網站上包含本書使用的數據集。這些數據集包含如下信息：
　　● 引用錶。共有3個引用錶，其中兩張錶包含人口統計信息(來自於人口統計局2000年的統計數據)，另一張錶包含關於日期的日曆信息。
　　● Subscribers數據集，用於描述移動電話公司的客戶子集。
　　● Purchases數據集，用於描述客戶購買模式的數據集。
　　下載這些數據的同時，還可以下載將數據導入SQL Server和其他數據庫的使用說明。
　　此外，配套網站的其他頁麵包含更多的信息。例如，將數據導入常見數據庫中的腳本，包含SQL查詢的工作錶，以及本書中使用Excel生成的所有錶格和圖錶。
　　總結
　　本書起源於一個同事的問題，他詢問是否有一本關於使用SQL做數據分析的參考書。然而，所需要的並不是簡單的關於SQL的參考書，即使它側重介紹使用SQL做數據查詢的實際使用。
　　對於數據分析，不能憑空學習SQL。一個SQL查詢，不管它編寫的多麼精妙，通常不是一個業務問題的完整解決方案。業務問題，需要被轉換為可以使用查詢迴答的問題。然後需要將結果展示齣來，通常以錶格或Excel圖錶的形式。
　　筆者想要擴展這個觀點。在現實世界中，也不能憑空學習統計學知識。曾經，收集數據不僅花費時間且難以操作。現在，數據量非常足夠。例如，本書的配套網站，隻需要輕點幾下，就能上傳幾GB的數據。數據分析的問題不再局限於幾個統計學方法，同時包括管理和抽取數據。
　　本書將三個核心概念融入到解決問題這一條綫中。在筆者的數據挖掘生涯中，筆者發現SQL、Excel和統計學是分析數據的關鍵性工具，比某些特殊的技術更加重要。希望本書可以幫助讀者改進他們的技術，並為他們理解客戶和理解業務提供新思路。

《數據分析精煉：原理、方法與實踐》前言在信息爆炸的時代，數據已然成為驅動決策、洞察趨勢、創新商業模式的核心要素。然而，原始數據的價值往往隱藏在海量的信息之中，需要經過精心的梳理、嚴謹的分析，纔能轉化為有用的洞察。本書緻力於為您揭示數據分析的本質，提供一套係統、實用的學習路徑，幫助您掌握從數據理解到結論呈現的全過程，從而在各行各業中脫穎而齣。本書並非對某一種特定工具的詳盡教程，而是聚焦於數據分析這一廣闊領域本身。我們相信，理解數據分析的核心原理、掌握通用的分析方法，比熟練操作某一個工具更為重要。工具固然是實現分析目標的手段，但若缺乏對原理和方法的深刻理解，即便是最強大的工具也可能無法發揮其真正的威力。因此，我們將重點放在數據分析的思維方式、邏輯框架以及核心技術上，並適時輔以不同工具的應用理念，以期培養您成為一個獨立思考、靈活運用各種資源解決數據問題的分析師。我們希望通過本書的學習，您能夠建立起一套清晰的數據分析認知體係，理解不同類型數據的特性、掌握常用的數據預處理技巧、熟悉各種分析模型的構建思路，並學會如何有效地解讀和溝通分析結果。無論您是初涉數據領域的新手，還是希望深化理解的實踐者，本書都將是您寶貴的數據分析啓濛讀物和實戰指南。第一章：數據分析的基石——理解數據與問題在踏入數據分析的旅程之前，首要任務是建立對“數據”和“問題”的深刻認知。本章將帶您探索數據世界的廣袤，理解數據分析為何如此重要，以及如何從實際業務需求齣發，提煉齣清晰、可量化的分析問題。 1.1 數據：信息時代的語言 1.1.1 什麼是數據？我們將從最基礎的層麵定義數據，區分結構化、半結構化和非結構化數據，並探討它們在現實世界中的存在形式，例如數據庫錶格、日誌文件、社交媒體文本、圖像視頻等。 1.1.2 數據的價值所在深入剖析數據如何轉化為知識，進而驅動決策。我們將討論數據在商業智能、市場營銷、産品優化、風險控製等領域的關鍵作用。 1.1.3 數據的生命周期理解數據從收集、存儲、處理、分析到應用的全過程，認識到每個環節的重要性及其相互關聯。 1.2 定義清晰的分析問題 1.2.1 從業務痛點齣發學習如何與業務方有效溝通，識彆真實的業務需求和痛點，而非僅僅滿足於錶麵的問題陳述。 1.2.2 問題拆解與SMART原則掌握將復雜業務問題拆解為具體、可執行的分析任務的方法。我們將引入SMART原則（Specific, Measurable, Achievable, Relevant, Time-bound），確保分析問題的質量。 1.2.3 評估數據的可用性與可行性在定義問題時，同步考慮現有數據能否支持問題的解答，以及分析方案是否在技術和資源上可行。 1.3 數據分析的思維模式 1.3.1 邏輯思維與批判性思維培養數據分析師必備的邏輯推理能力和對信息進行審慎判斷的能力。 1.3.2 假設驅動與探索式分析理解兩種主要的分析方法論：在明確假設下進行驗證，以及在數據中自由探索發現規律。 1.3.3 迭代與反饋認識到數據分析是一個不斷迭代、優化的過程，重視從分析結果中獲取反饋，並調整分析方嚮。第二章：數據準備——數據分析的基石與挑戰數據的質量直接決定瞭分析結果的準確性和可靠性。本章將聚焦於數據準備這一關鍵環節，探討數據收集、清洗、轉換和整閤的復雜性與常用技術。 2.1 數據收集與來源 2.1.1 多元化的數據來源瞭解內部數據庫、外部API、公開數據集、網絡爬蟲等多種數據獲取渠道。 2.1.2 數據采集的注意事項探討數據采集過程中的潛在偏差、數據完整性問題以及閤規性要求。 2.2 數據清洗——數據的“美容術” 2.2.1 處理缺失值學習識彆缺失值的類型（完全隨機缺失、隨機缺失、非隨機缺失），並掌握刪除、填充（均值、中位數、眾數、迴歸預測等）等多種策略。 2.2.2 處理異常值識彆和處理可能乾擾分析的極端值，包括使用統計方法（如Z-score、IQR）和可視化技術。 2.2.3 數據去重確保數據集的唯一性，避免重復記錄對分析結果造成誤導。 2.2.4 處理重復與不一緻的數據格式統一日期格式、文本大小寫、度量單位等，確保數據的一緻性。 2.2.5 數據標準化與歸一化理解何時需要對數據進行尺度縮放，以消除不同變量量綱的影響。 2.3 數據轉換——為分析而“塑形” 2.3.1 數據類型轉換將文本數據轉換為數值，或將日期字符串解析為日期對象等。 2.3.2 特徵工程創建新的、更有意義的特徵，以提升模型性能。例如，從日期中提取星期幾、月份，或組閤現有特徵生成新的指標。 2.3.3 數據聚閤與拆分將多行數據聚閤成一行（如按用戶分組計算總消費），或將單行數據拆分成多行。 2.3.4 文本數據預處理包括分詞、去除停用詞、詞乾提取/詞形還原等，為文本分析做好準備。 2.4 數據整閤——構建統一視圖 2.4.1 閤並與連接（Join）理解不同類型的數據集如何通過共同的鍵連接起來，例如內連接、左連接、右連接、全連接。 2.4.2 數據閤並（Union/Append）將多個結構相似的數據集垂直堆疊起來。 2.4.3 數據去冗餘與一緻性檢查在整閤過程中，再次檢查數據的重復和不一緻問題。第三章：數據探索與可視化——洞察的“顯微鏡” 數據可視化是將抽象數據轉化為直觀洞察的強大工具。本章將引導您掌握探索性數據分析（EDA）的核心技術，並學習如何運用各種可視化方法來發現數據中的模式、趨勢和異常。 3.1 探索性數據分析（EDA） 3.1.1 統計摘要計算數據的均值、中位數、方差、標準差、百分位數等描述性統計量，初步瞭解數據分布。 3.1.2 數據分布可視化使用直方圖、密度圖來觀察單個變量的分布情況。 3.1.3 變量間關係探索 3.1.3.1 散點圖探索兩個連續變量之間的關係，識彆相關性、聚類和離群點。 3.1.3.2 箱綫圖（Box Plot）比較不同類彆變量下連續變量的分布，觀察中位數、四分位數範圍和異常值。 3.1.3.3 條形圖/柱狀圖比較不同類彆下的計數或平均值。 3.1.3.4 熱力圖（Heatmap）可視化變量之間的相關性矩陣或二維數據分布。 3.2 數據可視化原則與技巧 3.2.1 選擇閤適的可視化圖錶瞭解不同圖錶的適用場景，例如摺綫圖用於趨勢展示，餅圖用於構成比例，雷達圖用於多維度對比等。 3.2.2 清晰的標簽與標題確保圖錶易於理解，信息傳達準確無誤。 3.2.3 色彩的運用閤理使用色彩來突齣重點、區分類彆，避免信息過載。 3.2.4 避免誤導性可視化警惕如截斷Y軸、使用不當的比例等可能産生的視覺偏差。 3.3 深入挖掘：關聯分析與模式發現 3.3.1 關聯規則挖掘識彆數據項之間的有趣關聯，例如“購買啤酒的顧客也傾嚮於購買尿布”。 3.3.2 時間序列分析初步探索數據隨時間變化的趨勢、季節性與周期性。 3.3.3 數據分群（Clustering）將相似的數據點分組，識彆數據中的潛在群體。第四章：數據分析模型——洞察的“引擎” 在對數據有瞭初步的理解和探索後，本章將深入介紹各種常用的數據分析模型，幫助您解決更復雜的問題，並從數據中提取更深層次的洞察。 4.1 迴歸分析——預測與量化關係 4.1.1 綫性迴歸理解如何建立因變量與一個或多個自變量之間的綫性關係模型，並用於預測。 4.1.2 多元迴歸擴展到多個自變量的情況，以及模型評估指標（R²、p值等）。 4.1.3 非綫性迴歸介紹超越綫性關係的建模方法。 4.2 分類模型——識彆與歸類 4.2.1 邏輯迴歸適用於二分類問題，預測某個事件發生的概率。 4.2.2 決策樹直觀易懂的模型，通過一係列規則對數據進行分類。 4.2.3 支持嚮量機（SVM）尋找最優超平麵來分隔不同類彆。 4.2.4 模型評估介紹混淆矩陣、準確率、精確率、召迴率、F1分數等評估分類模型性能的指標。 4.3 聚類分析——發現內在結構 4.3.1 K-Means算法一種常用的基於質心的聚類算法。 4.3.2 層次聚類構建數據點的層級結構。 4.3.3 評估聚類效果如何判斷聚類結果的質量。 4.4 降維技術——簡化數據，提煉精華 4.4.1 主成分分析（PCA）綫性降維方法，保留數據的主要方差。 4.4.2 t-SNE 非綫性降維技術，常用於可視化高維數據。 4.5 時間序列分析——理解變化規律 4.5.1 平穩性檢驗確定時間序列是否具有統計上的穩定性。 4.5.2 ARIMA模型經典的自迴歸積分滑動平均模型。 4.5.3 趨勢與季節性分解分離時間序列中的趨勢、季節性和殘差成分。 4.6 模型選擇與評估 4.6.1 過擬閤與欠擬閤理解模型在訓練和測試數據上的錶現差異，以及如何避免。 4.6.2 交叉驗證一種評估模型泛化能力的方法。 4.6.3 模型調優參數尋優與模型改進。第五章：報告與溝通——將洞察轉化為行動再完美的分析，如果無法有效地傳達給決策者，其價值將大打摺扣。本章將聚焦於數據分析結果的呈現與溝通，確保您的洞察能夠轉化為實際的行動。 5.1 構建清晰的分析報告 5.1.1 報告結構學習報告的標準結構：摘要、背景、方法、發現、結論與建議。 5.1.2 摘要的重要性提煉核心發現，讓非技術讀者也能快速抓住要點。 5.1.3 用圖錶講故事結閤可視化圖錶，生動地展示分析過程和結果。 5.1.4 語言的精確與簡潔使用清晰、準確、易於理解的語言，避免技術術語的濫用。 5.2 有效的口頭匯報 5.2.1 瞭解您的聽眾針對不同背景的聽眾調整匯報的深度和側重點。 5.2.2 突齣關鍵信息聚焦於最重要的發現和建議。 5.2.3 演示技巧視覺輔助、肢體語言和自信錶達。 5.2.4 迴答問題的技巧準備好迴答潛在的質疑，並提供數據支持。 5.3 數據驅動的決策支持 5.3.1 將分析結果轉化為 actionable insights 確保您的建議是具體、可行且能夠驅動業務增長的。 5.3.2 建立反饋機製跟蹤建議的實施效果，並根據反饋進行後續分析。 5.3.3 數據素養的推廣鼓勵組織內部建立數據驅動的文化。第六章：數據分析的未來趨勢與挑戰數據分析領域日新月異，本章將展望未來的發展趨勢，並探討分析師可能麵臨的挑戰。 6.1 機器學習與深度學習 6.1.1 自動化與智能化探討AI在數據分析中的應用，如自動化特徵工程、模型選擇等。 6.1.2 深度學習模型簡介神經網絡等復雜模型在圖像、語音、文本分析中的突破。 6.2 大數據技術棧 6.2.1 分布式計算框架如Hadoop、Spark等，以及它們在處理海量數據時的作用。 6.2.2 雲計算平颱 AWS, Azure, GCP等在數據分析領域的應用。 6.3 數據倫理與隱私保護 6.3.1 GDPR與數據閤規強調在數據處理過程中遵守法律法規的重要性。 6.3.2 算法偏見與公平性認識到算法可能存在的偏見，並采取措施加以糾正。 6.4 持續學習與職業發展 6.4.1 保持好奇心與求知欲數據分析是一個不斷學習的領域。 6.4.2 跨領域知識整閤結閤業務知識，提升分析的深度和廣度。結語數據分析的旅程充滿挑戰，但也充滿瞭機遇。本書為您提供瞭一個堅實的起點，希望能夠激發您對數據分析的濃厚興趣，並為您在這一領域的發展鋪平道路。願您在數據的海洋中，不斷發現價值，創造洞察，並最終驅動變革。

用户评价

评分☆☆☆☆☆

這本書的結構設計得太閤理瞭！我喜歡它先從SQL的基礎語法入手，然後逐步深入到更高級的應用，再巧妙地將Excel的強大功能融入其中。我之前對SQL的印象是枯燥且復雜的，但作者的講解方式非常生動，通過大量的實際案例，讓我能夠輕鬆理解並掌握SQL的各種查詢和操作技巧。特彆是那些關於數據聚閤、子查詢和連接查詢的章節，我感覺自己像是進入瞭一個全新的數據世界。然後，當這本書將Excel的數據透視錶、條件格式和圖錶等功能與之結閤時，我纔真正體會到“1+1>2”的威力。我學會瞭如何從龐雜的數據庫中高效地提取數據，然後利用Excel進行深入的分析、可視化和報錶製作，極大地提升瞭我的工作效率和分析的深度。這本書的實用性是我最看重的，它提供的案例都是工作中經常會遇到的場景，讓我能夠立刻將學到的知識應用到實際工作中，解決瞭許多睏擾我的數據處理難題。

评分☆☆☆☆☆

我是一名渴望提升數據分析技能的職場新人，之前對SQL和Excel的瞭解非常有限。這本書就像一本寶藏，為我打開瞭通往數據分析世界的大門。它用通俗易懂的語言，詳細講解瞭SQL的基本語法和常用函數，讓我這個“小白”也能輕鬆上手。我尤其喜歡書中的實踐環節，通過一步步的操作，我學會瞭如何從數據庫中提取、篩選、排序和聚閤數據，這讓我對數據的掌控力大大增強。更令人驚喜的是，這本書並沒有止步於SQL，而是將Excel的強大功能與SQL完美地結閤起來。我學會瞭如何利用Excel進行數據清洗、轉換、可視化以及製作專業的報錶，這使得我能夠將從SQL中獲取的數據進行更深入的挖掘和呈現。書中的案例分析都非常貼近實際工作場景，讓我能夠快速將學到的知識應用到工作中，解決瞭許多之前睏擾我的數據處理難題。這本書讓我對數據分析充滿瞭信心，也為我的職業發展奠定瞭堅實的基礎。

评分☆☆☆☆☆

作為一個非科班齣身的數據愛好者，一直以來都覺得數據分析是一門高不可攀的藝術，但這本書徹底顛覆瞭我的認知。它沒有使用晦澀難懂的專業術語，而是用非常接地氣的方式，將SQL和Excel這兩個工具的功能發揮到瞭極緻。我尤其欣賞書中對Excel數據透視錶和圖錶的深入講解，這些工具在日常工作中簡直是神器。以前我總覺得做報錶很耗時，而且齣來的效果也平平無奇，看瞭這本書之後，我纔真正體會到數據可視化帶來的衝擊力。學會瞭如何利用Excel的強大功能，將復雜的數字轉化成直觀易懂的圖錶，我的同事們都驚嘆不已。而SQL的部分，更是讓我打開瞭新世界的大門。我曾經以為SQL隻能是程序員的專屬語言，但這本書的引導讓我覺得，掌握SQL並非難事。它從零開始，一步步教我如何和數據庫“對話”，如何提取我想要的信息。最讓我驚喜的是，它還教瞭我如何將Excel和SQL結閤使用，例如，通過SQL從數據庫中抽取數據，再到Excel中進行更精細的分析和可視化。這使得我的數據處理能力得到瞭質的飛躍，能夠處理更龐大的數據集，並從中挖掘齣更有價值的洞察。

评分☆☆☆☆☆

作為一名長期在數據領域摸爬滾打的老兵，我一直深知SQL和Excel在數據分析中的重要性。然而，隨著數據量的爆炸式增長和分析需求的日益復雜，傳統的Excel操作已經顯得力不從心。這本書的齣現，恰好填補瞭這一空白。作者在SQL部分的講解，不僅僅是枯燥的語法羅列，更是結閤瞭實際工作中的常見場景，通過循序漸進的案例，讓讀者能夠快速掌握SQL的精髓，從數據提取到數據轉換，再到復雜查詢的構建，都講解得十分透徹。而Excel部分的深入剖析，更是讓我眼前一亮。我一直以為自己對Excel已經很熟悉瞭，但這本書中關於數據透視錶的高級應用、各種圖錶的優化技巧以及如何與SQL數據無縫對接的講解，都給我帶來瞭新的啓發。特彆是關於如何利用Excel進行數據清洗和預處理的章節，對我來說簡直是如獲至寶，解決瞭許多睏擾我多年的實際問題。這本書真正做到瞭將SQL的強大數據處理能力與Excel的靈活可視化能力完美結閤，為我們提供瞭一套完整且高效的數據分析解決方案。

评分☆☆☆☆☆

這本書簡直是我的救星！之前我對數據分析的瞭解僅限於一些皮毛，覺得Excel的公式和函數已經夠用瞭，但隨著工作中的數據量越來越大，分析的復雜度也越來越高，我意識到Excel的局限性。而SQL，我之前隻聽說過，感覺像是一門很高深的技術，望而卻步。這本書的齣現，就像一道光照亮瞭我前進的道路。它從最基礎的概念講起，循序漸進地引導我學習SQL的語法，從簡單的查詢到復雜的聯接，再到窗口函數和存儲過程，一步步地讓我掌握瞭數據提取和處理的核心技能。更重要的是，它並沒有讓我脫離Excel，而是巧妙地將SQL與Excel結閤起來。我學會瞭如何使用SQL從大型數據庫中提取我需要的數據，然後導入Excel進行更精細的可視化和報錶製作。這種“先處理，後呈現”的思路，極大地提高瞭我的工作效率，也讓我的分析報告更加專業和有說服力。這本書的例子非常貼近實際工作場景，讓我能夠立刻學以緻用，解決工作中遇到的實際問題。特彆是關於數據清洗和轉換的部分，我簡直想把作者供起來，那些曾經讓我頭疼不已的數據問題，現在都能迎刃而解。

评分☆☆☆☆☆

数据仓库学习的工具书，好看

评分☆☆☆☆☆

正版好书，京东快递一如既往的好

评分☆☆☆☆☆

我选书的眼光还是不错滴。这本书很不错，不是那种阐述概念的乏味的书，也跟技术关系不大。里面描述的大数据分析的崭新思想，非常符合潮流，观点新颖别致，是国内缺少的创新描述。特别棒！！！

评分☆☆☆☆☆

发货快，有塑封，无破损。书很厚实，纸质较薄…我评论也仅限于此了…读书少，尤其数学不好…发现内容想要看懂有点难…

评分☆☆☆☆☆

正在看，很有用的一本书

评分☆☆☆☆☆

◆构建维度和事实表的34个ETL子系统和技术

评分☆☆☆☆☆

值得借鉴，提供思路。

评分☆☆☆☆☆

东西不错，物流很快，给予好评

评分☆☆☆☆☆

那候选人的高度呢？自1948年杜鲁门(其身材矮小，但比杜威高)当选之后，只有卡特击败福特和布什打败克里是较为矮小的候选人赢得普选的两次选举。在2000年的选举中，如果我们假设模式是与赢得普选而非选举人票相关，那么戈尔的6英尺1英寸对布什总统的6英尺还是符合该模式。在2008年，打篮球的奥巴马击败了较为矮小的麦凯恩。高度看上去与当总统这份工作毫不相关。然而，我们的语言展示了“身高歧视”：我们把仰视看成是表示尊敬的姿态，而俯视表示蔑视。身高与更好的童年营养相关，其反过来会提高智商以及其他社会成功的指标。