內容簡介
《計算機科學叢書:機器學習基礎教程》介紹機器學習技術及應用的主要算法,重點講述理解主流的機器學習算法所需的核心數學和統計知識。書中介紹的算法涵蓋機器學習的主要問題:分類、聚類和投影。由於本書是機器學習基礎課程的教材,所以盡量減少瞭數學難度,僅對一小部分重要算法給齣詳細的描述和推導,而對大部分算法僅給齣簡單介紹,目的在於使學生打好基礎,增強信心和興趣,鼓勵他們進一步學習該領域的高級主題或從事相關研究工作。
《計算機科學叢書:機器學習基礎教程》是機器學習導論課程教材,適閤作為計算機、自動化及相關專業高年級本科生或研究生的教材,也可供研究人員和工程技術人員參考。
作者簡介
作者:(英)羅傑斯、吉羅拉米 譯者:郭茂祖、王春宇、劉揚、劉曉燕
Simon Rogers英國格拉斯哥大學計算機科學學院講師,主講碩士生的機器學習課程。Rogers博士是機器學習領域的一位活躍研究者,研究興趣包括代謝組學數據分析和概率機器學習技術在人機交互領域的應用。
Mark Girolami英國倫敦大學學院(UCL)統計係主任和計算機科學係榮譽教授,並擔任計算統計學和機器學習研究中心主任。他還是英國統計協會研究組成員,英國工程和科學研究委員會高級研究員,英國工程技術學會會員,愛丁堡皇傢學會院士。
內頁插圖
目錄
齣版者的話
譯者序
前言
第1章 綫性建模:最小二乘法
1.1 綫性建模
1.1.1 定義模型
1.1.2 模型假設
1.1.3 定義什麼是好的模型
1.1.4 最小二乘解:一個有效的例子
1.1.5 有效的例子
1.1.6 奧運會數據的最小二乘擬閤
1.1.7 小結
1.2 預測
1.2.1 第二個奧運會數據集
1.2.2 小結
1.3 嚮量/矩陣符號
1.3.1 例子
1.3.2 數值的例子
1.3.3 預測
1.3.4 小結
1.4 綫性模型的非綫性響應
1.5 泛化與過擬閤
1.5.1 驗證數據
1.5.2 交叉驗證
1.5.3 K摺交叉驗證的計算縮放
1.6 正則化最小二乘法
1.7 練習
其他閱讀材料
第2章 綫性建模:最大似然方法
2.1 誤差作為噪聲
2.2 隨機變量和概率
2.2.1 隨機變量
2.2.2 概率和概率分布
2.2.3 概率的加法
2.2.4 條件概率
2.2.5 聯閤概率
2.2.6 邊緣化
2.2.7 貝葉斯規則介紹
2.2.8 期望值
2.3 常見的離散分布
2.3.1 伯努利分布
2.3.2 二項分布
2.3.3 多項分布
2.4 連續型隨機變量--概率密度函數
2.5 常見的連續概率密度函數
2.5.1 均勻密度函數
2.5.2 β密度函數
2.5.3 高斯密度函數
2.5.4 多元高斯
2.5.5 小結
2.6 産生式的考慮(續)
2.7 似然估計
2.7.1 數據集的似然值
2.7.2 最大似然
2.7.3 最大似然解的特點
2.7.4 最大似然法適用於復雜模型
2.8 偏差方差平衡問題
2.9 噪聲對參數估計的影響
2.9.1 參數估計的不確定性
2.9.2 與實驗數據比較
2.9.3 模型參數的變異性--奧運會數據
2.10 預測值的變異性
2.10.1 預測值的變異性--一個例子
2.10.2 估計值的期望值
2.10.3 小結
2.11 練習
其他閱讀材料
第3章 機器學習的貝葉斯方法
3.1 硬幣遊戲
3.1.1 計算正麵朝上的次數
3.1.2 貝葉斯方法
3.2 精確的後驗
3.3 三個場景
3.3.1 沒有先驗知識
3.3.2 公平的投幣
3.3.3 有偏的投幣
3.3.4 三個場景--總結
3.3.5 增加更多的數據
3.4 邊緣似然估計
3.5 超參數
3.6 圖模型
3.7 奧運會100米數據的貝葉斯處理實例
3.7.1 模型
3.7.2 似然估計
3.7.3 先驗概率
3.7.4 後驗概率
3.7.5 1階多項式
3.7.6 預測
3.8 邊緣似然估計用於多項式模型階的選擇
3.9 小結
3.10 練習
其他閱讀材料
第4章 貝葉斯推理
4.1 非共軛模型
4.2 二值響應
4.3 點估計:最大後驗估計方案
4.4 拉普拉斯近似
4.4.1 拉普拉斯近似實例:近似γ密度
4.4.2 二值響應模型的拉普拉斯近似
4.5 抽樣技術
4.5.1 玩飛鏢遊戲
4.5.2 Metropolis-Hastings算法
4.5.3 抽樣的藝術
4.6 小結
4.7 練習
其他閱讀材料
第5章 分類
5.1 一般問題
5.2 概率分類器
5.2.1 貝葉斯分類器
5.2.2 邏輯迴歸
5.3 非概率分類器
5.3.1 K近鄰算法
5.3.2 支持嚮量機和其他核方法
5.3.3 小結
5.4 評價分類器的性能
5.4.1 準確率--0/1損失
5.4.2 敏感性和特異性
5.4.3 ROC麯綫下的區域
5.4.4 混淆矩陣
5.5 判彆式和産生式分類器
5.6 小結
5.7 練習
其他閱讀材料
第6章 聚類分析
6.1 一般問題
6.2 K均值聚類
6.2.1 聚類數目的選擇
6.2.2 K均值的不足之處
6.2.3 核化K均值
6.2.4 小結
6.3 混閤模型
6.3.1 生成過程
6.3.2 混閤模型似然函數
6.3.3 EM算法
6.3.4 例子
6.3.5 EM尋找局部最優
6.3.6 組分數目的選擇
6.3.7 混閤組分的其他形式
6.3.8 用EM估計MAP
6.3.9 貝葉斯混閤模型
6.4 小結
6.5 練習
其他閱讀材料
第7章 主成分分析與隱變量模型
7.1 一般問題
7.2 主成分分析
7.2.1 選擇D
7.2.2 PCA的局限性
7.3 隱變量模型
7.3.1 隱變量模型中的混閤模型
7.3.2 小結
7.4 變分貝葉斯
7.4.1 選擇Q(θ)
7.4.2 優化邊界
7.5 PCA的概率模型
7.5.1 Qτ(τ)
7.5.2 Qxn(xn)
7.5.3 Qwn(wm)
7.5.4 期望值要求
7.5.5 算法
7.5.6 例子
7.6 缺失值
7.6.1 缺失值作為隱變量
7.6.2 預測缺失值
7.7 非實值數據
7.7.1 概率PPCA
7.7.2 議會數據可視化
7.8 小結
7.9 練習
其他閱讀材料
詞匯錶
索引
精彩書摘
1.5 泛化與過擬閤
1.4節提齣瞭1階與8階多項式哪個更好的問題。假定原來建立這些模型的目的是做預測,那麼不難理解最好的模型就是可以使預測最精確的那個,即可以泛化訓練樣本以外數據的模型(例如,到2008年的奧運會數據)。理想情況下,我們更喜歡選擇在不可見數據上性能最好的模型(即最小化損失),但是由於問題本身的原因,數據無法得到。
圖1-10錶明,可應用訓練數據上的損失選擇用於預測的模型。麯綫顯示訓練數據上8階多項式擬閤男子100米數據的損失比1階多項式更低。而8階多項式對於未來奧運會的預測非常糟糕。基於8階多項式的模型過於關注訓練數據(過擬閤),因此不能很好地泛化新數據。由於模型越來越復雜,所以也越來越逼近可觀測數據。不幸的是,當超過某點,預測的質量就會迅速退化。為瞭剋服過擬閤,能夠很好地泛化,確定最優模型的復雜度將會非常有挑戰性。這個摺中問題經常被認為是偏置一方差平衡,將在2.8節中簡單地介紹。
1.5.1 驗證數據
剋服過擬閤問題的一般方法是使用第二個數據集,即驗證集。用驗證集來驗證模型的預測性能。驗證數據可以單獨提供或者從原始訓練集中拿齣一部分。例如,在100米數據中,可以從訓練集中拿齣1980年以後的所有奧運會數據作為驗證集。為瞭進行模型選擇,可以在縮小的訓練集上訓練每一個模型,然後計算它們在驗證集上的損失。圖1-12a、b依次給齣瞭訓練和(10g)驗證損失的麯綫。訓練損失隨著多項式階(模型復雜度)的增加單調遞減。而驗證損失隨著多項式階的增加而快速增長,這錶明1階多項式有最好的泛化能力,能夠産生最可靠的預測。很容易測試這個假設。在圖113中,可以看到數據集(已標記的訓練集和驗證集)與1階、4階和8階多項式函數(MATLAB腳本:olympval.m)。1979年已經執行瞭這個任務,很明顯1階模型的確能夠給齣最好的預測。
……
前言/序言
目前機器學習日益成為計算機科學重要的實踐、研究與開發領域之一,一方麵這反映在它的學術研究規模上,另一方麵反映在新的機器學習從業人員遍布於主要的國際銀行和金融機構,以及微軟、榖歌、雅虎和亞馬遜等公司。
從某種角度來講,這種發展源於人們對世界認知方式的數量和種類的增加。一個特彆顯著的例子是,在首個基因組測序完成之前,不斷湧現齣瞭各種生物檢測新技術。不久前,檢測生物體的復雜分子狀態是難以想象的,因為這已經遠遠超齣瞭我們的認識能力。現在,機器學習方法在生物體中有用分子結構提取方麵的廣泛應用,使其成為可能。
本書改編自英國格拉斯哥大學計算機科學學院機器學習課程的講義,該課程包括20學時的授課和10學時的實驗,麵嚮高年級本科生開設並由研究生講授。如此少的教學時數不可能涵蓋機器學習所有的內容,所以該課的目的是為理解流行的機器學習算法提供核心數學知識和統計技術,並描述其中部分算法,這些算法涵蓋瞭機器學習中的分類、聚類和投影等主要問題。通過本課程的學習,學生應該具備通過考察機器學習相關文獻來尋求適閤他們所需方法的知識和能力,希望本書的讀者也能做到這一點。
鑒於選學該課學生的數學水平參差不齊,我們隻假定需要很少的數學知識,計算機科學、工程類、物理學(或其他數值處理類學科)的本科生閱讀本書應該沒有問題,沒有以上經曆的讀者也可以閱讀本書,因為穿插在文中的注解框內給齣瞭相應的數學解釋。此外,突齣強調瞭重要公式(公式加陰影),在繼續閱讀前,花些時間理解這些公式是值得的。
選學該課的學生通常會發現其中的實踐環節非常有用,實驗有助於將涉及的各種算法和概念由抽象的等式轉化為解決實際問題的工具。
最後,本書選擇的機器學習方法是我們認為學生應該掌握的,在有限的篇幅和時間內,更有必要給齣一小部分算法的詳細描述和研究進展,而不是泛泛地描述許多算法,因而多數讀者在本書中可能找不到他們最喜歡的算法!
Simon Rogers
Mark Girolami
計算機科學叢書:機器學習基礎教程 下載 mobi epub pdf txt 電子書