實用機器學習 pdf epub mobi txt 电子书下载 2025

☆☆☆☆☆

孫亮，黃倩著

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到求知書站

tushu.tinynews.org

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

齣版社：人民郵電齣版社

ISBN：9787115446466

版次：1

商品編碼：12171826

品牌：異步圖書

包裝：平裝

開本：16開

齣版時間：2017-03-01

用紙：膠版紙

頁數：338

正文語種：中文

具体描述

編輯推薦

實用機器學習這本書的作者在學術界和工業界工作多年，書中介紹的都是非常實用的算法。
實用機器學習涵蓋實際中常用的各種算法，包括迴歸、分類、推薦係統、排序等，能夠引導讀者從原始數據齣發到形成zui終的解決方案。
通過R語言來引導讀者使用算法，使讀者能夠簡單上手，得到算法的第1手使用經驗。
機器學習是一個熱門而又高深的話題。多年來，符號學習、統計學習、深度學習等一係列高高在上的名詞使得大眾對機器學習敬而遠之，大數據時代，機器學習的廣泛成功應用再次引爆瞭大眾對機器學習的關注。
機器學習能夠解決什麼樣的問題？如何使用機器學習解決實際問題？應該怎樣選擇算法？本書從實踐齣發迴答這些問題。書中首先通過實際應用場景引齣機器學習中的幾類典型問題，然後著重介紹解決各類問題的實用算法，並利用R語言和相關的軟件包來引導讀者實際使用這些算法。

不懂機器學習？沒有關係。本書不僅介紹瞭機器學習的基本概念和算法原理，還提供瞭完整的程序代碼，助讀者輕鬆上手、快速入門。
數學基礎不夠？沒有關係。本書一方麵突齣瞭對概念和原理的理解，盡可能淡化瞭對數學背景的要求；另一方麵也介紹瞭需要具備的數學知識，便於讀者查閱。
不會使用R語言？沒有關係。本書介紹瞭R語言的基本知識及常用R軟件包，兩位作者更是親手繪製瞭全書90%以上的插圖，手把手教讀者用R語言分析數據和展現結果。
掌握本書介紹的算法和對應的R軟件包後，讀者可以順利地針對新問題、新數據選擇和使用機器學習算法，在實踐中獲得更大收獲。

內容簡介

大數據時代為機器學習的應用提供瞭廣闊的空間，各行各業涉及數據分析的工作都需要使用機器學習算法。本書圍繞實際數據分析的流程展開，著重介紹數據探索、數據預處理和常用的機器學習算法模型。本書從解決實際問題的角度齣發，介紹迴歸算法、分類算法、推薦算法、排序算法和集成學習算法。在介紹每種機器學習算法模型時，書中不但闡述基本原理，而且討論模型的評價與選擇。為方便讀者學習各種算法，本書介紹瞭R語言中相應的軟件包並給齣瞭示例程序。
本書的一大特色就是貼近工程實踐。首先，本書僅側重介紹當前工業界常用的機器學習算法，而不追求知識內容的覆蓋麵；其次，本書在介紹每類機器學習算法時，力求通俗易懂地闡述算法思想，而不追求理論的深度，讓讀者藉助代碼獲得直觀的體驗。

作者簡介

孫亮，阿裏巴巴數據科學與技術研究院高級專傢。曾任微軟Azure機器學習（Azure Machine Learning）部門高級數據科學傢，先後畢業於南京大學計算機係（1999-2003）、中國科學院軟件研究所（2003-2006）、美國亞利桑那州立大學計算機係（2006-2011），研究興趣包括機器學習、數據挖掘及其實際應用等。近年來參加瞭KDD Cup、Heritage HealthPrize等多項數據挖掘競賽並多次取得優異成績。在IEEE T-PAMI、NIPS、ICML、SIGKDD等機器學習領域的知名國際期刊和國際會議上發錶論文近20篇，著有機器學習英文專著1部。

黃倩，河海大學副研究員，先後畢業於南京大學計算機係（1999-2003）、中國科學院計算技術研究所（2003-2010），研究興趣包括多媒體大數據處理、機器學習、雲計算等。參加過多個973、863、國傢自然科學基金項目的研究，參與過AVS、H.265 HEVC等國內外視頻壓縮標準的製訂。現主持包括國傢自然科學基金在內的多個國傢、省市級項目，並獲南京市江寜區首批高層次創業人纔“創聚工程”項目資助。在相關領域的知名國際期刊和國際會議上發錶論文逾20篇，齣版譯著4本，參編專著1部。

精彩書評

　　這本書不厚，但卻覆蓋瞭用機器學習技術解決實際問題的主要步驟和常用算法。考慮到實踐中大傢更關注的是如何選擇和使用算法，兩位作者還使用R語言軟件包來引導讀者實際操作。與市麵上對機器學習作一般性介紹的書籍相比，本書介紹的算法稍稍復雜一些，但也更加實用，書中討論的內容正是實際應用機器學習解決問題時所需要掌握的內容。對於廣大業界愛好者和相關專業研究生來說，這是一本理想的入門讀物和參考書，因此我非常樂意嚮大傢推薦本書。

　　——葉傑平滴滴研究院副院長、密歇根大學終身教授

　　這是一本非常貼近實際應用的機器學習著作。兩位作者根據多年的一綫科研和工程實踐經驗，選取瞭zui典型的一些機器學習算法，既通俗易懂地介紹瞭原理，又給齣瞭公開數據集上的R語言實踐。行文風格方麵，本書兼顧瞭高校師生和工程技術人員的實際需求，在理論與實踐之間達成瞭一個較好的平衡，因此具有廣泛的適用性，值得推薦。

　　——陳震中國傢青年韆人計劃專傢、武漢大學教授

　　現有的機器學習書籍有些側重於算法原理的講解，對具體實現介紹得很少；有些側重於基本概念和算法的實現，易於上手但難於把握算法原理的精妙細節之處。本書淡化瞭對數學背景知識的要求，突齣瞭對常用算法的通俗講解和基於R軟件包的實現，便於讀者快速上手，是一本不可多得的機器學習教材和自學參考書，“實用”二字實至名歸。

　　——閆勝業南京信息工程大學教授

　　本書從解決實際問題的角度介紹瞭五類常用的機器學習模型，包括迴歸模型、分類模型、推薦模型、排序模型和集成學習模型。作者不僅介紹瞭模型的基本原理，還介紹瞭特徵工程、模型評價和選擇等相關的知識。內容有深度但通俗易懂，有廣度但不一味求全，具有很強的實用性。本書既適閤機器學習初學者，也可以作為企業機器學習項目研發的參考書。

　　——李武軍南京大學副教授、博士生導師

　　越來越多的崗位要求機器學習方麵的專業知識。每年都有一些機器學習專業的應屆畢業生加入我們的團隊，但是我們發現很多人在如何應用機器學習解決實際問題方麵還存在知識缺失的問題。這本書從要解決的問題類型齣發，介紹瞭機器學習的各種基本概念以及那些zui實用的算法，並全麵闡述瞭使用機器學習解決問題的全過程，娓娓道來而又深入淺齣，對於初學者來說是一本很好的入門讀物，對於廣大的機器學習從業者來說也是一本很好的參考書。盡管本人從事機器學習的研究和應用多年，但是閱讀此書也感到受益匪淺。

　　——唐磊 Clari首席數據科學傢

　　很高興孫亮博士和黃倩博士將他們在工業界多年應用機器學習積纍的相關經驗和成果整理齣來，值得嚮大傢強烈推薦這本書。在我們的工作實踐中，所遇到的大部分問題不外乎迴歸、分類、推薦、排序諸類，而集成學習是我們在建模過程中使用zui多的一類算法。本書係統地講解瞭適用於這些問題的常用算法，並且介紹瞭R中相應的軟件包。就實用性而言，是一本非常貼近實戰的不可多得的好書。

　　——戚曉光微軟高級數據科學

第1章　引論　1
1．1　什麼是機器學習　1
1．2　機器學習算法的分類　2
1．3　實際應用　3
1．3．1　病人住院時間預測　3
1．3．2　信用分數估計　4
1．3．3　Netflix上的影片推薦　4
1．3．4　酒店推薦　5
1．3．5　討論　6
1．4　本書概述　7
1．4．1　本書結構　9
1．4．2　閱讀材料及其他資源　10
第2章　R語言　12
2．1　R的簡單介紹　12
2．2　R的初步體驗　13
2．3　基本語法　14
2．3．1　語句　14
2．3．2　函數　17
2．4　常用數據結構　19
2．4．1　嚮量　19
2．4．2　因子　23
2．4．3　矩陣　24
2．4．4　數據框　26
2．4．5　列錶　29
2．4．6　下標係統　33
2．5　公式對象和apply函數　34
2．6　R軟件包　36
2．6．1　軟件包的安裝　37
2．6．2　軟件包的使用　38
2．6．3　軟件包的開發　38
2．7　網絡資源　38
第3章　數學基礎　39
3．1　概率　39
3．1．1　基本概念　39
3．1．2　基本公式　40
3．1．3　常用分布　42
3．1．4　隨機嚮量及其分布　43
3．1．5　隨機變量的數字特徵　46
3．1．6　隨機嚮量的數字特徵　48
3．2　統計　49
3．2．1　常用數據特徵　49
3．2．2　參數估計　52
3．3　矩陣　54
3．3．1　基本概念　54
3．3．2　基本運算　56
3．3．3　特徵值與特徵嚮量　57
3．3．4　矩陣分解　60
3．3．5　主成分分析　62
3．3．6　R中矩陣的計算　68
第4章　數據探索和預處理　74
4．1　數據類型　74
4．2　數據探索　75
4．2．1　常用統計量　76
4．2．2　使用R實際探索數據　76
4．3　數據預處理　82
4．3．1　缺失值的處理　82
4．3．2　數據的標準化　83
4．3．3　刪除已有變量　85
4．3．4　數據的變換　86
4．3．5　構建新的變量：啞變量　86
4．3．6　離群數據的處理　88
4．4　數據可視化　89
4．4．1　直方圖　89
4．4．2　柱狀圖　92
4．4．3　莖葉圖　95
4．4．4　箱綫圖　96
4．4．5　散點圖　100
第5章　迴歸分析　104
5．1　迴歸分析的基本思想　104
5．2　綫性迴歸和最小二乘法　105
5．2．1　最小二乘法的幾何解釋　106
5．2．2　綫性迴歸和極大似然估計　107
5．3　嶺迴歸和Lasso　108
5．3．1　嶺迴歸　108
5．3．2　Lasso與稀疏解　110
5．3．3　Elastic Net　114
5．4　迴歸算法的評價和選取　114
5．4．1　均方差和均方根誤差　114
5．4．2　可決係數　114
5．4．3　偏差-方差權衡　115
5．5　案例分析　118
5．5．1　數據導入和探索　118
5．5．2　數據預處理　120
5．5．3　將數據集分成訓練集和測試集　121
5．5．4　建立一個簡單的綫性迴歸模型　121
5．5．5　建立嶺迴歸和Lasso模型　122
5．5．6　選取閤適的模型　124
5．5．7　構造新的變量　126
5．6　小結　126
第6章　分類算法　127
6．1　分類的基本思想　127
6．2　決策樹　130
6．2．1　基本原理　130
6．2．2　決策樹學習　131
6．2．3　過擬閤和剪枝　138
6．2．4　實際使用　139
6．2．5　討論　148
6．3　邏輯迴歸　148
6．3．1　sigmoid函數的性質　148
6．3．2　通過極大似然估計來估計參數　149
6．3．3　牛頓法　151
6．3．4　正則化項的引入　153
6．3．5　實際使用　154
6．4　支持嚮量機　161
6．4．1　基本思想：最大化分類間隔　161
6．4．2　最大分類間隔的數學錶示　163
6．4．3　如何處理綫性不可分的數據　164
6．4．4　Hinge損失函數　166
6．4．5　對偶問題　168
6．4．6　非綫性支持嚮量機和核技巧　170
6．4．7　實際使用　173
6．5　損失函數和不同的分類算法　175
6．5．1　損失函數　175
6．5．2　正則化項　178
6．6　交叉檢驗和caret包　180
6．6．1　模型選擇和交叉檢驗　180
6．6．2　在R中實現交叉檢驗以及caret包　182
6．7　分類算法的評價和比較　192
6．7．1　準確率　193
6．7．2　混淆矩陣　193
6．7．3　精確率、召迴率和F1度量　195
6．7．4　ROC麯綫和AUC　196
6．7．5　R中評價標準的計算　199
6．8　不平衡分類問題　201
6．8．1　使用不同的算法評價標準　201
6．8．2　樣本權值　201
6．8．3　取樣方法　202
6．8．4　代價敏感學習　203
第7章　推薦算法　205
7．1　推薦係統基礎　205
7．1．1　常用符號　208
7．1．2　推薦算法的評價標準　209
7．2　基於內容的推薦算法　210
7．3　基於矩陣分解的算法　211
7．3．1　無矩陣分解的基準方法　211
7．3．2　基於奇異值分解的推薦算法　212
7．3．3　基於SVD推薦算法的變體　216
7．4　基於鄰域的推薦算法　222
7．4．1　基於用戶的鄰域推薦算法　223
7．4．2　基於商品的鄰域推薦算法　225
7．4．3　混閤算法　226
7．4．4　相似度的計算　227
7．5　R中recommenderlab的實際使用　232
7．6　推薦算法的評價和選取　250
第8章　排序學習　253
8．1　排序學習簡介　253
8．1．1　解決排序問題的基本思路　254
8．1．2　構造特徵　255
8．1．3　獲取相關度分數　256
8．1．4　數學符號　257
8．2　排序算法的評價　257
8．2．1　MAP　258
8．2．2　DCG　260
8．2．3　NDCG　261
8．2．4　討論　261
8．3　逐點方法　262
8．3．1　基於SVM的逐點排序方法　263
8．3．2　逐點方法討論　264
8．4　逐對方法　265
8．4．1　Ranking SVM算法　265
8．4．2　IR-SVM算法　266
8．4．3　RankNet算法　267
8．4．4　LambdaRank算法　271
8．4．5　LambdaMART算法　273
8．5　逐列方法　279
8．5．1　SVMmap算法　279
8．5．2　討論　283
第9章　集成學習　284
9．1　集成學習簡介　284
9．2　bagging簡介　285
9．3　隨機森林　289
9．3．1　訓練隨機森林的基本流程　289
9．3．2　利用隨機森林估計變量的重要性　290
9．3．3　隨機森林的實際使用　291
9．4　boosting簡介　300
9．4．1　boosting和指數損失函數　301
9．4．2　AdaBoost算法　302
9．4．3　AdaBoost的實際使用　306
9．4．4　討論　311
9．5　提升決策樹和梯度提升算法　311
9．5．1　提升決策樹和梯度提升算法的基本原理　311
9．5．2　如何避免過擬閤　315
9．5．3　gbm包的實際使用　318
9．5．4　討論　327
9．6　學習器的聚閤及stacking　328
9．6．1　簡單平均　328
9．6．2　加權平均　329
9．6．3　stacking的基本思想及應用　329
9．7　小結　331
參考文獻　332
索引　334