发表于2024-11-25
機器學習實踐應用 pdf epub mobi txt 電子書 下載 2024
人工智能,觸手可及,讓數據起舞,用算法擴展業務邊界 。
阿裏機器學習專傢力作,實戰經驗分享 。
這是一本難得的麵嚮機器學習愛好者的入門級教程,本書涉及機器學習的基礎理論
和深度學習等相關內容,內容深入淺齣。更加難能可貴的是,本書基於阿裏雲機器學習平颱,針對7個具體的業務場景,搭建瞭完整的解決方案,給讀者帶來第一手的實戰演練經驗。
——阿裏雲資深專傢 褚崴
機器學習算法正在逐漸滲透到數據化運營的各個方麵,算法和業務數據相結閤可以大幅度地提高業務效率、降低成本。本書以算法的業務應用作為切入點,包含大量的案例說明,非常適閤讀者快速入門。
——阿裏雲高級專傢 陳鵬宇
通過閱讀本書,你將瞭解到:
機器學習全流程的串聯方式,包括數據預處理、特徵工程、算法、模型評估等;
常用的機器學習算法,包括邏輯迴歸、隨機森林、支持嚮量機、KMEANS、DBSCAN、K近鄰、
馬爾科夫決策、LDA、標簽傳播等;
機器學習算法在實際業務中的應用,涉及金融、醫療、新聞、電商等諸多領域;
機器學習的常用工具:R、Spark-MLib、TensorFlow、PAI等;
時下熱門的技術領域:深度學習、知識圖譜等。
機器學習是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度等多門學科,專門研究計算機怎樣模擬或實現人類的學習行為。機器學習是人工智能的核心,是使計算機具有智能的根本途徑。
本書通過對機器學習的背景知識、算法流程、相關工具、實踐案例以及知識圖譜等內容的講解,全麵介紹瞭機器學習的理論基礎和實踐應用。書中涉及機器學習領域的多個典型算法,並詳細給齣瞭機器學習的算法流程。
本書適閤任何有一定數據功底和編程基礎的讀者閱讀。通過閱讀本書,讀者不僅可以瞭解機器學習的理論基礎,也可以參照一些典型的應用案例拓展自己的專業技能。同時,本書也適閤計算機相關專業的學生以及對人工智能和機器學習感興趣的讀者閱讀。
李博,花名“傲海”。目前任阿裏雲數據産品經理,主要負責機器學習平颱的産品化建設以及對外業務應用。本科、碩士畢業於北京郵電大學,曾就職於索尼和華為(實習),從事數據相關産品的開發。作為CSDN博客專傢、雲棲社區博客專傢,長期分享IT技術相關文章,內容涉及機器學習算法、Android應用及源碼開發等領域。一直活躍於開發者社區,主導開發瞭多個GitHub百星開源項目,還開發並上綫瞭多款手機App。作者微信公眾號(長期更新機器學習業務應用文章):凡人機器學習 個人網站:www.garvinli.com 作者郵箱:garvin.libo@gmail.com
這是一本難得的麵嚮機器學習愛好者的入門級教程,本書涉及機器學習的基礎理論和深度學習等相關內容,內容深入淺齣。更加難能可貴的是,本書基於阿裏雲機器學習平颱,針對7個具體的業務場景,搭建瞭完整的解決方案,給讀者帶來第一手的實戰演練經驗。
——阿裏雲資深專傢褚崴
機器學習算法正在逐漸滲透到數據化運營的各個方麵,算法和業務數據相結閤可以大幅度地提高業務效率、降低成本。本書以算法的業務應用作為切入點,包含大量的案例說明,非常適閤讀者快速入門。
——阿裏雲高級專傢陳鵬宇
第1部分 背景知識
第1章 機器學習概述 3
1.1 背景 3
1.2 發展現狀 6
1.2.1 數據現狀 6
1.2.2 機器學習算法現狀 8
1.3 機器學習基本概念 12
1.3.1 機器學習流程 12
1.3.2 數據源結構 14
1.3.3 算法分類 16
1.3.4 過擬閤問題 18
1.3.5 結果評估 20
1.4 本章小結 22
第2部分 算法流程
第2章 場景解析 25
2.1 數據探查 25
2.2 場景抽象 27
2.3 算法選擇 29
2.4 本章小結 31
第3章 數據預處理 32
3.1 采樣 32
3.1.1 隨機采樣 32
3.1.2 係統采樣 34
3.1.3 分層采樣 35
3.2 歸一化 36
3.3 去除噪聲 39
3.4 數據過濾 42
3.5 本章小結 43
第4章 特徵工程 44
4.1 特徵抽象 44
4.2 特徵重要性評估 49
4.3 特徵衍生 53
4.4 特徵降維 57
4.4.1 特徵降維的基本概念 57
4.4.2 主成分分析 59
4.5 本章小結 62
第5章 機器學習算法——常規算法 63
5.1 分類算法 63
5.1.1 K近鄰 63
5.1.2 樸素貝葉斯 68
5.1.3 邏輯迴歸 74
5.1.4 支持嚮量機 81
5.1.5 隨機森林 87
5.2 聚類算法 94
5.2.1 K-means 97
5.2.2 DBSCAN 103
5.3 迴歸算法 109
5.4 文本分析算法 112
5.4.1 分詞算法——Hmm 112
5.4.2 TF-IDF 118
5.4.3 LDA 122
5.5 推薦類算法 127
5.6 關係圖算法 133
5.6.1 標簽傳播 134
5.6.2 Dijkstra最短路徑 138
5.7 本章小結 145
第6章 機器學習算法——深度學習 146
6.1 深度學習概述 146
6.1.1 深度學習的發展 147
6.1.2 深度學習算法與傳統
算法的比較 148
6.2 深度學習的常見結構 152
6.2.1 深度神經網絡 152
6.2.2 捲積神經網絡 153
6.2.3 循環神經網絡 156
6.3 本章小結 157
第3部分 工具介紹
第7章 常見機器學習工具介紹 161
7.1 概述 161
7.2 單機版機器學習工具 163
7.2.1 SPSS 163
7.2.2 R語言 167
7.2.3 工具對比 172
7.3 開源分布式機器學習工具 172
7.3.1 Spark MLib 172
7.3.2 TensorFlow 179
7.4 企業級雲機器學習工具 190
7.4.1 亞馬遜AWS ML 191
7.4.2 阿裏雲機器學習PAI 196
7.5 本章小結 205
第4部分 實戰應用
第8章 業務解決方案 209
8.1 心髒病預測 209
8.1.1 場景解析 209
8.1.2 實驗搭建 211
8.1.3 小結 216
8.2 商品推薦係統 216
8.2.1 場景解析 217
8.2.2 實驗搭建 218
8.2.3 小結 220
8.3 金融風控案例 220
8.3.1 場景解析 221
8.3.2 實驗搭建 222
8.3.3 小結 225
8.4 新聞文本分析 225
8.4.1 場景解析 225
8.4.2 實驗搭建 226
8.4.3 小結 230
8.5 農業貸款發放預測 230
8.5.1 場景解析 230
8.5.2 實驗搭建 232
8.5.3 小結 236
8.6 霧霾天氣成因分析 236
8.6.1 場景解析 237
8.6.2 實驗搭建 238
8.6.3 小結 243
8.7 圖片識彆 243
8.7.1 場景解析 243
8.7.2 實驗搭建 245
8.7.3 小結 253
8.8 本章小結 253
第5部分 知識圖譜
第9章 知識圖譜 257
9.1 未來數據采集 257
9.2 知識圖譜的概述 259
9.3 知識圖譜開源
工具 261
9.4 本章小結 264
參考文獻 265
推薦序
近年來,在IT圈大傢談論最多的就是人工智能。AlphaGo與圍棋選手的人機大戰更是讓我們領略到人工智能技術巨大潛力的同時,又將人工智能推嚮瞭一個新的製高點。
人工智能的發展得益於雲計算和大數據技術的成熟與普及。和人工智能相關的還有兩個核心詞匯——機器學習和深度學習。這三者有著什麼樣的關係?所謂人工智能,通俗地講是指由人工製造齣來的係統所錶現齣來的智能。人工智能研究的核心問題包括推理、知識、交流、感知、移動和操作物體的能力。而機器學習是人工智能的一個分支,很多時候機器學習幾乎成為人工智能的代名詞。機器學習簡單來講就是通過算法,使機器能從大量曆史數據中學習規律,從而對新的樣本做齣智能識彆或對未來做預測。深度學習是機器學習的一個新領域。之所以稱為“深度”,是因為前麵說的機器學習是淺層的學習,主要基於概率統計、矩陣或圖模型而得齣的分析結論。深度學習的概念源於人工神經網絡的研究,它基於神經網絡框架,通過模擬人腦學習的方式來處理數據。在人工智能實踐中,數據是載體和基礎,智能是追求的目標,而機器學習則是從數據通往智能的技術橋梁。因此,在人工智能領域,機器學習纔是核心,是現代人工智能的本質。
人工智能的火熱使市場上對機器學習人纔的需求不斷提高,很多從事軟件開發的程序員紛紛轉行投嚮機器學習領域。但機器學習對人纔的技術和理論水平要求都非常高,除瞭要掌握統計學中各種復雜的機器學習算法的理論推導外,還要懂計算機算法的實現邏輯以及分布式、並行化等架構理論。
本書是以應用場景為導嚮,以代碼實現為樣例貫穿始終,並融入瞭通俗易懂的理論知識。對於機器學習愛好者和想進入相關領域的從業者來說,是一本值得推薦的好書。
從2015年開始,我有幸與作者在同一個團隊工作,一起設計並研發阿裏雲的機器學習平颱——PAI。作者對機器學習的理解以及産品上的設計思想都在本書中完美地呈現,值得準備進入機器學習領域的愛好者和從業者好好品讀。
感謝作者讓我在新書齣版之前先睹為快。
——劉吉哲 阿裏雲高級專傢
前言
人工智能是近年來非常火的話題,人們似乎看到瞭在某些領域內機器智能取代人力的可能性。之所以人們可以得到這樣的判斷,主要是基於以下幾方麵原因:隨著互聯網的發展,人類社會積纍瞭大量的數據可供分析;機器學習的算法不斷迭代,特彆是近年來隨著深度學習的發展,人們從理論層麵取得瞭實質性突破;隨著分布式計算的成熟,雲計算讓計算資源不再成為瓶頸。我們可以把人工智能看作一個數據挖掘體係,在這個體係當中,機器學習的作用主要是學習曆史數據中的經驗,把這些經驗構建成數學模型。人類利用機器學習算法生成的模型,就可以解決日常的一些問題,如商品推薦和對股票漲跌的預測等。
以上談到瞭機器學習的主要作用,我們再來瞭解機器學習在業務中的應用,其實機器學習算法正在逐步嚮“平民化”演變。早些時候,隻有一些規模比較大的公司會投入資源在智能算法的研究上,因為這些算法需要大量的數據積纍以及計算資源,而且整個業務框架跟算法的結閤也需要耗費很大人力,所以隻有少數數據業務量達到一定規模的公司會在這方麵投入。但是隨著各種開源算法框架的發展以及計算資源的價格走低,機器學習不再是“奢侈品”,很多規模不大的公司也開始嘗試用機器學習算法生成的模型來指導自身業務,用數據來解決業務問題是代價最小的方式,而且效果會隨著數據量的積纍變得越來越明顯。機器學習算法正在幫助越來越多的企業實現轉型,從傳統的商業智能(Business Intelligence,BI)驅動到人工智能(Artificial Intelligence,AI)驅動。通過平日裏與客戶打交道,我們可以瞭解到,現在不隻是互聯網公司,更多傳統行業,如教育、地産和醫療等,也在嘗試把自己的業務數據上傳到雲,通過機器學習算法來提升自己的業務競爭力。
綜上所述,業務與機器學習算法的結閤很有可能是下一階段行業變革的驅動力,如果固守原來的傳統技術,不嘗試提升業務的數據驅動力,企業很有可能在這一波新的浪潮中被淘汰。本書嘗試將算法與實際的業務實戰相結閤,將對機器學習的全鏈路逐一進行介紹。在描述算法理論的時候,本書盡可能用更直白易懂的語句和圖示來替代公式。另外,為瞭幫助讀者更有成效地理解機器學習算法的使用邏輯,書中不單介紹瞭算法,還對整個數據挖掘的全流程,包括數據預處理、特徵工程、訓練以及預測、評估進行瞭介紹。而且本書還通過真實案例的數據,在各種不同業務場景下對整個數據挖掘流程進行瞭詳細介紹。此外,書中還簡單地介紹瞭深度學習和知識圖譜這兩個未來可能被更多關注的領域。總之,本書不是一本理論教程,而是一本推動算法與業務實踐相結閤的指南。
寫作本書的目的
我從研究生階段開始接觸機器學習算法,在碩士研究生期間主要從事算法的理論研究和代碼實現,當時參與瞭一些開源算法庫的開發和算法大賽,那時對機器學習的理解更多的是停留在數學公式推導層麵。那時候理解的機器學習就是一門統計科學,需要把公式研究透徹。直到入職阿裏雲,從事瞭機器學習平颱相關的工作,我對機器學習的看法發生瞭很大改變。根據平日裏與客戶的溝通,我認識到,對絕大部分中小企業用戶而言,機器學習算法隻是幫助大傢提升業務成效的工具,很多用戶對機器學習的理解還處於比較初級的階段,與這種現狀相矛盾的是目前市麵上部分機器學習相關的圖書都更偏嚮於理論研究,而比較缺乏實際應用的場景。
寫這本書的目的就是希望可以提供這樣一本素材,能夠讓渴望瞭解機器學習的人快速瞭解整個數據挖掘體係的輪廓,可以用最小的成本幫助用戶把算法遷移到機器學習雲服務上去。至於算法的精密度和深度的探索,那是數學傢需要考慮的事情,對絕大部分的機器學習算法用戶而言,這樣一本能幫助大傢快速理解算法並能夠將其在業務上實踐的教程可能會更加有效。
對我而言,本書也是我對自己學習成果的總結。從 2013年起,我陸陸續續在CSDN、GitHub和雲棲社區上分享過一些自己在IT領域的學習筆記和代碼,收到瞭很多朋友的反饋,也有一些齣版社的朋友找到我希望可以把這些內容整理成書,但是一直沒有特彆篤定的想法——什麼樣的書是有價值的。通過近一年來的機器學習平颱産品建設以及與客戶的不斷接觸,我心中的想法逐漸清晰,很多機器學習愛好者最關心的是如何使用算法而不是這些算法背後的推理,於是本書就應運而生瞭。雖然我纔疏學淺,書中內容未免有描述不足之處,但是我真心希望這本書可以在讀者探索機器學習的道路上為其提供助力。
讀者對象
本書的讀者對象如下:
? 有一定數學基礎,希望瞭解機器學習算法的人;
? 有編程基礎,希望自己搭建機器學習服務解決業務場景的工程師;
? 數據倉庫工程師;
? 與數據挖掘相關的高校學生;
? 尋求數據驅動業務的企業決策者。
如何閱讀本書
本書的結構是按照讀者對機器學習的認知過程和數據挖掘的算法流程來組織的,一共分為5個部分,共9章內容。
第1部分是機器學習的背景知識介紹,包括第1章。這一部分主要介紹機器學習的發展曆史以及現狀,另外,也介紹瞭機器學習的一些基本概念,為接下來的內容做準備。
第2部分介紹機器學習的算法流程,包括第2~6章,分彆介紹瞭場景解析、數據預處理、特徵工程、機器學習常規算法和深度學習算法。在第5章的算法部分,對常見的分類算法、聚類算法、迴歸算法、文本分析算法、推薦算法和關係圖算法都進行瞭介紹,從這一章可以瞭解到不同業務場景下不同算法的區彆和用法。第6章對深度學習相關內容進行瞭講解,包括常用的3種模型DNN、CNN和RNN的介紹。
第3部分介紹機器學習的相關工具,包括第7章的內容。這裏的工具是一個廣泛的概念,包括瞭 SPSS 和 R 語言這樣的單機統計分析環境,也包括瞭分布式的算法框架Spark MLib和TensorFlow,還有企業級的雲算法服務AWS ML和阿裏雲PAI。通過閱讀這一章,讀者可以根據自身的業務特點,選擇適閤自己的算法工具。
第4部分介紹機器學習算法的實踐案例,包括第8章,幫助讀者理解整個數據挖掘流程。這一章針對不同行業和不同場景搭建瞭實驗,分彆介紹瞭如何通過機器學習算法應對心髒病預測、商品推薦、金融風控、新聞分類、貸款預測、霧霾天氣預報和圖片識彆等業務場景,因此也是本書的核心章節。
第5部分主要針對知識圖譜這個熱點話題進行介紹,包括第9章,知識圖譜的介紹主要是從圖譜的概念以及實現的角度來說明。
盡管讀者可以根據自己的側重點來選擇閱讀順序,但我強烈建議讀者按照順序來閱讀,這樣對理解書中的概念並能夠循序漸進地掌握相關知識更有幫助。
勘誤和服務
雖然花瞭很多時間去反復檢查和核實書中的文字、圖片和代碼,但是因為認知能力有限,書中難免會有一些紕漏,如果大傢發現書中的不足之處,懇請反饋給我,我一定會努力修正問題,我的個人郵箱是 garvin.libo@gmail.com。如果大傢在閱讀本書的時候遇到什麼問題,也歡迎通過各種方式與我取得聯係,個人網站為www.garvinli.com,另外本人的博客地址是http://blog.csdn.net/buptgshengod。讀者也可以到異步社區的頁麵內提交勘誤,網址詳見http://www.epubit.com.cn/book/detail/4757。因為工作繁忙,可能來不及一一迴復,但是我會盡力與讀者保持溝通,謝謝大傢的支持。
發貨速度快,質量也不錯,適閤初學者打基礎
評分618囤貨中,經濟實惠。給力,期待明年
評分挺好的書,簡單易學,京東,618,不買書太虧瞭,趕緊囤書,希望京東多多舉辦活動。
評分挺好的一套書,推薦,大傢有時間看看
評分同時買瞭兩本書,這本挺好的,另一本就不行瞭,一點也不像正版的書。
評分基礎很重要,會一個框架會調用一個函數,誰都能學,但是理論基礎可能是將來教育機構爆炸之後的分水嶺
評分應是經典,京東速度、服務一流,點贊!
評分預覽瞭一下,還不錯,所以購買瞭。
評分書是彩的,紙張質量不錯,推薦
機器學習實踐應用 pdf epub mobi txt 電子書 下載