機器學習是本次人工智能熱潮的核心技術。引起轟動的應用如AlphaGo等都可以看到機器學習的身影。目前,機器學習理論紛繁復雜,算法形式花樣百齣。人們一直在疑惑,機器學習,特彆是其中的深度學習的本質到底是什麼?
作者積二十年研究之力,將各種學習理論融於一體,提齣瞭五條學習公理,據此推導齣瞭常見的學習算法,包括深度學習。如果想要知道機器學習的本質,快速理清各種學習算法之間的關係,《機器學習:從公理到算法(中國計算機學會學術著作叢書)》是一條不容錯過的終南捷徑。
《機器學習:從公理到算法(中國計算機學會學術著作叢書)》是一本基於公理研究學習算法的書。共17章,由兩部分組成。第一部分是機器學習公理以及部分理論演繹,包括第1、2、6、8章,論述學習公理以及相應的聚類、分類理論。第二部分關注如何從公理推齣經典學習算法,包括單類、多類和多源問題。第3~5章為單類問題,分彆論述密度估計、迴歸和單類數據降維。第7、9~16章為多類問題,包括聚類、神經網絡、K近鄰、支持嚮量機、Logistic迴歸、貝葉斯分類、決策樹、多類降維與升維等經典算法。最後第17章研究瞭多源數據學習問題。
《機器學習:從公理到算法(中國計算機學會學術著作叢書)》可以作為高等院校計算機、自動化、數學、統計學、人工智能及相關專業的研究生教材,也可以供機器學習的愛好者參考。
於劍,北京交通大學計算機學院教授,博士生導師,交通數據分析與挖掘北京市重點實驗室主任,先後獲得北京大學數學專業本科、碩士、博士,中國人工智能學會機器學習專委會副主任,中國計算機學會人工智能與模式識彆專委會秘書長,承擔多項國傢自然科學基金項目,發錶多篇學術論文,包括TPAMI、CVPR 等。
第1章引言1
11機器學習的目的:從數據到知識1
12機器學習的基本框架2
121數據集閤與對象特性錶示3
122學習判據4
123學習算法5
13機器學習思想簡論5
延伸閱讀7
習題8
參考文獻9
第2章歸類理論11
21類錶示公理13
22歸類公理17
23歸類結果分類20
24歸類方法設計準則22
241類一緻性準則23
242類緊緻性準則23
243類分離性準則25
244奧卡姆剃刀準則25
討論27
延伸閱讀29
習題30
參考文獻31
第3章密度估計33
31密度估計的參數方法33
311最大似然估計33
312貝葉斯估計35
32密度估計的非參數方法39
321直方圖39
322核密度估計39
323K近鄰密度估計法40
延伸閱讀40
習題41
參考文獻41
第4章迴歸43
41綫性迴歸43
42嶺迴歸47
43Lasso迴歸48
討論51
習題52
參考文獻52
第5章單類數據降維53
51主成分分析54
52非負矩陣分解56
53字典學習與稀疏錶示57
54局部綫性嵌入59
55典型關聯分析62
56多維度尺度分析與等距映射63
討論65
習題66
參考文獻66
第6章聚類理論69
61聚類問題錶示及相關定義69
62聚類算法設計準則70
621類緊緻性準則和聚類不等式70
622類分離性準則和重閤類非穩定假設72
623類一緻性準則和迭代型聚類算法73
63聚類有效性73
631外部方法73
632內蘊方法75
延伸閱讀76
習題77
參考文獻77
第7章聚類算法81
71樣例理論:層次聚類算法81
72原型理論:點原型聚類算法83
721C均值算法84
722模糊C均值86
73基於密度估計的聚類算法88
731基於參數密度估計的聚類算法88
732基於無參數密度估計的聚類算法97
延伸閱讀106
習題107
參考文獻108
第8章分類理論111
81分類及相關定義111
82從歸類理論到經典分類理論112
821PAC理論113
822統計機器學習理論115
83分類測試公理118
討論119
習題119
參考文獻120
第9章基於單類的分類算法:神經網絡121
91分類問題的迴歸錶示121
92人工神經網絡122
921人工神經網絡相關介紹122
922前饋神經網絡124
93從參數密度估計到受限玻耳茲曼機129
94深度學習131
941自編碼器132
942捲積神經網絡132
討論133
習題134
參考文獻134
第10章K近鄰分類模型137
101K近鄰算法138
1011K近鄰算法問題錶示138
1012K近鄰分類算法139
1013K近鄰分類算法的理論錯誤率140
102距離加權最近鄰算法141
103K近鄰算法加速策略142
104kd樹143
105K近鄰算法中的參數問題144
延伸閱讀145
習題145
參考文獻145
第11章綫性分類模型147
111判彆函數和判彆模型147
112綫性判彆函數148
113綫性感知機算法151
1131感知機數據錶示151
1132感知機算法的歸類判據152
1133感知機分類算法153
114支持嚮量機156
1141綫性可分支持嚮量機156
1142近似綫性可分支持嚮量機159
1143多類分類問題162
討論164
習題165
參考文獻166
第12章對數綫性分類模型167
121Softmax迴歸167
122Logistic迴歸170
討論172
習題173
參考文獻173
第13章貝葉斯決策175
131貝葉斯分類器175
132樸素貝葉斯分類176
1321最大似然估計178
1322貝葉斯估計181
133最小化風險分類183
134效用最大化分類185
討論185
習題186
參考文獻186
第14章決策樹187
141決策樹的類錶示187
142信息增益與ID3算法192
143增益比率與C45算法194
144Gini指數與CART算法195
145決策樹的剪枝196
討論197
習題197
參考文獻198
第15章多類數據降維199
151有監督特徵選擇模型199
1511過濾式特徵選擇200
1512包裹式特徵選擇201
1513嵌入式特徵選擇201
152有監督特徵提取模型202
1521綫性判彆分析202
1522二分類綫性判彆分析問題202
1523二分類綫性判彆分析203
1524二分類綫性判彆分析優化算法205
1525多分類綫性判彆分析205
延伸閱讀207
習題207
參考文獻207
第16章多類數據升維:核方法209
161核方法209
162非綫性支持嚮量機210
1621特徵空間210
1622核函數210
1623常用核函數212
1624非綫性支持嚮量機212
163多核方法213
討論215
習題215
參考文獻216
第17章多源數據學習217
171多源數據學習的分類217
172單類多源數據學習217
1721完整視角下的單類多源數據學習218
1722不完整視角下的單類多源數據學習220
173多類多源數據學習221
174多源數據學習中的基本假設222
討論222
習題223
參考文獻223
後記225
索引229
第 1章引言
好好學習,天天嚮上。 ——毛澤東, 1951年題詞
大數據時代,人類收集、存儲、傳輸、管理數據的能力日益提高,各行各業已經積纍瞭大量的數據資源,如著名的 Nature雜誌於 2008年 9月齣版瞭一期大數據專刊 [1],列舉瞭生物信息、交通運輸、金融、互聯網等領域的大數據應用。如何有效分析數據並得到有用信息甚至知識成為人們關注的焦點。人們寄希望於智能數據分析來完成該項任務。機器學習是智能數據分析技術的核心理論。 Science雜誌於 2015年 7月組織瞭一個人工智能專題 [2],其中有關機器學習的內容依然占據瞭重要的部分。本章將討論機器學習的基本目的、基本框架、思想發展以及未來走嚮。
1.1機器學習的目的:從數據到知識
人類最重要的一項能力是能夠從過去的經驗中學習,並形成知識。韆百年來,人類不斷從學習中積纍知識,為人類文明打下瞭堅實的基礎。“學習”是人與生俱來的基本能力,是人類智能( human intelligence)形成的必要條件。自 2000年以來,隨著互聯網技術的普及,積纍的數據已經超過瞭人類個體處理的極限,以往人類自己親自處理數據形成知識的模式已經到瞭必須改變的地步,人類必須藉助於計算機纔能處理大數據,更直白地說,我們希望計算機可以像人一樣從數據中學到知識。
由此,如何利用計算機從大數據中學到知識成為人工智能研究的熱點。“機器學習”(machine learning)是從數據中提取知識的關鍵技術。其初衷是讓計算機具備與人類相似的學習能力。迄今為止,人們尚不知道如何使計算機具有與人類相媲美的學習能力。然而,每年都有大量新的針對特定任務的機器學習算法湧現,幫助人們發現完成這些特定任務的新知識(有時也許僅僅是隱性新知識)。對機器學習的研究不僅已經為人們提供瞭許多前所未有的應用服務(如信息搜索、機器翻譯、語音識彆、無人駕駛等),改善瞭人們的生活,而且也幫助人們開闢瞭許多新的學科領域,如計算金融學、計算廣告學、計算生物學、計算社會學、計算曆史學等,為人類理解這個世界提供瞭新的工具和視角。可以想見 ,作為從數據中提取知識的工具,機器學習在未來還會幫助人們進一步開拓新的應用和新的學科。
機器學習存在很多不同的定義,常用的有三個。第一個常用的機器學習定義是“計算機係統能夠利用經驗提高自身的性能”,更加形式化的論述可見文獻 [3]。機器學習名著《統計學習理論的本質》給齣瞭機器學習的第二個常見定義,“學習就是一個基於經驗數據的函數估計問題” [4]。在《統計學習基礎》這本書的序言裏給齣瞭第三個常見的機器學習定義,“提取重要模式、趨勢,並理解數據,即從數據中學習” [11]。這三個常見定義各有側重:第一個聚焦學習效果,第二個的亮點是給齣瞭可操作的學習定義,第三個突齣瞭學習任務的分類。但其共同點是強調瞭經驗或者數據的重要性,即學習需要經驗或者數據。注意到提高自身性能需要知識,函數、模式、趨勢顯然自身是知識,因此,這三個常見的定義也都強調瞭從經驗中提取知識,這意味著這三種定義都認可機器學習提供瞭從數據中提取知識的方法。眾所周知,大數據時代的特點是“信息泛濫成災但知識依然匱乏”。可以預料,能自動從數據中學到知識的機器學習必將在大數據時代扮演重要的角色。
那麼如何構建一個機器學習任務的基本框架呢?
1.2機器學習的基本框架
考慮到我們希望用機器學習來代替人學習知識,因此,在研究機器學習以前,先迴顧一下人類如何學習知識是有益的。對於人來說,要完成一個具體的學習任務,需要學習材料、學習方法以及學習效果評估方法。如學習英語,需要英語課本、英語磁帶或者錄音等學習材料,明確學習方法是背誦和練習,告知學習效果評估方法是英語評測考試。檢測一個人英語學得好不好,就看其利用學習方法從學習材料得到的英語知識是否能通過評測考試。機器學習要完成一個學習任務,也需要解決這三方麵的問題,並通過預定的測試。
對應於人類使用的學習材料,機器學習完成一個學習任務需要的學習材料,一般用描述對象的數據集閤來錶示,有時也用經驗來錶示。對應於人類完成學習任務的學習方法,機器學習完成一個學習任務需要的學習方法,一般用學習算法來錶示。對應於人類完成一個學習任務的學習效果現場評估方法(如老師需要時時觀察課堂氣氛和學生的注意力情況),機器學習完成一個學習任務也需要對學習效果進行即時評估,一般用學習判據來錶示。對於機器學習來說,用來描述數據對象的數據集閤對最終學習任務的完成狀況有重要影響,用來指導學習算法設計的學習判據有時也用來評估學習算法的效果,但一般機器學習算法性能的標準評估會不同於學習判據,正如人學習的學習效果即時評估方式與最終的評估方式一般也不同。對於機器學習來說,通常也會有特定的測試指標,如正確率,學習速度等。
可以用一個具體的機器學習任務來說明。給定一個手寫體數字字符數據集閤,希望機器能夠通過這些給定的手寫體數字字符,學到正確識彆手寫數字字符的知識。顯然,學習材料是手寫體數字字符數據集,學習算法是字符識彆算法,學習判據可以是識彆正確率,也可以是其他有助於提高識彆正確率的指標。
數據集閤、學習判據、學習算法對於任何學習任務都是需要討論的對象。數據集閤的不同錶示,影響學習判據與學習算法的設計。學習判據與學習算法的設計密切相關,下麵分彆討論。
1.2.1數據集閤與對象特性錶示
對於一個學習任務來說,我們希望學到特定對象集閤的特定知識。無論何種學習任務,學到的知識通常是與這個世界上的對象相關。通過學到的知識,可以對這個世界上的對象有更好的描述,甚至可以預測其具有某種性質、關係或者行為。為此,學習算法需要這些對象的特性信息,這些信息可以客觀觀測,即關於特定對象的特性信息集閤,該集閤一般稱為對象特性錶示,是學習任務作為學習材料的數據集閤的組成部分。理論上,用來描述對象的數據集閤的錶示包括對象特性輸入錶示、對象特性輸齣錶示。
顯然,對象特性輸入錶示是我們能夠得到的對象的觀測描述,對象特性輸齣錶示是我們學習得到的對象的特性描述。需要指齣的是,對象的特性輸入錶示或者說對象的輸入特徵一定要與學習任務相關。根據醜小鴨定理( Ugly Duckling Theorem)[5],不存在獨立於問題而普遍適用的特徵錶示,特徵的有效與否是問題依賴的。醜小鴨定理是由 Satosi Watanabe於 1969年提齣的,其內容可錶述為“如果選定的特徵不閤理,那麼世界上所有事物之間的相似程度都一樣,醜小鴨與白天鵝之間的區彆和兩隻白天鵝之間的區彆一樣大”。該定理錶明在沒有給定任何假設的情況下,不存在普適的特徵錶示;相似性的度量是特徵依賴的,是主觀的、有偏置的,不存在客觀的相似性度量標準。因此,對於任何機器學習任務來說,得到與學習任務匹配的特徵錶示是學習任務成功的首要條件。對於機器學習來說,一般假設對象特徵已經給定,特彆是對象特性輸入錶示。
對於對象特性輸入錶示,通常有三種錶示方式。一種是嚮量錶示,對於每個對象,可以相對獨立地觀察其特有的一些特徵。這些特徵組成該對象的一個描述,並代錶該對象。第二種錶示是網絡錶示,對於每個對象,由其與其他對象的關係來描述,簡單說來,觀察得到的是對象之間的彼此關係。第三種是混閤錶示 ,對於每個對象,其嚮量錶示和網絡錶示同時存在。
不論對於人還是機器,能夠提供學習或者訓練的對象總是有限的。不妨假設有 N個對象,對象集閤為 O = {o1,o2, ··· ,oN },其中 ok錶示第 k個對象。其對應的對象特性輸入錶示用 X = {x1,x2, ··· ,xN }來錶示,其中 xk錶示對象 ok的特性輸入錶示。當每個對象有嚮量錶示時, xk可以錶示為 xk =[x1k,x2k, ··· ,xpk]T。因此,對象特性輸入錶示 X可以用矩陣 [xτk]p×N來錶示,其中 p錶示對象輸入特徵的維數, xτk錶示 ok的第 τ個輸入特徵值,這些特徵值可以是名詞性屬性值,也可以是連續性屬性值。
如果對象特性輸入錶示 X存在網絡錶示,即 X可以用矩陣 [Nkl]N×N來錶示,其中 Nkl錶示對象 ok與對象 ol的網絡關係。如果是相似性關係,則對象特性輸入錶示 X為相似性矩陣 S(X)=[skl]N×N,其中 skl錶示對象 ok與對象 ol的相似性。通常, skl越大錶明對象 ok與對象 ol的相似性越大。因此,對象 ok可以由行嚮量 [sk1,sk2, ··· ,skN ]錶示。如果是相異性關係,則對象特性輸入錶示 X為相異性矩陣 D(X)=[Dkl]N×N,其中 Dkl錶示對象 ok與對象 o1的相異性。類似的,Dkl越大錶明對象 ok與對象 ol的相異性越大。因此,對象 ok可以由行嚮量 [Dk1,Dk2, ··· ,DkN ]錶示。如果是相鄰關係,對象特性輸入錶示 X為鄰接性矩陣 A(X)=[akl]N×N,其中 akl錶示對象 ok與對象 ol是否相鄰,通常其取值為 0或者 1。
對應的對象特性輸齣錶示用 Y = {y1,y2, ··· ,yN }來錶示,其中 yk錶示對象 ok的特性輸齣錶示。具體的錶示形式由學習算法決定,通常是對象特性輸齣錶示 Y可以用矩陣 [yτk]d×N來錶示,其中 d錶示對象輸齣特徵的維數, yτk錶示 ok的第 τ個輸齣特徵值,這些特徵值通常是連續性屬性值。
顯然,除去對象特性輸入、輸齣錶示,數據集閤還有其他部分,這些部分的錶示與知識錶示有關,通常依賴於知識錶示。知識錶示不同,學習算法的數據集閤輸入輸齣錶示也會不同。一個容易想到的公開問題是,適閤於機器學習的統一知識錶示是否存在?如果存在,是何形式?現今的機器學習方法一般是針對具體的學習任務,設定具體的知識錶示。因此,本章先不討論學習算法的輸入輸齣統一錶示,這個問題留待第 2章討論。
1.2.2學習判據
完成一個學習任務,需要一個判據作為選擇學習到的知識好壞的評價標準。理論上,符閤一個學習任務的具體化知識可以有很多。通常,如何從中選齣最好的具體化知識錶示是一個 NP難問題。因此,需要限定符閤一個特定學習任務的具體化知識範圍,適當減小知識假設空間的大小,減少學習算法的搜索空間。為瞭從限定的假設空間選擇最優的知識錶示,需要根據不同的學習要求來設定學習判據對搜索空間各個元素的不同分值。判據設定的準則有很多,理論上與學習任務相關,本書將在以後的章節中進行討論。需要指齣的是,有時學習判據也被稱為目標函數。在本書中,對於這兩個術語不再特意區彆。
1.2.3學習算法
在學習判據給齣瞭從知識錶示空間搜索最優知識錶示的打分函數之後,還需要設計好的優化方法,以便找齣對應於打分函數達到最優的知識錶示。此時,機器學習問題通常歸結為一個最優化問題。選擇最優化方法對有效完成學習任務很關鍵。目前,最優化理論在機器學習問題中已經變得越來越重要。典型的最優化算法有梯度下降算法、共軛梯度算法、僞牛頓算法、綫性規劃算法、演化算法、群體智能等。如何選擇閤適的優化技術,得到快速、準確的解是很多機器學習問題的難點所在。這就要求工程技術和數學理論相結閤,以便很好地解決優化問題。一般建議初學者先采用已有的最優化算法,之後再設計專門的優化算法。
是否有不依賴於具體問題的最優學習算法呢?如果有的話,隻需學一種算法就可以包打天下瞭。可惜的是,結論是否。著名的沒有免費午餐定理已經明確指齣:不存在對於所有學習問題都適用的學習算法 [6–8]。
1.3機器學習思想簡論
機器學習作為一個單獨的研究方嚮,應該說是在 20世紀 80年代第一屆 ICML召開之後纔有的事情。但是,廣義上來說,機器學習任務,或者學習任務,一有人類就齣現瞭。在日常生活中,人們每天都麵臨如何從自己采集的數據中提取知識進行使用的問題。比如,大的方麵,需要觀察環境的變化來學習如何製定政策使得我們這個地球可持續發展;小的方麵,需要根據生活的經驗買到一個可口的柚子或者西瓜,選擇一個靠譜的理發師,等等。在計算機齣現以前,數據采集都是人直接感知或者操作,采集到的數據量較小,人可以直接從數據中提取知識,並不需要機器學習。如對於迴歸問題,高斯在 19世紀早期( 1809)就發錶瞭最小二乘法;對於數據降維問題,卡爾·皮爾遜在 1901年就發明瞭主成分分析( PCA);對於聚類問題, K-means算法最早也可追溯到 1953年 [9]。但是,這些算法和問題被歸入機器學習,也隻有在機器收集數據能力越來越成熟導緻人類直接從數據中提取知識成為不可能之後纔變得沒有異議。
在過去的 30年間,機器學習從處理僅包含上百個樣本數據的玩具問題( toy-problem)起步,發展到今天,已經成為從科學研究到商業應用的標準數據分析工具。但是其研究熱點也幾經變遷,本書將從思想史的角度略加總結。
機器學習最早的目標是從數據中發現可以解釋的知識,在追求算法性能的同時,強調算法的解釋性。早期的綫性感知機、決策樹和最近鄰等算法可以說是這方麵的典型代錶作。但是, 1969年,Minsky指齣綫性感知機算法不能解決異或問題 [10]。由於現實世界的問題大多是非綫性問題,而異或問題可以說是最簡單的非綫性問題,由此可以推斷綫性感知機算法用處不多。這對於以綫性感知機算法為代錶的神經網絡研究可以說是緻命一擊,直接導緻瞭神經網絡甚至人工智能的第一個鼕天。感知機算法的發明人、神經網絡先驅 Rosenblatt於 1971年因故去世,更加增添瞭這個鼕天的寒意。
需要指齣的是,很多實際應用並不要求算法具有可解釋性。比如機器翻譯、天氣預報、蔔卦算命等。在這種需求下,如果一個算法的泛化性能能夠超過其他同類算法,即使該算法缺少解釋性,則該算法依然是優秀的學習算法。 20世紀 80年代神經網絡的復蘇,其基本思路即為放棄解釋性,一心提高算法的泛化性能。神經網絡放棄解釋性的最重要標誌是其激活函數不再使用綫性函數,而是典型的非綫性函數如 Sigmoid函數和雙麯函數等,其優點是其錶示能力大幅提高,相應的復雜性也極度增長。眾所周知,解釋性能好的學習算法,其泛化性能也要滿足實際需求。如果其泛化性能不佳,即使解釋性好,人們也不會選用。在 20世紀 80年代,三層神經網絡的性能超過瞭當時的分類算法如決策樹、最近鄰等,雖然其解釋性不佳,神經網絡依然成為當時最流行的機器學習模型。在神經網絡放棄解釋性之後,其對於算法設計者的知識儲備要求也降到瞭最低,因此,神經網絡在 20世紀 80年代吸引瞭大批的研究者。
當然,也有很多實際應用要求算法具有可解釋性,如因果關係發現、控製等。應該說,同時追求解釋性和泛化性能一直是非神經網絡機器學習研究者設計學習算法的基本約束。一旦一個算法既具有很好的解釋性,其性能又超過神經網絡,神經網絡研究就將麵臨極大的睏境。這樣的事情在曆史上也曾真實地發生過。 1995年 Vapnik提齣瞭支持嚮量機分類算法,該算法解釋性好,其分類性能也超過瞭當時常見的三層神經網絡,尤其需要指齣的是,其理論的分類錯誤率可以通過 Valiant的 PAC理論來估計。這導緻瞭神經網絡研究的十年沉寂,有人也將其稱為人工智能的第二個鼕天。在這期間,大批原先的神經網絡研究者紛紛選擇離開,隻有少數人堅持研究神經網絡。這個時間段對於機器學習來說,顯然不是鼕季。在這十年間,人們提齣瞭概率圖理論、核方法、流形學習、稀疏學習、排序學習等多種機器學習新方嚮。特彆是在 20世紀末和 21世紀初,由於在搜索引擎、字符識彆等應用領域取得的巨大進展,機器學習的影響力日益興旺。其標誌事件有:1997年 Tom Mitchell機器學習經典教科書的齣現 [3],2010年和 2011年連續兩年圖靈奬頒發給瞭機器學習的研究者 Valiant和 Pearl。
三十年河東,三十年河西。 2006年以後,神經網絡突破瞭三層網絡結構限製,大幅提高瞭模型的錶示能力,又逢大數據時代相伴而生的高計算能力,神經網絡化身深度學習,再次將分類能力提高到同時代其他模型無法匹敵的程度,有人將其稱為人工智能的第三個春天。在機器學習的許多應用領域,深度學習甚至成為機器學習的代名詞。雖然如此,時至今日,深度學習隻是機器學習的一個分支,無論其沉寂或者過熱,都不能逆轉而隻能加速全部機器學習本身應用越來越普及、理論越來越深入的發展趨勢。
如今,機器學習算法每天被用來幫助解決不同學科不同商業應用的各種實際數據分析問題,相關的研究者每年也會針對相同或者不同的學習問題設計成百上韆的新學習算法。麵對一個學習任務,使用者經常麵對十幾個甚至幾百個學習算法,如何從已有的算法中選擇一個適當的方法或者設計一個適閤自己問題的算法成為當前機器學習研究者和使用者必須麵對的問題。早在 2004年,周誌華在國傢自然科學基金委員會秦皇島會議上做瞭一個名為“普適機器學習”的學術報告,其中曾明確指齣:機器學習“以 Tom Mitchell的經典教科書( McGraw Hill齣版社,1997)為例,很難看到基礎學科(例如數學、物理學)教科書中那種貫穿始終的體係,也許會讓人感到這不過是不同方法和技術的堆砌”。因此,已有的機器學習算法是否存在共性,是否存在統一的框架來描述機器學習算法的設計過程,就變成瞭一個亟待解決的問題。本書將從知識錶示的角度齣發,來闡述我們對這一問題的研究結果,並據此討論現存的機器學習算法的適用範圍。
延伸閱讀
目前有多種不同的視角和觀點研究機器學習。例如,可以從概率圖角度來看待機器學習 [12, 13],可以從統計角度來討論機器學習 [11],還可以從神經網絡的觀點來闡述機器學習 [16],也可以調和以上各派觀點來闡述機器學習 [17]。客觀地說,上述觀點都有一定道理,但是也有一個共同而重要的缺陷,那就是沒有給齣一個統管一切學習(包括機器、人類和生物)的理論。這正是 Jordan和 Mitchell在 2015年在 Science上發文指齣的,機器學習所關注的兩大問題之一:是否存在統管一切機器、人類和生物的學習規律 [14]。本書將緻力於解決這一個問題。為此,本書采取瞭不同於以往的觀點,從知識錶示這一角度來闡述機器學習,並以此為齣發點對現在的機器學習方法進行統一研究。
本書的基本齣發點是,每個機器學習算法都有自己的知識錶示。如果數據中
含有的知識不適閤特定機器學習算法的知識錶示,期望這種機器學習算法能夠學到數據中含有的知識並不現實。因此,知識錶示對於機器學習至關重要。但是,眾所周知,經典的知識定義是柏拉圖提齣的,在 2000多年的時間裏未受到嚴重的挑戰。直到 1963年,蓋梯爾寫瞭一生唯一的一篇三頁紙論文。這短短的三頁紙使蓋梯爾成為哲學史上繞不過去的人物,改變瞭蓋梯爾的命運,也改變瞭知識論的發展進程。這三頁紙中提齣的蓋梯爾難題直接否定瞭經典的知識定義 [18]。其直接後果是到目前並沒有一個統一的知識定義,更不用說知識的統一錶示。因此,暫時放棄知識的整體研究,而緻力於知識的基本組成單位研究也許是一條更為可行的路徑。本書即是這樣的一個嘗試和努力。
注意到知識的最小組成單位是概念 [15],而目前的機器學習主要關注於從數據中提取概念。因此,研究概念的錶示也將有助於機器學習的研究。正是從這一點齣發,本書以一種統一的方式研究瞭常見的機器學習算法,如密度估計、迴歸、數據降維、聚類和分類等。
當然,機器學習的發展不僅與知識錶示直接相關,也與最優化、統計等密切相關。曆史上,計算機、數學、心理學、神經學、生物信息學、哲學等很多學科都曾極大地促進瞭機器學習的發展。未來是否還有其他學科對機器學習有重要影響,也是一個有趣的話題。
最後,稍微討論一下與機器學習相關的學習、研究資料。目前,機器學習的發展方興未艾,特彆是學習算法的研究成果日新月異。除瞭已經列入參考文獻的部分經典著作外,還有很多有影響的學術會議、學術期刊和網絡資源等,如機器學習相關學術會議 ICML、NIPS、COLT,學術期刊 TPAMI和 JMLR,網絡資源 http://videolectures.net/,有興趣的讀者可以自行查閱。
機器學習的主要目的是從有限的數據中學習到知識,而知識的基本單元是概念。藉助於概念,人類可以在繁復的思想與多彩的世界之間建立起映射,指認各種對象,發現各種規律,錶達各種想法,交流各種觀念。一旦缺失相應的概念,人們將無法思考、交流,甚至無法順利地生活、學習、工作、醫療、娛樂等。哲學傢如卡西爾等甚至認為人類的本質特性是能夠使用和創造各種符號概念。因此,如何使機器能夠像人一樣自動發現、運用概念,正是機器學習的基本研究內容。本書將集中討論這個問題。
所謂的概念發現,是指從一個給定概念(或者概念集閤)的有限外延子集提取對應的概念(或者概念集閤)錶示,又稱歸類問題。通過自然進化,人類可以從一個概念(或概念集閤)的有限外延子集(有限的對象)中輕鬆提取概念(或概念集閤)自身。對於人類如何處理歸類問題,人們已經研究瞭很多年,發明瞭許多理論,比如經典概念理論、原型理論、樣例理論和知識理論等,積纍瞭很多的研究成果。本書藉助認知科學的研究成果,提齣瞭類的統一錶示數學模型,以及與之相關的歸類問題的統一數學錶示。由此提齣瞭類錶示公理、歸類公理和分類測試公理。據此,本書分彆研究瞭歸類結果分類、歸類算法分類等諸多問題。特彆需要提齣的是,本書首次歸納瞭歸類算法設計應該遵循的4條準則——類一緻性準則、類緊緻性準則、類分離性準則和奧卡姆剃刀準則。在理論上,任何機器學習算法的目標函數設計都遵循上述4條準則的1條或者數條。
對於具體的機器學習問題,本書依據奧卡姆剃刀準則,按照歸類錶示從簡單到復雜的順序,重新進行瞭組織。本書不僅論述瞭單類問題比多類問題的歸類錶示簡單,聚類問題比分類問題的歸類錶示簡單,單源數據學習比多源數據學習的歸類錶示簡單,而且對於單類問題、多類問題自身的歸類錶示復雜度也進行瞭研究。在此基礎上,指齣單類問題包括密度估計、迴歸和單類數據降維等,並藉助提齣的公理框架以統一的方式演繹推齣瞭在密度估計、迴歸、數據降維、聚類和分類等問題中常用的機器學習算法。
本書中章節的組織結構都是類似的,特彆是與具體學習算法有關的章節。每
章有一個簡短的開篇詞。如果該章是學習算法章節,該開篇詞用來簡要說明本章算法的主要設計思想。如果該章是理論章節,該開篇詞說明該理論問題的主要目標。每章結尾有延伸閱讀或者討論,延伸閱讀提供更深入的相關閱讀文獻,討論說明本章的相關內容與分析或者尚未解決的問題。
作者講授機器學習已十數年,有感於當前的機器學習算法理論依據過多過雜,同時也一直羨慕歐氏幾何從五條公理齣發導齣所有結論的風格。撰寫本書,既是將歐氏幾何風格移植到機器學習的一個嘗試,更是試圖為機器學習與模式識彆提供一個統一但又簡單的理論視角。總之,機器學習公理化這個問題在本書中提齣,也在本書中解決瞭。
於劍2017年3月
我是在一個學術會議上第一次聽說這本書的。當時,一位來自國內頂尖高校的教授在介紹他的最新研究成果時,多次引用瞭本書中的一些概念和推導。這讓我意識到,這不僅僅是一本教材,更是一部具有前瞻性和指導意義的學術著作。這本書的書名很吸引人,“從公理到算法”,這是一種自下而上的嚴謹邏輯,也是一種由淺入深的知識探索路徑。我一直對機器學習的數學基礎感到睏惑,特彆是那些復雜的概率論和綫性代數在模型中的具體應用。很多時候,我們隻是記住公式,卻不理解公式背後的物理含義或者統計意義。我希望這本書能夠係統地梳理這些知識,用一種清晰易懂的方式將其串聯起來,讓我們明白為什麼我們需要這些數學工具,以及它們是如何被巧妙地應用於構建和優化機器學習模型的。我期待這本書能夠幫助我理解那些支撐著人工智能前沿發展的核心數學思想,為我進一步深入學習更高級的機器學習技術打下堅實的基礎。
评分這本書的封麵設計就透露著一種嚴謹和深邃的氣息,深藍的底色搭配銀色的字體,像是浩瀚宇宙中閃爍的智慧星辰。我還在猶豫是否入手時,偶然看到一位資深研究者在其博客中提及這本書,他用“打通任督二脈”、“撥雲見日”等詞來形容閱讀後的感受,這讓我對它産生瞭極大的好奇。我一直對機器學習的理論基礎感到有些模糊,雖然能熟練地調用各種庫和模型,但總覺得根基不穩,缺乏一種“道”的境界。這本《機器學習:從公理到算法》似乎正是要填補我在這方麵的空白。書名中的“公理”二字就足以引起我的興趣,我一直認為,一個成熟的科學體係,必然有其 foundational principles,而機器學習作為一門新興的學科,其公理體係的構建過程本身就是一件極具價值的事情。我期待它能帶領我從最基本的數學和統計學原理齣發,一步步構建起對機器學習的深刻理解,而不是僅僅停留在“黑箱”操作層麵。我希望這本書能夠幫助我理解各種算法背後的邏輯是如何被推導齣來的,以及為什麼某些算法在特定場景下錶現優異。這不僅能提升我解決實際問題的能力,更能讓我對整個機器學習領域有更宏觀和深刻的認識。
评分這本書的齣版,對我來說,像是久旱逢甘霖。我一直以來都對機器學習的理論基礎感到有些力不從心,雖然能夠熟練運用各種工具箱,但總感覺自己像是站在巨人的肩膀上,卻看不到巨人的腳下。這本《機器學習:從公理到算法》的書名就直指問題的核心。我希望它能帶領我從最基礎的數學原理和統計概念齣發,層層遞進地構建起對機器學習的理解。我尤其期待它能夠深入剖析那些支撐著機器學習模型運轉的數學“骨架”,比如概率論的嚴謹應用、綫性代數的靈活運用,以及信息論的深刻洞察。我希望這本書能讓我明白,為什麼某些算法的假設是那樣,為什麼它們的性能會受到特定因素的影響。我期待它能夠提供一個清晰的理論框架,幫助我理解不同算法之間的聯係與區彆,從而能夠根據實際問題選擇最閤適的工具,甚至能夠在這個基礎上進行創新。
评分這是一本讓我讀起來頗有“考古”樂趣的書。在如今充斥著各種速成教程和“開箱即用”框架的時代,找到一本能夠深入剖析事物本質的書籍實屬不易。這本書的敘事方式,從“公理”齣發,仿佛是在帶領讀者迴溯到機器學習思想的源頭。我尤其欣賞它在講解過程中,不迴避那些看似枯燥但卻至關重要的數學推導。有時候,我們會因為追求效率而忽略瞭對基礎的夯實,但這本書恰恰證明瞭,隻有真正理解瞭“為什麼”,纔能更靈活、更有效地“怎麼做”。我最近在嘗試理解一些更復雜的模型,比如深度學習中的一些非綫性激活函數的選擇,以及它們在反嚮傳播過程中扮演的角色,總是覺得隔靴搔癢。我希望這本書能夠提供一個清晰的理論框架,解釋這些細節背後的數學原理,讓我不再是被動地接受,而是能夠主動地去理解和創新。我期待它能幫助我建立起一種“理論聯係實際”的能力,能夠從數學的語言中讀懂算法的精妙,並將其應用於我自己的研究或開發項目中。
评分拿到這本書的時候,就感覺沉甸甸的。不光是紙張的厚度,更是知識的厚重感。我一直對機器學習中的“原理”部分非常感興趣,但市麵上很多書籍要麼過於淺顯,要麼過於偏重工程實踐,能夠真正深入剖析其理論根基的書籍並不多。這本《機器學習:從公理到算法》吸引我的地方就在於它標題中“公理”二字。在我看來,科學的基石在於公理,而一個成熟的理論體係,必然源於其公理化的構建。我希望這本書能夠帶領我深入理解機器學習的數學哲學,從最基礎的假設和定義齣發,一步步推導齣各種算法的形成。我希望它能解答我心中 long-standing 的疑問,比如為什麼很多模型都依賴於優化目標函數,以及梯度下降等優化算法的根本原理。我期待這本書能夠幫助我建立起一種“舉一反三”的能力,當我遇到新的問題時,能夠從理論層麵去分析,而不是僅僅依賴於已有的經驗。
评分本人对此卖家之仰慕如滔滔江水连绵不绝,海枯石烂,天崩地裂,永不变心。交易成功后,我的心情是久久不能平静,
评分书是很好的,但是不得不吐糟一下京东的物流真是越来越水了,一开始是可以选择时间送货上门的,后来是先打电话,在电话里预约个中午回家收一下也是可以的。但是现在上午打电话过来说货到了,我说中午回家收,快递小哥说中午人就不在了,下午到货约六点中回家收也不行,只能放XX驿站自取。你家天天有人不上班在家收快递啊?来电时间不是上午十点就是下午三四点,这不明摆着不想给你送货上门吗?既然如此还搞什么京东配送?跟驿站合并得了,还省得接电话费一番口舌。
评分长期购买,质量有保证,值得推荐。
评分非常感谢京东商城给予的优质的服务,从仓储管理、物流配送等各方面都是做的非常好的。送货及时,配送员也非常的热情,有时候不方便收件的时候,也安排时间另行配送。同时京东商城在售后管理上也非常好的,以解客户忧患,排除万难。给予我们非常好的购物体验。顺颂商祺! Thank you very much for the excellent service provided by Jingdong mall, and it is very good to do in warehouse management, logistics, distribution and so on. Delivery in a timely manner, distribution staff is also very enthusiastic, and sometimes inconvenient to receive the time, but also arranged for time to be delivered. At the same time in the mall management Jingdong
评分常网购,总有大量的包裹收,感觉写评语花掉了我大 量的时间和精力! 所以在一段时间里,我总是不去评 价或者随便写写! 但是,我又总是感觉好像有点对不 住那些辛苦工作的卖家客服、仓管、老板。于是我写 下了一小段话,给我觉得能拿到我五星好评的卖家, 以示感谢和尊敬! 首先,宝贝是性价比很高的,我每 次都会先试用再评价的,虽然宝贝不一定是最好的, 但是在同等价位里面绝对是最棒的,希望能再接再 厉,做的更大更强,提供更多更好的东西给大家。给 您的商品和服务点赞!
评分据说是很好的一本python入门书籍,趁着618搞活动,果断入手。希望能啃下来,掌握其中的知识
评分几年前逛京东还不是那么的信任京东,现在信赖首选京东默默哒一直看着它一年一年发展的越来越好,心里也在为京东发展壮大而加油打气。为什么我喜欢京东购物,因为可以当天买自己喜欢的商品,阴天就可以到达客户的家中,为什么我所有的评价都相同,因为在京东买的东西太多太多,商品积累的太多没有评价,最佩服的,还是京东物流,有时晚上11点前动动手指,购买的商品,第二天上午就送到单位或者家里,还可以刷卡付款。自营的商品挺有保证,售后,有问题打专属客服热线。客服很赞,一句话的事儿,直接上门取件退,上门更换新商品,家电有价保,一个月退货,半年换货,实体店儿弱爆了,根本没有竞争力与京东相提并论;比老家的商铺街上的价格省了一大截票子哈
评分趁着618优惠力度大多买点书备着,看的少,但喜欢买,慢慢的看吧,京东的物流照常很给力,书籍到手里也很完好,没有折损,希望以后经常搞活动,再多备点
评分宝贝不错,不错,真不错,真的很不错。
本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 tushu.tinynews.org All Rights Reserved. 求知書站 版权所有