産品特色
編輯推薦
《智能Web算法(第2版)》深入講解瞭如何建立機器學習係統來對采集的用戶、Web應用、網站日誌等數據進行深入分析和挖掘。經過這一版全麵的修訂,讀者可以看到智能算法是怎樣從數據中抽取齣真實有價值的信息的,核心的機器學習概念也通過scikit-learn的Python代碼示例進行瞭講解。《智能Web算法(第2版)》指導讀者對來自Web的源源不斷的數據流進行采集、存儲、建模,並掌握開發推薦引擎、統計分類算法、神經網絡和深度學習等技術。
內容簡介
機器學習一直是人工智能研究領域的重要方嚮,而在大數據時代,來自Web 的數據采集、挖掘、應用技術又越來越受到矚目,並創造著巨大的價值。本書是有關Web數據挖掘和機器學習技術的一本知名的著作,第2 版進一步加入瞭本領域全新的研究內容和應用案例,介紹瞭統計學、結構建模、推薦係統、數據分類、點擊預測、深度學習、效果評估、數據采集等眾多方麵的內容。《智能Web算法(第2版)》內容翔實、案例生動,有很高的閱讀價值。
《智能Web算法(第2版)》適閤對算法感興趣的工程師與學生閱讀,對希望從業務角度更好地理解機器學習技術的産品經理和管理層來說,亦有很好的參考價值。
作者簡介
Douglas McIlwraith博士,在劍橋大學計算機科學係獲得瞭學士學位,而後在帝國理工大學獲得瞭博士學位。他是一位機器學習專傢,目前他在位於倫敦的一傢廣告網絡公司擔任數據科學傢職位。他在分布式係統、普適計算、通用感知、機器人以及安全監控方麵都貢獻瞭研究成果,他為讓技術更好地服務人們的生活而無比激動。Haralambos Marmanis博士是將機器學習技術引入工業解決方案的先驅,在專業軟件研發方麵擁有 25年經驗。
Dmitry Babenko,為銀行、保險、供應鏈管理、商業智能企業等設計和開發瞭豐富的應用和係統架構。他擁有白俄羅斯國立信息和無綫電大學計算機碩士學位。
陳運文,計算機博士,達觀數據 CEO,ACM和 IEEE會員,中國計算機學會高級會員;在大數據架構設計、搜索和推薦引擎、文本數據挖掘等領域有豐富的研發經驗;曾經擔任盛大文學首席數據官、騰訊文學數據中心高級總監、百度核心算法工程師等工作,申請有 30餘項國傢發明專利,多次參加國際 ACM數據算法競賽並獲得冠亞軍榮譽。
目錄
第1章 為智能Web建立應用1
1.1 智能算法的實踐運用:Google Now 3
1.2 智能算法的生命周期5
1.3 智能算法的更多示例6
1.4 不屬於智能應用的內容 7
1.4.1 智能算法並不是萬能的思考機器 7
1.4.2 智能算法並不能成為完全代替人類的工具8
1.4.3 智能算法的發展並非一蹴而就 8
1.5 智能算法的類彆體係9
1.5.1 人工智能 9
1.5.2 機器學習10
1.5.3 預測分析 11
1.6 評估智能算法的效果 13
1.6.1 評估智能化的程度 13
1.6.2 評估預測14
1.7 智能算法的重點歸納 16
1.7.1 你的數據未必可靠 16
1.7.2 計算難以瞬間完成 17
1.7.3 數據規模非常重要 17
1.7.4 不同的算法具有不同的擴展能力 18
1.7.5 並不存在萬能的方法 18
1.7.6 數據並不是萬能的 18
1.7.7 模型訓練時間差異很大18
1.7.8 泛化能力是目標19
1.7.9 人類的直覺未必準確 19
1.7.10 要考慮融入更多新特徵 19
1.7.11 要學習各種不同的模型 19
1.7.12 相關關係不等同於因果關係 20
1.8 本章小結20
第2章 從數據中提取結構:聚類和數據變換21
2.1 數據、結構、偏見和噪聲 23
2.2 維度詛咒26
2.3 k-means算法27
2.3.1 實踐運用 k-means31
2.4 高斯混閤模型 34
2.4.1 什麼是高斯分布34
2.4.2 期望最大與高斯分布 37
2.4.3 高斯混閤模型 37
2.4.4 高斯混閤模型的學習實例 38
2.5 k-means和GMM的關係41
2.6 數據坐標軸的變換 42
2.6.1 特徵嚮量和特徵值 43
2.6.2 主成分分析 43
2.6.3 主成分分析的示例 45
2.7 本章小結47
第3章 推薦係統的相關內容48
3.1 場景設置:在綫電影商店 49
3.2 距離和相似度 50
3.2.1 距離和相似度的剖析 54
3.2.2 最好的相似度公式是什麼 56
3.3 推薦引擎是如何工作的57
3.4 基於用戶的協同過濾 59
3.5 奇異值分解用於基於模型的推薦 64
3.5.1 奇異值分解 64
3.5.2 使用奇異值分解進行推薦:為用戶挑選電影66
3.5.3 使用奇異值分解進行推薦:幫電影找到用戶71
3.6 Net.ix競賽74
3.7 評估推薦係統 76
3.8 本章小結78
第4章 分類:將物品歸類到所屬的地方79
4.1 對分類的需求 80
4.2 分類算法概覽 83
4.2.1 結構性分類算法84
4.2.2 統計性分類算法86
4.2.3 分類器的生命周期 87
4.3 基於邏輯迴歸的欺詐檢測 88
4.3.1 綫性迴歸簡介 89
4.3.2 從綫性迴歸到邏輯迴歸91
4.3.3 欺詐檢測的應用94
4.4 你的結果可信嗎 102
4.5 大型數據集的分類技術 106
4.6 本章小結 108
第5章 在綫廣告點擊預測.109
5.1 曆史與背景 110
5.2 廣告交易平颱 112
5.2.1 cookie 匹配 113
5.2.2 競價(bid) 113
5.2.3 競價成功(或失敗)的通知 114
5.2.4 廣告展示位 114
5.2.5 廣告監測 115
5.3 什麼是bidder 115
5.3.1 bidder的需求 116
5.4 何為決策引擎 117
5.4.1 用戶信息 117
5.4.2 廣告展示位信息 117
5.4.3 上下文信息 117
5.4.4 數據準備 118
5.4.5 決策引擎模型 118
5.4.6 將點擊率預測值映射為競價價格 118
5.4.7 特徵工程 119
5.4.8 模型訓練 119
5.5 使用Vowpal Wabbit進行點擊預測 120
5.5.1 Vowpal Wabbit的數據格式 120
5.5.2 準備數據集123
5.5.3 測試模型 128
5.5.4 模型修正 131
5.6 構建決策引擎的復雜問題132
5.7 實時預測係統的前景 133
5.8 本章小結 134
第6章 深度學習和神經網絡.135
6.1 深度學習的直觀方法 136
6.2 神經網絡 137
6.3 感知機 139
6.3.1 模型訓練 141
6.3.2 用 scikit-learn訓練感知機142
6.3.3 兩個輸入值的感知機的幾何解釋144
6.4 多層感知機146
6.4.1 用反嚮傳播訓練 150
6.4.2 激活函數 150
6.4.3 反嚮傳播背後的直觀理解152
6.4.4 反嚮傳播理論 153
6.4.5 scikit-learn中的多層神經網絡 155
6.4.6 訓練齣來的多層感知機 158
6.5 更深層:從多層神經網絡到深度學習 159
6.5.1 受限玻耳茲曼機 160
6.5.2 伯努利受限玻耳茲曼機 160
6.5.3 受限玻耳茲曼機實戰 164
6.6 本章小結 167
第7章 做齣正確的選擇168
7.1 A/B測試 170
7.1.1 相關的理論170
7.1.2 評估代碼 173
7.1.3 A/B測試的適用性174
7.2 多臂賭博機175
7.2.1 多臂賭博機策略 176
7.3 實踐中的貝葉斯賭博機策略 180
7.4 A/B測試與貝葉斯賭博機的對比 191
7.5 擴展到多臂賭博機192
7.5.1 上下文賭博機 193
7.5.2 對抗賭博機193
7.6 本章小結 194
第8章 智能Web的未來196
8.1 智能Web的未來應用197
8.1.1 物聯網 197
8.1.2 傢庭健康護理 198
8.1.3 自動駕駛汽車 198
8.1.4 個性化的綫下廣告199
8.1.5 語義網 199
8.2 智能Web的社會影響200
附錄A 抓取網絡上的數據.201
前言/序言
譯者序
人工智能和機器學習技術近年來得到瞭飛速的發展,並成為計算機界乃至全社會炙手可熱的話題。這些優秀的技術讓每個人的生活越來越方便和智能,這讓從業者感到非常欣喜。智能算法是人工智能的核心技術,不論是我當前創辦的達觀數據,還是之前在騰訊、盛大、百度等互聯網企業的工作,都是圍繞智能算法展開的,我對此有深厚的熱情。因此當電子工業齣版社計算機齣版分社的張春雨編輯邀請我翻譯這本《智能 Web算法(第 2版)》的時候,雖然深知翻譯和審校要付齣大量的時間和精力,但還是很愉快地接受瞭邀請並完成瞭翻譯工作,希望本書中文版的麵世,能幫助廣大愛好者建立起對 Web數據挖掘和機器學習技術全麵且直觀的瞭解。
在眾多有關機器學習和數據挖掘的書籍裏,本書是頗為經典的一本。其特點之一是內容覆蓋麵很廣,有關網絡數據挖掘的方方麵麵都涵蓋到瞭,從數據采集、存儲,到降維運算和結構抽取,以及涉及模式識彆的聚類和分類、統計機器學習理論等,還有麵嚮互聯網應用的推薦係統、搜索引擎、廣告點擊預測等,配套的效果評估機製也有專門的章節進行講解,讀者閱讀本書後可以形成較為全麵的學習體係。特點之二是本書較好地在算法思想、數學原理、應用案例之間找到瞭平衡點。每個章節作者都由淺入深地講解瞭算法的思想,並通過列舉一些非常生動的案例來讓讀者更好地理解算法的原理。例如,列舉的 Iris數據集結構的抽取、在綫電影推薦係統、金融欺詐檢測、廣告點擊預測等實踐案例的講解都非常清晰易懂。書中對數學公式的使用點到為止,力求簡潔。這樣既不像很多教科書那樣堆砌數學公式,讓很多讀者望而生畏,又不像很多書籍那樣隻是羅列程序代碼而不講解背後的算法思想。這和作者既有工程實踐經驗,又有學術研究背景密不可分的。
與通常的再版書籍隻是做些局部修訂不同,本書第 2版對第 1版圖書的內容進行瞭全麵徹底的升級改寫,全書有超過 80%的篇幅與第 1版不同,可以說是脫胎換骨的變化。這些變化具體體現在以下三個方麵:首先,增加瞭近年來數據挖掘領域最新的一些研究成果,例如當下炙手可熱的深度學習等,同時刪減瞭一些較為陳舊的內容;其次,調整瞭全書的組織結構,章節的劃分更為閤理,每章內容更加豐富,列舉的案例也更貼近實戰。第三,全書的示例代碼不再使用第 1版的小眾開發語言 BeanShell,而是改為機器學習界更為常用的 Python,並配閤機器學習界知名的開源軟件包 scikit-learn,讓本書的代碼閱讀起來更友好,也大大增強瞭示例代碼的實用性。
本書由於篇幅所限,雖然涉及的麵很寬廣,但是每個章節的內容都沒有進一步深入展開。我在翻譯過程中,覺得本書有些內容講得略偏淺顯,在所提及的領域都屬於入門級的深度,讀起來有些意猶未盡。事實上如果深究起來,本書每個章節的內容都足夠擴充成一本獨立的書籍。好在本書作者提供瞭很多參考資料,並在相應章節的腳注裏細心地進行瞭標識,對更深入的內容感興趣的讀者,不妨按圖索驥,下載相應的論文和著作來一窺究竟。
本書的翻譯工作,要深深感謝電子工業齣版社的張春雨、劉舫和編輯朋友們給予的大力幫助和耐心指點。同時要感謝我所在的公司——達觀數據的各位親密戰友,依靠大傢分工協作、共同努力,纔順利完成瞭全書各個章節的翻譯工作,這些同事是於敬、文輝、紀達麒、紀傳俊、江永青、馮仁傑、桂洪冠、高翔、王文廣、張健、範雄雄、蹇智華、孟禮斌。團結纔有力量,大傢共同的辛勤工作和智慧結晶,讓本書翻譯工作順利完成。
限於譯者水平所限,在理解和翻譯本書的過程中,一些知識的專遞未必到位,所使用的語言也未免生澀,我們力求做到“信、達、雅”,一些不好把握的字句也反復查閱過資料,希望能較為忠實地還原作者的意圖,讓廣大讀者能享受通暢的閱讀體驗。如有疏漏之處,希望讀者朋友閱讀時多多包涵,並不吝提齣各種意見和建議。
人工智能和機器學習技術正在得到越來越多的人的關注,並正在發揮著越來越大的價值。身為其中的一員,我非常榮幸自己能夠生於這一曆史上最火熱的發展時代裏,我創辦的達觀數據,也正在運用本書裏所介紹的各種技術,來幫助中國的企
譯者序VII
業更好地挖掘數據背後的規律,自動完成很多原本需要大量人力纔能實現的功能。創業維艱,本書的很多翻譯和校對工作是在齣差途中和深夜完成的,感謝傢人對我的理解和關懷。期望達觀數據的技術服務能讓很多企業提升運行效率、降低成本,從原先的粗放型增長轉變為技術驅動型的精細化增長。
眼下全球技術競爭愈演愈烈,數據作為人工智能時代的原油,對其進行提煉和挖掘的技術至關重要。我希望包括本書在內的一係列國外優秀書籍被翻譯引入後,能夠幫助中國的技術人纔、工程師、學生乃至企業管理者拓展視野、啓發思維,把握業界的技術發展脈搏,成為大數據時代浪尖的弄潮兒。
陳運文達觀數據創始人兼 CEO
序言
萬維網( World Wide Web)是互聯網信息社會裏的最根本的基礎設施,數以億計的人們把它作為主要的交互聯係工具。互聯網上信息服務的發展也帶動瞭工業的進步。今天,隨著雲計算和無綫通信技術的成熟, Web不僅成為人們發布和獲取信息的平颱,而且成為為數億人隨時隨地提供信息服務開發、部署和應用的平颱。大數據為構建多樣性的服務提供瞭豐富的內容,也為智能化的服務創造瞭價值,讓 Web上服務的用戶體驗逐步提升。智能服務的 Web正在改變人們的日常生活:它幫助我們尋找閤適的酒店、安排完美的假期旅行,讓我們購買到幾乎任何商品,以及建立起豐富多彩的社群,而這些智能來自對 Web內容和用戶間交互所産生的數據的深度分析。因此建立 Web智能是當今數據科學發展領域裏的核心技術。
非常榮幸能由我來為大傢介紹這本精彩的《智能 Web算法(第 2版)》,本書由一位年輕但經驗豐富的數據科學傢 Douglas McIlwraith博士修訂,目的是為大傢揭示智能 Web應用的精髓:實現智能所依賴的各種算法。這是一個宏偉的目標,但是 Doug博士用樸實無華的語言,在不到 250頁的篇幅裏成功將豐富的知識通俗易懂地呈現瞭齣來。
本書涵蓋瞭豐富的應用場景和常見的流行算法,並通過嚴謹的數學推導和簡潔的 Python代碼對這些算法進行瞭清晰的介紹。我非常順暢地通讀瞭本書,也希望能與你一起分享閱讀的樂趣。更為重要的是,我希望當你閱讀完本書後,發現自己可以用學會的很多知識和技能,打造齣更智能的 Web!
Yike Guo教授 &總監數據科學研究所倫敦帝國理工
前言
非常榮幸我們能投身於當今時代最令人激動的一個技術領域。在短短數十年間,稚嫩的互聯網就蓬勃發展成如今連接全世界的萬維網,讓每個身在其中的人隨時隨地進行通信交流,讓大傢擁有瞭瞬間就能得到幾乎任何問題答案的能力。
智能算法的研發充分運用瞭信息的價值,在塑造我們新的生活方式上扮演瞭重要角色。反過來我們也越來越依賴智能算法來引領我們綫上和綫下的生活,這也促使我們將更寬的視野和更多的數據用於算法的訓練和測試。若乾年前神經網絡算法還是被學術界所擯棄的方法,但是如今隨著大規模高可用的數據技術的發展,神經網絡技術再次大放異彩。
我們剛剛進入一個新紀元,在這裏我們能與手機對話,讓它預測我們的需求、預訂我們的約會、建立我們的通信連接。在不久的將來,我們也許能看到無人駕駛汽車和虛擬現實技術的曾及,所有這些應用都牢牢地紮根於計算機科學技術對真實世界問題的迴應,智能算法是其中的重要部分,也是本書的核心。
不幸的是,進入機器學習和數據科學的世界看上去令人生畏,這裏充滿瞭數學和統計學,你的直覺有時也會誤導你!通過修訂本書,我們希望介紹第一版麵世以來該領域的最新發展,也為新入行的朋友們提供指引。在本書中我們提供瞭通俗易懂的實例、真實問題的解決方案,以及相應的代碼片段。我們盡可能地越過繁復的
數學公式來重點闡述技術的核心思想,希望我們對此拿捏得足夠好。
在本書中你將看到,我們把內容劃分為 8個章節,每個章節涵蓋智能 Web的一個重要的算法領域。本書最後的附錄部分講解瞭智能 Web應用中的數據處理流程,我們希望通過這部分內容,來為實踐者展示在係統中將快速變化的數據有效地運轉起來是多麼重要且睏難。
緻謝
感謝在本書撰寫過程中參與的各位夥伴:編輯 Marjan Bace以及齣版發行團隊的所有成員,包括 Janet Vail, Kevin Sullivan, Tiffany Taylor, Dottie Marsico, Linda Recktenwald,以及幕後的很多工作人員。
也感謝參與本書各階段校對的人員: Nii A-Okine, Tobias Bürger, Marius Butuc, Carlton Gibson, John Guthrie, Pieter Gyselinck, PeterJohn Hampton, Dike Kalu, Seth Liddy, Radha Ranjan Madhav, Kostas Passadis, Peter Rabinovitch, Srdjan Santic, Dennis Sellinger, Dr. Joseph Wang, Michael Williams。感謝你們反復閱讀,認真進行校對,你們提供的寶貴意見在本書中得到瞭充分體現。
本書中引用的很多係統、函數庫、程序包並非作者原創,而是來自本領域的眾多社區開發者、數據科學傢、機器學習專傢,在此對以上所有人錶示感謝。
迴想起最初討論修訂《智能 Web算法》時的情形,記得我當時心裏想“嘿,這本書的第一版已經寫得很好瞭,修訂的工作量不會很大吧?”但最後結果是,很大。該領域的變化很快,有太多有趣的工作我想拿來與人分享,因此我不得不仔細地選擇哪些該捨棄、哪些該刪減、哪些該修訂、哪些該增加。因此本書花費瞭比我預料更多的時間,但我很幸運獲得瞭很多優秀的人們的支持、鼓勵和忍耐。
首先也是最重要的,我想感謝我的未婚妻, Elly。你的愛心、忍耐、鼓勵,是我生命中永恒的存在。如果沒有你,本書是難以完成的。我愛你。
其次,我想感謝我的父母和傢人,在我遇到挫摺時永遠嗬護和支持我,希望你們能喜歡本書,你們的養育之恩我永遠銘記。
第三,感謝我的眾多朋友和同事,和傑齣的你們在一起工作是一件非常幸運的事,你們讓我每一天都過得很開心,謝謝你們!
我還想感謝我的兩位編輯 Jeff Bleiel和 Jennifer Stout,你們的指導幫助本書最終完成。Jennifer,你的樂觀和熱情給瞭我堅持的動力,謝謝你!
Douglas McIlwraith
我想感謝我的父母 E
智能Web算法(第2版) 下載 mobi epub pdf txt 電子書