基本信息
書名:走進搜索引擎(第2版)
定價:49.00元
作者:潘雪峰,花貴春,梁斌著
齣版社:電子工業齣版社
齣版日期:2011-05-01
ISBN:9787121131042
字數:400000
頁碼:286
版次:1
裝幀:平裝
開本:16開
商品重量:0.4kg
編輯推薦
內容提要
本書由搜索引擎開發研究領域三位年輕的博士生精心編寫,作者們希望將自己對搜索引擎的理解和實際應用相結閤,讓未接觸過搜索引擎原理和方法的讀者也能輕鬆讀懂該書的大部分內容。
本書在第1版的基礎上,刪除瞭搜索引擎曆史等章節,並對錯誤和不足進行瞭修訂和補充,同時增加瞭潘雪峰編寫的第6章“搜索引擎日誌分析”,花貴春編寫的第7章“排序學習(LearningtoRank)”和梁斌編寫的第8章“搜索引擎的性能調優”三個主要章節,變更的內容約占第1版的一半。
讀者對象:本書作為搜索引擎原理與技術的入門書籍,麵嚮那些有誌從事搜索引擎行業的青年學生、需要完整理解並優化搜索引擎的專業技術人員、搜索引擎的營銷人員,以及網站的負責人等。本書是從事搜索引擎開發的工程技術人員難得的參考書,也可作為大院校相關專業的教學輔導書.
目錄
第1章 引言1
1.1 搜索引擎概述2
1.1.1 目錄式搜索引擎2
1.1.2 全文搜索引擎3
1.1.3 元搜索引擎(Meta-Search Engine)3
1.2 搜索引擎的主要需求3
1.2.1 快4
1.2.2 全4
1.2.3 準4
1.2.4 穩5
1.2.5 省5
1.3 搜索引擎的4大係統6
1.3.1 搜索引擎的體係結構6
第2章 搜索引擎的下載係統8
2.1 爬蟲的發展曆史9
2.1.1 世界上第1個爬蟲9
2.1.2 爬蟲的發展曆程9
2.2 萬維網及其網頁分析9
2.2.1 蝴蝶結型的萬維網10
2.2.2 萬維網的直徑12
2.2.3 萬維網的規模及變化特徵12
2.2.4 網頁的特徵13
2.3 有關爬蟲的基本概念13
2.3.1 爬蟲13
2.3.2 種子站點14
2.3.3 URL14
2.3.4 Backlinks14
2.4 網頁抓取原理14
2.4.1 tel和wget14
2.4.2 從種子站點開始逐層抓取15
2.4.3 不重復抓取策略19
2.4.4 網頁抓取優先策略25
2.4.5 網頁重訪策略26
2.4.6 Robots協議30
2.4.7 其他應該注意的禮貌性問題31
2.4.8 重要頁優先抓取策略32
2.4.9 抓取提速策略(閤作抓取策略)34
2.5 網頁庫38
2.6 下載係統迴顧及未來發展41
參考文獻42
第3章 搜索引擎的分析係統44
3.1 知識準備45
3.1.1 HTML語言45
3.1.2 錨文本(anchor text)45
3.1.3 半結構化數據(semi-structured data)45
3.2 信息抽取及網頁信息結構化45
3.2.1 網頁結構化的目標46
3.2.2 建立HTML標簽樹48
3.2.3 通過投票方法得到正文52
3.2.4 網頁結構化過程迴顧55
3.3 網頁查重56
3.3.1 網頁查重技術發展曆史56
3.3.2 網頁查重實現方法58
3.4 中文分詞61
3.4.1 什麼是中文分詞61
3.4.2 通過字典實現分詞61
3.4.3 基於統計的分詞方法65
3.5 PageRank67
3.5.1 PageRank的來由68
3.5.2 PageRank的基本想法68
3.5.3 PageRank的計算公式69
3.5.4 PageRank的計算方法73
3.6 分析係統結構圖76
參考文獻77
第4章 搜索引擎的索引係統79
4.1 知識準備80
4.1.1 信息80
4.1.2 索引80
4.1.3 倒排索引、倒排錶、臨時倒排文件、終倒排文件80
4.1.4 其他概念81
4.2 全文檢索81
4.3 文檔編號82
4.3.1 編號的本質82
4.3.2 文檔編號的方法83
4.3.3 遊程編碼84
4.4 倒排索引87
4.4.1 經典的倒排索引87
4.4.2 正排索引(前嚮索引)88
4.4.3 倒排索引90
4.5 數據規模的估計92
4.5.1 齊普夫法則92
4.5.2 布爾檢索模型下的索引規模估計94
4.6 涉及存儲規模的一些計算97
4.6.1 正排錶與倒排錶的閤並97
4.6.2 多個臨時倒排文件的歸並100
4.6.3 倒排索引分布式存儲103
4.6.4 倒排文件緩存106
4.6.5 倒排索引詞典統計信息的計算106
4.7 倒排索引文件的創建過程107
4.7.1 創建倒排錶107
4.7.2 計算統計信息109
參考文獻110
第5章 搜索引擎的查詢係統112
5.1 知識準備113
5.1.1 什麼是信息熵113
5.1.2 檢索和查詢的區彆115
5.1.3 檢索詞和查詢詞的區彆115
5.1.4 自動文本摘要(Automatic Text Summarization)116
5.2 網頁信息檢索116
5.2.1 早期的檢索模型116
5.2.2 嚮量空間模型(Vector Space Models)118
5.2.3 關鍵詞權重的量化方法TF/IDF122
5.2.4 搜索引擎采用的檢索模型125
5.2.5 多文檔列錶求交計算127
5.2.6 檢索結果排序132
5.2.7 堆排序132
5.3 中文自動摘要137
5.3.1 自動摘要的發展曆史137
5.3.2 自動摘要的含義和實現137
5.4 生成搜索結果頁142
5.4.1 生成搜索結果頁142
5.5 搜索結果頁的緩存144
5.6 推測用戶查詢意圖145
5.6.1 查詢分類146
5.6.2 推測信息類、事物類的查詢意圖147
5.7 查詢係統的當前熱點和發展方嚮147
5.7.1 查詢係統的當前熱點148
5.7.2 查詢係統的發展方嚮148
參考文獻149
第6章 搜索引擎日誌分析150
6.1 簡介151
6.1.1 人機交互的記錄——日誌151
6.1.2 分析搜索引擎日誌的意義153
6.1.3 本章的主要內容154
6.2 知識準備155
6.2.1 二分圖模型(Bipartite Model)155
6.2.2 圖模型(graphical model)156
6.2.3 LDA(Latent Dirichlet Allocation)模型158
6.2.4 隨機遊走 (Random Walk)159
6.2.5 小結160
6.3 查詢日誌分析161
6.3.1 查詢日誌的內容161
6.3.2 查詢詞頻統計162
6.3.3 查詢串提示(Suggestion)163
6.3.4 命名實體(Named Entity)類彆識彆165
6.3.5 小結167
6.4 點擊日誌分析167
6.4.1 點擊日誌的內容168
6.4.2 查詢串提示(Suggestion)再分析169
6.4.3 查詢和結果類彆屬性傳遞170
6.4.4 搜索結果相似性度量171
6.4.5 查詢結果排序172
6.4.6 點擊數據的稀疏性174
6.4.7 小結176
6.5 隱私問題177
6.5.1 日誌的兩麵性177
6.5.2 日誌的安全使用179
6.5.3 小結179
6.6 本章總結180
參考文獻180
第7章 排序學習(Learning to Rank)183
7.1 排序概述184
7.2 傳統的排序模型186
7.2.1 查詢相關的排序模型186
7.2.2 查詢無關的排序模型188
7.3 排序學習簡介以及研究現狀190
7.3.1 排序學習簡介190
7.3.2 排序學習問題的研究現狀191
7.4 排序學習模型的應用實例192
7.5 排序學習方法的框架194
7.5.1 參數設置194
7.5.2 排序學習方法的框架195
7.6 評測數據集196
7.6.1 LETOR數據集196
7.6.2 Microsoft Learning to Rank數據集197
7.6.3 Yahoo Webscope數據集198
7.7 排序學習模型簡介198
7.7.1 實例199
7.7.2 Pointwise方法199
7.7.3 Pairwise方法204
7.7.4 Listwise方法207
7.7.5 3種排序方法的對比210
7.8 排序學習模型性能比較211
7.8.1 評測方法211
7.8.2 排序模型性能的比較215
7.9 排序學習的研究方嚮217
7.9.1 標準標注的自動構建217
7.9.2 排序特徵217
7.9.3 半監督學習/主動學習218
7.9.4 查詢相關的排序模型218
7.9.5 利用用戶行為特徵218
7.10 總結219
參考文獻219
第8章 搜索引擎的性能調優223
8.1 係統調優概述224
8.2 瓶頸識彆225
8.3 涉及CPU的優化方法226
8.3.1 上下文切換問題(context switching)227
8.3.2 中斷和輪詢228
8.3.3 CPU的Affinity問題229
8.3.4 流水綫問題229
8.4 涉及內存的優化方法235
8.4.1 概述235
8.4.2 對換區236
8.4.3 cache line240
8.4.4 false sharing問題245
8.4.5 內存的鎖問題247
8.4.6 內存庫的使用257
8.5 涉及磁盤的優化方法262
8.5.1 磁盤IO的調度262
8.5.2 其他常見磁盤參數調優264
8.5.3 磁盤讀寫方式265
8.5.4 文件緩存問題267
8.5.5 5分鍾法則269
8.6 涉及網絡的優化方法271
8.6.1 搜索首頁,結果頁提速方法271
8.6.2 Web server的架構選擇274
參考文獻284
作者介紹
文摘
序言
這本書的排版和印刷質量簡直讓人眼前一亮,那種紙張的觸感,厚實又帶著一絲絲的細膩,拿在手裏沉甸甸的,就能感受到齣版方的心思。 封麵設計也很有質感,色彩搭配得恰到好處,既專業又不失現代感,不像有些技術書籍封麵做得跟教科書一樣呆闆。 翻開內頁,字體大小適中,行距安排閤理,長時間閱讀也不會覺得眼睛疲勞,這對於需要啃讀技術細節的書籍來說太重要瞭。 很多技術書的插圖和圖錶往往是黑白印刷,模糊不清,但這本在關鍵示意圖的地方處理得非常清晰銳利,綫條的粗細和標注的清晰度都達到瞭專業水準,這絕對是加分項。 讓人驚喜的是,書中的索引部分做得非常詳盡,查找特定概念時非常迅速,這體現瞭編者對讀者使用習慣的深刻理解,不像有些書的索引形同虛設。 整體來看,這本書的物理形態本身就是一種閱讀體驗的提升,讓你願意捧起它,而不是隻想把它扔在電腦屏幕旁邊。
评分我嘗試用這本書中學到的知識去解決工作中遇到的一個棘手的數據同步延遲問題。 過去我總是依賴現成的中間件,但從未真正理解其背後的事務隔離級彆和延遲補償機製。 這本書深入講解瞭不同隔離級彆對係統吞吐量的影響模型,特彆是關於快照隔離在分布式環境下的實現細節。 通過書中的推導過程,我纔恍然大悟,我們係統中的延遲瓶頸並非網絡帶寬,而是由於一個看似無害的樂觀鎖機製在高並發下造成的資源競爭纍積。 按照書中建議的替代方案進行小範圍調整後,同步延遲的波動性顯著降低,係統穩定性得到瞭極大的改善。 這已經不是一本普通的參考書瞭,它更像是一位經驗豐富的老工程師,在手把手地教你如何調試和優化真實的生産係統,其價值遠超書本定價。
评分這本書的敘述風格非常注重邏輯的連貫性,讀起來有一種非常順暢的“心流”體驗。 我發現自己很少需要頻繁地迴溯前麵的章節來確認上下文,這在學習復雜係統時至關重要。 作者似乎很有經驗地掌握瞭讀者的知識麯綫,總是在你覺得快要迷失在細節的時候,用一個清晰的總結或者一個高級彆的框架圖來為你導航。 相比於那些東拼西湊、章節間跳躍性很大的資料,這本書的結構簡直是教科書級彆的典範。 比如在討論分布式架構時,它不是零散地介紹各個組件,而是以一個完整的用戶請求生命周期為主綫,串聯起負載均衡、數據分片、一緻性協議等一係列技術,使得每個知識點都有瞭一個明確的“棲息地”,理解起來自然而然就深化瞭。
评分我最近在學習一些關於網絡爬蟲和數據抓取的新技術,市麵上很多資料都過於側重於某一個具體的框架或工具,講得都很淺顯,缺乏對底層原理的深度剖析。 比如,很多文章隻會告訴你如何調用某個API函數,但對於這個函數背後是如何實現鏈接調度、如何處理反爬機製的綫程安全問題,就一帶而過瞭。 這本書給我的感覺是,它並沒有急著帶你跑起來一個現成的應用,而是花瞭很大篇幅去解釋“為什麼”要這麼做,背後的算法邏輯是什麼,這對我構建自己的知識體係非常有幫助。 我特彆欣賞它對各種優化策略的對比分析,比如在麵對高並發請求時,不同的隊列管理機製對資源消耗和響應速度的影響,這種橫嚮的、比較性的論述,遠比孤立地介紹一個知識點要深刻得多,讓人能真正理解不同技術選擇背後的權衡。
评分說實話,我一開始對這類“入門與進階”的書籍持保留態度,總覺得它們在哪個層麵都會淺嘗輒止。 然而,這本書在很多高級主題上的處理方式相當老辣。 它沒有一上來就堆砌復雜的數學公式,而是通過非常貼近實際場景的例子,逐步引導讀者進入更抽象的概念。 我記得關於索引結構和查詢優化的那幾個章節,作者居然能把B樹和布榖鳥哈希等結構,用一種近乎講故事的方式串聯起來,讓原本枯燥的結構可視化瞭。 更有價值的是,它不僅講瞭如何優化查詢速度,還提到瞭在海量數據場景下,如何進行內存管理和磁盤I/O的調度,這些都是實際工作中決定係統成敗的關鍵點,很多公開發錶的教程根本不會觸及這些“髒活纍活”。
本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 tushu.tinynews.org All Rights Reserved. 求知書站 版权所有