駕馭文本：文本的發現組織和處理 pdf epub mobi txt 电子书下载 2025

☆☆☆☆☆

Grant S. Ingersoll（格蘭特·英格索爾），Thomas S. Morton（托馬斯·莫頓），Andrew L. Farris（安德魯·法裏斯）著，王斌譯

圖書標籤:

文本挖掘
自然語言處理
信息檢索
文本分析
數據科學
機器學習
文本處理
知識發現
信息組織
文本工程

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到求知書站

tushu.tinynews.org

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：电子工业出版社

ISBN：9787121252303

版次：1

商品编码：11737329

品牌：Broadview

包装：平装

开本：16开

出版时间：2015-07-01

用纸：胶版纸

页数：340

正文语种：中文

具体描述

內容簡介

文本處理是目前互聯網內容應用(如搜索引擎、推薦引擎)的關鍵技術。本書涵蓋瞭文本處理概念和技術的多個方麵，包括文本預處理、搜索、字符串匹配、信息抽取、命名實體識彆、分類、聚類、標簽生成、摘要、問答等。本書的特點在於通過實例來理解文本處理的這些概念和技術，讀者利用現有的開源工具就可以自己實現這些實例。

作者簡介

王斌，博士，中國科學院信息工程研究所研究員，博士生導師，研究方嚮為信息檢索與自然語言處理。主持科研項目20餘項，發錶學術論文120餘篇，譯有《信息檢索導論》、《大數據：互聯網大規模數據挖掘與分布式處理》、《機器學習實戰》、《Mahout實戰》等書籍。現為中國中文信息學會理事、信息檢索專委會、社會媒體處理專委會及語言與知識計算專業委員會委員，《中文信息學報》編委，中國計算機學會高級會員及中文信息處理專委會委員。

第1章　開始駕馭文本 1
11　駕馭文本重要的原因 2
12　預覽：一個基於事實的問答係統 4
121　嗨，弗蘭肯斯坦醫生 5
13　理解文本很睏難 8
14　駕馭的文本 11
15　文本及智能應用：搜索及其他 13
151　搜索和匹配 13
152　抽取信息 14
153　對信息分組 15
154　一個智能應用 15
16　小結 15
17　相關資源 16
第2章　駕馭文本的基礎 17
21　語言基礎知識 18
211　詞語及其類彆 19
212　短語及子句 20
213　詞法 21
22　文本處理常見工具 23
221　字符串處理工具 23
222　詞條及切詞 23
223　詞性標注 25
224　詞乾還原 27
225　句子檢測 29
226　句法分析和文法 31
227　序列建模 33
23　從常見格式文件中抽取內容並做預處理 34
231　預處理的重要性 35
232　利用Apache Tika抽取內容 37
24　小結 39
25　相關資源 40
第3章　搜索 41
31　搜索和多麵示例：Amazoncom 42
32　搜索概念入門 44
321　索引內容 45
322　用戶輸入 47
323　利用嚮量空間模型對文檔排名 51
324　結果展示 54
33　Apache Solr搜索服務器介紹 57
331　首次運行Solr 58
332　理解Solr中的概念 59
34　利用Apache Solr對內容構建索引 63
341　使用XML構建索引 64
342　利用Solr和Apache Tika對內容進行抽取和索引 66
35　利用Apache Solr來搜索內容 69
351　Solr查詢輸入參數 71
352　抽取內容的多麵展示 74
36　理解搜索性能因素 77
361　數量判定 77
362　判斷數量 81
37　提高搜索性能 82
371　硬件改進 82
372　分析的改進 83
373　提高查詢性能 85
374　其他評分模型 88
375　提升Solr性能的技術 89
38　其他搜索工具 91
39　小結 93
310　相關資源 93
第4章　模糊字符串匹配 94
41　模糊字符串匹配方法 96
411　字符重閤度度量方法 96
412　編輯距離 99
413　n元組編輯距離 102
42　尋找模糊匹配串 105
421　在Solr中使用前綴來匹配 105
422　利用trie樹進行前綴匹配 106
423　使用n元組進行匹配 111
43　構建模糊串匹配應用 112
431　在搜索中加入提前輸入功能 113
432　搜索中的查詢拼寫校正 117
433　記錄匹配 122
44　小結 127
45　相關資源 128
第5章　命名實體識彆 129
51　命名實體的識彆方法 131
511　基於規則的實體識彆 131
512　基於統計分類器的實體識彆 132
52　基於OpenNLP的基本實體識彆 133
521　利用OpenNLP尋找人名 134
522　OpenNLP識彆的實體解讀 136
523　基於概率過濾實體 137
53　利用OpenNLP進行深度命名實體識彆 137
531　利用OpenNLP識彆多種實體類型 138
532　OpenNLP識彆實體的背後機理 141
54　OpenNLP的性能 143
541　結果的質量 144
542　運行性能 145
543　OpenNLP的內存使用 146
55　對新領域定製OpenNLP實體識彆 147
551　訓練模型的原因和方法 147
552　訓練OpenNLP模型 148
553　改變建模輸入 150
554　對實體建模的新方法 152
56　小結 154
57　進一步閱讀材料 155
第6章　文本聚類 156
61　Google News中的文檔聚類 157
62　聚類基礎 158
621　三種聚類的文本類型 158
622　選擇聚類算法 160
623　確定相似度 161
624　給聚類結果打標簽 162
625　聚類結果的評估 163
63　搭建一個簡單的聚類應用 165
64　利用Carrot2對搜索結果聚類 166
641　使用Carrot2API 166
642　使用Carrot2對Solr的搜索結果聚類 168
65　利用Apache Mahout對文檔集聚類 171
651　對聚類的數據進行預處理 172
652　K-means聚類 175
66　利用Apache Mahout進行主題建模 180
67　考察聚類性能 183
671　特徵選擇與特徵約簡 183
672　Carrot2的性能和質量 186
673　Mahout基準聚類算法 187
68　緻謝 192
69　小結 192
610　參考文獻 193
第7章　分類及標注 195
71　分類及歸類概述 197
72　分類過程 200
721　選擇分類機製 201
722　識彆文本分類中的特徵 202
723　訓練數據的重要性 203
724　評估分類器性能 206
725　將分類器部署到生産環境 208
73　利用Apache Lucene構建文檔分類器 209
731　利用Lucene對文本進行分類 210
732　為MoreLikeThis分類器準備訓練數據 212
733　訓練MoreLikeThis分類器 214
734　利用MoreLikeThis分類器對文檔進行分類 217
735　測試MoreLikeThis分類器 220
736　將MoreLikeThis投入生産環境 223
74　利用Apache Mahout訓練樸素貝葉斯分類器 223
741　利用樸素貝葉斯算法進行文本分類 224
742　準備訓練數據 225
743　留存測試數據 229
744　訓練分類器 229
745　測試分類器 231
746　改進自舉過程 232
747　將Mahout貝葉斯分類器集成到Solr 234
75　利用OpenNLP進行文檔分類 238
751　迴歸模型及最大熵文檔分類 239
752　為最大熵文檔分類器準備訓練數據 241
753　訓練最大熵文檔分類器 242
754　測試最大熵文檔分類器 248
755　生産環境下的最大熵文檔分類器 249
76　利用Apache Solr構建標簽推薦係統 250
761　為標簽推薦收集訓練數據 253
762　準備訓練數據 255
763　訓練Solr標簽推薦係統 256
764　構建推薦標簽 258
765　對標簽推薦係統進行評估 261
77　小結 263
78　參考文獻 265
第8章　構建示例問答係統 266
81　問答係統基礎知識 268
82　安裝並運行QA代碼 270
83　一個示例問答係統的架構 271
84　理解問題並産生答案 274
841　訓練答案類型分類器 275
842　對查詢進行組塊分析 279
843　計算答案類型 280
844　生成查詢 283
845　對候選段落排序 285
85　改進係統的步驟 287
86　本章小結 287
87　相關資源 288
第9章　未駕馭的文本：探索未來前沿 289
91　語義、篇章和語用：探索高級NLP 290
911　語義 291
912　篇章 292
913　語用 294
92　文檔及文檔集自動摘要 295
93　關係抽取 298
931　關係抽取方法綜述 299
932　評估 302
933　關係抽取工具 303
94　識彆重要內容和人物 303
941　全局重要性及權威度 304
942　個人重要性 305
943　與重要性相關的資源及位置 306
95　通過情感分析來探測情感 306
951　曆史及綜述 307
952　工具及數據需求 308
953　一個基本的極性算法 309
954　高級話題 311
955　用於情感分析的開源庫 312
96　跨語言檢索 313
97　本章小結 315
98　相關資源 315

精彩書摘

　　這顯著地提高瞭web搜索引擎及更小型搜索引擎的門檻。盡管大的互聯網引擎能夠訪問Google一樣的資源，但是小係統往往沒法訪問大量查詢日誌或像HTML鏈接一樣的文檔結構，也沒法使用其他用戶相關反饋機製來提供對用戶而言很有價值的信息。花時間構建復雜方案之前，我們給齣有助於改進結果的兩個關鍵事項。
　　1.用戶訓練：有時需要給用戶展示齣，通過學習一些關鍵語法技巧（如短語等）可以將檢索結果提高到何種程度。
　　2.外部知識：是否存在某個指示信息使得一篇或多篇文檔比其他文檔更重要？例如，也許該文檔是CEO寫的，或者100個人中有99人將其標為有用，或者該文檔的邊緣收益是對比文檔的五倍。不管是什麼，都要想辦法將這個知識編碼到係統當中並作為搜索的一個因素。如果搜索係統不容許這麼做，那麼可能是時候構建一個新係統瞭！
　　除瞭用戶訓練和使用索引的先驗知識之外，還有很多辦法可以提高查詢速度和精度。首先，在大部分情況下，查詢詞項之間應該是AND而非0R的關係。例如，用戶輸人的是Jumping Jack Flash，那麼假設不是搜索短語的話，該查詢應該轉換成的等價形式為Jumping AND Jack AND Flash而不是。通過使用JAND，所有的查詢詞項都應該匹配。當然這種做法幾乎可以肯定會提高正確率，但是可能會降低召迴率。由於采用這種做法隻需要對更少的文檔進行評分，因此其速度肯定會更快。使用AND可能會導緻零結果查詢，但是如果想要結果的話之後可以迴退到一個0R查詢。對於簡單查詢AND可能不會産生足夠的結果的一個唯一可能是文檔集非常小（大概來講，少於200000篇文檔）。
　　注意這裏的AND使用並不意味著所有的搜索引擎都支持這種語法，但是Solr使用這種語法，因此為簡單解釋起見我們就保留這樣的描述。
　　……

前言/序言

駕馭文本：文本的發現、組織與處理在信息爆炸的時代，我們每天都被海量的文本信息所包圍——從新聞報道、學術論文，到社交媒體上的討論、個人筆記，再到代碼庫中的注釋和文檔。這些文本是知識的載體，是思想的結晶，更是我們理解世界、進行決策的重要依據。然而，文本的浩瀚如煙海，如何纔能有效地從中發現所需、將其梳理清晰、並加以靈活運用，成為瞭一個日益嚴峻的挑戰。《駕馭文本：文本的發現、組織與處理》正是應運而生，旨在為讀者提供一套係統性的方法論和實用的工具，幫助您在紛繁復雜的文本世界中遊刃有餘，將零散的信息轉化為有價值的知識，讓文本成為您高效工作、深入學習的強大助推器。本書並非直接提供某個領域的知識乾貨，而是著眼於“如何處理文本”這個更根本性的問題，它提供的是一套普適性的能力，讓您能夠更有效地去獲取、理解和應用任何領域的文本信息。第一篇：文本的發現——在信息洪流中定位寶藏在信息爆炸的今天，獲取信息並非難事，難的是找到真正有價值、與您需求契閤的信息。本篇將深入探討文本的發現策略，幫助您從海量的文本數據中精準地“淘金”。信息需求的界定與提煉：在開始搜索之前，清晰地界定您到底需要什麼信息至關重要。我們將指導您如何將模糊的疑問轉化為具體、可操作的搜索目標，理解需求背後的深層動機，從而更有針對性地進行信息搜集。這包括但不限於：從宏觀到微觀的問題拆解，識彆核心關鍵詞，預判信息的來源和類型，以及考慮信息的時效性、權威性等。高效的搜索策略與技巧：掌握高效的搜索技巧是發現文本信息的第一道關卡。本書將係統介紹各種搜索工具的運用，從搜索引擎的高級語法（如布爾邏輯、精確匹配、排除關鍵詞）到專業數據庫（如圖書館數據庫、學術搜索引擎、行業報告平颱）的使用方法。我們會深入分析不同搜索場景下的最佳實踐，例如如何為學術研究設計搜索關鍵詞，如何為商業決策尋找市場情報，如何為個人興趣探索相關文獻。信息源的評估與篩選：並非所有信息都值得信賴。在信息發現的過程中，學會辨彆信息源的可靠性、權威性和客觀性是必不可少的。本篇將提供一套評估信息源的標準，幫助您區分事實與觀點，識彆偏見與誤導，從而過濾掉低質量、不準確的信息。我們將從作者的專業背景、齣版物的聲譽、引用的來源、論證的邏輯等方麵進行詳盡的分析。主動的信息獲取模式：除瞭被動搜索，我們還將引導讀者建立主動的信息獲取習慣。這包括訂閱高質量的資訊源、利用RSS Feed、關注行業專傢和意見領袖、以及參與專業社群的討論。通過這些方式，您可以及時獲取最新的信息動態，並從中發現潛在的、未被直接搜索到的寶貴內容。利用新興技術輔助發現：隨著人工智能技術的發展，一些新的文本發現工具應運而生。本書將探討如何利用這些工具，例如智能推薦係統、主題建模工具等，來拓展您的信息視野，發現您可能從未主動尋找但卻高度相關的內容。第二篇：文本的組織——構建清晰的知識框架發現信息隻是第一步，如何將這些零散的文本信息有效地組織起來，構建一個清晰、邏輯嚴謹的知識框架，是提升信息利用效率的關鍵。本篇將聚焦於文本的組織方法。核心概念的識彆與梳理：在閱讀和整理文本時，首先需要識彆齣其中包含的核心概念、關鍵術語和重要觀點。我們將介紹係統性的方法來提取這些要素，並理解它們之間的相互關係。這可能涉及到對定義、分類、層級結構的分析。文本結構的拆解與分析：不同的文本有其獨特的結構，理解並拆解這些結構有助於我們更好地把握內容的邏輯脈絡。我們將學習如何分析文章的論證結構、章節劃分、段落邏輯等，從而理解作者的寫作意圖和信息傳遞路徑。信息分類與標簽體係的建立：為瞭便於檢索和復用，為文本信息建立有效的分類和標簽體係至關重要。本書將探討不同的分類維度（如主題、時間、來源、重要性等），以及如何設計一套個性化的、易於維護的標簽係統。我們將介紹層級分類、關鍵詞標簽、甚至語義標簽等多種方式。筆記與摘要的有效方法：學習如何高效地做筆記和寫摘要，是鞏固理解、提煉精髓的直接手段。我們將介紹康奈爾筆記法、思維導圖、以及不同類型的摘要（如描述性摘要、評價性摘要）的技巧，並強調如何根據不同的目的來調整筆記和摘要的側重點。知識圖譜與關聯網絡的構建：對於更復雜的信息體係，構建知識圖譜或關聯網絡能幫助您看到信息之間深層次的聯係。本篇將介紹如何從文本中提取實體和關係，並利用工具或手工方式來可視化這些聯係，從而形成更宏觀的知識視圖。個性化知識庫的設計與實踐：最終，我們將引導讀者如何將上述方法融會貫通，設計並構建一個屬於自己的個性化知識庫。這可能是一個數字化的筆記係統，一個精心組織的文檔庫，甚至是一個個人維基。關鍵在於，這個知識庫能夠真正服務於您的學習、工作和思考需求。第三篇：文本的運用——讓信息服務於行動擁有瞭發現和組織文本的能力，我們就能更有效地將這些信息轉化為實際的行動和産齣。本篇將側重於文本的運用。信息檢索與迴顧的高效化：構建好的知識庫，其價值在於能夠快速、準確地檢索和迴顧所需信息。我們將分享高效的信息檢索策略，以及如何通過迴顧和復習，加深對知識的理解和記憶。論證與說理的文本構建：無論是撰寫學術論文、項目報告，還是商業計劃書，都需要清晰的邏輯和有力的論證。本書將指導您如何從已有的文本信息中提取論據，構建嚴謹的論證結構，並用清晰、有說服力的語言錶達齣來。知識遷移與創新思維的激發：真正的文本駕馭能力在於將已有的知識進行遷移和重組，從而激發新的想法和創新。我們將探討如何跨領域地藉鑒文本信息，如何通過類比、組閤等方式産生新的認知，從而推動個人的學習和工作創新。解決問題與輔助決策：文本信息是解決問題和輔助決策的重要依據。本書將展示如何利用收集、組織和理解的文本信息，來分析問題、評估方案，並最終做齣更明智的決策。內容創作與知識分享：掌握瞭文本的發現、組織和處理，您就能更自信地進行內容創作，並將自己的知識和見解分享給他人。我們將提供一些關於寫作、編輯、甚至內容傳播的實用建議，讓您的文本産齣更具價值和影響力。持續學習與迭代優化：文本的處理能力不是一蹴而就的，而是一個持續學習和迭代優化的過程。本書將鼓勵讀者不斷嘗試新的工具和方法，反思自己的文本處理習慣，並根據實際需求不斷調整和完善自己的能力體係。《駕馭文本：文本的發現、組織與處理》是一本實踐導嚮的書籍，它不是提供現成的答案，而是賦予您發現和創造答案的能力。通過學習本書，您將不再被海量文本所淹沒，而是能夠主動地駕馭它們，讓信息成為您洞察世界、實現目標的強大工具。無論您是學生、研究人員、企業人士，還是任何渴望提升信息素養的個體，《駕馭文本》都將是您在這個知識時代不可或缺的夥伴。

用户评价

评分☆☆☆☆☆

這本書的封麵設計非常吸引人，那種沉靜的藍色和金色的字體，仿佛預示著一場深入的知識探索。拿到手中，它的紙張質感也很不錯，翻閱時帶著一種舒適的沙沙聲，這種觸感在如今普遍追求輕薄的時代顯得尤為難得。我一直對“文本”這個概念感到既熟悉又陌生，每天都在與文字打交道，但真正去思考它的本質、它的生成過程、以及我們如何更有效地利用它，卻鮮少有係統的梳理。這本書的名字，尤其是“駕馭”二字，給我一種掌控感，讓我覺得讀完之後，自己能夠更遊刃有餘地處理信息爆炸的時代。我期待它能提供一些新穎的視角，或者一些實用的方法論，幫助我擺脫在海量信息中迷失方嚮的睏境。我希望作者能夠深入淺齣地講解那些看似抽象的理論，並用貼近生活的例子來佐證，這樣纔能真正打動讀者，讓我覺得“原來文本還有這一層含義”、“原來處理文本可以這樣”。畢竟，知識的學習最終還是要落到應用上，我希望這本書能成為我通往更高效信息處理之路的指路明燈，而不是僅僅停留在理論層麵。

评分☆☆☆☆☆

坦白說，我買這本書是因為它的名字在書店裏特彆顯眼，那種“駕馭”二字的力度，讓我覺得它應該能解決我生活中一些實際的睏擾。我平時工作需要閱讀大量的報告和資料，經常感到力不從心，信息太多，抓不住重點，而且讀完之後很多內容很快就忘記瞭。我希望這本書能夠提供一些思維上的轉變，或者一些具體的操作方法，讓我能夠更聰明地閱讀，而不是更辛苦地閱讀。我特彆想知道，它會不會討論到如何區分信息的價值，哪些信息是真正重要的，哪些隻是噪音？以及，讀完一篇很長的文章，如何快速地提取齣它的精髓，而不是被細節淹沒？“文本的發現”聽起來很神秘，我希望它能教我一些“火眼金睛”的本領，快速定位有價值的內容。“組織”和“處理”則更像是“修煉內功”的部分，我希望能夠學到一套係統的方法，讓自己在麵對大量文本時，能夠有條不紊，遊刃有餘。我期待這本書能夠給我帶來一種“豁然開朗”的感覺，讓我真正掌握“駕馭”文本的能力。

评分☆☆☆☆☆

最近我一直在思考，在這個信息爆炸的時代，我們如何纔能不被海量的信息所淹沒，而是能夠主動地去選擇、去理解、去利用這些信息。這本書的名字，尤其是“駕馭”二字，讓我眼前一亮。我希望它能夠提供一些能夠幫助我“駕馭”文本的實用技巧和方法。我非常期待“文本的發現”這一部分，它是否會介紹一些能夠幫助我們從海量信息中挖掘齣有價值內容的策略？例如，如何快速定位文章的核心論點，或者如何辨彆信息的真僞？“組織”文本，則讓我聯想到如何更好地構建自己的知識體係，如何將零散的信息進行歸類和整閤，形成更有條理的認知。而“處理”文本，則更像是對信息進行加工和提煉，我希望能夠學習到一些關於文本分析、信息總結，甚至是如何將文本信息轉化為實際行動的技巧。總而言之，我希望這本書能夠成為我提升信息素養的得力助手，讓我不再被動地接受信息，而是能夠主動地去駕馭信息。

评分☆☆☆☆☆

我一直覺得，我們生活在一個被文本包圍的世界，從社交媒體的碎片化信息，到學術論文的嚴謹論證，文本無處不在，但我們對它的理解卻往往停留在字麵意義。這本書的名字，特彆是“發現”、“組織”和“處理”這幾個關鍵詞，觸動瞭我內心深處的好奇。我很好奇，“發現”文本的奧秘，是否意味著能夠看到文字背後的意圖、結構和邏輯？“組織”文本，又將如何幫助我構建更清晰的思維框架，或者梳理我雜亂的思路？而“處理”文本，則讓我聯想到如何更有效地消化信息，甚至是如何通過文本來影響他人。我希望這本書能為我打開一扇新的大門，讓我不僅僅是閱讀文本，更是與文本進行一場深刻的對話。我期待作者能夠分享一些獨特的見解，可能是關於文本的演變，可能是關於不同類型文本的解讀策略，亦或是關於如何用文本來解決現實問題。我希望這本書能提供一些“乾貨”，讓我讀完之後，能夠真正感受到自己的認知在提升，能力在增強。

评分☆☆☆☆☆

我最近一直在思考如何更有效地管理自己的知識體係，尤其是在這個信息爆炸的時代，每天接觸到的信息量是驚人的，而如何將這些零散的信息整閤、提煉，並最終轉化為自己的知識，變成一個持續迭代的循環，一直是我頭疼的問題。我希望這本書能在這方麵提供一些啓發。我特彆感興趣的是“文本的發現”這一部分，它會不會涉及到一些信息檢索的技巧，或者如何從大量的文本中快速找到核心要點的方法？“組織”這個詞也讓我非常期待，是不是會有關於如何構建個人知識庫，或者如何進行高效筆記整理的章節？“處理”則更加實用，我希望能學習到一些關於文本分析、信息歸納，甚至是如何利用工具來輔助文本處理的技巧。我並非專業的學者，更傾嚮於那些能夠快速上手、立竿見影的方法，所以如果書中能包含一些案例分析，或者提供一些可操作的步驟，那就更好瞭。我希望這本書能像一位經驗豐富的嚮導，帶領我穿越信息迷霧，找到屬於自己的知識寶藏。

评分☆☆☆☆☆

基础要认真补补

评分☆☆☆☆☆

行间距太大

评分☆☆☆☆☆

有空白页，大家注意了！

评分☆☆☆☆☆

不规则的大开本，质量还行

评分☆☆☆☆☆

不错，挺好的。

评分☆☆☆☆☆

不错,,,,,,,,,,