自然語言處理綜論（第二版） pdf epub mobi txt 电子书下载 2025

☆☆☆☆☆

Daniel Jurafsky（D.硃夫斯凱），James H.Martin（J.H.馬丁）著，馮誌偉譯

圖書標籤:

自然語言處理
NLP
計算語言學
機器學習
深度學習
文本分析
信息檢索
語言模型
人工智能
綜述

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到求知書站

tushu.tinynews.org

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：电子工业出版社

ISBN：9787121250583

版次：2

商品编码：12330818

包装：平装

丛书名：经典译丛·人类语言技术

开本：16开

出版时间：2018-03-01

用纸：胶版纸

页数：816

字数：1372000

正文语种：中文

具体描述

編輯推薦

適讀人群：本書可作為高等學校自然語言處理或計算語言學的本科生和研究生的教材，也可以作為從事人工智能、自然語言處理等領域的研究人員和技術人員的必備參考。

從本書*一版齣版以來，一直好評如潮，被國外許多大學選作自然語言處理或計算語言學的教材，被認為該領域教材的“黃金標準”。

本書第一版綜閤瞭自然語言處理、計算語言學和語音識彆的內容，全麵論述計算機自然語言處理，深入探討計算機處理自然語言的詞匯、句法、

語義、語用等各個方麵的問題，介紹瞭自然語言處理的各種現代技術。該版對於第一版做瞭全麵的改寫，增加瞭大量反映自然語言處理*新成就

的內容，特彆是增加瞭語音處理和統計技術方麵的內容，全書麵貌為之一新。

本書四大特色：

覆蓋全麵強調實用注重評測語料為本

內容簡介

從本書第一版齣版以來，一直好評如潮，被國外許多大學選作自然語言處理或計算語言學的教材，被認為該領域教材的“黃金標準”。本書第一版綜閤瞭自然語言處理、計算語言學和語音識彆的內容，全麵論述計算機自然語言處理，深入探討計算機處理自然語言的詞匯、句法、語義、語用等各個方麵的問題，介紹瞭自然語言處理的各種現代技術。該版對於第一版做瞭全麵的改寫，增加瞭大量反映自然語言處理*新成就的內容，特彆是增加瞭語音處理和統計技術方麵的內容，全書麵貌為之一新。本書四大特色：覆蓋全麵強調實用注重評測語料為本內容簡介本書全麵論述瞭自然語言處理技術。本書在第一版的基礎上增加瞭自然語言處理的*新成就，特彆是增加瞭語音處理和統計技術方麵的內容，全書麵貌為之一新。本書共分五個部分。第一部分“詞匯的計算機處理”，講述單詞的計算機處理，包括單詞切分、單詞的形態學、*小編輯距離、詞類，以及單詞計算機處理的各種算法，包括正則錶達式、有限狀態自動機、有限狀態轉錄機、N元語法模型、隱馬爾可夫模型、*大熵模型等。第二部分“語音的計算機處理”，介紹語音學、語音閤成、語音自動識彆以及計算音係學。第三部分“句法的計算機處理”，介紹英語的形式語法，講述句法剖析的主要算法，包括CKY剖析算法、Earley剖析算法、統計剖析，並介紹閤一與類型特徵結構、Chomsky層級分類、抽吸引理等分析工具。第四部分“語義和語用的計算機處理”，介紹語義的各種錶示方法、計算語義學、詞匯語義學、計算詞匯語義學，並介紹同指、連貫等計算機話語分析問題。第五部分“應用”，講述信息抽取、問答係統、自動文摘、對話和會話智能代理、機器翻譯等自然語言處理的應用技術。本書寫作風格深入淺齣，實例豐富，引人入勝。本書可作為高等學校自然語言處理或計算語言學的本科生和研究生的教材，也可以作為從事人工智能、自然語言處理等領域的研究人員和技術人員的必備參考。

作者簡介

Daniel Jurafsky現任斯坦福大學語言學係和計算機科學係副教授。在此之前，他曾在博爾德的科羅拉多大學語言學係、計算機科學係和認知科學研究所任職。他齣生於紐約州的Yonkers，1983年獲語言學學士，1992年獲計算機科學博士，兩個學位都在伯剋利加利福尼亞大學獲得。他於1998年獲得美國國傢基金會CAREER奬，2002年獲得Mac-Arthur奬。他發錶過90多篇論文，內容涉及語音和語音處理的廣泛領域。James H. Martin現任博爾德的科羅拉多大學語言學係、計算機科學係教授，認知科學研究所研究員。他齣生於紐約市，1981年獲可倫比亞大學計算機科學學士，1988年獲伯剋利加利福尼亞大學計算機科學博士。他寫過70多篇關於計算機科學的論著，齣版過《隱喻解釋的計算機模型》（A Computational Model of Metaphor Interpretation）一書。
馮誌偉：先後在北京大學和中國科學技術大學研究生院兩次研究生畢業，獲雙碩士學位。任中國科學技術信息研究所計算中心機器翻譯研究組組長、教育部語言文字應用研究所計算語言學研究室主任、杭州師範大學外國語學院高端特聘教授。長期從事語言學和計算機科學的跨學科研究，是我國計算語言學事業的開拓者之一。在中國，他是中國語文現代化學會副會長、中國應用語言學學會常務理事、中國人工智能學會理事、國傢語言文字工作委員會21世紀語言文字規範（標準）審定委員會委員、全國科學技術名詞審定委員會委員、全國術語標準化技術委員會委員、中國外語教育研究中心學術委員會委員、《數學辭海》總編輯委員會委員、《中國大百科全書》(《語言文字捲》)編輯委員會成員。在國際上，他是TELRI(Trans-European Language Resources Infrastructure)、LREC(Language Resources and Evaluation Conference)、COLING-2010（Computational Linguistics Conference）的顧問委員會委員，並擔任IJCL(International Journal of Corpus Linguistics)、IJCC(International Journal of Chinese and Computing)等重要學術期刊編委以及英國Continuum齣版公司係列叢書Research in Corpus and Discourse編委。承擔國傢自然科學基金項目和國傢社會科學基金項目多項，齣版專著30餘部，發錶論文300餘篇。孫樂：1998年5月畢業於南京理工大學，獲博士學位。1998年9月至2000年10月在中國科學院軟件研究所從事博士後研究，博士後齣站後留研究所工作至今，現為中國科學院軟件研究所基礎軟件國傢工程中心研究員，博士生導師。曾於2003年和2004年，先後在英國Birmingham大學、加拿大Montreal大學做訪問學者，從事平行語料庫和高精度信息檢索方麵的研究。目前主要研究方嚮：基於知識的自然語言理解、下一代信息檢索模型、信息抽取與問答係統等。作為項目負責人承擔國傢自然科學基金項目、國傢“863”項目和國際閤作項目等10餘項，在國內外重要學術刊物和會議上發錶論文80多篇。

第1章導論
1．1語音與語言處理中的知識
1．2歧義
1．3模型和算法
1．4語言、思維和理解
1．5學科現狀與近期發展
1．6語音和語言處理簡史
1．6．1基礎研究：20世紀40年代和20世紀50年代
1．6．2兩個陣營：1957年至1970年
1．6．3四個範型：1970年至1983年
1．6．4經驗主義和有限狀態模型的復蘇：1983年至1993年
1．6．5不同領域的閤流：1994年至1999年
1．6．6機器學習的興起：2000年至2008年
1．6．7關於多重發現
1．6．8心理學的簡要注記
1．7小結
1．8文獻和曆史說明
第一部分詞匯的計算機處理
第2章正則錶達式與自動機
2．1正則錶達式
2．1．1基本正則錶達式模式
2．1．2析取、組閤與優先關係
2．1．3一個簡單的例子
2．1．4一個比較復雜的例子
2．1．5高級算符
2．1．6正則錶達式中的替換、存儲器與ELIZA
2．2有限狀態自動機
2．2．1用FSA來識彆羊的語言
2．2．2形式語言
2．2．3其他例子
2．2．4非確定FSA
2．2．5使用NFSA接收符號串
2．2．6識彆就是搜索
2．2．7確定自動機與非確定自動機的關係
2．3正則語言與 FSA
2．4小結
2．5文獻和曆史說明
第3章詞與轉錄機
3．1英語形態學概觀
3．1．1屈摺形態學
3．1．2派生形態學
3．1．3附著
3．1．4非毗連形態學
3．1．5一緻關係
3．2有限狀態形態剖析
3．3有限狀態詞錶的建造
3．4有限狀態轉錄機
3．4．1定序轉錄機和確定性
3．5用於形態剖析的FST
3．6轉錄機和正詞法規則
3．7把FST詞錶與規則相結閤
3．8與詞錶無關的FST：Porter詞乾處理器
3．9單詞和句子的詞例還原
3．9．1中文的自動切詞
3．10拼寫錯誤的檢查與更正
3．11最小編輯距離
3．12人是怎樣進行形態處理的
3．13小結
3．14文獻和曆史說明
第4章 N元語法
4．1語料庫中單詞數目的計算
4．2簡單的（非平滑的）N元語法
4．3訓練集和測試集
4．3．1N元語法及其對訓練語料庫的敏感性
4．3．2未知詞：開放詞匯與封閉詞匯
4．4N元語法的評測：睏惑度
4．5平滑
4．5．1Laplace平滑
4．5．2Good Turing打摺法
4．5．3Good Turing估計的一些高級專題
4．6插值法
4．7迴退法
4．7．1高級專題：計算Katz迴退的α和P*
4．8實際問題：工具包和數據格式
4．9語言模型建模中的高級專題
4．9．1高級的平滑方法：Kneser Ney平滑法
4．9．2基於類彆的N元語法
4．9．3語言模型的自適應和網絡（Web）應用
4．9．4長距離信息的使用：簡要的綜述
4．10信息論背景
4．10．1用於比較模型的交叉熵
4．11高級問題：英語的熵和熵率均衡性
4．12小結
4．13文獻和曆史說明
第5章詞類標注
5．1（大多數）英語詞的分類
5．2英語的標記集
5．3詞類標注
5．4基於規則的詞類標注
5．5基於隱馬爾可夫模型的詞類標注
5．5．1計算最可能的標記序列：一個實例
5．5．2隱馬爾可夫標注算法的形式化
5．5．3使用Viterbi算法來進行HMM標注
5．5．4把HMM擴充到三元語法
5．6基於轉換的標注
5．6．1怎樣應用TBL規則
5．6．2怎樣學習TBL規則
5．7評測和錯誤分析
5．7．1錯誤分析
5．8詞類標注中的高級專題
5．8．1實際問題：標記的不確定性與詞例還原
5．8．2未知詞
5．8．3其他語言中的詞類標注
5．8．4標注算法的結閤
5．9高級專題：拼寫中的噪聲信道模型
5．9．1上下文錯拼更正
5．10小結
5．11文獻和曆史說明
第6章隱馬爾可夫模型與最大熵模型
6．1馬爾可夫鏈
6．2隱馬爾可夫模型
6．3似然度的計算：嚮前算法
6．4解碼：Viterbi算法
6．5HMM的訓練：嚮前嚮後算法
6．6最大熵模型：背景
6．6．1綫性迴歸
6．6．2邏輯迴歸
6．6．3邏輯迴歸：分類
6．6．4高級專題：邏輯迴歸的訓練
6．7最大熵模型
6．7．1為什麼稱為最大熵
6．8最大熵馬爾可夫模型
6．8．1MEMM的解碼和訓練
6．9小結
6．10文獻和曆史說明
第二部分語音的計算機處理
第7章語音學
7．1言語語音與語音標音法
7．2發音語音學
7．2．1發音器官
7．2．2輔音：發音部位
7．2．3輔音：發音方法
7．2．4元音
7．2．5音節
7．3音位範疇與發音變異
7．3．1語音特徵
7．3．2語音變異的預測
7．3．3影響語音變異的因素
7．4聲學語音學和信號
7．4．1波
7．4．2語音的聲波
7．4．3頻率與振幅：音高和響度
7．4．4從波形來解釋音子
7．4．5聲譜和頻域
7．4．6聲源濾波器模型
7．5語音資源
7．6高級問題：發音音係學與姿態音係學
7．7小結
7．8文獻和曆史說明
第8章語音閤成
8．1文本歸一化
8．1．1句子的詞例還原
8．1．2非標準詞
8．1．3同形異義詞的排歧
8．2語音分析
8．2．1查詞典
8．2．2名稱
8．2．3字位-音位轉換
8．3韻律分析
8．3．1韻律的結構
8．3．2韻律的突顯度
8．3．3音調
8．3．4更精巧的模型：ToBI
8．3．5從韻律標記計算音延
8．3．6從韻律標記計算F0
8．3．7文本分析的最後結果：內部錶示
8．4雙音子波形閤成
8．4．1建立雙音子數據庫的步驟
8．4．2雙音子毗連和用於韻律的TD-PSOLA
8．5單元選擇（波形）閤成
8．6評測
8．7文獻和曆史說明
第9章語音自動識彆
9．1語音識彆的總體結構
9．2隱馬爾可夫模型應用於語音識彆
9．3特徵抽取：MFCC矢量
9．3．1預加重
9．3．2加窗
9．3．3離散傅裏葉變換
9．3．4Mel濾波器組和對數
9．3．5倒譜：逆嚮傅裏葉變換
9．3．6Delta特徵與能量
9．3．7總結：MFCC
9．4 聲學似然度的計算
9．4．1矢量量化
9．4．2高斯概率密度函數
9．4．3概率、對數概率和距離函數
9．5詞典和語言模型
9．6搜索與解碼
9．7嵌入式訓練
9．8評測：詞錯誤率
9．9小結
9．10文獻和曆史說明
第10章語音識彆：高級專題
10．1多遍解碼：N最佳錶和格
10．2A*解碼算法（“棧”解碼算法）
10．3依賴於上下文的聲學模型：三音子
10．4分辨訓練
10．4．1最大互信息估計
10．4．2基於後驗分類器的聲學模型
10．5語音變異的建模
10．5．1環境語音變異和噪聲
10．5．2說話人變異和說話人適應
10．5．3發音建模：由於語類的差彆而産生的變異
10．6元數據：邊界、標點符號和不流利現象
10．7人的語音識彆
10．8小結
10．9文獻和曆史說明
第11章計算音係學
11．1有限狀態音係學
11．2高級有限狀態音係學
11．2．1元音和諧
11．2．2模闆式形態學
11．3計算優選理論
11．3．1優選理論中的有限狀態轉錄機模型
11．3．2優選理論的隨機模型
11．4音節切分
11．5音位規則和形態規則的機器學習
11．5．1音位規則的機器學習
11．5．2形態規則的機器學習
11．5．3優選理論中的機器學習
11．6小結
11．7文獻和曆史說明
第三部分句法的計算機處理
第12章英語的形式語法
12．1組成性
12．2上下文無關語法
12．2．1上下文無關語法的形式定義
12．3英語的一些語法規則
12．3．1句子一級的結構
12．3．2子句與句子
12．3．3名詞短語
12．3．4一緻關係
12．3．5動詞短語和次範疇化
12．3．6助動詞
12．3．7並列關係
12．4樹庫
12．4．1樹庫的例子：賓州樹庫課題
12．4．2作為語法的樹庫
12．4．3樹庫搜索
12．4．4中心詞與中心詞的發現
12．5語法等價與範式
12．6有限狀態語法和上下文無關語法
12．7依存語法
12．7．1依存和中心詞之間的關係
12．7．2範疇語法
12．8口語的句法
12．8．1不流暢現象與口語修正
12．8．2口語樹庫
12．9語法和人的語言處理
12．10小結
12．11文獻和曆史說明
第13章句法剖析
13．1剖析就是搜索
13．1．1自頂嚮下剖析
13．1．2自底嚮上剖析
13．1．3自頂嚮下剖析與自底嚮上剖析比較
13．2歧義
13．3麵對歧義的搜索
13．4動態規劃剖析方法
13．4．1CKY剖析
13．4．2Earley算法
13．4．3綫圖剖析
13．5局部剖析
13．5．1基於規則的有限狀態組塊分析
13．5．2基於機器學習的組塊分析方法
13．5．3組塊分析係統的評測
13．6小結
13．7文獻和曆史說明
第14章統計剖析
14．1概率上下文無關語法
14．1．1 PCFG用於排歧
14．1．2PCFG用於語言建模
14．2PCFG的概率CKY剖析
14．3PCFG規則概率的學習途徑
14．4PCFG的問題
14．4．1獨立性假設忽略瞭規則之間的結構依存關係
14．4．2缺乏對詞匯依存關係的敏感性
14．5使用分離非終極符號的辦法來改進PCFG
14．6概率詞匯化的CFG
14．6．1Collins剖析器
14．6．2高級問題：Collins剖析器更多的細節
14．7剖析器的評測
14．8高級問題：分辨再排序
14．9高級問題：基於剖析器的語言模型
14．10人的剖析
14．11小結
14．12文獻和曆史說明
第15章特徵與閤一
15．1特徵結構
15．2特徵結構的閤一
15．3語法中的特徵結構
15．3．1一緻關係
15．3．2中心語特徵
15．3．3次範疇化
15．3．4長距離依存關係
15．4閤一的實現
15．4．1閤一的數據結構
15．4．2閤一算法
15．5帶有閤一約束的剖析
15．5．1把閤一結閤到Earley剖析器中
15．5．2基於閤一的剖析
15．6類型與繼承
15．6．1高級問題：類型的擴充
15．6．2閤一的其他擴充
15．7小結
15．8文獻和曆史說明
第16章語言和復雜性
16．1Chomsky 層級
16．2怎麼判斷一種語言不是正則的
16．2．1抽吸引理
16．2．2證明各種自然語言不是正則語言
16．3自然語言是上下文無關的嗎
16．4計算復雜性和人的語言處理
16．5小結
16．6文獻和曆史說明
第四部分語義和語用的計算機處理
第17章意義的錶示
17．1意義錶示的計算要求
17．1．1可驗證性
17．1．2無歧義性
17．1．3規範形式
17．1．4推理與變量
17．1．5錶達能力
17．2模型論語義學
17．3一階邏輯
17．3．1一階邏輯基礎
17．3．2變量和量詞
17．3．3λ錶示法
17．3．4一階邏輯的語義
17．3．5推理
17．4事件與狀態的錶示
17．4．1時間錶示
17．4．2體
17．5描述邏輯
17．6意義的具體化與情境錶示方法
17．7小結
17．8文獻和曆史說明
第18章計算語義學
18．1句法驅動的語義分析
18．2句法規則的語義擴充
18．3量詞轄域歧義及非確定性
18．3．1存儲與檢索方法
18．3．2基於約束的方法
18．4基於閤一的語義分析方法
18．5語義與Earley分析器的集成
18．6成語和組成性
18．7小結
18．8文獻和曆史說明
第19章詞匯語義學
19．1詞義
19．2含義間的關係
19．2．1同義關係和反義關係
19．2．2上下位關係
19．2．3語義場
19．3WordNet：詞匯關係信息庫
19．4事件參與者
19．4．1題旨角色
19．4．2因素交替（Diathesis Alternations）
19．4．3題旨角色的問題
19．4．4命題庫
19．4．5FrameNet
19．4．6選擇限製
19．5基元分解
19．6高級問題：隱喻
19．7小結
19．8文獻和曆史說明
第20章計算詞匯語義學
20．1詞義排歧：綜述
20．2有監督詞義排歧
20．2．1監督學習的特徵抽取
20．2．2樸素貝葉斯分類器和決策錶分類器
20．3WSD評價方法、基準綫和上限
20．4WSD：字典方法和同義詞庫方法
20．4．1Lesk算法
20．4．2選擇限製和選擇優先度
20．5最低限度的監督WSD：自舉法
20．6詞語相似度：語義字典方法
20．7詞語相似度：分布方法
20．7．1定義詞語的共現嚮量
20．7．2度量與上下文的聯係
20．7．3定義兩個嚮量之間的相似度
20．7．4評價分布式詞語相似度
20．8下位關係和其他詞語關係
20．9語義角色標注
20．10高級主題：無監督語義排歧
20．11小結
20．12文獻和曆史說明
第21章計算話語學
21．1話語分割
21．1．1無監督話語分割
21．1．2有監督話語分割
21．1．3話語分割的評價
21．2文本連貫性
21．2．1修辭結構理論
21．2．2自動連貫指派
21．3指代消解
21．4指代現象
21．4．1指示語的五種類型
21．4．2信息狀態
21．5代詞指代消解所使用的特徵
21．5．1用來過濾潛在指代對象的特徵
21．5．2代詞解釋中的優先關係
21．6指代消解的三種算法
21．6．1代詞指代基準係統：Hobbs算法
21．6．2指代消解的中心算法
21．6．3代詞指代消解的對數綫性模型
21．6．4代詞指代消解的特徵
21．7共指消解
21．8共指消解的評價
21．9高級問題：基於推理的連貫判定
21．10所指的心理語言學研究
21．11小結
21．12文獻和曆史說明
第五部分應用
第22章信息抽取
22．1命名實體識彆
22．1．1命名實體識彆中的歧義
22．1．2基於序列標注的命名實體識彆
22．1．3命名實體識彆的評價
22．1．4實用NER架構
22．2關係識彆和分類
22．2．1用於關係分析的有監督學習方法
22．2．2用於關係分析的弱監督學習方法
22．2．3關係分析係統的評價
22．3時間和事件處理
22．3．1時間錶達式的識彆
22．3．2時間的歸一化
22．3．3事件檢測和分析
22．3．4TimeBank
22．4模闆填充
22．4．1模闆填充的統計方法
22．4．2有限狀態機模闆填充係統
22．5高級話題：生物醫學信息的抽取
22．5．1生物學命名實體識彆
22．5．2基因歸一化
22．5．3生物學角色和關係
22．6小結
22．7文獻和曆史說明
第23章問答和摘要
23．1信息檢索
23．1．1嚮量空間模型
23．1．2詞語權重計算
23．1．3詞語選擇和建立
23．1．4信息檢索係統的評測
23．1．5同形關係、多義關係和同義關係
23．1．6改進用戶查詢的方法
23．2事實性問答
23．2．1問題處理
23．2．2段落檢索
23．2．3答案處理
23．2．4事實性答案的評價
23．3摘要
23．4單文檔摘要
23．4．1無監督的內容選擇
23．4．2基於修辭分析的無監督摘要
23．4．3有監督的內容選擇
23．4．4句子簡化
23．5多文檔摘要
23．5．1多文檔摘要的內容選擇
23．5．2多文檔摘要的信息排序
23．6主題摘要和問答
23．7摘要的評價
23．8小結
23．9文獻和曆史說明
第24章對話與會話智能代理
24．1人類會話的屬性
24．1．1話輪和話輪轉換
24．1．2語言作為行動：言語行為
24．1．3語言作為共同行動：對話的共同基礎
24．1．4會話結構
24．1．5會話隱含
24．2基本的對話係統
24．2．1ASR組件
24．2．2NLU組件
24．2．3生成和TTS組件
24．2．4對話管理器
24．2．5錯誤處理：確認和拒絕
24．3VoiceXML
24．4對話係統的設計和評價
24．4．1設計對話係統
24．4．2評價對話係統
24．5信息狀態和對話行為
24．5．1使用對話行為
24．5．2解釋對話行為
24．5．3檢測糾正行為
24．5．4生成對話行為：確認和拒絕
24．6馬爾可夫決策過程架構
24．7高級問題：基於規劃的對話行為
24．7．1規劃推理解釋和生成
24．7．2對話的意圖結構
24．8小結
24．9文獻和曆史說明
第25章機器翻譯
25．1為什麼機器翻譯如此睏難
25．1．1類型學
25．1．2其他的結構差異
25．1．3詞匯的差異
25．2經典的機器翻譯方法與Vauquois三角形
25．2．1直接翻譯
25．2．2轉換方法
25．2．3傳統機器翻譯係統中的直接和轉換相融閤的方法
25．2．4中間語言的思想：使用意義
25．3統計機器翻譯
25．4P(F|E)：基於短語的翻譯模型
25．5翻譯中的對齊
25．5．1IBM模型1
25．5．2HMM對齊
25．6對齊模型的訓練
25．6．1訓練對齊模型的EM算法
25．7用於基於短語機器翻譯的對稱對齊
25．8基於短語統計機器翻譯的解碼
25．9機器翻譯評價
25．9．1使用人工評價者
25．9．2自動評價：BLEU
25．10高級問題：機器翻譯的句法模型
25．11高級問題：IBM模型3和繁衍度
25．11．1模型3的訓練
25．12高級問題：機器翻譯的對數綫性模型
25．13小結
25．14文獻和曆史說明
參考文獻

前言/序言

譯者簡介

馮誌偉

先後在北京大學和中國科學技術大學研究生院兩次研究生畢業，獲雙碩士學位。1978年至1981年，在法國格勒諾布爾理科醫科大學應用數學研究所(IMAG)自動翻譯中心(CETA)師從法國著名數學傢、國際計算語言學委員會主席B.Vauquois教授，專門研究數理語言學和機器翻譯問題。迴國後，先後擔任中國科學技術信息研究所計算中心機器翻譯研究組組長、教育部語言文字應用研究所計算語言學研究室主任、杭州師範大學外國語學院高端特聘教授。1986年至2004年，在德國Fraunhofer研究院）（FhG）、Trier大學、Konstanz高等技術學院、韓國Korean Advanced Institute of Science and Technology （KAIST）、英國Birmingham大學擔任教授或研究員，長期從事語言學和計算機科學的跨學科研究，是我國計算語言學事業的開拓者之一。在中國，他是中國語文現代化學會副會長、中國應用語言學學會常務理事、中國人工智能學會理事、國傢語言文字工作委員會21世紀語言文字規範（標準）審定委員會委員、全國科學技術名詞審定委員會委員、全國術語標準化技術委員會委員、中國外語教育研究中心學術委員會委員、《數學辭海》總編輯委員會委員、《中國大百科全書》（《語言文字捲》）編輯委員會成員。在國際上，他是TELRI（Trans European Language Resources Infrastructure）、LREC（Language Resources and Evaluation Conference）、COLING 2010（Computational Linguistics Conference）的顧問委員會委員，並擔任IJCL（International Journal of Corpus Linguistics）、IJCC（International Journal of Chinese and Computing）等重要學術期刊編委以及英國Continuum齣版公司係列叢書Research in Corpus and Discourse編委。承擔國傢自然科學基金項目和國傢社會科學基金項目多項，齣版專著30餘部，發錶論文300餘篇。

孫樂

1998年5月畢業於南京理工大學，獲博士學位。1998年9月至2000年10月在中國科學院軟件研究所從事博士後研究，現為中國科學院軟件研究所中文信息處理研究室研究員、博士生導師。曾先後在英國Birmingham大學、加拿大Montreal大學做訪問學者。目前主要研究方嚮：自然語言理解、知識圖譜、信息抽取、問答係統等。作為項目負責人承擔國傢自然科學基金重點項目、國傢“863”項目、國際閤作項目等30多項，在ACL、SIGIR、EMNLP等重要國際會議和國內核心期刊發錶論文50多篇。現為中國中文信息學會副理事長兼秘書長、中文信息學報副主編、國傢語委語言文字規範標準審定委員會委員、國際測評NTCIR MOAT中文簡體任務的組織者、第23屆國際計算語言學大會（COLING 2010）組織委員會聯席主席、第13屆國際機器翻譯峰會（MT Summit 2011）組織委員會聯席主席、第53屆國際計算語言學年會（ACL2015）組織委員會聯席主席。

中文版序言

The goal of a textbook author is the same as the goal of any teacher: passing on our love for our field to a new generation of students, encouraging them to do innovative and creative new work, and helping them to advance the state of human knowledge. For a textbook in the interdisciplinary area of speech and language processing, there are the additional goals of enabling students from differing backgrounds (computer science, linguistics, electrical engineering) to acquire the knowledge and tools of the new interdisciplinary field, and to develop an appreciation for the beauty and complexity and variety of human language. We therefore feel extremely lucky that Professor Feng Zhiwei, aided by Dr. Sun Le, undertook the arduous job of translating this book. Prof. Feng is the perfect scholar for the job of translating such a book, because of his long experience in our field, his wide breadth of research interests throughout computational linguistics in general and Chinese computational linguistics specifically, his remarkable familiarity with the state of our field across the world, from China to France, from Korea to Germany, and of course his expertise on translation as a research area! We are also very excited that this translation into Chinese is the first translation of our book out of English. China＇s long history of the study of language is of course well known, and in this new century the young scientists of China are already playing a key role in the important scientific advances of our field. We look forward to even more amazing contributions from China and hope that our small book, now with the help of Prof. Feng and Dr. Sun, can provide a small aide in the great role that Chinese scientists are playing on the world scientific stage!

Daniel Jurafsky and James H. Martin

Palo Alto, California, and Boulder, Colorado

—譯文—

教材的作者與所有教師有著相同的目標：即把我們對於本專業的熱愛傳達給新一代的學生，鼓勵他們去進行創新性的研究和探索，幫助他們把人類知識進一步嚮前推進。由於語音和語言的計算機處理屬於交叉學科的領域，所以，我們這本關於這個交叉學科領域的教材還有其特定的目標。這些特定的目標就是使來自不同知識背景（計算機科學、語言學和電子工程）的學生掌握這門新的交叉學科的基本知識和工具，並在學習過程中一步一步地來感受人類語言的美妙性、復雜性和多樣性。因此，當我們瞭解到馮誌偉教授在孫樂研究員的協助下承擔瞭把這本教材翻譯成中文的艱辛工作的時候，我們感到無比的榮幸。我們認為，馮誌偉教授是翻譯這本教材的最理想的學者，因為他在這個專業領域具有多年的經驗；他的研究興趣涉及麵廣，既包括普遍的計算語言學研究，也包括具體的漢語計算語言學的研究；他對於這個學科在全世界的情況瞭如指掌，從中國到法國，從韓國到德國，他都親身參與瞭這些國傢的計算語言學研究工作；並且，翻譯一直是馮教授長期從事的一個研究領域，他當然也是精研通達的翻譯內行！這個中文譯本是英文原著的第一個外文譯本，它的齣版使我們非常之激動和振奮。眾所周知，中國在語言研究方麵有著悠久的曆史，在新世紀，中國年輕一代的科學工作者在這個領域的一些重要的科學進展方麵已經起著關鍵性的作用。我們期待著中國在這個領域裏進一步做齣更加齣色的貢獻，並且希望，在中國科學工作者為全世界的科學進步事業所發揮的巨大作用中，由於馮誌偉教授和孫樂研究員的幫助，拙著也能夠為此盡我們的綿薄之力！

Daniel Jurafsky

James H. Martin

譯者序

采用計算機技術來研究和處理自然語言是20世紀40年代末期和20世紀60年代纔開始的， 60多年來，這項研究取得瞭長足的進展，成為瞭計算機科學中一門重要的新興學科——自然語言處理（Natural Language Processing，NLP）。

我們認為，計算機對自然語言的研究和處理，一般應經過如下4個方麵

《信息時代的知識寶庫：重塑理解與溝通的未來》在信息爆炸的洪流中，如何從海量數據中提取有價值的信息，如何讓機器理解人類的語言，進而實現更深層次的交流與協作，已成為推動社會進步的關鍵。本書《信息時代的知識寶庫：重塑理解與溝通的未來》正是這樣一本緻力於揭示信息時代核心驅動力、探索人機智能交互前沿、並為讀者勾勒未來發展藍圖的著作。它並非一本技術手冊，也不是對某個具體領域進行淺嘗輒止的介紹，而是站在宏觀視角，深入剖析構成信息時代基石的各種技術、理念及其相互作用，最終落腳於如何通過更智能化的方式來理解和運用信息，從而徹底改變我們獲取知識、處理問題以及與世界互動的方式。本書的獨特之處在於，它並沒有局限於某個單一學科的界限，而是匯聚瞭來自計算機科學、認知科學、語言學、信息論乃至社會學等多個領域的智慧精華。作者通過清晰的脈絡和嚴謹的邏輯，將這些看似分散的知識點有機地串聯起來，構建起一幅關於信息如何被創造、傳播、處理、理解和利用的宏大畫捲。書中，讀者將踏上一段關於“信息”本質的探索之旅。從信息論的經典原理齣發，追溯信息在物理世界和數字世界的演變，理解其從簡單的比特到復雜的語義的升華過程。本書將深入淺齣地講解信息編碼、解碼、壓縮、糾錯等核心概念，使讀者對信息的量化和傳輸有深刻的認識。隨後，本書將視角轉嚮如何讓機器“理解”信息，尤其是人類語言這一復雜而微妙的載體。這部分內容將重點探討信息處理的智能化路徑，以及如何賦予機器感知、分析、推理和生成信息的能力。讀者將瞭解到，機器理解語言並非簡單的詞匯匹配，而是涉及語法結構分析、語義理解、語境推理，甚至情感色彩的識彆。本書將介紹一係列支撐這一能力的關鍵技術，例如，如何從文本中提取關鍵實體和關係，如何進行文本分類和情感分析，如何構建知識圖譜來捕捉事物間的關聯，以及如何利用機器學習模型來學習和預測語言模式。更進一步，本書將深入探討“智能”在信息處理中的角色。它不僅僅是算法的堆砌，更是對人類認知過程的模仿與超越。作者將引導讀者思考，機器是如何通過學習來提升其理解和生成信息的能力的，特彆是當前在人工智能領域備受矚目的深度學習技術，本書將從原理上對其進行介紹，並闡述其在信息處理中的強大應用，比如如何通過神經網絡處理海量文本數據，生成流暢自然的語言，甚至創作齣具有創意的文本內容。同時，本書也會關注如何讓機器不僅僅是“模仿”人類，而是能夠進行更深層次的推理和決策，從而在解決復雜問題時發揮更大的作用。本書的另一大亮點是其對“溝通”這一人類核心能力的深入剖析。在信息時代，溝通的渠道和方式發生瞭翻天覆地的變化，效率和質量也麵臨新的挑戰。本書將探討如何利用先進的信息處理技術來優化人與人之間、人與機器之間的溝通。這包括但不限於智能搜索、個性化推薦、多模態信息交互（如語音、圖像、視頻的融閤處理），以及構建能夠進行自然對話的智能助手。讀者將瞭解到，通過智能化的信息處理，我們可以突破語言障礙，實現跨文化交流，甚至在虛擬空間中構建更具沉浸感的溝通體驗。《信息時代的知識寶庫：重塑理解與溝通的未來》並非一本止步於理論的著作。書中穿插瞭大量的現實案例和前沿研究進展，從智能客服的普及，到智能駕駛的實現，從個性化醫療的探索，到科學研究的加速，都無不體現著信息處理與智能交互的深刻影響。作者將引導讀者思考，這些技術是如何改變我們的工作方式、學習模式，乃至社會結構的。本書還會對未來進行大膽的展望，預測信息技術將如何繼續推動人類文明的進步，以及我們可能麵臨的機遇與挑戰。本書麵嚮的讀者群體非常廣泛。無論是對信息技術充滿好奇的普通讀者，希望瞭解人工智能如何影響生活的社會大眾，還是希望拓寬知識視野的在校學生，或是緻力於在相關領域進行研究和開發的專業人士，都能從中獲得寶貴的啓示。本書以其宏大的視野、深刻的洞察、嚴謹的論證和前瞻性的思考，旨在為讀者提供一個理解信息時代全貌的全新視角，並激勵大傢積極參與到這場由信息技術驅動的深刻變革之中，共同塑造一個更加智能、互聯、高效的未來。它是一扇通往知識前沿的窗口，更是開啓未來無限可能的鑰匙。

用户评价

评分☆☆☆☆☆

這本書對我來說，更像是一次“思維的洗禮”。我之前對NLP的理解，更多地停留在一些錶麵的概念和應用層麵，覺得它就是把文本變成機器能懂的東西。但《自然語言處理綜論（第二版）》讓我看到瞭NLP更深層次的魅力，它涉及到語言學、計算機科學、統計學等多個學科的交叉融閤。我尤其欣賞作者在梳理曆史發展脈絡方麵的功力，從早期的符號主義到現在的統計學習和深度學習，每一個階段的代錶性成果都被清晰地呈現齣來，讓我能夠理解NLP是如何一步步走到今天的。這本書對我最大的啓發在於，它讓我意識到，理解自然語言的本質，不僅僅是建立模型，更重要的是理解人類的認知和交流方式。這種宏觀的視角，讓我對NLP這個領域有瞭更深層次的敬畏。雖然我還沒有完全讀完，但我已經能夠感受到，這本書不僅僅是在傳授知識，更是在培養一種解決問題的能力和一種探索未知的勇氣。

评分☆☆☆☆☆

說實話，我拿到這本《自然語言處理綜論（第二版）》的時候，其實並沒有抱太大的期望，我隻是想找一本比較全麵的NLP入門讀物，畢竟我之前對這個領域的研究不算太深入。結果，這本書完全超齣瞭我的預期。它給我的感覺就像是一位經驗豐富的導師，循序漸進地帶著我認識NLP這個廣闊的世界。我尤其喜歡它在講解基礎概念時那種嚴謹又不失趣味的風格。比如，在介紹文本預處理的時候，它不僅僅是簡單地羅列一些方法，而是會詳細解釋每種方法的作用、適用的場景，甚至還會給齣一些潛在的陷阱。我記得裏麵有一個關於詞性標注的章節，它從早期的基於規則的方法講到隱馬爾可夫模型（HMM），再到條件隨機場（CRF），循序漸進，層層遞進，讓我這個“小白”也能理解其中的演進和優勢。而且，書中還穿插瞭很多實際案例，讓我能夠將理論知識與實際應用聯係起來，而不是死記硬背。我之前看一些書，總覺得講得太抽象，感覺自己像是在聽天書，而這本書則讓我覺得NLP觸手可及，充滿瞭探索的樂趣。

评分☆☆☆☆☆

坦白講，我買這本書更多的是齣於一種“收集癖”，想把NLP相關的經典書籍都擺在書架上。但當我真的開始翻閱《自然語言處理綜論（第二版）》時，纔發現它絕不僅僅是一本“擺設”。這本書的結構非常清晰，從最基礎的語言模型講起，一直延伸到各種復雜的深度學習模型。我之前對深度學習在NLP中的應用瞭解不多，這本書給我打開瞭一扇新的大門。它對RNN、LSTM、Transformer等模型的講解，都做得非常到位，不僅有理論的推導，還有代碼實現上的指導。我尤其喜歡書中關於Attention機製的講解，感覺作者花瞭很大力氣去把這個概念講透，從最初的簡單形式到後來的多頭自注意力機製，都解釋得非常清楚。這本書也讓我認識到，NLP領域的發展真是日新月異，很多技術更新得非常快，但基礎的原理和模型纔是理解這一切的基石。我每次讀完一個章節，都會有一種“原來如此”的感覺，好像我之前對NLP的零散認知，終於被這本書串聯起來瞭，形成瞭一個更完整的知識體係。

评分☆☆☆☆☆

這本書我讀瞭好久，真的可以說是“慢工齣細活”。我屬於那種喜歡把一本書啃得特彆透的人，而且我對學術類的書籍有種莫名的執著，總覺得不把裏麵的每個概念都弄明白，就好像吃瞭頓沒營養的飯。所以，當我拿到《自然語言處理綜論（第二版）》的時候，心裏就暗暗下定決心，一定要把它徹底“消化”掉。這本書的內容量確實不小，而且很多地方都涉及到瞭底層的數學原理和算法推導，這對我來說既是挑戰也是樂趣。我花瞭很多時間去理解那些公式，去追溯它們是怎麼來的，又怎麼應用到實際的NLP問題中的。有時候，一個概念可能需要我反復看好幾遍，甚至結閤網上的一些資料纔能豁然開朗。比如，在講到詞嵌入那一部分的時候，我之前雖然接觸過一些，但總覺得理解不夠深入。這本書就花瞭相當大的篇幅去講解Word2Vec、GloVe這些經典的模型，不僅給齣瞭詳細的算法流程，還深入分析瞭它們背後的理論依據，比如負采樣、窗口大小等等。我當時為瞭理解那個負采樣，還特意找瞭些機器學習相關的統計學知識來看，感覺自己像在做一次小小的學術研究一樣。這種深入挖掘的感覺，讓我覺得學習過程本身就非常有價值，而不是僅僅為瞭應付考試或者工作。

评分☆☆☆☆☆

我一直覺得，評價一本技術書籍的好壞，關鍵在於它是否能夠幫助讀者解決實際問題，並且培養他們的獨立思考能力。《自然語言處理綜論（第二版）》在這方麵做得非常齣色。它沒有迴避那些復雜的數學公式和算法細節，而是鼓勵讀者去深入理解它們。我之前在工作中遇到一些文本分類的問題，一直找不到特彆好的解決方案。當我讀到這本書中關於特徵工程和分類模型的部分時，我突然找到瞭很多靈感。書中提供瞭一些非常實用的技巧和方法，讓我能夠根據具體的問題來選擇閤適的模型和調整參數。而且，這本書的寫作風格也很有特點，它不像某些技術書籍那樣枯燥乏味，而是充滿瞭作者的思考和洞察。比如，在講到一些前沿技術時，作者會給齣自己的一些觀點和展望，讓我覺得自己在和一位經驗豐富的同行交流，而不是在被動地接受信息。這種互動式的學習體驗，是我非常看重的。

评分☆☆☆☆☆

好

评分☆☆☆☆☆

我今后是要做自然语言处理的。这本书从内容结构来看，比较全面。

评分☆☆☆☆☆

很贵，很一般。越贵越差。不推荐。

评分☆☆☆☆☆

打折的时候购买的，发货很快

评分☆☆☆☆☆

这书绝对值得推荐一下。

评分☆☆☆☆☆

这本书原版是2009年出版的!