編輯推薦
《文字識彆:原理、方法和實踐》一書圍繞模式識彆和文檔信息化而展開。基於模式識彆和信息熵理論分析,對文字和文檔識彆的理論和方法以及關鍵問題進行瞭較為深入、係統的分析和研究,並介紹瞭多種文字和文檔識彆方法和係統。
內容簡介
本書基於模式識彆和信息熵理論,全麵、係統和深入地分析介紹瞭各種漢字、多文種文字識彆的理論和方法,以及解決復雜多變的多文種文字和文檔識彆中關鍵問題的有效算法和具體實踐。本書可以作為相關專業研究生的參考書,也可以供從事模式識彆、文字和文檔識彆等計算機信息處理研究的科研人員和從事相關産品開發的工程技術人員閱讀參考。
作者簡介
作者:丁曉青 王言偉等
目錄
目錄第1章緒論1.1引言1.2文字和漢字1.2.1文字的代碼錶示1.2.2漢字的字體字形1.2.3漢字的特點 1.2.4中文信息處理1.3文字識彆和漢字識彆1.4文字識彆研究曆程1.5文字識彆分類1.5.1按照不同文種文字和文檔的識彆技術分類1.5.2按照獲取圖像方式和識彆對象不同分類1.5.3單個字符識彆和文檔篇章識彆1.6文字識彆與筆跡鑒彆1.7漢字識彆的基本方法——基於視覺感知的漢字識彆方法1.8關於本書參考文獻第2章模式識彆和模式識彆信息熵理論2.1引言: 模式與模式識彆2.2基於貝葉斯統計決策的模式識彆2.3模式識彆統一信息熵理論2.3.1特徵和類彆及其相關信息熵2.3.2後驗熵:*優貝葉斯分類器誤識率的上限2.3.3模式識彆的學習與識彆信息過程2.3.4互信息:決定模式識彆性能的鑒彆熵2.4正態分布條件下的模式識彆信息熵係統2.5*大互信息鑒彆分析(互信息鑒彆子空間模式識彆) 2.5.1*大互信息子空間綫性鑒彆分析方法2.5.2*大互信息綫性鑒彆分析與綫性鑒彆分析LDA2.6特徵選擇的信息熵準則2.6.1基於錯誤概率的類彆可分性準則2.6.2基於有效互信息的類彆可分性準則2.7從信息熵分析看提高識彆性能的途徑2.8漢字集閤和漢字文本的信息熵2.8.1漢字集閤的信息熵2.8.2漢字文本的信息熵和漢字的極限熵2.9本章小結參考文獻第3章漢字識彆的特徵提取3.1引言3.2漢字字符圖像規一化預處理3.2.1綫性規一化3.2.2非綫性規一化3.2.3基於整體密度均衡的非綫性規一化3.3漢字識彆中的特徵抽取3.3.1結構特徵3.3.2統計特徵3.4漢字識彆特徵提取研究的發展曆程3.4.1基於圖像變換的印刷漢字識彆特徵和係統 3.4.2基於形態學漢字結構分析的兩級印刷漢字識彆特徵和係統3.4.3漢字筆畫密度微結構全局特徵及多字體漢字識彆係統3.4.4基於漢字筆畫方嚮網格特徵的魯棒漢字識彆係統3.5筆畫方嚮綫素特徵3.5.1方嚮綫素特徵的形成方法3.5.2網格化方嚮綫素特徵3.5.3對原模糊分塊方法的改進——低通采樣方嚮綫素特徵3.5.4實驗和結果3.6基於Gabor濾波器的高性能漢字識彆方嚮特徵3.6.1Gabor變換理論分析3.6.2適用於漢字識彆的Gabor濾波器組設計及實驗驗證3.6.3對Gabor濾波器組輸齣的非綫性變換3.6.4分塊特徵的抽取3.6.5實驗及結果3.7漢字識彆梯度方嚮特徵抽取方法3.7.1梯度方嚮特徵3.7.2梯度方嚮特徵的快速算法3.8不同筆畫方嚮特徵的識彆性能實驗比較3.9本章小結參考文獻第4章特徵的鑒彆分析和分布整形4.1引言4.2綫性鑒彆分析4.2.1優化準則4.2.2變換形式和*優解4.2.3變換的分解形式4.2.4啓發式討論4.2.5實驗與結果4.2.6小結 4.3正則化綫性鑒彆分析4.3.1小樣本帶來的問題4.3.2利用正則化估計協方差陣4.3.3實驗結果4.4異方差鑒彆分析4.4.1基於極大似然估計的異方差綫性鑒彆分析4.4.2基於Chernoff準則的異方差綫性鑒彆分析4.4.3基於Mahalanobis準則的異方差綫性鑒彆分析4.4.4實驗結果4.4.5小結4.5特徵統計分布整形變換4.5.1特徵分布的整形4.5.2正態性檢驗4.5.3Box�睠ox變換4.5.4方嚮綫素及梯度特徵的整形4.5.5實驗與結果4.6本章小結參考文獻第5章模式識彆分類器設計/統計模式分類方法5.1引言5.2貝葉斯判決理論5.3正態分布下的貝葉斯分類器5.3.1正態分類模型5.3.2*小距離分類器MDC5.3.3綫性距離分類器LDC 5.3.4二次鑒彆函數分類器QDF5.3.5二次鑒彆函數5.3.6QDF誤差分析5.4改進二次鑒彆函數分類器MQDF5.4.1修正二次鑒彆分類MQDF5.4.2QDF修正形式的貝葉斯估計推導5.4.3實驗與結果5.5係統實現與應用5.5.1非限定脫機手寫漢字識彆係統5.5.2多字體印刷中、日、韓文識彆係統5.6分類器的置信度分析5.6.1分類器的置信度和廣義置信度5.6.2基於距離的分類器的廣義置信度估計5.6.3多層前嚮神經網絡分類器廣義置信度估計5.6.4從廣義置信度求置信度的方法5.6.5使用ACT估計後驗概率5.6.6置信度分析在字符識彆中的應用5.6.7小結5.7分類器集成5.7.1集成的3個層次5.7.2基於綫性迴歸的多分類器集成5.7.3利用綫性迴歸提高後驗概率估計的準確性5.7.4後驗概率的估計誤差與誤識率的關係5.7.5實驗結果5.7.6小結5.8本章小結參考文獻第6章無約束手寫漢字識彆分類器鑒彆學習6.1引言6.2基於*小錯誤率的鑒彆學習6.2.1*小錯誤率學習6.2.2基於MCE的多模闆距離分類器參數鑒彆學習6.2.3基於MCE的MQDF分類器參數鑒彆學習6.2.4基於MCE的正交混閤高斯模型的鑒彆學習6.3基於啓發式的鑒彆學習方法6.3.1矯正學習6.3.2鏡像學習方法6.3.3樣本重要性加權學習方法6.4本章小結參考文獻第7章聯機手寫漢字識彆7.1引言7.1.1聯機手寫漢字識彆方法迴顧7.2描述結構的統計模型——SSM7.2.1基元間關係的描述7.2.2結構統計模型SSM的定義及概率分析7.2.3SSM應用於聯機手寫漢字識彆7.2.4實驗與分析7.2.5小結7.3路徑受控HMM和時空統一模型7.3.1路徑受控HMM(PCHMM)7.3.2PCHMM在聯機手寫漢字識彆中的應用7.3.3聯機手寫漢字識彆的時空統一模型——STUM7.3.4實驗與分析7.3.5小結7.4基於全局模式分析的統計結構特徵7.4.1聯機漢字筆跡的結構分析7.4.2聯機手寫漢字分類特徵的分析與提取7.4.3小結7.5高性能聯機手寫漢字識彆係統及其嵌入式係統7.5.1聯機手寫漢字識彆係統7.5.2嵌入式聯機手寫識彆係統7.6本章小結參考文獻第8章利用上下文信息的漢字識彆後處理8.1概述8.2漢字識彆後處理模型8.2.1漢字文本識彆的整體模型8.2.2利用多層語言知識的漢字識彆整體模型8.2.3整體模型的全局優化8.2.4影響後處理性能的要素分析8.3統計語言模型8.3.1n�瞘ram模型的基本理論8.3.2基於字的語言模型8.3.3基於詞的語言模型8.4候選集的有效性8.4.1候選集大小分析8.4.2混淆矩陣獲取8.4.3擴充候選字集8.4.4詞條近似匹配算法8.5文本識彆後處理的實現8.5.1字bigram模型的上下文處理8.5.2字trigram模型的上下文處理8.5.3詞bigram模型的上下文處理8.5.4字、詞相結閤的上下文處理8.4.5利用上下文信息的漢字識彆實驗係統8.6實驗結果與分析8.6.1實驗數據說明8.6.2語言模型的影響8.6.3候選字集的影響8.6.4文本識彆混閤後處理係統的影響8.7本章小結參考文獻第9章脫機手寫文檔識彆方法9.1引言9.2文本行識彆研究概況9.3基於過切分的脫機手寫中文文本行識彆方法9.3.1脫機手寫中文文本行識彆方法9.3.2基於分段的文本行識彆搜索方法9.3.3文本行切分識彆中的語言模型自適應9.3.4脫機手寫中文文本識彆係統9.4基於HMM的無切分民族文字文檔識彆方法9.4.1無切分識彆方法的主要思想9.4.2無切分文檔識彆方法中的特徵提取9.4.3無切分文檔識彆方法中的模型訓練9.4.4無切分文檔識彆方法中的模型優化9.4.5無切分文檔識彆方法中的解碼識彆9.4.6無切分維文文檔識彆研究的相關實驗9.4.7小結9.5本章小結參考文獻第10章文檔版麵自動分析和理解10.1版麵處理的概念10.2版麵分析研究的曆史和現狀10.2.1版麵分析研究的分類10.2.2版麵分析工作的發展10.2.3版麵分析的睏難10.3基於多層次基元的版麵分析模型10.3.1多層次可信度的定義10.3.2多層次可信度指導下的自底嚮上版麵分析算法10.3.3連通域層次10.3.4行層次10.3.5區域層次10.3.6頁麵層次10.3.7實驗結果10.4版麵理解和重構10.4.1版麵理解和重構的需求10.4.2文檔結構模型10.4.3版麵理解10.4.4版麵重構10.4.5原文重現的電子齣版物製作係統10.5本章小結 參考文獻第11章濛藏維多文種識彆11.1引言11.1.1濛藏維文識彆11.1.2民族文字識彆的現狀11.1.3藏文及其識彆11.1.4維吾爾文及其識彆11.1.5濛古文及其識彆11.2濛藏維文識彆的基本策略11.2.1基本識彆單元選擇11.2.2基本框架和關鍵技術11.3多文種民族文字識彆中的字符規一化11.3.1基於基綫分塊的民族字符規一化策略11.3.2規一化點陣大小選擇11.3.3位置規一化11.3.4基於三次B樣條函數的字符圖像插值11.3.5筆畫寬度調整11.4民族文字識彆中的特徵提取與特徵變換11.4.1改進型方嚮綫素特徵11.4.2基於視覺特性的方嚮特徵11.4.3基於綫性鑒彆分析的特徵變換11.4.4實驗結果11.5民族文字識彆中的級聯分類器設計11.5.1預分類11.5.2基於鑒彆學習MQDF的主分類器11.5.3輔助分類11.5.4實驗結果11.6藏文文本切分和藏文識彆後處理11.6.1藏文文本切分11.6.2拼寫規則與統計方法相結閤的藏文識彆後處理11.7多民族語言文字識彆係統的實現——TH�睴CR統一平颱民族文字識彆係統11.7.1統一平颱多民族文字識彆係統特點11.7.2維�埠邯燦⒒炫琶褡邐淖值氖侗�11.7.3濛藏維多文種統一平颱識彆係統性能11.7.4濛藏維文檔識彆的跨文種翻譯理解11.8本章小結參考文獻附錄A常用縮略語錶附錄B文字識彆相關研究成果附錄C文字識彆相關成果主要奬勵附錄D已授權文字識彆相關發明專利附錄E文字識彆相關的博士論文附錄F本書中算法研究相關數據庫索引
精彩書摘
第1章緒論文字識彆: 原理、方法和實踐第1章緒論1.1引言人類社會已進入瞭信息時代,尤為重要的標誌之一是互聯網的發展已經深入人們的生活,從寬度、廣度和深度方方麵麵改變瞭和改變著人們的生活方式,也改變瞭世界。信息化使得信息的獲取、傳輸、交換和使用成為影響社會發展的重要因素,信息事業的發展極大地影響瞭國傢的發達和民族的興旺,也因此得到世界各國的極大關注。在計算機信息化迅速發展的過程中,信息的電子化處理已成為一種不可逆轉的趨勢,需要解決如何把大量的已産生或將産生的印刷或手寫的海量文檔信息高效地輸入計算機這樣的問題,即使在未來,這也是必不可少的一步。將電子化文檔輸齣為紙質文檔,激光照排技術帶來瞭對曆史上鉛與火排版技術的革命,使信息化得到重要發展。但反之,要將無處不在、無時不有的介質上的印刷或手書文檔,自動變成計算機可以閱讀(查詢和檢索等)的電子文檔,卻是十分重要,但卻相當難以實現的。雖然可以采用人工鍵入的方法,但完全無法滿足信息化時代對高速、大數據和大容量的需求。如何滿足全球信息化對於文檔數字化高速、大數據、大容量的急迫需求,利用計算機模式識彆技術進行文字和文檔的自動識彆,實現形形色色的文檔的自動電子化,為計算機信息化發展打下堅實的基礎是我們研究工作的目的,也是本書寫作的動因。《文字識彆:原理、方法和實踐》一書源於自20世紀80年代開始作者對漢字識彆的研究和探索,以及30餘年持續的研發和産業化工作,因此有必要對這些研究工作加以總結和匯總。《文字識彆:原理、方法和實踐》的寫作基本上沿著模式識彆與文字和文檔的信息化這兩條綫索展開。第1條綫索是模式識彆,是本書的理論依據。由於文字識彆是*典型的,也是目前*有成效的模式識彆技術,因此我們有必要首先介紹模式識彆以及解決模式識彆問題的統計模式識彆的基本理論和方法,從提齣模式識彆信息熵理論開始,包括模式識彆特徵提取、特徵選擇和壓縮、分類器設計、上下文相關識彆方法等基本問題的研究探討。第2條綫索是文字和文檔的信息化,這是本書的中心內容。文字是信息的*集中錶現,漢字記載瞭5000餘年中國的曆史和現代文明的發展。尤其是在計算機信息化時代,文字信息化是信息化時代的基礎問題也是關鍵的問題,特彆是睏難的文檔信息的計算機自動輸入問題。在西方文字信息化已取得較完善發展的20世紀60—70年代,數量巨大、結構復雜的漢字信息化卻遇到漢字計算機輸入的特殊睏難,成為漢字計算機信息化的攔路虎。完善解決多種文字和文檔自動識彆計算機輸入等問題,是本書研討的主要內容,包括利用統計模式識彆方法,對多文種文檔識彆的眾多關鍵問題進行較為詳細的研究和探討,等等。本書介紹瞭文字和文檔識彆的理論、方法和實踐應用。根據模仿人類視覺模型,提齣有彆於結構分析的基於文字圖像的統計模式識彆方法,有效突破瞭漢字輸入計算機對信息化的壁壘,取得瞭文字識彆令人矚目的進展。從模式識彆信息熵的分析說明瞭統計模式識彆方法的理論基礎,分析瞭從文字圖像中提取識彆特徵的方法,以及文字識彆中分類器的學習和設計方法;提齣漢字的綜閤識彆研究,以及文本識彆必須解決的版麵分析、文字切分和利用上下文識彆後處理等重要問題,*後,總結瞭文字識彆研究的重要進展情況並對未來工作加以展望。1.2文字和漢字文字是人類社會文明的基石,是人類信息*重要的載體,文字信息是信息*集中的錶現,是人類信息傳承、交換、記載的依據。應當說,人類文明源於文字的齣現,人類文明的發展更離不開文字。在信息化時代的今天,尤其是在互聯網全球化之時,文字信息數字化對於人類文明發展更具特殊的意義。這種無所不在和無處不有的海量大數據文字信息的數字化要求,注定瞭文字識彆的不可或缺及其在世界範圍內廣泛的應用需求。文字是語言的符號錶示,世界上使用的文字基本上可以分為以下幾種:拉丁字母、基裏爾字母、阿拉伯字母、印度字母、漢字係統及其他(韓語、濛古語、希伯來語等)文字等。漢字是世界上*古老的三大文字係統之一。其他如古埃及的聖書字、兩河流域蘇美爾人的楔形文字已經失傳,僅有*的中國的漢字沿用至今。漢字,是中國人創造的意音文字書寫係統,也是當今世界上*仍被廣泛采用的意音文字和獨源文字,推估曆史可追溯至約4000年前的夏商時期。漢字主要用於書麵記錄漢語
前言/序言
文字是人類信息*重要的載體和*集中的錶象,記載瞭幾韆年人類的文明和曆史,對五韆年中華文明的傳承和發展起著極其關鍵的作用。當今人類社會進入快速計算機網絡信息化的時代,信息的全球化和大數據資源的獲取,首先要求解決和實現各類信息的數字化,特彆是文字和文檔信息的計算機數字化。計算機信息化,就是要求計算機也能像人一樣識圖認字:使計算機具有對圖像或文字錶象的自動識彆的能力。也就是說,文字和文檔識彆信息化也是人工智能和計算機視覺需要解決的重要問題。20世紀60年代,國際上就十分重視對文字識彆的研究。我國漢字數量巨大、結構復雜,難以輸入計算機,這成為漢字信息化的攔路虎,因此,漢字識彆及海量文檔的計算機數字化研究極為緊迫,並具有特殊的曆史意義。作者所在的清華大學智能圖文信息處理研究室從20世紀80年代就開始瞭漢字等多文種文字和文檔識彆信息化的研究和探索,數十位師生持續卅餘年,齊心奮力,在文字識彆的理論和方法研討上、在大規模印刷、聯機和脫機手寫漢字識彆、中日韓、濛藏維哈柯阿民族文字文檔識彆的研究上取得領先的研究成果,並將研究成果在世界範圍推廣應用。這些經曆和成果成為本書撰寫的直接動因。《文字識彆:原理、方法和實踐》一書圍繞模式識彆和文檔信息化而展開。基於模式識彆和信息熵理論分析,對文字和文檔識彆的理論和方法以及關鍵問題進行瞭較為深入、係統的分析和研究,並介紹瞭多種文字和文檔識彆方法和係統。全書包括11章,各章內容如下: 第1章緒論介紹文字的基本屬性和特點;第2章模式識彆和模式識彆信息熵理論,揭示模式識彆的核心互信息,漢字和漢字文本的信息熵;第3章介紹漢字識彆的特徵提取和優良的漢字識彆特徵;第4章介紹特徵的鑒彆分析、維數壓縮和特徵高斯分布整形;第5章介紹*優貝葉斯分類器和MQDF設計;以上章節主要介紹文字識彆基本理論。第6章介紹脫機手寫漢字識彆的鑒彆學習方法;第7章介紹基於時空統一模型的結構聯機漢字識彆方法,以及基於結構特徵的統計聯機手寫漢字識彆係統; 第8章介紹利用上下文語言信息進行漢字文本識彆後處理的理論方法;第9章介紹基於過切分的文本行識彆及基於HMM的無切分文檔識彆方法;第10章介紹復雜文檔版麵的自動分析、理解和重構,及文檔自動識彆和重構方法;第11章介紹濛藏維多文種文字文檔識彆的策略、理論和方法,為民|漢跨文種文檔識彆理解打下基礎。本書有選擇性地針對文字和文檔識彆中必須解決的諸多重要問題,從單字、聯機、多變脫機漢字識彆、鑒彆學習,到復雜版麵、連筆書寫、上下文相關文檔識彆,以及多文種民族文字識彆,力圖較完整地,從理論、方法和實踐進行深入分析和討論。全書內容主要源自我們研究工作的總結,大部分章節源於研究生的論文,包括張睿、劉海龍、張嘉勇、林曉帆、徵荊、陳彥、王學文、王言偉、李元祥、薑誌威、陳明、王華等同學的博士論文。丁曉青負責全書的編撰,王言偉還做瞭大量文檔編輯工作。希望讀者能夠對文字和文檔識彆的理論、方法和實踐有較為全麵的認知和瞭解,並從中獲得有益的啓發。*後需要說明的是,本書沒有也不可能完全包括當前在此領域內*新的研究成果和發展。對於讀者,本書能夠起到拋磚引玉的目的,我們就十分欣慰瞭。本書的內容主要源自研究組對文字和文檔識彆理論和方法的研究和探索,特彆是漢字識彆研究開創者之一,已故的吳佑壽院士,他的一貫支持,為漢字識彆研究的成功發揮瞭重要作用;劉長鬆、彭良瑞進行瞭長期的工作,為本書和研究成果的産品化,作齣突齣貢獻;以及集數十位研究生的不懈努力和研究成果,除上麵已經提及的參與者外,還包括:硃夏寜、董宏、黃曉非、李彬、徐寜、郭繁夏、苟大銀、趙明生、郭宏、劉今暉、陳友斌、方馳、靳簡明、陳力、魯湛、陳彥、李闖、王賢良、文迪、何峰、姚正斌、李昕、蔣焰、付強等。在此一並錶示衷心的感謝!
文字識彆:原理、方法和實踐(清華大學學術專著) 下載 mobi epub pdf txt 電子書