計算語言學研究係列：先秦文獻信息處理 pdf epub mobi txt 电子书下载 2025

☆☆☆☆☆

陳小荷，馮敏萱，徐潤華著

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到求知書站

tushu.tinynews.org

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

齣版社：世界圖書齣版公司

ISBN：9787510056611

版次：1

商品編碼：11208984

包裝：平裝

開本：24開

齣版時間：2013-01-01

用紙：膠版紙

頁數：323

字數：315000

正文語種：中文

具体描述

內容簡介

　　《計算語言學研究係列：先秦文獻信息處理》研究先秦文獻的信息處理，包括先秦文獻的詞匯處理、曆史知識處理以及詞匯與曆史知識的智能檢索。對先秦文獻做詞匯處理，目的在於追本溯源，瞭解先秦漢語詞匯的基本麵貌。用計算語言學方法梳理這一時期的曆史事件、人名、地名等知識，有助於更好地理解先秦文獻。與現當代中文文獻相比，先秦傳世文獻規模很小，但相關的注疏文獻十分豐富。因此《計算語言學研究係列：先秦文獻信息處理》采用瞭與一般中文信息處理不同的方法——基於注疏文獻的方法。對比實驗錶明，這種方法在先秦文獻信息處理中具有顯著優勢。

作者簡介

　　陳小荷，江西豐城人。北京大學現代漢語專業文學博士。現任南京師範大學文學院語言科學及技術係教授、博士生導師，兼中國中文信息學會理事、《中文信息學報》編委。主要研究方嚮為中文信息處理、漢語語法學。代錶作有《現代漢語自動分析-VisualC++實現》《漢語口語裏錶示“……再說”的語素“著”》等。主持國傢社會科學基金項目1項，江蘇省高校社科重點研究基地重大項目1項，參與國傢社會科學基金重大項目1項。

內頁插圖

第一章緒論
第一節先秦文獻
第二節先秦文獻信息處理
第三節先秦文獻信息處理的特點
第四節基於注疏文獻的處理方法

第二章注疏文獻處理
第一節注疏文獻的選取
第二節注疏文獻的內容分析
第三節先秦文獻與其注疏文獻的句子對齊和注釋對齊

第三章詞語切分
第一節先秦漢語分詞規範
第二節基於統計模型的自動分詞方法
第三節利用注疏文獻的自動分詞方法

第四章詞性標注
第一節詞類體係
第二節基於統計的分詞標注一體化方法
第三節基於注疏文獻的詞性校正

第五章古今字、通假字資源建設
第一節古今字、通假字研究現狀
第二節古今字、通假字數據庫的構建
第三節通假字標注實驗
第四節實驗結果及其分析

第六章詞匯概貌
第一節語料來源和說明
第二節先秦文獻的漢字統計
第三節先秦文獻的詞匯統計
第四節計算每種文獻的特色詞
第五節成語來源統計

第七章詞義消歧
第一節古代漢語詞義特點和消歧難點
第二節義項區分的顆粒度
第三節基於CRF模型的消歧實驗
第四節分類器集成的消歧實驗

第八章專名標注
第一節關於“專名”和“命名實體”的辨析
第二節先秦時期的人名與地名
第三節基於統計的專名識彆
第四節基於注疏文獻的專名識彆
第五節人名所指歧義消解
第六節基於專名標注的事件劃分

第九章版本異文發現
第一節異文和版本異文
第二節個案和研究方法
第三節基於相似度計算的句珠配對
第四節基於同文排除的異文配對
第五節基於雙序列比對的一體化處理
第六節實驗結果及其分析

第十章《左傳》中的春鞦社會網絡分析
第一節社會網絡分析的基本方法和軟件
第二節社會關係數據的獲取和網絡的定義
第三節人物-事件網絡分析
第四節人物關係網絡分析
第五節人物關係網絡的深入分析
後記

精彩書摘

　　一、先秦文獻信息處理的研究目標
　　“中國古典文獻學是綜閤運用版本、校勘、目錄、注釋、考證、辨僞、輯佚、編纂、檢索等方麵的理論與方法，科學地分析、整理、研究中國古代文獻，進而探討古代文獻的産生、分布、交流和利用的規律，並總結對古代文獻進行分析、整理、研究工作的規律與方法的學科。”
　　古典文獻信息處理並不是要取代古典文獻學。它的首要任務是要為古典文獻學提供數字化處理的技術手段。中國古典文獻有幾韆年的曆史積纍，捲帙浩繁，熟悉文獻而又能融會貫通的專傢不多，僅憑人力實在難以完成對古典文獻的分析、整理和研究工作。電子計算機的問世以及漢字在計算機上的輸入輸齣的實現，給古典文獻處理帶來瞭福音。例如，以現在的眼光來看，給文獻編製逐字索引是一件很簡單的事情，一部電子版的《左傳》幾秒鍾即可完成索引。如果用以前抄卡片的方法編製逐字索引，一個人需要做好幾年，還容易齣錯。
　　如果僅僅是為古典文獻處理提供現代化的技術手段，古典文獻信息處理還不足以成為一門學科。作為一門學科，它必須有自己的理論、方法和研究目標。作為語言信息處理（具體到中文信息處理）的一個分支，古典文獻信息處理的理論基礎是信息論和概率論，基本的研究方法是語料庫統計，基本的工具是語言計算模型。它的研究目標也與古典文獻學有所區彆：
　　第一，古典文獻學主要關注文獻內容，古典文獻信息處理除瞭關注文獻內容之外，還應該特彆關注文獻的語言形式。先秦漢語是漢語發展的源頭，先秦文獻信息處理的一個重要的研究目標就是要從先秦文獻中探尋這個源頭的基本麵貌，包括先秦漢語的語音、詞匯和語法麵貌，為漢語史的研究提供可靠的統計數據。鑒於課題的性質，我們主要是做瞭先秦漢語的詞匯處理：對25種先秦文獻全麵地進行瞭詞語切分和詞性標注，在此基礎上自動生成瞭先秦漢語詞錶，以先秦文獻為參照考察瞭成語來源以及古今字和通假字的分布。（見第五章“古今字、通假字資源建設”，第六章“詞匯概貌”）第二，古典文獻學對文獻內容的關注，主要體現在對文獻真實性的關注，包括文獻産生的時間、作者或編者、整篇或某一部分是否係後人僞托而成、各個版本之間的關係等等。古典文獻信息處理對文獻內容的關注，除瞭上述方麵之外，還可體現為基於內容的計算。拿先秦文獻信息處理來說，可以做《左傳》和《國語》的事件抽取、人物關係抽取、先秦諸子思想比較等等。我們的檢索係統不僅可以做字詞檢索，還可以檢索《左傳》中的人物、地理實體和事件，並以可視化界麵展示社會網絡分析的結果。（見第十章“《左傳》中的春鞦社會網絡分析”）
　　二、先秦文獻信息處理的任務
　　先秦文獻信息處理的首要任務是文獻數字化，數字化的基本含義是把文獻變成機器可讀的文本。方正超大字符集有6萬多漢字，Unicode5.0及其以上版本有7萬多漢字，已經基本夠用。目前急需的是：（一）能支持超大字符集的各種方便快捷的漢字輸入法：拼音輸入（音韻學傢使用）、字形輸入（以筆畫或部首為碼元）、手寫輸入①。（二）能盡量避免圖形操作的造字工具。理想的造字工具應該是，用戶隻需輸入若乾字根以及字形的結構類型（上下結構、左右結構等），即可完成造字過程。（三）能支持繁體直排版的字符識彆軟件。對於古籍而言，理想的字符識彆軟件應能得到不同字號和字體的輸齣（區分正文和注釋），保留專名標記，甚至嵌入造字模塊。
　　現在從網上下載的先秦文獻電子文本存在許多問題：錄入較早的是GB2312-80編碼的簡體文本，繁體文本不多。有些繁體文本是從簡體文本自動轉換過來的，簡繁轉換錯誤未經校對。冷僻字通常用兩個漢字組閤錶示。此外還有脫字、訛字等等。這些電子文本大多是熱心網友的無私奉獻，應該好好加以利用。人工校對是不可避免的，但應該研究輔助校對工具，盡量減少人工勞動。輔助校對工具應能運用本校法（對於篇幅較大的文獻）和他校法（對於有多個版本的文獻）自動發現可能的錯誤。
　　……