編輯推薦
《詞匯頻率分布(英文影印版)》充分展示瞭詞頻分布的理論模型與實際數據之間統一與多元的關係、數值指標和直觀圖示之間矛盾與和諧的地方,其中很多開放問題有待於進一步探索;導讀也力圖在書中發現一些值得進一步思考和探索的問題,幫助讀者更快速地接近前沿。
內容簡介
《詞匯頻率分布(英文影印版)》是“計算語言學與語言科技原文叢書”中的一冊,在GoogleScholar上已被引用數百次,以直觀的圖形,簡練的文字對詞頻分布作瞭一次係統梳理,並有作者的一些獨到見解,開此領域先河,也為不同領域的讀者瞭解詞頻分布規律開啓瞭一扇窗,為有誌進一步探索詞頻分布奧秘的研究者打開瞭一扇門。
作者簡介
(荷蘭)巴因,荷蘭奈梅亨大學教授。
目錄
List of Figures
List of Tables
導 讀
Introduction
1 Word Frequencies
1.1 Introduction
1.2 The frequency spectrum
1.3 Zipf
1.4 The quest for characteristic constants
1.5 The lognormal distribution
1.6 Discussion
1.7 Bibliographical Comments
1.8 Questions
2 Non-parametric models
2.1 Basic concepts .
2.2 The Um model .
2.3 The Structural Type Distribution
2.4 The LNRE zone
2.5 Good-Turing estimates
2.6 Interpolation and Extrapolation
2.6.1 Interpolation
2.6.2 Extrapolation
2.7 Discussion
2.8 Bibliographical Comments
2.9 Questions
3 Parametric models
3.1 Introduction
3.2 LNRE models
3.2.1 The Lognormal Structural Type Distribution
3.2.2 The Generalized Inverse Gauss-Poisson Structural Type
Distribution
3.2.3 The Zipfian Family of LNRE Models
3.3 Evaluating Goodness of Fit
3.4 Parameter estimation
3.5 A comparative study
3.6 Comparing Lexical Measures Across Texts
3.7 Discussion
3.8 Bibliographical Comments
3.9 Questions
4 Mixture distribution盡
4.1 Introduction
4.2 Expectations, variances, and covariances
4.3 Examples of mixture distributions
4.3.1 A text-level mixture model
4.3.2 Morphological mixtures
4.4 Morphological Productivity
4.5 Discussion
4.6 Bibliographical Comments
4.7 Questions
5 The Randomness Assumption
5.1 The Randomness Assumption
5.1.1 Non-randomness and lexical specialization
5.1.2 Consequences of non-randomness
5.2 Adjusted LNRE models
5.2.1 Partition-based adjustment
5.2.2 Parameter-based adjustment
5.3 Discussion
5.4 Bibliographical Comments
6 Examples of Applications
6.1 Distributional properties of the lexicon
6.1.1 Word leng? and sample size
6.1.2 Matching reliability across corpora
6.2 Morphological productivity
6.2.1 Global analyses
6.2.2 Productivity and register
6.3 Authorship and Style
6.4 Beyond word frequency distributions
6.4.1 Counts of filarial worms on mites on rats
6.4.2 Year references
6.3 CV-structures .
6.4.4 Word pairs
6.4.5 Discussion
6.5 Some practical guidelines
A List of Symbols
B Solutions to the exercises
C Software
D Data sets
Bibliography
Index
前言/序言
《詞匯頻率分布》(英文影印版)背後的世界:語言的脈搏與思維的疆域 語言,是人類最偉大的發明之一,它不僅是溝通的工具,更是思維的載體,是文化傳承的基石。而在這浩瀚無垠的語言海洋中,詞匯的齣現頻率,就像潮汐的漲落,隱藏著關於語言結構、認知規律以及人類文明演變的深刻信息。本書,即《詞匯頻率分布》(英文影印版),正是緻力於揭示這一語言學中最基本卻又至關重要的現象。它並非孤立的學術研究,而是通往理解人類語言運作機製、探索認知科學前沿,乃至洞察社會文化變遷的一扇重要窗口。 一、 詞匯頻率:語言的“指紋”與“DNA” 想象一下,如果將世界上所有的書籍、文章、對話、新聞報道乃至社交媒體上的文字進行一次史無前例的統計,我們會發現,並非所有的詞匯都擁有同樣的身傢。有些詞,如“的”、“是”、“一”、“個”,以驚人的密度齣現在我們日常的交流中,它們構成瞭語言的骨架,支撐著句子的基本結構。而另一些詞,例如“量子糾纏”、“星際穿越”、“新古典主義”,則相對稀少,它們可能齣現在特定學科領域、文學作品中,或是代錶著新近産生的概念。 這種“多寡不一”的現象,便是詞匯頻率分布(Lexical Frequency Distribution)。它揭示瞭一個普遍存在的規律:在任何自然語言中,少數詞匯的齣現頻率極高,而絕大多數詞匯的齣現頻率則相對較低。這個規律,在語言學中被稱為“齊夫定律”(Zipf's Law),它不僅僅是一個統計學上的發現,更深刻地反映瞭語言的經濟性原則——人類傾嚮於使用最有效率的錶達方式,而高頻詞正是這種效率的集中體現。 《詞匯頻率分布》(英文影印版)正是從這個基礎齣發,深入剖析瞭詞匯頻率分布的形成機製、數學模型及其在語言學研究中的意義。它會引導讀者認識到,詞匯頻率並非隨意分布,而是受到多種因素的共同作用: 語言的內在結構: 語法功能詞(如冠詞、介詞、連詞)由於承擔著連接詞語、構建句法結構的重要功能,其齣現頻率自然會遠高於內容詞(名詞、動詞、形容詞)。 人類的認知與記憶: 人類的大腦在處理和記憶信息時,傾嚮於優先掌握和使用那些最為常見、最為核心的元素。高頻詞因此更容易被識彆、理解和産齣。 社會文化的需求: 語言是社會生活的反映。社會生活中頻繁齣現的事物、概念、行為,其對應的詞匯自然也就擁有更高的使用頻率。例如,在信息時代,“互聯網”、“社交”、“數據”等詞匯的頻率顯著上升。 語言的演變與發展: 隨著時間的推移,語言也在不斷變化。新詞匯的産生、舊詞匯的消亡、詞匯含義的演變,都可能影響其頻率分布。 通過對這些因素的細緻探討,本書將揭示詞匯頻率分布不僅僅是文字的簡單計數,更是語言活力、使用者習慣乃至社會文化變遷的“活化石”。 二、 跨越學科的視角:從語言學到認知科學與計算科學 《詞匯頻率分布》(英文影印版)的價值,遠不止於語言學本身。它提供的視角,具有強大的跨學科滲透力,能夠為其他領域的研究者帶來深刻的啓發: 語言學研究的基石: 對於語言學傢而言,詞匯頻率分布是分析語言結構、研究語言演變、構建語言理論的根本性依據。例如,在詞典編纂中,高頻詞是首先被收錄和詳盡解釋的對象;在句法分析中,高頻詞的齣現模式往往具有顯著的規律性;在語言習得研究中,學習者對高頻詞的掌握程度是衡量其語言能力的重要指標。本書的深入分析,將為語言學研究提供堅實的理論與實證支持。 認知科學的窗口: 人類的大腦是如何處理和理解語言的?詞匯頻率分布為我們提供瞭一個獨特的觀察視角。研究發現,大腦對高頻詞的加工速度更快,更容易被提取和識彆。這與我們對事物經驗的積纍以及記憶的存儲方式息息相關。本書的討論,將有助於認知科學傢理解語言信息在人腦中的錶徵與加工機製,探索語言與記憶、注意、學習等認知過程之間的復雜聯係。例如,通過分析不同年齡段、不同語言背景人群的詞匯頻率分布差異,可以揭示語言發展與認知能力發展的同步性。 計算語言學與自然語言處理的引擎: 在當今人工智能飛速發展的時代,計算語言學和自然語言處理(NLP)已經成為熱門領域。《詞匯頻率分布》為這些領域提供瞭至關重要的基礎理論和數據支持。 文本分析與信息檢索: 搜索引擎、智能推薦係統等,都需要基於對文本中詞匯頻率的理解來構建索引、進行匹配和排序。高頻詞和低頻詞在信息檢索中的作用是截然不同的。 機器翻譯: 翻譯模型需要準確預測源語言和目標語言中的詞匯齣現概率,以生成最自然的翻譯結果。詞匯頻率是影響翻譯質量的重要因素之一。 文本生成與摘要: 智能寫作工具、自動摘要係統等,也需要模擬人類的語言習慣,閤理運用詞匯,而詞匯頻率正是模擬這種習慣的關鍵參數。 語言建模: 語言模型的核心任務之一就是預測下一個詞的齣現概率,而詞匯頻率是構建有效語言模型的基礎。 本書的內容,將為從事這些計算科學研究的工程師和學者提供理論上的指導和實踐上的參考。 三、 《詞匯頻率分布》(英文影印版)的探索之旅 《詞匯頻率分布》(英文影印版)並非一本簡單的統計報告,它是一次深入的探索之旅,將帶領讀者: 認識詞匯頻率的測量方法: 從語料庫的構建,到詞匯的統計與清洗,再到各種度量指標(如絕對頻率、相對頻率、TF-IDF等)的介紹,本書將清晰地展示如何科學地測量和分析詞匯頻率。 理解詞匯頻率的數學模型: 深入探討齊夫定律及其各種變體,理解冪律分布(power-law distribution)在詞匯頻率中的體現,並可能涉及更復雜的統計模型,以解釋高頻詞和低頻詞的分布規律。 分析詞匯頻率與語言現象的關聯: 探討詞匯頻率如何影響詞語的意義穩定性、學習難度、語音加工速度,以及在不同語篇類型(如科學論文、新聞報道、口語對話)中的差異。 洞察詞匯頻率在跨語言研究中的應用: 比較不同語言的詞匯頻率分布特點,揭示語言共性與特性,為語言習得、對外漢語教學等提供依據。 探索詞匯頻率在社會文化變遷中的痕跡: 通過比較不同時期語料庫的詞匯頻率分布,可以觀察社會熱點、科技發展、文化思潮的變遷,例如,某一時期某個領域的詞匯頻率急劇上升,往往預示著該領域的研究或應用進入瞭爆發期。 結語: 《詞匯頻率分布》(英文影印版)是一部關於語言本質、認知規律以及信息時代技術基石的深刻著作。它以嚴謹的科學態度,揭示瞭隱藏在日常交流中的深刻規律,為語言學、認知科學、計算科學等領域的研究者和實踐者提供瞭寶貴的知識財富。閱讀此書,如同聆聽語言的脈搏,觸摸思維的疆域,最終將幫助我們更深刻地理解人類自身以及我們所構建的這個充滿語言的豐富世界。它不僅僅是提供知識,更是一種思維方式的啓發,一種探索未知的邀請。