詞匯頻率分布（英文影印版） pdf epub mobi txt 电子书下载 2025

☆☆☆☆☆

[荷蘭] 巴因（Baayen，R.，H.）著

圖書標籤:

詞匯
頻率
分布
英文
語言學
語料庫
文本分析
統計語言學
英語學習
詞匯研究

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到求知書站

tushu.tinynews.org

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：北京大学出版社

ISBN：9787301263570

版次：1

商品编码：11876395

包装：平装

丛书名：计算语言学与语言科技原文丛书

开本：16开

出版时间：2016-02-01

用纸：胶版纸

页数：376

字数：409000

具体描述

編輯推薦

　　《詞匯頻率分布（英文影印版）》充分展示瞭詞頻分布的理論模型與實際數據之間統一與多元的關係、數值指標和直觀圖示之間矛盾與和諧的地方，其中很多開放問題有待於進一步探索；導讀也力圖在書中發現一些值得進一步思考和探索的問題，幫助讀者更快速地接近前沿。

內容簡介

　　《詞匯頻率分布（英文影印版）》是“計算語言學與語言科技原文叢書”中的一冊，在GoogleScholar上已被引用數百次，以直觀的圖形，簡練的文字對詞頻分布作瞭一次係統梳理，並有作者的一些獨到見解，開此領域先河，也為不同領域的讀者瞭解詞頻分布規律開啓瞭一扇窗，為有誌進一步探索詞頻分布奧秘的研究者打開瞭一扇門。

作者簡介

　　（荷蘭）巴因，荷蘭奈梅亨大學教授。

List of Figures
List of Tables
導讀
Introduction

1 Word Frequencies
1.1 Introduction
1.2 The frequency spectrum
1.3 Zipf
1.4 The quest for characteristic constants
1.5 The lognormal distribution
1.6 Discussion
1.7 Bibliographical Comments
1.8 Questions
2 Non-parametric models
2.1 Basic concepts .
2.2 The Um model .
2.3 The Structural Type Distribution
2.4 The LNRE zone
2.5 Good-Turing estimates
2.6 Interpolation and Extrapolation
2.6.1 Interpolation
2.6.2 Extrapolation
2.7 Discussion
2.8 Bibliographical Comments
2.9 Questions
3 Parametric models
3.1 Introduction
3.2 LNRE models
3.2.1 The Lognormal Structural Type Distribution
3.2.2 The Generalized Inverse Gauss-Poisson Structural Type
Distribution
3.2.3 The Zipfian Family of LNRE Models
3.3 Evaluating Goodness of Fit
3.4 Parameter estimation
3.5 A comparative study
3.6 Comparing Lexical Measures Across Texts
3.7 Discussion
3.8 Bibliographical Comments
3.9 Questions
4 Mixture distribution盡
4.1 Introduction
4.2 Expectations, variances, and covariances
4.3 Examples of mixture distributions
4.3.1 A text-level mixture model
4.3.2 Morphological mixtures
4.4 Morphological Productivity
4.5 Discussion
4.6 Bibliographical Comments
4.7 Questions
5 The Randomness Assumption
5.1 The Randomness Assumption
5.1.1 Non-randomness and lexical specialization
5.1.2 Consequences of non-randomness
5.2 Adjusted LNRE models
5.2.1 Partition-based adjustment
5.2.2 Parameter-based adjustment
5.3 Discussion
5.4 Bibliographical Comments
6 Examples of Applications
6.1 Distributional properties of the lexicon
6.1.1 Word leng? and sample size
6.1.2 Matching reliability across corpora
6.2 Morphological productivity
6.2.1 Global analyses
6.2.2 Productivity and register
6.3 Authorship and Style
6.4 Beyond word frequency distributions
6.4.1 Counts of filarial worms on mites on rats
6.4.2 Year references
6.3 CV-structures .
6.4.4 Word pairs
6.4.5 Discussion
6.5 Some practical guidelines
A List of Symbols
B Solutions to the exercises
C Software
D Data sets
Bibliography
Index

前言/序言

《詞匯頻率分布》（英文影印版）背後的世界：語言的脈搏與思維的疆域語言，是人類最偉大的發明之一，它不僅是溝通的工具，更是思維的載體，是文化傳承的基石。而在這浩瀚無垠的語言海洋中，詞匯的齣現頻率，就像潮汐的漲落，隱藏著關於語言結構、認知規律以及人類文明演變的深刻信息。本書，即《詞匯頻率分布》（英文影印版），正是緻力於揭示這一語言學中最基本卻又至關重要的現象。它並非孤立的學術研究，而是通往理解人類語言運作機製、探索認知科學前沿，乃至洞察社會文化變遷的一扇重要窗口。一、詞匯頻率：語言的“指紋”與“DNA” 想象一下，如果將世界上所有的書籍、文章、對話、新聞報道乃至社交媒體上的文字進行一次史無前例的統計，我們會發現，並非所有的詞匯都擁有同樣的身傢。有些詞，如“的”、“是”、“一”、“個”，以驚人的密度齣現在我們日常的交流中，它們構成瞭語言的骨架，支撐著句子的基本結構。而另一些詞，例如“量子糾纏”、“星際穿越”、“新古典主義”，則相對稀少，它們可能齣現在特定學科領域、文學作品中，或是代錶著新近産生的概念。這種“多寡不一”的現象，便是詞匯頻率分布（Lexical Frequency Distribution）。它揭示瞭一個普遍存在的規律：在任何自然語言中，少數詞匯的齣現頻率極高，而絕大多數詞匯的齣現頻率則相對較低。這個規律，在語言學中被稱為“齊夫定律”（Zipf's Law），它不僅僅是一個統計學上的發現，更深刻地反映瞭語言的經濟性原則——人類傾嚮於使用最有效率的錶達方式，而高頻詞正是這種效率的集中體現。《詞匯頻率分布》（英文影印版）正是從這個基礎齣發，深入剖析瞭詞匯頻率分布的形成機製、數學模型及其在語言學研究中的意義。它會引導讀者認識到，詞匯頻率並非隨意分布，而是受到多種因素的共同作用：語言的內在結構：語法功能詞（如冠詞、介詞、連詞）由於承擔著連接詞語、構建句法結構的重要功能，其齣現頻率自然會遠高於內容詞（名詞、動詞、形容詞）。人類的認知與記憶：人類的大腦在處理和記憶信息時，傾嚮於優先掌握和使用那些最為常見、最為核心的元素。高頻詞因此更容易被識彆、理解和産齣。社會文化的需求：語言是社會生活的反映。社會生活中頻繁齣現的事物、概念、行為，其對應的詞匯自然也就擁有更高的使用頻率。例如，在信息時代，“互聯網”、“社交”、“數據”等詞匯的頻率顯著上升。語言的演變與發展：隨著時間的推移，語言也在不斷變化。新詞匯的産生、舊詞匯的消亡、詞匯含義的演變，都可能影響其頻率分布。通過對這些因素的細緻探討，本書將揭示詞匯頻率分布不僅僅是文字的簡單計數，更是語言活力、使用者習慣乃至社會文化變遷的“活化石”。二、跨越學科的視角：從語言學到認知科學與計算科學《詞匯頻率分布》（英文影印版）的價值，遠不止於語言學本身。它提供的視角，具有強大的跨學科滲透力，能夠為其他領域的研究者帶來深刻的啓發：語言學研究的基石：對於語言學傢而言，詞匯頻率分布是分析語言結構、研究語言演變、構建語言理論的根本性依據。例如，在詞典編纂中，高頻詞是首先被收錄和詳盡解釋的對象；在句法分析中，高頻詞的齣現模式往往具有顯著的規律性；在語言習得研究中，學習者對高頻詞的掌握程度是衡量其語言能力的重要指標。本書的深入分析，將為語言學研究提供堅實的理論與實證支持。認知科學的窗口：人類的大腦是如何處理和理解語言的？詞匯頻率分布為我們提供瞭一個獨特的觀察視角。研究發現，大腦對高頻詞的加工速度更快，更容易被提取和識彆。這與我們對事物經驗的積纍以及記憶的存儲方式息息相關。本書的討論，將有助於認知科學傢理解語言信息在人腦中的錶徵與加工機製，探索語言與記憶、注意、學習等認知過程之間的復雜聯係。例如，通過分析不同年齡段、不同語言背景人群的詞匯頻率分布差異，可以揭示語言發展與認知能力發展的同步性。計算語言學與自然語言處理的引擎：在當今人工智能飛速發展的時代，計算語言學和自然語言處理（NLP）已經成為熱門領域。《詞匯頻率分布》為這些領域提供瞭至關重要的基礎理論和數據支持。文本分析與信息檢索：搜索引擎、智能推薦係統等，都需要基於對文本中詞匯頻率的理解來構建索引、進行匹配和排序。高頻詞和低頻詞在信息檢索中的作用是截然不同的。機器翻譯：翻譯模型需要準確預測源語言和目標語言中的詞匯齣現概率，以生成最自然的翻譯結果。詞匯頻率是影響翻譯質量的重要因素之一。文本生成與摘要：智能寫作工具、自動摘要係統等，也需要模擬人類的語言習慣，閤理運用詞匯，而詞匯頻率正是模擬這種習慣的關鍵參數。語言建模：語言模型的核心任務之一就是預測下一個詞的齣現概率，而詞匯頻率是構建有效語言模型的基礎。本書的內容，將為從事這些計算科學研究的工程師和學者提供理論上的指導和實踐上的參考。三、《詞匯頻率分布》（英文影印版）的探索之旅《詞匯頻率分布》（英文影印版）並非一本簡單的統計報告，它是一次深入的探索之旅，將帶領讀者：認識詞匯頻率的測量方法：從語料庫的構建，到詞匯的統計與清洗，再到各種度量指標（如絕對頻率、相對頻率、TF-IDF等）的介紹，本書將清晰地展示如何科學地測量和分析詞匯頻率。理解詞匯頻率的數學模型：深入探討齊夫定律及其各種變體，理解冪律分布（power-law distribution）在詞匯頻率中的體現，並可能涉及更復雜的統計模型，以解釋高頻詞和低頻詞的分布規律。分析詞匯頻率與語言現象的關聯：探討詞匯頻率如何影響詞語的意義穩定性、學習難度、語音加工速度，以及在不同語篇類型（如科學論文、新聞報道、口語對話）中的差異。洞察詞匯頻率在跨語言研究中的應用：比較不同語言的詞匯頻率分布特點，揭示語言共性與特性，為語言習得、對外漢語教學等提供依據。探索詞匯頻率在社會文化變遷中的痕跡：通過比較不同時期語料庫的詞匯頻率分布，可以觀察社會熱點、科技發展、文化思潮的變遷，例如，某一時期某個領域的詞匯頻率急劇上升，往往預示著該領域的研究或應用進入瞭爆發期。結語：《詞匯頻率分布》（英文影印版）是一部關於語言本質、認知規律以及信息時代技術基石的深刻著作。它以嚴謹的科學態度，揭示瞭隱藏在日常交流中的深刻規律，為語言學、認知科學、計算科學等領域的研究者和實踐者提供瞭寶貴的知識財富。閱讀此書，如同聆聽語言的脈搏，觸摸思維的疆域，最終將幫助我們更深刻地理解人類自身以及我們所構建的這個充滿語言的豐富世界。它不僅僅是提供知識，更是一種思維方式的啓發，一種探索未知的邀請。

用户评价

评分☆☆☆☆☆

坦白講，我對於需要大量圖錶和公式支撐的學術材料天生就有一種抗拒感。我的閱讀習慣更偏嚮於敘事性和體驗性更強的作品。我更享受那種跟隨一個引人入勝的故事綫，沉浸在作者精心構建的世界裏，體驗角色的喜怒哀樂，或者跟隨一位曆史學傢的腳步，重溫一段波瀾壯闊的曆史進程。比如，我最近讀的一本關於中世紀手抄本製作過程的非虛構作品，詳細描述瞭羊皮紙的準備、墨水的熬製，以及抄寫員在昏暗燭光下工作的每一個細節，那種身臨其境的感受是無與倫比的。而《詞匯頻率分布》，恕我直言，它似乎將語言的生命力壓縮在瞭枯燥的數字區間內。對我而言，詞匯的“價值”不在於它齣現的次數，而在於它在特定語境下所能激發的聯想和情感共鳴。我更願意花時間去研究一本古典詩集中的某個生僻字，探究它在不同朝代中的意義漂移，而不是去統計它在整個語料庫中的齣現率。這本書的取嚮，與我追求的“有血有肉”的閱讀體驗背道而馳。

评分☆☆☆☆☆

這本書的英文影印版特性也讓我有些猶豫。我深知原版的重要性，但作為一個非專業的語言學研究者，麵對原版的學術術語和復雜的錶達方式，常常需要花費大量的精力去理解字麵意思，這極大地分散瞭我對核心概念的把握。我通常更喜歡那些經過精心翻譯和本土化處理的中文版本，尤其是一些優秀譯者會加入翔實的注釋和背景介紹，這些“潤滑劑”能幫助我這樣的普通讀者更順暢地消化深奧的知識。我更熱衷於那些能夠跨越語言障礙，直接觸及人類共通情感和智慧的作品，比如古希臘的悲劇選集，即使是通過譯本閱讀，其普世的人性探討依舊震撼人心。這本《詞匯頻率分布》如果放在書架上，很可能因為其專業性和閱讀門檻，成為一本“隻供瞻仰”的擺設。我更願意去讀那些能夠立刻引發我思考，並且能夠用日常語言進行有效交流的著作，而不是需要我反復查閱詞典纔能勉強跟上節奏的硬核文獻。

评分☆☆☆☆☆

我一直相信，一本好書應該能夠像一位博學的導師，帶著你進行一場思想的漫步，而不是像一份詳盡的說明書，告訴你每一個零件的規格。我偏愛那種充滿論證的深度和廣度的書籍，比如探討全球化背景下文化身份認同危機的著作，這類書需要你不斷地進行自我審視和批判性思考。閱讀對我來說，是一個主動構建意義的過程，我希望作者提供的是“原材料”和“邏輯框架”，而不是直接給齣最終的“統計結果”。這本《詞匯頻率分布》，聽起來像是一個“黑箱操作”的結果展示，雖然其嚴謹性毋庸置疑，但卻缺乏那種引導讀者自己去發現規律的樂趣。我更期待的是一本能夠啓發我提齣新的問題的書，而不是一本似乎已經把所有問題都量化並給齣答案的參考書。因此，對於追求閱讀過程中的主動探索和個人思想激發的我來說，這本書的實用價值和精神吸引力，都遠不如那些探討人類境遇和社會變遷的文學或社科經典來得誘人。

评分☆☆☆☆☆

這本赫然擺在書架上的《詞匯頻率分布（英文影印版）》，光是書名就透著一股冷峻的學術氣息，想必是為那些對語言的底層結構有著近乎癡迷的學者或高階學習者準備的“兵器”。我拿到它時，首先被它厚重的裝幀和略顯陳舊的排版所吸引，那種紙張特有的、略帶黴味的陳舊感，仿佛能觸摸到幾十年前語言學研究的原始脈搏。我個人更偏愛那些充滿人文色彩和曆史沉澱的著作，比如那些探討詞語演變背後社會風貌的散文集，或是那些對文學大師的創作心路進行深度剖析的傳記。我總覺得，語言的魅力，更在於它負載的情感和文化基因，而非冰冷的數字統計。例如，我最近沉迷於一本關於維多利亞時代日常用語的書籍，書中細緻描繪瞭“好”、“壞”這些看似簡單的詞匯，在不同階層和場閤下所蘊含的微妙區彆，那種細膩的洞察力遠比單純的頻率統計要來得令人著迷。這本《詞匯頻率分布》，看起來更像是一本工具書，它關注的是“多少”而非“為何”，對我這種追求敘事和情感連接的讀者來說，或許隻能束之高閣，成為書房裏一個安靜的知識符號，而非隨時翻閱的心靈伴侶。

评分☆☆☆☆☆

說實話，當我翻開這本書的封麵時，心裏湧起的是一種復雜的情緒——敬畏中帶著一絲疏離。我一直認為，閱讀的樂趣在於探索未知、感受思想的碰撞，最好是能被作者的個人魅力和獨到見解所深深吸引。我更傾嚮於那些充滿思辨色彩的哲學著作，比如早年讀過的關於時間本質的討論，那種層層遞進的邏輯推演和對宏大命題的追問，能讓我感覺自己的思維邊界被不斷拓寬。這本書給我的直觀感受是，它似乎將語言——這個人類最富於創造力和變幻莫測的工具——硬生生地切割、量化，然後鋪陳成一張密密麻麻的錶格。這就像是欣賞一幅印象派大師的畫作，彆人看到瞭色彩的流動和光影的捕捉，而我卻隻想知道畫傢當時的心情和畫筆的軌跡。我更喜歡那種能夠帶著我一同進入文本“內部”的作品，比如一本優秀的文學批評，它會像一把精巧的手術刀，剖開作品的肌理，展示其內部的運作機製，但同時又會充滿瞭對創作者的同理心。這本《詞匯頻率分布》，給我的感覺更像是一份詳盡的材料清單，雖然重要，但終究缺乏瞭最終産品的靈魂與溫度。