內容簡介
《基於網絡媒體監測語料庫的性彆語言差異研究》的研究依托國傢語言資源監測與研究中心(網絡媒體語言分中心)所建的網絡媒體監測語料庫,研究對象主要包括字、詞、句式、話題優先序列、話語量大小等方麵的性彆語言差異。作為首次基於目前規模較大的漢語網絡媒體監測語料庫的漢語本體研究,主要采用語料庫語言學的研究手段,在定量和定性相結閤的基礎上,以統計數據和語言事實為研究依據,通過處理大規模的真實文本得齣瞭具有統計學依據的語言數據,更深入地揭示兩性在漢語使用中的一些普遍規律,挖掘自媒體中性彆語言呈現的一些特有的語言現象和規律,既符閤當前性彆語言差異研究的多元化、動態化、微觀化和本土化的發展趨勢,也對應用語言學、社會語言學等方麵的研究有一定的理論價值。
目錄
目錄
當一個語言學研究的排頭兵
序言
第一篇 字詞篇
第一章 漢字使用的性彆差異 3
第一節 網絡媒體監測語料庫及語料來源 3
一、語料庫的選擇及依據 3
二、博客語料篩選的過程 4
第二節 漢字使用性彆差異的總體情況 6
一、總字次、字種數和使用頻率比較 6
二、漢字覆蓋率比較 6
第三節 漢字字頻的性彆差異 8
一、高頻字比較 8
二、低頻字比較 9
三、高頻字與《現代漢語常用字錶》比較 10
四、高頻字構詞能力的性彆差異 11
第四節 男女兩性共用字與獨用字 13
第五節 本章小結 16
第二章 詞匯使用的性彆差異 17
第一節 詞匯使用性彆差異的總體情況 17
一、總詞次、詞種數和詞匯多樣性的性彆差異 17
二、詞匯覆蓋率的性彆差異 18
第二節 詞匯使用頻率的性彆差異 19
一、不同頻次範圍的詞種數 19
二、高頻詞比較 21
三、高頻詞與字種數關係 23
四、高頻詞詞性分布的性彆差異 24
第三節 兩性共用詞與獨用詞 27
第四節 文本數與詞種數關係的性彆差異 28
第五節 詞長分布的性彆差異 29
一、詞長與平均頻次 29
二、詞長與詞種數 31
第六節 本章小結 32
第三章 微博意見領袖字詞使用的性彆差異 33
第一節 微博意見領袖字頻組間差異 33
一、意見領袖排行榜製定 33
二、高頻字總體使用狀況 35
三、高頻字性彆差異 37
四、其他身份特徵的組間差異 39
第二節 微博意見領袖的詞匯計量特徵 44
一、詞匯密度差異 44
二、詞匯多樣性比較 46
三、詞類分布比較 48
四、詞匯豐富度與微博活躍度 49
第三節 本章小結 50
第二篇 句法篇
第四章 獨詞句使用的性彆差異 53
第一節 性彆語言研究中的獨詞句 53
一、獨詞句的性彆差異研究 53
二、博客語料中的獨詞句 54
第二節 獨詞型獨詞句 54
一、獨詞型獨詞句的範圍 54
二、獨詞句的不同詞匯類彆 56
第三節 獨詞句使用差異的概況 58
一、獨詞句句總數統計 58
二、各詞類獨詞句的使用情況考察 58
第四節 獨詞句使用差異的統計學分析 60
一、數據正態分布驗證 60
二、兩性獨詞句使用差異的顯著性檢驗 61
第五節 各類型獨詞句的性彆差異 61
第六節 “得”字獨詞句性彆差異的個案研究 63
一、“得”字獨詞句的語氣類型 63
二、女性博客“得”字獨詞句 67
三、男性博客“得”字獨詞句 69
四、北京口語中“得/得瞭”獨詞句的性彆差異 71
第七節 本章小結 73
第五章 感嘆句使用的性彆差異 75
第一節 感嘆句使用的總體情況 75
第二節 感嘆句中語氣詞的使用情況 76
一、帶句尾語氣詞的感嘆句 77
二、句尾語氣詞的使用情況對比 78
三、感嘆句中的高頻語氣詞 82
四、語氣詞句總數差值的分析 84
第三節 感嘆詞使用的性彆差異 87
一、感嘆詞使用總體情況對比 88
二、高頻感嘆詞使用情況對比 90
三、兩性使用感嘆詞差異顯著性 92
第四節 女性句尾語助詞“的說”個案研究 92
一、現代漢語方言中句末言說詞 93
二、颱灣地區的現代標準漢語句末言說詞産生的機製 96
三、網絡語言句末言說詞“的說”産生的機製 99
四、網絡語言中“的說”的詞匯化 103
五、結語 106
第五節 本章小結 107
第六章 疑問句使用的性彆差異 108
第一節 疑問句使用的總體情況 108
一、疑問句的考察範圍 108
二、總體情況比較 109
第二節 帶疑問語氣標記的疑問句 110
第三節 帶疑問代詞標記的疑問句 113
一、帶疑問代詞的疑問句使用情況比較 113
二、高頻疑問代詞標記 114
三、句總數次多的疑問代詞標記使用情況比較 116
四、總數最少的疑問代詞 117
五、疑問代詞的句總數差值比較 118
第四節 男女選擇問句的使用特點 120
一、選擇問句的三種類型 121
二、三種類型選擇問句使用情況的性彆差異 122
第五節 兩性正反問句的使用特點 123
一、兩性正反問句使用的總體情況 123
二、完整形式的正反問句 123
三、正反問句的縮略形式 126
四、三種典型正反問句 128
五、兩性正反問句使用特點小結 129
第六節 兩性疑問句使用情況的整體比較 129
第七節 本章小結 130
第三篇 話語篇
第七章 話題選擇的性彆差異 133
第一節 引言 133
第二節 博客話題的文本分類過程 134
一、選擇博客文本的原因 134
二、文本分類過程 135
第三節 兩性話題選擇的優先序列 140
一、男性話題的優先序列 140
二、女性話題的優先序列 141
三、高位序話題的穩定與變化 142
四、穩定的機製及變化的動因 143
第四節 兩性話題選擇的組間差異 144
一、話題序差比較 144
二、話題量的組間差異顯著性檢驗 145
第五節 本章小結 146
第八章 話語量大小的性彆差異 147
第一節 引言 147
第二節 不同語境下的話語量變化 147
第三節 話題量大小分類統計 149
第四節 話語量離散度 150
一、話語量離散度的組間差異 150
二、話語量離散趨勢 151
第五節 組間差異顯著性檢驗 153
第六節 本章小結 155
參考文獻 156
附錄 165
精彩書摘
《基於網絡媒體監測語料庫的性彆語言差異研究》:
第一篇 字詞篇
第一章 漢字使用的性彆差異
第一節 網絡媒體監測語料庫及語料來源
一、語料庫的選擇及依據
國傢語言資源監測與研究中心(網絡媒體分中心)從2005年開始對網絡媒體進行動態監測,已采集瞭包括網絡新聞、網絡論壇、網絡文學、博客、微博等在內的網絡媒體語料,並在此基礎上建立網絡媒體監測語料庫。其中,博客語料主要來源於新浪博客(blog.sina.com.cn)、搜狐博客(blog.sohu.com)、中國博客、博客網(bokee.com)、和訊博客(blog.hexun.com)、博客大巴等網站規模大、網絡訪問量大的知名中文博客網站。《基於網絡媒體監測語料庫的性彆語言差異研究》的研究主要基於網絡媒體監測語料庫中的博客語料和微博語料,博客語料主要用於字、詞匯、句法、話題、話語量的研究,微博語料用於漢字和詞匯章節的個案研究。
選取博客語料主要基於兩個方麵的原因:首先,便於通過作者的元信息篩選齣具有性彆標簽的作者。博客、微博、論壇的作者在社交媒體平颱上注冊時,會提供包括性彆在內的作者身份信息,因此,在語料爬取過程中可對作者身份信息進行元數據標注,進而提取齣有性彆信息的作者。其次,博客文本更便於進行文本分類,有利於開展話題選擇等方麵的性彆語言差異研究。微博文本比較短小,計算機對其進行文本自動分類處理時效度不高,難度較大。而博客文本相對較長,比微博等其他新媒體語料能更有效地進行話題分類,且分類效果更好。
二、博客語料篩選的過程
博客語料庫包括網頁和純文本,我們對語料的基本元數據全部做瞭標注,並采用自動分詞工具做自動分詞和詞性標注等處理。
……
基於網絡媒體監測語料庫的性彆語言差異研究 下載 mobi epub pdf txt 電子書