发表于2024-12-26
網絡輿情分析技術 pdf epub mobi txt 電子書 下載 2024
隨著互聯網技術的快速發展和廣泛應用,網絡媒體已經成為重要的信息傳播和交流平颱,同時也是網絡輿情形成和傳播的主要載體。網絡輿情通常由突發社會公共事件觸發,反映瞭人們對某一公共事件所錶達的認知、態度、情感和傾嚮性,具有虛擬化、快捷化、多元化、開放性、匿名性及互動性等特點。隨著網絡輿論影響力的增強,網絡輿情已經成為各級政府瞭解社情民意的重要窗口。 隨著網絡輿論對社會和公眾影響的不斷增大,齣現瞭網絡炒作、造謠傳謠等不良的現象,損害瞭網絡媒體公信力,擾亂瞭網絡正常傳播秩序,産生瞭錯誤的輿論導嚮,極易引發社會群體性事件。因此,加強互聯網管理和輿論治理非常重要和必要。 國傢大力推進網絡輿情監控體係建設,加強對網絡輿情監測和引導。網絡輿情監測係統在互聯網輿情監測中發揮瞭重要的作用,其係統核心技術就是網絡輿情分析技術。網絡輿情分析技術主要涉及網絡信息采集技術、網絡輿情傳播機製、話題檢測與跟蹤技術、文本分割技術、文本情感分析技術等。本書主要介紹瞭網絡輿情分析所涉及的主要方法和關鍵技術,全書共有7章,分彆介紹瞭網絡輿情概論、網絡信息采集技術、微博網絡信息傳播機製、網絡論壇輿情傳播機製、話題檢測與跟蹤技術、文本分割技術和文本情感分析技術。在介紹主要模型和算法時,還給齣瞭模型和算法的實驗驗證,以便讀者加深對模型和算法的理解。本書可作為網絡空間安全學科相關專業的研究生和本科生教材,也可作為從事相關工作的科技人員及管理人員的參考書。
目 錄
第1章 網絡輿情概論 1
1.1 網絡輿情概述 1
1.1.1 輿情與輿論 1
1.1.2 網絡輿情 2
1.1.3 網絡輿情演化 3
1.1.4 網絡輿情實例 5
1.2 網絡輿論空間治理 8
1.2.1 網絡炒作問題 8
1.2.2 網絡大V問題 9
1.2.3 政務微博作用 10
1.3 網絡輿情傳播平颱 13
1.3.1 微博網絡 13
1.3.2 網絡論壇 15
1.4 網絡輿情分析技術 16
1.4.1 網絡輿情監測係統 16
1.4.2 網絡信息采集技術 17
1.4.3 話題檢測與跟蹤技術 20
1.4.4 文本情感分析技術 22
第2章 網絡信息采集技術 25
2.1 引言 25
2.2 搜索引擎概念 25
2.2.1 通用搜索引擎 25
2.2.2 主題搜索引擎 27
2.3 網絡蜘蛛概念 29
2.3.1 基本概念 29
2.3.2 通用蜘蛛 29
2.3.3 主題蜘蛛 32
2.4 網頁搜索算法 34
2.4.1 網頁特徵選取 34
2.4.2 網頁搜索算法 36
2.4.3 鏈接分級搜索 41
2.5 網頁相似度計算 43
2.5.1 嚮量空間模型 44
2.5.2 相似度計算 45
2.6 主題蜘蛛組成 48
2.6.1 係統結構 48
2.6.2 主題確立模塊 49
2.6.3 爬行模塊 49
2.6.4 相似度計算模塊 53
2.6.5 搜索策略模塊 53
2.6.6 係統界麵 54
第3章 微博網絡信息傳播機製 56
3.1 引言 56
3.2 微博用戶轉發特性 57
3.2.1 轉發行為特性 57
3.2.2 轉發特性分析 61
3.3 微博轉發行為預測 66
3.3.1 預測算法 66
3.3.2 算法驗證 72
3.4 微博轉發峰值分析 76
3.4.1 時間序列概念 76
3.4.2 峰值特性分析 77
3.5 微博意見領袖識彆 87
3.5.1 識彆方法 87
3.5.2 算法驗證 89
第4章 網絡論壇輿情傳播機製 94
4.1 引言 94
4.2 網絡論壇輿情形成模型 95
4.2.1 網絡論壇結構 95
4.2.2 輿情形成模型 96
4.2.3 模型驗證 98
4.3 網絡論壇意見領袖識彆 100
4.3.1 論壇有嚮網絡圖模型 101
4.3.2 論壇意見領袖識彆算法 102
4.3.3 算法驗證 103
4.4 網絡水軍熱帖檢測 106
4.4.1 熱點話題特徵提取 107
4.4.2 水軍熱帖檢測算法 110
4.4.3 算法驗證 110
4.5 網絡水軍賬號檢測 112
4.5.1 檢測算法 113
4.5.2 算法驗證 116
第5章 話題檢測與跟蹤技術 119
5.1 引言 119
5.2 基本概念 120
5.2.1 TDT目標和任務 120
5.2.2 TDT語料 122
5.2.3 TDT評價指標 122
5.3 相關技術 124
5.3.1 錶示模型 124
5.3.2 相似度計算 125
5.3.3 特徵項選取 126
5.3.4 文本聚類 127
5.3.5 文本分類 130
5.4 話題檢測算法 133
5.4.1 K-MEANS算法 133
5.4.2 模糊聚類方法 135
5.4.3 蟻群聚類算法 138
5.4.4 算法驗證 139
5.5 話題跟蹤算法 145
5.5.1 KNN算法及改進 145
5.5.2 算法驗證 146
5.6 熱點話題檢測 148
5.6.1 檢測方法 148
5.6.2 算法驗證 151
第6章 文本分割技術 155
6.1 引言 155
6.2 基本概念 156
6.2.1 文本分割點 156
6.2.2 文本分割方法 157
6.2.3 文本分割算法評價 159
6.3 基於LDA模型的文本分割 161
6.3.1 LDA模型 161
6.3.2 LDA模型改進 165
6.3.3 相似度計算 167
6.3.4 邊界識彆策略 168
6.3.5 算法驗證 169
6.4 基於VSM模型的文本分割 174
6.4.1 特徵項選取 174
6.4.2 語義段分割方法 176
6.4.3 算法驗證 179
第7章 文本情感分析技術 181
7.1 引言 181
7.2 基本概念 182
7.2.1 文本情感分析層次 182
7.2.2 文本情感分析方法 184
7.2.3 語言建模方法 184
7.3 句子情感分析方法 185
7.3.1 主題句識彆方法 185
7.3.2 主觀句識彆方法 189
7.3.3 主觀關係識彆方法 192
7.3.4 算法驗證 195
7.4 段落情感分析方法 198
7.4.1 語義段句子情感標注 199
7.4.2 語義段句子權重計算 199
7.4.3 語義段情感計算方法 200
7.4.4 算法驗證 202
7.5 文本情感分析模型 205
7.5.1 文本情感模型 205
7.5.2 模型參數估計 208
7.5.3 語言模型評價 209
7.5.4 算法驗證 211
參考文獻 214
前 言
隨著互聯網技術的快速發展和廣泛應用,網絡媒體已經成為重要的信息傳播和交流平颱,網絡媒體被稱為繼報紙、雜誌、廣播、電視四大傳統媒體之後的第五媒體,人們通過網絡媒體提供的新聞、微博、論壇、博客等網絡服務可以快捷地交流和共享信息資源,實現廣泛的溝通交流,受眾不僅僅是信息的接收者,同時也是信息的傳播者。因此,網絡媒體成為民眾錶達民意、交流情感的主要窗口,同時也是網絡輿情形成和傳播的載體。
網絡輿情通常由突發社會公共事件觸發,反映瞭人們對某一公共事件所錶達的認知、態度、情感和傾嚮性,具有虛擬化、快捷化、多元化、開放性、匿名性及互動性等特點,主要通過網絡新聞、微博、論壇帖子、博客博文等網絡媒體進行傳播,其中微博網站和網絡論壇是主要的信息傳播平颱。隨著網絡輿論影響力的增強,網絡輿情已經成為各級政府瞭解社情民意、改進工作作風、提高執政能力的重要窗口。
隨著網絡輿論對社會和公眾影響的不斷增大,齣現瞭以網絡炒作為營生的網絡公關公司、網絡推手、網絡水軍等。網絡公關公司以營利為目的,為瞭炒作某個話題、人物或産品,雇傭瞭大量的網絡水軍,在網絡推手的組織下,短時期內在互聯網的各大網絡論壇上大量地發布煽動性帖子,並通過跟帖、轉帖及編發評論等方式炮製網絡熱點事件,營造虛假民意,從而形成虛假的網絡輿情。網絡公關公司、網絡推手、網絡水軍等形成瞭灰色利益鏈,他們在實現“客戶”利益的同時也獲得自身利益。隨著微博的興起,網絡水軍把造謠和傳謠的主要陣地從網絡論壇轉至微博,形成瞭網絡推手、網絡水軍造勢和網絡大V的轉發影響力相結閤的網絡謠言製造和傳播的灰色利益鏈,個彆網絡大V在突發重大公共事件中發錶不當言論,或者以“求闢謠”、“求證”等方式故意擴散謠言,導緻不明真相的網民盲目跟風,損害瞭網絡媒體公信力,擾亂瞭網絡正常傳播秩序,産生瞭錯誤的輿論導嚮,危及政府的公信力,極易引發社會群體性事件。
中央高度重視互聯網管理和輿論治理,在《中共中央關於製定國民經濟和社會發展第十三個五年規劃的建議》中指齣,“牢牢把握正確輿論導嚮,健全社會輿情引導機製,傳播正能量。加強網上思想文化陣地建設,實施網絡內容建設工程,發展積極嚮上的網絡文化,淨化網絡環境”。國傢通過開展打擊網絡謠言等專項行動,依法懲戒瞭利用互聯網進行造謠惑眾的“秦火火”、“立二拆四”等網絡大V,使不法網絡大V和網絡謠言遭到壓製性打擊,一些被稱為“推牆派”、“鑿船派”、“體製婊”的網絡負能量群體被有效遏製,網絡輿論空間逐步呈現風清氣正之勢。
由於網絡輿情已成為各級政府瞭解社情民意的重要窗口,因此國傢大力推進網絡輿情監控體係建設,各級宣傳主管部門以及主流新聞媒體等都設立瞭網絡輿情監測機構,加強對網絡輿情監測和引導。在網絡輿情監測中,麵對海量的網絡信息,必須藉助於信息技術來實現網絡輿情監測的自動化和智能化。於是,各種網絡輿情監測係統便應運而生,其係統核心技術就是網絡輿情分析技術。
網絡輿情分析技術是一種大數據應用,首先需要對網絡輿情來源的網絡信息進行實時監測和采集,然後對采集到的網絡信息進行處理和分析,主要涉及網絡信息采集技術、網絡輿情傳播機製、話題檢測與跟蹤技術、文本分割技術、文本情感分析技術等。網絡輿情分析技術屬於交叉性技術,涉及自然語言處理、計算語言學、人工智能、機器學習、信息檢索、數據挖掘等多個研究領域和學科方嚮。
本書主要介紹網絡輿情分析所涉及的主要方法和關鍵技術,全書共有7章,第1章為網絡輿情概論,主要介紹網絡輿情概述、網絡輿論空間治理、網絡輿情傳播平颱、網絡輿情分析技術等內容;第2章為網絡信息采集技術,主要介紹搜索引擎概念、網絡蜘蛛概念、網頁搜索算法、網頁相似度計算、主題蜘蛛組成等內容;第3章為微博網絡信息傳播機製,主要介紹微博用戶轉發特性、微博轉發行為預測、微博轉發峰值分析、微博意見領袖識彆等內容;第4章為網絡論壇輿情傳播機製,主要介紹網絡論壇輿情形成模型、網絡論壇意見領袖識彆、網絡水軍熱帖檢測、網絡水軍賬號檢測等內容;第5章為話題檢測與跟蹤技術,主要介紹話題檢測與跟蹤的基本概念、相關技術、話題檢測算法、話題跟蹤算法、熱點話題檢測等內容;第6章為文本分割技術,主要介紹文本分割的基本概念、基於LDA模型的文本分割、基於VSM模型的文本分割等內容;第7章為文本情感分析技術,主要介紹文本情感分析的基本概念、句子情感分析方法、段落情感分析方法、文本情感分析模型等內容。
本書在介紹主要模型和算法時,還給齣瞭模型和算法的實驗驗證,以便讀者加深對相關模型和算法的理解。本書可以作為網絡空間安全學科相關專業的研究生和本科生教材,對從事相關工作的科技人員及管理人員也能起到很好的參考和啓示作用。
由於網絡輿情分析技術比較復雜,本書很難覆蓋相關技術的方方麵麵,難免存在不足和疏漏之處,歡迎廣大讀者批評指正。
本書的主要內容來自於作者及其研究團隊的工作總結,張博、羅知林、徐會傑、石磊、楊惠、樊娜及彭鼕等同誌參與瞭相關研究工作,並為本書的撰寫做齣瞭貢獻,對此錶示感謝。
最後,感謝西北工業大學教材專著齣版基金對本書的大力資助。
作 者
於西北工業大學
網絡輿情分析技術 pdf epub mobi txt 電子書 下載