內容簡介
本書係統介紹瞭語音信號處理的基礎、原理、方法、應用、新理論、新成果與新技術,以及該研究領域的背景知識、研究現狀、應用前景和發展趨勢。
全書分三篇共17章。第一篇語音信號處理基礎,包括第1章緒論,第2章語音信號處理的基礎知識;第二篇語音信號分析,包括第3章時域分析,第4章短時傅裏葉分析,第5章倒譜分析與同態濾波,第6章綫性預測分析,第7章語音信號的非綫性分析,第8章語音特徵參數檢測與估計,第9章矢量量化,第10章隱馬爾可夫模型;第三篇語音信號處理技術與應用,包括第11章語音編碼,第12章語音閤成,第13章語音識彆,第14章說話人識彆和語種辨識,第15章智能信息處理技術在語音信號處理中的應用,第16章語音增強,第17章基於麥剋風陣列的語音信號處理。
本書體係完整,結構嚴謹;係統性強,層次分明;內容深入淺齣,原理闡述透徹;取材廣泛,繁簡適中;內容豐富而新穎;聯係實際應用。
作者簡介
鬍航,博士,哈爾濱工業大學電子信息學院副教授,主要教授《信號與係統》、《數字信號處理》等課程,研究方嚮為現代語音信號處理。
目錄
目 錄
第一篇 語音信號處理基礎
第1章 緒論 1
1.1 語音信號處理的發展曆史 1
1.2 語音信號處理的主要研究內容及發展
概況 3
1.3 本書的內容 7
思考與復習題 8
第2章 語音信號處理的基礎知識 9
2.1 概述 9
2.2 語音産生的過程 9
2.3 語音信號的特性 12
2.3.1 語言和語音的基本特性 12
2.3.2 語音信號的時間波形和頻譜特性 13
2.3.3 語音信號的統計特性 15
2.4 語音産生的綫性模型 16
2.4.1 激勵模型 17
2.4.2 聲道模型 18
2.4.3 輻射模型 20
2.4.4 語音信號數字模型 21
2.5 語音産生的非綫性模型 22
2.5.1 FM-AM模型的基本原理 22
2.5.2 Teager能量算子 22
2.5.3 能量分離算法 23
2.5.4 FM-AM模型的應用 24
2.6 語音感知 24
2.6.1 聽覺係統 24
2.6.2 神經係統 25
2.6.3 語音感知 26
思考與復習題 29
第二篇 語音信號分析
第3章 時域分析 30
3.1 概述 30
3.2 數字化和預處理 31
3.2.1 取樣率和量化字長的選擇 31
3.2.2 預處理 33
3.3 短時能量分析 34
3.4 短時過零分析 36
3.5 短時相關分析 39
3.5.1 短時自相關函數 39
3.5.2 修正的短時自相關函數 40
3.5.3 短時平均幅差函數 42
3.6 語音端點檢測 42
3.6.1 雙門限前端檢測 43
3.6.2 多門限過零率前端檢測 43
3.6.3 基於FM-AM模型的端點檢測 43
3.7 基於高階纍積量的語音端點檢測 44
3.7.1 噪聲環境下的端點檢測 44
3.7.2 高階纍積量與高階譜 44
3.7.3 基於高階纍積量的端點檢測 46
思考與復習題 48
第4章 短時傅裏葉分析 50
4.1 概述 50
4.2 短時傅裏葉變換 50
4.2.1 短時傅裏葉變換的定義 50
4.2.2 傅裏葉變換的解釋 51
4.2.3 濾波器的解釋 54
4.3 短時傅裏葉變換的取樣率 55
4.4 語音信號的短時綜閤 56
4.4.1 濾波器組求和法 56
4.4.2 FFT求和法 58
4.5 語譜圖 59
思考與復習題 61
第5章 倒譜分析與同態濾波 62
5.1 概述 62
5.2 同態信號處理的基本原理 62
5.3 復倒譜和倒譜 63
5.4 語音信號兩個捲積分量復倒譜的性質 64
5.4.1 聲門激勵信號 64
5.4.2 聲道衝激響應序列 65
5.5 避免相位捲繞的算法 66
5.5.1 微分法 67
5.5.2 最小相位信號法 67
5.5.3 遞推法 69
5.6 語音信號復倒譜分析實例 70
5.7 Mel頻率倒譜係數 72
思考與復習題 73
第6章 綫性預測分析 74
6.1 概述 74
6.2 綫性預測分析的基本原理 74
6.2.1 基本原理 74
6.2.2 語音信號的綫性預測分析 75
6.3 綫性預測方程組的建立 76
6.4 綫性預測分析的解法(1)―自相關和
協方差法 77
6.4.1 自相關法 78
6.4.2 協方差法 79
6.4.3 自相關和協方差法的比較 80
6.5 綫性預測分析的解法(2)―格型法 81
6.5.1 格型法基本原理 81
6.5.2 格型法的求解 83
6.6 綫性預測分析的應用―LPC譜估計和
LPC復倒譜 85
6.6.1 LPC譜估計 85
6.6.2 LPC復倒譜 87
6.6.3 LPC譜估計與其他譜分析方法的
比較 88
6.7 綫譜對(LSP)分析 89
6.7.1 綫譜對分析原理 89
6.7.2 綫譜對參數的求解 91
6.8 極零模型 91
思考與復習題 93
第7章 語音信號的非綫性分析 94
7.1 概述 94
7.2 時頻分析 94
7.2.1 短時傅裏葉變換的局限 95
7.2.2 時頻分析 96
7.3 小波分析 97
7.3.1 概述 97
7.3.2 小波變換的定義 97
7.3.3 典型的小波函數 99
7.3.4 離散小波變換 100
7.3.5 小波多分辨分析與Mallat算法 100
7.4 基於小波的語音分析 101
7.4.1 語音分解與重構 101
7.4.2 清/濁音判斷 102
7.4.3 語音去噪 102
7.4.4 聽覺係統模擬 103
7.4.5 小波包變換在語音端點檢測中的
應用 103
7.5 混沌與分形 104
7.6 基於混沌的語音分析 105
7.6.1 語音信號的混沌性 105
7.6.2 語音信號的相空間重構 106
7.6.3 語音信號的Lyapunov指數 108
7.6.4 基於混沌的語音、噪聲判彆 109
7.7 基於分形的語音分析 110
7.7.1 概述 110
7.7.2 語音信號的分形特徵 111
7.7.3 基於分形的語音分割 112
思考與復習題 113
第8章 語音特徵參數估計 114
8.1 基音估計 114
8.1.1 自相關法 115
8.1.2 並行處理法 117
8.1.3 倒譜法 118
8.1.4 簡化逆濾波法 120
8.1.5 高階纍積量法 122
8.1.6 小波變換法 123
8.1.7 基音檢測的後處理 124
8.2 共振峰估計 125
8.2.1 帶通濾波器組法 125
8.2.2 DFT法 126
8.2.3 倒譜法 127
8.2.4 LPC法 129
8.2.5 FM-AM模型法 130
思考與復習題 131
第9章 矢量量化 132
9.1 概述 132
9.2 矢量量化的基本原理 133
9.3 失真測度 134
9.3.1 歐氏距離―均方誤差 135
9.3.2 LPC失真測度 135
9.3.3 識彆失真測度 137
9.4 最佳矢量量化器和碼本的設計 137
9.4.1 矢量量化器最佳設計的兩個條件 137
9.4.2 LBG算法 138
9.4.3 初始碼書生成 138
9.5 降低復雜度的矢量量化係統 139
9.5.1 無記憶的矢量量化係統 140
9.5.2 有記憶的矢量量化係統 142
9.6 語音參數的矢量量化 144
9.7 模糊矢量量化 145
9.7.1 模糊集概述 146
9.7.2 模糊矢量量化 147
9.8 遺傳矢量量化 148
9.8.1 遺傳算法 148
9.8.2 遺傳矢量量化 150
思考與復習題 151
第10章 隱馬爾可夫模型 152
10.1 概述 152
10.2 隱馬爾可夫模型的引入 153
10.3 隱馬爾可夫模型的定義 155
10.4 隱馬爾可夫模型三個問題的求解 156
10.4.1 概率的計算 157
10.4.2 HMM的識彆 159
10.4.3 HMM的訓練 160
10.4.4 EM算法 161
10.5 HMM的選取 162
10.5.1 HMM的類型選擇 162
10.5.2 輸齣概率分布的選取 163
10.5.3 狀態數的選取 163
10.5.4 初值選取 163
10.5.5 訓練準則的選取 165
10.6 HMM應用與實現中的一些問題 166
10.6.1 數據下溢 166
10.6.2 多輸齣(觀察矢量序列)情況 166
10.6.3 訓練數據不足 167
10.6.4 考慮狀態持續時間的HMM 168
10.7 HMM的結構和類型 170
10.7.1 HMM的結構 170
10.7.2 HMM的類型 172
10.7.3 按輸齣形式分類 173
10.8 HMM的相似度比較 174
思考與復習題 175
第三篇 語音信號處理技術與應用
第11章 語音編碼 176
11.1 概述 176
11.2 語音信號的壓縮編碼原理 178
11.2.1 語音壓縮的基本原理 178
11.2.2 語音通信中的語音質量 179
11.2.3 兩種壓縮編碼方式 180
11.3 語音信號的波形編碼 180
11.3.1 PCM及APCM 180
11.3.2 預測編碼及自適應預測編碼 183
11.3.3 ADPCM及ADM 185
11.3.4 子帶編碼(SBC) 187
11.3.5 自適應變換編碼(ATC) 189
11.4 聲碼器 191
11.4.1 概述 191
11.4.2 聲碼器的基本結構 192
11.4.3 通道聲碼器 192
11.4.4 同態聲碼器 194
11.5 LPC聲碼器 195
11.5.1 LPC參數的變換與量化 196
11.5.2 LPC-10 197
11.5.3 LPC-10e 198
11.5.4 變幀率LPC聲碼器 199
11.6 各種常規語音編碼方法的比較 200
11.6.1 波形編碼的信號壓縮技術 200
11.6.2 波形編碼與聲碼器的比較 200
11.6.3 各種聲碼器的比較 201
11.7 基於LPC模型的混閤編碼 201
11.7.1 混閤編碼采用的技術 202
11.7.2 MPLPC 204
11.7.3 RPELPC 207
11.7.4 CELP 209
11.7.5 CELP的改進形式 211
11.7.6 基於分形碼本的CELP 213
11.8 基於正弦模型的混閤編碼 214
11.8.1 正弦變換編碼 215
11.8.2 多帶激勵(MBE)編碼 215
11.9 極低速率語音編碼 217
11.9.1 400~1.2kb/s數碼率的聲碼器 217
11.9.2 識彆-閤成型聲碼器 218
11.10 語音編碼的性能指標 219
11.11 語音編碼的質量評價 221
11.11.1 主觀評價方法 221
11.11.2 客觀評價方法 222
11.11.3 主客觀評價方法的結閤 225
11.11.4 基於多重分形的語音質量評價 226
11.12 語音編碼國際標準 227
11.13 語音編碼與圖像編碼的關係 228
小結 229
思考與復習題 229
第12章 語音閤成 231
12.1 概述 231
12.2 語音閤成原理 232
12.2.1 語音閤成的方法 232
12.2.2 語音閤成的係統特性 234
12.3 共振峰閤成 235
12.3.1 共振峰閤成原理 235
12.3.2 共振峰閤成實例 237
12.4 LPC閤成 237
12.5 PSOLA語音閤成 239
12.5.1 概述 239
12.5.2 PSOLA的原理 240
12.5.3 PSOLA的實現 240
12.5.4 PSOLA的改進 242
12.5.5 PSOLA語音閤成係統的發展 243
12.6 文語轉換係統 243
12.6.1 組成與結構 243
12.6.2 文本分析 244
12.6.3 韻律控製 245
12.6.4 語音閤成 248
12.6.5 TTS係統的一些問題 248
12.7 基於HMM的參數化語音閤成 249
12.8 語音閤成的研究現狀和發展趨勢 253
12.9 語音閤成硬件簡介 255
思考與復習題 256
第13章 語音識彆 257
13.1 概述 257
13.2 語音識彆原理 260
13.3 動態時間規整 264
13.4 基於有限狀態矢量量化的語音識彆 266
13.5 孤立詞識彆係統 267
13.6 連接詞識彆 270
13.6.1 基本原理 270
13.6.2 基於DTW的連接詞識彆 271
13.6.3 基於HMM的連接詞識彆 273
13.6.4 基於分段K-均值的最佳詞串分割及
模型訓練 273
13.7 連續語音識彆 274
13.7.1 連續語音識彆存在的睏難 274
13.7.2 連續語音識彆的訓練及識彆方法 275
13.7.3 連續語音識彆的整體模型 276
13.7.4 基於HMM統一框架的大詞匯非特定
人連續語音識彆 277
13.7.5 聲學模型 278
13.7.6 語言學模型 280
13.7.7 最優路徑搜索 282
13.8 說話人自適應 284
13.8.1 MAP算法 285
13.8.2 基於變換的自適應方法 285
13.8.3 基於說話人分類的自適應方法 286
13.9 魯棒的語音識彆 287
13.10 關鍵詞確認 289
13.11 可視語音識彆 291
13.11.1 概述 291
13.11.2 機器自動唇讀 291
13.11.3 雙模態語音識彆 293
13.12 語音理解 296
13.12.1 MAP語義解碼 297
13.12.2 語義結構的錶示 297
13.12.3 意圖解碼器 298
小結 299
思考與復習題 299
第14章 說話人識彆 300
14.1 概述 300
14.2 特徵選取 301
14.2.1 說話人識彆所用的特徵 301
14.2.2 特徵類型的優選準則 302
14.2.3 常用的特徵參數 303
14.3 說話人識彆係統 303
14.3.1 說話人識彆係統的結構 303
14.3.2 說話人識彆的基本方法概述 304
14.4 說話人識彆係統實例 305
14.4.1 DTW型說話人識彆係統 305
14.4.2 應用VQ的說話人識彆係統 306
14.5 基於HMM的說話人識彆 307
14.6 基於GMM的說話人識彆 310
14.7 說話人識彆中需進一步研究的問題 312
14.8 語種辨識 313
思考與復習題 316
第15章 智能信息處理技術在語音信號
處理中的應用 317
15.1 人工神經網絡 317
15.1.1 概述 317
15.1.2 神經網絡的基本概念 319
15.2 神經網絡的模型結構 320
15.2.1 單層感知機 320
15.2.2 多層感知機 321
15.2.3 自組織映射神經網絡 323
15.2.4 時延神經網絡 324
15.2.5 循環神經網絡 325
15.3 神經網絡與傳統方法的結閤 325
15.3.1 概述 325
15.3.2 神經網絡與DTW 326
15.3.3 神經網絡與VQ 326
15.3.4 神經網絡與HMM 327
15.4 神經網絡語音識彆 328
15.4.1 靜態語音識彆 328
15.4.2 連續語音識彆 330
15.5 基於神經網絡的說話人識彆 330
15.6 基於神經網絡的語音信號非綫性預測
編碼 332
15.6.1 語音信號的非綫性預測 332
15.6.2 基於MLP的非綫性預測編碼 333
15.6.3 基於RNN的非綫性預測編碼 334
15.7 基於神經網絡的語音閤成 335
15.8 支持嚮量機 336
15.8.1 概述 336
15.8.2 支持嚮量機的基本原理 337
15.9 基於支持嚮量機的語音分類識彆 339
15.10 基於支持嚮量機的說話人識彆 340
15.10.1 基於支持嚮量機的說話人辨認 340
15.10.2 基於支持嚮量機的說話人確認 340
15.11 基於混沌神經網絡的語音識彆 342
15.11.1 混沌神經網絡 342
15.11.2 基於混沌神經網絡的語音識彆 342
15.12 分形在語音識彆中的應用 344
15.13 智能優化算法在語音信號處理中的
應用 344
15.14 各種智能信息處理技術的融閤與
集成 346
15.14.1 模糊係統與神經網絡的融閤 347
15.14.2 神經網絡與遺傳算法的融閤 347
15.14.3 模糊邏輯、神經網絡及遺傳算法的
融閤 348
15.14.4 神經網絡、模糊邏輯及混沌的
融閤 349
15.14.5 混沌與遺傳算法的融閤 349
思考與復習題 350
第16章 語音增強 351
16.1 概述 351
16.2 語音、人耳感知及噪聲的特性 352
16.3 濾波器法 354<
現代語音信號處理 下載 mobi epub pdf txt 電子書
評分
☆☆☆☆☆
性能好 價格優惠 物流快
評分
☆☆☆☆☆
OK
評分
☆☆☆☆☆
好期待,終於拿到書瞭,物流速度很快,開始繼續奮鬥學習。
評分
☆☆☆☆☆
書有些薄
評分
☆☆☆☆☆
幫人買的,幫人買的,幫人買的!
評分
☆☆☆☆☆
為瞭寫論文買的,結果越看越不會寫瞭
評分
☆☆☆☆☆
好裏格好好裏格好好裏格好好裏格好好裏格好好裏格好好裏格好好裏格好好裏格好好裏格好好裏格好好裏格好好裏格好好裏格好好裏格好好裏格好好裏格好好裏格好好裏格好好裏格好好裏格好好裏格好好裏格好
評分
☆☆☆☆☆
書有點皺瞭,另外怎麼自營商品也發貨這麼慢
評分
☆☆☆☆☆
內容有點點簡略,真的隻是點到為止