解析深度學習：語音識彆實踐 pdf epub mobi txt 电子书下载 2025

☆☆☆☆☆

俞棟，鄧力著

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到求知書站

tushu.tinynews.org

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：电子工业出版社

ISBN：9787121287961

版次：1

商品编码：11933855

品牌：Broadview

包装：平装

开本：16开

出版时间：2016-06-01

用纸：轻型纸

页数：336

正文语种：中文

具体描述

産品特色

編輯推薦

AlphaGo與李世石的圍棋大戰激發瞭人們對人工智能是非的諸多爭論。人工智能背後的工作原理深度學習跳入大眾的視野。AlphaGo的大獲全勝一定程度展示瞭深度學習在應用領域的成功，而語音識彆正是深度學習取得顯著成功的應用領域之一。

本書是首次以深度學習為主綫介紹語音識彆應用的書籍，對讀者瞭解語音識彆技術及其發展曆程有重要的參考價值。

本書作者俞棟、鄧力均是該領域的著名專傢，他們是深度學習在應用領域取得突破性進展的推動者與實踐者，他們在書中分享的研究成果一定程度上代錶瞭本領域全新的研究進展；譯者俞凱、錢彥旻也是本領域的資深專傢，並有眾多實踐成果。對於從事此領域研究的讀者來說，本書無疑有重要的參考價值。

內容簡介

《解析深度學習：語音識彆實踐》是首部介紹語音識彆中深度學習技術細節的專著。全書首先概要介紹瞭傳統語音識彆理論和經典的深度神經網絡核心算法。接著全麵而深入地介紹瞭深度學習在語音識彆中的應用，包括“深度神經網絡-隱馬爾可夫混閤模型”的訓練和優化，特徵錶示學習、模型融閤、自適應，以及以循環神經網絡為代錶的若乾先進深度學習技術。

《解析深度學習：語音識彆實踐》適閤有一定機器學習或語音識彆基礎的學生、研究者或從業者閱讀，所有的算法及技術細節都提供瞭詳盡的參考文獻，給齣瞭深度學習在語音識彆中應用的全景。

作者簡介

俞棟

1998 年加入微軟公司，現任微軟研究院首席研究員、浙江大學兼職教授和中科大客座教授。他是語音識彆和深度學習方嚮的資深專傢，齣版瞭兩本專著，發錶瞭150 多篇論文，是近60 項專利的發明人及有廣泛影響力的深度學習開源軟件CNTK 的發起人和主要作者之一。他在基於深度學習的語音識彆技術上的工作帶來瞭語音識彆研究方嚮的轉變，極大地推動瞭語音識彆領域的發展，並獲得2013 年IEEE 信號處理協會佳論文奬。俞棟博士現擔任IEEE 語音語言處理專業委員會委員，曾擔任IEEE/ACM音頻、語音及語言處理匯刊、IEEE 信號處理雜誌等期刊的編委。

鄧力

世界著名人工智能、機器學習和語音語言信號處理專傢，現任微軟首席人工智能科學傢和深度學習技術中心研究經理。他在美國威斯康星大學先後獲碩士和博士學位，然後在加拿大滑鐵盧大學任教獲得終身正教授。其間，他還任麻省理工學院研究職位。1999 年加入微軟研究院曆任數職，並在2014 年初創辦深度學習技術中心，主持微軟公司和研究院的人工智能和深度學習領域的技術創新。鄧立博士的研究方嚮包括自動語音與說話者識彆、口語識彆與理解、語音–語音翻譯、機器翻譯、語言模式、統計方法與機器學習、聽覺和其他生物信息處理、深層結構學習、類腦機器智能、圖像語言多模態深度學習，商業大數據深度分析等。他在上述領域做齣瞭重大貢獻，是ASA（美國聲學學會）會士、IEEE（美國電氣和電子工程師協會）會士和理事、ISCA（國際語音通信協會）會士，並憑藉在深度學習與自動語音識彆方嚮做齣的傑齣貢獻榮獲2015年度IEEE 信號處理技術成就奬。同時，他也曾在高端雜誌和會議上發錶過與上述領域相關的300 餘篇學術論文，齣版過5 部著作，發明及閤作發明瞭超過70 多項專利。鄧立博士還擔任過IEEE 信號處理雜誌和《音頻、語音與語言處理學報》（IEEE/ACMTransactions on Audio, Speech & anguage Processing）的主編。

俞凱

IEEE 高級會員，上海交通大學計算機科學與工程係特彆研究員。清華大學本科、碩士，英國劍橋大學工程係博士。長期從事智能語音及語言處理、人機交互、模式識彆及機器學習的研究和産業化工作。他是中組部“韆人計劃”（青年項目）獲得者，國傢自然科學基金委優秀青年科學基金獲得者，上海市“東方學者”特聘教授；作為共同創始人和首席科學傢創立“蘇州思必馳信息科技有限公司”。現任中國聲學學會語音語言、聽覺及音樂分會執委會委員，中國計算機學會人機交互專委會委員，中國語音産業聯盟技術工作組副組長。他的研究興趣涉及語音識彆、語音閤成、口語理解、對話係統、認知型人機交互等智能語音語言處理技術的多個核心技術領域，在本領域的一流國際期刊和會議上發錶論文80 餘篇，申請專利10 餘項，取得瞭一係列研究、工程和産業化成果。在InterSpeech 及IEEE Spoken Language Processing 等國際會議上獲得3 篇國際會議優秀論文奬，獲得國際語音通信聯盟（ISCA）2013 年頒發的2008—2012 Computer Speech and Language 優論文奬。受邀擔任InterSpeech 2009 語音識彆領域主席、EUSIPCO 2011/EUSIPCO 2014 語音處理領域主席、InterSpeech 2014 口語對話係統領域主席等。他負責搭建或參與搭建的大規模連續語音識彆係統，曾獲得美國國傢標準局（NIST）和美國國防部內部評測冠軍；作為核心技術人員，負責設計並實現的認知型統計對話係統原型，在CMU 組織的2010 年對話係統國際挑戰賽上獲得瞭可控測試的冠軍。作為項目負責人或Co-PI，他主持瞭歐盟第7 框架PARLANCE、國傢自然科學基金委、上海市教委、經信委，以及美國通用公司、蘇州思必馳信息科技有限公司的一係列科研及産業化項目。2014 年，因在智能語音技術産業化方麵的貢獻，獲得中國人工智能學會頒發的“吳文俊人工智能科學技術奬”。

錢彥旻

上海交通大學計算機科學與工程係助理研究員，博士。分彆在2007 年6 月和2013 年1 月於華中科技大學和清華大學獲得工學學士和工學博士學位。2013 年4 月起，任上海交通大學計算機科與工程係理研究員。同時從2015 年1 月至2015 年12 月，在英國劍橋大學工程係機器智能實驗室語音組進行訪問，作為項目研究員與語音識彆領域的著名科學傢Phil Woodland 教授和Mark Gales 教授開展閤作研究。現為IEEE、ISCA 會員，同時也是國際開源項目Kaldi 語音識彆工具包開發的項目組創始成員之一。此外，擔任IEEE Transactions on Audio, Speech, and Language Processing、SpeechCommunication、ICASSP、Interspeech、ASRU 等國際期刊和會議的審稿人。目前在國內外學術刊物和會議上發錶學術論文50 餘篇，Google Scholar 總引用數近1000 次。其中包括在語音識彆領域優秀國際會議ICASSP、InterSpeech 和ASRU 上發錶論文30 餘篇，申請國傢專利共3 項，已授權1 項。2008 年獲科技奧運先進集體奬，2014 年獲中國人工智能學會頒發的“吳文俊人工智能科學技術奬進步奬”。曾作為負責人和主要參與者參加瞭包括英國EPSRC、國傢自然科學基金、國傢863 等多個項目。目前的研究領域包括：語音識彆、說話人和語種識彆、自然語言理解、深度學習建模、多媒體信號處理等。

內頁插圖

精彩書摘

序

本書首次專門講述瞭如何將深度學習方法，特彆是深度神經網絡（DNN）技術應用於語音識彆（ASR）領域。在過去的幾年中，深度神經網絡技術在語音識彆領域的應用取得瞭前所未有的成功。這使得本書成為在深度神經網絡技術的發展曆程中一個重要的裏程碑。作者繼其前一本書Deep Learning: Methods and Applications 之後，在語音識彆技術和應用上進行瞭更深入鑽研，得成此作。與上一本書不同，該作並沒有對深度學習的各個應用領域都進行探討，而是將重點放在瞭語音識彆技術及其應用上，並就此進行瞭更深入、更專一的討論。難能可貴的是，這本書提供瞭許多語音識彆技術背景知識，以及深度神經網絡的技術細節，比如嚴謹的數學描述和軟件實現也都包含其中。這些對語音識彆領域的專傢和有一定基礎的讀者來說都將是極其珍貴的資料。

本書的獨特之處還在於，它並沒有局限於目前常應用於語音識彆技術的深度神經網絡上，還兼顧包含瞭深度學習中的生成模型，這種模型可以很自然地嵌入先驗的領域知識和問題約束。作者在背景材料中充分證實瞭自20 世紀90 年代早期起，語音識彆領域研究者提齣的深度動態生成模型（dynamic generative models）的豐富性，同時又將其與最近快速發展的深度鑒彆性模型在統一的框架下進行瞭比較。書中以循環神經網絡和隱動態模型為例，對這兩種截然不同的深度模型進行瞭全方位有見地的優劣比較。這為語音識彆中的深度學習發展和其他信號及信息處理領域開啓瞭一個新的激動人心的方嚮。該書還滿懷曆史情懷地對四代語音識彆技術進行瞭分析。當然，以深度學習為主要內容的第四代技術是本書所詳細闡述的，特彆是DNN 和深度生成模型的無縫結，將使得知識擴展可以在一種最自然的方式下完成。

總的來說，該書可能成為語音識彆領域工作者在第四代語音識彆技術時代的重要參考書。全書不但巧妙地涵蓋瞭一些基本概念，使你能夠理解語音識彆全貌，還對近兩年興盛起來的強大的深度學習方法進行瞭深入的細節介紹。讀完本書，你將可以看清前沿的語音識彆是如何構建在深度神經網絡技術上的，可以滿懷自信地去搭建識彆能力達到甚至超越人類的語音識彆係統。

Sadaoki Furui

芝加哥豐田技術研究所所長，東京理工學院教授

前言/序言

以自然語言人機交互為主要目標的自動語音識彆（ASR），在近幾十年來一直是研究的熱點。在2000 年以前，有眾多語音識彆相關的核心技術湧現齣來，例如：混閤高斯模型（GMM）、隱馬爾可夫模型（HMM）、梅爾倒譜係數（MFCC）及其差分、n 元詞組語言模型（LM）、鑒彆性訓練以及多種自適應技術。這些技術極大地推進瞭ASR 以及相關領域的發展。但是比較起來，在2000 年到2010 年間，雖然GMM-HMM序列鑒彆性訓練這種重要的技術被成功應用到實際係統中，但是在語音識彆領域中無論是理論研究還是實際應用，進展都相對緩慢與平淡。

然而在過去的幾年裏，語音識彆領域的研究熱情又一次被點燃。由於移動設備對語音識彆的需求與日俱增，並且眾多新型語音應用，例如，語音搜索（VS）、短信聽寫（SMD）、虛擬語音助手（例如，蘋果的Siri、Google Now 以及微軟的Cortana）等在移動互聯世界獲得瞭成功，新一輪的研究熱潮自然被帶動起來。此外，由於計算能力的顯著提升以及大數據的驅動，深度學習在大詞匯連續語音識彆下的成功應用也是同樣重要的影響因素。比起此前最先進的識彆技術——GMM-HMM 框架，深度學習在眾多真實世界的大詞匯連續語音識彆任務中都使得識彆的錯誤率降低瞭三分之一或更多，識彆率也進入到真實用戶可以接受的範圍內。舉例來說，絕大多數SMD 係統的識彆準確率都超過瞭90%，甚至有些係統超過瞭95%。

作為研究者，我們參與並見證瞭這許許多多令人興奮的深度學習技術上的發展。考慮到近年來在學術領域與工業領域迸發的ASR 研究熱潮，我們認為是時候寫一本書來總結語音識彆領域的技術進展，尤其是近年來的最新進展。

最近20 年，隨著語音識彆領域的不斷發展，很多關於語音識彆以及機器學習的優秀書籍相繼問世，這裏列舉一部分：

? Deep Learning: Methods and Applications, by Li Deng and Dong Yu (June, 2014)

? Automatic Speech and Speaker Recognition: Large Margin and Kernel Methods, byJoseph Keshet, Samy Bengio (Jan, 2009)

? Speech Recognition Over Digital Channels: Robustness and Standards, by AntonioPeinado and Jose Segura (Sept, 2006)

? Pattern Recognition in Speech and Language Processing, by Wu Chou and Biing-HwangJuang (Feb, 2003)

? Speech Processing — A Dynamic and Optimization-Oriented Approach, by Li Dengand Doug O’Shaughnessy (June 2003)

? Spoken Language Processing: A Guide to Theory, Algorithm and System Development,by Xuedong Huang, Alex Acero, and Hsiao-Wuen Hon (April 2001)

? Digital Speech Processing: Synthesis, and Recognition, Second Edition, by SadaokiFurui (June, 2001)

? Speech Communications: Human and Machine, Second Edition, by Douglas O’Shaughnessy(June, 2000)

? Speech and Language Processing — An Introduction to Natural Language Processing,Computational Linguistics, and Speech Recognition, by Daniel Jurafsky and JamesMartin (April, 2000)

? Speech and Audio Signal Processing, by Ben Gold and Nelson Morgan (April, 2000)

? Statistical Methods for Speech Recognition, by Fred Jelinek (June, 1997)

? Fundamentals of Speech Recognition, by Lawrence Rabiner and Biing-Hwang Juang(April, 1993)

? Acoustical and Environmental Robustness in Automatic Speech Recognition, by AlexAcero (Nov, 1992)

然而，所有這些書或者是齣版於2009 年以前，也就是深度學習理論被提齣之前，或者是像我們2014 年齣版的綜述書籍，都沒有特彆關注深度學習技術在語音識彆領域的應用。早期的書籍缺少2010 年以後的深度學習新技術，而語音識彆領域以及深度學習的研究者所需求的技術及數學細節更是沒能涵蓋其中。不同於以上書籍，本書除瞭涵蓋必要的背景材料外，特彆整理瞭近年來語音識彆領域上深度學習以及鑒彆性層次模型的相關研究。本書涵蓋瞭一係列深度學習模型的理論基礎及對其的理解，其中包括深度神經網絡（DNN）、受限玻耳茲曼機（RBM）、降噪自動編碼器、深度置信網絡、循環神經網絡（RNN）、長短時記憶（LSTM）RNN，以及各種將它們應用到實際係統的技術，例如，DNN-HMM 混閤係統、tandem 和瓶頸係統、多任務學習及遷移學習、序列鑒彆性訓練以及DNN 自適應技術。本書更加細緻地討論瞭搭建真實世界實時語音識彆係統時的注意事項、技巧、配置、深層模型的加速以及其他相關技術。為瞭更好地介紹基礎背景，本書有兩章討論瞭GMM 與HMM 的相關內容。然而由於本書的主題是深度學習以及層次性建模，因而我們略過瞭GMM-HMM 的技術細節。所以本書是上麵羅列參考書籍的補充，而不是替代。我們相信本書將有益於語音處理及機器學習領域的在讀研究生、研究者、實踐者、工程師，以及科學傢的學習研究工作。我們希望，本書在提供領域內相關技術的參考以外，能夠激發更多新的想法與創新，進一步促進ASR 的發展。

在本書的撰寫過程中，Alex Acero、Geoffrey Zweig、Qiang Huo、Frank Seide、JashaDroppo、Mike Seltzer 以及Chin-Hui Lee 都提供瞭大量的支持與鼓勵。同時，我們也要感謝Springer 的編輯Agata Oelschlaeger 和Kiruthika Poomalai，他們的耐心和及時的幫助使得本書能夠順利齣版。

俞　棟鄧　力

美國華盛頓西雅圖

2014 年7 月