多媒體技術基礎(第4版)（清華大學計算機係列教材） pdf epub mobi txt 电子书下载 2025

☆☆☆☆☆

林福宗著

圖書標籤:

多媒體技術
多媒體基礎
計算機教材
清華大學
第4版
數字媒體
圖像處理
音頻處理
視頻處理
計算機科學

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到求知書站

tushu.tinynews.org

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：清华大学出版社

ISBN：9787302454717

版次：4

商品编码：12102015

包装：平装

开本：16开

出版时间：2017-06-01

用纸：胶版纸

页数：741

字数：1209000

正文语种：中文

具体描述

編輯推薦

　　本版教材係統介紹瞭多媒體係統的核心技術，在內容上力求選用相對成熟和實用的新技術，在技術原理闡述和解釋上力求清楚準確。為保持多媒體技術基礎教材內容的係統性和完整性，本教材不免與其他學科教材有交集。此外，教材中包含許多技術背景和技術細節，目的是為更好地理解技術原理，細節也反映理解的深淺。在上述思想指導下，使本教材的篇幅比較大，但還是比國外同類教材的篇幅小很多。

　　每章均附有練習和思考題，用於輔助讀者掌握本章的要點；每章內容的來源都列齣瞭參考文獻和站點，讀者可用於加深對教材內容的理解和擴大知識麵。

內容簡介

《多媒體技術基礎》第4版教材在第3版的基礎上，對教材內容做瞭較大幅度的增減。從多媒體係統角度齣發，本版教材分成三個部分: (1)多媒體壓縮和編碼(第2～14章)，介紹文字、聲音、圖像和數字電視媒體的基本知識、壓縮和編碼方法； (2)多媒體光盤存儲技術(第15～17章)，介紹CD、DVD、HD�睤VD和藍光盤的存儲原理和存儲格式； (3)多媒體網絡(第18～32章)，以多媒體網絡應用和服務質量(QoS)為中心，介紹計算機網絡的互聯、寬帶(有綫、無綫和移動)接入因特網的基礎知識。每章均附有練習和思考題，用於輔助讀者掌握本章的要點；每章內容的來源都列齣瞭參考文獻和站點，讀者可用於加深對教材內容的理解和擴大知識麵。

作者簡介

林福宗清華大學計算機科學與技術係退休教授，1970年畢業於清華大學自動控製係，留校工作直至退休。從1989年開始對多媒體産生興趣，其後一直從事多媒體技術基礎的教學和應用研究，曾編寫並在清華大學齣版社齣版《英漢多媒體技術辭典》、《多媒體技術基礎》教材等圖書。

第1章多媒體技術概要

第一部分多媒體壓縮和編碼
第2章字符編碼與字體
第3章數據無損壓縮
第4章數字語音編碼
第5章彩色數字圖像基礎
第6章小波與小波變換
第7章小波圖像編碼
第8章顔色度量體係
第9章顔色空間轉換
第10章數字電視基礎
第11章 MPEG介紹
第12章 MPEG視像
第13章 H.264/AVC與H.265/HEVC
第14章 MPEG聲音

第二部分多媒體光盤存儲技術
第15章光盤存儲技術
第16章光盤存儲格式
第17章錯誤檢測和糾正

第三部分多媒體網絡
第18章多媒體網絡介紹
第19章計算機網絡的概念與模型
第20章互聯網上的地址
第21章應用層技術
第22章傳輸層技術
第23章網絡層技術
第24章鏈路層技術
第25章物理層技術
第26章擴譜技術
第27章多路復用與多址接入
第28章有綫寬帶接入
第29章無綫寬帶接入
第30章移動寬帶接入
……

精彩書摘

　　第5章彩色數字圖像基礎

　　圖像是多媒體中攜帶信息的極其重要的媒體，有人發錶過統計資料，認為人們獲取的信息的70％來自視覺係統。由於圖像數字化之後的數據量非常大，在因特網上傳輸時很費時間，在盤上存儲時很占“地盤”，因此就必須要對圖像數據進行壓縮。壓縮的目的就是要滿足存儲容量和傳輸帶寬的要求，而付齣的代價則是大量的計算。幾十年來，許多科技工作者一直在孜孜不倦地尋找更有效的方法，用比較少的數據量錶達原始的圖像。

　　圖像數據壓縮主要是根據下麵兩個基本事實來實現的。一個事實是圖像數據中有許多重復的數據，使用數學方法來錶示這些重復數據可減少數據量；另一個事實是人的眼睛對圖像細節和顔色的辨認有一個極限，把超過極限的部分去掉，也就達到壓縮數據的目的。利用前一個事實的壓縮技術是無損數據壓縮技術，利用後一個事實的壓縮技術是有損數據壓縮技術。實際的圖像壓縮是綜閤使用各種有損和無損數據壓縮技術來實現的。

　　本章將介紹錶示數字彩色圖像所需要的基本知識、使用得相當廣泛的JPEG壓縮標準和圖像文件的存儲格式。在介紹過程中，要涉及有關顔色的度量和顔色空間的轉換問題，這些比較深入的問題將在第8章“顔色度量體係”和第9章“顔色空間轉換”中介紹。

　　5.1視覺係統對顔色的感知

　　顔色是視覺係統對可見光的感知結果。可見光是波長在380～780nm之間的電磁波，我們看到的大多數光不是一種波長的光，而是由許多不同波長的光組閤成的。人們在研究眼睛對顔色的感知過程中普遍認為，人的視網膜有對紅、綠、藍顔色敏感程度不同的三種錐體細胞，另外還有一種在光功率極端低的條件下纔起作用的杆狀體細胞，因此顔色隻存在於眼睛和大腦。在計算機圖像處理中，杆狀細胞還沒有扮演什麼角色。

　　人的視覺係統對顔色的感知可歸納齣如下幾個特性:

　　(1)眼睛本質上是一個照相機。視網膜(humanretina)通過神經元來感知外部世界的顔色，每個神經元是一個對顔色敏感的錐體(cone)或是一個對顔色不敏感的杆狀體(rod)。

　　(2)紅、綠和藍三種錐體細胞對不同頻率的光的感知程度不同，對不同亮度的感知程度也不同。這就意味著，人們可以使用數字圖像處理技術來降低錶示圖像的數據量，而不使人感到圖像質量有明顯下降。

　　(3)自然界中的任何一種顔色都可以由R、G、B這三種顔色值之和來確定，它們構成一個三維的RGB矢量空間。這就是說，R、G、B的數值不同，混閤得到的顔色就不同，也就是光波的波長不同。

　　5.2圖像的顔色模型

　　在文獻和教材中，用於描述顔色的常用詞有兩個:顔色模型和顔色空間。顔色模型(colormodel)是用數值指定顔色的方法，顔色空間(colorspace)是用空間中點的集閤描述顔色的方法，它們互為同義詞。RGB和CMYK是計算機係統使用最廣泛的兩個顔色模型。

　　5.2.1顯示彩色圖像用RGB相加混色模型

　　一個能發齣光波的物體稱為有源物體，它的顔色由該物體發齣的光波決定，並且使用RGB相加混色模型。電視機和計算機顯示器使用的陰極射綫管(CathodeRayTube，CRT)就是一個有源物體。CRT使用3個電子槍分彆産生紅(red)、綠(green)和藍(blue)三種波長的光，並以各種不同的相對強度綜閤起來産生顔色，如圖5��1(a)所示。雖然當今的電視機和計算機顯示器幾乎都使用彩色LED顯示器，但生成顔色的原理與陰極射綫管(CRT)類似。

　　組閤這三種光波來産生特定顔色的方法叫作相加混色法(additivecolormixture)，因為這種相加混色是利用R、G和B顔色分量産生顔色，故稱為RGB相加混色模型。相加混色是計算機應用中定義顔色的基本方法。

　　從理論上講，任何一種顔色都可用三種基本顔色按不同的比例混閤得到。三種顔色的光強越強，到達我們眼睛的光就越多，它們的比例不同，我們看到的顔色也就不同。沒有光到達眼睛，就是一片漆黑。當三基色按不同強度相加時，總的光強增強，並可得到任何一種顔色。某一種顔色和這三種顔色之間的關係可用下麵的式子來描述:

　　顔色＝R(紅色的百分比)＋G(綠色的百分比)＋B(藍色的百分比)

　　當三基色等量相加時，得到白色；等量的紅綠相加而藍為0時得到黃色；等量的紅藍相加而綠為0時得到品紅色；等量的綠藍相加而紅為0時得到青色。這些三基色相加的結果如圖5��1(b)所示。

　　圖5��1顔色生成原理

　　一幅彩色圖像可以看成是由許多的點組成的，如圖5��2所示。圖像中的單個點稱為像素(pixel)，每個像素都有一個值，稱為像素值，它錶示特定顔色的強度。圖5��2一幅圖像由許多像素組成

　　一個像素值往往用R、G、B三個分量錶示。如果每個像素的三個顔色分量都用二進製的1位來錶示，那麼每個顔色的分量隻有“1”和“0”這兩個值，這也就是說，每個顔色分量的強度是100%或者是0%。在這種情況下，每個像素所顯示的顔色是8種可能的顔色之一，見錶5��1。

　　對於標準的電視圖形陣列(VideoGraphicsArray，VGA)適配卡的16種標準顔色，其對應的R、G、B值見錶5��2。在Microsoft公司的Windows操作係統中，用代碼0～15錶示。錶中的代碼1～6錶示的顔色比較暗，它們是用最大光強值的一半産生的顔色；9～15是用最大光強值産生的。錶5��1相加色RGB顔色RGB顔色000黑100紅001藍101品紅010綠110黃011青111白在錶5��2中，每種基色的強度是用8位錶示的，因此可産生224=16777216種顔色。但實際上要用1600多萬種顔色的場閤是很少的。在多媒體計算機中，除用RGB來錶示顔色外，還用色調�脖ズ投泉擦煉�(Hue�睸aturation�睱ightness，HSL)錶示。

　　在HSL模型中，H定義顔色的波長，稱為色調；S定義顔色的強度(intensity)，錶示顔色的深淺程度，稱為飽和度；L定義摻入的白光量，稱為亮度。用HSL錶示顔色的重要性，是因為它比較容易為畫傢所理解。若把S和L的值設置為1，當改變H時就是選擇不同的純顔色；減小飽和度S時，就可體現摻入白光的效果；降低亮度時，顔色就暗，相當於摻入黑色。因此在Windows附帶的畫圖軟件也用瞭HSL錶示法。錶5��216色VGA調色闆的值代碼RGBHSL相加色000016000黑(Black)10012816024060藍(Blue)2012808024060綠(Green)3012812812024060青(Cyan)412800024060紅(Red)5128012820024060品紅(Magenta)612812804024060褐色(DarkYellow)71921921921600180白(LightGray)81281281281600120深灰(DarkGray)900255160240120淡藍(LightBlue)100255080240120淡綠(LightGreen)110255255120240120淡青(LightCyan)12255000240120淡紅(LightRed)132550255200240120淡品紅(LightMagenta)14255255040240120黃(Yellow)152552552551600240高亮白(BrightWhite)5.2.2打印彩色圖像用CMY相減混色模型

　　一個不發光波的物體稱為無源物體，它的顔色由該物體吸收或者反射哪些光波決定，用CMY相減混色模型。用彩色墨水或顔料進行混閤，繪製的圖畫就是一種無源物體，用這種方法生成的顔色稱為相減色。從理論上說，任何一種顔色都可以用三種基本顔色的顔料按一定比例混閤得到。這三種顔色是青色(cyan)、圖5��3相減混色

　　品紅(magenta)和黃色(yellow)，通常寫成CMY，稱為CMY模型。用這種方法産生的顔色之所以稱為相減色，是因為它減少瞭為視覺係統識彆顔色所需要的反射光。

　　在相減混色中，當三基色等量相減時得到黑色；等量黃色(Y)和品紅(M)相減而青色(C)為0時，得到紅色(R)；等量青色(C)和品紅(M)相減而黃色(Y)為0時，得到藍色(B)；等量黃色(Y)和青色(C)相減而品紅(M)為0時，得到綠色(G)。三基色相減結果如圖5��3所示。

　　彩色打印機采用的就是這種原理，印刷彩色圖片也是采用這種原理。按每個像素每種顔色用1位錶示，相減法産生的8種顔色如錶5��3所示。由於彩色墨水和顔料的化學特性，用等量的三基色得到的黑色不是真正的黑色，因此在印刷術中常加一種真正的黑色(blackink)，所以CMY又寫成CMYK。錶5��3相減色C(青色)M(品紅)Y(黃色)相減色000白001黃010品紅011紅100青101綠110藍111黑相加色與相減色之間有一個直接關係，見錶5��4所示。利用它們之間的關係，可以把顯示的顔色轉換成輸齣打印的顔色。相加混色和相減混色之間成對齣現互補色。例如，當RGB為1∶1∶1時，在相加混色中産生白色，而CMY為1∶1∶1時，在相減混色中産生黑色。從另一個角度也可以看齣它們的互補性，例如，RGB為0∶1∶0，對應CMY為1∶0∶1。續錶錶5��4相加色與相減色的關係相加混色(RGB)相減混色(CMY)生成的顔色000111黑001110藍010101綠011100青100011紅101010品紅110001黃111000白5.3圖像的三個基本屬性

　　屬性是標識和描述被管理對象的特性，圖像的屬性包含分辨率、像素深度、真/僞彩色、圖像的錶示法和種類等，本節將介紹前麵三個特性。

　　5.3.1圖像分辨率

　　我們經常遇到的分辨率(resolution)有兩種:屏幕分辨率和圖像分辨率。為更好地理解圖像分辨率的概念，首先介紹屏幕分辨率。

　　1.屏幕分辨率

　　屏幕分辨率也稱顯示分辨率，它是衡量顯示設備再現圖像時所能達到的精細程度的度量方法。屏幕分辨率通常用水平和垂直方嚮所能顯示的像素數目錶示，寫成“水平像素數×垂直像素數”，如640×480錶示顯示屏分成480行，每行顯示640個像素，整個顯示屏含有307200個顯像點。常見的屏幕分辨率包括640×480、800×600、1024×768、1280×1024。水平分辨率與垂直分辨率的比例通常是4∶3，與傳統電視的寬高比相同，但與高清晰度電視的寬高比(16∶9)不同。

　　屏幕能夠顯示的像素越多，說明顯示設備的分辨率越高，顯示的圖像質量也就越高。顯示屏上的每個彩色像點由代錶R、G、B三種模擬信號的相對強度決定，這些彩色像點就構成一幅彩色圖像。

　　2.圖像分辨率

　　圖像分辨率(imageresolution)是圖像精細程度的度量方法。對同樣尺寸的一幅圖，如果像素數目越多，則說明圖像的分辨率越高，看起來就越逼真。相反，圖像顯得越粗糙。圖像分辨率也稱空間分辨率(spatialresolution)和像素分辨率(pixelresolution)。

　　在圖像顯示應用中，圖像分辨率有多種方法錶示。例如:(1)物理尺寸，如“每毫米綫數(或行數)”；(2)行列像素，用“像素/行×行/幅”錶示，如640像素/行×480行/幅；(3)像素總數，如在手機的相機上標的“1600萬像素”；(4)單位長度(麵積)的像素，如像素每英寸(PixelsPerInch，PPI)；(5)綫對(linepair)數，以黑白相鄰的兩條綫為一對，如“每毫米10綫”錶示黑綫和白綫相間的5對綫；(6)像素深度(見5.3.2節)。

　　在圖像數字化和打印應用中，通常要指定圖像的分辨率，用每英寸多少點(DotsPerInch，DPI)錶示。如果用300DPI來掃描一幅8″×10″的彩色圖像，就得到一幅2400×3000個像素的圖像。分辨率越高，像素就越多。

　　圖像分辨率與屏幕分辨率是兩個不同的概念。從行列像素角度看，圖像分辨率是構成一幅圖像的像素數目，而屏幕分辨率是顯示圖像的區域大小。例如，如果屏幕分辨率為640×480，那麼一幅320×240像素的圖像隻占顯示屏的1/4；相反，2400×3000像素的圖像在這個顯示屏上就不能顯示其完整的畫麵。

　　5.3.2像素深度與阿爾法(α)通道1.像素深度像素深度是指存儲每個像素所用的位數。例如，在電視圖像信號數字化時，記錄每個圖像樣本信號的位數為8、10、12或16位。8位錶示的分辨率是1/256，10位錶示的分辨率是1/1024。在這個意義上，像素深度也被認為是圖像分辨率的一種度量方法。

　　像素深度決定彩色圖像的每個像素可能有的顔色數，或者確定灰度圖像的每個像素可能有的灰度級數。例如，一幅彩色圖像的每個像素用R、G、B三個分量錶示，若每個分量用8位，那麼一個像素共用24位錶示，就說像素的深度是24，每個像素可以是224=16777216種顔色中的一種。在這個意義上，往往把像素深度說成是圖像深度。錶示一個像素的位數越多，它能錶達的顔色數目就越多，而它的深度就越深。

　　雖然像素深度或圖像深度可以很深，但各種VGA的顔色深度卻受到限製。例如，標準VGA支持4位16種顔色的彩色圖像，多媒體應用中通常推薦用8位256種顔色。由於設備的限製，加上人眼分辨率的限製，一般情況下，不一定要追求特彆深的像素深度。此外，像素深度越深，所占用的存儲空間也越大。相反，如果像素深度太淺，那也影響圖像的質量，圖像看起來讓人覺得很粗糙和很不自然。

　　2.α通道

　　在用二進製數錶示彩色圖像的像素時，除R、G、B分量用固定位數錶示外，往往還增加1位或幾位作為屬性(attribute)位。例如，RGB5∶5∶5錶示一個像素時，用2個字節共16位錶示，其中R、G、B各占5位，剩下最高1位(b15)作為屬性位，用來指定該像素應具有的性質，並把它稱為透明(transparency)位，記為T。T的含義可以這樣來理解:假如顯示屏上已經有一幅圖存在，如果要把另一幅圖重疊在它上麵，就可用T位來控製原圖是否能看得見。例如，可定義T=1，原圖完全看不見；T=0，原圖能完全看見。在這種情況下，屬性位T稱為1位α通道(alphachannel)，像素深度為16位，而圖像深度為15位。

　　在每個像素用32位的圖像錶示法中，最高8位稱為8位α通道，用於錶示像素在對象中的透明度，其餘24位是顔色通道，紅色、綠色和藍色分量各占8位通道。這個由8位構成的α通道可看作是一個預乘數通道。因此，例如，一個像素(A，R，G，B)的四個分量都用規一化的數值錶示，當像素值為(1，1，0，0)時顯示紅色，當像素值為(0.5,1,0,0)時，使用α通道中的預乘數0.5與R、G、B相乘的結果就為(0.5,0.5,0,0)，錶示原來該像素顯示的紅色強度為1，而現在顯示的紅色的強度為0.5。又如，用兩幅圖像A和B混閤成一幅新圖像(New)，它的像素為:Newpixel=(alpha)(pixelAcolor)+(alpha)(pixelBcolor)。

　　用α通道描述像素屬性在實際中很有用。例如，在一幅彩色圖像上疊加文字說明，而又不想讓文字把圖覆蓋掉，就可用α通道，而又有人把該像素顯示的顔色稱為混閤色(keycolor)。在視像産品生産過程中，也往往把數字電視圖像和計算機生産的圖像混閤在一起，這種技術稱為視圖混閤(videokeying)技術，它也采用α通道。

　　5.3.3真僞彩色和直接色

　　瞭解真彩色、僞彩色與直接色的含義，對於編寫圖像顯示程序、理解圖像文件的存儲格式都有很大幫助，對“本來是用真彩色錶示的圖像，但在VGA顯示器上顯示的顔色卻不是原來圖像的顔色”這類現象也不會感到睏惑。

　　1.真彩色

　　真彩色(truecolor)是指每個像素的顔色值用紅(R)、綠(G)和藍(B)錶示的顔色。例如，用RGB5∶5∶5錶示圖像顔色，R、G、B各用5位，其值大小直接確定三個基色的強度，這樣得到的彩色是真實的原圖彩色。真彩色通常用24位錶示，因此也稱24位顔色(24�瞓itcolor)或全彩色(fullcolor)，其顔色數目為224＝16777216種。

　　2.僞彩色

　　僞彩色(pseudocolor)是指每個像素的顔色不是由每個基色分量的數值直接決定的顔色，而是把像素值當作彩色查找錶(ColorLook�睻pTable，CLUT)的錶項入口地址，去查找顯示圖像時使用的R、G、B值，用查找齣的R、G、B值産生的彩色稱為僞彩色。

　　彩色查找錶(CLUT)是一個事先做好的錶，錶項入口地址也稱為索引號。例如，在有256種顔色的查找錶中，0號索引對應黑色……255號索引對應白色。彩色圖像本身的像素數值和彩色查找錶的索引號有一個變換關係，這個關係可以使用Windows定義的變換關係，也可以使用你自己定義的變換關係。使用查找得到的數值顯示的彩色是真的，但不是圖像本身真正的顔色，它沒有完全反映原圖的顔色。

　　3.直接色

　　每個像素值由R、G、B分量構成，每個分量作為單獨的索引值對它做變換，也就是通過相應的彩色變換錶找齣基色強度，用變換後的R、G、B強度值産生的顔色稱為直接色(directcolor)。它的特點是對每個基色進行變換。

　　5.4圖像的種類[��4/5]5.4.1矢量圖與位圖在計算機中，錶示圖像的常用方法有兩種，一種稱為矢量圖法，生成的圖像叫作矢量圖(vectorgraphics)，另一種稱為位圖法，生成的圖像叫作位圖(bitmap或bitmappedimage)。雖然這兩種圖像的錶示方法不同，但在顯示器上顯示的結果幾乎沒有差彆。

　　1.矢量圖

　　矢量圖是用一係列計算機指令描繪的圖，如點、綫、麵、麯綫、圓、矩形以及它們的組閤，如圖5��4(a)所示。這種方法實際上是用許多數學錶達式描述一幅圖，再用計算機語言來錶達，在顯示圖像時，還可看到畫圖的過程。繪製和顯示這種圖的軟件通常稱為繪圖程序(drawprograms)，存放這種圖的存儲格式稱為矢量圖格式，存儲的數據主要是繪製圖形的數學描述。

　　矢量圖有許多優點。例如，目標圖像的移動、縮小或放大、鏇轉、拷貝、屬性(如綫條變寬變細、顔色)變更都很容易做到；相同的或類似的圖可以把它們當作圖的構造塊，並把它們存到圖庫中，這樣不僅可加速矢量圖的生成，而且可減小矢量圖的文件大小。

　　然而，對於真實世界的彩照，恐怕就很難用數學方法來描述，這就要用位圖法錶示。

　　……

前言/序言

　　前言

　　《多媒體技術基礎》第3版教材於2008年定稿齣版發行。從技術上看，當時許多新技術正處在開發和試驗過程中，如H.265/HEVC、移動多媒體等技術，現已趨成熟。從國外的多媒體技術課程來看，教學內容已不再局限於多媒體本身，已經擴展到多媒體係統。

　　“多媒體係統”這個名稱已在科學技術文獻中頻繁齣現，越來越多地把它作為學術雜誌的名稱、學術會議的名稱、教科書的名稱，國外許多高等院校把它作為本科生、研究生的課程名稱。從多媒體係統角度考慮，本版教材在內容上做瞭較大幅度的增減，使《多媒體技術基礎》更趨完整，可把它理解為“多媒體係統的技術基礎”。

　　一、教材內容的組織

　　與第3版相比，《多媒體技術基礎》第4版教材變動較大的部分如下:

　　(1)增加瞭字符編碼和字體技術，係統介紹瞭漢字編碼的過去和現在，彌補瞭過去多媒體教材沒有字符技術的遺憾。

　　(2)參照國外多媒體係統課程的教學大綱，較係統地介紹瞭多媒體互聯網絡，包括網絡互聯和寬帶接入因特網的技術基礎。寬帶接入包括有綫寬帶、無綫寬帶和移動寬帶接入，技術基礎包括有綫和無綫數據通信學科方麵的知識。

　　(3)為減少教材篇幅，第3版中的不少內容沒有保留，但仍然有參考價值，如介紹HTML和XML的多媒體內容處理語言。

　　《多媒體技術基礎》第4版教材的內容組織成如下三個部分。

　　第一部分:多媒體壓縮和編碼(第2～14章)，介紹文字、聲音、圖像和數字電視媒體的基本知識、壓縮技術和編碼方法。

　　第二部分:多媒體光盤存儲技術(第15～17章)，介紹CD、DVD、HD�睤VD和藍光盤的存儲原理和存儲格式。

　　第三部分:多媒體網絡(第18～32章)，以多媒體網絡應用和服務質量(QoS)為中心，介紹計算機網絡、寬帶(有綫、無綫和移動)接入因特網的基礎知識。

　　二、教材的使用建議

　　本版教材係統介紹瞭多媒體係統的核心技術，在內容上力求選用相對成熟和實用的新技術，在技術原理闡述和解釋上力求清楚準確。

　　為保持多媒體技術基礎教材內容的係統性和完整性，本教材不免與其他學科教材有些交集。此外，教材中包含許多技術背景和技術細節，目的是為更好地理解技術原理。在上述思想指導下，使本教材的篇幅較大。

　　對本教材的使用，編者還是建議，教師有所教有所不教，學生有所學有所不學。具體建議詳見本教材第3版前言。

　　三、衷心感謝

　　《多媒體技術基礎》由林福宗主持編寫，參加編寫工作的教授、專傢和高級程序員有黃民德、汪健如、黃國健、林彩榮和張哲等。特彆感謝中國科學院院士、清華大學張鈸教授長時期的直接指導和各方麵給予的實質性支持；感謝我們課題組所有老師和碩博研究生為本教材所做的貢獻；感謝使用本教材的師生和技術人員給予我們的熱情鼓勵和提齣的寶貴建議。

　　林福宗

　　退休單位:清華大學計算機科學與技術係

　　電子郵件地址:linfz@mail.tsinghua.edu.cn

　　2017年3月1日第3版前言

　　本教材第2版於2001年定稿，2002年9月第一次印刷。當時許多新技術還沒有齣現或正在開發之中，如MPEG��4AVC/H.264(2003年)和XML1.1(2006年)。有些當時認為比較有前途的技術，現在已經更新，如普遍認為2002年公布的SIP(RFC3261)比1996年公布的H.323更簡單。根據筆者過去幾年的科研、教學和觀察，教材中的大部分內容都適閤當前使用，因此確定第3版教材的修改方針是保留第2版的體係結構、更新部分章節內容和增加新內容。

　　一、教材的組織結構

　　為保持多媒體技術基礎課程內容的完整性，第3版教材仍由多媒體壓縮和編碼、多媒體存儲、多媒體傳輸和多媒體內容處理語言共四個相對獨立的部分組成。

　　第一部分：多媒體壓縮和編碼(第2～13章)，主要介紹聲音、圖像和數字電視的基本知識、壓縮與編碼方法。

　　第二部分：多媒體存儲(第14～16章)，主要介紹CD、DVD、HD�睤VD和BD(Blu�瞨ayDisc)光盤的存儲原理和多媒體在光盤上的存放格式。

　　第三部分：多媒體傳輸(第17～20章)，主要介紹多媒體網絡應用、服務質量(QoS)、因特網、TCP/IP協議和多媒體傳輸的基礎知識。

　　第四部分：多媒體內容處理語言(第21～22章)，主要介紹HTML和XML的基礎知識。

　　為幫助讀者加深對基礎知識的理解，每章後麵都有練習和思考題，但這些題目沒有難度，教師可增加一些有一定深度的練習和思考題。

　　每章後麵都有參考文獻和站點，列齣它們有兩個目的：(1)錶示在編寫本教材過程中訪問過相關站點，參考或引用瞭相關內容；(2)更重要的是為讀者提供進一步學習的指南，教師要鼓勵學生主動上網查閱。雖然到本書截稿時每個網址都有效，但以後可能會有變化。

　　二、教材修改的內容

　　在第2版教材基礎上，第3版教材做瞭如下修改：

　　(1)考慮到視像壓縮技術在多媒體産品和各種服務中的重要性，因此增加瞭一章專門用來介紹MPEG��4AVC/H.264。此外，考慮到光盤存儲器在多媒體存儲方麵的重要性，因此增加瞭HDDVD和Blu�瞨ayDisc的內容。

　　(2)考慮到網上多媒體應用如火如荼，如IP電視、IP電話、即時通信和多媒體會議，因此重寫瞭第三部分(第17～20章)，突齣瞭多媒體傳輸或稱多媒體通信技術。

　　(3)考慮到20世紀90年代末期開展的內容處理已成為重要的研究方嚮，因此在第22章（XML語言）中增加瞭XML新版本的內容。HTML和XML等標準已經並將繼續對日益增長的包括移動通信在內的多媒體網絡應用和多媒體電子齣版業等行業産生深遠的影響。

　　(4)為降低教材篇幅，第2版中的部分內容沒有保留，如MIDI係統。

　　(5)XHTML是用XML重寫的HTML版本，2008年1月介紹的HTML5(也稱XHTML5)也是用XML編寫的。因此本版教材沒有保留第2版中的第23章(XHML語言)。

　　三、教材的使用建議

　　國內許多大學開設多媒體技術課程已有多年，在網上看到許多兄弟院校在教材建設和課程教學方麵已有很多很好的經驗，在學習和藉鑒他們成功經驗的基礎上，為使用或打算使用本教材的老師和同學提齣如下建議供參考。

　　1.有所教有所不教

　　在編寫本教材過程中筆者注意到，國外有些信息技術學院從本科到研究生階段，每個年級都開設內容不同、深淺不同的多媒體課程，既有廣度又有深度。考慮到我國目前的多媒體課程教學計劃一般隻安排一個學期，學時也不多，因此教師可采用有所教有所不教和有所學有所不學的策略。任課教師可根據自己的興趣和專長、學生已有的基礎和專業方嚮，有的放矢地選擇其中的部分內容。對於不作為重點的教學內容，如果有需要，學生自己就會主動去鑽研。

　　2.教材作為參考書

　　對於信息技術課程的教材來說，寫進正式齣版的教材的內容通常是比較成熟的，即使是剛剛齣版的教材，其內容也不一定新。據觀察，許多大學的多媒體課程內容是當前最新的技術，教師都有自己編寫的教學提綱和材料，而把正式齣版的教科書列為必要的參考材料加以推薦。這不是說正式齣版的教材不重要，而是通過教授新技術來帶動基本原理的學習。其結果是學的內容先進，學的基礎紮實。

　　本教材共22章，比較係統地介紹多媒體技術。筆者有意使本教材覆蓋多方麵的重要技術，努力選取相對比較新的和實用的技術，力圖對多媒體技術原理解釋清楚和準確。因此可把本教材作為多媒體技術課程的起點，在此基礎上教授最新的技術。

　　3.用課程設計驅動

　　凡任課教師都很清楚，教一本書不等於開設一門課程。為配閤我校加強實踐教學的教學改革，更好地激勵學生學習基礎理論和技能的積極性，清華大學齣版社齣版瞭經過多年實際使用的《多媒體技術課程設計與學習輔導》。學生對課程設計反響強烈，由於嚴格實施“允許參考不許抄襲”的措施，學生普遍認為真正學到瞭知識。

　　輔助教材擬瞭多個難易程度不同的設計題目，每個題目都有原理介紹和示例。為便於學生撰寫和教師評估課程設計報告，規範瞭課程設計報告的格式。由於設計題目的難度不大，任課教師可根據情況，從中選擇一個或兩個題目，也可在輔助教材所列的“參考選題”或其他參考選題中增加或更改設計題目。課程設計要求使用MATLAB語言來實現，因為MATLAB是攻讀學位的大學生、碩士生和博士生必須掌握的基本工具。

　　4.用評估係統引導

　　評估係統是一個無形的指揮棒，可以引導學生的學習方嚮。教授本教材是多媒體技術基礎課程中的一個部分，而課程設計是課程的另一個重要組成部分。因此筆者的課程評估采用瞭“基礎知識書麵開捲考試約占50%，課程設計約占50%”的方法，但對不同專業的學生可以在評估標準或在所占分數的比例上加以調整。

　　5.教學輔助材料

　　為本教材準備的電子版的輔助材料有四個部分：(1)練習與思考題參考答案；(2)課程設計參考答案；(3)正式齣版的本教材中的插圖，為製作電子版講課提綱提供方便；(4)講課提綱(PPT格式)。這些材料可在清華大學齣版社的網站上下載，也可在http://www.csai.tsinghua.edu.cn/linfzmmc/上下載。

　　四、關於中文術語

　　隨著信息科學和技術日新月異，新術語不斷湧現，同時也給一些老術語賦予瞭新的含義，使用準確的術語有利於信息的交流。為使本教材中的中文術語盡量準確，筆者查閱瞭許多著名的英文詞典，閱讀瞭許多相關的科學和技術文獻，參考瞭全國科學技術名詞審定委員會2002年公布的《計算機科學技術名詞》。

　　在本教材中，有幾個常用術語有必要在此說明：(1)用“視頻”作為video的釋義是物理概念上的錯誤。video的真實含義是由一係列圖像組成的(電)視(圖)像，確切的中文譯名應該是“視像”。“視頻(videofrequency)”是電視信號頻率的簡稱，在ITU�睷BT.601標準中，頻率範圍是0～6.75MHz。(2)不論什麼場閤，用“音頻”作為audio的釋義也是物理概念上的錯誤。audio是指人的聽覺係統可感知的聲音，是聲音(sound)的同義詞，作名詞時的確切中文術語應該是“聲音”。“音頻(audiofrequency)”是聲音信號頻率的簡稱，頻率範圍通常認為是15～20000Hz。(3)“分組交換(packetswitching)”是一個不確切的中文術語。“packet”的含義是一個由收、發送地址和實際數據組成的“數據包”，確切的術語應該是“包交換”。(4)“組播(multicast)”是一個容易被誤認為“收發關係顛倒”的術語，本教材使用“多目標廣播”。盡管我們習慣使用2～3個字構成的術語，但“多目標廣播”是顧名就可思義的術語，即一個發送者嚮多個接收者(多目標)傳送(廣播)數據的意思。

　　五、衷心感謝

　　特彆感謝中國科學院院士張鈸教授多年來的直接指導和各方麵給予的實質性支持；衷心感謝我們課題組(智能多媒體組)所有老師和碩博研究生為本教材所做的貢獻；衷心感謝使用本教材的老師和學生給予我們的熱情鼓勵和提齣的寶貴建議。

　　參加本教材編寫工作的有林彩榮、硃高建、硃高東、黃民德和謝霄艷，他們在多媒體語言、程序設計、多媒體通信、教育技術、軟件評估、科研和教學方麵都有各自的專長。

　　林福宗

　　清華大學計算機科學與技術係

　　智能技術與係統國傢重點實驗室

　　電子郵件地址：linfz@mail.tsinghua.edu.cn

　　2008年10月15日

多媒體技術基礎（第4版）（清華大學計算機係列教材）內容簡介《多媒體技術基礎（第4版）》是清華大學計算機係列教材中的一本，旨在係統、全麵地介紹多媒體技術的核心概念、基本原理、關鍵技術以及發展趨勢。本書在前幾版的基礎上，結閤近年來多媒體技術領域的最新發展和學術研究成果，進行瞭深入的更新和修訂，以期為讀者提供一份既經典又前沿的多媒體技術學習指南。本書從多媒體技術的全局齣發，循序漸進地闡述瞭多媒體信息處理的各個環節，包括多媒體信息的采集、錶示、存儲、傳輸、處理和應用。內容涵蓋瞭文本、圖像、音頻、視頻等多種媒體形式，以及與之相關的編碼、壓縮、解碼、閤成、編輯、播放等技術。同時，本書也著重探討瞭多媒體技術在網絡環境下的應用，如流媒體技術、多媒體通信、Web多媒體等，並對未來多媒體技術的發展方嚮進行瞭展望。本書特色與優勢體係完整，內容翔實：本書的結構設計嚴謹，從基礎概念到高級應用，涵蓋瞭多媒體技術的方方麵麵，力求做到內容全麵、邏輯清晰。每個章節都圍繞一個核心主題展開，深入剖析相關技術細節，確保讀者能夠建立起紮實的理論基礎。理論與實踐相結閤：在講解理論知識的同時，本書注重引導讀者理解實際應用。通過豐富的案例分析和對相關技術的解釋，幫助讀者將抽象的理論轉化為具體的實踐能力。雖然本書以理論講解為主，但其對技術的深入剖析，為讀者後續進行相關項目開發或技術研究奠定瞭堅實的基礎。緊跟技術前沿：第4版對內容進行瞭大幅度的更新，加入瞭近年來迅速發展的新技術和新概念。例如，在圖像和視頻處理部分，會涉及更先進的壓縮標準和算法；在網絡多媒體部分，會討論最新的流媒體技術和交互式多媒體應用。這使得本書能夠保持其在多媒體教育領域的領先地位。由清華大學知名教授編寫：本書由清華大學計算機科學與技術領域的資深教授團隊傾力編寫，他們不僅在學術研究上造詣深厚，在教學實踐中也積纍瞭豐富的經驗。教材的編寫風格嚴謹、深入，充分體現瞭清華大學在計算機科學教育方麵的嚴謹態度和高水平。適閤多層次讀者：本書既適閤高等院校計算機科學、軟件工程、信息工程等相關專業本科生和研究生作為教材使用，也適閤從事多媒體技術研究、開發和應用的技術人員作為參考書籍。對於對多媒體技術感興趣的初學者，本書提供瞭係統入門的學習路徑；對於有一定基礎的讀者，本書則提供瞭深入理解和拓展視野的機會。本書內容框架本書的組織結構大緻可以劃分為以下幾個主要部分：第一部分：多媒體技術概述與基礎概念第一章多媒體技術導論：介紹多媒體技術的定義、發展曆程、關鍵特徵、基本組成要素以及其在現代社會中的重要作用和應用領域。第二章多媒體信息錶示：詳細講解不同類型多媒體信息的數字錶示方法，包括文本的編碼（ASCII, Unicode）、圖像的像素錶示、音頻的采樣與量化、視頻的幀序列等。第三章多媒體數據壓縮基礎：闡述數據壓縮的必要性、基本原理（冗餘度、感知模型），以及無損壓縮和有損壓縮的基本概念和常見技術。第二部分：核心多媒體信息處理技術第四章圖像與圖形技術：深入介紹圖像的數字化、錶示（位圖、矢量圖）、顔色模型（RGB, CMYK, HSV）、圖像文件格式（JPEG, PNG, GIF）及其壓縮原理。第五章音頻技術：講解聲音的物理特性、數字音頻的采樣、量化、編碼（PCM）、音頻文件格式（WAV, MP3, AAC）以及音頻壓縮算法。第六章視頻技術：介紹視頻的構成（幀、分辨率、幀率）、視頻編碼的基本原理（幀內預測、幀間預測）、視頻壓縮標準（MPEG係列，如MPEG-2, MPEG-4, H.264/AVC, H.265/HEVC），以及視頻文件格式。第七章動畫技術：講解動畫的基本原理、製作方法（二維動畫、三維動畫）、動畫文件格式（如GIF動畫、Flash動畫）以及其在多媒體中的應用。第三部分：多媒體係統與網絡傳輸第八章多媒體信息存儲與管理：討論多媒體數據存儲的特點，以及相應的存儲介質（光盤、硬盤、雲存儲）和文件係統。第九章多媒體數據傳輸：介紹多媒體數據在網絡上傳輸的挑戰，如帶寬、延遲、丟包等，以及相關的傳輸協議（TCP, UDP）和網絡優化技術。第十章流媒體技術：詳細講解流媒體的概念、工作原理、流媒體服務器、客戶端播放器，以及實時流媒體（RTSP）和點播流媒體（HTTP Streaming）等技術。第十一章多媒體通信：探討多媒體通信的基本概念，包括視頻會議、即時消息、IP電話等，以及相關的通信協議和技術。第十二章 Web多媒體：介紹多媒體在互聯網上的應用，如HTML5的媒體標簽、JavaScript對媒體的控製、WebRTC等，以及多媒體網頁的設計與優化。第四部分：多媒體應用與發展趨勢第十三章多媒體軟件開發技術：介紹開發多媒體應用所需的相關編程接口（API）、開發工具和框架，以及多媒體內容創作和編輯的基本流程。第十四章多媒體技術應用實例：結閤實際案例，介紹多媒體技術在教育、娛樂、醫療、工業設計、虛擬現實/增強現實（VR/AR）等領域的廣泛應用。第十五章多媒體技術發展趨勢：展望多媒體技術的未來發展方嚮，如人工智能與多媒體的結閤（智能識彆、內容生成）、超高清視頻、沉浸式多媒體體驗、區塊鏈在多媒體版權保護中的應用等。學習建議本書內容豐富，理論性強，建議讀者在閱讀時：循序漸進：按照章節順序進行學習，打好基礎。勤於思考：積極思考書中的概念和原理，理解其內在邏輯。結閤實踐：如果條件允許，可以嘗試使用相關的開發工具和技術，將理論知識應用於實踐。查閱資料：對於某些深入的技術點，可以參考本書提供的參考文獻或自行查閱相關文獻，以獲得更全麵的理解。小組討論：與同學或同行交流學習心得，共同解決疑難問題。《多媒體技術基礎（第4版）》將為讀者打開通往多媒體技術廣闊世界的大門，幫助您深刻理解這項改變我們生活和工作的關鍵技術。

用户评价

评分☆☆☆☆☆

讓我印象深刻的是，這本書並沒有止步於講解現有技術，而是對多媒體技術未來的發展趨勢進行瞭展望。例如，它提到瞭人工智能在多媒體內容生成、處理和分析方麵的巨大潛力，以及5G等新技術對多媒體傳輸和應用的推動作用。這種前瞻性的視角，讓我覺得這本書不僅是一本教科書，更是一扇瞭解行業未來發展方嚮的窗口。它激勵我不斷學習新的知識，緊跟技術發展的步伐。

评分☆☆☆☆☆

總的來說，這本書給我帶來的不僅僅是知識，更是一種學習的思維方式。它教會我如何從本質上理解一個技術，如何將其與實際應用聯係起來，以及如何展望未來的發展。即使是作為一本基礎教材，它也展現齣瞭極高的學術水準和教學藝術。對於任何想要深入瞭解多媒體技術的朋友來說，這本書都絕對是值得信賴的入門和進階之選。

评分☆☆☆☆☆

書中的多媒體網絡傳輸部分，讓我對互聯網上的音視頻內容有瞭全新的認識。過去，我隻知道可以流暢地觀看在綫視頻，但從未想過背後涉及到如此多的技術細節。這本書詳細介紹瞭TCP/IP協議族在多媒體傳輸中的應用，以及UDP協議在流媒體傳輸中的優勢。更讓我印象深刻的是，它還講解瞭實時傳輸協議（RTP）和實時傳輸控製協議（RTCP）的工作原理，以及它們如何協同工作，確保音視頻數據的實時性和可靠性。這讓我明白瞭，為什麼有些應用會選擇UDP而不是TCP來傳輸音視頻。

评分☆☆☆☆☆

對於我這樣的非計算機專業背景的讀者來說，這本書最寶貴的一點在於其“科普性”和“啓發性”。它沒有一味地追求晦澀的理論和高深的公式，而是盡可能地用通俗易懂的語言解釋復雜的概念。例如，在介紹多媒體內容分發網絡（CDN）時，它不僅僅是羅列瞭CDN的優勢，更是通過比喻和實際案例，讓我能夠直觀地理解CDN是如何提升用戶體驗的。這種講解方式，讓我能夠保持學習的興趣，也激發瞭我進一步探索多媒體技術的動力。

评分☆☆☆☆☆

讓我驚喜的是，這本書在講解多媒體技術的同時，並沒有忽略與之相關的標準和協議。比如，在介紹視頻編碼時，它詳細講解瞭MPEG係列標準的發展曆程，從MPEG-1到MPEG-4，以及它們各自的特點和優勢。雖然初讀時可能覺得有些晦澀，但作者通過大量的圖示和錶格，將復雜的編碼流程和技術細節可視化，這對於我理解視頻流的傳輸和解碼過程非常有幫助。更重要的是，它讓我認識到，多媒體技術的進步不僅僅是算法的革新，更是行業標準的不斷統一和完善，這對於多媒體內容的互聯互通至關重要。

评分☆☆☆☆☆

這本書在多媒體安全方麵的討論，也讓我受益匪淺。在享受多媒體帶來的便利時，我們也需要關注其安全性問題，比如版權保護、信息泄露等。書中詳細介紹瞭數字水印、內容加密、身份認證等技術，以及它們在多媒體內容安全中的應用。這讓我明白瞭，如何從技術層麵來保障多媒體內容的閤法使用和個人信息的安全。這種對安全性的重視，是任何一項技術發展都不可或缺的。

评分☆☆☆☆☆

讀完這本書，我對多媒體技術的應用前景有瞭更清晰的認識。書中不僅介紹瞭基礎的技術原理，還通過一些案例，展示瞭多媒體技術在各個領域的廣泛應用，比如數字電視、互聯網視頻、虛擬現實、增強現實等等。它讓我看到瞭多媒體技術不僅僅是技術本身，更是驅動許多新興産業發展的重要力量。這種對技術與應用的結閤的強調，讓我覺得這本書的實用性非常強，也讓我對未來的學習和職業發展有瞭更明確的方嚮。

评分☆☆☆☆☆

不得不說，作者在內容的組織上非常有匠心。當我以為隻是在學習基礎知識時，書中已經悄悄地將各種概念聯係起來瞭。例如，在講解圖像壓縮時，它會自然地引齣無損壓縮和有損壓縮的區彆，並且詳細闡述瞭它們各自的應用場景和技術原理。JPEG、PNG這些耳熟能詳的格式，在這裏不再是簡單的文件後綴，而是有瞭它們背後的算法支撐，比如離散餘弦變換（DCT）是如何工作的，以及霍夫曼編碼如何進一步減小數據量。這種由淺入深的講解方式，讓我能夠清晰地看到每一個技術進步背後的邏輯，也為我後續學習更復雜的多媒體處理技術打下瞭堅實的基礎。

评分☆☆☆☆☆

這本書在多媒體同步方麵的內容，給我留下瞭深刻的印象。在現實生活中，我們觀看視頻、玩遊戲，都會涉及到音視頻的精確同步，但背後卻涉及復雜的理論和技術。這本書對此進行瞭非常詳盡的闡述，從時間戳的定義到同步機製的實現，再到不同應用場景下的同步策略，都做瞭深入的分析。它讓我明白瞭，為什麼有時候我們看到的直播畫麵會齣現音畫不同步的情況，以及如何通過各種技術手段來解決這個問題。這種對細節的關注，體現瞭作者在教學上的嚴謹和專業。

评分☆☆☆☆☆

這本書給我的第一印象是“紮實”。作為一本清華大學的“計算機係列教材”，它從一開始就傳遞齣一種嚴謹和係統的感覺，這對於我這樣一個初學者來說，是非常重要的定心丸。書中對於多媒體概念的引入，並非簡單羅列定義，而是循序漸進地鋪陳開來，從最基礎的圖像、音頻、視頻的數字化原理講起，比如像素的構成、采樣率和量化深度的意義，甚至還深入到人耳和人眼對信息的感知特性，這讓我明白瞭為什麼這些參數會有這樣的設定，而不是死記硬背。

评分☆☆☆☆☆

好。

评分☆☆☆☆☆

好。

评分☆☆☆☆☆

好。

评分☆☆☆☆☆

好。

评分☆☆☆☆☆

好。

评分☆☆☆☆☆

好。