本版教材係統介紹瞭多媒體係統的核心技術,在內容上力求選用相對成熟和實用的新技術,在技術原理闡述和解釋上力求清楚準確。為保持多媒體技術基礎教材內容的係統性和完整性,本教材不免與其他學科教材有交集。此外,教材中包含許多技術背景和技術細節,目的是為更好地理解技術原理,細節也反映理解的深淺。在上述思想指導下,使本教材的篇幅比較大,但還是比國外同類教材的篇幅小很多。
每章均附有練習和思考題,用於輔助讀者掌握本章的要點;每章內容的來源都列齣瞭參考文獻和站點,讀者可用於加深對教材內容的理解和擴大知識麵。
《多媒體技術基礎》第4版教材在第3版的基礎上,對教材內容做瞭較大幅度的增減。從多媒體係統角度齣發,本版教材分成三個部分: (1)多媒體壓縮和編碼(第2~14章),介紹文字、聲音、圖像和數字電視媒體的基本知識、壓縮和編碼方法; (2)多媒體光盤存儲技術(第15~17章),介紹CD、DVD、HD�睤VD和藍光盤的存儲原理和存儲格式; (3)多媒體網絡(第18~32章),以多媒體網絡應用和服務質量(QoS)為中心,介紹計算機網絡的互聯、寬帶(有綫、無綫和移動)接入因特網的基礎知識。每章均附有練習和思考題,用於輔助讀者掌握本章的要點;每章內容的來源都列齣瞭參考文獻和站點,讀者可用於加深對教材內容的理解和擴大知識麵。
林福宗 清華大學計算機科學與技術係退休教授,1970年畢業於清華大學自動控製係,留校工作直至退休。從1989年開始對多媒體産生興趣,其後一直從事多媒體技術基礎的教學和應用研究,曾編寫並在清華大學齣版社齣版《英漢多媒體技術辭典》、《多媒體技術基礎》教材等圖書。
第5章彩色數字圖像基礎
圖像是多媒體中攜帶信息的極其重要的媒體,有人發錶過統計資料,認為人們獲取的信息的70%來自視覺係統。由於圖像數字化之後的數據量非常大,在因特網上傳輸時很費時間,在盤上存儲時很占“地盤”,因此就必須要對圖像數據進行壓縮。壓縮的目的就是要滿足存儲容量和傳輸帶寬的要求,而付齣的代價則是大量的計算。幾十年來,許多科技工作者一直在孜孜不倦地尋找更有效的方法,用比較少的數據量錶達原始的圖像。
圖像數據壓縮主要是根據下麵兩個基本事實來實現的。一個事實是圖像數據中有許多重復的數據,使用數學方法來錶示這些重復數據可減少數據量;另一個事實是人的眼睛對圖像細節和顔色的辨認有一個極限,把超過極限的部分去掉,也就達到壓縮數據的目的。利用前一個事實的壓縮技術是無損數據壓縮技術,利用後一個事實的壓縮技術是有損數據壓縮技術。實際的圖像壓縮是綜閤使用各種有損和無損數據壓縮技術來實現的。
本章將介紹錶示數字彩色圖像所需要的基本知識、使用得相當廣泛的JPEG壓縮標準和圖像文件的存儲格式。在介紹過程中,要涉及有關顔色的度量和顔色空間的轉換問題,這些比較深入的問題將在第8章“顔色度量體係”和第9章“顔色空間轉換”中介紹。
5.1視覺係統對顔色的感知
顔色是視覺係統對可見光的感知結果。可見光是波長在380~780nm之間的電磁波,我們看到的大多數光不是一種波長的光,而是由許多不同波長的光組閤成的。人們在研究眼睛對顔色的感知過程中普遍認為,人的視網膜有對紅、綠、藍顔色敏感程度不同的三種錐體細胞,另外還有一種在光功率極端低的條件下纔起作用的杆狀體細胞,因此顔色隻存在於眼睛和大腦。在計算機圖像處理中,杆狀細胞還沒有扮演什麼角色。
人的視覺係統對顔色的感知可歸納齣如下幾個特性:
(1)眼睛本質上是一個照相機。視網膜(humanretina)通過神經元來感知外部世界的顔色,每個神經元是一個對顔色敏感的錐體(cone)或是一個對顔色不敏感的杆狀體(rod)。
(2)紅、綠和藍三種錐體細胞對不同頻率的光的感知程度不同,對不同亮度的感知程度也不同。這就意味著,人們可以使用數字圖像處理技術來降低錶示圖像的數據量,而不使人感到圖像質量有明顯下降。
(3)自然界中的任何一種顔色都可以由R、G、B這三種顔色值之和來確定,它們構成一個三維的RGB矢量空間。這就是說,R、G、B的數值不同,混閤得到的顔色就不同,也就是光波的波長不同。
5.2圖像的顔色模型
在文獻和教材中,用於描述顔色的常用詞有兩個:顔色模型和顔色空間。顔色模型(colormodel)是用數值指定顔色的方法,顔色空間(colorspace)是用空間中點的集閤描述顔色的方法,它們互為同義詞。RGB和CMYK是計算機係統使用最廣泛的兩個顔色模型。
5.2.1顯示彩色圖像用RGB相加混色模型
一個能發齣光波的物體稱為有源物體,它的顔色由該物體發齣的光波決定,並且使用RGB相加混色模型。電視機和計算機顯示器使用的陰極射綫管(CathodeRayTube,CRT)就是一個有源物體。CRT使用3個電子槍分彆産生紅(red)、綠(green)和藍(blue)三種波長的光,並以各種不同的相對強度綜閤起來産生顔色,如圖5��1(a)所示。雖然當今的電視機和計算機顯示器幾乎都使用彩色LED顯示器,但生成顔色的原理與陰極射綫管(CRT)類似。
組閤這三種光波來産生特定顔色的方法叫作相加混色法(additivecolormixture),因為這種相加混色是利用R、G和B顔色分量産生顔色,故稱為RGB相加混色模型。相加混色是計算機應用中定義顔色的基本方法。
從理論上講,任何一種顔色都可用三種基本顔色按不同的比例混閤得到。三種顔色的光強越強,到達我們眼睛的光就越多,它們的比例不同,我們看到的顔色也就不同。沒有光到達眼睛,就是一片漆黑。當三基色按不同強度相加時,總的光強增強,並可得到任何一種顔色。某一種顔色和這三種顔色之間的關係可用下麵的式子來描述:
顔色=R(紅色的百分比)+G(綠色的百分比)+B(藍色的百分比)
當三基色等量相加時,得到白色;等量的紅綠相加而藍為0時得到黃色;等量的紅藍相加而綠為0時得到品紅色;等量的綠藍相加而紅為0時得到青色。這些三基色相加的結果如圖5��1(b)所示。
圖5��1顔色生成原理
一幅彩色圖像可以看成是由許多的點組成的,如圖5��2所示。圖像中的單個點稱為像素(pixel),每個像素都有一個值,稱為像素值,它錶示特定顔色的強度。圖5��2一幅圖像由許多像素組成
一個像素值往往用R、G、B三個分量錶示。如果每個像素的三個顔色分量都用二進製的1位來錶示,那麼每個顔色的分量隻有“1”和“0”這兩個值,這也就是說,每個顔色分量的強度是100%或者是0%。在這種情況下,每個像素所顯示的顔色是8種可能的顔色之一,見錶5��1。
對於標準的電視圖形陣列(VideoGraphicsArray,VGA)適配卡的16種標準顔色,其對應的R、G、B值見錶5��2。在Microsoft公司的Windows操作係統中,用代碼0~15錶示。錶中的代碼1~6錶示的顔色比較暗,它們是用最大光強值的一半産生的顔色;9~15是用最大光強值産生的。錶5��1相加色RGB顔色RGB顔色000黑100紅001藍101品紅010綠110黃011青111白在錶5��2中,每種基色的強度是用8位錶示的,因此可産生224=16777216種顔色。但實際上要用1600多萬種顔色的場閤是很少的。在多媒體計算機中,除用RGB來錶示顔色外,還用色調�脖ズ投泉擦煉�(Hue�睸aturation�睱ightness,HSL)錶示。
在HSL模型中,H定義顔色的波長,稱為色調;S定義顔色的強度(intensity),錶示顔色的深淺程度,稱為飽和度;L定義摻入的白光量,稱為亮度。用HSL錶示顔色的重要性,是因為它比較容易為畫傢所理解。若把S和L的值設置為1,當改變H時就是選擇不同的純顔色;減小飽和度S時,就可體現摻入白光的效果;降低亮度時,顔色就暗,相當於摻入黑色。因此在Windows附帶的畫圖軟件也用瞭HSL錶示法。錶5��216色VGA調色闆的值代碼RGBHSL相加色000016000黑(Black)10012816024060藍(Blue)2012808024060綠(Green)3012812812024060青(Cyan)412800024060紅(Red)5128012820024060品紅(Magenta)612812804024060褐色(DarkYellow)71921921921600180白(LightGray)81281281281600120深灰(DarkGray)900255160240120淡藍(LightBlue)100255080240120淡綠(LightGreen)110255255120240120淡青(LightCyan)12255000240120淡紅(LightRed)132550255200240120淡品紅(LightMagenta)14255255040240120黃(Yellow)152552552551600240高亮白(BrightWhite)5.2.2打印彩色圖像用CMY相減混色模型
一個不發光波的物體稱為無源物體,它的顔色由該物體吸收或者反射哪些光波決定,用CMY相減混色模型。用彩色墨水或顔料進行混閤,繪製的圖畫就是一種無源物體,用這種方法生成的顔色稱為相減色。從理論上說,任何一種顔色都可以用三種基本顔色的顔料按一定比例混閤得到。這三種顔色是青色(cyan)、圖5��3相減混色
品紅(magenta)和黃色(yellow),通常寫成CMY,稱為CMY模型。用這種方法産生的顔色之所以稱為相減色,是因為它減少瞭為視覺係統識彆顔色所需要的反射光。
在相減混色中,當三基色等量相減時得到黑色;等量黃色(Y)和品紅(M)相減而青色(C)為0時,得到紅色(R);等量青色(C)和品紅(M)相減而黃色(Y)為0時,得到藍色(B);等量黃色(Y)和青色(C)相減而品紅(M)為0時,得到綠色(G)。三基色相減結果如圖5��3所示。
彩色打印機采用的就是這種原理,印刷彩色圖片也是采用這種原理。按每個像素每種顔色用1位錶示,相減法産生的8種顔色如錶5��3所示。由於彩色墨水和顔料的化學特性,用等量的三基色得到的黑色不是真正的黑色,因此在印刷術中常加一種真正的黑色(blackink),所以CMY又寫成CMYK。錶5��3相減色C(青色)M(品紅)Y(黃色)相減色000白001黃010品紅011紅100青101綠110藍111黑相加色與相減色之間有一個直接關係,見錶5��4所示。利用它們之間的關係,可以把顯示的顔色轉換成輸齣打印的顔色。相加混色和相減混色之間成對齣現互補色。例如,當RGB為1∶1∶1時,在相加混色中産生白色,而CMY為1∶1∶1時,在相減混色中産生黑色。從另一個角度也可以看齣它們的互補性,例如,RGB為0∶1∶0,對應CMY為1∶0∶1。續錶錶5��4相加色與相減色的關係相加混色(RGB)相減混色(CMY)生成的顔色000111黑001110藍010101綠011100青100011紅101010品紅110001黃111000白5.3圖像的三個基本屬性
屬性是標識和描述被管理對象的特性,圖像的屬性包含分辨率、像素深度、真/僞彩色、圖像的錶示法和種類等,本節將介紹前麵三個特性。
5.3.1圖像分辨率
我們經常遇到的分辨率(resolution)有兩種:屏幕分辨率和圖像分辨率。為更好地理解圖像分辨率的概念,首先介紹屏幕分辨率。
1.屏幕分辨率
屏幕分辨率也稱顯示分辨率,它是衡量顯示設備再現圖像時所能達到的精細程度的度量方法。屏幕分辨率通常用水平和垂直方嚮所能顯示的像素數目錶示,寫成“水平像素數×垂直像素數”,如640×480錶示顯示屏分成480行,每行顯示640個像素,整個顯示屏含有307200個顯像點。常見的屏幕分辨率包括640×480、800×600、1024×768、1280×1024。水平分辨率與垂直分辨率的比例通常是4∶3,與傳統電視的寬高比相同,但與高清晰度電視的寬高比(16∶9)不同。
屏幕能夠顯示的像素越多,說明顯示設備的分辨率越高,顯示的圖像質量也就越高。顯示屏上的每個彩色像點由代錶R、G、B三種模擬信號的相對強度決定,這些彩色像點就構成一幅彩色圖像。
2.圖像分辨率
圖像分辨率(imageresolution)是圖像精細程度的度量方法。對同樣尺寸的一幅圖,如果像素數目越多,則說明圖像的分辨率越高,看起來就越逼真。相反,圖像顯得越粗糙。圖像分辨率也稱空間分辨率(spatialresolution)和像素分辨率(pixelresolution)。
在圖像顯示應用中,圖像分辨率有多種方法錶示。例如:(1)物理尺寸,如“每毫米綫數(或行數)”;(2)行列像素,用“像素/行×行/幅”錶示,如640像素/行×480行/幅;(3)像素總數,如在手機的相機上標的“1600萬像素”;(4)單位長度(麵積)的像素,如像素每英寸(PixelsPerInch,PPI);(5)綫對(linepair)數,以黑白相鄰的兩條綫為一對,如“每毫米10綫”錶示黑綫和白綫相間的5對綫;(6)像素深度(見5.3.2節)。
在圖像數字化和打印應用中,通常要指定圖像的分辨率,用每英寸多少點(DotsPerInch,DPI)錶示。如果用300DPI來掃描一幅8″×10″的彩色圖像,就得到一幅2400×3000個像素的圖像。分辨率越高,像素就越多。
圖像分辨率與屏幕分辨率是兩個不同的概念。從行列像素角度看,圖像分辨率是構成一幅圖像的像素數目,而屏幕分辨率是顯示圖像的區域大小。例如,如果屏幕分辨率為640×480,那麼一幅320×240像素的圖像隻占顯示屏的1/4;相反,2400×3000像素的圖像在這個顯示屏上就不能顯示其完整的畫麵。
5.3.2像素深度與阿爾法(α)通道1.像素深度像素深度是指存儲每個像素所用的位數。例如,在電視圖像信號數字化時,記錄每個圖像樣本信號的位數為8、10、12或16位。8位錶示的分辨率是1/256,10位錶示的分辨率是1/1024。在這個意義上,像素深度也被認為是圖像分辨率的一種度量方法。
像素深度決定彩色圖像的每個像素可能有的顔色數,或者確定灰度圖像的每個像素可能有的灰度級數。例如,一幅彩色圖像的每個像素用R、G、B三個分量錶示,若每個分量用8位,那麼一個像素共用24位錶示,就說像素的深度是24,每個像素可以是224=16777216種顔色中的一種。在這個意義上,往往把像素深度說成是圖像深度。錶示一個像素的位數越多,它能錶達的顔色數目就越多,而它的深度就越深。
雖然像素深度或圖像深度可以很深,但各種VGA的顔色深度卻受到限製。例如,標準VGA支持4位16種顔色的彩色圖像,多媒體應用中通常推薦用8位256種顔色。由於設備的限製,加上人眼分辨率的限製,一般情況下,不一定要追求特彆深的像素深度。此外,像素深度越深,所占用的存儲空間也越大。相反,如果像素深度太淺,那也影響圖像的質量,圖像看起來讓人覺得很粗糙和很不自然。
2.α通道
在用二進製數錶示彩色圖像的像素時,除R、G、B分量用固定位數錶示外,往往還增加1位或幾位作為屬性(attribute)位。例如,RGB5∶5∶5錶示一個像素時,用2個字節共16位錶示,其中R、G、B各占5位,剩下最高1位(b15)作為屬性位,用來指定該像素應具有的性質,並把它稱為透明(transparency)位,記為T。T的含義可以這樣來理解:假如顯示屏上已經有一幅圖存在,如果要把另一幅圖重疊在它上麵,就可用T位來控製原圖是否能看得見。例如,可定義T=1,原圖完全看不見;T=0,原圖能完全看見。在這種情況下,屬性位T稱為1位α通道(alphachannel),像素深度為16位,而圖像深度為15位。
在每個像素用32位的圖像錶示法中,最高8位稱為8位α通道,用於錶示像素在對象中的透明度,其餘24位是顔色通道,紅色、綠色和藍色分量各占8位通道。這個由8位構成的α通道可看作是一個預乘數通道。因此,例如,一個像素(A,R,G,B)的四個分量都用規一化的數值錶示,當像素值為(1,1,0,0)時顯示紅色,當像素值為(0.5,1,0,0)時,使用α通道中的預乘數0.5與R、G、B相乘的結果就為(0.5,0.5,0,0),錶示原來該像素顯示的紅色強度為1,而現在顯示的紅色的強度為0.5。又如,用兩幅圖像A和B混閤成一幅新圖像(New),它的像素為:Newpixel=(alpha)(pixelAcolor)+(alpha)(pixelBcolor)。
用α通道描述像素屬性在實際中很有用。例如,在一幅彩色圖像上疊加文字說明,而又不想讓文字把圖覆蓋掉,就可用α通道,而又有人把該像素顯示的顔色稱為混閤色(keycolor)。在視像産品生産過程中,也往往把數字電視圖像和計算機生産的圖像混閤在一起,這種技術稱為視圖混閤(videokeying)技術,它也采用α通道。
5.3.3真僞彩色和直接色
瞭解真彩色、僞彩色與直接色的含義,對於編寫圖像顯示程序、理解圖像文件的存儲格式都有很大幫助,對“本來是用真彩色錶示的圖像,但在VGA顯示器上顯示的顔色卻不是原來圖像的顔色”這類現象也不會感到睏惑。
1.真彩色
真彩色(truecolor)是指每個像素的顔色值用紅(R)、綠(G)和藍(B)錶示的顔色。例如,用RGB5∶5∶5錶示圖像顔色,R、G、B各用5位,其值大小直接確定三個基色的強度,這樣得到的彩色是真實的原圖彩色。真彩色通常用24位錶示,因此也稱24位顔色(24�瞓itcolor)或全彩色(fullcolor),其顔色數目為224=16777216種。
2.僞彩色
僞彩色(pseudocolor)是指每個像素的顔色不是由每個基色分量的數值直接決定的顔色,而是把像素值當作彩色查找錶(ColorLook�睻pTable,CLUT)的錶項入口地址,去查找顯示圖像時使用的R、G、B值,用查找齣的R、G、B值産生的彩色稱為僞彩色。
彩色查找錶(CLUT)是一個事先做好的錶,錶項入口地址也稱為索引號。例如,在有256種顔色的查找錶中,0號索引對應黑色……255號索引對應白色。彩色圖像本身的像素數值和彩色查找錶的索引號有一個變換關係,這個關係可以使用Windows定義的變換關係,也可以使用你自己定義的變換關係。使用查找得到的數值顯示的彩色是真的,但不是圖像本身真正的顔色,它沒有完全反映原圖的顔色。
3.直接色
每個像素值由R、G、B分量構成,每個分量作為單獨的索引值對它做變換,也就是通過相應的彩色變換錶找齣基色強度,用變換後的R、G、B強度值産生的顔色稱為直接色(directcolor)。它的特點是對每個基色進行變換。
5.4圖像的種類[��4/5]5.4.1矢量圖與位圖在計算機中,錶示圖像的常用方法有兩種,一種稱為矢量圖法,生成的圖像叫作矢量圖(vectorgraphics),另一種稱為位圖法,生成的圖像叫作位圖(bitmap或bitmappedimage)。雖然這兩種圖像的錶示方法不同,但在顯示器上顯示的結果幾乎沒有差彆。
1.矢量圖
矢量圖是用一係列計算機指令描繪的圖,如點、綫、麵、麯綫、圓、矩形以及它們的組閤,如圖5��4(a)所示。這種方法實際上是用許多數學錶達式描述一幅圖,再用計算機語言來錶達,在顯示圖像時,還可看到畫圖的過程。繪製和顯示這種圖的軟件通常稱為繪圖程序(drawprograms),存放這種圖的存儲格式稱為矢量圖格式,存儲的數據主要是繪製圖形的數學描述。
矢量圖有許多優點。例如,目標圖像的移動、縮小或放大、鏇轉、拷貝、屬性(如綫條變寬變細、顔色)變更都很容易做到;相同的或類似的圖可以把它們當作圖的構造塊,並把它們存到圖庫中,這樣不僅可加速矢量圖的生成,而且可減小矢量圖的文件大小。
然而,對於真實世界的彩照,恐怕就很難用數學方法來描述,這就要用位圖法錶示。
……
前言
《多媒體技術基礎》第3版教材於2008年定稿齣版發行。從技術上看,當時許多新技術正處在開發和試驗過程中,如H.265/HEVC、移動多媒體等技術,現已趨成熟。從國外的多媒體技術課程來看,教學內容已不再局限於多媒體本身,已經擴展到多媒體係統。
“多媒體係統”這個名稱已在科學技術文獻中頻繁齣現,越來越多地把它作為學術雜誌的名稱、學術會議的名稱、教科書的名稱,國外許多高等院校把它作為本科生、研究生的課程名稱。從多媒體係統角度考慮,本版教材在內容上做瞭較大幅度的增減,使《多媒體技術基礎》更趨完整,可把它理解為“多媒體係統的技術基礎”。
一、教材內容的組織
與第3版相比,《多媒體技術基礎》第4版教材變動較大的部分如下:
(1)增加瞭字符編碼和字體技術,係統介紹瞭漢字編碼的過去和現在,彌補瞭過去多媒體教材沒有字符技術的遺憾。
(2)參照國外多媒體係統課程的教學大綱,較係統地介紹瞭多媒體互聯網絡,包括網絡互聯和寬帶接入因特網的技術基礎。寬帶接入包括有綫寬帶、無綫寬帶和移動寬帶接入,技術基礎包括有綫和無綫數據通信學科方麵的知識。
(3)為減少教材篇幅,第3版中的不少內容沒有保留,但仍然有參考價值,如介紹HTML和XML的多媒體內容處理語言。
《多媒體技術基礎》第4版教材的內容組織成如下三個部分。
第一部分:多媒體壓縮和編碼(第2~14章),介紹文字、聲音、圖像和數字電視媒體的基本知識、壓縮技術和編碼方法。
第二部分:多媒體光盤存儲技術(第15~17章),介紹CD、DVD、HD�睤VD和藍光盤的存儲原理和存儲格式。
第三部分:多媒體網絡(第18~32章),以多媒體網絡應用和服務質量(QoS)為中心,介紹計算機網絡、寬帶(有綫、無綫和移動)接入因特網的基礎知識。
每章均附有練習和思考題,用於輔助讀者掌握本章的要點;每章內容的來源都列齣瞭參考文獻和站點,讀者可用於加深對教材內容的理解和擴大知識麵。
二、教材的使用建議
本版教材係統介紹瞭多媒體係統的核心技術,在內容上力求選用相對成熟和實用的新技術,在技術原理闡述和解釋上力求清楚準確。
為保持多媒體技術基礎教材內容的係統性和完整性,本教材不免與其他學科教材有些交集。此外,教材中包含許多技術背景和技術細節,目的是為更好地理解技術原理。在上述思想指導下,使本教材的篇幅較大。
對本教材的使用,編者還是建議,教師有所教有所不教,學生有所學有所不學。具體建議詳見本教材第3版前言。
三、衷心感謝
《多媒體技術基礎》由林福宗主持編寫,參加編寫工作的教授、專傢和高級程序員有黃民德、汪健如、黃國健、林彩榮和張哲等。特彆感謝中國科學院院士、清華大學張鈸教授長時期的直接指導和各方麵給予的實質性支持;感謝我們課題組所有老師和碩博研究生為本教材所做的貢獻;感謝使用本教材的師生和技術人員給予我們的熱情鼓勵和提齣的寶貴建議。
林福宗
退休單位:清華大學計算機科學與技術係
電子郵件地址:linfz@mail.tsinghua.edu.cn
2017年3月1日第3版前言
本教材第2版於2001年定稿,2002年9月第一次印刷。當時許多新技術還沒有齣現或正在開發之中,如MPEG��4AVC/H.264(2003年)和XML1.1(2006年)。有些當時認為比較有前途的技術,現在已經更新,如普遍認為2002年公布的SIP(RFC3261)比1996年公布的H.323更簡單。根據筆者過去幾年的科研、教學和觀察,教材中的大部分內容都適閤當前使用,因此確定第3版教材的修改方針是保留第2版的體係結構、更新部分章節內容和增加新內容。
一、教材的組織結構
為保持多媒體技術基礎課程內容的完整性,第3版教材仍由多媒體壓縮和編碼、多媒體存儲、多媒體傳輸和多媒體內容處理語言共四個相對獨立的部分組成。
第一部分:多媒體壓縮和編碼(第2~13章),主要介紹聲音、圖像和數字電視的基本知識、壓縮與編碼方法。
第二部分:多媒體存儲(第14~16章),主要介紹CD、DVD、HD�睤VD和BD(Blu�瞨ayDisc)光盤的存儲原理和多媒體在光盤上的存放格式。
第三部分:多媒體傳輸(第17~20章),主要介紹多媒體網絡應用、服務質量(QoS)、因特網、TCP/IP協議和多媒體傳輸的基礎知識。
第四部分:多媒體內容處理語言(第21~22章),主要介紹HTML和XML的基礎知識。
為幫助讀者加深對基礎知識的理解,每章後麵都有練習和思考題,但這些題目沒有難度,教師可增加一些有一定深度的練習和思考題。
每章後麵都有參考文獻和站點,列齣它們有兩個目的:(1)錶示在編寫本教材過程中訪問過相關站點,參考或引用瞭相關內容;(2)更重要的是為讀者提供進一步學習的指南,教師要鼓勵學生主動上網查閱。雖然到本書截稿時每個網址都有效,但以後可能會有變化。
二、教材修改的內容
在第2版教材基礎上,第3版教材做瞭如下修改:
(1)考慮到視像壓縮技術在多媒體産品和各種服務中的重要性,因此增加瞭一章專門用來介紹MPEG��4AVC/H.264。此外,考慮到光盤存儲器在多媒體存儲方麵的重要性,因此增加瞭HDDVD和Blu�瞨ayDisc的內容。
(2)考慮到網上多媒體應用如火如荼,如IP電視、IP電話、即時通信和多媒體會議,因此重寫瞭第三部分(第17~20章),突齣瞭多媒體傳輸或稱多媒體通信技術。
(3)考慮到20世紀90年代末期開展的內容處理已成為重要的研究方嚮,因此在第22章(XML語言)中增加瞭XML新版本的內容。HTML和XML等標準已經並將繼續對日益增長的包括移動通信在內的多媒體網絡應用和多媒體電子齣版業等行業産生深遠的影響。
(4)為降低教材篇幅,第2版中的部分內容沒有保留,如MIDI係統。
(5)XHTML是用XML重寫的HTML版本,2008年1月介紹的HTML5(也稱XHTML5)也是用XML編寫的。因此本版教材沒有保留第2版中的第23章(XHML語言)。
三、教材的使用建議
國內許多大學開設多媒體技術課程已有多年,在網上看到許多兄弟院校在教材建設和課程教學方麵已有很多很好的經驗,在學習和藉鑒他們成功經驗的基礎上,為使用或打算使用本教材的老師和同學提齣如下建議供參考。
1.有所教有所不教
在編寫本教材過程中筆者注意到,國外有些信息技術學院從本科到研究生階段,每個年級都開設內容不同、深淺不同的多媒體課程,既有廣度又有深度。考慮到我國目前的多媒體課程教學計劃一般隻安排一個學期,學時也不多,因此教師可采用有所教有所不教和有所學有所不學的策略。任課教師可根據自己的興趣和專長、學生已有的基礎和專業方嚮,有的放矢地選擇其中的部分內容。對於不作為重點的教學內容,如果有需要,學生自己就會主動去鑽研。
2.教材作為參考書
對於信息技術課程的教材來說,寫進正式齣版的教材的內容通常是比較成熟的,即使是剛剛齣版的教材,其內容也不一定新。據觀察,許多大學的多媒體課程內容是當前最新的技術,教師都有自己編寫的教學提綱和材料,而把正式齣版的教科書列為必要的參考材料加以推薦。這不是說正式齣版的教材不重要,而是通過教授新技術來帶動基本原理的學習。其結果是學的內容先進,學的基礎紮實。
本教材共22章,比較係統地介紹多媒體技術。筆者有意使本教材覆蓋多方麵的重要技術,努力選取相對比較新的和實用的技術,力圖對多媒體技術原理解釋清楚和準確。因此可把本教材作為多媒體技術課程的起點,在此基礎上教授最新的技術。
3.用課程設計驅動
凡任課教師都很清楚,教一本書不等於開設一門課程。為配閤我校加強實踐教學的教學改革,更好地激勵學生學習基礎理論和技能的積極性,清華大學齣版社齣版瞭經過多年實際使用的《多媒體技術課程設計與學習輔導》。學生對課程設計反響強烈,由於嚴格實施“允許參考不許抄襲”的措施,學生普遍認為真正學到瞭知識。
輔助教材擬瞭多個難易程度不同的設計題目,每個題目都有原理介紹和示例。為便於學生撰寫和教師評估課程設計報告,規範瞭課程設計報告的格式。由於設計題目的難度不大,任課教師可根據情況,從中選擇一個或兩個題目,也可在輔助教材所列的“參考選題”或其他參考選題中增加或更改設計題目。課程設計要求使用MATLAB語言來實現,因為MATLAB是攻讀學位的大學生、碩士生和博士生必須掌握的基本工具。
4.用評估係統引導
評估係統是一個無形的指揮棒,可以引導學生的學習方嚮。教授本教材是多媒體技術基礎課程中的一個部分,而課程設計是課程的另一個重要組成部分。因此筆者的課程評估采用瞭“基礎知識書麵開捲考試約占50%,課程設計約占50%”的方法,但對不同專業的學生可以在評估標準或在所占分數的比例上加以調整。
5.教學輔助材料
為本教材準備的電子版的輔助材料有四個部分:(1)練習與思考題參考答案;(2)課程設計參考答案;(3)正式齣版的本教材中的插圖,為製作電子版講課提綱提供方便;(4)講課提綱(PPT格式)。這些材料可在清華大學齣版社的網站上下載,也可在http://www.csai.tsinghua.edu.cn/linfzmmc/上下載。
四、關於中文術語
隨著信息科學和技術日新月異,新術語不斷湧現,同時也給一些老術語賦予瞭新的含義,使用準確的術語有利於信息的交流。為使本教材中的中文術語盡量準確,筆者查閱瞭許多著名的英文詞典,閱讀瞭許多相關的科學和技術文獻,參考瞭全國科學技術名詞審定委員會2002年公布的《計算機科學技術名詞》。
在本教材中,有幾個常用術語有必要在此說明:(1)用“視頻”作為video的釋義是物理概念上的錯誤。video的真實含義是由一係列圖像組成的(電)視(圖)像,確切的中文譯名應該是“視像”。“視頻(videofrequency)”是電視信號頻率的簡稱,在ITU�睷BT.601標準中,頻率範圍是0~6.75MHz。(2)不論什麼場閤,用“音頻”作為audio的釋義也是物理概念上的錯誤。audio是指人的聽覺係統可感知的聲音,是聲音(sound)的同義詞,作名詞時的確切中文術語應該是“聲音”。“音頻(audiofrequency)”是聲音信號頻率的簡稱,頻率範圍通常認為是15~20000Hz。(3)“分組交換(packetswitching)”是一個不確切的中文術語。“packet”的含義是一個由收、發送地址和實際數據組成的“數據包”,確切的術語應該是“包交換”。(4)“組播(multicast)”是一個容易被誤認為“收發關係顛倒”的術語,本教材使用“多目標廣播”。盡管我們習慣使用2~3個字構成的術語,但“多目標廣播”是顧名就可思義的術語,即一個發送者嚮多個接收者(多目標)傳送(廣播)數據的意思。
五、衷心感謝
特彆感謝中國科學院院士張鈸教授多年來的直接指導和各方麵給予的實質性支持;衷心感謝我們課題組(智能多媒體組)所有老師和碩博研究生為本教材所做的貢獻;衷心感謝使用本教材的老師和學生給予我們的熱情鼓勵和提齣的寶貴建議。
參加本教材編寫工作的有林彩榮、硃高建、硃高東、黃民德和謝霄艷,他們在多媒體語言、程序設計、多媒體通信、教育技術、軟件評估、科研和教學方麵都有各自的專長。
林福宗
清華大學計算機科學與技術係
智能技術與係統國傢重點實驗室
電子郵件地址:linfz@mail.tsinghua.edu.cn
2008年10月15日
好。
评分好。
评分好。
评分好。
评分好。
评分好。
评分好。
评分好。
评分好。
本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 tushu.tinynews.org All Rights Reserved. 求知書站 版权所有