【正文】
本的特性是語(yǔ)音信號(hào)是帶限的。語(yǔ)音信號(hào)的帶限特性使信號(hào)的模數(shù)轉(zhuǎn)換成為可能,同時(shí)前面提及的各種特性使量化操作(另一個(gè)在語(yǔ)音編碼中很重要的處理)能以很高的效率實(shí)現(xiàn)。語(yǔ)音信號(hào)的 PDF 的一般特性是:在近零幅度處高概率分布,在幅度很高處低概率分布。但是確切的分布依賴于輸入帶寬和錄音條件。()px (1-1)1()exp(2/)xpx????注意到這個(gè)函數(shù)表明在零值時(shí)有一個(gè)最大值,這是由于語(yǔ)音經(jīng)常性的暫停以及低頻語(yǔ)音成分的存在。為了保持輸入信號(hào)的 PDF 與量化電平分布相匹配,采用非均勻量化(包括矢量量化)方法,在高概率分布的地方安排更多的量化電平,而在概率低的地方安排較少的電平。這就表明了,對(duì)每一個(gè)語(yǔ)音抽樣,有很大的成分可以從以前的抽樣值中預(yù)測(cè),而且僅有很小的隨機(jī)誤差。自相關(guān)函數(shù)(ACF)是信號(hào)抽樣值之間的作為抽樣時(shí)間間隔函數(shù)相似性的定6 / 45量測(cè)試。自相關(guān)函數(shù)按照語(yǔ)音信號(hào)的方差歸一化,()X這樣,它的值在{1,1}范圍內(nèi),且 。(1)C 功率譜密度函數(shù)(PSD)語(yǔ)音功率譜密度的非平坦特性,能夠用來在頻域內(nèi)明顯低壓縮語(yǔ)音編碼。典型語(yǔ)音的長(zhǎng)期平均 PSD 表明高頻部分對(duì)整個(gè)語(yǔ)音能量作用很小。雖然高頻部分對(duì)能量作用不顯著,但它也攜帶了語(yǔ)音信息,這樣也需要在編碼中充分表現(xiàn)出來。SFM 被定義為 PSD 在頻域軸上均勻間隔抽樣點(diǎn)的算術(shù)平均與幾何平均的比值。語(yǔ)音信號(hào)的長(zhǎng)期KSSFM 的典型值為 8,而短期值在 2-500 之間。7 / 45濁音有稱為有聲音,英語(yǔ)中的元音和漢語(yǔ)中的韻母都是濁音。聲帶振動(dòng)的頻率稱為基音頻率 ,周期為基音周期 ,bf pT基音頻率 一般在 70~300Hz 的范圍之內(nèi),相當(dāng)于 為 3~15ms。pT清音又稱無聲音,英語(yǔ)中的大多數(shù)輔音和漢語(yǔ)拼音中的大多數(shù)聲母都是清音。發(fā)清音時(shí)聲帶不振動(dòng),此時(shí)是由湍流建立的寬帶噪音源激勵(lì)著聲道。 語(yǔ)音編碼的基本概念語(yǔ)音編碼技術(shù)通常分為三類:波形編碼、參數(shù)編碼和混合編碼,其中波形編碼和參數(shù)編碼是兩類基本類型。波形編碼的基本原理是在時(shí)間軸上對(duì)模擬信號(hào)按奈奎斯特定律所確定的速率進(jìn)行抽樣,然后將幅度樣本分層量化,并用二進(jìn)制代碼表示。解碼是其反過程,將收到的數(shù)字序列經(jīng)過解碼和濾波恢復(fù)成模擬信號(hào)。但對(duì)于低速率語(yǔ)音編碼信號(hào)(即是比特率低于 16kbit/s) ,波形編碼的話音質(zhì)量顯著下降。M? 參數(shù)編碼參數(shù)編碼,又稱為聲源編碼或聲碼器,有時(shí)又稱為分析—綜合編碼,它是將信源信號(hào)在頻率域或其他正交變換域提取特征參數(shù),并將其變換成二進(jìn)制數(shù)字代碼進(jìn)行傳輸。解碼實(shí)為反過程,將接收到的數(shù)字信號(hào)經(jīng)變換恢復(fù)特征參數(shù),根據(jù)這些特征參數(shù)重建語(yǔ)音信號(hào)。在發(fā)送端從模擬信號(hào)中提取各個(gè)特征參數(shù)并進(jìn)行量化編碼。參數(shù)編碼通過對(duì)語(yǔ)音信號(hào)特征參數(shù)的提取和編碼,力求使重建語(yǔ)音信號(hào)具有盡可能高的可懂度,即保持原語(yǔ)音信號(hào)的語(yǔ)意,但重建語(yǔ)音信號(hào)的波形與原語(yǔ)音信號(hào)波形卻相差甚遠(yuǎn)。線性預(yù)測(cè)編碼(LPC)及其各種改進(jìn)型都屬于參數(shù)編碼。語(yǔ)音編碼器波形編碼器參數(shù)編碼器時(shí)域 頻域L P C聲碼器非差分 差分S B C A T CP C M A D P C MC V S D M A P C增益9 / 45圖 1-1 語(yǔ)音編碼器的分類 混合編碼混合編碼是近二十年提出的一種新的語(yǔ)音編碼技術(shù),它將波形編碼和參數(shù)編碼結(jié)合起來,既保持了波形編碼的高質(zhì)量和參數(shù)編碼的低速率的優(yōu)點(diǎn),又克服了兩者各自的不足。混合編碼技術(shù)在現(xiàn)代通信系統(tǒng)中得到廣泛應(yīng)用?;旌暇幋a技術(shù)仍然處于迅速發(fā)展之中,目前仍有許多新的編碼算法不斷出現(xiàn)。一般說來,信息壓縮技術(shù)可分為兩大類:波形處理技術(shù)和量化技術(shù)。量化技術(shù)的目標(biāo)是在幅度量化上實(shí)現(xiàn)優(yōu)化,包括自適應(yīng)量化,自適應(yīng)比特分配和矢量量化。10 / 45線性預(yù)測(cè)時(shí)間分割頻帶分割正交變換分析合成殘差脈沖模型化A P CA D P C MS B CA P C A BA T CT C W V QM P CC E L P自適應(yīng)量化自適應(yīng)比特分配矢量量化波形處理技術(shù) 編碼方式 量化技術(shù)圖 12 語(yǔ)音編碼方式和信息壓縮技術(shù) 語(yǔ)音質(zhì)量的評(píng)價(jià)在語(yǔ)音編碼技術(shù)中,對(duì)語(yǔ)音質(zhì)量的評(píng)價(jià)是一個(gè)重要的問題。目前,廣泛采用的評(píng)定方法是所謂的主觀評(píng)定等級(jí)(Subjective Opinion Scale),也稱為平均得分(Mean Opinion Score,MOS) 。需要指出的是,聽者對(duì)語(yǔ)音質(zhì)量的主觀感覺往往是其注意力集中的程度相聯(lián)系的,因而,對(duì)應(yīng)于主觀評(píng)價(jià)等級(jí),還有一個(gè)收聽注意力等級(jí)(Listening Effort Scale) 。表 13 主觀評(píng)定等級(jí)MOS 判分 質(zhì)量級(jí)別 收聽注意力等級(jí)5 優(yōu) 可完全松弛,不需要注意力4 良 需要注意,但不需要明顯集中精力3 滿意 需要中等程度注意力11 / 452 差 需要集中注意力1 劣 即使努力去聽,也很難懂實(shí)際上,任何語(yǔ)音編碼都必須滿足質(zhì)量等級(jí)和收聽注意力等級(jí)兩者的最小要求,而在評(píng)價(jià)一種編碼時(shí),可僅基于質(zhì)量等級(jí)。得分在 分左右稱為達(dá)到通信質(zhì)量的語(yǔ)音編碼,這時(shí)聽者能感到重建話音質(zhì)量有所下降,但不影響正常通話,可以滿足多數(shù)話音通信系統(tǒng)的使用要求。這種語(yǔ)音一般具有足夠高的可懂度,但自然度較差,不容易識(shí)別出講話者。這是一種典型的波形編碼技術(shù),主要用于有線電話網(wǎng),它的話音質(zhì)量好,可以與模擬語(yǔ)音相比,達(dá)到網(wǎng)絡(luò)質(zhì)量。當(dāng)速率從32kbit/s 至 40kbit/s 時(shí),語(yǔ)音質(zhì)量較好。還有一種實(shí)用系統(tǒng)是 ,這是典型的參量編碼技術(shù),優(yōu)點(diǎn)是速率低。在數(shù)字通信發(fā)展的推動(dòng)下,語(yǔ)音編碼技術(shù)的研究進(jìn)展迅速,提出了眾多適合于數(shù)字移動(dòng)通信的編碼技術(shù)。二是提高語(yǔ)音編碼質(zhì)量,這主要是針對(duì)速率低但語(yǔ)音質(zhì)量較差的參數(shù)編碼,特別是對(duì) 。這些編碼的速率從 至 32kbit/s,語(yǔ)音質(zhì)量也較好。所以,它們已不是單純的波形編碼,而屬于混合編碼。為改進(jìn)參數(shù)編碼語(yǔ)音質(zhì)量,提出多脈沖激勵(lì)線性預(yù)測(cè)編碼(MPELPC) 、規(guī)則脈沖激勵(lì)線性預(yù)測(cè)編碼(RPELPC) (GSM 系統(tǒng)的語(yǔ)音編碼技術(shù))等。這些編碼方式已不再屬于單純的參數(shù)編碼。其中,在 CDMA 系統(tǒng)中使用的碼本激勵(lì)線性預(yù)測(cè)編碼(CELP)也是近年來提出的較好的編碼技術(shù)。另一類是所謂中速率編碼器,速率從 在語(yǔ)音編碼技術(shù)的發(fā)展中,特別要提及的是數(shù)字信號(hào)處理器(DSP)的出現(xiàn)和應(yīng)用。DSP 的出現(xiàn)改變了這種狀況,許多復(fù)雜算法的實(shí)現(xiàn)已成為可能。13 / 452 4 8 1 6 3 2 6 4B a d 1P o o r 2F a i r 3G o o d 4 E x c e l l e n t 5MOS 分??G . 7 2 8G . 7 2 1G . 7 1 1P C M聲碼器速率( k b / s )波形編碼混合編碼研究目標(biāo)G . 7 1 1 . 6 4 k b / s P C MG . 7 2 1 . 3 2 k b / s A D P C MG . 7 2 8 . 1 6 k b / s L D C E L P圖 14 語(yǔ)音質(zhì)量與比特率關(guān)系將各種編碼技術(shù)的語(yǔ)音質(zhì)量與比特速率的關(guān)系都畫在一張圖中,可顯示語(yǔ)音編碼技術(shù)的概貌,見圖 1-4。圖中用實(shí)線給出了 PCM、ADPCM,線性預(yù)測(cè)編碼 LPC聲碼器以及混合編碼器的質(zhì)量-速率曲線。可以看出,目前語(yǔ)音編碼的研究目標(biāo)是在 4kbit/s 至 16kbit/s 的速率范圍內(nèi)達(dá)到較高的語(yǔ)音質(zhì)量(MOS 分為 ) 。此外,近年來在數(shù)字聲廣播、消費(fèi)電子技術(shù)以及電話會(huì)議迅速發(fā)展的推動(dòng)下,語(yǔ)音編碼也在朝著寬頻帶高音質(zhì)聲頻編碼的方向發(fā)展。14 / 45第二章 移動(dòng)通信特點(diǎn)對(duì)語(yǔ)音編碼技術(shù)的要求 無線通信信道的條件在數(shù)字移動(dòng)通信中,由于無線信道的信道特點(diǎn),會(huì)對(duì)所傳輸?shù)臄?shù)字信號(hào)帶來各種影響,造成通信的準(zhǔn)確性下降。 頻率資源有限在移動(dòng)通信系統(tǒng)中,信道帶寬是很珍貴的,如何在有限的可分配的信道帶寬內(nèi)容納更多的用戶,成為移動(dòng)業(yè)務(wù)提供商所面臨的問題。在編碼器能夠傳送高質(zhì)量語(yǔ)音的前提下,如果比特率越低,那么在一定的信道帶寬內(nèi)能容納更多的語(yǔ)音信道。它反映了中等范圍內(nèi)數(shù)百波長(zhǎng)量級(jí)接收電平的均值變化而產(chǎn)生的損耗,一般遵從對(duì)數(shù)正態(tài)分布,其變化率較慢故稱為慢衰落。所謂選擇性是指在不同的空間,不同的頻率和不同的時(shí)間其衰15 / 45落特性是不一樣的。 編碼技術(shù)特點(diǎn) 另外從用戶的辨別和舒適角度出發(fā),還應(yīng)該有較好的語(yǔ)音質(zhì)量和較短的遲延。5.算法復(fù)雜程序適中,應(yīng)易于大規(guī)模電路集成。那么就有一種想法:能不能吸收波形編碼語(yǔ)音質(zhì)量好和參數(shù)編碼低速率編碼這兩個(gè)優(yōu)點(diǎn),提出一種新的語(yǔ)音編碼技術(shù)。參數(shù)編碼語(yǔ)音質(zhì)量較差的原因是其激勵(lì)函數(shù)比較粗糙,僅采用清音和濁音這種簡(jiǎn)單的激勵(lì)模型,而實(shí)際語(yǔ)音是比較復(fù)雜的,這樣就失去了許多的信息。這些方法不盡相同,但主要思路是一致的:即構(gòu)成更精確的激勵(lì)模型,作為語(yǔ)音合成器的激勵(lì)源。16 / 45這種系統(tǒng)包括了兩種不同的傳輸途徑。另一條路徑濾出波形信號(hào)的低頻部分,并進(jìn)行通常的波形編碼傳送出去。語(yǔ)音信號(hào)的低頻部分包括所有有關(guān)激勵(lì)源的必要信息。因此用這種方法產(chǎn)生激勵(lì)信號(hào)就不需要進(jìn)行濁/清音判決和基音周期提取。由于改善了激勵(lì)信號(hào),使之含有更多的語(yǔ)音信息,所以聲激勵(lì)聲碼器的語(yǔ)音質(zhì)量改善了許多,并且對(duì)于不同的說話者和傳輸條件,語(yǔ)音質(zhì)量更加一致。也就是說,它屬于混合編碼。數(shù)字蜂窩移動(dòng)系統(tǒng)中實(shí)用語(yǔ)音編碼技術(shù)均采用混合編碼。GSM 系統(tǒng)中的 RPELTP 編碼技術(shù)采用規(guī)則脈沖作激勵(lì)源,而 CDMA 系統(tǒng)中使用的 QCELP 編碼技術(shù)采用碼本激勵(lì)的方法。目前它用于泛歐蜂窩移動(dòng)通信系統(tǒng)。RPELTP 采用間隔相等、相位和幅度優(yōu)化的規(guī)則脈沖作為激勵(lì)信號(hào)源,以便使合成波形接近于原信號(hào)。同時(shí),其算法簡(jiǎn)單,計(jì)算量適中,易于硬件實(shí)現(xiàn)。發(fā)送端首先進(jìn)行語(yǔ)音檢測(cè),將每個(gè)時(shí)間段分為有聲段和無聲段。發(fā)射機(jī)采用不連續(xù)發(fā)射的方式工作,即僅在包含語(yǔ)音幀的時(shí)間段內(nèi)才打開發(fā)射機(jī)。語(yǔ)音編碼器的輸入信號(hào)為速率 8000 樣本/秒的語(yǔ)音信號(hào)抽樣序列。 RPELTP 編碼器RPELTP 編碼器包括預(yù)處理、線性預(yù)測(cè)分析、短時(shí)分析濾波、長(zhǎng)時(shí)預(yù)測(cè)18 / 45及規(guī)則激勵(lì)碼編碼等五部分,每部分中又包括若干處理過程。預(yù)加重 分幀L P C 分析濾波器直流失調(diào)補(bǔ)償 自相關(guān)S c h u r迭代算法反射系數(shù)長(zhǎng)時(shí)分析長(zhǎng)時(shí)參數(shù)編碼器A P C M 逆量化器 R P E 網(wǎng)格位置恢復(fù) 對(duì)數(shù)面積比L A R編碼器L A R解碼器插值長(zhǎng)時(shí)參數(shù)解碼器 ?信號(hào)參數(shù)輸出參數(shù) A C F預(yù)處理 L P C 分析 短時(shí)分析濾波 長(zhǎng)時(shí)預(yù)測(cè) R P E 編碼ds0 ZN?rL A R39。39。ec CxmacM??39。39。x39。圖 31 GSM 系統(tǒng)的 RPELTP 編碼器原理框圖各部分的功能介紹如下:(1) 預(yù)處理部分語(yǔ)音信號(hào)進(jìn)行編碼前先要經(jīng)過預(yù)處理,以消除信號(hào)中的直流分量并進(jìn)行高頻分量預(yù)加重。這部分包括了兩個(gè)子處理塊:偏移補(bǔ)償和預(yù)加重。()ofSk2.預(yù)加重信號(hào) 經(jīng)過一階 FIR 濾波器進(jìn)行預(yù)加重,得到信號(hào) 再進(jìn)行分析()of ()Sk19 / 45處理。這部分包括五個(gè)子處理器:分幀、自相關(guān)、Schur 遞歸、反射系數(shù)映射至對(duì)數(shù)面積比變換以及對(duì)數(shù)面積比的量化編碼。每幀長(zhǎng)度為 ,()Sk 02Tms?含有 160 個(gè)樣本。2.自相關(guān)編碼器采用自相關(guān)法求解 LPC 參數(shù),由信號(hào) 求出自相關(guān)值 。在這里,反射系數(shù)就是線性濾波器的參數(shù)。()1ri?為了按合理的方式配置固定的量化比特,對(duì)其進(jìn)行變換,變換后的參數(shù)稱為對(duì)數(shù)面積比。當(dāng)采用這組參數(shù)時(shí),每個(gè)對(duì)數(shù)面積比只需要 5 至 6bit,即可保證一定的語(yǔ)音質(zhì)量。 表示 量化和整數(shù)編碼后的值。()CLARi(3)短時(shí)分析濾波語(yǔ)音信號(hào)的當(dāng)前幀樣本一直保存再存儲(chǔ)器中直到完成 LPC 參數(shù) 的()LARi計(jì)算。濾波器系數(shù)是前一階段 LPC 分析所得到的 經(jīng)過解碼、插值及反變換求出來的。1.量化對(duì)數(shù)面積比的解碼這一模塊就是將已量化編碼的對(duì)數(shù)面積比參數(shù)解碼還原成抽樣值 。()LARi2.對(duì)數(shù)面積比插值為了使處理后語(yǔ)音信號(hào)各幀之間能夠平滑地銜接,需要對(duì)恢復(fù)后的預(yù)測(cè)參數(shù)進(jìn)行線性插值,這涉及到相鄰兩幀的參數(shù)。39。 39。()ri(4)長(zhǎng)時(shí)預(yù)測(cè)一般來說,經(jīng)過短時(shí)預(yù)測(cè)就可以了。在這里,處理是按子幀進(jìn)行的,每個(gè)幀分為四個(gè)子幀,每個(gè)子幀含 40 個(gè)樣本。21 / 45(5)規(guī)則脈沖編碼長(zhǎng)時(shí)余量信號(hào) 被送入這一部分進(jìn)行規(guī)則脈沖激勵(lì)序列的提取跟編碼,()ek此后的處理也是按子幀進(jìn)行。選擇 4 個(gè)子序列中能量最大的一個(gè)作為 RPE 脈沖序列,經(jīng)自適應(yīng) PCM(APCM)量化編碼后發(fā)送出去。上面的信息同時(shí)回送本地 RPE 解碼和maxX重建模塊以恢復(fù)長(zhǎng)時(shí)余量信號(hào) 。()ek39。39。加權(quán)濾波后的信號(hào)記()e為 。由于在抽取位置上可以有四種不同的非零樣點(diǎn)序列,稱之為網(wǎng)格位置 M,將能量最大的子序列 的網(wǎng)格位置 M 用 2bit 量化為 。再將 13 個(gè)非零樣點(diǎn)做歸一化處理,即最大樣值為 1,其他樣值均小于 1。這樣,預(yù)測(cè)誤差信號(hào)每 20ms 共編碼22 / 454(6+39 ) =180 比特。解碼過程中要用到最大值 。(),?, , 39。()micM時(shí)余量信號(hào) 。()ek39。