freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

語音識別的特征參數(shù)的提取與研究的畢業(yè)論文(編輯修改稿)

2025-07-16 13:41 本頁面
 

【文章內(nèi)容簡介】 個采樣值的平方,然后通過一個激勵響應(yīng)為的濾波器,最后輸出能量序列,這里中。(2)首先計(jì)算原始語音信號各個采樣值的平方,然后用一個移動窗選取出一個一個的短時平方序列,并將各短段的平方值求和得到短時能量序列。 不同窗函數(shù)的選擇將決定短時平均能量的性質(zhì)。一般窗函數(shù)是中心對稱的,用得比較多的是矩形窗和哈明窗。 選擇的原則是:使得短時能量既能及時跟蹤語音能量的緩變規(guī)律,同時又要對語音振幅一個基數(shù)周期周期內(nèi)的瞬間變化有顯著平滑的作用。 短時平均能量的主要用途是:,因?yàn)闈嵋魰rE。值比清音時大得多。,無聲與有聲的分界,連字的分界等。對于高信噪比的語音信號,E用來區(qū)分有無語音。此時,無語音信號的噪聲能量很小,而有語音信號的E顯著地增大到某一個數(shù)值,由此可區(qū)分語音信號的開始和終止點(diǎn)。,用于語音識別中。 不同窗長,矩形窗和漢明窗短時量,從圖中可以看出,窗長取32點(diǎn)時,所得的能量曲線不夠平滑,窗長取128點(diǎn)時比較合適,曲線比較平滑,而且保留了細(xì)節(jié)變化。另外,對比128點(diǎn)的矩形窗與漢明窗的圖形可以看出,漢明窗的輸出曲線優(yōu)于矩形窗,其主要原因是漢明窗主瓣較寬約大于矩形窗的一倍,但是它的旁瓣衰減較大,具有更平滑的低能特性,能夠較好地反映短時信號的頻率特性。另外,從加128點(diǎn)漢明窗計(jì)算出的短時能量值與原始語音對照,可看出濁音對應(yīng)的短時能量高,清音對應(yīng)的短時能量低,無聲語音的短時能量為零。信號的幅度值從正值到負(fù)值要經(jīng)過零值,從負(fù)值到正值也要經(jīng)過零值,稱其為過零,統(tǒng)計(jì)信號在一秒鐘內(nèi)有幾次過零,就稱為過零率,這一秒鐘就是一個單位時間(還可以有其他單位時間)。如果信號按段分割,就稱為短時,把各段信號的過零率作統(tǒng)計(jì)平均年,就是短時平均過零率。語音信號X(n)的平均過零率: (29)式中,是符號函數(shù)短時平均過零率在語音信號分析中應(yīng)用最多的是清/濁音判決。發(fā)濁音時身帶振動,這個振動頻率的聲壓波在聲道中共振,盡管有若干個共振峰,但其能量集中于低于3KHz的頻率范圍內(nèi);反之,發(fā)清音時,身帶不振動,聲道的某部分阻塞氣流產(chǎn)生類白噪聲,其能量集中于較高的頻率范圍。因此用過零率可以定量地分析清/濁音。 一句語音的短時平均能量及短時平均過零率短時過零率可應(yīng)用于語音信號分析中。對于濁音語音,盡管聲道有若干個共振峰,但是由于聲門波引起了譜的高頻跌落,所以其語音能量約集中于3kHz以下。而對于清音語音時,多數(shù)能量出現(xiàn)在較高頻率上。高頻率對應(yīng)著高的平均過零率,低頻率對應(yīng)著低的平均過零率,那么可以認(rèn)為濁音時具有較低的平均過零率,而清音時具有較高的平均過零率。利用短時平均過零率可以從背景噪聲中找出語音信號,可用于判斷寂靜無語音和有語音的起點(diǎn)和終點(diǎn)位置。在孤立詞語音識別中,必須要在一連串連續(xù)語音信號中進(jìn)行適當(dāng)?shù)姆指?,可以確定一個一個單詞的語音信號,即找出每一個單詞的開始和終止位置。另外,在背景噪聲較小時用平均能量識別較為有效,而在背景噪聲較大時用平均過零數(shù)識別較有效。短時平均過零率作為“頻率”來理解,在處理多頻率帶通信號的“頻率”特征方面有效。如果把語音信號用多通道帶通濾波器分割,統(tǒng)計(jì)每個子帶波形的短時平均過零率和短時平均能量,實(shí)質(zhì)上就是對語音信號作頻域分析。,從圖上可以看出,濁音信號的過零率低,清音信號的過零率高,噪聲的過零率高,一般在語音信號的清濁音判別時可采用短時平均能量與短時過零率結(jié)合來判斷,以降低誤判率。3 語音特征參數(shù)提取語音信號完成分幀處理和端點(diǎn)檢測后,下一步就是特征參數(shù)的提取。在語音識別中,我們不能將原始波形直接用于識別,必須通過一定的變換,提取語音特征參數(shù)來進(jìn)行識別,而提取的特征必須滿足:1.特征參數(shù)應(yīng)當(dāng)反映語音的本質(zhì)特征,對于非特定人語音識別,特征參數(shù)則應(yīng)盡量不含有說話人的信息。2.特征參數(shù)各分量之間的耦合應(yīng)盡可能地小,以起到壓縮數(shù)據(jù)的作用。3.特征參數(shù)要計(jì)算方便,最好有高效的算法。語音特征參數(shù)可以是能量、基音頻率、共振峰值等語音參數(shù),目前在語音識別中較為常用的特征參數(shù)為線性預(yù)測倒譜系數(shù)(LPCC)與Mel倒譜系數(shù)(MFCC)。二者都是將語音從時域變換到倒譜域上,前者從人的發(fā)聲模型角度出發(fā),利用線性預(yù)測編碼(LPC)技術(shù)求倒譜系數(shù)。后者則構(gòu)造人的聽覺模型,以語音通過該模型(濾波器組)的輸出為聲學(xué)特征,直接通過離散傅利葉變換(DFT)進(jìn)行變換。 語音特征參數(shù)提取是在語音預(yù)處理和語音端點(diǎn)檢測之后進(jìn)行,語音特征的選擇與提取是語音識別的一個重要環(huán)節(jié)。原始的語音信號是時域上的連續(xù)波形,含有大量的冗余信息。如果直接對其進(jìn)行數(shù)據(jù)處理,既費(fèi)時費(fèi)力也會對識別率產(chǎn)負(fù)面影響。所以,提取出語音信號中最能體現(xiàn)語音特征的參數(shù)是有效提高語音識別率至關(guān)重要的一步。提取語音特征的目的就是去掉原始語音信號的冗余部分,把最能體現(xiàn)語音本質(zhì)的特征參數(shù)提取出來,并且突出那些對辨別語音有利的信息。此后的所有處理都是對語音特征參數(shù)的處理。 特征提取是幾乎所有模式識別研究必須要面對的問題。人們早在上世紀(jì)40年度就提出了”visible speech”的概念,它指的是語譜圖對語音信號的描述問題。因此語譜信息被作為語音特征參數(shù)較早的應(yīng)用于語音識別,至今仍有人提取語譜信息作為語音特征。進(jìn)入50年代,隨著人們研究的深入,相繼提出了幅度、短時幀平均能量、短時幀過零率、短時自相關(guān)系數(shù)、平均幅度差函數(shù)等語音特征。隨著識別技術(shù)的發(fā)展,人們發(fā)現(xiàn)時域中的特征參數(shù)的穩(wěn)定性和區(qū)分能力都不是很好,于是開始利用頻域參數(shù)作為語音信號的特征,比如頻譜、共振峰、線性倒譜對等。 總的來說,提取的語音特征參數(shù)要滿足如下條件: (1)特征參數(shù)必須反映語音的本質(zhì)特征,即特征參數(shù)必須是語音所包括的一般特性,對于非特定人的語音識別,特征參數(shù)中要盡可能的不包括說話人的特征信息。 (2)特征參數(shù)各個分量之間的耦合要盡可能的小,以起到壓縮數(shù)據(jù)的作用。 當(dāng)前,較為常用的特征參數(shù)包括線性預(yù)測分析頻譜(LPC)、線性預(yù)測分析倒譜(LPCC)、Mel頻率倒譜系數(shù)(MFCC)、對數(shù)倒頻譜(LSF)、基頻(Pitch)、共振峰(Formant)等。然而在這些特征參數(shù)中,LPCC參數(shù)缺點(diǎn)是對噪聲影響敏感。由于語音信號的多變性,基頻特征的提取存在許多困難。共振峰作為語音參數(shù)存在虛假峰值以及相鄰共振峰靠太近難以分辨而帶來的不利影響等問題。綜合考慮特征參數(shù)的魯棒性和實(shí)際要求,目前最常用是基于人耳聽覺的MFCC參數(shù),它在有信道噪聲和頻譜失真的情況下具有較好的穩(wěn)健性,是目前語音識別研究中最常用的特征參數(shù),它運(yùn)用了人耳聽覺感知方面的研究成果,用于語音識別有非常不錯的識別率。 線性預(yù)測倒譜系數(shù)LPCC一個遞歸數(shù)字濾波器可以采取多種不同的結(jié)構(gòu)實(shí)現(xiàn),例如直接法、鏈接法和格形法等,相應(yīng)地就有多種不同的濾波器參數(shù),但它們所實(shí)現(xiàn)的濾波器都是等價(jià)的。線性預(yù)測分析法求得的是一個全極點(diǎn)的系統(tǒng)函數(shù),形式上也是一個遞歸濾波器。在全極點(diǎn)語音產(chǎn)生模型假定下,這個濾波器被稱為聲道濾波器。也存在多種不同的參數(shù)表達(dá)方法,這些參數(shù)一般可看作是由線性預(yù)測系數(shù)推演出來的,但它們各有不同的物理意義和特性。其中最常用的是線性預(yù)測倒譜系數(shù)LPCC,倒譜實(shí)際上是一種同態(tài)信號處理方法。語音信號分析過程中經(jīng)常要用到一個重要的語音產(chǎn)生模型—聲道模型。聲道模型是將人從喉到嘴唇這一段發(fā)音腔體用一系列截面積不同的均勻聲管來模擬。根據(jù)聲管的聲學(xué)模型,利用物理學(xué)知識,我們可以計(jì)算出這段聲管模型與信號處理中的全極點(diǎn)模型相類似。因此,我們可以應(yīng)用信號處理中已有的算法對其進(jìn)行處理。在這個語音產(chǎn)生的聲道模型中,語音中的濁音部分可以認(rèn)為是由一連串有規(guī)律的周期信號(此周期與濁音的基音周期相吻合)來激勵不同形狀的聲道模型而產(chǎn)生;而清音部分則被認(rèn)為是由一連串無規(guī)律的白噪聲信號激勵聲道模型而產(chǎn)生的。因此,若能準(zhǔn)確地估計(jì)出聲道的形狀或模型參數(shù),我們就有望用此模型參數(shù)作為語音信號的特征來完成語音信號的識別任務(wù)。數(shù)字信號處理中,可以用LPC(線性預(yù)測編碼)的算法來估計(jì)出此全極點(diǎn)模型的參數(shù)。線性預(yù)測是最佳線性向前一步預(yù)測,語音信號線性預(yù)測的基本思想是:語音信號的每個取樣值,可以用它過去若干個取樣值的加權(quán)和(線性組合)來表示;各加權(quán)系數(shù)的確定原則是使預(yù)測誤差的均方值最小。在語音識別系統(tǒng)中,利用同態(tài)處理方法,通過對LPC系數(shù)求離散傅立葉變換(DFT)后取對數(shù),再求反變換DFT可得到線性預(yù)測倒譜系數(shù)LPCC[14][20]。 語音信號序列是一個隨機(jī)序列,其穩(wěn)態(tài)系統(tǒng)函數(shù)為: (31)把模型成一個階的AR過程序列 。對于濁音,系統(tǒng)受沖激序列的激勵,各種激勵之間的間隔為音調(diào)周期;對于清音,則受白噪聲序列激勵,它可簡單地由一個隨機(jī)數(shù)發(fā)生器完成。 參考模型是現(xiàn)代譜估計(jì)的主要內(nèi)容,經(jīng)常采用的模型有三種:(1)自回歸線(AR)模型是一個全極點(diǎn)的模型;(2)移動平均模型(MA)是一個全零點(diǎn)模型;(3)自回歸線移動平均模型(ARMA)是一個既有零點(diǎn)又有極點(diǎn)的模型。 從數(shù)字信號處理的知識可知,AR模型易反應(yīng)頻譜中的峰值,MA模型異反映頻譜中的谷值,而ARMA模型可以同時反映兩者??紤]到求解AR模型的正則方程是一組線性方程,而求解MA和ARMA的模型是非線性方程,因此在實(shí)際處理中,應(yīng)用比較廣泛的是AR模型。又由于AR模型可以與基于級聯(lián)無損聲管的語音產(chǎn)生模型相聯(lián)系,因此在語音處理中它被廣泛采用的模型;而與相關(guān)的線性預(yù)測分析也是語音信號處理中普遍采用的核心技術(shù)之一。根據(jù)數(shù)字信號處理的知識可知,一個p階的AR模型總是等效于一個p階的線性預(yù)測器。因此目前提出的AR模型系數(shù)的求解,以及AR模型性能的討論大都建立在線性預(yù)測理論基礎(chǔ)上的。對語音信號進(jìn)行線性預(yù)測分析的基本思想是:一個語音的采樣能夠用過去若干個語音采樣的線性組合來逼近。通過使線性預(yù)測到的采樣在最小均方誤差意義上逼近實(shí)際語音采樣,可以求取一組唯一的預(yù)測系數(shù)。這里的預(yù)測系數(shù)就是線性組合中所用的加權(quán)系數(shù)。這種能夠線性預(yù)測分析最早用于語音編碼中,因此常被簡稱為LPC 1947年,維納首次提出了線性預(yù)測(Linear Prediction,LP)這一名詞,并且在1967年,板倉等人將該技術(shù)應(yīng)用在語音分析和合成中,開辟了語音識別技術(shù)的新思路。線性預(yù)測分析是從人的發(fā)聲機(jī)理入手,通過
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1