freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于matlab的語音識別系統(tǒng)的設(shè)計(jì)本科畢業(yè)設(shè)計(jì)(編輯修改稿)

2024-10-02 15:19 本頁面
 

【文章內(nèi)容簡介】 樣自然。而一旦用戶以跟人交談的方式來進(jìn)行語音輸入時(shí),口語的語法不規(guī)范和語序不正常的特點(diǎn)會給語義的分析和理解帶來困難。你也許接觸到一些語音軟件聲稱是可以做到自然語言識別,而在這方面真正有實(shí)用商業(yè)系統(tǒng)的只有 Nuance公司。Nuance的最新版識別軟件所提供的“隨意說 (Say anything)”技術(shù),使用戶可以以自然的河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 4 語言說出自己的需求。例如,“我對我的手機(jī)上的一些功能不太明白,想問一下”,或者“嗯,我的賬單應(yīng)該到期了,請幫我查一下要交多少錢”。它為用戶提供了一種像“人人對話”的自然語音交互界面,這種更加友善的界面允許一般對話時(shí)的一些行為,如停頓及不完全的語句等。 語音識別發(fā)展前景 語音技術(shù)是目前世界上最熱門和最具有發(fā)展前景的技術(shù)之一。從某種意義上說,語音識別是將計(jì)算機(jī)變成真正的“智能化”設(shè)備的最佳途徑。語音作為當(dāng)前通訊系統(tǒng)中最自 然的通信媒介,隨著計(jì)算機(jī)和語音處理技術(shù)的發(fā)展,不同語種之間的語音翻譯將成為語音研究的熱點(diǎn)。自然語音數(shù)據(jù)庫的設(shè)計(jì):語音特征的提??;利用語音料庫進(jìn)行聲學(xué)模型訓(xùn)練的研究;適應(yīng)說話人聲學(xué)模型的研究;語音識別算法的研究:語言翻譯和對話處理的研究等成為語音技術(shù)的熱點(diǎn)方向。語音識別研究的另一個(gè)發(fā)展方向是人體語言與口語相結(jié)合的多媒體人機(jī)交互。目前這種采用聲覺、視覺兩種信息融合進(jìn)行識別的研究在全球范圍內(nèi)己經(jīng)展開,成為語音識別研究的重要發(fā)展方向和研究熱點(diǎn)之一。 一位業(yè)界的資深人士對 IT產(chǎn)業(yè)發(fā)展的提出的八大預(yù)言之一即為:語音成為 新人機(jī)界面。語音識別技術(shù)的成熟使人機(jī)界面發(fā)生革命性突破,網(wǎng)絡(luò)時(shí)代用戶需要更自然、更簡單、更方便的以語音為中心點(diǎn)的人機(jī)界面。未來幾年里,真正實(shí)用的語音識別和音字轉(zhuǎn)換技術(shù)將首次走出實(shí)驗(yàn)室,走進(jìn)千家萬戶的電器設(shè)備中。摩爾定律所預(yù)言的硬件產(chǎn)品奇跡般的更新速度使計(jì)算機(jī)處理復(fù)雜運(yùn)算的能力突飛猛進(jìn),也使體積龐大的語音庫有機(jī)會棲身于普通用戶的硬盤或其他存儲介質(zhì)上;技術(shù)方面,新的語音統(tǒng)計(jì)算法日趨成熟:市場需求方面,簡化 PDA、移動電話和其他信息家電原本繁瑣的操作步驟的最佳途徑便是通過語音技術(shù)。 另外,語音識別是一門交叉學(xué)科, 語音識別技術(shù)關(guān)系到多學(xué)科的研究領(lǐng)域,在不同領(lǐng)域上的進(jìn)步都會促進(jìn)語音識別的發(fā)展。 (1)物理學(xué) (聲學(xué) ):聲音產(chǎn)生與傳播原理、聲電轉(zhuǎn)換以及聲音在房間回響等相關(guān)知識。 (2)生理學(xué):有關(guān)人的聲道與耳朵的生理結(jié)構(gòu)、耳朵的聽覺特征,在腦內(nèi)高層的語言處理等。 (3)統(tǒng)計(jì)學(xué)和模式識別理論;基于各種統(tǒng)計(jì)方法對模式進(jìn)行匹配,以及建立有關(guān)的統(tǒng)計(jì)模型,對語音特征參數(shù)進(jìn)行估值和分類。 (4)信息理論和計(jì)算機(jī)科學(xué):各種算法的研究、快速搜索查找匹配的方法。 (5)語言學(xué):有關(guān)人的語言產(chǎn)生、感覺方面的知識。 (7)數(shù)字信號處理技術(shù):信號的時(shí)域分析、 噪聲消除、數(shù)字濾波、線性預(yù)測等方面的知識。 (8)微電子技術(shù):超大規(guī)模集成電路 (VLSI)技術(shù)的發(fā)展對語音識別的具體應(yīng)用有很大的影響, VLSI使語音識別系統(tǒng)商品化成為可能。 二、語音信號分析 語音學(xué)知識 在連續(xù)數(shù)字語音識別過程中,為了提高連續(xù)數(shù)字匹配搜索算法的有效性以及數(shù)字的識別率,必須要將對數(shù)字語音的研究細(xì)化到語音學(xué)的層次上,包括對各數(shù)字的音素和音節(jié)的特性和各數(shù)字的聲調(diào)進(jìn)行深入研究。 河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 5 音素是語音信號的最基本組成單位,可分為濁音和清音兩大類。 濁音通過喉部發(fā)聲,發(fā)聲時(shí)聲帶振動,聲帶 振動的基本頻率稱為“基音頻率”,其倒數(shù)稱為“基音周期”。清音通過將口腔內(nèi)有的空氣釋放出來而發(fā)聲,發(fā)聲時(shí)喉部封閉,由于該氣流通過一個(gè)狹窄通道時(shí)在口腔中形成流,因此具有明顯的隨機(jī)噪聲的特點(diǎn)。 音節(jié)是由音素結(jié)合而成的發(fā)聲最小單位,一個(gè)音節(jié)由“元音”和“輔音”構(gòu)成。當(dāng)聲帶振動發(fā)出的聲音氣流從喉腔、咽腔進(jìn)入口腔從唇腔出去時(shí),這些聲腔完全開放,氣流順利通過,這種音稱為元音。元音構(gòu)成一個(gè)音節(jié)的主干,無論從長度還是能量上看,元音在音節(jié)中都占主要部分。所有元音都是濁音。發(fā)音時(shí)呼出的氣流,由于通路的某一部分封閉起來或受到阻礙, 氣流被阻不能暢通,而克服發(fā)音器官的這種阻礙而產(chǎn)生的音素稱為輔音。輔音也有清濁之分。輔音出現(xiàn)在音節(jié)的前端或者后端或前后兩端。 漢語是一種聲調(diào)語言,相同聲母和韻母構(gòu)成的音節(jié)隨聲調(diào)的不同而具有完全不同的意義,對應(yīng)著不同的漢字。所以,在漢語的相互交談中,不但要憑借不同的元音和輔音來辨別這些字或詞的意義,還需要從不同的聲調(diào)來區(qū)別它,也就是說聲調(diào)有辨義作用。 漢語普通話的聲調(diào)有陰平、陽平、上聲、去聲等四種聲調(diào) (另外,有時(shí)還包括“輕聲” ),這些基本的調(diào)型在語句中雖然受語法、語氣的影響而有所變動,但基 本上不改變原有的模式一調(diào)型。聲調(diào)的變化就是濁音基音周期 (或基音頻率 )的變化,各個(gè)韻母段中基音周期隨時(shí)問的變化產(chǎn)生了聲調(diào),變化的軌跡稱為聲調(diào)曲線。聲調(diào)曲線從一個(gè)韻母的起始端開始,到韻母的終止端結(jié)束。不同聲調(diào)的聲調(diào)曲線的開始段稱為彎頭段,呈共同上升走向;末尾一段呈共同下降走向,稱為降尾段;而中間一段具有不同的特點(diǎn),這一段稱為調(diào)型段。一般來說,彎頭段和降尾段對聲調(diào)的聽辨不起作用,起作用的是調(diào)型段。而一段語音,它的起始和結(jié)尾處的波形幅度較小,要準(zhǔn)確地測出這些地方的基音周期并不容易,因此可將這兩處的波形忽略,只測調(diào)型 段這一部分波形的基音周期。圖 給出了單獨(dú)說一個(gè)音節(jié)時(shí)的四種聲調(diào)的典型曲線 ( HzF/0 )。 河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 6 圖 聲調(diào)的四種模式 語音信號是聲道被激勵(lì)發(fā)生共振而產(chǎn)生的輸出。由于在發(fā)音過程中聲道是運(yùn)動的,因此可以用一個(gè)時(shí)變線性系統(tǒng)來模擬。理想的模型是線性的,且時(shí)不變的;但是語音信號是一連串的時(shí)變過程,且聲門和聲道相互耦合形成了語音信號的非線性特性。做一個(gè)合理的假設(shè),當(dāng)在較短的時(shí)間間隔內(nèi)表示語音信號時(shí),則可以采用線性 時(shí)不變模型。它包括激勵(lì)模型、聲道模型、和輻射模型。圖 給出了經(jīng)典的語音信號的產(chǎn)生模型,語音信號被看成是線性時(shí)不變系統(tǒng)在隨機(jī)噪聲或準(zhǔn)周期脈沖序列激勵(lì)下的輸出。 圖 語音信號產(chǎn)生模型 河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 7 語音信號數(shù)字化和預(yù)處理 為了將原始的模擬語音信號變?yōu)閿?shù)字信號,必須經(jīng)過采樣和量化兩個(gè)步驟,從而得到時(shí)間和幅度上均為離散的數(shù)字語音信號。根據(jù)采樣定理,當(dāng)采樣頻率大于信號的 2 倍帶寬時(shí),在采樣過程中不會丟失信息,且從采樣信號中可以精確地重構(gòu)原始信號波形。在實(shí)際語音信號處理中,采樣頻率通常為 7~ 10kHz。在信號的帶寬不明確時(shí),采樣前應(yīng)接入抗混疊濾波器 (低通濾波器 ),使其帶寬限制在某個(gè)范圍內(nèi);否則,如果采樣頻率不滿足采樣定理,則會產(chǎn)生混疊。此時(shí),信號中的高頻成分將產(chǎn)生失真。 采樣之后要對信號進(jìn)行量化,在量化過程中不可避免的會產(chǎn)生誤差。量化后的信號值與原始信號之間的差值為量化誤差,又稱為量化噪聲。信號與量化噪聲的功率之比為量化信噪比。若用 2x? 表示輸入語音信號序列的方差, max2X 表示信號的峰值, B 表示量化分辨率 (量化位長 ), 2e? 表示噪聲序列的方差,則量化信噪比為: )lg ()lg (10 m a x22 xex XBS N R ??? ???? ( ) 假設(shè)語音信號的幅度服從 Laplacian 分布,此時(shí)信號幅度超過 x?4 的概率很小 ,只有%,因而可以取 xX ?4max? 。此時(shí)上式變?yōu)?SNR=。上式表明,量化器中每位字長對 SNR貢獻(xiàn)為 6dB。當(dāng) B=7位時(shí), SNR=35dB。此時(shí)量化后的語音質(zhì)量能滿足一般通信系統(tǒng)的要求。研究表明 :要使語音波形的動態(tài)變化信噪比達(dá)到 55dB的信噪比, B應(yīng)取 10位以上。為了在語音信號變化范圍內(nèi)保持 35dB 的信噪比,常用 12 位來量化,其中附加的 5 位用于補(bǔ)償 30dB左右的輸入動態(tài)范圍變化。 由于語音信號的平均功率譜受聲門激勵(lì)和鼻輻射的影響,在 800Hz以上的高 頻時(shí)約按6dB/oct 衰減,為此要在預(yù)處理中進(jìn)行預(yù)加重。預(yù)加重的目的是提升高頻部分,使信號的頻譜變得平坦,以便于進(jìn)行聲道參數(shù)分析或頻譜分析。預(yù)加重在防混疊濾波與 A/D 轉(zhuǎn)換之前進(jìn)行。這樣,不僅能夠進(jìn)行預(yù)加重,而且可以壓縮信號的動態(tài)范圍,有效地提高信噪比。所以為盡量提高 SNR,應(yīng)在 A/D 轉(zhuǎn)換之前進(jìn)行預(yù)加重。同時(shí),預(yù)加重也可在 A/D 轉(zhuǎn)換之后進(jìn)行,用具有 6dB/oct 地提升高頻特性地預(yù)加重?cái)?shù)字濾波器實(shí)現(xiàn)。它一般是一階的,即:11)( ??? uzzH ,式中 u值接近于 1,本文中去為 。 加重的信號在分析處理后,需要進(jìn)行去加重處理,即加上 6dB/oct的下降的頻率特性來還原成原來的特性。圖 “ 0”的預(yù)加重處理結(jié)果。從下圖可以明顯河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 8 的看出,加重后語音信號中高頻分量增強(qiáng)。 圖 語音信號“ 0”的預(yù)加重處理效果 A/D轉(zhuǎn)換之前還需要加一個(gè)防混疊濾波器。如果頻率干擾 (50或 60Hz)不嚴(yán)重或另有抗干擾措施,則不必用帶通濾波器而只用低通濾波器即可。低通濾波器的截至頻率由語音信號帶寬決定,用于慮除高于 l/2 采樣頻率的信號成分 或噪聲,并且希望其帶內(nèi)波動和帶外衰減特性盡可能好。 A/D 轉(zhuǎn)換后采用低通濾波器作為平滑濾波器,對重構(gòu)的語音波形的高次諧波起平滑作用,以去除高次諧波失真。對于這種低通濾波器的特性和 A/D 轉(zhuǎn)換頻率,也要求與采樣時(shí)具有相同的關(guān)系。 已經(jīng)數(shù)字化的語音信號序列將被依次存入一個(gè)數(shù)據(jù)區(qū)。在語音信號處理中,一般用循環(huán)隊(duì)列的方式來存儲這些數(shù)據(jù),以便用一個(gè)有限容量的數(shù)據(jù)區(qū)來應(yīng)付數(shù)量極大的語音數(shù)據(jù)。在進(jìn)行處理時(shí),按幀從此數(shù)據(jù)區(qū)中取出數(shù)據(jù),處理完成后再取一幀,如此進(jìn)行下去。一般來說,語音信號處理的幀長一般取 20ms(當(dāng) Fs=8kHz 時(shí),相應(yīng)每幀由 160個(gè)信號樣值 )。在河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 9 取數(shù)據(jù)時(shí),前一幀與后一幀的交疊部分稱為幀移。幀移與幀長之比一般取為 0~ 。在對語音信號進(jìn)行短時(shí)分析的過程中,信號流的處理用分段或分幀來實(shí)現(xiàn)。一般每秒的幀數(shù)為33~ 100,視實(shí)際情況而定。分幀既可連續(xù),也可采用交疊分段的方法,用可移動的有限長度窗口進(jìn)行加權(quán)的方法來實(shí)現(xiàn)。 在 10~ 20ms 這樣的時(shí)間段內(nèi),數(shù)字化后的語音信號的頻譜特性和某些物理特征參量可近似地看作是不變地。這樣就可以采用平穩(wěn)過程的分析處理方法來處理了。這種時(shí)間以來處理的基本手段,一般是用 一個(gè)長度有限的窗序列 w(n)截取一段語音信號來進(jìn)行分析,并讓這個(gè)窗滑動,以便分析任意時(shí)刻附近的信號。其一般式為 ????? ??? mn mnwmxTQ )()]([,其中T[*]表示某種運(yùn)算 {x(m)}為輸入信號序列。通幫采用最多的窗函數(shù)是矩形窗、漢寧窗(Hanning)和哈明窗 (Hamming)。本文主要采用哈明窗,其公式為: ? ?????????????? ? ???其他nLnL mnw,0~0,1 12c o )( ? (22) 其中 L 是窗長。通常認(rèn)為在一個(gè)語音幀內(nèi),應(yīng)含 有 1~ 7 個(gè)基音周期。然而,不同人的基音周期變化范圍很大,從女性兒童的 2ms到老年男子的 14ms(即基音頻率為 50~ 70Hz),所以 L 的選擇比較困難。通常在 l0kHz 采樣頻率下, L 折衷選擇為 100~ 200 個(gè)采樣點(diǎn) (即持續(xù)時(shí)間為 10~ 20ms)。 語音信號的時(shí)域分析 對信號分析最自然最直接的方法是以時(shí)間為自變量進(jìn)行分析,語音信號典型的時(shí)域特征包括短時(shí)能量、短時(shí)平均過零率、短時(shí)自相關(guān)系數(shù)和短時(shí)平均幅度差。 對于信號 x(n),短時(shí)能量定義為: ? ? ? ?? ? ? ? ? ?? ? ? ? ? ?nhnxmnwmxmnwmxE n Nnmmn *1 222 ?? ??????? ????? (23) 式中, h(n)=w2(n), N為窗長, En表示在信號的第 n個(gè)點(diǎn)開始加窗函數(shù)時(shí)的短時(shí)能量??梢钥闯?,短時(shí)能量可以看作語音信號的平方經(jīng)過一個(gè)線性濾波器的輸出,該線性濾波器的單位沖激響應(yīng)為 h(n),如圖 。 圖 短時(shí)能量的方框圖表示 如果用 xw表示 x(n)經(jīng)過加窗處理后的信號,窗函數(shù)的長度為 N,則短時(shí)能量可表示為: 河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 10 ? ?????? 1 2Nn nm wn mxE (24) 如圖 “ 0”時(shí)域波形圖和語音“ 0”短時(shí)能量圖。 圖 “ 0”的短時(shí)能力函數(shù) 利用短時(shí)能量可以區(qū)分清音和濁音,因?yàn)闈嵋舻哪芰勘惹逡舻哪芰看蟮枚啵黄浯慰梢杂枚虝r(shí)能量對有聲段和無聲段進(jìn)行判定,對聲母和韻母分界,以及對連字分界等。在語音識別系統(tǒng)中,一股也作為特征中的一維參數(shù)來表示語音信號能量的大小和超音段信息。 短時(shí)能量由于是對信號進(jìn)行平方運(yùn)算,因而認(rèn)為增加了高低信號之間的差距,因此要采用短時(shí)平均幅度來表示能量的變化,其公式為: ? ? ? ? ? ??? ?? ????? ??? 1Nn nm wmn mxmnwmxM (25) 如圖 “ 0”的短時(shí)平均幅度圖。從圖中可觀察到,短時(shí)平均幅度對能量小的信號累計(jì)效果要比短時(shí)能量好。 河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 11 圖 語音信號“ 0”的短時(shí)平均幅度 短時(shí)平均過零率是指每幀內(nèi)信號通過零值的次數(shù)。對于連續(xù)語音信號,可以考察其時(shí)域波形
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1