freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于虛擬儀器的語音識(shí)別_算法研究(參考版)

2024-09-04 17:21本頁面
  

【正文】 在每一個(gè)子空間 jR 找一個(gè)代表矢量 jY ,則 J個(gè)代表矢量可以組成矢量集為 : ? ?JYYYY , 21 ?? ( 33) 這樣就組成了一個(gè)矢量量化器,在矢量量化里, Y 叫作碼書或碼本 (Code Book); jY稱為碼矢 (Code Vector)或碼字 (Code Word); Y 內(nèi)矢量的個(gè)數(shù) J,則叫做碼本長(zhǎng)度或碼本尺寸 (Codebook Size) [46。 設(shè)有 N 個(gè) K 維特征矢量 ? ?NXXXX ,1 ?? ( X 在 K 維歐幾里德空間 KR 中),其中第 i 個(gè)矢量可以記為: ? ?kxxxX , 21 ?? Ni ,2,1 ?? ( 31) 它可以被看作是語音信號(hào)中某幀參數(shù)組成的矢量。量化時(shí),將 k維無限空間劃分為 M個(gè)區(qū)域邊界,然后將輸入矢量與這些邊界進(jìn) 27 行比較,并被量化為“距離”最小的區(qū)域邊界的中心矢量值 [45]。與 HMM 相比,矢量量化主要適用于小詞匯量、孤立詞的語音識(shí)別中。然而在實(shí)際應(yīng)用中它的識(shí)別效果不太好,主要 原因是: (1)提取的特征不能很好的代表各種語言固有的、獨(dú)特的特性,不同語種的特征空間重復(fù)較大,因而導(dǎo)致后端模型的識(shí)別效果不夠理想; (2)由于模型的建立原則是基于大數(shù)定理,因此,需要大規(guī)模的訓(xùn)練樣本參與建模,這樣一來訓(xùn)練時(shí)間過長(zhǎng),工程上難以接受,一般不采用這種方法。 在基于 GMM 的說話人識(shí)別系統(tǒng)中,訓(xùn)練階段首先用高斯混合模型為系統(tǒng)中的每個(gè)說話人建立概率模型;在識(shí)別階段,利用系統(tǒng)中所有人的 GMM 模型計(jì)算待識(shí)別矢量積的對(duì)數(shù)似然函數(shù),根據(jù)最大似然準(zhǔn)則做出判決。 的研究表明基于連續(xù) HMM 的與文本無關(guān)的說話人識(shí)別系統(tǒng)的識(shí)別率取決于模型中的混合分量的個(gè)數(shù),而與 HMM 中的狀態(tài)數(shù)無關(guān) [44]。另一個(gè)是一個(gè)隨機(jī)過程產(chǎn)生的輸出為觀察值序列。因而稱為“隱” Markov 鏈模型,即 HMM。在該模型中,馬爾可夫鏈中的一個(gè)狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài)與否取決于該狀態(tài)的統(tǒng)計(jì)特性 (或狀態(tài)轉(zhuǎn)移概率 ),而某一狀態(tài)產(chǎn)生的觀察值也取決于該狀態(tài)生成語音觀察值的概率 (狀態(tài)生成概率 )。 HMM 是一個(gè)雙重隨機(jī)過程,一個(gè)隨機(jī)過程描述狀態(tài)的轉(zhuǎn)移,另一個(gè)隨機(jī)過程描述狀 26 態(tài)和觀察值之間的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系。 根據(jù)隨機(jī)函數(shù)的不同特點(diǎn) HMM 模型可以分為離散 HMM(DHMM)、連 續(xù) HMM(CHMM)和半連續(xù) HMM(SCHMM)以及基于段長(zhǎng)分布的 HMM(DDBHMM)等類型。 隱馬爾可夫模型法 HMM 隱馬爾可夫模型法 (Hidden Markov Model HMM)是 70年代引入語音識(shí)別理論的,它的出現(xiàn)使得自然語音識(shí)別系統(tǒng) 取得了實(shí)質(zhì)性的突破。為了簡(jiǎn)單和便于處理,通常適用歐氏距離 (歐基里德距離 )或其變形來進(jìn)行度量。參考模板 R和測(cè)試模板 T 之間的總體失真為 D[ T, R]。測(cè)試模板可以表示為: ? ?)(,),(,),2(),1( NTnTTTT ??? ,其中 N 為測(cè)試模板中語音幀數(shù), n 為幀標(biāo)號(hào), T( n)為第 n 幀的特征矢量。 為了進(jìn)行相似性度量,將特征模板庫中的各個(gè)模板稱之為參考模板,用 R 表示;將待識(shí)別的輸入語音經(jīng)過預(yù)處理以及特征提取以后得到的特征矢量序列稱之為測(cè)試模板,用 T 表示。動(dòng)態(tài)時(shí)間規(guī)整 (Dynamic Time Warping)是語音識(shí) 別中較為經(jīng)典的一種算法,又由于 DTW 算法其本身既簡(jiǎn)單又有效 ,因此在許多特定的場(chǎng)合下得到了廣泛的應(yīng)用。這是一個(gè)將時(shí)間規(guī)整和距離測(cè)度有機(jī)結(jié)合在一起的非線性規(guī)整技術(shù),保證了待識(shí)別特征與模板特征之間最大的聲學(xué)相似特性和最小的時(shí)差失真,是成功解決模式匹配問題最早和最常用的方法。 DTW 是采用一種最優(yōu)化的算法 — 動(dòng)態(tài)規(guī)整法,算法的思想就是把未知量均勻的增大或縮短,直到與參考模式的長(zhǎng)度一致 。但效果往往不明顯。所謂端點(diǎn)檢測(cè)就是在語音信號(hào)中檢測(cè)出的各種段落 (如音素、音節(jié)、詞素 )的起點(diǎn)和終點(diǎn)的位置,從語音信號(hào)中排除無聲段。如果考慮把具有不同內(nèi)容的語音經(jīng)過某種轉(zhuǎn)換以后作為不同的模板,則可以構(gòu)建一個(gè)基于模板 匹配的簡(jiǎn)單的語音識(shí)別系統(tǒng)。常用的技術(shù)有 5種 [41]:隱馬爾科夫 (HMM)理論、動(dòng)態(tài)時(shí)間規(guī)整 (DTW)、矢量量化 (VQ)和混合高斯模型 (GMM)等技術(shù)、混合型算法。 模板匹配的方法 目前,語音識(shí)別的方法有很多,其中發(fā)展比較成熟的有模板匹配的方法,現(xiàn)己達(dá)到了實(shí)用的階段。 圖 說話人的美爾特征參數(shù)提取部分截圖 說話人的原始語音信號(hào)經(jīng)過上述兩大部分的相關(guān)處理后,得到了包含說話人語音特征的多個(gè)特征向量,這些向量之間有一定的相關(guān)性,能更好地表征說話人的語音特性,為說話人識(shí)別系統(tǒng)的建立奠定了基礎(chǔ)。具體參數(shù)設(shè)置為:幀長(zhǎng) 512,幀移 256,濾波器的個(gè)數(shù)為 12,采樣頻率 44100Hz,并去除了首尾各兩幀,因?yàn)檫@兩幀的一階差分為零,這樣就得到了 24 維的語音特征向量,將其作為一幀語音信號(hào)的參數(shù)。于是常將靜態(tài)參數(shù)和動(dòng)態(tài)參數(shù)合并作為說話人識(shí)別的特征參數(shù),這樣語音幀之間的相關(guān)性能較好地消除掉,為說話人識(shí)別系統(tǒng)的創(chuàng)建提供了良好 的基礎(chǔ)。 22 快 速 傅 里 葉 變 換 M e l 濾 波 器 組取 對(duì) 數(shù)取 模 求 平 方離 散 余 弦 變 換X ( n )M F C C 參 數(shù) 圖 Mel 倒譜系數(shù)的提取 差分倒譜系數(shù)提取方法 圖 是計(jì)算 MFCC 最常用的算法,得到的是反映語音靜態(tài)特征的參數(shù),可是語音的動(dòng)態(tài)特性更容易被人耳接受,差分倒譜就能更好地反映語音動(dòng)態(tài)特性 [1920],其計(jì)算公式如式 (212)。因?yàn)槿说穆犛X系統(tǒng)是一 個(gè)很好的語音識(shí)別系統(tǒng),對(duì)不同頻率的聲音有較好的分辨能力,而 MFCC 又是基于人耳聽覺特性的參數(shù),能夠充分利用人耳這種感知特性并結(jié)合語音產(chǎn)生機(jī)理,在說話人識(shí)別系統(tǒng)中得到了廣泛的應(yīng)用。 美爾頻率倒譜參數(shù)及提取方法 美爾頻率倒譜參數(shù) (MFCC)充分利用聽覺原理和倒譜的解相關(guān)特性,將語音通過傅里葉變換成頻譜再轉(zhuǎn)換為 Mel 頻率下的非線性頻譜,以便更好地模擬人的聽覺系統(tǒng) [16]。對(duì)輔音的描述能力較差,抗噪性能較弱。 21 表 語音特征參數(shù)比較 語音特征參數(shù) 特點(diǎn) 線性預(yù)測(cè)分析 ( LPC) 體現(xiàn)了語音信號(hào)的聲道諧振特性,對(duì)于聲道響應(yīng)含有零點(diǎn)的清音和濁音描述不確切。通常將這種組合參數(shù)用于說話人識(shí)別系統(tǒng)中,能得到較好的識(shí)別效果。最為常用在說話人識(shí) 別中的特征參數(shù) [18]有線性預(yù)測(cè)系數(shù) (LPC)及其導(dǎo)出的線性預(yù)測(cè)倒譜系數(shù) (LPCC)、由頻譜導(dǎo)出的 Mel 倒譜系數(shù) (MFCC),倒譜特征是說話人識(shí)別中常用的特征之一。若說話人的語音特征參數(shù)不能很好地提取出來,則系統(tǒng)的識(shí)別結(jié)果就不理想。在此處理過程中盡可能將對(duì)識(shí)別有用的信息保留下來同時(shí)將那些多余的、易引起識(shí)別模糊性的信息去掉,從而實(shí)現(xiàn)數(shù)據(jù)的壓縮 [1617] 。 語音信號(hào)的特征參數(shù)提取 語音信號(hào)的特征參數(shù)選取是說話人識(shí)別系統(tǒng)中的一個(gè)重要部分,不同的語音特征參數(shù)對(duì)說話人識(shí)別系統(tǒng)性能有不同的影響。 為了 使算法簡(jiǎn)單化,避免高信號(hào)電平對(duì)它的干擾,那么短時(shí)能量函數(shù)可以用平均幅 20 度函數(shù) ? ? ? ?n mM X n W n m?? ?????來代替 [12]。 此式表明,短時(shí)能量相當(dāng)于語音信號(hào)平方通過一個(gè)單位函數(shù)相應(yīng)為h(n)的線性濾波器的輸出。 具體計(jì)算公式為: ? ? ? ? ? ?s g n s g n 1n mZ x n x m w n m?? ? ?? ? ? ?? ? ? ?? ? ? ?? (27) 其中 ? ? 1sgn1xn ??????? ?? ? ?? ? 00xnxn?? (28) ? ? 1/ 20 Nwn ???? 01nN? ? ?其它 (29) 語音信號(hào)中,清音語音 能量大多集中在較高頻率段內(nèi),濁音語音能量大多集中在較低的頻率段內(nèi) (3KHz 以下 ),而頻率的高低又意味著過零率的高低 ,所以根據(jù)此可以大致判斷出濁音與清音。離散時(shí)間情況下,如果相鄰的抽樣具有不同的代數(shù)符號(hào),也就是相鄰抽樣的代數(shù)符號(hào)不同就稱為發(fā)生了過零。 下面將逐一介紹短時(shí)過零率法和能量法。在過渡段,由于參數(shù)的數(shù)值一般比較小,不能確信語音信號(hào)是否處于真正的語音段,因此只有當(dāng)兩個(gè)參數(shù)的數(shù)值都回落到低門限以下,那么就將當(dāng)前狀態(tài)恢復(fù)到靜音 狀態(tài)。 圖 完整的描述了系統(tǒng)實(shí)現(xiàn)端點(diǎn)檢測(cè)的程序流程: 18 子 程 序 入 口聲 音 信 號(hào) 采 集預(yù) 加 重 , 加 窗 , 分 幀端 點(diǎn) 檢 測(cè)是 否 發(fā) 現(xiàn) 起 點(diǎn)是 否 發(fā) 現(xiàn) 終 點(diǎn)返 回是是否否 圖 硬件實(shí)現(xiàn)端點(diǎn)檢測(cè)程序流圖 在程序中使用一個(gè)變量來表示當(dāng)前語音信號(hào)所處的狀態(tài),整個(gè)語音信號(hào)的端點(diǎn)檢測(cè)一般可以分為四段:靜音段、過渡段、語音段、結(jié)束段。如果當(dāng)前狀態(tài)處于語音段時(shí),兩個(gè)參數(shù)的數(shù)值也降低到低門限以下,且最短時(shí)間門限也大于總的計(jì)時(shí)長(zhǎng)度,那么就認(rèn)為這是一段噪音,繼續(xù)掃描以后的語音數(shù)據(jù)。 有時(shí)一些突發(fā)性的噪聲也有可能引起過零率或短時(shí)能量的數(shù)值很高,但這種噪聲不能持續(xù)足夠長(zhǎng)的時(shí)間。因?yàn)榇蠖鄶?shù)聲母都是 清聲母,例如 h 等,還有送氣與不送氣的賽音和塞擦音,將它們與環(huán)境噪聲分辨是比較困難的,所以漢語語音識(shí)別中重點(diǎn)在起始點(diǎn)檢測(cè)。漢語的音節(jié)末尾都是濁音,只用短時(shí)平均能量就能較好的判斷一個(gè)詞語的末點(diǎn)。 圖 漢明窗時(shí)域波形與頻譜圖 端點(diǎn)檢測(cè) 語音端點(diǎn)檢測(cè)是從一段語音信號(hào)中計(jì)算真正語音信號(hào)的起始點(diǎn)和終止點(diǎn),來獲得真正語音信號(hào)的方法。在本文后續(xù)章節(jié)中窗函數(shù)均選擇漢明窗。加窗的物理意義可以理解為離散信號(hào)經(jīng)過一個(gè)單位沖擊為 {w ( m )}的 有限沖激響應(yīng)低通濾波器產(chǎn)生的輸出,常用的窗函數(shù)有三種,矩形窗,漢明 (Hamming)窗和漢寧 ( Hanning )窗,其分別定義為: 矩形窗: ? ???? ???? ot he rs Nmmw ,0 10,1 ( 24) 漢明窗: ? ?????? ????????? ???o th e r sNnN mmw,010,12c o ? ( 25) 漢寧窗: ? ? ? ?????? ????????? ???o th e r sNnN mmw,010,12c o ? ( 26) 17 其中 N 為窗長(zhǎng)。設(shè)原始信號(hào)采樣序列為 S ( m ),分幀采用一個(gè)窗函數(shù)乘以原始信號(hào)并不斷平移得到幀語音序列。為了保證特征矢量參數(shù)變換的平滑性,分幀時(shí)使幀與幀之間有部分樣本重疊,這樣就可以用平穩(wěn)過程的分析方法來處理非平穩(wěn)的語音信號(hào)了。圖中可以看出,預(yù)加重后信號(hào)的高頻分量相對(duì)低頻分量有明顯的提升。其時(shí)域表達(dá)式為: s? ? ? ? ? ? ?19 3 7 ??? nsnsn ( 22) 預(yù)加重的物理意義是,通過數(shù)字濾波增加一個(gè)零點(diǎn),信號(hào)的頻譜變得平坦而且各共振峰幅度接近,即高頻部分得到提升,語音中聲道部分得到強(qiáng)化,所提取的特征更能符合原聲道模型,有利于語音信號(hào)的識(shí)別。因此,在對(duì)語音信號(hào)進(jìn)行處理之前有必要對(duì)其高頻部分進(jìn)行提升。 語音信號(hào)預(yù)處理 語音信號(hào)的預(yù)處理過程一般包括預(yù)加重處理、分幀處理、加窗處理、端點(diǎn)檢測(cè)幾個(gè)部分,如圖 描述了整個(gè)預(yù)處理過程。 要將原始語音模擬信號(hào)轉(zhuǎn)變成數(shù)字語音信號(hào),一定要經(jīng)過采樣和量化這兩個(gè)步驟,從而得到在時(shí)間和幅度上均為離散的數(shù)字語音信號(hào)。一般模數(shù)轉(zhuǎn)換器和防混疊濾波通常做在一個(gè)集成塊內(nèi),就目前來說,從市面上購買到的普通聲卡在這方面做的都還可以,對(duì)語音信號(hào)進(jìn)行數(shù)字化的質(zhì)量還是有一定保證的。為了防止混疊效應(yīng),選擇的采樣頻率必須滿足 Nyquist采樣定理,一般用的采樣頻率有fs1=8KHz, fs2=11KHz, fs3=16KHz等,在本設(shè)計(jì)中采樣率為 8KHz。另一方面抑制 50Hz的電源產(chǎn)生的工頻干擾。 13 圖 語音信號(hào)采集顯示的前面板圖 圖 語音信號(hào)采集顯示的程序框圖 語音信號(hào)的數(shù)字化 語音信號(hào)的數(shù)字化一般包括采樣、放大、增益控制、反混疊濾波、 A/D變換及編碼。 本文采用筆記本電腦自帶的聲卡進(jìn)行語音信號(hào)的采集,此次設(shè)計(jì)采集的語音信號(hào)以 8KHz, 16 位,單通道格式錄入存儲(chǔ),得到需要的 *.wav 文件。正常人的發(fā)音頻率范圍一般是 40Hz 到 3400Hz 左右,根據(jù)奈奎斯特采樣定律
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1