freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

孤立詞語音識別的并行編程實(shí)現(xiàn)--畢業(yè)設(shè)計-資料下載頁

2025-01-18 15:24本頁面
  

【正文】 網(wǎng)絡(luò)的方法。(1)基于語音學(xué)和聲學(xué)的方法該方法起步較早,在語音識別技術(shù)提出的開始,就有了這方面的研究,但由于其模型及語音知識過于復(fù)雜,現(xiàn)階段沒有達(dá)到實(shí)用的階段。通常認(rèn)為常用語言中有有限個不同的語音基元,而且可以通過其語音信號的頻域或時域特性來區(qū)分。這樣該方法分為兩步實(shí)現(xiàn):第一步,分段和標(biāo)號把語音信號按時間分成離散的段,每段對應(yīng)一個或幾個語音基元的聲學(xué)特性。然后根據(jù)相應(yīng)聲學(xué)特性對每個分段給出相近的語音標(biāo)號。第二步,得到詞序列根據(jù)第一步所得語音標(biāo)號序列得到一個語音基元網(wǎng)格,從詞典得到有效的詞序列,也可結(jié)合句子的文法和語義同時進(jìn)行。(2)模板匹配的方法模板匹配的方法發(fā)展比較成熟,目前已達(dá)到了實(shí)用階段。在模板匹配方法中,要經(jīng)過四個步驟:特征提取、模板訓(xùn)練、模板分類、判決。常用的技術(shù)有三種:動態(tài)時間規(guī)整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術(shù)。 (DTW)語音信號的端點(diǎn)檢測是進(jìn)行語音識別中的一個基本步驟,它是特征訓(xùn)練和識別的基礎(chǔ)。所謂端點(diǎn)檢測就是在語音信號中的各種段落(如音素、音節(jié)、詞素)的始點(diǎn)和終點(diǎn)的位置,從語音信號中排除無聲段。在早期,進(jìn)行端點(diǎn)檢測的主要依據(jù)是能量、振幅和過零率。但效果往往不明顯。60 年代日本學(xué)者 Itakura 提出了動態(tài)時間規(guī)整算法(DTW:DynamicTimeWarping)。算法的思想就是把未知量均勻的升長或縮短,直到與參考模式的長度一致。在這一過程中,未知單詞的時間軸要不均勻地扭曲或彎折,以使其特征與模型特征對正。(HMM) 隱馬爾可夫法(HMM)是 70 年代引入語音識別理論的,它的出現(xiàn)使得自然語音識別系統(tǒng)取得了實(shí)質(zhì)性的突破。HMM 方法現(xiàn)已成為語音識別的主流技術(shù),目前大多數(shù)大詞匯量、連續(xù)語音的非特定人語音識別系統(tǒng)都是基于 HMM 模型的。 HMM 是對語音信號的時間序列結(jié)構(gòu)建立統(tǒng)計模型,將之看作一個數(shù)學(xué)上的雙重隨機(jī)過程:一個是用具有有限狀態(tài)數(shù)的Markov 鏈來模擬語音信號統(tǒng)計特性變化的隱含的隨機(jī)過程,另一個是與 Markov 鏈的每一個狀態(tài)相關(guān)聯(lián)的觀測序列的隨機(jī)過程。前者通過后者表現(xiàn)出來,但前者的具體參數(shù)是不可測的。人的言語過程實(shí)際上就是一個雙重隨機(jī)過程,語音信號本身是一個可觀測的時變序列,是由、20大腦根據(jù)語法知識和言語需要(不可觀測的狀態(tài))發(fā)出的音素的參數(shù)流??梢?HMM 合理地模仿了這一過程,很好地描述了語音信號的整體非平穩(wěn)性和局部平穩(wěn)性,是較為理想的一種語音模型。(VQ) 矢量量化(VectorQuantization)是一種重要的信號壓縮方法。與 HMM 相比,矢量量化主要適用于小詞匯量、孤立詞的語音識別中。其過程是:將語音信號波形的 k 個樣點(diǎn)的每一幀,或有 k 個參數(shù)的每一參數(shù)幀,構(gòu)成 k 維空間中的一個矢量,然后對矢量進(jìn)行量化。量化時,將 k 維無限空間劃分為 M 個區(qū)域邊界,然后將輸入矢量與這些邊界進(jìn)行比較,并被量化為“距離”最小的區(qū)域邊界的中心矢量值。矢量量化器的設(shè)計就是從大量信號樣本中訓(xùn)練出好的碼書,從實(shí)際效果出發(fā)尋找到好的失真測度定義公式,設(shè)計出最佳的矢量量化系統(tǒng),用最少的搜索和計算失真的運(yùn)算量,實(shí)現(xiàn)最大可能的平均信噪比。核心思想可以這樣理解:如果一個碼書是為某一特定的信源而優(yōu)化設(shè)計的,那么由這一信息源產(chǎn)生的信號與該碼書的平均量化失真就應(yīng)小于其他信息的信號與該碼書的平均量化失真,也就是說編碼器本身存在區(qū)分能力。在實(shí)際的應(yīng)用過程中,人們還研究了多種降低復(fù)雜度的方法,這些方法大致可以分為兩類:無記憶的矢量量化和有記憶的矢量量化。無記憶的矢量量化包括樹形搜索的矢量量化和多級矢量量化。(3)神經(jīng)網(wǎng)絡(luò)的方法利用人工神經(jīng)網(wǎng)絡(luò)的方法是 80 年代末期提出的一種新的語音識別方法。人工神經(jīng)網(wǎng)絡(luò)(ANN)本質(zhì)上是一個自適應(yīng)非線性動力學(xué)系統(tǒng),模擬了人類神經(jīng)活動的原理,具有自適應(yīng)性、并行性、魯棒性、容錯性和學(xué)習(xí)特性,其較強(qiáng)的分類能力和輸入-輸出映射能力在語音識別中都很有吸引力。但由于存在訓(xùn)練、識別時間太長的缺點(diǎn),目前仍處于實(shí)驗探索階段。由于 ANN 不能很好的描述語音信號的時間動態(tài)特性,所以常把 ANN 與傳統(tǒng)識別方法結(jié)合,分別利用各自優(yōu)點(diǎn)來進(jìn)行語音識別。 孤立詞語音識別系統(tǒng) 孤立詞語音識別系統(tǒng)的構(gòu)成參考以模板為單詞單位 單詞參考 模板單詞識別聲學(xué)參數(shù)分析識別輸出、21圖 32 參考以模板為單詞單位參考模板為音素單位圖 33 參考模板為音素單位 孤立詞語音識別系統(tǒng)的技術(shù)主要項目詞 匯 詞匯固定—可變,內(nèi)容(數(shù)字、命令、地名等) ,聲學(xué)性質(zhì)的類似性說話人 特定說話人—非特定說話人發(fā)生法 孤立發(fā)聲—連續(xù)發(fā)聲分析法 頻域分析,倒譜域分析,線性預(yù)測分析模式變換 固定長—可變長,特征提取,語音分段,因素識別模式法 多重參考模式匹配法,統(tǒng)計決定法,構(gòu)詞識別法標(biāo)準(zhǔn)模式 標(biāo)準(zhǔn)模板(多重) ,單詞辭典,概率分布,生成規(guī)則輸入方式 電話—話筒(近講話筒)發(fā)聲環(huán)境 信噪比 SNR30dB(SNR:Signal to Noise Ratio)環(huán) 境 比較安靜的辦公室 寬敞的辦公室 行駛中的小轎車內(nèi)電 平 4050dB 6070dB 6575dB單詞辭典單詞識別音素參考模板單詞模板聲學(xué)參數(shù)分析識別輸出表 31 孤立詞語音識別系統(tǒng)的技術(shù)主要項目、22 基于語音軌跡特征的匹配技術(shù)S1 S2 SS SS SSV1 V2 V3 V4 V5 V6 V7S1 S2 SSV’1 V’2 V’3 V’4 V’5 V6’ V’6(V’1) (V’6) S1 S2 SS SSConcept: a sequence of symbolsParameterizeRecognizeVector space(V’2) (V’3) (V’5) (V’4) Speech WaveformSpeech VectorsVector space(V2,V3) (V4,V5,V6,V7)) (V1)圖 34 基于語音軌跡特征的匹配技術(shù) 語音識別設(shè)計流程 樣本語音采集在室內(nèi)錄制標(biāo)準(zhǔn)漢語數(shù)字 09 的 wav 語音做樣本語音,錄音軟件采用 MS Visual C++WavRecorder,采樣率 16KHz,采樣位 16 位,語音數(shù)據(jù)以 wav 文件格式存儲,其音頻格式為 Windows PCM。 語音信號預(yù)處理語音信號數(shù)字化通過采樣及量化提取語音信號的數(shù)據(jù)。其中,數(shù)據(jù)提取部分,掌握語音文件的存儲形式極為重要,有效地提取并清楚各部分?jǐn)?shù)據(jù)的含義,對分析數(shù)據(jù)起到幫助作用,為下一步工作做了良好的起步。預(yù)加重處理提升高頻部分,使信號頻譜變得平坦,以便于進(jìn)行聲道參數(shù)分析或頻譜分析。預(yù)加重語音信號的平均功率譜受聲門激勵和口鼻輻射影響,高頻端大約在 800Hz 以上按 6dB/倍頻程跌落,即 6dB/oct(2 倍頻) 或 20dB/dec(10 倍頻)。求語音信號頻譜時,頻率越高,相應(yīng)的成分越、23小。為此,要在預(yù)處理中進(jìn)行預(yù)加重處理(Pre—emphasis)。預(yù)加重的目的是使信號的頻譜變得平坦,保持從低頻到高頻的整個頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析。預(yù)加重一般是采用一階的數(shù)字濾波器 181。:H(Z)=1181。 ,181。 值接近于 1,或者采1z用公式 y(n)=x(n)αx(n1),其中, x(n)為原始信號序列;y(n) 為預(yù)加重后序列;α 為預(yù)加重系數(shù)。端點(diǎn)檢測及分幀加窗斷點(diǎn)檢測主要為實(shí)現(xiàn)對數(shù)據(jù)中有效部分的提取。閾值采用 (最大值最小值),語音信號是一種典型的非平穩(wěn)信號,處理中一般使用窗函數(shù)截取其中一段來進(jìn)行分析,截取出來的那部分信號被認(rèn)為是短時平穩(wěn)的。加窗處理的另一個作用就是消除由無限序列截斷導(dǎo)致的 Gibbs 效應(yīng)。常見的窗函數(shù)有:1)矩形窗 (RectangularWindow) (1)?1(01))nN???其 他2)漢明窗(Hamming Window) (2)()(01)1(n)nNN????????其 他3)哈寧窗 (Hann Window) (3)()(01)1(n)nNN?????????其 他漢明窗和哈寧窗都屬于廣義升余弦函數(shù),通過分析他們的頻率響應(yīng)幅度特征,可以發(fā)現(xiàn),矩形窗的譜平滑性能好,但是旁瓣太高,容易造成頻譜泄露,損失高頻成分;哈寧窗衰減太快,低通特性不平滑;漢明窗由于其平滑的低通特性和最低的旁瓣高度而得到廣泛的應(yīng)用。 Mel 倒譜系數(shù)特征表示提取 MFCC 參數(shù)、 PLCC 參數(shù),即狀態(tài)轉(zhuǎn)移矩陣 A,混合高斯分布的權(quán)矩陣 C,均值矢量 181。 和協(xié)方差矩陣 U 這四個參數(shù)的訓(xùn)練過程,并進(jìn)行極大似然值估計。Mel 倒譜系數(shù)提取人耳對不同頻率的語音具有不同的感知能力,是一種非線性的關(guān)系。結(jié)合人耳的生理結(jié)構(gòu),運(yùn)用對數(shù)關(guān)系來模擬人耳對不同頻率語音的感知特性,Davies 和 Merelstein 于 1980 年提出了 Mel 頻率的概念。其意義為 1Mel 為 l000Hz 的音調(diào)感知程度的 l/1000。Hz 頻率 與MelfMel 頻率 之間的轉(zhuǎn)換關(guān)系如公式:Melf、24=1127ln(1+ ) (4)Melf70HzfMel 倒譜頻率系數(shù)(MFCC) 是上述 Mel 頻率概念基礎(chǔ)上提出的,其計算機(jī)流程如圖 3331所示預(yù)加重,加窗DCT 求倒譜 Log 對數(shù)能量Mel 頻率濾波器組FFT圖 35 MFCC 計算流圖1)將原始語音信號預(yù)加重,分幀加窗之后得到一幀語音信號。2)對一幀語音信號進(jìn)行快速傅立葉變換(fast fouriert transform,F(xiàn)FT),得到信號的離散功率譜 X(k)。3)定義一個由 M 個三角型帶通濾波器組成的濾波器組,每個濾波器的中心頻率為 f(m),m=1, 2,… ,M ,肘,相鄰濾波器交叉重疊在一起,且其中心頻率在 Mel 頻率軸上為等間距分布,濾波器組在頻域上覆蓋從 0Hz 到 Nyquist 頻率,即采樣率的二分之一。三角濾波器的中心頻率 f(m)和頻率響應(yīng) H(k)分別為 (5)1 1()Nf(m)=()hSBfffmFM???(5)式中: 和 分別是濾波器組覆蓋范圍的低通頻率和高通頻率; 是信號采樣頻率,1fh F單位都是 Hz;M 是濾波器組中濾波器的個數(shù);N 是進(jìn)行 FFT 變換時的點(diǎn)數(shù); ()是公式(4)1B?的反函數(shù)。 (6)1/127()0()bBe???4)通過步驟 3),每個濾波器產(chǎn)生輸出頻譜能量,取對數(shù)之后便得到一組如下系數(shù) (7)120()ln|()|(),.NmkSmXHkM????再經(jīng)過離散余弦變換(DCT)將 S(m)轉(zhuǎn)換到時域,就是 MFCC。MFCC 系數(shù) c(i)的計算過程為 (8)10()()()cos,1NkncS?????MFCC 的 Hz—Mel 尺度對應(yīng)的曲線和濾波器組分布如圖 36 所示。、250 500 1000 1500 2022 3500 4000202215001000500頻率/Hz頻率/Mel圖 36 MFCC 尺度對應(yīng)曲線 HMM 隱馬爾科夫模式匹配HMM 是一種用參數(shù)表示的,用于描述隨機(jī)過程統(tǒng)計特性的概率模型,它是由馬爾可夫鏈演變來的一個雙重隨機(jī)過程。~個有Ⅳ個狀態(tài)的 HMM 模型通常由 來表示,這(,)AB???些參數(shù)的含義解釋如下:N 是模型的狀態(tài)數(shù),一個輸入的觀察序列 在某一特定時刻只能處于{S ,是12,.TOo?N 個狀態(tài)中的一個。??1,是狀態(tài)轉(zhuǎn)移概率矩陣: 。它是一個隱含的馬Aija???1|,ijtjiiaPqSjN??爾可夫鏈,每次從狀態(tài) 轉(zhuǎn)移到狀態(tài) 的概率只與狀態(tài) 有關(guān),而與它以前的狀態(tài)無關(guān)。矩iSi陣元素必須滿足: 。1Mij??為各狀態(tài)的初始概率分布,表示觀察序列 在 t=l 時刻可能??12,.N? 12,.TOo?處于模型各個狀態(tài)的概率值,即 ,并且它滿足 。1(),2,.iiPqSN??1Nit???B 為輸入語音特征序列 中的任意觀察值 在各狀態(tài)的輸出概率。它有離散12,.TOoi型和連續(xù)型兩類,對于離散 HMM 模型,B 是一個概率矩陣 ;??(),2,.jBbkMk=1,2 ,..., M,其中, ,M 是編碼符號集中符號的總數(shù),并且滿()|)jktjbqS?足 ;對于連續(xù)型 HMM 模型, ,且1()Mjibk??(,1jbojN?、26,其中,o 是語音特征參數(shù)中的任一特征向量,M 是每個1()(,),1MjjijiibocNUjN????狀態(tài)包含的高斯元的數(shù)目, 是第 j 個狀態(tài)第 l 個混合高斯函數(shù)的權(quán),N 是正態(tài)高斯概率密jic度
點(diǎn)擊復(fù)制文檔內(nèi)容
電大資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1