freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于matlab的語音識別系統(tǒng)的設(shè)計本科畢業(yè)設(shè)計(留存版)

2024-10-26 15:19上一頁面

下一頁面
  

【正文】 (Connected Word)識別和連續(xù)語音 (Continuous Speech)識別。臺灣的一些大學(xué)和研究所也開發(fā)出大詞匯量非特定人連續(xù)語音識別演示系統(tǒng)。因此語音識別技術(shù)既是國際競爭的一項(xiàng)重要技術(shù),也是每一個國家 經(jīng)濟(jì)發(fā)展不可缺少的重要技術(shù)支撐。在此基礎(chǔ)上討論了語音識別的五種算法:動態(tài)時間伸縮算法 (Dynamic Time Warping, DTW)、基于規(guī)則的人工智能方法、人工神經(jīng)網(wǎng)絡(luò) (Artificial Neural Network, ANN)方法、隱馬爾 可夫 (Hidden Markov Model,HMM)方法、 HMM 和 ANN 的混合模型。研究特點(diǎn)是以孤立字語音識別為主,通常把孤立字作為一個整體來建立模板。 語音識別發(fā)展到一定階段,世界各國都加快了語音識別引用系統(tǒng)的研究開發(fā),通常連續(xù)語音是含有較完整語法信息的連續(xù)語句,最接近于人的自然講話方式,從非連續(xù)語音到連續(xù)語音的研究 面臨著很多完全不同的技術(shù)難點(diǎn),非連續(xù)語音的識別是一些孤立的聲波片段,連續(xù)語音則面臨著如何切分聲波的問題。實(shí)際上,非特定人語音識別的初始識別率往往都比較低,一般都要求用戶花一定的時間對系統(tǒng)進(jìn)行訓(xùn)練,將系統(tǒng)的參數(shù)進(jìn)行一定的自適應(yīng)調(diào)整,才能使識別率達(dá)到滿意的程度。例如,中國的八大方言多屬于與普通話 (北方語系 )不同的語系。這就是用戶說話的自由度問題。未來幾年里,真正實(shí)用的語音識別和音字轉(zhuǎn)換技術(shù)將首次走出實(shí)驗(yàn)室,走進(jìn)千家萬戶的電器設(shè)備中。元音構(gòu)成一個音節(jié)的主干,無論從長度還是能量上看,元音在音節(jié)中都占主要部分。理想的模型是線性的,且時不變的;但是語音信號是一連串的時變過程,且聲門和聲道相互耦合形成了語音信號的非線性特性。此時量化后的語音質(zhì)量能滿足一般通信系統(tǒng)的要求。 A/D 轉(zhuǎn)換后采用低通濾波器作為平滑濾波器,對重構(gòu)的語音波形的高次諧波起平滑作用,以去除高次諧波失真。本文主要采用哈明窗,其公式為: ? ?????????????? ? ???其他nLnL mnw,0~0,1 12c o )( ? (22) 其中 L 是窗長。短時平均過零率公式為: ? ?? ? ? ?? ? ? ?? ?? ? ? ?? ?????????????????1 1s g ns g n211s g ns g n21NnnmwwmnmxmxmnwmxmxZ (26) Sgn[*]是符號函數(shù)。這些極小值將出現(xiàn)在整數(shù)倍周期河南理工大學(xué)畢業(yè)設(shè)計(論文)說明書 13 的位置上。濾波器組法所用的濾波器可以是模擬濾波器,也可以是數(shù)字濾波器。 圖 幾種基于短時傅里葉變換譜之間的關(guān)系 特征參數(shù)提取 LPCC倒譜系數(shù) 線性預(yù)測倒譜參數(shù) (Linear Prediction Cepstrum Coefficient, LPCC)是線性預(yù)測系數(shù)在倒譜域中的表示,該特征是基于語音信號為自回歸信號的假設(shè),利用線性預(yù)測分析獲得倒譜系數(shù)。 (3)將每個濾波器的輸出取對數(shù),得到相應(yīng)頻帶的對數(shù)功率譜;并進(jìn)行反離散余弦變換,得到 L個 MFCC系數(shù),一般 L取 12~ 16 個左右。 DTW 算法是把時間規(guī)正和距離測度計算結(jié)合起來的一種非線性規(guī)正技術(shù)。 基于規(guī)則的人工智能方法 持這種觀點(diǎn)的專家認(rèn)為,用其識別語音有種種困難,但是人類識別語音卻并不困難。最初是用神經(jīng)網(wǎng)絡(luò)將語音段分成清音和濁音兩 類,或分成鼻音、摩擦音和爆破音三類。總之,是希望通過這種結(jié)合充分發(fā)揮各自的特長。 另外,它的一個最主要的缺點(diǎn)是根據(jù)詞模型推出的狀態(tài)段長分布是指數(shù)分布,這不符合語音的本質(zhì)屬性,因此,現(xiàn)在推出了一 種非齊次的 HMM 語音識別模型 (Duration Distribution Based Hidden Markov Model,簡稱 DDBHMM)。 混合模型結(jié)構(gòu)還充分利用了 ANN的下述特性,克服了 HMM的一系列缺陷和不足,主要特點(diǎn)如下: (1)混合模型可以自適應(yīng)學(xué)習(xí)以適應(yīng)語音數(shù)據(jù)的變化;可以不必拘泥于選取特殊的語音參數(shù)面對綜合的輸入模式進(jìn)行訓(xùn)練和識別。但輸出直接映射成 HMM狀態(tài)。 與傳統(tǒng)的 HMM相比,混合 HMM/ANN模型不僅在理論上拋棄了 HMM一系列不合理假設(shè),而且在訓(xùn)練過程中自然地引入了 HMM 狀態(tài)之間的區(qū)分機(jī)制。也正是基于成熟的 HMM方法設(shè)計了嵌入式環(huán)境下 (如手機(jī), PDA等 )的語音識別系統(tǒng)。靜態(tài)網(wǎng)絡(luò)在音素識別問題上的識別效果非常好,而動態(tài)分類在字以及句子層面上的識別效果比較好。所有的神經(jīng)元協(xié)同工作,使整個網(wǎng)絡(luò)呈現(xiàn)出大規(guī)模的集體計算行為,系統(tǒng)的所有計算都是由這些單元完成的,而單元之間的連接權(quán)決定了網(wǎng)絡(luò)對任意輸入模式的計算響應(yīng)。圖 為基于 DTW的孤立字語音識別流程圖。測試和參考模板分別用 T 和 R 表示,為了比較它們之間的相似度,可以計算它們之間的距離 D[T,R],距離越小則相似度越高。 Mel頻率可以用如下公式表示 : ? ?700/1lo g2596 ff M e l ??? (217) 對頻率軸的不均勻劃分是 MFCC特征區(qū)別于普通倒譜特征的最重要的特點(diǎn)。圖 。因?yàn)槭状握业礁唛T限越過點(diǎn),再往前推可能要搜索 200ms左右才能找到清音的起點(diǎn),這就不便于實(shí)現(xiàn)實(shí)時特征提取。為了避免乘法,一個簡單的方法就是利用差值,為此常常采用另一種與自相關(guān)函數(shù)類似作用的參量,即短時平均幅度差函數(shù) (AMDP)。 河南理工大學(xué)畢業(yè)設(shè)計(論文)說明書 11 圖 語音信號“ 0”的短時平均幅度 短時平均過零率是指每幀內(nèi)信號通過零值的次數(shù)。這樣就可以采用平穩(wěn)過程的分析處理方法來處理了。從下圖可以明顯河南理工大學(xué)畢業(yè)設(shè)計(論文)說明書 8 的看出,加重后語音信號中高頻分量增強(qiáng)。若用 2x? 表示輸入語音信號序列的方差, max2X 表示信號的峰值, B 表示量化分辨率 (量化位長 ), 2e? 表示噪聲序列的方差,則量化信噪比為: )lg ()lg (10 m a x22 xex XBS N R ??? ???? ( ) 假設(shè)語音信號的幅度服從 Laplacian 分布,此時信號幅度超過 x?4 的概率很小 ,只有%,因而可以取 xX ?4max? 。而一段語音,它的起始和結(jié)尾處的波形幅度較小,要準(zhǔn)確地測出這些地方的基音周期并不容易,因此可將這兩處的波形忽略,只測調(diào)型 段這一部分波形的基音周期。 濁音通過喉部發(fā)聲,發(fā)聲時聲帶振動,聲帶 振動的基本頻率稱為“基音頻率”,其倒數(shù)稱為“基音周期”。語音識別研究的另一個發(fā)展方向是人體語言與口語相結(jié)合的多媒體人機(jī)交互。研究將要解決的問題就是如何把原始語音從背景噪音中分離出來,即所謂提高音質(zhì)(speech enhancement)或減噪 (noise reduction)的預(yù)處理。然而語音技術(shù)本身仍在不斷進(jìn)步,為市場提供更新更好的應(yīng)用模式和技術(shù)。連續(xù)語音識別是指對說話人以日常自然的方式發(fā)音,通常特指用于語音錄入的聽寫機(jī)。從 1987年開始執(zhí)行 863計劃后,國家 863《智能計算機(jī)主題》專家組為語音識別研究立項(xiàng)。早期的工作主要集中在人耳聽辨試驗(yàn)和探討聽音識別的可能性方面。河南理工大學(xué)畢業(yè)設(shè)計(論文)說明書 I 摘 要 語音識別主要是讓機(jī)器聽懂人說的話,即在各種情況下,準(zhǔn)確地識別出語音的內(nèi)容,從而根據(jù)其信息執(zhí)行人的各種意圖。 Bell實(shí)驗(yàn)室的 L. G. Kesta目視觀察語譜圖進(jìn)行識別,提出了“聲紋 (Voiceprint)”的概念。每兩年滾動一次,從 1991年開始,專家組每一至二年舉行一次全國性的語音識別系統(tǒng)測試。顯然,連續(xù)非特定人語音識別的難度要大得多,因?yàn)椴粌H有說話人口音的問題,還有協(xié)同發(fā)音、斷字?jǐn)嗑?、搜索等問題,除了考慮語音的聲學(xué)模型外還要涉及到語言模型,如構(gòu)詞法、文法等。目前,技術(shù)及應(yīng)用的焦點(diǎn)主要集中在三個方面。這將會使識別系統(tǒng)具有很強(qiáng)的適應(yīng)性。目前這種采用聲覺、視覺兩種信息融合進(jìn)行識別的研究在全球范圍內(nèi)己經(jīng)展開,成為語音識別研究的重要發(fā)展方向和研究熱點(diǎn)之一。清音通過將口腔內(nèi)有的空氣釋放出來而發(fā)聲,發(fā)聲時喉部封閉,由于該氣流通過一個狹窄通道時在口腔中形成流,因此具有明顯的隨機(jī)噪聲的特點(diǎn)。圖 給出了單獨(dú)說一個音節(jié)時的四種聲調(diào)的典型曲線 ( HzF/0 )。此時上式變?yōu)?SNR=。 圖 語音信號“ 0”的預(yù)加重處理效果 A/D轉(zhuǎn)換之前還需要加一個防混疊濾波器。這種時間以來處理的基本手段,一般是用 一個長度有限的窗序列 w(n)截取一段語音信號來進(jìn)行分析,并讓這個窗滑動,以便分析任意時刻附近的信號。對于連續(xù)語音信號,可以考察其時域波形通過時間軸的情況。 平均幅度差函數(shù)能夠代替自相關(guān)函數(shù)進(jìn)行語音分析,是基于這樣一個事實(shí):如果信號是完全的周 期信號 (設(shè)周期為 Np。 語音信號的頻域分析 語音的感知過程與人類聽覺系統(tǒng)具有頻譜分析功能是緊密相關(guān)的。 圖 從帶通濾波器作用理解短時傅里葉變換 ? ?jwneX 可以看作是加窗后函數(shù)的傅立葉變換,為了實(shí)現(xiàn)反變換,將 ? ?jwneX 進(jìn)行頻率河南理工大學(xué)畢業(yè)設(shè)計(論文)說明書 15 采樣,即令 LKwk /2?? 則有 ? ? ? ? ? ?? ?????? ??? m mjwjwn kk emnwmxeX (212) 式中, L為頻率采樣點(diǎn)數(shù)。將頻率按照式 (217)變換到 Mel域后, Mel帶通濾波器組的中心頻率是按照 Mel頻率刻度均勻排列的。為了計算這一失真距離,應(yīng)從 T和 R 中各個對應(yīng)幀之間的距離算起。 圖 基于 DTW 的語音識別流程圖 基于動態(tài)時間歸整匹配的 DTW算法從目前來看,可能是一個最為小巧的語音識別的算法。連接權(quán)的建立是通過訓(xùn)練算法進(jìn)行的。 神經(jīng)網(wǎng)絡(luò)依靠連接權(quán)能夠進(jìn)行長時間記憶和知識存儲,但對于輸入模式的瞬時響應(yīng)的短時記憶能力比較差。 隨著語音識別研究工作的深入開展, HMM 語音識別方法愈來愈收到人們的重視,基于HMM 技術(shù)的識別系統(tǒng)的缺點(diǎn)就在于統(tǒng)計模型的建立需要依賴一個較大的語音庫?;旌夏P涂朔俗畲笏迫粶?zhǔn)則(MLE)區(qū)分能力差的缺陷。分類網(wǎng)絡(luò)可以用 n個輸出節(jié)點(diǎn)表示 n個類,將輸入映射成 n類中的一種。與傳統(tǒng)的 HMM相比,混合 HMM/ANN 模型還為融合多種語音特征矢量,考慮不同層次上的多種約束提供了一個非常方便的接口。且模型所需要的存儲量和匹配計算 (包括特征矢量的輸出概率計算 )的運(yùn)算量相對較大,通常需要具有一定容量 SRAN的 DSP才能完成。因此考慮將人工神經(jīng)網(wǎng)絡(luò)與已經(jīng)發(fā)展的方法結(jié)合構(gòu)成一種混和系統(tǒng),在這種系統(tǒng)中,神經(jīng)網(wǎng)絡(luò)或者作為其前端進(jìn)行預(yù)處理,或者作為后端進(jìn)行后處理。 人工神經(jīng)網(wǎng)絡(luò)在語音識別中的主要應(yīng)用,如矢量量化、分類區(qū)分、降噪濾波、共振峰檢測等,其中用的最多的是神經(jīng)網(wǎng)絡(luò)的區(qū)分能力。 但是,如果系統(tǒng)稍微復(fù)雜一些,這種算法就顯得力不從心了。距離函數(shù)取決于實(shí)際采用的距離度量,在 DTW算法中通常采用歐氏距離。 (2)求出頻譜平方,即能量譜,并用 M 個 Mel 帶通濾波器進(jìn)行濾波;由于每一個頻帶中分量的作用在入耳中是疊加的,因此將每個濾 波器頻帶內(nèi)的能量進(jìn)行疊加,這時第 k 個濾波器輸出功率譜 X(k)。圖 。 利用一組濾波器來分析語音信號的頻譜,方法使用簡單、實(shí)時性好、受外界環(huán)境的影響小。即: ? ? ? ? ? ? ? ??,2,00 pp NNkknxnxnd ??????? (29) 對于實(shí)際的語音信號, d(n)雖不為零,但其值很小。在一定程度上短時過零率可以反映出頻率的信息,在濁音段一般具有較低的過零率,而在清音段具有較高的過零率,這樣就可以初步 判斷清音和濁音,但只是相對而言,沒有精確的數(shù)值關(guān)系。通幫采用最多的窗函數(shù)是矩形窗、漢寧窗(Hanning)和哈明窗 (Hamming)。低通濾波器的截至頻率由語音信號帶寬決定,用于慮除高于 l/2 采樣頻率的信號成分 或噪聲,并且希望其帶內(nèi)波動和帶外衰減特性盡可能好。當(dāng) B=7位時, SNR=35dB。由于在發(fā)音過程中聲道是運(yùn)動的,因此可以用一個時變線性系統(tǒng)來模擬。當(dāng)聲帶振動發(fā)出的聲音氣流從喉腔、咽腔進(jìn)入口腔從唇腔出去時,這些聲腔完全開放,氣流順利通過,這種音稱為元音。語音識別技術(shù)的成熟使人機(jī)界面發(fā)生革命性突破,網(wǎng)絡(luò)時代用戶需要更自然、更簡單、更方便的以語音為中心點(diǎn)的人機(jī)界面。 第三個就是“口語”的問題。首先要明確的是,口音是指同一種語言在不同地區(qū)的發(fā)音有所不同,與同一地區(qū) (例如中國 )的不同方言是有區(qū)別的。特定人是指只針對一個用戶的語音識別,非特定人則可用于不同的用戶。目前我國大詞匯量連續(xù)語音識別系統(tǒng)的研究已經(jīng)接河南理工大學(xué)畢業(yè)設(shè)計(論文)說明書 2 近國外最高水平。 60年代末和 70年代初語音識別最重要的發(fā)展是語音信號線性預(yù)測編碼 (LPC)技術(shù)和動態(tài)時間規(guī) 整 (DTW)技術(shù),有效地解決了語音的特征提取和時間不等長匹配問題,對特定人的語音識別十分有效。本文基于語音信號產(chǎn)生的數(shù)學(xué)模型,從時域、頻域出發(fā)對語音信號進(jìn)行分析,論述了語音識別的基本理論。研究語音識別,開發(fā)相應(yīng)的產(chǎn)品有著廣泛的社會意義和經(jīng)濟(jì)意義。日本也先 后在語音識別領(lǐng)域大展頭角,還有如 Philips公司開發(fā)的 Speech— Media和 Speech Pearl兩套軟件,涵蓋了自然語音識別與理解的對 話系統(tǒng)。孤立詞識別是指說話人每次只說一個詞或短語,每個詞或短語在詞匯表中都算作一個詞條,一般用在語音電話撥號系統(tǒng)中。同時 還可以在很多先驗(yàn)知識的
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1