freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于matlab的語音識(shí)別系統(tǒng)的設(shè)計(jì)本科畢業(yè)設(shè)計(jì)(留存版)

2024-10-26 15:19上一頁面

下一頁面
  

【正文】 (Connected Word)識(shí)別和連續(xù)語音 (Continuous Speech)識(shí)別。臺(tái)灣的一些大學(xué)和研究所也開發(fā)出大詞匯量非特定人連續(xù)語音識(shí)別演示系統(tǒng)。因此語音識(shí)別技術(shù)既是國際競(jìng)爭(zhēng)的一項(xiàng)重要技術(shù),也是每一個(gè)國家 經(jīng)濟(jì)發(fā)展不可缺少的重要技術(shù)支撐。在此基礎(chǔ)上討論了語音識(shí)別的五種算法:動(dòng)態(tài)時(shí)間伸縮算法 (Dynamic Time Warping, DTW)、基于規(guī)則的人工智能方法、人工神經(jīng)網(wǎng)絡(luò) (Artificial Neural Network, ANN)方法、隱馬爾 可夫 (Hidden Markov Model,HMM)方法、 HMM 和 ANN 的混合模型。研究特點(diǎn)是以孤立字語音識(shí)別為主,通常把孤立字作為一個(gè)整體來建立模板。 語音識(shí)別發(fā)展到一定階段,世界各國都加快了語音識(shí)別引用系統(tǒng)的研究開發(fā),通常連續(xù)語音是含有較完整語法信息的連續(xù)語句,最接近于人的自然講話方式,從非連續(xù)語音到連續(xù)語音的研究 面臨著很多完全不同的技術(shù)難點(diǎn),非連續(xù)語音的識(shí)別是一些孤立的聲波片段,連續(xù)語音則面臨著如何切分聲波的問題。實(shí)際上,非特定人語音識(shí)別的初始識(shí)別率往往都比較低,一般都要求用戶花一定的時(shí)間對(duì)系統(tǒng)進(jìn)行訓(xùn)練,將系統(tǒng)的參數(shù)進(jìn)行一定的自適應(yīng)調(diào)整,才能使識(shí)別率達(dá)到滿意的程度。例如,中國的八大方言多屬于與普通話 (北方語系 )不同的語系。這就是用戶說話的自由度問題。未來幾年里,真正實(shí)用的語音識(shí)別和音字轉(zhuǎn)換技術(shù)將首次走出實(shí)驗(yàn)室,走進(jìn)千家萬戶的電器設(shè)備中。元音構(gòu)成一個(gè)音節(jié)的主干,無論從長(zhǎng)度還是能量上看,元音在音節(jié)中都占主要部分。理想的模型是線性的,且時(shí)不變的;但是語音信號(hào)是一連串的時(shí)變過程,且聲門和聲道相互耦合形成了語音信號(hào)的非線性特性。此時(shí)量化后的語音質(zhì)量能滿足一般通信系統(tǒng)的要求。 A/D 轉(zhuǎn)換后采用低通濾波器作為平滑濾波器,對(duì)重構(gòu)的語音波形的高次諧波起平滑作用,以去除高次諧波失真。本文主要采用哈明窗,其公式為: ? ?????????????? ? ???其他nLnL mnw,0~0,1 12c o )( ? (22) 其中 L 是窗長(zhǎng)。短時(shí)平均過零率公式為: ? ?? ? ? ?? ? ? ?? ?? ? ? ?? ?????????????????1 1s g ns g n211s g ns g n21NnnmwwmnmxmxmnwmxmxZ (26) Sgn[*]是符號(hào)函數(shù)。這些極小值將出現(xiàn)在整數(shù)倍周期河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 13 的位置上。濾波器組法所用的濾波器可以是模擬濾波器,也可以是數(shù)字濾波器。 圖 幾種基于短時(shí)傅里葉變換譜之間的關(guān)系 特征參數(shù)提取 LPCC倒譜系數(shù) 線性預(yù)測(cè)倒譜參數(shù) (Linear Prediction Cepstrum Coefficient, LPCC)是線性預(yù)測(cè)系數(shù)在倒譜域中的表示,該特征是基于語音信號(hào)為自回歸信號(hào)的假設(shè),利用線性預(yù)測(cè)分析獲得倒譜系數(shù)。 (3)將每個(gè)濾波器的輸出取對(duì)數(shù),得到相應(yīng)頻帶的對(duì)數(shù)功率譜;并進(jìn)行反離散余弦變換,得到 L個(gè) MFCC系數(shù),一般 L取 12~ 16 個(gè)左右。 DTW 算法是把時(shí)間規(guī)正和距離測(cè)度計(jì)算結(jié)合起來的一種非線性規(guī)正技術(shù)。 基于規(guī)則的人工智能方法 持這種觀點(diǎn)的專家認(rèn)為,用其識(shí)別語音有種種困難,但是人類識(shí)別語音卻并不困難。最初是用神經(jīng)網(wǎng)絡(luò)將語音段分成清音和濁音兩 類,或分成鼻音、摩擦音和爆破音三類。總之,是希望通過這種結(jié)合充分發(fā)揮各自的特長(zhǎng)。 另外,它的一個(gè)最主要的缺點(diǎn)是根據(jù)詞模型推出的狀態(tài)段長(zhǎng)分布是指數(shù)分布,這不符合語音的本質(zhì)屬性,因此,現(xiàn)在推出了一 種非齊次的 HMM 語音識(shí)別模型 (Duration Distribution Based Hidden Markov Model,簡(jiǎn)稱 DDBHMM)。 混合模型結(jié)構(gòu)還充分利用了 ANN的下述特性,克服了 HMM的一系列缺陷和不足,主要特點(diǎn)如下: (1)混合模型可以自適應(yīng)學(xué)習(xí)以適應(yīng)語音數(shù)據(jù)的變化;可以不必拘泥于選取特殊的語音參數(shù)面對(duì)綜合的輸入模式進(jìn)行訓(xùn)練和識(shí)別。但輸出直接映射成 HMM狀態(tài)。 與傳統(tǒng)的 HMM相比,混合 HMM/ANN模型不僅在理論上拋棄了 HMM一系列不合理假設(shè),而且在訓(xùn)練過程中自然地引入了 HMM 狀態(tài)之間的區(qū)分機(jī)制。也正是基于成熟的 HMM方法設(shè)計(jì)了嵌入式環(huán)境下 (如手機(jī), PDA等 )的語音識(shí)別系統(tǒng)。靜態(tài)網(wǎng)絡(luò)在音素識(shí)別問題上的識(shí)別效果非常好,而動(dòng)態(tài)分類在字以及句子層面上的識(shí)別效果比較好。所有的神經(jīng)元協(xié)同工作,使整個(gè)網(wǎng)絡(luò)呈現(xiàn)出大規(guī)模的集體計(jì)算行為,系統(tǒng)的所有計(jì)算都是由這些單元完成的,而單元之間的連接權(quán)決定了網(wǎng)絡(luò)對(duì)任意輸入模式的計(jì)算響應(yīng)。圖 為基于 DTW的孤立字語音識(shí)別流程圖。測(cè)試和參考模板分別用 T 和 R 表示,為了比較它們之間的相似度,可以計(jì)算它們之間的距離 D[T,R],距離越小則相似度越高。 Mel頻率可以用如下公式表示 : ? ?700/1lo g2596 ff M e l ??? (217) 對(duì)頻率軸的不均勻劃分是 MFCC特征區(qū)別于普通倒譜特征的最重要的特點(diǎn)。圖 。因?yàn)槭状握业礁唛T限越過點(diǎn),再往前推可能要搜索 200ms左右才能找到清音的起點(diǎn),這就不便于實(shí)現(xiàn)實(shí)時(shí)特征提取。為了避免乘法,一個(gè)簡(jiǎn)單的方法就是利用差值,為此常常采用另一種與自相關(guān)函數(shù)類似作用的參量,即短時(shí)平均幅度差函數(shù) (AMDP)。 河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 11 圖 語音信號(hào)“ 0”的短時(shí)平均幅度 短時(shí)平均過零率是指每幀內(nèi)信號(hào)通過零值的次數(shù)。這樣就可以采用平穩(wěn)過程的分析處理方法來處理了。從下圖可以明顯河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 8 的看出,加重后語音信號(hào)中高頻分量增強(qiáng)。若用 2x? 表示輸入語音信號(hào)序列的方差, max2X 表示信號(hào)的峰值, B 表示量化分辨率 (量化位長(zhǎng) ), 2e? 表示噪聲序列的方差,則量化信噪比為: )lg ()lg (10 m a x22 xex XBS N R ??? ???? ( ) 假設(shè)語音信號(hào)的幅度服從 Laplacian 分布,此時(shí)信號(hào)幅度超過 x?4 的概率很小 ,只有%,因而可以取 xX ?4max? 。而一段語音,它的起始和結(jié)尾處的波形幅度較小,要準(zhǔn)確地測(cè)出這些地方的基音周期并不容易,因此可將這兩處的波形忽略,只測(cè)調(diào)型 段這一部分波形的基音周期。 濁音通過喉部發(fā)聲,發(fā)聲時(shí)聲帶振動(dòng),聲帶 振動(dòng)的基本頻率稱為“基音頻率”,其倒數(shù)稱為“基音周期”。語音識(shí)別研究的另一個(gè)發(fā)展方向是人體語言與口語相結(jié)合的多媒體人機(jī)交互。研究將要解決的問題就是如何把原始語音從背景噪音中分離出來,即所謂提高音質(zhì)(speech enhancement)或減噪 (noise reduction)的預(yù)處理。然而語音技術(shù)本身仍在不斷進(jìn)步,為市場(chǎng)提供更新更好的應(yīng)用模式和技術(shù)。連續(xù)語音識(shí)別是指對(duì)說話人以日常自然的方式發(fā)音,通常特指用于語音錄入的聽寫機(jī)。從 1987年開始執(zhí)行 863計(jì)劃后,國家 863《智能計(jì)算機(jī)主題》專家組為語音識(shí)別研究立項(xiàng)。早期的工作主要集中在人耳聽辨試驗(yàn)和探討聽音識(shí)別的可能性方面。河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 I 摘 要 語音識(shí)別主要是讓機(jī)器聽懂人說的話,即在各種情況下,準(zhǔn)確地識(shí)別出語音的內(nèi)容,從而根據(jù)其信息執(zhí)行人的各種意圖。 Bell實(shí)驗(yàn)室的 L. G. Kesta目視觀察語譜圖進(jìn)行識(shí)別,提出了“聲紋 (Voiceprint)”的概念。每?jī)赡隄L動(dòng)一次,從 1991年開始,專家組每一至二年舉行一次全國性的語音識(shí)別系統(tǒng)測(cè)試。顯然,連續(xù)非特定人語音識(shí)別的難度要大得多,因?yàn)椴粌H有說話人口音的問題,還有協(xié)同發(fā)音、斷字?jǐn)嗑?、搜索等問題,除了考慮語音的聲學(xué)模型外還要涉及到語言模型,如構(gòu)詞法、文法等。目前,技術(shù)及應(yīng)用的焦點(diǎn)主要集中在三個(gè)方面。這將會(huì)使識(shí)別系統(tǒng)具有很強(qiáng)的適應(yīng)性。目前這種采用聲覺、視覺兩種信息融合進(jìn)行識(shí)別的研究在全球范圍內(nèi)己經(jīng)展開,成為語音識(shí)別研究的重要發(fā)展方向和研究熱點(diǎn)之一。清音通過將口腔內(nèi)有的空氣釋放出來而發(fā)聲,發(fā)聲時(shí)喉部封閉,由于該氣流通過一個(gè)狹窄通道時(shí)在口腔中形成流,因此具有明顯的隨機(jī)噪聲的特點(diǎn)。圖 給出了單獨(dú)說一個(gè)音節(jié)時(shí)的四種聲調(diào)的典型曲線 ( HzF/0 )。此時(shí)上式變?yōu)?SNR=。 圖 語音信號(hào)“ 0”的預(yù)加重處理效果 A/D轉(zhuǎn)換之前還需要加一個(gè)防混疊濾波器。這種時(shí)間以來處理的基本手段,一般是用 一個(gè)長(zhǎng)度有限的窗序列 w(n)截取一段語音信號(hào)來進(jìn)行分析,并讓這個(gè)窗滑動(dòng),以便分析任意時(shí)刻附近的信號(hào)。對(duì)于連續(xù)語音信號(hào),可以考察其時(shí)域波形通過時(shí)間軸的情況。 平均幅度差函數(shù)能夠代替自相關(guān)函數(shù)進(jìn)行語音分析,是基于這樣一個(gè)事實(shí):如果信號(hào)是完全的周 期信號(hào) (設(shè)周期為 Np。 語音信號(hào)的頻域分析 語音的感知過程與人類聽覺系統(tǒng)具有頻譜分析功能是緊密相關(guān)的。 圖 從帶通濾波器作用理解短時(shí)傅里葉變換 ? ?jwneX 可以看作是加窗后函數(shù)的傅立葉變換,為了實(shí)現(xiàn)反變換,將 ? ?jwneX 進(jìn)行頻率河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 15 采樣,即令 LKwk /2?? 則有 ? ? ? ? ? ?? ?????? ??? m mjwjwn kk emnwmxeX (212) 式中, L為頻率采樣點(diǎn)數(shù)。將頻率按照式 (217)變換到 Mel域后, Mel帶通濾波器組的中心頻率是按照 Mel頻率刻度均勻排列的。為了計(jì)算這一失真距離,應(yīng)從 T和 R 中各個(gè)對(duì)應(yīng)幀之間的距離算起。 圖 基于 DTW 的語音識(shí)別流程圖 基于動(dòng)態(tài)時(shí)間歸整匹配的 DTW算法從目前來看,可能是一個(gè)最為小巧的語音識(shí)別的算法。連接權(quán)的建立是通過訓(xùn)練算法進(jìn)行的。 神經(jīng)網(wǎng)絡(luò)依靠連接權(quán)能夠進(jìn)行長(zhǎng)時(shí)間記憶和知識(shí)存儲(chǔ),但對(duì)于輸入模式的瞬時(shí)響應(yīng)的短時(shí)記憶能力比較差。 隨著語音識(shí)別研究工作的深入開展, HMM 語音識(shí)別方法愈來愈收到人們的重視,基于HMM 技術(shù)的識(shí)別系統(tǒng)的缺點(diǎn)就在于統(tǒng)計(jì)模型的建立需要依賴一個(gè)較大的語音庫?;旌夏P涂朔俗畲笏迫粶?zhǔn)則(MLE)區(qū)分能力差的缺陷。分類網(wǎng)絡(luò)可以用 n個(gè)輸出節(jié)點(diǎn)表示 n個(gè)類,將輸入映射成 n類中的一種。與傳統(tǒng)的 HMM相比,混合 HMM/ANN 模型還為融合多種語音特征矢量,考慮不同層次上的多種約束提供了一個(gè)非常方便的接口。且模型所需要的存儲(chǔ)量和匹配計(jì)算 (包括特征矢量的輸出概率計(jì)算 )的運(yùn)算量相對(duì)較大,通常需要具有一定容量 SRAN的 DSP才能完成。因此考慮將人工神經(jīng)網(wǎng)絡(luò)與已經(jīng)發(fā)展的方法結(jié)合構(gòu)成一種混和系統(tǒng),在這種系統(tǒng)中,神經(jīng)網(wǎng)絡(luò)或者作為其前端進(jìn)行預(yù)處理,或者作為后端進(jìn)行后處理。 人工神經(jīng)網(wǎng)絡(luò)在語音識(shí)別中的主要應(yīng)用,如矢量量化、分類區(qū)分、降噪濾波、共振峰檢測(cè)等,其中用的最多的是神經(jīng)網(wǎng)絡(luò)的區(qū)分能力。 但是,如果系統(tǒng)稍微復(fù)雜一些,這種算法就顯得力不從心了。距離函數(shù)取決于實(shí)際采用的距離度量,在 DTW算法中通常采用歐氏距離。 (2)求出頻譜平方,即能量譜,并用 M 個(gè) Mel 帶通濾波器進(jìn)行濾波;由于每一個(gè)頻帶中分量的作用在入耳中是疊加的,因此將每個(gè)濾 波器頻帶內(nèi)的能量進(jìn)行疊加,這時(shí)第 k 個(gè)濾波器輸出功率譜 X(k)。圖 。 利用一組濾波器來分析語音信號(hào)的頻譜,方法使用簡(jiǎn)單、實(shí)時(shí)性好、受外界環(huán)境的影響小。即: ? ? ? ? ? ? ? ??,2,00 pp NNkknxnxnd ??????? (29) 對(duì)于實(shí)際的語音信號(hào), d(n)雖不為零,但其值很小。在一定程度上短時(shí)過零率可以反映出頻率的信息,在濁音段一般具有較低的過零率,而在清音段具有較高的過零率,這樣就可以初步 判斷清音和濁音,但只是相對(duì)而言,沒有精確的數(shù)值關(guān)系。通幫采用最多的窗函數(shù)是矩形窗、漢寧窗(Hanning)和哈明窗 (Hamming)。低通濾波器的截至頻率由語音信號(hào)帶寬決定,用于慮除高于 l/2 采樣頻率的信號(hào)成分 或噪聲,并且希望其帶內(nèi)波動(dòng)和帶外衰減特性盡可能好。當(dāng) B=7位時(shí), SNR=35dB。由于在發(fā)音過程中聲道是運(yùn)動(dòng)的,因此可以用一個(gè)時(shí)變線性系統(tǒng)來模擬。當(dāng)聲帶振動(dòng)發(fā)出的聲音氣流從喉腔、咽腔進(jìn)入口腔從唇腔出去時(shí),這些聲腔完全開放,氣流順利通過,這種音稱為元音。語音識(shí)別技術(shù)的成熟使人機(jī)界面發(fā)生革命性突破,網(wǎng)絡(luò)時(shí)代用戶需要更自然、更簡(jiǎn)單、更方便的以語音為中心點(diǎn)的人機(jī)界面。 第三個(gè)就是“口語”的問題。首先要明確的是,口音是指同一種語言在不同地區(qū)的發(fā)音有所不同,與同一地區(qū) (例如中國 )的不同方言是有區(qū)別的。特定人是指只針對(duì)一個(gè)用戶的語音識(shí)別,非特定人則可用于不同的用戶。目前我國大詞匯量連續(xù)語音識(shí)別系統(tǒng)的研究已經(jīng)接河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 2 近國外最高水平。 60年代末和 70年代初語音識(shí)別最重要的發(fā)展是語音信號(hào)線性預(yù)測(cè)編碼 (LPC)技術(shù)和動(dòng)態(tài)時(shí)間規(guī) 整 (DTW)技術(shù),有效地解決了語音的特征提取和時(shí)間不等長(zhǎng)匹配問題,對(duì)特定人的語音識(shí)別十分有效。本文基于語音信號(hào)產(chǎn)生的數(shù)學(xué)模型,從時(shí)域、頻域出發(fā)對(duì)語音信號(hào)進(jìn)行分析,論述了語音識(shí)別的基本理論。研究語音識(shí)別,開發(fā)相應(yīng)的產(chǎn)品有著廣泛的社會(huì)意義和經(jīng)濟(jì)意義。日本也先 后在語音識(shí)別領(lǐng)域大展頭角,還有如 Philips公司開發(fā)的 Speech— Media和 Speech Pearl兩套軟件,涵蓋了自然語音識(shí)別與理解的對(duì) 話系統(tǒng)。孤立詞識(shí)別是指說話人每次只說一個(gè)詞或短語,每個(gè)詞或短語在詞匯表中都算作一個(gè)詞條,一般用在語音電話撥號(hào)系統(tǒng)中。同時(shí) 還可以在很多先驗(yàn)知識(shí)的
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1