freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

說(shuō)話人識(shí)別的系統(tǒng)設(shè)計(jì)_大學(xué)畢業(yè)論文(編輯修改稿)

2025-10-01 08:11 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 待識(shí)別者可以在集合外,而閉集假定待識(shí)別說(shuō)話人一定在集合內(nèi)。 說(shuō)話人確認(rèn)和說(shuō)話人辨認(rèn) 概念如圖 所示 [6]。 北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文) 7 圖 說(shuō)話人辨認(rèn)與說(shuō)話人確認(rèn) 文本有關(guān)、文本無(wú)關(guān)和文本提示 與文本有關(guān)的識(shí)別系統(tǒng)要求用戶在訓(xùn)練和識(shí)別時(shí)按照規(guī)定的內(nèi)容發(fā)音,并根據(jù)特定的發(fā)音內(nèi)容建立精確 的模型,從而達(dá)到較好的識(shí)別效果,但系統(tǒng)需要用戶配合,如果用戶的發(fā)音與規(guī)定的內(nèi)容不符合,則無(wú)法正確識(shí)別該用戶。 現(xiàn)有的大部分已商業(yè)化的系統(tǒng)都是文本相關(guān)的 [7]。 與文本無(wú)關(guān)的識(shí)別系統(tǒng)則不論在訓(xùn)練時(shí)還是在識(shí)別時(shí)都不規(guī)定說(shuō)話內(nèi)容,即其識(shí)別對(duì)象是自由的語(yǔ)音信號(hào)。 文本提示型的識(shí)別系統(tǒng)在每一次識(shí)別時(shí),識(shí)別系統(tǒng)在一個(gè)規(guī)模很大的文本集合中 隨機(jī) 選擇提示文本,要求說(shuō)話人按提示文本的內(nèi)容發(fā)音,而識(shí)別和判決是在說(shuō)話人對(duì)文本內(nèi)容正確發(fā)音的基礎(chǔ)上 進(jìn)行的。 文本提示增加了登記和確認(rèn)的時(shí)間,但是它提高了針對(duì)磁帶錄音的安全性。由于重述的條目不能被預(yù)測(cè)到,播放錄音是非常困難的 [7]。 本文 系統(tǒng)實(shí)現(xiàn) 概述 按照 節(jié)中提到的分類方法,本論文實(shí)現(xiàn)的系統(tǒng)屬于 與文本無(wú)關(guān)的閉集說(shuō)話人辨認(rèn)系統(tǒng) 。 本系統(tǒng)使用 Java 語(yǔ)言結(jié)合 SQL Server 2020 數(shù)據(jù)庫(kù)實(shí)現(xiàn),具體的 實(shí)現(xiàn)框圖如圖 所示。 誰(shuí)的講話? A1 X A2 A3 An …… 未知語(yǔ)音 記錄講話者 說(shuō)話人辨認(rèn) 記錄講話者 是 A的講話? X A 未知語(yǔ)音 說(shuō)話人確 認(rèn) 北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文) 8 圖 說(shuō)話人識(shí)別系統(tǒng)框圖 預(yù)處理過(guò)程包含分幀和端點(diǎn)檢測(cè) 兩 個(gè)部分。由于語(yǔ) 音信號(hào)只在短時(shí)間內(nèi)具有平穩(wěn)性,因此要將信號(hào)作分幀處理。分幀后,語(yǔ)音信號(hào)被分割成一幀一幀的短時(shí)信號(hào)。本文使用交疊分幀的方法,即前后相鄰的兩幀有重疊的部分,這樣可以使幀與幀之間平滑過(guò)渡,保持其連續(xù)性。端點(diǎn)檢測(cè)是為了減少噪聲的影響。噪聲也即無(wú)聲段。短時(shí)能量可以區(qū)分濁音和噪音。短時(shí)過(guò)零率可以區(qū)分清音和噪音。因此,本文使用二者的乘積 —— 能頻值,來(lái)實(shí)現(xiàn)語(yǔ)音端點(diǎn)檢測(cè),以去除無(wú)聲段。 特征提取時(shí),本文選用 線性預(yù)測(cè)倒譜系數(shù)( Linear Predictive Cepstral Coefficients ,LPCC)、差分線性 預(yù)測(cè)倒譜系數(shù)、基音頻率以及差分基音頻率四種特征的特征組合來(lái)表征說(shuō)話人的特征 。 其中, 線性預(yù)測(cè)倒譜系數(shù) 和 基音頻率 反映的是生成語(yǔ)音的發(fā)音器官的差異, 差分線性預(yù)測(cè)倒譜系數(shù) 和 差分基音頻率 反映的則是發(fā)音器官發(fā)音時(shí)動(dòng)作的差異。 組合的方式是加權(quán)擴(kuò)維,其中加權(quán)系數(shù)是根據(jù)最終系統(tǒng)的輸出結(jié)果反饋選取的。 碼本生成和模式匹配也就是一般模式識(shí)別中的分類決策,本文選用矢量量化的方法實(shí)現(xiàn)。 碼本生成部分是對(duì)組合特征矢量集進(jìn)行聚類,生成使矢量集中所有特征矢量的總失真最小的最優(yōu)碼本。這樣做的原因有兩個(gè):一是由各幀特征矢量組成的矢量集數(shù)據(jù)量過(guò)大 ,不便于直接用于后續(xù)身份判決運(yùn)算;二是一段語(yǔ)音各幀之間的相關(guān)性很大,即代表性不強(qiáng),直接用為碼本來(lái)表征說(shuō)話人會(huì)導(dǎo)致失真過(guò)大。 模式匹配部分的任務(wù)是得到碼本集后,用它與再次輸入的組合特征矢量集求取平均量化失真,取其中最小的碼本對(duì)應(yīng)的注冊(cè)用戶 即 為當(dāng)前說(shuō)話人。 識(shí)別 訓(xùn)練 識(shí)別結(jié)果 測(cè)試矢量集 碼本矢量集 測(cè)試語(yǔ)音 訓(xùn)練語(yǔ)音 特征提取 特征提取 語(yǔ)音碼本 生成 預(yù)處理 模式匹配 北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文) 9 2 語(yǔ)音信號(hào)預(yù)處理 在語(yǔ)音信號(hào)特征提取之前,為了突出信號(hào)的有效部分以及便于之后的數(shù)據(jù)操作,首先要進(jìn)行的一個(gè)環(huán)節(jié)就是對(duì)輸入語(yǔ)音信號(hào)的預(yù)處理。預(yù)處理主要包括對(duì)輸入計(jì)算機(jī)的語(yǔ)音數(shù)據(jù)進(jìn)行分幀和端點(diǎn)檢測(cè) 兩 個(gè)過(guò)程。 語(yǔ)音信號(hào)分幀 語(yǔ)音信號(hào)是一種準(zhǔn)平穩(wěn)信號(hào)。但 是,由于語(yǔ)音的形成過(guò)程與發(fā)聲器官的運(yùn)動(dòng)密切相關(guān),這種物理運(yùn)動(dòng)比起聲波振動(dòng)速度來(lái)講要緩慢得多,因此語(yǔ)音信號(hào)常常可以假定為短時(shí)平穩(wěn)的,即可以假定在 10~30ms 的時(shí)間段內(nèi),其頻譜特性和某些物理特征參量可近似地看作是不變的。任何語(yǔ)音信號(hào)數(shù)字處理算法和技術(shù)都建立在這種 “短時(shí)平穩(wěn) ”特性的基礎(chǔ)上。因此,一般分幀時(shí),幀長(zhǎng)應(yīng)選取在 10~30ms 之間。 每個(gè)短時(shí)語(yǔ)音段稱為一個(gè)分析幀,分析幀可以是連續(xù)的,也可以采用交疊分幀的方法。交疊分幀可以平滑信號(hào),以減少在信號(hào)兩端處的預(yù)測(cè)誤差,避免頻譜出現(xiàn) “ 破碎 ”現(xiàn)象。交疊分幀時(shí),前一幀和 后一幀的交疊部分稱為幀移。幀移與幀長(zhǎng)的比值一般取0~1/2,圖 給出了幀移和幀長(zhǎng)的關(guān)系 [1]。本系統(tǒng)中,綜合考慮到語(yǔ)音信號(hào)的短時(shí)平穩(wěn)性以及之后的基音檢測(cè)的準(zhǔn)確性,最終選取幀長(zhǎng)為 30ms(在系統(tǒng)采樣率為 8KHz 的前提下,相應(yīng)于每幀有 240 個(gè)信號(hào)樣值),幀移 15ms。 圖 幀長(zhǎng)和幀移的示例 第 k 幀 第( k+1)幀 第( k+2)幀 幀移 幀長(zhǎng) 北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文) 10 分幀是用可移動(dòng)的有限長(zhǎng)度窗口進(jìn)行加權(quán)的方法來(lái)實(shí)現(xiàn)的,也就是用一定的窗函數(shù))(n? 來(lái)乘原信號(hào) )(ns ,從而形成加窗語(yǔ)音信號(hào) )(*)()( nwnsns ?? 。在語(yǔ)音信號(hào)數(shù)字處理中常用的窗函數(shù)是矩形窗和漢明窗等,它們的表達(dá)式 為 (其中 N 為幀長(zhǎng)): 矩形窗 ??? ? ???? e l s en Nnn ,0 )1(0,1)(? ( 21) 漢明窗 ??? ? ?????? e l s en NnNnn ,0 10)],1/(2c os [)( ?? ( 22) 矩形窗的主瓣寬度比漢明窗小一倍,即帶寬約縮小了一倍,所以它具有較高的頻譜分辨率。同時(shí)漢明窗的帶外衰減比矩 形窗大一倍多,具有更平滑的低通特性,能夠在較高程度上反映短時(shí)信號(hào)的頻譜特性。因此,在語(yǔ)音頻譜分析時(shí)常使用漢明窗 來(lái)獲得分段語(yǔ)音,而在計(jì)算短時(shí)能量和平均幅度時(shí)通常使用矩形窗。本系統(tǒng)考慮到之后語(yǔ)音端點(diǎn)檢測(cè)的準(zhǔn)確性,選用簡(jiǎn)單實(shí)用的矩形窗完成分幀。 經(jīng)過(guò)以上的處理過(guò)程后,語(yǔ)音信號(hào)就已經(jīng)被分割成一幀一幀的加過(guò)窗函數(shù)的短時(shí)信號(hào),然后再把每一個(gè)短時(shí)語(yǔ)音幀看成平穩(wěn)的隨機(jī)信號(hào),利用語(yǔ)音信號(hào)處理技術(shù)來(lái)做進(jìn)一步的處理。 語(yǔ)音信號(hào)端點(diǎn)檢測(cè) 在對(duì)語(yǔ)音信號(hào)進(jìn)行特征提取之前, 為了提高數(shù)據(jù)的有效性同時(shí)減少計(jì)算量,需要首先進(jìn)行語(yǔ)音端 點(diǎn)檢測(cè), 去除主要的無(wú)聲段, 以便 減少噪聲的干擾 。 語(yǔ)音信號(hào) 一 般可分為無(wú)聲段、清音段和濁音段。無(wú)聲段是背景噪聲段,平均能量最低。濁音段為聲帶振動(dòng)發(fā)出對(duì)應(yīng)的語(yǔ)音信號(hào)段,平均能量最高。清音段為空氣在口腔中的摩擦、沖擊或爆破而發(fā)出的語(yǔ)音信號(hào)段,平均能量居于兩者之間。 采用基于能量的算法來(lái)檢測(cè)濁音通常是可行也是可靠的。但對(duì)清音而言,除非信號(hào)具有極高的信噪比,例如在隔音室中錄制的高保真度錄音 ( 對(duì)于這種高信噪比錄音,最低電平語(yǔ)音的能量超過(guò)背景噪聲能量幾倍到幾十倍 ) ,否則,采用能量算法從背景噪聲北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文) 11 中鑒別出清音就不夠可靠了。 此時(shí) ,需要用到語(yǔ)音信號(hào)的另 一 重要特征,即過(guò)零率:一定時(shí)間內(nèi)信號(hào)穿越零電平的次數(shù)。清音段與無(wú)聲段的波形特點(diǎn)有明顯不同,無(wú)聲段信號(hào)變化比較緩慢,清音段信號(hào)由氣流摩擦產(chǎn)生,在幅度上的變化比較劇烈,穿越零電平次數(shù)較多。經(jīng)驗(yàn)表明,通常清音段過(guò)零率最大,無(wú)聲段的過(guò)零率的變化范圍較大 [8]。 對(duì)于一幀信號(hào)而言, 其 能量值和過(guò)零次數(shù)被稱為短時(shí)能量和 短時(shí) 過(guò)零率 [9]。 具體定義如下: 短時(shí)能量 ??? Nm n mSE 1 2 )( ( 23) 短時(shí)過(guò)零率 ?????? ??? ??Nm nn mSmSZ 20 )]1(s gn[)](s gn[21 ( 24) 其中 )(mSn 為 短時(shí) 信號(hào) 的 幅度, N 為 一幀 語(yǔ)音 數(shù)據(jù)中的樣本數(shù) , )sgn(x 為符號(hào)函數(shù): ??? ?? ?? 0,1 0,1)s g n( xxx ( 25) 能量特征適合檢測(cè)濁 音,過(guò)零率適合檢測(cè)清音,為了同時(shí)檢測(cè)兩者,一般綜合利用兩種特征。 為此,引入能頻值( EFV, Energy Frequency Value)的概念:能頻值等于短時(shí)能量乘上短時(shí)過(guò)零率 。 其定義式即為式 26。 ?????? ???? ?? ??Nn nnNm n mSmSmSE F V 212 )]1(s gn[)](s gn[21)( ( 26) 能頻值既顧及了清音的高過(guò)零率又顧及了濁音的高能量,從而提高了語(yǔ)音信號(hào)與背景噪聲的分辨力。 同時(shí),考慮到實(shí)際應(yīng)用時(shí)周圍環(huán)境的變換以及講話者的語(yǔ)音強(qiáng)弱等影響都使閾值的選取無(wú)法普遍適用, 為此,我們進(jìn)一步引入相對(duì) 閾 值的概念,它區(qū)別于傳統(tǒng)意義上的門限 閾 值,而 是 度量?jī)蓚€(gè)時(shí)刻的語(yǔ)音采樣的比值關(guān)系 ,具體來(lái)說(shuō)是當(dāng)前采樣點(diǎn)與分析順序上第一個(gè)極大值點(diǎn)的比值。 該 相對(duì) 閾 值 即能反映出當(dāng)前采樣點(diǎn)能頻值的大小,又能類似歸一化方法地屏蔽掉環(huán)境影響,因此具有較好的效果。 北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文) 12 系統(tǒng)實(shí)現(xiàn)時(shí), 具體流程如圖 所示。 計(jì) 算 每 幀 短 時(shí) 能 量 構(gòu) 成 的 序 列e ( 0 ) , e ( 1 ) , … , e ( n )計(jì) 算 每 幀 短 時(shí) 過(guò) 零 率 構(gòu) 成 的 序列 f ( 0 ) , f ( 1 ) , … , f ( n )計(jì) 算 每 幀 能 頻 值 構(gòu) 成 的 序 列 e f( 0 ) , e f ( 1 ) , … , e f ( n ) t = 0 , j = 0e f ( t + j ) e f ( t + j + 1 )r = e f ( t + j ) / e f ( t ) R當(dāng) 前 t 即 為 語(yǔ)音 起 始 點(diǎn)j + +e f ( t ) 不 為 0t + +t = t + j + 1 ; j = 0YYYNNN 圖 端點(diǎn)檢測(cè)流程圖 圖 中 R 就是設(shè)定的相對(duì)閾值,本系統(tǒng)在輸出所有 r 后,根據(jù) r 的取值分布和 最終檢測(cè)效果選定 R的值為 30。 語(yǔ)音終止點(diǎn)的判定與此類似,只是判定時(shí)從時(shí)刻 t向前搜索。 北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文) 13 本章小結(jié) 語(yǔ)音信號(hào) 只具有短時(shí)穩(wěn)定性, 也即 語(yǔ)音信號(hào)的分析只對(duì)于短時(shí)間內(nèi)的語(yǔ)音信號(hào)有效。故此,要對(duì)語(yǔ)音信號(hào)進(jìn)行分析,首先需要將該語(yǔ)音信號(hào)分成一幀一幀具有穩(wěn)定性質(zhì)的短時(shí)信號(hào)。 為了保證前后幀性質(zhì)的連續(xù)性, 分幀時(shí),本文采用交疊分幀的方法。幀移等于幀長(zhǎng)的一半,即前一幀和后一幀之間有一半的點(diǎn)是重疊的 。 分幀后的信號(hào)仍包含大量的噪聲段(無(wú)聲段)信號(hào)。要提高系統(tǒng)的精度,這些噪聲段必須被去除掉,因此,要進(jìn)行語(yǔ)音端點(diǎn)檢測(cè)的工作。考慮到語(yǔ)音中濁音段具有較高的能量,清音段具有較高的過(guò)零率,本文采用二者的乘積作為區(qū)分噪音段和語(yǔ)音段的標(biāo)準(zhǔn)。 經(jīng)過(guò)本章的處 理后,語(yǔ)音信號(hào)可以被用于下一步特征提取的過(guò)程了。 北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文) 14 3 說(shuō)話人識(shí)別的 特征提取 經(jīng)過(guò)預(yù)處理后,幾秒鐘的語(yǔ)音就會(huì)產(chǎn)生很大的數(shù)據(jù)量。提取說(shuō)話人特征的過(guò)程,實(shí)際上就是去除原來(lái)語(yǔ)音中的冗余信息,減小數(shù)據(jù)量的過(guò)程。 特征參數(shù) 的選取 人和計(jì)算機(jī)能夠根據(jù)語(yǔ)音信號(hào)將說(shuō)話人識(shí)別出來(lái),是因?yàn)檎Z(yǔ)音信號(hào)中包含了與說(shuō)話人有關(guān)的信息。首先,語(yǔ)音信號(hào)中包含了與說(shuō)話人有關(guān)的一些高級(jí)信息( Highlevel Information)。如方言、遣詞用句的特點(diǎn)、說(shuō)話的習(xí)慣風(fēng)格等。這些高級(jí)信息是人類區(qū)分不同說(shuō)話人的主要依據(jù),也是說(shuō)話人識(shí) 別系統(tǒng)最理想的特征參數(shù)。除了上述高級(jí)信息外,還有一些低級(jí)信息( Lowlevel Information)。不同人的發(fā)聲器官的生理結(jié)構(gòu)有所差別,在不同的環(huán)境中成長(zhǎng)的人 即使 發(fā)同一個(gè)音時(shí)發(fā)聲器官的動(dòng)作也不盡相同。這種能夠表征說(shuō)話人的信息,是通過(guò)共振峰頻率及帶寬、平均基頻、頻譜基本形狀等這些物理可測(cè)量的參數(shù)特征表現(xiàn)出來(lái)的。 實(shí)用的表征說(shuō)話人特點(diǎn)的基本特征應(yīng)具有以下特點(diǎn) [1]: ( 1) 能夠有效地區(qū)分不同的說(shuō)話人,但又能在同一說(shuō)話人的 語(yǔ)音發(fā)生變化時(shí)相對(duì)保持穩(wěn)定。 ( 2) 較好的魯棒性。 ( 3) 易于從語(yǔ)音信號(hào)中提取。 ( 4) 不易被模仿。 ( 5) 盡量不隨時(shí)間和空間變化。 發(fā)音是一個(gè)很復(fù)雜的過(guò)程,不可能找到能完全覆蓋每個(gè)說(shuō)話人所有特征的理想的單一的特征參量。而各種特征向量是基于不同模型來(lái)建立的,所以,選取幾種相關(guān)性不大的特征量組合使用,就能從不同的角度體現(xiàn)說(shuō)話人特征,達(dá)到比較大的特征覆蓋范圍,從而提高識(shí)別率。 選取語(yǔ)音特征參數(shù)時(shí) ,一般考慮兩個(gè)方面的問(wèn)題:生成語(yǔ)音的發(fā)音器官的差異(先天的)與發(fā)音器官發(fā)音時(shí)動(dòng)作的差異(后天的)。前者主要表現(xiàn)在語(yǔ)音的頻率結(jié)構(gòu)上,北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文) 15 主要包含反映 聲道共振特性的頻譜包絡(luò)特征信息,以及反映聲帶振動(dòng)等聲源特性的頻譜細(xì)
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1