freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

情感語音信號中共振峰參數(shù)的提取方法畢業(yè)論文(編輯修改稿)

2024-10-02 12:48 本頁面
 

【文章內(nèi)容簡介】 情感維度空間兩種方法概述了情感的分類,然 4 后介紹了情感語音數(shù)據(jù)分為 3 個類別以及本文所用的情感語音數(shù)據(jù)庫。最后介紹了語音情感識別系統(tǒng)。 第三章介紹了共振峰的概念,說明了共振峰在情感語音識別中的重要性;接 下來分析了提取共振峰參數(shù)所遇到的問題。 第四章對語音情感識別中的共振峰的提取方法進行了分析介紹。包括譜包絡提取法、倒譜法提取共振峰、 LPC 法提取共振峰、求根法提取共振峰和 LPC 倒譜法提取共振峰,并簡單分析了這幾種提取共振峰方法的優(yōu)缺點。 第五章重點介紹了倒譜法提取共振峰的過程。首先介紹了倒譜的定義以及倒譜法提取共振峰的原理,接下來畫出了共振峰提取框圖和共振峰提取流程圖,最后給出了情感語音中高興、生氣和中立的共振峰提取結(jié)果。并對共振峰提取結(jié)果進行分析與總結(jié)。 第六章是對本文主要工作和研究成果的總結(jié),并對下一 步語音情感識別中共振峰提取的研究工作做出展望。 5 第 2章 情感的分類與語音情感識別 情感的分類 情感類型的合理界定是對語句進行情感標注的基礎。在情感計算領域,許多學者從不同的角度研究了情感的分類問題,并提出了相應的情感類型定義。傳統(tǒng)的研究通常用日常語言標簽來標識和分類情感,比如把情感分為高興、憤怒、害怕等 [15]。 美國心理學家 Eckman 提出了六種基本情緒 [16]: 憤怒、恐懼、悲傷、驚訝、高興和厭惡。而 Plutchik 提出過八種基本情緒 [17]悲痛、恐懼 、驚奇、接受、狂喜、狂怒、警惕、憎恨 。 Shaver 等人則認為原始情緒有憤怒、愛、高興、害怕、悲傷、驚訝六類 [18],這和 Eckman 的六類墓本情緒存在微小差異 。 另外,關于語音情感的研究還可以更為簡單化,部分研究對情感的分類更側(cè)重于系統(tǒng)的實用性 。 例如,將語音僅分為 “ 無情感含義 ”與 “ 帶情感含義 ” 兩大類 ; 或是分為 “ 情感強烈 ” 與 “ 情感不強烈 ” 兩大類 ; 部分研究只關注于用戶的情感狀態(tài)是 “ 正常 ” 還是 “ 不正常 ”; 還有的研究只注重用戶的某些負面情感,如 “ 挫敗 ” 、 “ 厭煩 ” 、 “ 僧惡 ” 等等 。 除了以標簽法將情感分成離散的類別之外, 一些研究者嘗試在連續(xù)的空間中描述情感,也稱作維度輪 [19]。在此基礎上, Plutchik 等人提出了 “ 情感輪 ” 理論,認為情感分布在一個類似于鐘表盤的圓形結(jié)構(gòu)上,圓心是自然原點,表示人在內(nèi)心平靜時的情感狀態(tài),而圓周上的標注標明兒種基本情感類型,其排列方式可根據(jù)具體研究需要設置 [20]。情感語句的情感類型和強度可用情感輪組成的二維空間中的情感矢量表示,該矢量同自然原點之間的距離體現(xiàn)了情感的強度,方向則 表示 情感類別。 盡管心理學、認知學等領域的研究人員對于情感種類的定義五花八門,但在目前絕大多數(shù)的語音情感識別系統(tǒng)中 ,使用的情感類別是 MPEG4 國際標準定義的五種情感狀態(tài),即 “憤 怒 (Anger)”、“ 恐懼 (Fear)”、“ 高興 (Happiness)”、“ 悲傷 (Sadness)” 和 “ 驚訝 (Surprise)” ,外加 “中立 (Neutral)” 來表征語音不具有情感含義。 情感語音數(shù)據(jù)庫 要對語音進行情感識別,情感語音數(shù)據(jù)庫的建立是基礎。怎么樣才能獲取高質(zhì)量的情感語音是建立語音庫的關鍵問題。因為語音的質(zhì)量將直接影響整個語音情感識別系統(tǒng)的性能。按照表達的情感自然度可以將情感語音數(shù)據(jù)分為 3 個類別:自然型情感語音、表演型情 感語音和引導型情感語音 [19]。 自然型情感語音是在說話人不知情的情況下獲取的完全放松狀態(tài)下的情感語音。這種類型的語音被普遍認為是最理想最可信的情感語料。然而,由于涉及法律和版權問題,這類情感語音的錄制較為困難,成本也比較高。 表演型情感語音是指情感表現(xiàn)力較強的演員模仿不同情感朗誦指定語句獲得的情感語料。相對于自然型情感語音,表演型情感語音較容易獲取,可控制性較強,可以根據(jù)需要錄制任意說話內(nèi)容的情感語句。然而表演型情感語句中的情感成分被夸張了,而且自然度也受說話人的演技高低影響。 引導型情感語音是指通過一定 的外界環(huán)境和手段,引導說話人的情緒進入某種特定的狀態(tài),從而錄制情感語音的方法。引導型情感語音通常通過文字對說話者進行引導, 6 即通過說話人朗讀帶有一定感情色彩的文本,獲得所需要的情感語句。引導型情感語音是自然型和表演型情感語音錄制方法的一種折中,定制性比較強且語料的獲取相對方便,適合基于不同文本的語音情感方面的研究。然而,純文本引導對于內(nèi)心情感狀態(tài)的生成比較緩慢和微弱,這種方式獲得的情感語句對文本內(nèi)容的選擇性比較強。 由于語音情感信息的地域性差異,目前情感語音研究領域中缺乏標準數(shù)據(jù)庫,需要研究者錄制符合自身研究 要求的情感語料庫。本文應用的是由高興、生氣、中立三種情感語音組成的情感語音數(shù)據(jù)庫,每種情感語音分別有中英文兩種語言,所用情感語句的中文文本為“我到北京去”英文文本為“ Good morning”以 wav 格式存儲,持續(xù)時間五秒以內(nèi),經(jīng)過反復的主觀聽覺實驗,認為該情感語音數(shù)據(jù)庫的語料情感辨識度較高,自然度也比較理想,可以滿足本文的研究需求。 語音情感識別系統(tǒng) 預 處 理 特 征 提 取情 感 語 音 輸 入模 式 匹 配模 板 庫參 考 模 式識 別 結(jié) 果 輸 出 圖 21 典型語音情感識別系統(tǒng)的框圖 語音情感識別系統(tǒng)與語音識別系統(tǒng)類似,分為 語音情感語句預處理、特征參數(shù)提取和模式匹配三個部分。其識別過程如下 :首先對情感語句進行預處理,語音情感語句預處理包括預加重、分幀加窗和端點檢測等 。其次是對情感語句提取特征參數(shù),如 MFCCI、LPCC、 LPMCC 和 ZCPA 等頻譜特征參數(shù) 。最后將不同情感的特征參數(shù)進行訓練形成不同的模板庫,并將待識別情感的特征參數(shù)與模板庫進行模式匹配,從而將情感識別結(jié)果輸出。典型的語音情感識別系統(tǒng)如圖 21 所示。 7 第 3章 共振峰的基本概念 共振峰參數(shù)的概念及產(chǎn)生原理 發(fā)音時,氣流通過聲道,引起聲道諧振,產(chǎn)生的 一組諧振頻率,稱為共振峰頻率或簡稱共振峰。共振峰參數(shù)包括共振峰頻率和頻帶寬度,它是區(qū)別不同韻母的重要參數(shù)。共振峰信息包含在頻率包絡之中,因此共振峰參數(shù)提取的關鍵是估計自然語音頻譜包絡,一般認為譜包絡中的最大值就是共振峰 [1]。 共振峰的分布位置是建立在 聲音 產(chǎn)生媒介的共鳴物理結(jié)構(gòu)基礎上的( Resonant Physical Structure)。 無論是人聲還是樂器,它們的聲音特性都源自兩個因素,一個是發(fā)聲 系統(tǒng),如人的聲帶或樂器的 振動 簧片,另一個是共鳴系統(tǒng)。樂器不同的共鳴系統(tǒng)使其在一定頻域中的分音的 振幅 得以突出,這樣,這些區(qū)域就產(chǎn)生了這個樂器所特有的共振峰值,這些共振峰值同共鳴體的大小、形狀的材料密切相關。由于一件樂器的結(jié)構(gòu)是穩(wěn)定的,因此在一件樂器發(fā)出的所有 音調(diào) 中,不論 基頻 如何,都會表現(xiàn)出相同的共振峰值,只不過其顯著性有強有弱罷了。這就可以幫助我們解釋為什么在很多的樂器中,同一樂器所發(fā)出的不同 音調(diào) 具有相同的 音質(zhì) 。 在語音聲學中,人聲也同樣受自身生理如鼻孔、咽腔、口腔大小的影響有自身的共振峰區(qū)( Formant Regions)。通過利用這些共鳴空間的形狀和大小不同的變化(例如改變咽喉、嘴形),我們就能改變聲音的共振峰。我們之所以能夠區(qū)分不同的人聲、元音,主要也是依靠它們的共振峰分布的位置。 共振峰參數(shù)的研究意義 漢語普通話發(fā)音中情感特征信息的特征參數(shù)主要包括發(fā)音持續(xù)時間、振幅能量、 基音 頻率和共振峰頻率等。共振峰是反映聲道諧振特性的重要特征,它 代表了發(fā)音信息的最直接來源,而且人在語音感知中利用 了共振峰信息,所以共振峰參數(shù)的提取一直以來都是語音信號處理領域中重要的研究題之一。共振峰參數(shù)已經(jīng)廣泛地用作語音識別的主要特征和語音編碼傳輸?shù)幕拘畔ⅲ舱穹遘壽E包含了說話人的個性特征,對說話人識別有著重要意義,同時也是語言學家研究人類發(fā)音技能的有效工具 [21]。 提取共振峰參數(shù)所遇到的問題 與 基音 檢測類似,共振峰估計也是表面上看起來很容易,而實際上又受很多問題困擾。這些問題包括: ( 1)虛假峰值。在正常情況下,頻譜包絡中的極大值完全是由共振峰引起的。但在線性預測分析方法出現(xiàn)之前的頻譜包絡估計器中, 出現(xiàn)虛假峰值是相當普遍的現(xiàn)象。甚至在采用線性預測方法時,也并非沒有虛假峰值。為了增加靈活性會給預測器增加 2~3 個額外的極點,有時可利用這些極點代表虛假峰值。 ( 2)共振峰合并。相鄰共振峰的頻率可能會靠的太近而難以分辨。這時會產(chǎn)生共振峰合并現(xiàn)象,而探討一種理想的能對共振峰合并進行識別的共振峰提取算法存在很多實際困難。 8 ( 3)高音調(diào)語音。傳統(tǒng)的頻譜包絡估計方法是利用由諧波峰值提供的樣點。高音調(diào)語音的諧波間隔比較寬,因而為頻譜包絡估值所提供的樣點比較少,所以譜包絡的 估計就不夠精確。即使采用線性預測進行頻譜包絡估計也會出現(xiàn)這個問題。在這樣的語音中,線性預測包絡峰值趨向于離開真實位置,而朝著最接近的諧波峰位移動。 9 第 4章 共振峰的提取方法及分析 譜包絡提取法 共振峰信息包含在語音頻譜包絡中,因此共振峰參數(shù)提取的關鍵是估計自然語音頻譜包絡,并認為譜包絡中的最大值就是共振峰。下圖 41 是對 21 幀信號的線性預測譜包絡提取分析 [22]。 ( 1) 原始語音幀信號 ( 2)線性預測 信號 ( 3)預測誤差 ( 4)預測信號功率譜 ( 5)預測信號幅頻響應 ( 6)聲道倒譜 ( 7) LPC 倒譜 ( 8) LPC 倒譜包絡 圖 41 信號線性預測譜包絡提取分析圖 10 倒譜法提取共振峰 雖然可以直接對語音信號求離散傅里葉變換( DFT),然后用 DFT 譜來提取語音信號的共振峰參數(shù),但是,直接 DFT 的譜要受基頻諧波的影響,最 大值只能出現(xiàn)在諧波頻率上,因而共振峰測定誤差較大。為了消除基頻諧波的影響,可以采用同態(tài)解卷技術,經(jīng)過同態(tài)濾波后得到平滑的譜,這樣簡單地檢測峰值就可以直接提取共振峰參數(shù),因而這種方法更為有效和精確。因為倒譜運用對數(shù)運算和二次變換將基音諧波和聲道的頻譜包絡分離開來。因此用低時窗 ()ln從語音信號倒譜 c(n)中所截取出來得 h(n),能更精確地反映聲道響應。這樣,由 h(n)經(jīng) DFT 得到的 H(k),就是聲道的離散譜曲線,用 H(k)代替直接 DFT 的頻譜,因為去除了激勵引起的 諧波波動,所以可以更精確地得到共振峰參數(shù)。 圖 42 倒譜法求取的共振峰參數(shù)圖 LPC 法提取共振峰 從線性預測導出的聲道濾波器是頻譜包絡估計器的最新形式,線性預測提供了一個優(yōu)良的聲道模型(條件是語音不含噪聲)。盡管線性預測法的頻率靈敏度和人耳不相匹配,但它仍是最廉價、最優(yōu)良的行之有效的方法。 用線性預測可對語音信號進行解卷:即把激勵分量歸入預測殘差中,得到聲道響應的全級模型 H(z)的分量,從而得到這個分量的 ia 參數(shù)。盡管其精度由于存在一 定的逼近誤差而有所降低,但去除了激勵分量的影響。此時求出聲道響應分量的譜峰,就可以求出共振峰,這里有兩種途徑:一是用標準的求取復根的方法計算全級模型分母多項式A(z)的根,稱為求根法;一是用運算量較少的 DFT 法,求 A(z)的離散頻率響應 A(k)的谷點來得到共振峰的位置。因為 ????? piiizazA11)(,所以求此多項式系數(shù)序列( 1, a1, 11 a2,?, ap)的 DFT,就可以得到 A(k)。但是一般預測階數(shù) p 不大,這就影響了求其谷點即求其共振峰頻率值的精度。為了 提高 DFT 的頻率分辨率,可以采用補 0 的辦法增加序列的時間長度,即用( 1, a1, a2,?, ap, 0,0,?, 0)進行 DFT,為了能利用 FFT,長度一般取為 64 點、 128 點、 256 點、 512 點等。另外也可以采用拋物線內(nèi)插技術,解決頻率分辨率較低的情況下的共振峰頻率值的求取。 圖 43 LPC 譜估計法求取的共振峰參數(shù)圖 求根法提取共振峰 找出多項式復根的過程通常采用牛頓 — 拉夫遜( NewtonRaphson)算法。其方法是一開始先猜測一個根值并就此猜測值計算多項式及其導數(shù)的值,然后利用結(jié) 果再找出一個改進的猜測值。當前后兩個猜測值之差小于某門限時結(jié)束猜測過程。由上述過程可知,重復運算找出復根的計算量相當可觀。然而,假設每一幀的最初猜測值域前一幀的 根的位置重合,那么根的幀到幀的移動足夠小,經(jīng)過較少的重復運算后,可使新的根的值會聚在一起。當求根過程初始時,第一幀的猜測值可以在單位圓上等間隔設置。 具
點擊復制文檔內(nèi)容
公司管理相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1