freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于視覺特性的視頻編碼理論與方法研究畢業(yè)論文(編輯修改稿)

2025-07-24 20:50 本頁面
 

【文章內(nèi)容簡介】 覺信息的超完備表示,模擬視覺初始皮層的功能,該層的學習算法采用自適應的視覺信息稀疏表示算法,在神經(jīng)信息內(nèi)部編碼方面,研究基于神經(jīng)元信號獨立分解機理的內(nèi)部稀疏表示的統(tǒng)計模型,使得該層的神經(jīng)元具有超完備稀疏響應特征。第二層的功能是局部特征成組(Feature Grouping),該層的學習準則是使得具有相近響應特征的神經(jīng)元盡可能集群到相近的鄰域,我們擬引入鄰域神經(jīng)元之間的能量變化極小化實現(xiàn)局部特征成組和無監(jiān)督學習機制。第三層的功能是視覺整體特征的形成,該層依賴于具體的視覺處理任務。我們將針對某些特定的典型任務設計相應的整體特征形成與學習方法,研究如何將任務的先驗知識或領域知識融入到整體特征的表示與學習中。在最高的識別層,考慮到不可預測的信息包含更多信息量的情況,試圖對給定的圖像計算其不可預測信息。擬采用局部譜能量對數(shù)的殘余量來定義感興趣區(qū)域。殘差值越大,該區(qū)域的可預測性越差,因此我們把局部圖像譜能量對數(shù)值殘差超過一定閥值的區(qū)域定義為感興趣的區(qū)域。通過大量的計算機實驗,利用該殘差定義的感興趣區(qū)域與人類視知覺的注意區(qū)域相吻合。在定義感興趣區(qū)域的基礎上,我們將利用Itti的貝葉斯模型,定義視覺注意區(qū)域,并且給出計算算法。概括來說,我們擬采用產(chǎn)生式的、多層結構時空要素圖(STITCH)系統(tǒng)作為視頻運動的統(tǒng)一表示,并采用貝葉斯理論框架下的最大似然估計(Maximum likelihood estimation)方法實現(xiàn)推理計算。具體地我們擬定以下研究方案:首先,我們提出“時空要素圖系統(tǒng)”來統(tǒng)一地表示視頻中復雜的運動內(nèi)容。作為一種產(chǎn)生式系統(tǒng),它包括三層結構,:(i)系統(tǒng)的底層為圖像層,是我們觀察到的視頻序列。(ii)系統(tǒng)的中層為要素圖層。為靜態(tài)圖像表示提出的要素圖模型,其本質(zhì)上是一種屬性圖表示。本層是我們需要推理演算出的隱變量(hidden variable)層,是以產(chǎn)生式要素圖模型生成底層的圖像。(iii)系統(tǒng)的上層也是隱變量層,它代表使要素圖在運動過程中發(fā)生結構變化的因素,擬采用圖語法表示。我們將在貝葉斯理論框架下通過最大似然估計的方法學習時空要素圖系統(tǒng)中的最優(yōu)參數(shù)(包括以上提到的各方面內(nèi)容),從而實現(xiàn)對要素圖的整合、分割、與組合,并實現(xiàn)對運動基元(或子圖)的提取、跟蹤,以及對圖語法規(guī)則的學習。具體研究方案如下:(1) 基元在不同子空間中的動態(tài)特性分析在確立了以時空要素圖系統(tǒng)作為運動圖像序列的表示模型后,我們將運動基元定義為時空要素圖中的子圖,如飄落著的雪花、飛翔的小鳥等。運動基元也可以按粒度近一步的分解,如一個行走的人作為某一層上的運動基元可被進一步分解成為頭、軀干、四肢等具有不同運動特性卻又相互關聯(lián)的不同運動基元。由于運動的物體處于不同的熵域中,所以對不同類型的靜態(tài)圖像基元有不同的表示,如表示低熵結構“可勾畫”部分(sketchable)的簡約圖模型和表示高熵“不可勾畫”部分(nonsketchable) 的紋理模型。這些不同熵域中的靜態(tài)基元在時空中的動態(tài)特性很不一樣。因此,(a) 我們首先要定義各種圖像基元在時空中的“可跟蹤性”(trackability)及其度量。我們將借鑒對一般跟蹤系統(tǒng)的分析方法,在貝葉斯推理理論框架下用信息論的方法(information theoretic approach),將物體狀態(tài)的“不可跟蹤性”度量定義為其后驗條件熵。它體現(xiàn)了狀態(tài)估計或跟蹤過程中的狀態(tài)的不確定性。由此我們可以導出可跟蹤性度量。為了獲得視頻的最優(yōu)的時空要素圖表示,我們將可跟蹤性度量作為此優(yōu)化問題的一個重要參量置于系統(tǒng)動態(tài)模型中,使系統(tǒng)能夠通過計算,在不同基元優(yōu)化自身可跟蹤性度量的同時,能夠自動地選擇適應不同視頻內(nèi)容的基元表示方法,從而獲得最優(yōu)的表示。我們稱之為基元對視頻的“競爭解釋機制”。這里我們所說的“最優(yōu)”或者定義在對視頻內(nèi)容的最小描述長度(Minimum descriptive length)理論框架下,或者定義在貝葉斯推理理論下的最大后驗概率(Maximum a posteriori)估計意義下。(b) 我們將通過基于采樣的學習(learning by sampling)方法,以及可跟蹤性與不可跟蹤性基元對視頻的競爭解釋機制,實現(xiàn)對運動圖像序列的全面分析,得到不同粒度上的基元、運動層次(layer)或物體,以及它們在時空中的對應關系,并可以對運動基元進行自動分類(可跟蹤與不可跟蹤)。在此統(tǒng)計學習過程中,我們不斷地學習、更新可跟蹤運動基元在光度、幾何、運動、以及拓撲等不同維度上的動態(tài)特性。同時,對于不可跟蹤運動基元,我們將在其特征空間(如PCA、Fourier空間)研究其光度和運動等動態(tài)特性。(2) 運動基元的時空依賴及相互作用關系在運動過程中,物體與物體之間、基元與基元之間存在著相互作用,如鳥群在飛行的自組合狀態(tài),即:個體間的運動軌跡基本相互平行,同時保持一定距離;人在行走過程中,手臂與腿之間保持一定的協(xié)調(diào)性;小船隨著波浪上下浮動;車輛經(jīng)過時會遮擋背景物體等等。在分別研究了不同類型運動基元的動態(tài)特性后,我們將通過回歸式數(shù)學模型來描述物體以及基元之間在運動軌跡方面的相互影響;通過學習上下文相關的隨機圖語法來描述在運動過程中物體或基元之間在拓撲結構上產(chǎn)生的相互影響與作用關系。(3) 運動基元在不同熵域間的轉換同一物體或基元由于運動可能穿梭于不同的熵域。例如,一輛汽車由遠及近地駛來:它在很遠的地方由于相機分辨率有限,成像后可以簡單地用一個尺度很小的點(blob)來表示,這時它處在高熵紋理區(qū);隨著汽車的駛近,它會經(jīng)過中熵以及低熵圖像表示區(qū)。在此過程中,如果僅僅用一個blob將不足以表示汽車不斷涌現(xiàn)的細節(jié),這時我們要不斷選擇合適的視覺“詞匯集”(visual vocabulary)來描述它在不同熵域中的表觀。所以,對于這種感知轉換機制(perceptual transition mechanism)的研究將在理論上指導我們?nèi)绾吾槍Σ煌闆r采用適合的視覺“詞匯集”來表示運動的物體并通過解釋其中的變化來實現(xiàn)對復雜運動的魯棒分析。在本項目的研究中,我們將采用統(tǒng)計學習的方法,通過上下文相關的隨機圖語法來描述物體或基元在穿越不同熵域時發(fā)生的結構變化。以往視頻壓縮技術的主要理論基礎是香農(nóng)信息論,但目前遇到了效率瓶頸,這表現(xiàn)在壓縮效率進一步提升將以不可承受的復雜度增加為代價。基于此,本項目研究基于視知覺的視頻壓縮。人類視覺系統(tǒng)提取外界信息是一個從底層像素到高層物體邊緣、結構、顏色、紋理、運動的一個層級、漸進抽象的過程。人類視覺系統(tǒng)會忽略視知覺感受不到的內(nèi)容,而關注于有實際物理意義的感興趣對象。因此,人類視覺系統(tǒng)對有意義信息的提取,也即對視頻數(shù)據(jù)知覺冗余的壓縮,是相當高效的。目前,傳統(tǒng)的視頻壓縮技術與人類視覺系統(tǒng)的視頻處理過程有著本質(zhì)區(qū)別。兩者效率上的差距正是基于視覺的視頻壓縮技術發(fā)展的空間。本項目的研究內(nèi)容包括理論基礎研究、算法及系統(tǒng)研究,具體的研究思路如下。(1) 基于視知覺熵的視覺信息論結合視知覺機理和視覺計算模型,我們認為“視頻要素”是符合人類視覺處理機制的視頻信息的基本組成單元。因此,本項目擬將“視頻要素”作為所提視覺信息論中的基本信源符號,通過“視頻要素”的視知覺信息量的定義,即視知覺熵,以及“視頻要素”有損表示下率失真關系的明確,完成視覺信息論的建立。視知覺熵的定義及其數(shù)量化測度,特別是視知覺熵的動態(tài)測度,是視覺信息論可應用的關鍵。本項目擬采用一組無冗余視頻要素對視頻序列進行表示,則視頻要素的視知覺熵可通過要素組合視頻與原始視頻的主觀視覺無差異性來測試獲得。測試方法、視知覺熵的數(shù)量化方法以及高階視覺熵的定義需要深入研究。視知覺率失真理論可在視知覺熵數(shù)量化的基礎上,通過視覺要素有損表示下組合視頻與原始視頻的主觀視覺差異性測試,來確定率失真關系,從而完成視知覺率失真理論。主觀視覺評價是上述方法中的關鍵步驟,因此對魯棒的主觀視覺評價方法也需要進行深入研究。本項目會對以上設想及測試方法的正確性、魯棒性進行分析、實驗、論證,對具有更一般性的方法開展研究。(2) 基于視知覺的視頻壓縮算法及框架基于視知覺的視頻壓縮算法及其系統(tǒng)要求具有高效、功能完備、可實現(xiàn)的特點。主要是從兩個方面進行研究: 首先,在混合編碼框架內(nèi)結合所提取的視覺特征,提高傳統(tǒng)編碼框架下的編碼效率,對此我們將研究基于局部特征的動態(tài)量化,即針對人的對比敏感度函數(shù)、紋理掩蔽效應、頻率掩蔽效應、速度掩蔽效應等動態(tài)視覺特性,研究在視覺失真的最大容忍程度下的優(yōu)化量化編碼方法;其次,視頻信息可由一組“視頻要素”來進行符合視知覺機理的高效表示,則壓縮算法需要以視頻要素為處理對象。這些視頻要素可以具體地由邊緣、紋理、運動等圖像/視頻的局部特征來表示。基于所提取的圖像特征,提出新的編碼框架,建立一個基于局部特征的壓縮系統(tǒng)。為了保證所提出的基于視覺的編碼系統(tǒng)具有很好的適應性,在各類型的視頻序列上都能取得較高的編碼效率,我們將首先將自然圖像中的局部結構分為幾個最基本的特征參數(shù)來描述,如:輪廓形狀、方向,空間周期性,時間周期性等。然后用最基本的參數(shù)建立特征的基本集。之后通過學習大量的自然圖片,獲得基本特征的變體,同時對基本集進行擴充。最終形成一個基本覆蓋所有自然圖片局部特征類型的集合,并建立模型,實現(xiàn)對這個特征類型集合的模型表示。這個特征類型集將是超完備并且恒定更新的,將會采用增量學習的辦法來保證編碼器和解碼器的內(nèi)容同步,并進行模型更新, (3) 基于視覺的動畫壓縮我們擬結合動畫制作的基本原理,提取有效的動畫特征,包括邊緣,紋理,運動、或色彩等,建立起動畫中對象的模型表示,搭建基于視覺的動畫壓縮系統(tǒng),提高動畫的壓縮效率。(4) 基于視覺的超分辨率視頻壓縮我們擬研究基于超分辨率技術的超高清視頻編碼方法,首先在原始分辨率視頻上提取邊緣或紋理等視覺特征信息,并對視覺特征信息進行編碼,然后對原始圖像進行降分辨率編碼,在解碼端,根據(jù)解碼得到的視覺特征信息和低分辨率圖像,通過超分辨率插值技術進行視頻重構。我們擬對圖像中的高頻信息和低頻信息分別考慮,對高頻信息進行建模表示,研究基于多參考幀的超分辨率插值技術,提高超分辨率視頻的重構質(zhì)量。 (5) 多光譜視頻壓縮我們擬根據(jù)多光譜圖像的平移和光譜分布特點,研究多光譜圖像的像素亮度對比度量化編碼,依據(jù)人眼視覺系統(tǒng)在不同光照條件下的對比度閾值調(diào)節(jié)量化誤差,提高多光譜視頻的壓縮效率?,F(xiàn)有的SVC編碼標準主要從空間、時間、質(zhì)量三個維度上實現(xiàn)可伸縮性,對HVS的考慮還非常少,因此在性能上仍有很大提升空間?;谝陨犀F(xiàn)狀,本項目主要研究如何在SVC技術中引入新的維度:注意度和動態(tài)范圍,從而利用人眼視知覺的特性進一步提高壓縮視頻的主觀質(zhì)量。主要從如下四方面展開:(1) 基于注意模型的感興趣區(qū)域提取、表達及編碼根據(jù)視知覺的敏感特性和視頻中各視覺要素的統(tǒng)計特性,對視頻內(nèi)容進行區(qū)域劃分,建立對各注意區(qū)域的模型表示,并根據(jù)注意程度對感興趣的級別進行編碼表示。模型的建立還要考慮與應用類型的結合,如針對視頻監(jiān)控的應用的注意模型等?;谒⒌淖⒁饽P?,提取感興趣區(qū)域。為提高視覺效果,在感興趣區(qū)域與非感興趣區(qū)域之間設置梯度過渡區(qū)域,組織合理的碼流結構表示感興趣區(qū)域參數(shù)以及內(nèi)容,并同時考慮感興趣區(qū)域的重疊等情況,最大程度地減少比特開支,提高碼流組織方法的魯棒性。 (2) 融合時域、空域、質(zhì)量、注意、動態(tài)范圍等多維度的可伸縮編碼方法以傳統(tǒng)三維可伸縮編碼方法為基礎框架,融入注意度。注意度的可伸縮性可以根據(jù)人眼對不同區(qū)域或視頻要素的感興趣程度,設置相應的重要性參數(shù),該參數(shù)應包含在圖像頭定義中。在組織碼流時,給感興趣區(qū)域一定優(yōu)先,例如降低其量化參數(shù)或者在增強層提升其變換系數(shù)的位平面,從而保證該部分區(qū)域更高的重建質(zhì)量;同時還可根據(jù)重要性參數(shù),在必要時丟棄非感興趣區(qū)域部分。此外我們還可以在這個可伸縮編碼框架中增加其他的可變自由度,如針對高動態(tài)視頻的動態(tài)范圍可伸縮編碼,用以支持高動態(tài)范圍圖像的編碼顯示。對此需要研究相應的量化編碼策略,以達到高效的可伸縮編碼。(3) 基于注意度的碼流優(yōu)化截取方法碼流截斷須以重建視頻的視知覺率失真最優(yōu)為目標。在增強層率失真建模時要考慮到圖像組內(nèi)的誤差漂移問題,平衡準確性和復雜度,尋求快速實用且接近于理論最優(yōu)的碼流截取方法。(4) 基于視覺容錯模型的可伸縮編碼根據(jù)人眼視覺對不同區(qū)域、不同空間分辨率和不同時間分辨率的敏感特性,構造視覺容錯模型(Vision Error Resilience Model,VERM),并指導容錯算法,通過對造成視覺損失大的部位進行強容錯編碼,對造成視覺損失小的部位進行弱容錯編碼,在碼率增加不大的情況下,達到視頻魯棒編碼的目的。針對分布式視頻編碼,以WynerZiv理論為指導,研究基于視知覺質(zhì)量評價準則的信源分割方法以及相應的信源相關模型,同時在分布式多視頻解碼過程中,為了有效利用多視頻信源之間的冗余信息,需要研究如何建立高效的時間視間聯(lián)合相關模型以及面向視覺的自適應解碼。在立體視編碼方面,為了精確地描述真實三維視頻,需要生成精確的深度信息;同時為了進一步實現(xiàn)高效傳輸,深度圖像與彩色圖像的聯(lián)合壓縮必須滿足立體視覺質(zhì)量最優(yōu)。具體技術路線如下:(1) 基于視覺特性的視頻源分割在視覺模型的指導下,考慮分布式編解碼的特點,可通過統(tǒng)計分析等手段建立視頻源的視覺特性與統(tǒng)計特性的關聯(lián)模型。在視覺特性與統(tǒng)計特性的關聯(lián)模型的指導下,結合邊緣檢測、感興趣區(qū)域檢測等技術將視頻源劃分為若干個視覺特性,統(tǒng)計特性相異的子視頻源區(qū)域。在分布式編解碼環(huán)中,考慮視覺特性與統(tǒng)計特性的差異,分別對各子視頻源采用與其視覺特性與統(tǒng)計特性相適應的編解碼方法。如擬采用Canny算子,考慮運動的劇烈程度,可將一幀圖像分割為運動區(qū)域、過渡區(qū)域和背景區(qū)域。對于運動區(qū)域采用Intra編碼,對背景區(qū)域這類可以獲得高質(zhì)量邊信息的區(qū)域采用分布式編碼,而對過渡區(qū)域等視覺不敏感的區(qū)域則采用主要以主觀效果為評價準則的分布式編碼。 (2) 多視頻源相關模型的分布式視頻編碼多視頻信源不僅每個視頻信源本身具有高度的時空相關性,而且不同視頻信源之間也具有很強的視間相關性。一種有效的方式是在編碼端獲取相關模型,從而估計邊信息的相關性強弱,以指導編
點擊復制文檔內(nèi)容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1