freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

卷積神經網絡cnn(編輯修改稿)

2025-04-20 23:22 本頁面
 

【文章內容簡介】 60維)和第三層maxpooling的輸出(6023=360維)作為全連接層的輸入,這樣可以學習到局部的和全局的特征。Softmax層輸出的每一維都是圖片屬于該類別的概率。② 對象追蹤Object tracking對象追蹤在計算機視覺的應用中起著重要作用,對象追蹤的成功在很大程度上依賴于如何健壯的表示目標外觀,它面臨的挑戰(zhàn)如視點改變、光照變化以及遮擋等。Fan等人[10]使用CNN作為基礎學習器,學習一個獨立的分類專用網絡來追蹤對象。在實驗中,作者設計了一個具有移位變體結構的CNN追蹤器。在離線訓練期間學習特征,與傳統(tǒng)追蹤器不同的是,CNN追蹤器只提取局部空間結構,通過考慮兩個連續(xù)幀的圖像來提取空間和時間結構。由于時間信息的大規(guī)模信號趨向于在移動對象附近變化,因此時間結構能夠提供原始的速度信號,便于對象追蹤。③ 姿態(tài)估計/行為識別類似于其他的視覺識別任務,人體姿態(tài)的估計任務由于CNN的大規(guī)模學習能力以及更全面訓練的可擴展性而實現(xiàn)了巨大的性能提升。DeepPose[11]是CNN在人體姿態(tài)估計問題中的第一個應用(2014)。在這個應用中,姿態(tài)估計被視為一個基于CNN的回歸問題來求解人體關節(jié)坐標。提出串聯(lián)7層CNN來構成姿態(tài)的整體表示。不同于之前明確設計圖形化模型和部分探測器的工作,DeepPose描述人體姿態(tài)估計的整體視圖,通過將整個圖像作為最終人體姿態(tài)的輸入和輸出,來獲得每個人體關節(jié)的完整內容。④ 場景標記場景標記(也被稱為場景解析、場景語義分割)建立了對深度場景理解的橋梁,其目標是將語義類(路、水、海洋等)與每個像素關聯(lián)。一般來說,由于尺度、光照以及姿態(tài)變化因素影響,自然圖像中的“事物”像素(汽車、人等)是完全不同的,而“物體”像素(路、海洋等)是非常相似的。因此,圖像的場景標記具有挑戰(zhàn)性。最近,CNN已經被成功地應用在場景標記任務中。在這個場景中,CNN被用來直接從局部圖像塊中建模像素的類估計,它們能夠學習強大的特征,來區(qū)分局部視覺像素微妙的變化。Farabet等人首次將CNN應用在場景標記任務中[30],用不同尺度的圖像塊來調整多尺度卷積網絡,結果表明CNN網絡性能明顯優(yōu)于比采用手工提取特征的系統(tǒng)。(NLP)1NLP任務的輸入不再是像素點了,大多數(shù)情況下是以矩陣表示的句子或者文檔。矩陣的每一行對應于一個分詞元素,一般是一個單詞,也可以是一個字符。也就是說每一行是表示一個單詞的向量。通常,這些向量都是word embeddings(一種底維度表示)的形式,如word2vec和GloVe,但是也可以用onehot向量的形式,也即根據(jù)詞在詞表中的索引。若是用100維的詞向量表示一句10個單詞的句子,我們將得到一個10x100維的矩陣作為輸入。這個矩陣相當于是一幅“圖像”。在計算機視覺的例子里,濾波器每次只對圖像的一小塊區(qū)域運算,但在處理自然語言時濾波器通常覆蓋上下幾行(幾個詞)。因此,濾波器的寬度也就和輸入矩陣的寬度相等了。盡管高度,或者區(qū)域大小可以隨意調整,但一般滑動窗口的覆蓋范圍是2~5行。綜上所述,處理自然語言的卷積神經網絡結構是這樣的。以句子分類[12]/文本分類2為例:這里對濾波器設置了三種尺寸:3和4行,每種尺寸各有兩種濾波器。每個濾波器對句子矩陣做卷積運算,得到(不同程度的)特征字典。然后對每個特征字典做最大值池化,也就是只記錄每個特征字典的最大值。這樣,就由六個字典生成了一串單變量特征向量(univariate feature vector),然后這六個特征拼接形成一個特征向量,傳給網絡的倒數(shù)第二層。最后的softmax層以這個特征向量作為輸入,用其來對句子做分類;我們假設這里是二分類問題,因此得到兩個可能的輸出狀態(tài)。位置不變性和局部組合性對圖像來說很直觀,但對NLP卻并非如此。人們也許會很在意一個詞在句子中出現(xiàn)的位置。相鄰的像素點很有可能是相關聯(lián)的(都是物體的同一部分),但單詞并不總是如此。在很多種語言里,短語之間會被許多其它詞所隔離。同樣,組合性也不見得明顯。單詞顯然是以某些方式組合的,比如形容詞修飾名詞,但若是想理解更高級特征真正要表達的含義是什么,并不像計算機視覺那么明顯了。由此看來,卷積神經網絡似乎并不適合用來處理NLP任務。遞歸神經網絡(Recurrent Neural Network)更直觀一些。它們模仿我們人類處理語言的方式(至少是我們自己所認為的方式):從左到右的順序閱讀。慶幸的是,這并不意味著CNNs沒有效果。所有的模型都是錯的,只是一些能被利用。實際上CNNs對NLP問題的效果非常理想。正如詞袋模型(Bag of Words model),它明顯是基于錯誤假設的過于簡化模型,但這不影響它多年來一直被作為NLP的標準方法,并且取得了不錯的效果。CNNs的主要特點在于速度快,非常的快。卷積運算是計算機圖像的核心部分,在GPU級別的硬件層實現(xiàn)。相比于ngrams,CNNs表征方式的效率也更勝一籌。由于詞典龐大,任何超過3grams的計算開銷就會非常的大。即使Google也最多不超過5grams。卷積濾波器能自動學習好的表示方式,不需要用整個詞表來表征。那么用尺寸大于5行的濾波器完全合情合理了。許多在CNN卷積第一層學到的濾波器捕捉到的特征與ngrams非常相似(但不局限),但是以更緊湊的方式表征。 語音識別[6] 利用CNN進行語音處理的一個關鍵問題是如何將語音特征向量映射成適合CNN處理的特征圖。我們可以直觀的將輸入“圖像”考慮成一個具有靜態(tài)、delta以及deltadelta特征(即第一和第二時間派生物derivatives)的頻譜圖,如下圖a,選擇15幀長度的內容窗口。當然還有多種選擇可以精確地將語音特征轉化為特征圖,如圖b所示,語音特征可以被表示成3個二維的特征圖,每個代表MFSC(melfrequency spectral coefficients)特征的信息(即靜態(tài)、delta以及deltadelta特征)沿著頻率和時間軸的分布。在這種情況下,一個二維卷積被執(zhí)行來同時正規(guī)化頻率和時間變化,得到3個二維特征圖,每個特征圖有1540=600維。另外,可以只考慮正規(guī)化頻率變化。如圖c所示,在這種情況下,相同的MFSC特征被組織作為一維特征圖,每一幀的3種特征作為一個特征圖,得到153=45個特征圖,每個特征圖有40維。 [6]中采用的是如圖c所示的一維特征圖進行卷積操作。四、對卷積神經網絡的改進自從2012年AlexNet的成功之后,出現(xiàn)了各種對CNN的改進,從對下面四個方面(卷積層、池化層、正則化以及激活函數(shù))的改進來看:CNN的基本卷積濾波器是底層局部圖像塊(patch)的一個廣義的線性模型(GLM)。對隱含概念的線性可分實例的提取效果較好。目前有兩種可以提高濾波器特征表示能力的對卷積層的改進工作。① Network in network(NIN):是由Lin等人[15]提出的一種網絡結構。它用一個微網絡(micronetwork,如多層感知機卷積mlpconv,使得濾波器能夠更加接近隱含概念的抽象表示)代替了卷積層的線性濾波器。NIN的整體結構就是這些為網絡的堆積。卷積層和mlpconv層的區(qū)別:(從特征圖的計算上來看)形式上,卷積層的特征圖計算公式是:fi,j,k=max?(wkxi,j,0)其中,i,j是特征圖的像素索引,xi,j是以(i,j)為中心的輸入塊,k是特征圖的通道索引。 而mlpconv層的特征圖計算公式是:fi,j,k11=max?(wk11xi,j+bk1,0)fi,j,knn=max?(wknnfi,jn1+bkn,0) (每一層特征圖之間有連接,類似于循環(huán)神經網絡結構RNN) 其中,n是mlpconv層的層數(shù)。 可以發(fā)現(xiàn),mlpconv層的特征圖計算公式相當于在正常卷積層進行級聯(lián)交叉通道參數(shù)池化。② Inception module:是由Szegedy等人[16]提出,可以被看做NIN的邏輯頂點(logical culmination),使用多種濾波器的大小來捕捉不同大小的不同可視化模式,通過inception module接近最理想的稀疏結構。特別地,inception module由一個池化操作和三種卷積操作組成。11的卷積被放在33和55的卷積之前作為維度下降模塊,在不增加計算復雜度的情況下增加CNN的深度和寬度。在inception module作用下,網絡參數(shù)可以被減少到5百萬,遠小于AlexNet的6千萬和ZFNet的7千5百萬。池化是CNN的一個重要概念,它通過減少卷積層的連接數(shù)量降低計算負擔。目前為止在CNN中使用的典型的池化操作是平均池化或者最大池化,同時也存在著一些改進的池化操作,如Lp池化、混合池化、隨機池化等。① Lp池化:是一個受生物學啟發(fā)在復雜細胞上建立的池化過程。Bruna的理論分析表明Lp池化相比于最大池化能提供更好的泛化[17]。Lp池化公式為:(i=1N|xIi|p)1p,其中xI1,…,xIN是一組有限的輸入節(jié)點,當p=1時,Lp池化就相當于平均池化,當p=2時,是L2池化,當p=∞時,即max?(|xI1|,…,|xIN|)相當于最大池化。② 混合池化:受隨機Dropout[18]和DropConnect[19]啟發(fā),Yu等人[20]提出混合池化方法,即最大池化和平均池化的結合。混合池化方法公式化為:ykij=λmax(p,q)∈Rijxkpq+(1λ)1|Rij|(p,q)∈Rijxkpq,其中ykij是第k個特征圖相應位置(i,j)處池化操作的輸出,λ是0~1之間的隨機值,Rij是位置(i,j)的局部鄰域,xkpq是第k個特征圖池化區(qū)域Rij內在(p,q)處的元素。在前向傳播過程中,λ被記錄,并在反向傳播中被調整。③ 隨機池化(Stochastic pooling)[21]:保證特征圖的非線性激活值可以被利用。具體地,隨機池化先對每個區(qū)域Rj通過正則化區(qū)域內的激活值計算概率p,即pi=aik∈Rj(ak)。然后從基于p的多項分布中采樣來選擇區(qū)域內的一個位置l。池化的激活值sj=al,其中l(wèi)~P(p1,…,p|Rj|)。隨機池化被證明具有最大池化的優(yōu)點,并且可以避免過擬合。此外,還有頻譜池化(Spectral pooling)、立體金字塔狀池化(
點擊復制文檔內容
黨政相關相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1