freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

行業(yè)研究報(bào)告-人臉檢測(cè)算法綜述(編輯修改稿)

2024-08-26 13:46 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 窗口,保留下來(lái)的候選檢測(cè)窗口將會(huì)被歸一化到 24x24 作為 24 的輸入,這將進(jìn)一步剔除掉剩下來(lái)的將近 90%的檢測(cè)窗口。和之前的過(guò)程一樣,通過(guò) 24calibration 矯正檢測(cè)窗口,并應(yīng)用 NMS 進(jìn)一步合并減少檢測(cè)窗口的數(shù)量。 將通過(guò)之前所有層級(jí)的檢測(cè)窗口對(duì)應(yīng)的圖像區(qū)域歸一化到 48x48 送入 48 進(jìn)行分類得到進(jìn)一步過(guò)濾的人臉候選窗口。然后利用 NMS 進(jìn)行窗口合并,送入48calibration 矯正檢測(cè)窗口作為最后的輸出。 12x12, 24x24, 48x48 尺寸作為輸入的分類 CNN 網(wǎng)絡(luò)結(jié)構(gòu),其中輸出為 2類 人臉和非人臉。 12x12, 24x24, 48x48 尺寸作為輸入的矯正( calibration) CNN 網(wǎng)絡(luò)結(jié)構(gòu)。其中輸出為 45 中種矯正模式的類別。 文中影響區(qū)域位置和大小的因素有三種:尺度、 X 方向偏移、 Y 方向 偏移??偣矘?gòu)成了 5x3x3=45 種模式。 上一級(jí)檢測(cè)網(wǎng)絡(luò)輸出的人臉位置( x,y,w,h)通過(guò)以下公式進(jìn)行校正: 校正網(wǎng)絡(luò)的結(jié)構(gòu)如下圖所示: Cascade CNN 一定程度上解決了傳統(tǒng)方法在開(kāi)放場(chǎng)景中對(duì)光照、角度等敏感的問(wèn)題,但是該框架的第一級(jí)還是基于密集滑動(dòng)窗口的方式進(jìn)行窗口過(guò)濾,在高分辨率存在大量小人臉( tiny face)的圖片上限制了算法的性能上限。 DenseBox 文獻(xiàn) [18]提出了一種稱為 DenseBox 的目標(biāo)檢測(cè)算法,適合人臉這類小目標(biāo)的檢測(cè)。這種方法使用全卷積網(wǎng)絡(luò),在同一個(gè)網(wǎng)絡(luò) 中直接預(yù)測(cè)目標(biāo)矩形框和目標(biāo)類別置信度。通過(guò)在檢測(cè)的同時(shí)進(jìn)行關(guān)鍵點(diǎn)定位,進(jìn)一步提高了檢測(cè)精度。 檢測(cè)時(shí)的流程如下: ,將各種尺度的圖像送入卷積網(wǎng)絡(luò)中處理,以檢測(cè)不同大小的目標(biāo)。 ,對(duì)特征圖像進(jìn)行上采樣然后再進(jìn)行卷積,得到最終的輸出圖像,這張圖像包含了每個(gè)位置出現(xiàn)目標(biāo)的概率,以及目標(biāo)的位置、大小信息。 。 ,得到最終的檢測(cè)結(jié)果。 在檢測(cè)時(shí)卷積網(wǎng)絡(luò)接受 的輸入圖像,產(chǎn)生 5個(gè)通道的 輸出圖像。假設(shè)目標(biāo)矩形左上角 的坐標(biāo)為 ,右下角 的坐標(biāo)為 。輸出圖像中位于點(diǎn) 處的像素用 5 維向量描述了一個(gè)目標(biāo)的矩形框和置信度信息: 第一個(gè)分量是候選框是一個(gè)目標(biāo)的置信度,后面 4項(xiàng)分別為本像素的位置與矩形框左上角、右下角的距離。每個(gè)像素都轉(zhuǎn)化成一個(gè)矩形框和置信度值,然后對(duì)置信度值大于指定閾值的矩形框進(jìn)行非最大抑制,得到最終檢測(cè)結(jié)果。 backbone 從 VGG 19 網(wǎng)絡(luò)改進(jìn)得到,包含 16 個(gè)卷積層。前 12個(gè)卷積層用 VGG 19的模型進(jìn)行初始化。卷積層 conv4_4 的的輸出被送入 4 個(gè) 的卷積層中。第一組的兩個(gè)卷積層產(chǎn)生 1 通道的輸出圖像 作為置信度得分;第二組的兩個(gè)卷積層產(chǎn)生4 通道的輸出圖像作為矩形框的 4個(gè)坐標(biāo)。網(wǎng)絡(luò)的輸出有兩個(gè)并列的分支,分別表示置信度和矩形框位置預(yù)測(cè)值。整個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)如下圖所示: DenseBox 的網(wǎng)絡(luò)結(jié)構(gòu) 為了提高檢測(cè)精度,采用了多尺度融合的策略。將 conv3_4 和 conv_4_4 的卷積結(jié)果拼接起來(lái)送入后面處理。由于兩個(gè)層的輸出圖像大小不同,在這里用了上采樣和線性插值對(duì)小的圖像進(jìn)行放大,將兩種圖像尺寸變?yōu)橄嗟取? 由于輸出層有兩個(gè)并列分支,損失函數(shù)由兩部分組成。第一部分輸出值為分類置信度即本位置是一個(gè)目標(biāo)的概率, 用 表示。真實(shí)的類別標(biāo)簽值為 ,取值為 0或者 1,分別表示是背景和目標(biāo)。分類損失函數(shù)定義為: 損失函數(shù)的第二部分是矩形框預(yù)測(cè)誤差,假設(shè)預(yù)測(cè)值為 ,真實(shí)值為 ,它們的4 個(gè)分量均為當(dāng)前像素與矩形框左上角和右下角的距離。定位損失函數(shù)定義為: 總損失函數(shù)為這兩部分加權(quán)求和。訓(xùn)練時(shí)樣本標(biāo)注方案如下:對(duì)于任何一個(gè)位置,如果它和真實(shí)目標(biāo)矩形框的重疊比大于指定閾值,則標(biāo)注為 1,否則標(biāo)注為 0;對(duì)位置的標(biāo)注根據(jù)每個(gè)像素與目標(biāo)矩形框 4 條邊的距離計(jì)算。 FacenessNet FacenessNet[19]是一個(gè)典型的由粗到精的工作流,借助了多個(gè)基于 DCNN 網(wǎng)絡(luò)的 facial parts 分類器對(duì)人臉進(jìn)行打分,然后根據(jù)每個(gè)部件的得分進(jìn)行規(guī)則分析得到 Proposal 的人臉區(qū)域,最后通過(guò)一個(gè) Refine 的網(wǎng)絡(luò)得到最終的人臉檢測(cè)結(jié)果。整體流程如圖 Faceness( b)。 Faceness( a) Faceness( bamp。c) 系統(tǒng)主要包含了 2個(gè)階段 : 第 1 階段 :生成 partness map,由局部推理出人臉候選區(qū)域。 根據(jù) attributeaware 深度網(wǎng)絡(luò)生成人臉部件 map 圖 (partness map),如上圖Faceness(a)中的顏色圖,文章共使用了 5 個(gè)部件 :hair,eye,nose,mouth,beard. 通過(guò) part 的結(jié)合計(jì)算人臉的 部件之間是有相對(duì)位置關(guān)系的 ,比如頭發(fā)在眼睛上方 ,嘴巴在鼻子下方 ,因此利用部件的 spatial arrangement 可以計(jì)算 face likeliness. 通過(guò)這個(gè)打分對(duì)原始的人臉 proposal 進(jìn)行重排序 . 如圖 Faceness(b)。 第 2 階段 : Refining the face hypotheses 上一階段 proposal 生成的候選框已經(jīng)有較高的召回率,通過(guò)訓(xùn)練一個(gè)人臉?lè)诸惡瓦吔缁貧w的 CNN 可以進(jìn)一步提升其效果。 Faceness 的整體性能在當(dāng)時(shí)看來(lái)非常令人興奮。此前學(xué)術(shù)界在 FDDB 上取得的最好檢測(cè)精度是在 100 個(gè)誤檢時(shí)達(dá)到 84%的檢測(cè)率, Faceness 在 100 個(gè)誤檢時(shí),檢測(cè)率接近 88%,提升了幾乎 4個(gè)百分點(diǎn);除了算法本身的精度有很大提升,作者還做了很多工程上的優(yōu)化比如:通過(guò)多個(gè)網(wǎng)絡(luò)共享參數(shù),降低網(wǎng)絡(luò)參數(shù)量 83%;采用多任務(wù)的訓(xùn)練方式同一網(wǎng)絡(luò)實(shí)現(xiàn)不同任務(wù)等。 MTCNN MTCNN[20]顧名思義是多任 務(wù)的一個(gè)方法,它將人臉區(qū)域檢測(cè)和人臉關(guān)鍵點(diǎn)檢測(cè)放在了一起,同 Cascade CNN 一樣也是基于 cascade 的框架,但是整體思路更加巧妙合理, MTCNN 總體來(lái)說(shuō)分為三個(gè)部分: PNet、 RNet 和 ONet,如下圖所示: Cascade CNN 第一級(jí)的 12 需要在整張圖片上做密集窗口采樣進(jìn)行分類,缺陷非常明顯; MTCNN 在測(cè)試第一階段的 PNet 是全卷積網(wǎng)絡(luò)( FCN),全卷積網(wǎng)絡(luò)的優(yōu)點(diǎn)在于可以輸入任意尺寸的圖像,同時(shí)使用卷積運(yùn)算代替了滑動(dòng)窗口運(yùn)算,大幅提高了效率。下圖為不同尺度圖像經(jīng)過(guò) PNet 的密集分類 響應(yīng)圖,亮度越高代表該區(qū)域是人臉的概率越大( dense prediction response map)。 除了增加人臉 5 個(gè)關(guān)鍵點(diǎn)的回歸任務(wù),另外在 calibration 階段采用了直接回歸真實(shí)位置坐標(biāo)的偏移量的思路替代了 Cascade CNN 中的固定模式分類方式,整個(gè)思路更為合理。 MTCNN 的整體設(shè)計(jì)思路很好,將人臉檢測(cè)和人臉對(duì)齊集成到了一個(gè)框架中實(shí)現(xiàn),另外整體的復(fù)雜度得到了很好的控制,可以在中端手機(jī)上跑 20~30FPS。該方法目前在很多工業(yè)級(jí)場(chǎng)景中得到了應(yīng)用。 先拋出一張據(jù)說(shuō)是目前世界上人數(shù)最 多的合照嚇嚇大家。一眼望過(guò)去能估計(jì)下有多少人嗎?因?yàn)楸疚膶?duì)小目標(biāo)人臉檢測(cè)有很多獨(dú)到的理解,我們下面會(huì)多花點(diǎn)筆墨去分析! HR 之前我們講過(guò)的一些方法都沒(méi)有針對(duì)小目標(biāo)去分析,小目標(biāo)檢測(cè)依然是檢測(cè)領(lǐng)域的一個(gè)難題, [21]本文作者提出的檢測(cè)器通過(guò)利用尺度,分辨
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1