【正文】
圖31 一般網(wǎng)格模型正面圖像 圖32 一般網(wǎng)格模型側(cè)面圖像 基于MPEG4的人臉特征點(diǎn)定義MPEG4是由國(guó)際標(biāo)準(zhǔn)化組織(ISO)的運(yùn)動(dòng)圖像專(zhuān)家組開(kāi)發(fā)的,它是為技術(shù)的進(jìn)步和演化提供標(biāo)準(zhǔn),而不是為一個(gè)詳細(xì)的應(yīng)用提供標(biāo)準(zhǔn)。MPEG4不僅建立了一個(gè)聲音圖像場(chǎng)景模型,以此來(lái)表示具有具體行為和特征的聲音圖像對(duì)象,而且也是第一個(gè)聲音圖像表示方法標(biāo)準(zhǔn)。這種表示方法還可以在同一幅場(chǎng)景里面同時(shí)表示合成數(shù)據(jù)和自然數(shù)據(jù)[[] Gong X, Wang G. Automatic 3D face segmentation based on facial feature extraction[C]. In: Proc. of the IEEE Conf. on Industrial Technology. Mumbai: IEEE Computer Society, 2006. 1154?1159.]。 MPEG4標(biāo)準(zhǔn)下的FDP參數(shù)MPEG4用FAP,F(xiàn)DP來(lái)描述人臉的表情和紋理以及幾何結(jié)構(gòu),這些參數(shù)對(duì)人臉的表示和動(dòng)畫(huà)進(jìn)行具體的定義。FAP(Facial Animation parameter)是MPEG一4標(biāo)準(zhǔn)中定義的一組人臉動(dòng)畫(huà)參數(shù),它提供一些人臉動(dòng)畫(huà)的特征。FDP(Facial Definition Parameters)描述人臉的幾何結(jié)構(gòu)和紋理信息,它提供人臉各個(gè)器官的特征點(diǎn)信息。FAP建立在人臉的微小表情動(dòng)作的基礎(chǔ)上,并且非常接近于臉部的運(yùn)動(dòng)。MPEG4標(biāo)準(zhǔn)中人臉特征點(diǎn)表示如圖33所示。根據(jù)FDP標(biāo)準(zhǔn)[[] Gabriel Antunes Abrantes, Fernando Pereira, MPEG4 Facial Animation Technology: Survey,Implementation and Results[C].IEEE Transactions on Circuits and Systems for Video Technology,1999,9(2):290305.],為了能夠?yàn)闃?gòu)建三維人臉模型提供參考空間,利用通用人臉模型標(biāo)定63個(gè)特征點(diǎn),F(xiàn)DP參數(shù)是用來(lái)表示為人頭上的一些特征點(diǎn)的三維空間坐標(biāo)。FDP為特征點(diǎn)的選取提供了很好的參考依據(jù),這些特征點(diǎn)都是研究者經(jīng)過(guò)大量的實(shí)驗(yàn)分析驗(yàn)證得到的,具有一定的參考價(jià)值。圖33 MPEG4的特征點(diǎn)選擇圖 本文選定的人臉特征點(diǎn)人臉具有極其復(fù)雜的幾何結(jié)構(gòu),要想構(gòu)建一個(gè)精確的人臉模型,則應(yīng)選取具有代表性的特征點(diǎn),這些特征點(diǎn)能夠唯一標(biāo)識(shí)該對(duì)象,且具有不受其它因素影響的穩(wěn)定性。由于目前還沒(méi)有有效的自動(dòng)標(biāo)定人臉特征點(diǎn)的方法,自動(dòng)提取實(shí)現(xiàn)也有一定的難度,因此,本文采用手工交互的方式在人臉的正、側(cè)面照片上標(biāo)注所定義的特征點(diǎn)。由于MPEG4中定義的人臉特征點(diǎn)參考標(biāo)準(zhǔn)主要是為人臉動(dòng)畫(huà)的實(shí)現(xiàn)提供參考依據(jù),而在人臉建模時(shí)一些特征點(diǎn)是無(wú)關(guān)緊要的,當(dāng)使用MPEG4中定義的全部特征點(diǎn)時(shí),點(diǎn)的分布不均,反而使得最終建模的結(jié)果不理想,同時(shí)也加大了計(jì)算量。為了避免發(fā)生這種現(xiàn)象,而且又盡量做到符合FDP特征點(diǎn)選擇標(biāo)準(zhǔn),本文選取的人臉特征點(diǎn)如圖34,35所示。同時(shí),在通用三維人臉網(wǎng)格模型上選擇對(duì)應(yīng)的特征點(diǎn),并且保存網(wǎng)格模型上特征點(diǎn)的空間坐標(biāo)位置,以后對(duì)任何對(duì)象進(jìn)行三維人臉建模時(shí),都可將該通用人臉模型和選取的特征點(diǎn)作為參考標(biāo)準(zhǔn)。因而,網(wǎng)格模型特征點(diǎn)的選擇具有長(zhǎng)遠(yuǎn)的意義。由于人臉兩側(cè)基本是對(duì)稱(chēng)的,正是因?yàn)檫@種對(duì)稱(chēng)性的存在,方便了我們的實(shí)際操作,在統(tǒng)計(jì)特征點(diǎn)的坐標(biāo)時(shí),只需得出中央特征點(diǎn)和一側(cè)特征點(diǎn)的坐標(biāo)即可,另一側(cè)的坐標(biāo)可由空間對(duì)稱(chēng)性直接得到。我們認(rèn)為左右兩側(cè)的特征點(diǎn)的個(gè)數(shù)和位置大致相同,其中眼睛上有4個(gè),鼻子上有8個(gè),眉毛上有3個(gè),嘴巴上有5個(gè),臉的外部輪廓上有16個(gè),耳朵上有3個(gè),后腦側(cè)邊緣輪廓有6個(gè),面部有8個(gè),共63個(gè)特征點(diǎn)。 圖34 正面特征點(diǎn)定義 圖35 側(cè)面特征點(diǎn)定義 本章小結(jié)本章詳細(xì)描述了通用三維人臉網(wǎng)格模型從Poser ,對(duì)導(dǎo)出的文件結(jié)構(gòu)格式進(jìn)行分析,對(duì)適用于實(shí)驗(yàn)的數(shù)據(jù)信息進(jìn)行提取、記錄和保存,為后面的實(shí)驗(yàn)做準(zhǔn)備。然后簡(jiǎn)單介紹了MPEG4中FDP特征點(diǎn)定義標(biāo)準(zhǔn),根據(jù)人臉特征分布特點(diǎn)和構(gòu)建特定三維人臉模型的過(guò)程為依據(jù),在通用三維人臉網(wǎng)格模型上標(biāo)定了63個(gè)更利于模型變換的人臉特征點(diǎn),并把通用模型和特征數(shù)據(jù)保存下來(lái);隨后在照片上找到與通用人臉模型相對(duì)應(yīng)的特征點(diǎn),對(duì)照片中的特征點(diǎn)進(jìn)行手工交互式提取。在分析MPEG4的基礎(chǔ)上,本文在提取的人臉正、側(cè)面照片上手工標(biāo)出了63個(gè)特征點(diǎn),這些特征點(diǎn)能基本反映人臉幾何形狀和結(jié)構(gòu)特點(diǎn),為后面?zhèn)€性化人臉模型的構(gòu)建奠定了基礎(chǔ)。第四章 個(gè)性化三維人臉建模有許多可行的方法可以構(gòu)造出具有真實(shí)感的虛擬人臉,最經(jīng)典的方法是用特定人臉的各個(gè)器官信息來(lái)修改一個(gè)一般模型。目前有不少方法是根據(jù)一個(gè)結(jié)構(gòu)化的三維中性人臉模型,從二維照片中獲取面部數(shù)據(jù)信息,據(jù)此合成三維信息修改中性模型得到個(gè)性化三維人臉。在整個(gè)過(guò)程中,個(gè)性化人臉信息的提取是非常重要的。同時(shí),整個(gè)過(guò)程的關(guān)鍵核心技術(shù)是中性人臉模型到個(gè)性化人臉模型的變形,其直接影響著個(gè)性化人臉的最終結(jié)果。本章的目的是利用人臉正側(cè)面照片來(lái)構(gòu)建具有真實(shí)感的三維人臉模型。在獲取了三維通用人臉模型及人臉正側(cè)面照片之后,就要通過(guò)提取照片上的深度及特征點(diǎn)信息變換三維通用人臉模型來(lái)獲得對(duì)應(yīng)的個(gè)性化人臉模型。二維人臉照片是在自然環(huán)境中通過(guò)相機(jī)拍攝的人臉圖像,它只能反映人的面部器官在某個(gè)角度的二維分布信息,但我們想得到的是三維模型,所以個(gè)性化人臉模型的構(gòu)建過(guò)程就是:首先提取二維人臉圖像及通用人臉模型的特征點(diǎn)信息,并從二維照片中獲取三維人臉信息,然后通過(guò)一種基于徑向基函數(shù)插值處理變形使通用人臉模型與之匹配,最后用二次插值來(lái)局部平滑個(gè)性人臉模型,從而得到比較逼真的個(gè)性化人臉模型。 照片的預(yù)處理由于各種因素的影響,在自然狀態(tài)下獲得原始圖像,都存在一定程度的噪聲干擾。噪聲嚴(yán)重影響圖像的質(zhì)量,降低圖像的清晰度,甚至掩蓋了圖像的本質(zhì)特征,這些都對(duì)圖像處理起到一定的干擾作用,所以在進(jìn)行圖像處理之前最重要的一個(gè)操作就是圖像預(yù)處理。 人臉圖像的規(guī)范化調(diào)整 彩色人臉圖像包含諸如背景顏色,頭發(fā)顏色等較多的色彩信息內(nèi)容,不容易進(jìn)行人臉定位,將其轉(zhuǎn)換為灰度圖像,可以有效區(qū)分皮膚區(qū)域和非皮膚區(qū)域,為下一步操作奠定堅(jiān)實(shí)的基礎(chǔ)。經(jīng)過(guò)灰度化的人臉正側(cè)面圖像分別如圖41,42所示。 圖41 正面灰度圖像 圖42 側(cè)面灰度圖像在實(shí)踐中,由于各種因素的影響,很難保證在拍攝時(shí)相機(jī)和被拍攝者都處在自然的地位水平,因此容易造成面部照片有一定的傾斜。因此,對(duì)照片進(jìn)行處理之前,需要對(duì)其進(jìn)行規(guī)范化調(diào)整,使兩張照片頭部處于自然水平狀態(tài),以確保正側(cè)面照片上的同一特征點(diǎn)位于同一水平線上,從而可以得到統(tǒng)一的坐標(biāo)。對(duì)正面人臉圖像可以分別取兩眼內(nèi)角點(diǎn)的坐標(biāo),對(duì)側(cè)面圖像可以分別取右眼外眼角點(diǎn)和右耳上邊緣點(diǎn)的坐標(biāo),然后分別求取正側(cè)面圖像兩點(diǎn)連線的斜率,根據(jù)斜率可以求得這兩條線與水平直線的夾角,最后依據(jù)夾角把正側(cè)面人臉圖像調(diào)整到水平位置。經(jīng)過(guò)調(diào)整后的正側(cè)面圖像分別如圖43,44所示。 圖43 調(diào)整后的正面圖像 圖44 調(diào)整后的側(cè)面圖像 人臉圖像的歸一化處理用于實(shí)驗(yàn)的人臉圖像是通過(guò)數(shù)碼相機(jī)獲取的。對(duì)于給定人臉的正側(cè)面照片,往往難以確保拍攝距離的一致性,往往會(huì)導(dǎo)致面部及各面部器官大小不一的現(xiàn)象發(fā)生,因而,在二維人臉圖像的特征點(diǎn)提取之前需要對(duì)圖像進(jìn)行歸一化處理,從而可以確保坐標(biāo)的協(xié)調(diào)統(tǒng)一。對(duì)于給定照片的歸一化處理步驟如下:(1)剪切圖像,去除和處理對(duì)象無(wú)關(guān)的信息,以減少圖像的噪聲干擾,盡可能使預(yù)處理后圖像只包括頭部信息。(2)縮放圖像,使兩幅圖像中的人頭高度相同。在獲取人臉圖像時(shí),圖像中人臉和各個(gè)面部器官的大小會(huì)隨著拍攝距離的變化變化近似按比例縮放。所以,可以通過(guò)在正側(cè)面二維人臉圖像中選取相同位置作為基準(zhǔn)對(duì)正側(cè)面人臉圖像進(jìn)行按比例縮放,從而可以達(dá)到統(tǒng)一圖像大小的目的。如圖45,46所示,由于眼睛和嘴巴的中心線無(wú)論在正面還是在側(cè)面圖像中都很容易進(jìn)行定位,并且不易受到其他因素的干擾,因此我們把眼睛中點(diǎn)和嘴巴中點(diǎn)的距離作為基準(zhǔn),對(duì)大小不一的正側(cè)面人臉圖像進(jìn)行歸一化處理。設(shè)在正面照片中從眼睛中點(diǎn)到嘴巴中點(diǎn)的垂直距離為Hf,在側(cè)面照片中的對(duì)應(yīng)距離為Hs。兩者之間的比例關(guān)系為 K=Hf/Hs,根據(jù)該比例因子來(lái)調(diào)整側(cè)面人臉圖像,使其與正面人臉圖像具有統(tǒng)一大小,從而完成圖像的歸一化操作。hshf 圖45 正面照片的垂直距離 圖46 側(cè)面照片的垂直距離 從正側(cè)面照片中恢復(fù)特征點(diǎn)的空間坐標(biāo)經(jīng)過(guò)規(guī)范化,歸一化調(diào)整后的兩幅人臉圖像具有相同的幾何高度,在正面圖像中取兩眼連線的中點(diǎn)為基準(zhǔn)點(diǎn),可以得到面部特征點(diǎn)的x,y兩個(gè)方向的寬度信息和高度信息,在側(cè)面圖像中取正面原點(diǎn)到后腦勺連線的中點(diǎn)為基準(zhǔn)點(diǎn),可以得到面部特征點(diǎn)的z,y兩個(gè)方向的深度信息和高度信息。正側(cè)面人臉照片得到統(tǒng)一尺度上的特征點(diǎn)的X、Y、Z坐標(biāo)。然后將特征點(diǎn)投影到正面和側(cè)面照片上,可以計(jì)算出特征點(diǎn)準(zhǔn)確的空間位置。記三維人臉模型上一個(gè)特征點(diǎn)的坐標(biāo)為(X,Y,Z),與之對(duì)應(yīng)的正面和側(cè)面圖象上特征點(diǎn)的二維坐標(biāo)分別為(xf,yf)與(zs,ys),通過(guò)下式實(shí)現(xiàn)從二維坐標(biāo)三維坐標(biāo)的重建。X=xfY=(yf+ys)/2Z=zs (41)即X,Y,Z=(xf,(yf+ys)/2,zs) 。由于在兩個(gè)方向上都會(huì)出現(xiàn)y坐標(biāo),yf和ys可能不一樣,故取其平均值。 特定人臉模型的構(gòu)建一個(gè)特定人臉的建模過(guò)程是對(duì)一般人臉模型的修改過(guò)程。從一般人臉模型到特定人臉模型的變換分兩個(gè)步驟,第一步是整體變換,對(duì)一般人臉模型進(jìn)行整體輪廓的調(diào)整,使其與特定人臉高度,寬度和深度上相一致,且使臉部的五官位置相對(duì)應(yīng),實(shí)現(xiàn)模型的形似。第二步是局部變換,根據(jù)特定人臉的五官位置和形狀對(duì)模型進(jìn)行進(jìn)一步的細(xì)致調(diào)整,使其與特定人臉在具體的人臉五官的形狀和位置也相同,實(shí)現(xiàn)模型的神似。 一般人臉模型的整體變換一般人臉模型的整體變換實(shí)際上是對(duì)模型按一定比例進(jìn)行簡(jiǎn)單的坐標(biāo)伸縮變換,使變換后的通用模式初步適用于特定人臉,是通過(guò)對(duì)一般人臉模型上的每一點(diǎn)分別在X,Y,Z三個(gè)方向的拉伸變換來(lái)實(shí)現(xiàn)的,X,Y,Z三個(gè)方向分別規(guī)定為:從正面觀看人臉時(shí),從左至右為X方向,從下往上為Y方向,從后往前為Z方向。據(jù)規(guī)范化后的圖像分別計(jì)算出高,寬,深度之比,以相應(yīng)的比例對(duì)網(wǎng)格模型進(jìn)行整體縮放。記原模型的高寬比為T(mén)yx,高深比為T(mén)yz;人臉圖像的高寬比為tyx,高深比為tyz,模型所在坐標(biāo)系原點(diǎn)為O(Ox, Oy, Oz),設(shè)人臉中心O為兩眼中點(diǎn)與后腦勺中點(diǎn)所在直線與兩眼中點(diǎn)所在直線的交點(diǎn),對(duì)于每一個(gè)網(wǎng)格點(diǎn)V(Vx, Vy, Vz),記其變換后的新位置為V(Vx39。, Vy39。,Vz39。),則有Vx39。=Vx*tyx/TyxVy39。=VyVz39。=Vz*tyz/Tyz (42)整體變換后的一般人臉模型正側(cè)面圖像分別如圖47,48所示。 圖47 整體變換后的通用模型正面 圖48 整體變換后的通用模型側(cè)面模型的整體變換將為后續(xù)的幾何適配奠定了良好的基礎(chǔ)。 幾種常見(jiàn)的空間插值技術(shù)整體變換后,一般人臉模型的輪廓形狀和面部器官的位置與特定人臉模型的形狀和位置基本相一致。由于人臉各部分器官有著各自獨(dú)特的輪廓和特點(diǎn),因此要完成從一般人臉模型到具體人臉模型的變換還必須以人臉面部各局部器官的特征為依據(jù)對(duì)它們進(jìn)行局部變換,以便更好的描述模型的各種各樣的細(xì)節(jié)。由于本文的方法是基于一個(gè)一般模型的修改方法,為了控制和操作的可行性,試驗(yàn)中只從照片上得到了模型上特征點(diǎn)的空間坐標(biāo)。 因而基本問(wèn)題是: 如何通過(guò)特征點(diǎn)的運(yùn)動(dòng)來(lái)控制模型上非特征點(diǎn)的變化,即空間變形問(wèn)題。 現(xiàn)有變形方法的實(shí)現(xiàn)主要有二種方式: 一個(gè)是自由變形技術(shù)FFD ,它的基本思想是: 首先構(gòu)建一個(gè)由三維控制點(diǎn)形成的長(zhǎng)方體控制框架,將要變形的對(duì)象嵌入控制框架中,并且假設(shè)對(duì)象和控制框架是由同樣材料做成的,通過(guò)控制點(diǎn)的移動(dòng)來(lái)控制框架的變形,對(duì)象也是隨之變形[[] 劉國(guó)榮,林金花,劉曉東,[J].微電子學(xué)與計(jì)算機(jī),2008,25(7):160165.]。 FFD使用長(zhǎng)方形局部坐標(biāo)系,因此控制框架一定也是長(zhǎng)方形,從而就限制了可以實(shí)際應(yīng)用的領(lǐng)域。 另外一種是散亂數(shù)據(jù)插值方法,即在三維通用人臉模型和特定人臉模型之間建立一個(gè)映射關(guān)系函數(shù)。根據(jù)該函數(shù)可以求出任意位置的函數(shù)值。插值算法的好壞直接關(guān)系到圖像的失真程度,插值函數(shù)的設(shè)計(jì)是插值算法的核心問(wèn)題。下面介紹幾類(lèi)常見(jiàn)的空間插值技術(shù):(1)最近鄰點(diǎn)插值法 最近鄰點(diǎn)插值法(Nearest Neighbor)又被稱(chēng)為泰森多邊形方法,它是一種最簡(jiǎn)單的插值方法,該算法的基本原理是:每一個(gè)插值輸出像素的值就是在輸入圖像中與其最臨近的采樣點(diǎn)的值[[] Knothe R, Romdhani S, Vetter T. Combining PCA and LFA for surface reconstruction from a sparse set of control points[C]. In: Proc. of the IEEE Conf. on Automatic Face and Gesture Recognition. Southampton: IEEE Computer Society, 2006. 637644]。其具體的數(shù)學(xué)表達(dá)式為:Ve=Vi ,其中Ve 表示待輸出點(diǎn)的變量值。最鄰近點(diǎn)插值法的簡(jiǎn)單示意圖如圖49所示,由于