【文章內(nèi)容簡介】
偵測條件下低誤報率和智能識別目標驅動PTZ(Pan/Tilt/Zoom)高速球機技術為代表,在國內(nèi)擁有較高的市場占有率,其中像某學校周界防范監(jiān)控系統(tǒng)、某會場安全防護及計數(shù)管理系統(tǒng)、某核電站自動PTZ跟蹤系統(tǒng)、某銀行視頻聯(lián)網(wǎng)監(jiān)控系統(tǒng)等都以成功的交付使用,并獲得了良好的運行效果。 智能視頻監(jiān)控系統(tǒng)效果圖 the running frames of intelligent video surveillance 發(fā)展趨勢未來的視頻監(jiān)控系統(tǒng)將向智能化,實時化,小型化發(fā)展。智能化就是利用視頻分析方法和計算機視覺技術對視頻序列進行分析,提取信息,發(fā)現(xiàn)感興趣事件。各種運動目標檢測與跟蹤算法是視頻監(jiān)控系統(tǒng)實現(xiàn)智能化的關鍵,目前一個良好的算法應該具有以下特點:(1)準確性,是指算法能檢測出視頻圖像序列中運動物體的準確程度,能夠對單一目標、多個目標提取出目標輪廓,在復雜背景環(huán)境、背景中存在大量干擾時,也能準確檢測出運動目標。(2)實時性,是指算法處理圖像數(shù)據(jù),到獲得結果所需要的時間度量,在系統(tǒng)要求的準確度下,處理時間應盡可能的短,如果一種高精度復雜算法耗時太長,幾秒才能處理1幀圖像,也是不能接受的。(3)魯棒性,是指算法在受到外界干擾時,能繼續(xù)執(zhí)行原先功能的穩(wěn)定能力,如在有新目標進入畫面,畫面中目標發(fā)生重疊等情況下,算法能繼續(xù)進行目標跟蹤而不發(fā)生丟失。因此如何開發(fā)一種精確度高,耗時短,高魯棒性的運動目標檢測與跟蹤算法,是一直以來研究的熱點。實時化,要求系統(tǒng)采集、顯示圖像的同時進行數(shù)據(jù)處理和數(shù)據(jù)分析,即分析一幀圖像數(shù)據(jù)并給出結果的時間應盡可能短。由于視頻和圖像數(shù)據(jù)自身數(shù)據(jù)量大,怎樣在最短的時間內(nèi)對大量的數(shù)據(jù)進行處理,可以從硬件和軟件兩個方面考慮,即對硬件設計進行優(yōu)化或對代碼進行優(yōu)化。小型化,隨著系統(tǒng)的規(guī)模越來越大,基于計算機的系統(tǒng)體積過于龐大,已經(jīng)不適應這種發(fā)展,使用嵌入式系統(tǒng)是今后主要的發(fā)展方向。隨著微電子技術的發(fā)展,嵌入式系統(tǒng)體積更小,功能更強。專用集成電路ASIC(Appli cation Specific Integrated Circuit)方案是基于ASIC芯片來實現(xiàn)的,各種專用于視頻圖像采集和處理,具備強大功能的集成芯片,為在嵌入式系統(tǒng)中實現(xiàn)視頻監(jiān)控提供了條件。目前,在嵌入式平臺上實現(xiàn)智能視頻監(jiān)控主要有以下3種:(1)基于ARM平臺,ARM(Advanced RISC Machine)處理器基于32位精簡指令集RISC(Reduced Instruction Set Computer)構架,由于其指令執(zhí)行速度快,代碼效率高,支持高級語言編程等特點,被廣泛使用在嵌入式系統(tǒng)設計中,ARMARM9系列被廣泛應用于聯(lián)動控制、網(wǎng)絡傳輸、操作系統(tǒng)中,目前已推出了ARM11系列,但ARM芯片以邏輯控制為主,處理視頻或圖像等大量數(shù)據(jù)方面不是其強項,因此用ARM平臺實現(xiàn)系統(tǒng)處理速度有限。(2)基于DSP平臺,DSP(Digital Signal Processor)處理器是一種專門為處理大量數(shù)據(jù)而設計的專用處理器,因為其強大的數(shù)據(jù)處理能力和極快的運算速度,特別適合于各種數(shù)字信號處理,能快速實現(xiàn)各種數(shù)據(jù)處理算法。隨著每秒48億次運算速度DSP的出現(xiàn),使實時處理動態(tài)圖像成為可能。TI(Texas Instruments)公司的TMS320系列DSP,具有哈佛結構,以其硬件乘法器和流水線操作,能快速實現(xiàn)大量運算,在個人移動手持終端、多媒體產(chǎn)品、導航設備等產(chǎn)品市場中取得了非常成功的應用。但是,DSP處理器內(nèi)部硬件線路是固定的,沒有辦法進行重構,特定型號的芯片只能運用在特定領域,不具有通用性。雖然處理數(shù)據(jù)方面有優(yōu)越性,但系統(tǒng)控制方面能力略顯不足。(3)基于FPGA平臺,F(xiàn)PGA(Field Programmable Gate Array)不同于以上2種定制的ASIC,而是一種半定制的電路,既繼承了ASIC大規(guī)模、高集成度的優(yōu)點,又具有設計靈活等特點??删幊唐舷到y(tǒng)SOPC(System On a Programmable Chip)是基于大規(guī)模可編程器件FPGA芯片的單片系統(tǒng),它把整個系統(tǒng)利用邏輯編程技術集成到一個硅片上,包括硬核、軟核、存儲器、I/O設備等。SOPC技術能在單個芯片上實現(xiàn)可裁減、可擴充、可升級的靈活邏輯功能,軟件、硬件均可編程。SOPC系統(tǒng)采用了IP核復用技術,特別是IP軟核技術,使得在一個系統(tǒng)中可以實現(xiàn)多處理器。用SOPC技術構建的DSP核能完全使用目前各種成熟的DSP算法,由于實質是執(zhí)行并行處理指令,因此實際上還可達到DSP芯片的處理速度。SOPC系統(tǒng)具有開發(fā)設計靈活、實時檢測、可移植操作系統(tǒng)、高級語言編程等優(yōu)點?;贔PGA的SOPC系統(tǒng)比ARM系統(tǒng)處理速度快,比DSP系統(tǒng)控制能力強,是未來智能視頻監(jiān)控系統(tǒng)開發(fā)的理想平臺。 主要研究內(nèi)容及本文結構本文主要就基于視頻的運動目標檢測與跟跟系統(tǒng)進行了研究,限制在單攝像機靜止背景下,研究了一個基于視頻的運動目標檢測與跟蹤系統(tǒng)的主體結構以及工作流程,系統(tǒng)視頻信號的制式以及各種圖像數(shù)據(jù)結構,以及圖像濾波、形態(tài)學處理、連通分量分析、灰度直方圖等圖像處理技術。研究了目前運動目標檢測與跟蹤的各種算法,對算法進行分析比較,提出了改進后運動檢測和運動跟蹤算法,在VC++,實現(xiàn)了視頻運動目標檢測與跟蹤系統(tǒng)。設計了基于SOPC的實時運動目標檢測與跟蹤系統(tǒng),分析系統(tǒng)處理流程和工作機制,完成系統(tǒng)軟硬件設計,最后對系統(tǒng)進行仿真和測試。本文的研究工作主要包括:(1)在分析研究了常用的幀差法、背景減除法、光流法等運動目標檢測算法的基礎上,結合系統(tǒng)的實時性要求,提出了一種累積差分更新的背景減除法,該算法采用累積差分更新法建立背景模型,相比基于高斯建模的算法實時性更好,經(jīng)測試該算法能在存在干擾背景環(huán)境下,準確檢測出運動目標。(2)分析了比較了連續(xù)自適應均值漂移CAMShift算法與Kalman濾波算法,在綜合考慮跟蹤精度和計算復雜度的基礎上,提出了一種改進后的Kalman濾波與目標直方圖匹配相結合的運動目標跟蹤算法,經(jīng)測試該算法能對檢測出的目標進行有效的跟蹤。(3)在VC++,采用OpenCV計算機視覺開源庫代碼進行開發(fā),實現(xiàn)了基于MFC(Microsoft Foundation Classes)對話框的視頻運動目標檢測與跟蹤系統(tǒng),該系統(tǒng)能采集由USB接口攝像頭輸入視頻數(shù)據(jù),實時檢測出場景中的運動物體并進行跟蹤。(4)設計出基于SOPC的實時運動目標檢測與跟蹤系統(tǒng),使用Altera ED2多媒體開發(fā)板,CycloneⅡ系列EP2C35F672C6 FPGA芯片,完成系統(tǒng)的主體結構設計,使用VerilogHDL硬件描述語言設計系統(tǒng)各個模塊,移植了μC/OSⅡ操作系統(tǒng),完成系統(tǒng)初始化和處理算法程序,最后對系統(tǒng)進行了仿真與測試。本文共分六章,各章內(nèi)容如下:第一章 緒論 介紹了研究背景及意義,國內(nèi)外研究現(xiàn)狀及發(fā)展趨勢,本文主要研究內(nèi)容和各章安排。第二章 系統(tǒng)結構與關鍵技術 給出了基于視頻的運動目標檢測與跟蹤系統(tǒng)的功能模塊圖,介紹了系統(tǒng)所用到的視頻信號制式、圖像色彩模型和圖像處理技術。第三章 運動目標檢測算法研究 介紹了目前常用的運動目標檢測算法,分析了各種算法的優(yōu)缺點,提出了一種累積差分更新的背景減除法,給出了應用該算法的仿真結果。第四章 運動目標跟蹤算法研究 介紹了CAMShift算法和Kalman濾波算法,分析各自的優(yōu)缺點,提出了一種改進后的Kalman濾波與目標直方圖匹配相結合的跟蹤算法,給出算法仿真結果。第五章 基于VC++的運動目標檢測與跟蹤系統(tǒng) 介紹了在VC++平臺,利用OpenCV開源庫代碼開發(fā),實現(xiàn)本文提出的檢測與跟蹤算法的系統(tǒng)。第六章 基于SOPC的運動目標檢測與跟蹤系統(tǒng) 介紹了SOPC開發(fā)平臺,給出了系統(tǒng)的總體設計,各模塊的設計,最后進行了仿真與測試。結論 對本文研究工作進行總結,對今后的研究方向進行展望。2 系統(tǒng)結構與關鍵技術智能視頻監(jiān)控系統(tǒng)是一種能自動地、智能地對攝像機或傳感器采集的視頻序列或圖像進行分析和處理,實現(xiàn)監(jiān)控場景中的目標檢測和追蹤的監(jiān)控系統(tǒng),有效地解決了傳統(tǒng)視頻監(jiān)控系統(tǒng)中存在的由人為因素帶來的實時性差、效率低的問題。智能視頻監(jiān)控系統(tǒng)通過對監(jiān)控場景中出現(xiàn)的物體信息進行處理,能夠實時檢測出運動物體,提取運動目標,獲得目標參數(shù),確定目標位置,對運動目標進行匹配和跟蹤,進而獲得目標的運動軌跡。 系統(tǒng)結構智能視頻監(jiān)控系統(tǒng)實現(xiàn)了從攝像頭采集視頻數(shù)據(jù),數(shù)據(jù)傳送到工作站進行處理,監(jiān)控終端監(jiān)視器畫面顯示,監(jiān)控畫面存儲,異常情況報告,遠程數(shù)據(jù)傳輸?shù)裙δ?。本文研究的基于視頻的運動目標檢測與跟蹤系統(tǒng)是智能視頻監(jiān)控系統(tǒng)的一部分,要求能實現(xiàn)視頻數(shù)據(jù)采集、圖像數(shù)據(jù)處理、實時結果顯示等功能。 系統(tǒng)結構Fig the structure of system按照系統(tǒng)功能要求和工作機制,本文基于視頻的實時運動目標檢測與跟蹤系統(tǒng)結構分為以下5個部分:圖像采集部分:采集由攝像頭產(chǎn)生的視頻信號,通過視頻解碼芯片將模擬電壓信號轉變?yōu)閿?shù)字圖像數(shù)據(jù),將圖像數(shù)據(jù)送入圖像存儲部分存儲及目標檢測部分進行處理。圖像存儲部分:將采集到的圖像數(shù)據(jù)存入內(nèi)存,以便顯示是調用,同時還負責后續(xù)檢測與跟蹤部分數(shù)據(jù)的存儲。目標檢測部分:對圖像采集部分送來的數(shù)據(jù)進行處理,首先進行預處理包括,彩色圖像到灰度圖像變換、圖像濾波,然后進行運動目標檢測包括,背景模型建立及更新、運動目標提取,再對檢測得到的二值圖像還要進行形態(tài)學處理、連通分量分析。目標跟蹤部分:對檢測出的運動目標,計算目標參數(shù),根據(jù)得到的目標參數(shù),通過跟蹤算法,對下一幀中目標參數(shù)進行預測,得到下一幀實際參數(shù)后,結合匹配規(guī)則,進行目標匹配,并對預測作出修正,實現(xiàn)對目標的跟蹤。圖像顯示部分:將檢測與跟蹤部分及存儲部分的原始數(shù)據(jù)結合后,通過視頻編碼芯片將數(shù)字圖像數(shù)據(jù)轉變?yōu)槟M電壓信號,在顯示器上顯示結果。 圖像處理技術 圖像獲取圖像是由場景中的物體反射、透射或吸收照射源的能量而產(chǎn)生的,照射源可以是可見光、雷達波、紅外線、X射線等,而物體可以是蘋果、筆、物質分子、甚至光源[14]。人類通過眼睛來獲取圖像,而機器的眼睛則是傳感器。傳感器中的敏感材料在一定的電源輸入功率下,將表面接受到的能量轉變?yōu)檩敵鲭妷?,連續(xù)的電壓波形就是原始的圖像數(shù)據(jù)了。這些原始數(shù)據(jù)進行一些加工處理,成為規(guī)定的格式標準后,才能顯示出來。目前,圖像傳感器主要有CCD、CMOS兩種類型。CCD(Chargecoupled Device)電荷耦合器件,1969年由美國Bell試驗室的Willard S. Boyle和George E. Smith發(fā)明,兩位科學家也因發(fā)明了電荷耦合器件圖像傳感器CCD而獲得2009年諾貝爾物理學獎。CMOS(Complementary Metal Oxide Semiconductor)互補金屬氧化物半導體,一種電壓控制的邏輯運算放大器件,也被應用于制造影像器材的感光元件。其中前者發(fā)展時間比較長,應用較廣泛,而我們常見的攝像頭則多用價格相對低廉的CMOS作為傳感器。在攝像機、數(shù)碼相機、攝像頭中主要使用傳感器陣列,將具有敏感特性的元件封裝成MM單元的穩(wěn)定陣列。(a) 單個傳感器 (b) 傳感器陣列 傳感器及傳感器陣列Fig a sensor and a array of sensors數(shù)字圖像是將連續(xù)模擬圖像信號進行采樣和量化后的結果,可以用一個矩陣來表示,如下: ()就表示了一幅M行N列的數(shù)字圖像,矩陣中每個元素稱為一個像素。數(shù)字圖像有彩色圖像、灰度圖像、二值圖像等形式,若一幅圖像每個像素有級不同的顏色,該圖像稱為k比特圖像。 視頻信號制式及圖像色彩模型(1)NTSC、PLA制式NTSC(National Television System Committee)是美國、日本、加拿大等國家采用的電視信號制式[15,16],PAL(Phase Alternating Line)制式主要被西歐、中國、澳大利亞等國家采用[1719]。PAL制式掃描奇數(shù)場在前,偶數(shù)場在后,8MHz傳輸帶寬。PAL制式傳輸一個亮度信號和兩個色度信號,其中一個色度信號進行逐行交替相位調制,另一個色度信號進行正交平衡調制。PAL制式有ITUR 。ITUR ,采用21芯接口,16位并行數(shù)據(jù)傳輸,Y、U、V信號同時傳輸,行場同步信號單獨輸出。ITUR ,采用9芯接口,8位串行數(shù)據(jù)傳輸,先傳Y信號再傳U、V信號,行場同步信號嵌入數(shù)據(jù)流中。,簡單地說就是定義了一種數(shù)據(jù)傳輸接口而已。,,這樣得到的采樣數(shù)據(jù)就是YCbCr4:2:2格式,每個采樣點進行8比特量化,8+82=216Mb/s。本文中輸入的視頻信號就是ITUR 4:4:2格式。(2)RGB、CMY、YUV色彩模型色彩模型是用來描述色彩空間的集合,就像笛卡爾坐標系是用來描述歐幾里德幾何空間的集合一樣。常見的色彩模型有RGB模型、CMY模型、YUV模型。RGB模型是計算機顯示器,電視機,LCD顯示屏等使用的色彩模型,凡是要靠自身發(fā)光來顯示圖像的都采用這一模型。CMY模型是彩色打印機、復印機等使用的色彩模型,凡是靠其它光源照射來顯示圖像的都基于此模型。YUV模型是現(xiàn)代電視信號制式的彩色圖像格式,也是缺省情況下的圖像和視頻壓縮編碼標準。RGB色彩模型來源于自然界中的三原色,Red、Green、Blue原色光譜分量按一定比列混合,就能夠得到RGB模型中的任意一種顏色,該模型基于笛卡爾坐標系,顏色空間是一立方體,紅綠藍分別位于坐標軸上3個頂點,黑色位于原點,白色位于原點的對角,將顏色值歸一化后,所有的顏色值都在立方體表面或內(nèi)部,灰度等級沿黑白兩點間的連線分布。: (a)空間坐標系 (b)顏色空間 RGB顏色空間Fig RGB color space在RGB彩色模型中,一幅圖像每個像素分別由R、G、B分量組成,若每一分量用8比特表示,即每一分量可有種顏色,3種分量可有種顏色,此類圖像稱為全彩色圖像。將圖像送入顯示器進行顯示