傳統視頻監控系統只提供視頻的捕獲、保存、傳輸、顯示畫面等功能,而視頻內容的分析識別等需要人工實現,工作量巨大且容易出錯。智能監控系統是指在特定的監控區域內實時監控場景內的永久或是臨時的物體,通過對視頻傳感器獲取的信息進行智能分析來實現自動的場景理解、預測被觀察目標的行為以及交互性行為。本文就視頻智能分析技術的原理和現狀進行介紹。
引言
在傳統視頻監控系統中,視頻內容的分析識別等需要人工實現,由于勞動強度高,工作量巨大且容易出錯,因此視頻監控系統正朝著智能化的方向發展。新一代的智能化監控系統采用了智能視頻分析技術,克服了傳統監控系統人眼識別的缺陷,具備實時對監控范圍內的運動目標進行檢測跟蹤的功能;并且把行為識別等技術引入到監控系統中,形成新的能夠完全替代人為監控的智能型監控系統。
智能視頻分析技術涉及到模式識別、機器視覺、人工智能、網絡通信以及海量數據管理等技術。視頻智能分析通常可以分為幾部分:運動目標的識別、目標跟蹤與行為理解。
智能分析技術原理
一般情況下,視頻智能化分析的基本過程是從給定的視頻中讀取每幀圖像,并對輸入圖像進行預處理,如濾波、灰度轉換等,然后判斷輸入圖像中是否有運動目標,接下來判斷運動目標是否為監控目標,最后對該目標根據需求進行監控、跟蹤或是行為理解等分析。
1、 目標檢測技術
運動檢測(Motion Detection)。運動檢測是把視頻中變化的區域與背景圖像精確分離出來,即正確分割出運動目標區域或輪廓,這是任何系統設計實現首先要考慮的問題,它的效果好壞或成敗與否直接影響后續的跟蹤和行為理解等后期處理效果。
目標檢測是從圖像序列中將變化區域從背景圖像中提取出來,從而檢測出運動的目標,目標檢測十分重要,它將影響目標對象的分類、行為識別等后期處理。目標檢測分析多個差圖像中區域之間的關系,并在原圖像中驗證,得到運動的目標和其運動軌跡。比如,如果已經知道3個不同時刻的二值差圖像,若存在一個運動目標的話,該目標在這3個差圖像中的大小基本不變,其運動方向和運動速度基本不變,在3個差圖像對應的原圖像中的區域,有基本相同的灰度分布等等。幾種常用的動態視頻目標檢測方法簡介如下:
背景減除,背景減除(Background Subtraction)方法是目前運動檢測中最常用的一種方法,它是利用當前圖像與背景圖像的差分來檢測出運動目標的一種技術。它一般能夠提供相對來說比較全面的運動目標的特征數據,但對于動態場景的變化,如光線照射情況和外來無關事件的干擾等也特別敏感。由于該模型是固定的,一旦建立之后,對于該場景圖像所發生的任何變化都比較敏感,比如陽光照射方向,影子,樹葉隨風搖動等。
時間差分,時間差分(Temporal Difference 又稱相鄰幀差)方法充分利用了視頻圖像的特征,從連續得到的視頻流中提取所需要的動態目標信息。在一般情況下采集的視頻圖像,若仔細對比相鄰兩幀,可以發現其中大部分的背景像素均保持不變。只有在有前景移動目標的部分相鄰幀的像素差異比較大。時間差分方法就是利用相鄰幀圖像的相減來提取出前景移動目標的信息的。
但在目標運動緩慢時,差分后的運動目標區域內會產生空洞,從而不能完全提取出所有相關的特征像素點,一般不能夠完整地分割運動對像,不利于進行相關分析,因此差分法很少被單獨使用。
光流,基于光流方法(Optical Flow)的運動檢測采用了運動目標隨時間變化的光流特性,如Meyer 等通過計算位移向量光流場來初始化基于輪廓的跟蹤算法,從而有效地提取和跟蹤運動目標。該方法的優點是在所攝場所運動存在的前提下也能檢測出獨立的運動目標。然而大多數的光流計算方法相當復雜,且抗噪性能差,如果沒有特別的硬件裝置則不能被應用于全幀視頻流的實時處理。
2、目標跟蹤技術
目標跟蹤(Object Tracking)就是通過對攝像頭采集到的圖象序列進行計算分析,計算出目標在每幀圖像上的二維位置坐標,并根據不同的特征值,將圖像序列中不同幀中同一運動目標關聯起來,得到各個運動目標完整的運動軌跡,也就是在連續的視頻序列建立運動目標的對應關系。
可采用Mean Shift算法和Particle Filter算法實現目標跟蹤。
Mean Shift算法本質上是最優化理論中的最速下降法(亦稱梯度下降法,牛頓法等),即沿著梯度下降方法尋找目標函數的極值。在跟蹤中,就是為了尋找到相似度值最大的候選目標位置。
Mean Shift方法就是沿著概率密度的梯度方向進行迭代移動,最終達到密度分布的最值位置。其迭代過程本質上是最速下降法,下降方向為一階梯度方向,步長為固定值。但是,Mean Shift沒有直接求取下降方向和步長,它通過模型的相似度匹配函數的一階Talor展開式進行近似,直接推到迭代的下一個位置。由此,沿著梯度方向不斷迭代收斂到目標相似度概率目標分布的局部極大值。
Mean Shift算法在目標運動過快或背景過于復雜時,迭代尋找的局部極值并不是目標在下一幀中的最佳匹配位置。另外,Mean Shift作為最速下降法的一種,它的收斂速度并不快,且在接近最優值時,存在鋸齒現象。
Particle Filter算法本質上是蒙特卡羅仿真,即通過采樣粒子來近似描述概率密度分布。跟蹤中,不可能求取下一幀中所有位置的相似度,即無法獲取相似度概率密度分布。而Particle Filter就是通過粒子采樣來近似描述這樣的分布,有了該分布就可以獲取目標的相似度最大位置。一般是根據粒子自身的匹配程度來確定概率密度的最值。Particle Filter沒有迭代過程,它通過播散大量的粒子,通過這些粒子來獲取最值位置。另外,因為粒子采樣是遍布整個相似度概率密度空間的,故其具有全局最優性。
還可以使用如基于塔型結構的匹配跟蹤、多子模板匹配、Kalman 濾波器、光流法等方法實現目標跟蹤。
3、行為識別技術
行為識別(Behavior Understanding)是近年來被廣泛關注的研究熱點,它是指對目標的運動模式進行分析和識別,并用自然語言等加以描述。同目標識別與跟蹤技術相比,行為動作識別技術是監控領域的較高研究層次,在計算機視覺中是一個極具有吸引力及挑戰性的課題。是近年來計算機視覺領域和智能監控領域研究的熱點也是難點,但仍處于未成熟的初級階段。目前的視頻智能監控系統中,盡管對于一些動作細節還不能做到準確識別,但是已經能夠識別出物體的整體行為,比如可以識別物體的形狀、顏色、體積、運動軌跡、運動速度、速度變化等,對這些數據進行進一步挖掘和分析就能夠實現監控領域的一些特定需求,可以應用在禁區報警、數量統計、醫療監護以及環境檢測等領域。
在視頻行為動作識別中,通常是預先規定好若干動作類型(此過程由目標數據庫所決定),然后,利用數據庫的訓練樣本對各種動作類型進行特征建模,在必要的時候還要加入訓練的部分,構成一個動作模型庫。也可以使用自然語言描述人的行為,實現對行為的識別和理解,近幾年,更多研究者傾向于使用語義描述來分析人體動作行為,此方面的研究得到了一定的進展。自然語言描述的核心思想是:模仿人類語言的表達方式,通過有限的詞匯的不同組合來表示具有不同意義的句子、段落與文章。在行為分析與理解領域中,可以把某個的圖像看成是一個視覺詞匯,或叫做視覺單詞,把視覺詞匯進行組合就可以得到視頻的自然語言描述,由于不同行為有不同的描述,因此可以通過不同描述來區分不同的行為。
行為理解的推理中廣泛采用了基于圖像模型的推理方法,如隱馬爾科夫模型(HMM) ,動態貝葉斯網絡(DBN) ,條件隨機場(CRF)等;也有的研究采用其他的推理方法,如使用基于規則的決策對一系列表示動作及對象的三元表達式進行分類;采用模板匹配的方法,將檢測到的運動特征與訓練好的樣本逐個匹配,匹配的結果即為對行為識別的結果;還可以使用有限狀態自動機,每個狀態表示當前人體的位置,來對人的軌跡進行分類,識別異常事件。