基本原理
動(dòng)態(tài)場(chǎng)景解析需要對(duì)場(chǎng)景中的目標(biāo)進(jìn)行檢測(cè)、跟蹤、識(shí)別,對(duì)目標(biāo)的狀態(tài)進(jìn)行估計(jì),對(duì)特定事件是否發(fā)生進(jìn)行判斷。由于動(dòng)態(tài)場(chǎng)景具有時(shí)變性、場(chǎng)景中目標(biāo)類(lèi)別、狀態(tài)及行為具有多樣性、事件的發(fā)生具有不確定性、各種場(chǎng)景對(duì)象之間具有關(guān)聯(lián)性,動(dòng)態(tài)場(chǎng)景解析是一個(gè)非常困難的問(wèn)題,傳統(tǒng)方法通常面臨著搜索空間巨大、算法效率低下等問(wèn)題。但相對(duì)于計(jì)算機(jī),人類(lèi)的神經(jīng)系統(tǒng)在處理此類(lèi)問(wèn)題時(shí)卻毫不費(fèi)力,人眼能夠在瞬間發(fā)現(xiàn)場(chǎng)景中感興趣的目標(biāo)并對(duì)其屬性及關(guān)聯(lián)關(guān)系進(jìn)行判斷,原因在于人類(lèi)能夠把多種信息融入搜索過(guò)程,通過(guò)對(duì)搜索空間進(jìn)行削減達(dá)到快速、準(zhǔn)確的搜索。受人類(lèi)識(shí)別方式的啟發(fā),我們提出了基于假設(shè)檢驗(yàn)(Hypothesis Testing)理論的動(dòng)態(tài)場(chǎng)景多目標(biāo)實(shí)時(shí)解析架構(gòu),該架構(gòu)包含了狀態(tài)空間初始化、對(duì)象特征提取、先驗(yàn)知識(shí)引入、分支假設(shè)檢驗(yàn)、評(píng)分排序、時(shí)空關(guān)聯(lián)等算法模塊,同時(shí)此架構(gòu)可融合多種現(xiàn)有檢測(cè)、跟蹤、特征提取、識(shí)別技術(shù),包括我們提出的異構(gòu)深度神經(jīng)網(wǎng)絡(luò)、分層矢量化多媒體信息表達(dá)、基于受限自適應(yīng)層次化稀疏表示的多目標(biāo)跟蹤等。
算法是一個(gè)遞歸的過(guò)程、當(dāng)場(chǎng)景變化時(shí)須重復(fù)這些步驟(場(chǎng)景更新通常是指有新目標(biāo)出現(xiàn)):狀態(tài)空間初始化須確定候選目標(biāo)區(qū)域、指定可能的目標(biāo)類(lèi)別等,合適的初始化能極大地減少搜索范圍,算法開(kāi)始時(shí)可基于一些顯著性檢測(cè)算法及先驗(yàn)知識(shí)進(jìn)行初始化,在迭代時(shí)可以用前一場(chǎng)景的解析結(jié)果對(duì)后一場(chǎng)景進(jìn)行初始化。算法采用高置信度優(yōu)先的方式進(jìn)行搜索,每次都選取置信度最高的候選目標(biāo)并對(duì)其狀態(tài)進(jìn)行假設(shè)檢驗(yàn),當(dāng)檢驗(yàn)通過(guò)時(shí)則對(duì)其引發(fā)的結(jié)果進(jìn)行分支假設(shè)檢驗(yàn),如檢驗(yàn)沒(méi)通過(guò)則此分支被剪枝,每個(gè)通過(guò)的假設(shè)都會(huì)有一個(gè)得分(置信度),得分高低取決于目標(biāo)自身特征、多目標(biāo)之間的關(guān)聯(lián)性以及先驗(yàn)知識(shí)。算法需要優(yōu)化一個(gè)基于信息熵的能量函數(shù),當(dāng)能量函數(shù)最小時(shí),認(rèn)為搜索到最優(yōu)解。此能量函數(shù)融合了整個(gè)場(chǎng)景的信息,不僅包括場(chǎng)景中目標(biāo)、事件和場(chǎng)景自身的信息,也包括它們之間的交互信息以及先驗(yàn)信息。由于動(dòng)態(tài)場(chǎng)景具有時(shí)變性和相關(guān)性,在對(duì)當(dāng)前場(chǎng)景進(jìn)行解析時(shí),還須關(guān)聯(lián)上一場(chǎng)景的解析結(jié)果,整個(gè)算法構(gòu)成一個(gè)時(shí)空關(guān)聯(lián)的有機(jī)整體。基于這種架構(gòu),可對(duì)動(dòng)態(tài)場(chǎng)景進(jìn)行在線解析(只考慮當(dāng)前場(chǎng)景及之前的信息),也可離線對(duì)動(dòng)態(tài)場(chǎng)景進(jìn)行整體解析。由于模擬了人類(lèi)神經(jīng)系統(tǒng)的搜索方式,有效地減小了搜索空間,算法具有較高的搜索效率,可實(shí)現(xiàn)實(shí)時(shí)的動(dòng)態(tài)場(chǎng)景解析。同時(shí)由于融合了多種信息,算法能達(dá)到較高的識(shí)別準(zhǔn)確率。

圖 1:動(dòng)態(tài)場(chǎng)景多目標(biāo)實(shí)時(shí)解析架構(gòu)
該算法利用稀疏表示的能力,結(jié)合分層表達(dá)思想,將層次化和稀疏表示(特征)相結(jié)合,有效提高了目標(biāo)的模板的表達(dá)能力。在建立模板時(shí),不僅對(duì)目標(biāo)建立模板,對(duì)背景也建立建模,在判斷候選區(qū)域是否為目標(biāo)時(shí),可以結(jié)合兩個(gè)相似度進(jìn)行判定,分類(lèi)結(jié)果更準(zhǔn)確。在跟蹤過(guò)程中,不斷更新模板時(shí),對(duì)目標(biāo)和背景建立模板池,收集一段時(shí)間內(nèi)的目標(biāo)和背景特征分布,使得模板池的魯棒性更強(qiáng)。為了保證算法的實(shí)時(shí)性,有選擇性地對(duì)模板進(jìn)行更新,對(duì)當(dāng)前的新目標(biāo)進(jìn)行判斷,如果和模板池差別很小,則不更新模板;差別非常大說(shuō)明跟蹤失敗,也不更新;只有在合適的時(shí)機(jī)才更新模板,即保持模板的穩(wěn)定性,又能減少運(yùn)算,達(dá)到實(shí)時(shí)性。為了更準(zhǔn)確地度量目標(biāo)和背景之間差異,采用自適應(yīng)權(quán)重調(diào)整方法,將目標(biāo)模板和背景之間不相似的特征賦予較大的權(quán)值,相似的特征賦予較小的權(quán)值,增強(qiáng)目標(biāo)與背景之間的區(qū)分度。通過(guò)建立目標(biāo)的時(shí)序特征模型,保證目標(biāo)模板的時(shí)序連貫性與完整性。
算法的主要流程:算法對(duì)視頻中多目標(biāo)的狀態(tài)采樣后,結(jié)合時(shí)間約束、空間約束對(duì)多層稀疏表示特征進(jìn)行加權(quán),并通過(guò)目標(biāo)基、背景基的更新機(jī)制,在標(biāo)準(zhǔn)對(duì)沖跟蹤框架判斷后得到目標(biāo)的狀態(tài)(包括大小、方向、位置等);在目標(biāo)丟失后,結(jié)合稀疏分類(lèi)器網(wǎng)格粗略檢出目標(biāo)后再次判斷,從而實(shí)現(xiàn)復(fù)雜場(chǎng)景下實(shí)時(shí)的目標(biāo)跟蹤。