基本原理
人類的神經(jīng)系統(tǒng)在處理信息時(shí)是分級(jí)的,例如在看一張人臉照片時(shí),首先會(huì)從像素中提取人臉的邊緣特征,然后將邊緣特征組合成部件特征,接下來將部件特征組合成能表達(dá)整張人臉的特征,最后基于人臉特征判人臉的屬性(例如身份、性別、年齡、種族等)。好的特征能夠更好地表達(dá)模式(語音、圖像等)的屬性,因而特征提取是模式識(shí)別中最關(guān)鍵的一步。深度神經(jīng)網(wǎng)絡(luò)是對(duì)人腦神經(jīng)結(jié)構(gòu)的機(jī)器模擬,其思路是由低層特征逐步抽象形成高層特征,從而使特征具有良好的表達(dá)能力,能更好地描述模式的本質(zhì)特性。基于這些優(yōu)點(diǎn),深度神經(jīng)網(wǎng)絡(luò)已經(jīng)在語音識(shí)別,圖像識(shí)別等領(lǐng)域取得前所未有的成功。但為了達(dá)到較好的性能,深度神經(jīng)網(wǎng)絡(luò)通常采用大量數(shù)據(jù)進(jìn)行訓(xùn)練(權(quán)值學(xué)習(xí))。
深度神經(jīng)網(wǎng)絡(luò)的主要缺點(diǎn)在于它是一種黑盒方法,其細(xì)節(jié)隱藏在連接節(jié)點(diǎn)(神經(jīng)元)和節(jié)點(diǎn)之間的權(quán)值中,而這些權(quán)值卻是沒有明確現(xiàn)實(shí)意義的(無法確定哪些權(quán)值與哪些屬性有關(guān),也就是說這種神經(jīng)網(wǎng)絡(luò)是同構(gòu)的),這就導(dǎo)致了先驗(yàn)信息很難加入到網(wǎng)絡(luò)的訓(xùn)練過程中。但在實(shí)際應(yīng)用中,如果知道權(quán)值與屬性之間的對(duì)應(yīng)關(guān)系,將會(huì)給深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用帶來非常大的便利。例如,已有一個(gè)用于人臉身份識(shí)別的深度神經(jīng)網(wǎng)絡(luò)模型和少量具有種族標(biāo)記的人臉圖像數(shù)據(jù)(假設(shè)此種族的數(shù)據(jù)在之前訓(xùn)練數(shù)據(jù)中沒有出現(xiàn)過),現(xiàn)在想更新網(wǎng)絡(luò)參數(shù)并將此網(wǎng)絡(luò)用于人臉種族識(shí)別。由于深度神經(jīng)網(wǎng)絡(luò)通常具有非常多(百萬級(jí))的參數(shù),當(dāng)訓(xùn)練數(shù)據(jù)量較少時(shí),直接對(duì)模型進(jìn)行更新(所有權(quán)值都將被更新)通常會(huì)導(dǎo)致過擬合,使網(wǎng)絡(luò)性能變壞。但如果已知權(quán)值與“種族”這一屬性的對(duì)應(yīng)關(guān)系,那么就可以只對(duì)少量的權(quán)值進(jìn)行更新,使模型更加適合于人臉種族識(shí)別。基于以上原因,我們提出了異構(gòu)深度神經(jīng)網(wǎng)絡(luò)模型(圖1)。
圖 1:異構(gòu)深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
異構(gòu)深度神經(jīng)網(wǎng)絡(luò)不再是一個(gè)黑盒,其中的某些權(quán)值是與具體的屬性相對(duì)應(yīng)的,甚至網(wǎng)絡(luò)中的每層也可被設(shè)定為具有明確的含義,例如其神經(jīng)元的激活值對(duì)應(yīng)于某種粒度的特征。利用大量具有屬性標(biāo)記的訓(xùn)練數(shù)據(jù),采用多任務(wù)學(xué)習(xí)機(jī)制并在損失函數(shù)中加入稀疏性約束,通過考察神經(jīng)元對(duì)不同刺激的反饋,可建立網(wǎng)絡(luò)單元與屬性的映射關(guān)系,實(shí)現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)的語義化。利用異構(gòu)深度神經(jīng)網(wǎng)絡(luò),可在人臉模型中方便地加入光照、遮擋、角度、年齡、種族等多種先驗(yàn)信息,增強(qiáng)了模型的適應(yīng)性和特征的表達(dá)能力。
對(duì)于跨場(chǎng)景人臉識(shí)別問題,例如人證比對(duì),即驗(yàn)證身份證芯片照與現(xiàn)場(chǎng)照的身份是否一致,由于兩張照片失配程度較大(非同源、身份證照片分辨率低,兩張照片年齡跨度大),會(huì)導(dǎo)致特征空間中樣本分布的差異性較大,導(dǎo)致比對(duì)失敗。為了將兩張照片映射到同一特征空間中進(jìn)行比較,在異構(gòu)深度神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上,我們提出了雙層異構(gòu)深度神經(jīng)網(wǎng)絡(luò)模型。此模型中每層都是一個(gè)深度網(wǎng)絡(luò)(分別以兩張照片為輸入),在訓(xùn)練時(shí)采用二分類損失函數(shù)并對(duì)兩個(gè)網(wǎng)絡(luò)中對(duì)應(yīng)權(quán)值的差異性進(jìn)行正則化,可實(shí)現(xiàn)不同圖像空間到相同特征空間的映射。在特征空間中,相同身份人臉圖像的類內(nèi)差異變小,而不同身份人臉圖像的類間差異變大,從而增強(qiáng)了特征的判別性。
圖 2:異構(gòu)深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)