AlphaZero自學成才,機器人Atlas苦練后空翻……2017年,人工智能所取得的新進展真是讓人應接不暇。而所有的這些進展,都離不開深度學習一年來在底層研究和技術開發上的新突破。
人臉識別、圖像分類、語音識別是最早的深度學習取得突破的主要幾個技術方向。在2014年前后,多家技術公司紛紛宣布其利用深度學習在LFW上取得的最新成果,此為深度學習技術在人臉識別領域的“小試牛刀”。隨后,商湯、Face++等國內的多家技術公司針對金融行業人臉認證這一需求持續改進算法,隨著PK的不斷升級,人臉認證圖像相對可控下的人臉識別性能不斷被刷新,固定識別通過率為90%,識別誤匹配率指標被降低了好幾個數量級,此為深度學習技術在人臉識別領域的“碩果初嘗”。類似的技術被用在了手機APP的人臉登錄、相冊管理等,這里不一一贅述。
而當下,人臉識別的挑戰焦點重新回到了安防行業的應用。人臉識別在安防行業的應用無外乎如下幾種:
(1)1vs1身份確認。如火車站、賓館等場合需要核實身份證與持證人員是否為同一個人,此類應用與金融行業的身份認證基本無異。
(2)1vsN實時比對報警。如在火車站、地鐵站、機場等重要節點設置人員通道,對在逃人員等進行實時布控,一旦出現立即予以抓捕。又如商業應用,通過實時比對進店人員,發現VIP并提高服務質量,此類應用的需求最為強烈,而難度也最大,布控庫的規模直接決定了系統是否可用、好用,下文將專門進行分析。
(3)靜態庫或身份庫的檢索。如對常住人口、暫住人口的人臉圖片進行預先建庫,通過輸入各種渠道采集的人臉圖片,能夠進行比對和按照相似度排序,進而獲悉輸入人員的身份或者其他關聯信息,此類應用存在兩種擴展形式,單一身份庫自動批量比對并發現疑似的一個人員具有兩個或以上身份信息的靜態庫查重,兩個身份庫之間自動交叉比對發現交集數據的靜態庫碰撞。
(4)動態庫或抓拍庫的檢索。對持續采集的各攝像頭點位的抓拍圖片建庫,通過輸入一張指定人員的人臉圖片,獲得其在指定時間范圍和指定攝像頭點位出現的所有抓拍記錄,方便快速瀏覽,當攝像頭點位關聯GIS系統,則可以進一步的按照時間順序排列檢索得到的抓拍記錄,并繪制到GIS上,得到人員運動的軌跡。
應用(3)和(4)通常情況下是有操作人員進行交互的,交互操作人的介入一定程度上提升了系統對算法絕對準確的依賴,當前已經取得較好的應用效果,并為公安行業的各項工作起到輔助作用。
以目前人臉識別中比較常見的應用1vs1身份確認為例,應用深度學習以后,正確率不斷提升,甚至已經超過人類的識別正確率(97.5%)。圖1給出了深度學習算法在LFW上的性能提升。可以看到,最近幾年,隨著深度學習在人臉識別中的研究越來越深入,香港中文大學的DeepID系列和google的FaceNet不斷刷新著LFW正確率。但另一方面,在這個測試集上,各家算法的性能差距并沒有拉開。這是因為LFW的注冊集和測試集規模都較小,而且圖片質量較好,相對比較受控。而在安防行業中,隨著數據規模的增加以及場景越來越復雜,算法性能帶來的差異會更大。例如,最近華盛頓大學公開了MegaFace測試集,包括690572個唯一ID和100萬人臉圖片。在這個測試集上,LBP只有2.3%的正確率,聯合貝葉斯只有3.02%,而FaceNet則達到了70%以上。這一結果也說明了即使是目前最先進的人臉識別算法,在實際應用時,性能也還是不能令人滿意。