各大搜索引擎已經(jīng)先后推出了以圖搜圖的功能,它可以實(shí)現(xiàn)輸入與圖片名稱或內(nèi)容相似的關(guān)鍵字就可以檢索到相應(yīng)的圖片,例如電商購(gòu)物、微信掃一掃以及百度識(shí)圖等都使用了這一技術(shù)。但是,隨著視頻內(nèi)容的走紅,業(yè)界又衍生出了一種新的技術(shù)——以圖搜視頻,即你能夠通過這一技術(shù)在海量視頻中搜索到目標(biāo)視頻。
那么問題來了,這又是一種什么樣的技術(shù)?它和以圖搜圖的區(qū)別在哪?有什么技術(shù)難點(diǎn)?
為此本期硬創(chuàng)公開課邀請(qǐng)了圖麟信息科技CEO魏京京來為大家解答這些疑惑。
用圖片搜索視頻是一種什么樣的技術(shù)?|硬創(chuàng)公開課
魏京京:中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)專業(yè)本科/碩士,畢業(yè)后就職于IBM北京研發(fā)實(shí)驗(yàn)室和美國(guó)硅谷研發(fā)實(shí)驗(yàn)室,擔(dān)任工程師和產(chǎn)品經(jīng)理,隨后就職于咨詢公司和投資公司,曾在同創(chuàng)偉業(yè)做過4年的風(fēng)險(xiǎn)投資,擔(dān)任投資總監(jiān)。現(xiàn)為圖麟信息科技CEO。
簡(jiǎn)單介紹下圖麟科技?
魏京京:圖麟科技的核心技術(shù)團(tuán)隊(duì)在圖像處理、識(shí)別領(lǐng)域有十幾年的經(jīng)驗(yàn),F(xiàn)在主要專注于海量圖像/視頻的搜索、識(shí)別、智能分析處理,核心算法團(tuán)隊(duì)來自于全球前沿的圖像視頻處理技術(shù)研究機(jī)構(gòu),具有超過15年的圖像視頻研究經(jīng)驗(yàn)。
在以圖搜視頻領(lǐng)域,我們開創(chuàng)了以視頻為單位來提取特征,并實(shí)現(xiàn)以圖搜視頻技術(shù)的實(shí)際商用。
以圖搜視頻是用什么樣的技術(shù)方式實(shí)現(xiàn)的?它解決了什么樣的問題?應(yīng)用場(chǎng)景有哪些?
魏京京:先說作用,以圖搜視頻解決了當(dāng)前針對(duì)海量視頻內(nèi)容的精準(zhǔn)快速檢索的硬傷。
隨著圖片和視頻等數(shù)據(jù)在我們?nèi)粘I钪、?shí)際應(yīng)用中海量爆發(fā),就像當(dāng)年文字互聯(lián)網(wǎng)的爆發(fā)一樣,我們需要一個(gè)有效的方式對(duì)圖像和視頻內(nèi)容進(jìn)行快速篩選和獲取,為了達(dá)到這個(gè)目標(biāo),海量視頻檢索就是一個(gè)非常必要的工具。
相對(duì)于視頻鑒黃,以圖搜視頻實(shí)現(xiàn)的是針對(duì)通用物體在海量視頻中的快速精準(zhǔn)視頻檢索。
再來談?wù)勊暮诵募夹g(shù)。
以圖搜視頻的技術(shù)包括經(jīng)典的模式識(shí)別、深度學(xué)習(xí)領(lǐng)域相關(guān)技術(shù),其原理是通過經(jīng)典的模式識(shí)別技術(shù)和深度學(xué)習(xí)技術(shù)的融合,達(dá)到海量視頻搜索在精準(zhǔn)度、速度上的最佳組合。
而應(yīng)用場(chǎng)景就很好理解了。
視頻搜索的應(yīng)用場(chǎng)景覆蓋很多我們生活和工作中的方方面面,簡(jiǎn)單來說,大家目前在各大互聯(lián)網(wǎng)視頻網(wǎng)站、電影視頻網(wǎng)站搜索自己感興趣視頻的時(shí)候,只能通過文字關(guān)鍵字來搜索。
而如果集成了以圖搜視頻的技術(shù),就可以通過某個(gè)電影場(chǎng)景、片段、海報(bào)等等直接的圖片內(nèi)容來進(jìn)行搜索。
另外,在互聯(lián)網(wǎng)安全領(lǐng)域,目前對(duì)圖像、視頻內(nèi)容的審核,都無法做到自動(dòng)審核,還很大程度上要依賴人力,通過以圖搜視頻技術(shù),可以自動(dòng)審核圖片或者視頻中的包含的內(nèi)容信息,這就提高了互聯(lián)網(wǎng)安全領(lǐng)域的圖像以及視頻內(nèi)容的過濾和審核效率。類似的應(yīng)用場(chǎng)景還存在于安防、電視媒體、個(gè)人圖片以及視頻管理應(yīng)用等諸多領(lǐng)域。
以圖搜圖與圖像識(shí)別,物體識(shí)別的區(qū)別是什么?
魏京京:其實(shí),“圖像/視頻檢索”和“圖像/物體識(shí)別”是一對(duì)孿生兄弟,在某些時(shí)候,這兩類技術(shù)是可以相互通用的,比如,為了達(dá)到物體識(shí)別,你可以先進(jìn)行圖像檢索,再進(jìn)行圖像識(shí)別來達(dá)到識(shí)別的效果;為了達(dá)到圖像檢索,也可以先進(jìn)行識(shí)別物體,然后再進(jìn)行檢索來達(dá)到圖像檢索的效果。
當(dāng)然,它們之間也有很多差異,為了達(dá)到通用范圍的圖像/視頻檢索,目前經(jīng)典的圖像/視頻檢索算法,是沒有加入圖像識(shí)別技術(shù),這主要有幾方面原因:
一、沒有加入圖像識(shí)別,可以有效的降低物體遮擋造成的無法識(shí)別的問題,圖像/視頻檢索可以通過物體的局部特征進(jìn)行有效的匹配并準(zhǔn)確查找到目標(biāo)伍,即使該目標(biāo)物體大部分都被遮擋也不會(huì)妨礙搜索的準(zhǔn)確性。
二、為了達(dá)到通用物體的搜索,目前還無法加入萬事萬物的識(shí)別,即使隨著深度學(xué)習(xí)技術(shù)的迅猛發(fā)展,我們?nèi)匀粺o法對(duì)所有物體進(jìn)行有效識(shí)別。因此,為了檢索的準(zhǔn)確性,依賴對(duì)萬事萬物的識(shí)別也是不現(xiàn)實(shí)的。視頻鑒黃也是只能對(duì)一類特征目標(biāo)物體來進(jìn)行識(shí)別,但是我們需要實(shí)現(xiàn)的是所有通用物體的檢索,因此無法現(xiàn)在就能加入識(shí)別技術(shù)。
但是隨著深度學(xué)習(xí)技術(shù)的發(fā)展,非常好的趨勢(shì)就是把深度學(xué)習(xí)技術(shù)和過去經(jīng)典的圖像/視頻檢索技術(shù)進(jìn)行結(jié)合。圖麟科技的做法有兩方面:
1.通過把識(shí)別技術(shù)和檢索技術(shù)進(jìn)行有效的統(tǒng)一,真正把原來兩步過程(檢索、識(shí)別分成兩個(gè)單獨(dú)的步驟)變成統(tǒng)一的一個(gè)過程來做檢索。這涉及到算法每一個(gè)步驟的兩類技術(shù)的融合統(tǒng)一,包括特征提取、比對(duì)等等細(xì)節(jié)過程。
2.在某些可以限定的較寬泛的領(lǐng)域,通過識(shí)別問題來確定范圍,然后在有效識(shí)別的子類中進(jìn)行快速圖像/視頻檢索。視頻鑒黃只是其中某一類場(chǎng)景,還有包括很多客戶特定的應(yīng)用場(chǎng)景,這一方式可以快速有效的進(jìn)行優(yōu)化融合,把識(shí)別和視頻搜索技術(shù)快速有效結(jié)合。
以圖搜視頻的相比以圖搜圖,技術(shù)上存在哪些區(qū)別與難點(diǎn)?
魏京京:視頻的本質(zhì)就是圖像序列,所以以圖搜視頻,面臨的一個(gè)最直接問題,就是數(shù)據(jù)量非常龐大,一秒鐘的視頻就相當(dāng)于25-30張圖片,因此需要一個(gè)非常好的方法來把這些圖像序列的特征進(jìn)行緊湊快速有效的融合,而不是簡(jiǎn)單的把每幀圖片分別進(jìn)行特征提取然后采用以圖搜圖的方式實(shí)現(xiàn)視頻搜索。
簡(jiǎn)單來說,相比較以圖搜圖,以圖搜視頻,必須要通過視頻為單位來進(jìn)行特征提取,才能在實(shí)際應(yīng)用中達(dá)到可實(shí)施的可能。這就是相對(duì)于以圖搜圖,以圖搜視頻的區(qū)別和難點(diǎn)。
再補(bǔ)充一下,為了實(shí)現(xiàn)以視頻為單位進(jìn)行特征提取,這中間還會(huì)涉及到視頻內(nèi)容本身的認(rèn)知及算法,這方面會(huì)超出以圖搜圖中單幅圖像比對(duì)的范疇,算法復(fù)雜度和難點(diǎn)較高。
那么以視頻搜視頻又有什么樣的技術(shù)特點(diǎn)呢?
魏京京:以視頻搜視頻,我們堅(jiān)信這一定是未來的一個(gè)趨勢(shì)。因?yàn)槟壳耙詧D搜視頻還是基于單幅圖像來進(jìn)行搜索,相對(duì)還有局限性。
用圖麟科技舉個(gè)例子,我們正在實(shí)現(xiàn)的以視頻搜視頻技術(shù),結(jié)合的還是之前提到的以視頻為單位進(jìn)行特征提取的算法基礎(chǔ),可以對(duì)用戶輸入的這段視頻進(jìn)行有效的特征提取,通過算法判斷用戶對(duì)視頻中某類物體或場(chǎng)景感興趣,從而快速的在海量視頻中查找到相似的視頻片斷。
綜合來講,以視頻搜視頻,這中間的核心技術(shù),也是之前提到的以視頻為單位的特征提取和比較。這與針對(duì)單幅圖像作為目標(biāo)來進(jìn)行搜索相比,更往前了一步。
這樣的優(yōu)勢(shì)具體體現(xiàn)在哪里?
圖麟科技算法負(fù)責(zé)人張工:現(xiàn)在視頻的檢索很多時(shí)候大家還是把視頻作為孤立的幀來使用,也就是,先提取多幀的特征,最后來一對(duì)一匹配。
這樣做看起來很精細(xì),但會(huì)導(dǎo)致數(shù)據(jù)庫(kù)過于龐大,而且實(shí)際上除了效率不高,精度也不好。圖麟的做法就是從視頻級(jí),而不是幀級(jí)來組織數(shù)據(jù)庫(kù),在效率上、精度上都有相應(yīng)的提升。
上述不同種類的圖像處理技術(shù)應(yīng)用前景如何?
魏京京:正如前面提到的,以圖搜圖、以圖搜視頻和以視頻搜視頻直接解決了目前我們對(duì)圖片/視頻內(nèi)容本身的快速獲取和過濾。
類似于2000年左右,網(wǎng)絡(luò)文字信息的爆發(fā),直接催生了文字檢索過濾等功能的訴求。而目前我們所處的工作生活領(lǐng)域,圖片和視頻的獲取,就像當(dāng)年我們輸入文字一樣便捷。
這直接導(dǎo)致了我們所接觸到的是圖片/視頻的海量存量信息,同時(shí)隨著基礎(chǔ)硬件的不斷提高,圖片和視頻的處理也變得越來越便捷和經(jīng)濟(jì),所以視頻檢索就會(huì)在將來的各個(gè)領(lǐng)域變成一個(gè)剛需。具體的應(yīng)用場(chǎng)景之前的回答中也涵蓋了很多方面,這里不再贅述。
精彩問答:
Q:視頻檢索現(xiàn)在主要是用在公安,安防這一塊,那么未來有沒有新的發(fā)展方向?
A:從我們目前接觸的客戶訴求,公安、安防只是其中一個(gè)比較小的領(lǐng)域,大批量具有很多圖片、視頻存量的企事業(yè)單位,都表現(xiàn)出很直接的對(duì)以圖搜視頻的緊迫需求。
目前的很多公司,已經(jīng)在圖片、視頻上積累了很多數(shù)據(jù),但是這些數(shù)據(jù)本身他們沒有辦法進(jìn)行有效的交互和獲取,這些都是視頻檢索的用武之地,類似于廣電、互聯(lián)網(wǎng)、文化、營(yíng)銷等等。
Q:您認(rèn)為以圖搜視頻技術(shù)在機(jī)器人技術(shù)方面有沒有應(yīng)用可能呢,或者說您對(duì)這項(xiàng)技術(shù)在機(jī)器人方面的有沒有什么想法?
A:以圖搜視頻本身涵蓋的底層技術(shù)面比較多,包括了圖像識(shí)別、深度學(xué)習(xí)、模式識(shí)別、視頻檢索,從大類來看,這些都是CV領(lǐng)域很重要的底層技術(shù),他們也都可以直接應(yīng)用在機(jī)器人視覺方面,簡(jiǎn)單來說,機(jī)器人的視覺所需要的物體識(shí)別、室內(nèi)導(dǎo)航視覺模塊、圖像/視頻比對(duì)技術(shù),都已經(jīng)在視頻檢索中部分得到體驗(yàn)。
以視頻搜視頻,其實(shí)跟機(jī)器人場(chǎng)景結(jié)合的就很密切,機(jī)器人通過攝像頭進(jìn)行視頻輸入后,可以快速有效的定位他所處的場(chǎng)景,并做出行為反饋。其他關(guān)于識(shí)別方面相信大家都很了解了。
Q:“從視頻級(jí),而不是幀級(jí)來組織數(shù)據(jù)庫(kù)”,這個(gè)可以詳細(xì)解釋下嗎?
A:這么說吧,如果一個(gè)視頻有100個(gè)小時(shí)的話,目前市面上很多視頻檢索系統(tǒng),可能數(shù)據(jù)庫(kù)是存儲(chǔ)單幀的,這樣總共有100*3600*25幀,數(shù)據(jù)庫(kù)是這么大。但是如果以視頻內(nèi)容來分級(jí),可能只有幾個(gè)獨(dú)立的視頻剪輯,這樣就小很多了,檢索起來也快。
Q:您經(jīng)常逛那些技術(shù)論壇以及社區(qū)?
A:我個(gè)人喜歡看一些頂尖的國(guó)際論文,例如CVPR,ICML,ICLR。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:用圖片搜索視頻是一種什么樣的技術(shù)?
本文網(wǎng)址:http://www.ezxoed.cn/html/support/11121519584.html