免费看在线a黄视频|99爽99操日韩毛片儿|91停婷在线无码观看|日韩三级片小视频|一级黄片免费播放|欧美成人视频网站导航|亚洲日韩欧美七区|国产视频在线观看91|人成视频免费在线播放|国产精品成人在线免费观看

【鈦坦白】格靈深瞳鄧亞峰:如何讓機(jī)器看得更真更遠(yuǎn)?

計(jì)算機(jī)視覺(jué)技術(shù)面臨怎樣的挑戰(zhàn)和機(jī)遇?怎么樣讓機(jī)器看得更真更遠(yuǎn)?怎么能使計(jì)算機(jī)視覺(jué)技術(shù)可以大規(guī)模應(yīng)用?

繼“讓機(jī)器聽懂你的聲音”,鈦坦白又請(qǐng)來(lái)六位鈦客,探討如何讓機(jī)器看懂這個(gè)世界。本文根據(jù)格靈深瞳技術(shù)副總裁鄧亞峰在鈦坦白的分享整理。

鄧亞峰具有15年人工智能特別是計(jì)算機(jī)視覺(jué)方向的研發(fā)經(jīng)驗(yàn),發(fā)表論文十余篇,獲得專利授權(quán)95項(xiàng)。曾是百度深度學(xué)習(xí)研究院的科學(xué)家,帶領(lǐng)團(tuán)隊(duì)開發(fā)出世界第一的人臉檢測(cè)、人臉識(shí)別算法,開發(fā)出的算法和系統(tǒng)服務(wù)于億級(jí)別用戶產(chǎn)品。格靈深瞳是一家視頻大數(shù)據(jù)產(chǎn)品和方案提供商,致力于將計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)技術(shù)應(yīng)用于商業(yè)領(lǐng)域,產(chǎn)品包括皓目行為分析儀、威目視圖大數(shù)據(jù)平臺(tái)、威目車輛大數(shù)據(jù)系統(tǒng)、威目視頻結(jié)構(gòu)化系統(tǒng)、威目人臉識(shí)別系統(tǒng)、深瞳人眼攝像機(jī)等。

以下是鄧亞峰在鈦坦白的分享:

大家好,今晚我分享的題目是“如何讓機(jī)器看得更真更遠(yuǎn)?”希望通過(guò)格靈深瞳在計(jì)算機(jī)視覺(jué)領(lǐng)域的一些嘗試和經(jīng)驗(yàn)與大家交流怎么能使得計(jì)算機(jī)視覺(jué)技術(shù)可以大規(guī)模應(yīng)用。

先簡(jiǎn)單介紹下。格靈深瞳是2013年4月份由創(chuàng)始人趙勇在北京創(chuàng)立的,是一家同時(shí)具備計(jì)算機(jī)視覺(jué)技術(shù)、深度學(xué)習(xí)技術(shù)以及嵌入式硬件研發(fā)能力的公司,主要關(guān)注的領(lǐng)域包括公共安全、智能交通、金融安防等,同時(shí)公司在無(wú)人駕駛、機(jī)器人和智能醫(yī)療方面也進(jìn)行了深入的布局。

計(jì)算機(jī)視覺(jué)的研究目標(biāo)和應(yīng)用趨勢(shì)

大家知道,視覺(jué)是我們?nèi)祟惈@取信息最主要的方式,在視覺(jué)、聽覺(jué)、嗅覺(jué),觸覺(jué)和味覺(jué)中,視覺(jué)接受信息的比例大概是占到百分之八十幾,處于絕對(duì)領(lǐng)先的地位。

遠(yuǎn)在1966年的時(shí)候,有一個(gè)人工智能領(lǐng)域的先行者叫Marvin Minsky,他是MIT的老師,他給他的本科學(xué)生部署了一個(gè)有趣的作業(yè)“Link a camera to a computer and get the computer to describe what it saw”,翻譯成中文就是“讓計(jì)算機(jī)看懂世界”。在當(dāng)時(shí),他認(rèn)為這是一個(gè)本科生在一個(gè)暑假就能完成的作業(yè)。但是已經(jīng)過(guò)去了50多年的時(shí)間,經(jīng)過(guò)了無(wú)數(shù)學(xué)術(shù)界和工業(yè)界同仁的努力,我們發(fā)現(xiàn),計(jì)算機(jī)視覺(jué)還是一個(gè)非常熱但并沒(méi)有真正成熟的領(lǐng)域。

對(duì)于計(jì)算機(jī)視覺(jué)系統(tǒng)而言,輸入實(shí)際上是visual sensor(視覺(jué)傳感器),包括比較常見(jiàn)的RGB傳感器,也包括其他比如depth(深度)以及l(fā)idar(激光雷達(dá))等傳感器。計(jì)算機(jī)視覺(jué)系統(tǒng)接收一個(gè)信號(hào)輸入之后,輸出的是Understanding of the world,也就是對(duì)世界的理解,這實(shí)際上是計(jì)算機(jī)視覺(jué)的目標(biāo)

在當(dāng)今這個(gè)時(shí)代,計(jì)算機(jī)視覺(jué)領(lǐng)域呈現(xiàn)出很多新的趨勢(shì),其中最為顯著的一個(gè),就是應(yīng)用的爆炸性增長(zhǎng)。除了手機(jī)、個(gè)人電腦和工業(yè)檢測(cè)之外,計(jì)算機(jī)視覺(jué)技術(shù)在智能安防、機(jī)器人、自動(dòng)駕駛、智慧醫(yī)療、無(wú)人機(jī)、增強(qiáng)現(xiàn)實(shí)(AR)等領(lǐng)域都出現(xiàn)了各種形態(tài)的應(yīng)用方式。計(jì)算機(jī)視覺(jué)迎來(lái)了一個(gè)應(yīng)用爆炸性增長(zhǎng)的時(shí)代。

計(jì)算機(jī)視覺(jué)技術(shù)面臨的挑戰(zhàn)和機(jī)遇

  • 挑戰(zhàn)

對(duì)計(jì)算機(jī)視覺(jué)來(lái)講,雖然歷經(jīng)了六十年的發(fā)展,但是到今天為止,真正的大規(guī)模成熟應(yīng)用還是屈指可數(shù),比如指紋識(shí)別、車牌識(shí)別或者數(shù)碼相機(jī)里面的一些人臉檢測(cè)技術(shù)。這里面很大的原因是技術(shù)的局限。近幾年,隨著深度學(xué)習(xí)在視覺(jué)領(lǐng)域的應(yīng)用,很多技術(shù)都取得了巨大的提升,但我們發(fā)現(xiàn)還面臨著很多技術(shù)上的挑戰(zhàn)。

比如說(shuō)以ILSVRC2016(就是我們經(jīng)常提到的ImageNet競(jìng)賽,它是視覺(jué)領(lǐng)域最重要的競(jìng)賽之一,每年會(huì)舉辦一次)的Object detection即物體檢測(cè)任務(wù)為例,最好的結(jié)果MAP達(dá)到0.663,這實(shí)際上意味著,計(jì)算機(jī)自動(dòng)給出圖像中的各種物體的外邊緣矩形框,這個(gè)結(jié)果的平均正確率是66%左右。這個(gè)結(jié)果實(shí)際上代表著世界范圍內(nèi)的最高水平,但我們知道這樣的結(jié)果,還只能用于一些對(duì)準(zhǔn)確率要求不是特別高的場(chǎng)景,還遠(yuǎn)沒(méi)有達(dá)到大規(guī)模應(yīng)用的程度。

同時(shí),在應(yīng)用層面,我們最終要實(shí)現(xiàn)的是用戶價(jià)值,一方面只有視覺(jué)技術(shù)的話其實(shí)是不夠的,另外一方面,也不需要等待視覺(jué)技術(shù)完全成熟才能夠被使用。正是因?yàn)橐曈X(jué)技術(shù)的不成熟不完善,就必須和其它技術(shù)結(jié)合,必須和產(chǎn)品應(yīng)用結(jié)合,才能使得視覺(jué)技術(shù)真正產(chǎn)生應(yīng)用價(jià)值

總結(jié)為一句話就是即使經(jīng)過(guò)了60年的努力,我們依然在路上,我們還沒(méi)有真正達(dá)到目標(biāo)。

  • 機(jī)遇

計(jì)算機(jī)視覺(jué)領(lǐng)域近幾年面臨的機(jī)遇有:

第一,我們整個(gè)計(jì)算機(jī)視覺(jué)領(lǐng)域迎來(lái)了前所未有的關(guān)注和接踵而來(lái)的投資熱潮。這些關(guān)注既來(lái)自于風(fēng)險(xiǎn)投資、互聯(lián)網(wǎng)公司和傳統(tǒng)公司,還吸引了國(guó)家政府前所未有的關(guān)注,甚至連普通民眾也開始關(guān)注和討論這個(gè)領(lǐng)域。這些關(guān)注和相繼而來(lái)的投資必然會(huì)促進(jìn)這個(gè)領(lǐng)域的技術(shù)進(jìn)步和應(yīng)用發(fā)展。

第二,計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用呈現(xiàn)了爆發(fā)式的增長(zhǎng)態(tài)勢(shì)。我們剛才已經(jīng)提到在安防監(jiān)控、高度的自動(dòng)化駕駛、增強(qiáng)現(xiàn)實(shí)、醫(yī)療圖像、機(jī)器人工業(yè)視覺(jué)、移動(dòng)互聯(lián)網(wǎng)等領(lǐng)域都有眾多的計(jì)算機(jī)視覺(jué)應(yīng)用產(chǎn)生,這些應(yīng)用里面產(chǎn)生的海量數(shù)據(jù),將會(huì)促使計(jì)算機(jī)視覺(jué)技術(shù)加速發(fā)展,而技術(shù)和應(yīng)用的結(jié)合也會(huì)推動(dòng)技術(shù)的成熟落地。

第三,從世界范圍來(lái)講,我們?nèi)A人在計(jì)算機(jī)視覺(jué)領(lǐng)域無(wú)論在學(xué)術(shù)影響上還是在創(chuàng)業(yè)公司領(lǐng)域都處于一個(gè)領(lǐng)先的地位,這使得我們有可能和美國(guó)一起去爭(zhēng)奪這個(gè)世界人工智能的制高點(diǎn),這是中國(guó)未來(lái)面臨的一個(gè)非常巨大的機(jī)遇。

總之,對(duì)于我們這些做計(jì)算機(jī)視覺(jué)的人來(lái)講,這是一個(gè)做計(jì)算機(jī)視覺(jué)最好的時(shí)代。

怎么樣讓機(jī)器看得更真更遠(yuǎn)?

  • 如何讓深度學(xué)習(xí)和數(shù)據(jù)形成良性的循環(huán)?

如果大家學(xué)過(guò)一門叫作《模式識(shí)別》的課程,第一節(jié)就會(huì)講述一個(gè)基本的處理流程,里面包括三個(gè)方面的內(nèi)容——原始數(shù)據(jù)的準(zhǔn)備、特征提取、學(xué)習(xí)。特征提取里面可以細(xì)分為預(yù)處理、特征抽取、特征選擇這樣三個(gè)模塊。這里面最明顯的特征是,這個(gè)流程里面,特征和學(xué)習(xí)是分開的兩個(gè)部分。這是傳統(tǒng)的模式識(shí)別方法,換句話說(shuō)是傳統(tǒng)的計(jì)算機(jī)視覺(jué)圖象識(shí)別的流程。而在深度學(xué)習(xí)的時(shí)代,最大的不同是什么呢?就是我們可以把特征和學(xué)習(xí)融合起來(lái),變成特征學(xué)習(xí),就是用基于深度學(xué)習(xí)的特征表示代替原來(lái)繁瑣的預(yù)處理、特征抽取和特征選擇以及學(xué)習(xí)的過(guò)程,這實(shí)際上是一個(gè)很巨大的進(jìn)步。

這個(gè)進(jìn)步的最大的好處就是,原來(lái)的特征完全是領(lǐng)域?qū)<腋鶕?jù)他對(duì)領(lǐng)域的理解去手工設(shè)計(jì)出來(lái)的,對(duì)不同的物體比如人臉和車牌,用的是完全不同的兩種特征。一方面,需要為人臉或者車牌分別做兩套方法,另外一方面,這個(gè)特征本身依賴于人對(duì)數(shù)據(jù)的理解,加上學(xué)習(xí)本身用的是非常淺層的表示,無(wú)法用復(fù)雜的非線性模型更好的刻畫和表示數(shù)據(jù),最終得到的表示能力并不是特別強(qiáng),限制了算法的表現(xiàn)。而在深度學(xué)習(xí)時(shí)代,特征完全是基于數(shù)據(jù)去驅(qū)動(dòng),去學(xué)習(xí)出來(lái)的,對(duì)人或者對(duì)車而言,在架構(gòu)或者方法上有可能做到非常相近甚至是完全一樣的,這就使得這個(gè)系統(tǒng)變得非常的優(yōu)雅。同時(shí)因?yàn)檫@個(gè)特征是由數(shù)據(jù)驅(qū)動(dòng)去學(xué)習(xí)出來(lái)的,而且他是一層一層的非線性表示,這個(gè)層可以不斷的添加,所以能夠很方便的得到對(duì)一個(gè)數(shù)據(jù)非常強(qiáng)的表示。這實(shí)際上是深度學(xué)習(xí)最大的優(yōu)勢(shì)。

實(shí)際上2012年是深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域應(yīng)用的一個(gè)節(jié)點(diǎn)。雖然從2006年左右開始,深度學(xué)習(xí)已經(jīng)開始在語(yǔ)音識(shí)別方面得到應(yīng)用,但是那個(gè)時(shí)候在計(jì)算機(jī)視覺(jué)領(lǐng)域大家都很置疑這個(gè)方法,原因是因?yàn)榇蠹矣X(jué)得他沒(méi)有什么可解釋性。但是真正的一個(gè)影響力的事件是在2012年的時(shí)候,深度學(xué)習(xí)的鼻祖之一Hinton讓自己的學(xué)生Alex用深度學(xué)習(xí)方法最終在ImageNet競(jìng)賽上面使得錯(cuò)誤率達(dá)到了15%。而在2011年的時(shí)候大概是25%的錯(cuò)誤率,下降了10%,而在2010年的時(shí)候這個(gè)錯(cuò)誤率大概是30%。

在傳統(tǒng)方法時(shí)代,每年錯(cuò)誤率的下降是非常小的,而真正用了深度學(xué)習(xí)之后,大家發(fā)現(xiàn)錯(cuò)誤率的下降變得非常的快速。即使是在2012年之后,比如說(shuō)到了2013年和2014年,大家發(fā)現(xiàn)在深度學(xué)習(xí)方法的推動(dòng)下,這個(gè)錯(cuò)誤率還會(huì)有非常明顯的降低,可以達(dá)到每年百分之五十左右的一個(gè)相對(duì)錯(cuò)誤率的降低。也就是說(shuō)用了深度學(xué)習(xí)方法之后,大家發(fā)現(xiàn)在圖像識(shí)別任務(wù)上,技術(shù)的推進(jìn)變得比原來(lái)快得非常多。

另一個(gè)例子是人臉識(shí)別。人臉識(shí)別最早的一個(gè)著名方法叫特征臉,也就是PCA(主分量分析),是非常經(jīng)典的方法,這大概是在1991年左右發(fā)明的方法。人臉識(shí)別領(lǐng)域有一個(gè)非常著名的數(shù)據(jù)集,叫作LFW(Labeled face in the wild),特征臉?lè)椒ㄔ谶@個(gè)數(shù)據(jù)集上面的錯(cuò)誤率是40%。到了2013年的時(shí)候這個(gè)錯(cuò)誤率大概是7%,是傳統(tǒng)方法的最好水平。經(jīng)過(guò)20年左右的努力,錯(cuò)誤率下降了五倍多。在2014年的時(shí)候,深度學(xué)習(xí)方法開始應(yīng)用到人臉識(shí)別上面,不到一年的時(shí)間,錯(cuò)誤率一下子由7%下降到了3%,有超過(guò)50%的下降,到2015年這個(gè)錯(cuò)誤率到了千分之六左右,不到兩年下降了10多倍。可以看到用了深度學(xué)習(xí)方法以后,人臉識(shí)別領(lǐng)域的錯(cuò)誤率下降也非常的明顯。

總之,深度學(xué)習(xí)使得整個(gè)圖像識(shí)別領(lǐng)域發(fā)生了一個(gè)翻天覆地的變化。

為什么深度學(xué)習(xí)方法能夠這么成功呢?總結(jié)起來(lái)最重要的三個(gè)要素是:深度學(xué)習(xí)算法、大規(guī)模數(shù)據(jù)和硬件平臺(tái)。深度學(xué)習(xí)算法大家比較好理解;關(guān)于數(shù)據(jù),因?yàn)樵趥鹘y(tǒng)的時(shí)代數(shù)據(jù)量很小,只有幾千或者幾萬(wàn),即使用了非常強(qiáng)大模型,也會(huì)遇到過(guò)擬合的現(xiàn)象,表示能力強(qiáng)的模型需要大量的數(shù)據(jù)才能夠訓(xùn)練好,否則就會(huì)出現(xiàn)過(guò)擬合現(xiàn)象;硬件平臺(tái)方面,在深度學(xué)習(xí)出現(xiàn)之前,已經(jīng)有人工神經(jīng)網(wǎng)絡(luò)的方法了,那是在九幾年的時(shí)候,神經(jīng)網(wǎng)絡(luò)方法非常流行,當(dāng)時(shí)訓(xùn)練一個(gè)人工神經(jīng)網(wǎng)絡(luò),即使是很少量的數(shù)據(jù),大概也要訓(xùn)練一個(gè)月到三個(gè)月的時(shí)間,非常難以忍受。而近年來(lái),由于有了非常好的硬件平臺(tái),特別是GPU之后,大家發(fā)現(xiàn)訓(xùn)練一個(gè)很大的深度學(xué)習(xí)模型也可以很快訓(xùn)練完成,比如一周就可以出結(jié)果。這樣使得這個(gè)方法容易被大家接受從而在工程上使用。

我們還可以以一個(gè)國(guó)際上通用的數(shù)據(jù)集的數(shù)據(jù)量的增長(zhǎng)來(lái)看,在最早的時(shí)候,比如說(shuō)像PASCAL VOC數(shù)據(jù)集的量級(jí)大概是一萬(wàn)左右的圖像大概十類左右,那是2007年左右。而到了近期,比如講ImageNet的數(shù)據(jù)量大概能夠到100多萬(wàn),然后類別的話大概是千的級(jí)別,這是這兩個(gè)時(shí)期最著名的兩個(gè)數(shù)據(jù)集。公開數(shù)據(jù)集數(shù)據(jù)量的提升本身也促進(jìn)了深度學(xué)習(xí)方法的發(fā)展和迅速推廣。

談到深度學(xué)習(xí)對(duì)大規(guī)模數(shù)據(jù)的依賴,這并不是一個(gè)靜態(tài)的過(guò)程。我們?cè)趺礃幽軌蜃屔疃葘W(xué)習(xí)和數(shù)據(jù)形成一種良性的循環(huán)呢?在初期,我們需要一些初始的數(shù)據(jù),這個(gè)數(shù)據(jù)可能是幾十萬(wàn)級(jí)別或者到幾千萬(wàn)級(jí)別的數(shù)據(jù),這個(gè)數(shù)據(jù)經(jīng)過(guò)深度學(xué)習(xí)平臺(tái)的訓(xùn)練,得到了一個(gè)模型,這個(gè)模型被應(yīng)用到系統(tǒng)里邊去,這個(gè)應(yīng)用系統(tǒng)會(huì)反饋到那些最應(yīng)該被標(biāo)注或者最應(yīng)該被使用的數(shù)據(jù),這些數(shù)據(jù)經(jīng)過(guò)標(biāo)注之后再被當(dāng)作訓(xùn)練數(shù)據(jù)反饋到系統(tǒng)里面去,這樣形成從應(yīng)用到數(shù)據(jù)到算法的正循環(huán)。這樣可以達(dá)到一個(gè)由應(yīng)用產(chǎn)生數(shù)據(jù),數(shù)據(jù)推動(dòng)模型的發(fā)展,模型再反過(guò)來(lái)促進(jìn)應(yīng)用的發(fā)展的正循環(huán)。

所以在這個(gè)時(shí)代,我們一提到計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)就已經(jīng)成為標(biāo)配。雖然大家在置疑說(shuō)后面也許會(huì)有別的方法把深度學(xué)習(xí)的方法代替掉,或者深度學(xué)習(xí)的熱潮會(huì)冷卻下來(lái),我承認(rèn)深度學(xué)習(xí)領(lǐng)域不會(huì)一直如此快速的發(fā)展,也會(huì)遭遇低潮,也會(huì)出現(xiàn)更好的方法,但是深度學(xué)習(xí)代表了一種learning of representation的思想,這個(gè)思想是不會(huì)過(guò)時(shí)的,換句話講,深度學(xué)習(xí)已經(jīng)成為一個(gè)標(biāo)配,哪怕后面的方法再變化也不會(huì)被完全的淘汰,只是會(huì)被發(fā)展會(huì)被繼承。

  • 深度學(xué)習(xí)遇到depth

在格靈深瞳,我們的目標(biāo)是讓計(jì)算機(jī)看懂世界。在一些復(fù)雜的場(chǎng)景下,我們?cè)趺礃尤ダ斫馊说男袨?,是我們一直以?lái)非常關(guān)心的一個(gè)問(wèn)題。對(duì)于圖像識(shí)別而言,我們最常用的傳感器是RGB傳感器。除此之外,還有一種傳感器,不僅有RGB信息,還有depth信號(hào),一般叫作RGBD傳感器,基于RGBD信號(hào)的圖像識(shí)別我們一般叫作3D圖像識(shí)別。

對(duì)于純粹的只利用RGB信息的方法我們叫2D的方法。2D的方法一般有幾個(gè)缺陷:第一個(gè)是在沒(méi)有可見(jiàn)光的情況,比如說(shuō)特別黑的時(shí)候他就沒(méi)辦法工作;第二個(gè),因?yàn)樗鄙偕疃鹊男畔?,?dāng)我們拍一張照片的時(shí)候,會(huì)出現(xiàn)近處的車模會(huì)顯得更大一些,遠(yuǎn)處的一個(gè)真實(shí)的車輛反而顯得更小一些,這時(shí)候這個(gè)系統(tǒng)沒(méi)有辦法分清近的是車模還是遠(yuǎn)處的是車模,他把深度的信息丟失了。而且更重要的是他沒(méi)有辦法處理遮擋和交疊的情況。所以基于普通的RGB的輸入,一般而言只能做一些非常特定的場(chǎng)景(比如垂直向下的人頭計(jì)數(shù)等等),而且即使這樣的情況下,也需要很巨大的運(yùn)算量。哪怕是用了深度學(xué)習(xí)的方法能把效果做得很好,但運(yùn)算量也會(huì)非常大。如果我們需要在嵌入式設(shè)備上做復(fù)雜的軌跡分析或者行為分析的話,只有深度學(xué)習(xí)其實(shí)是不夠的。

在格靈深瞳,我們實(shí)際上是做了一套基于叫depth proposal的深度學(xué)習(xí)的物體檢測(cè)方法。給大家簡(jiǎn)單地介紹一下這個(gè)方法:第一步我們基于depth輸入來(lái)做前景提取的工作,得到里邊潛在的目標(biāo)區(qū)域,之后我們會(huì)做一個(gè)投影變換,因?yàn)槲覀冎懒?D的信息之后,我們可以把潛在的目標(biāo)投影到水平平面上去,之后我們結(jié)合RGB的方法產(chǎn)生一些proposal,因?yàn)閷?shí)際中會(huì)產(chǎn)生一些干擾和誤識(shí)別,我們后面使用深度學(xué)習(xí)的方法去做proposal的后處理過(guò)濾,這樣的話就能做一個(gè)快速且效果好的多目標(biāo)檢測(cè)器,基于多目標(biāo)檢測(cè)和跟蹤,可以進(jìn)一步做比較復(fù)雜的行為分析的工作。

我們發(fā)現(xiàn),如果純用深度學(xué)習(xí)的方法直接來(lái)做這樣的復(fù)雜場(chǎng)景的話,因?yàn)闀?huì)遇到各種各樣的問(wèn)題,比如說(shuō)遮擋的問(wèn)題,還有兩個(gè)人連接到一起的問(wèn)題,所以如果用直接的深度學(xué)習(xí)方法很難在這種場(chǎng)景下處理的特別好,運(yùn)算速度也是特別慢。我們發(fā)現(xiàn)結(jié)合了這種depth的方法之后,深度學(xué)習(xí)方法的威力會(huì)發(fā)揮的更好,而且這個(gè)運(yùn)算速度是特別快的。

下圖是我們的一些識(shí)別結(jié)果,左上角子圖是采集到的RGB圖像,上面繪制了最終的跟蹤結(jié)果,大家可以看到每個(gè)人身體上會(huì)有一個(gè)圈表征說(shuō)這是一個(gè)人,實(shí)際上這是一個(gè)3D的圈,圖像里邊右上角子圖里面的橙色和深藍(lán)色顯示的是遠(yuǎn)近的區(qū)別。左下角子圖的扇形區(qū)域里面,大家可以看到每個(gè)人的位置,這是一個(gè)垂直向下的視角。由于現(xiàn)實(shí)場(chǎng)景中存在非常大的遮擋,如果單純用2D的方法是不可能做成這個(gè)樣子的。我們可以做到在非常復(fù)雜的場(chǎng)景下,對(duì)幾十個(gè)人中的每個(gè)人都進(jìn)行跟蹤,從而對(duì)每個(gè)人的行為進(jìn)行分析。如果需要的話,基于這個(gè)depth sensor,再結(jié)合RGB的信息,我們可以對(duì)每個(gè)人的骨架進(jìn)行分析,可以做手、腳或者頭級(jí)別的更精細(xì)的動(dòng)作分析。

最終我們開發(fā)的產(chǎn)品叫作皓目行為分析儀。這個(gè)產(chǎn)品主要針對(duì)的是銀行或者商業(yè)上一些需要對(duì)人的行為進(jìn)行分析的場(chǎng)景。比如分析銀行ATM上是否有人做一些不合法的行為,或者銀行加鈔間里面是否有人違規(guī)操作等。下圖是我們實(shí)際的產(chǎn)品,可以看到,在depth sensor上面接了一個(gè)小盒子,我們所有的運(yùn)算都是發(fā)生在這個(gè)小盒子里的,也就是說(shuō)用一個(gè)非常小規(guī)模的嵌入式的系統(tǒng),就可以完成非常復(fù)雜的一個(gè)分析。這里邊最大的體會(huì),就是把depth信息和深度學(xué)習(xí)結(jié)合起來(lái)。我們并不認(rèn)為深度學(xué)習(xí)萬(wàn)能到可以解決一切的問(wèn)題。

  • 讓“感”和“知”互動(dòng)起來(lái)

我們講人的感知,一般是認(rèn)為“感”和“知”是連在一起的。簡(jiǎn)單的說(shuō),“感”就是我們眼睛或者是一些視覺(jué)的sensor得到信息的過(guò)程,比如說(shuō)獲取圖像的過(guò)程;而“知”是基于獲取的信息得到對(duì)世界的理解。在一般的視覺(jué)系統(tǒng)里面,感是第一步,知是第二步,兩個(gè)之間是沒(méi)有相互作用的。感是知的前一步,知不會(huì)影響感。普通的視覺(jué)系統(tǒng)基本上都是這樣一個(gè)邏輯。下面,我想以我們實(shí)際做的一個(gè)產(chǎn)品來(lái)介紹我們對(duì)這件事情的理解。

在介紹我們的產(chǎn)品和技術(shù)之前,我請(qǐng)大家看一個(gè)實(shí)際的例子。這是幾年前很著名的波士頓爆炸案的一個(gè)例子。左上角這張圖里面,實(shí)際上是兩個(gè)犯罪嫌疑人在離他只有幾米距離,而且是視角最好的一個(gè)傳統(tǒng)的監(jiān)控?cái)z像機(jī)里邊的圖像。大家看到右邊這個(gè)從這個(gè)攝像頭中獲取得到的人臉區(qū)域的圖像,質(zhì)量非常差。下面這些圖是他們?cè)谄渌F(xiàn)場(chǎng)數(shù)碼相機(jī)和社交媒介中的圖像。簡(jiǎn)而言之,對(duì)于監(jiān)控場(chǎng)景,在我們現(xiàn)在已有的監(jiān)控?cái)z像頭里邊,很多獲取的圖像質(zhì)量都非常的差,這樣的質(zhì)量即使我們的算法再好,都很難正確識(shí)別,這里面的信息是不足夠進(jìn)行自動(dòng)識(shí)別的。

為此,我們還做了一系列的實(shí)驗(yàn),我把這些結(jié)果分享給大家看一下。我們利用一個(gè)單反相機(jī),分析1080P圖像中,人臉距離相機(jī)不同距離時(shí)的臉部分辨率。第一張圖里面,人距離相機(jī)是十米左右,這時(shí)臉上的分辨率大概是36×36。在第二張圖里面,人處于距離相機(jī)20米左右的距離,人臉的分辨率大概是18×18。第三張圖里面,人處于距離相機(jī)30米左右距離的時(shí)候,人臉的識(shí)別率大概是12×12??傊?,在這三張圖中,顯示了人在不同的距離的情況下,臉部分辨率的變化情況,當(dāng)人在30米左右的情況下,臉上的分辨率基本上只能判斷這是一張人臉,但是已經(jīng)完全分不清他是誰(shuí)了。這是單反的情況,對(duì)于1080P的普通監(jiān)控?cái)z像頭,基本上只能做到三五米距離下可識(shí)別,再遠(yuǎn)一點(diǎn)基本上已經(jīng)很難進(jìn)行識(shí)別了。

為了調(diào)研人臉?lè)直媛蕦?duì)于人臉識(shí)別率的影響,我們參考了一篇公開的論文。這篇論文用了一個(gè)比較經(jīng)典的VGG模型來(lái)進(jìn)行人臉表示,然后研究當(dāng)人臉的分辨率降低的情況下,人臉的識(shí)別率大概是什么規(guī)律。下面這張圖像,橫軸是分辨率,從0、25、50、75到100最高到250像素,縱軸就是人臉驗(yàn)證的準(zhǔn)確率(accuracy),論文發(fā)現(xiàn)當(dāng)人臉的分辨率在75以下的時(shí)候會(huì)對(duì)準(zhǔn)確率有非常大的影響。比如說(shuō)在人臉的分辨率達(dá)到50的時(shí)候,這個(gè)準(zhǔn)確率大概只有80%多,如果到25像素,準(zhǔn)確率則只有70%多。而當(dāng)人臉的分辨率在100像素以上的時(shí)候,準(zhǔn)確率可以達(dá)到95%左右。這個(gè)實(shí)驗(yàn)從側(cè)面驗(yàn)證了對(duì)人臉識(shí)別而言,圖像的分辨率是非常重要的。而且不僅僅是圖像的分辨率,在低光照情況下,人臉的模糊、噪聲等質(zhì)量都會(huì)變得很差。

所以一種直觀的思路就是我們要提高目標(biāo)的分辨率。但實(shí)際上,大家發(fā)現(xiàn)這是矛盾的。就是如果我們想看得比較寬的話,我們就需要一個(gè)比較廣角的攝像機(jī),而這個(gè)廣角的攝像機(jī)基本上只能看得很近,比如說(shuō)可以看到三五米處的物體。另外一方面,我們希望看得很遠(yuǎn)的話,我們只能用一個(gè)非常窄視角的相機(jī),這樣的話我們能看到很遠(yuǎn)但卻只能覆蓋十幾度范圍的視角。寬和遠(yuǎn)這兩者是不可兼得的。

還有一種思路,就是去提高攝像機(jī)的分辨率。這個(gè)在理論上來(lái)講是可行的,一個(gè)4K分辨率的攝像頭可以做到10米的范圍,7K可以做到20米。但是在實(shí)際當(dāng)中其實(shí)是非常難做到的,因?yàn)?strong>提高攝像機(jī)的分辨率,會(huì)造成數(shù)據(jù)量的增加,使得傳感器的成本有巨大的提高,此外,對(duì)網(wǎng)絡(luò)傳輸和存儲(chǔ)也會(huì)造成非常大的壓力。所以說(shuō),這個(gè)思路在工程上來(lái)講基本上是不可行的。

我們?cè)谒伎歼@個(gè)問(wèn)題的時(shí)候,由人眼得到了一些啟發(fā)。對(duì)人眼而言,實(shí)際上有一個(gè)明確的感和知的過(guò)程。這個(gè)感我們可以簡(jiǎn)單的叫sensing,即信息獲取,然后知的話就是叫understanding,也叫信息理解。圖像感知,可以簡(jiǎn)單理解為由圖像采集和圖像理解兩個(gè)模塊組成,這兩個(gè)模塊實(shí)際上是一個(gè)相互作用的動(dòng)態(tài)過(guò)程。

所以,我們?cè)O(shè)計(jì)的產(chǎn)品里面,也包含了兩個(gè)模塊:第一個(gè)模塊是去模擬人眼的圖像采集的過(guò)程,第二個(gè)模塊是去模擬人眼圖像理解的過(guò)程。對(duì)我們這個(gè)系統(tǒng)來(lái)講,首先是一個(gè)圖像采集部分,在之后,會(huì)經(jīng)過(guò)一個(gè)圖像理解的過(guò)程,比如我們采用基于深度學(xué)習(xí)的物體檢測(cè)方法去檢測(cè)圖像里面是否有我們感興趣的人臉、人體或者汽車這些目標(biāo),當(dāng)我們對(duì)這個(gè)場(chǎng)景有所理解了之后,知的模塊會(huì)反饋回來(lái)去控制圖像采集的部分,這樣能夠使得我們系統(tǒng)更聚焦于我們感興趣的區(qū)域上,再然后經(jīng)過(guò)一次新的知的過(guò)程,就得到了對(duì)場(chǎng)景里面物體的更好的理解并獲取到更高質(zhì)量的圖像。對(duì)于在50米外的物體,在傳統(tǒng)的相機(jī)里基本上是一個(gè)完全看不清楚的狀況。而在我們的相機(jī)里基本上可以得到一個(gè)非常清晰,比如說(shuō)100到200象素分辨率的結(jié)果,這對(duì)整個(gè)系統(tǒng)的提升是非常巨大的。最終,我們的產(chǎn)品可以對(duì)感興趣的物體的有效分辨率,有等效100倍左右的提升。

這個(gè)產(chǎn)品,我們命名為人眼攝像機(jī)(FOVEACAM),如文章頭圖。

這個(gè)產(chǎn)品的特點(diǎn):第一是可以看清很遠(yuǎn)的目標(biāo),在超遠(yuǎn)距離還可以達(dá)到高清特寫的效果,比如在50米距離的時(shí)候可以得到清晰可識(shí)別的人臉,在100米距離的時(shí)候,可以看清這個(gè)人全身的特征;第二是支持超大廣角到70度的視野;第三是它的所有運(yùn)算都發(fā)生在嵌入式系統(tǒng)里面,采用了基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù),包括人臉、行人、汽車,都能夠支持。這個(gè)相機(jī)包含了完整的感和知的模塊,而且在一個(gè)嵌入式系統(tǒng)里面做到感和知相互作用,模擬了人眼的原理。下面圖中顯示了我們實(shí)測(cè)時(shí)的一些結(jié)果,其中右側(cè)兩列圖像,左側(cè)是普通相機(jī)中的目標(biāo)的圖像,而右側(cè)是我們的相機(jī)中的效果。

我們實(shí)測(cè)了這個(gè)產(chǎn)品和我們的人臉識(shí)別引擎配合的效果。大概2016年10月份的時(shí)候,我們當(dāng)時(shí)是第一次對(duì)外進(jìn)行人眼攝像機(jī)這個(gè)新產(chǎn)品的發(fā)布,就請(qǐng)了大概幾十位的媒體記者到我們公司來(lái),在他們沒(méi)有覺(jué)察的情況下,我們把他們的人臉抓拍放到我們的后臺(tái)數(shù)據(jù)庫(kù)中,再請(qǐng)大家現(xiàn)場(chǎng)在攝像頭里面拍攝他們的人臉和庫(kù)里的抓拍人臉去比對(duì),結(jié)果識(shí)別率基本上是100%。大家都很驚訝的說(shuō),自己不知道已經(jīng)被偷偷拍攝了。當(dāng)時(shí)很多女士抱怨最多的是你們趁我不注意抓拍的效果不夠美觀,讓我們是不是可以做一些美化之類的處理。

  • 少即是多

整個(gè)人工智能領(lǐng)域非常大,整個(gè)計(jì)算機(jī)視覺(jué)領(lǐng)域也非常大,比如說(shuō)圖像識(shí)別有幾千類甚至可以定義出上萬(wàn)類。對(duì)一個(gè)創(chuàng)業(yè)公司來(lái)講我覺(jué)得最應(yīng)該做的事情就應(yīng)該是聚焦。格靈深瞳在視覺(jué)領(lǐng)域關(guān)注的主要目標(biāo)就是人臉、人體和汽車。

原因也比較簡(jiǎn)單:第一是因?yàn)橥ㄓ玫膱D像識(shí)別技術(shù),在短期之內(nèi)是難以成熟的,如果說(shuō)大公司的一些研究院或者學(xué)校的老師來(lái)做這些事情的話,我肯定是非常支持的,但是對(duì)于一個(gè)創(chuàng)業(yè)公司來(lái)講做這些事情其實(shí)是需要商榷的。因?yàn)槿绻麤](méi)辦法產(chǎn)生商業(yè)價(jià)值的話,對(duì)創(chuàng)業(yè)公司而言就是一種浪費(fèi);第二是因?yàn)閺膬r(jià)值角度,我們發(fā)現(xiàn)在現(xiàn)實(shí)社會(huì)中,最常見(jiàn)的物體主要是兩個(gè),一個(gè)是人,一個(gè)是車,而車背后實(shí)際上也是人,而人可以細(xì)分為人體和人臉這兩個(gè)最重要的目標(biāo)。人體、人臉和汽車是現(xiàn)實(shí)社會(huì)中最為常見(jiàn)而且是最有分析價(jià)值的物體;第三是從技術(shù)可重用角度,人體、人臉和汽車都是剛體,在方法上也有很多相近之處,而且他們也是最容易做到成熟的技術(shù)。

下面我簡(jiǎn)單的給大家介紹一下我們?cè)谶@方面的探索和工作。

在智慧城市、平安城市、國(guó)家安全、公共安全以及智慧交通領(lǐng)域,我們布設(shè)了很多攝像頭,這些攝像頭數(shù)據(jù)目前主要是用于存儲(chǔ)和查看,如果想理解里面發(fā)生了什么事件,或者希望自動(dòng)找到某一個(gè)目標(biāo)車或者人,還主要依賴人工操作。我們做了一個(gè)威目視圖大數(shù)據(jù)分析系統(tǒng),可以自動(dòng)完成對(duì)人和車等的抓取、識(shí)別和檢索。對(duì)車的識(shí)別,既包括對(duì)車輛類型的分類,比如小汽車/大汽車/大卡車這樣的分類,也包括對(duì)車牌號(hào)的識(shí)別,還包括對(duì)主品牌/子品牌的識(shí)別,比如主品牌是奧迪,子品牌是A6,還可以包括年份。此外還包括車身顏色、遮陽(yáng)板、紙巾盒、小掛件等等的識(shí)別。

我們的系統(tǒng)有幾個(gè)特點(diǎn),第一個(gè)是車頭車尾是雙向識(shí)別的,只需要一個(gè)模型,不需要手工切換;第二個(gè)是白天和黑夜都能識(shí)別;第三個(gè)是識(shí)別的角度,可以支持到正負(fù)25度左右;第四,車輛品牌能夠支持到4000多種。我們?cè)谧罱囊恍?yīng)用中發(fā)現(xiàn),我們的系統(tǒng)在傍晚,即使天非常暗,車燈非?;窝鄣那闆r下,對(duì)車的檢測(cè)和抓取也可以達(dá)到接近100%的抓取率。

除了上面提到的車,人也是我們非常關(guān)注的物體。我們?cè)谌梭w方面做了很多工作,包括檢測(cè)跟蹤,包括屬性分析,另外還包括一些人體ReID相關(guān)的工作,就是用人體的圖像去搜同一個(gè)人的其它人體圖像,我們?cè)谝粋€(gè)公開的人體ReID數(shù)據(jù)集上面,目前做到了世界最好的結(jié)果。在這里不一一贅述了。

說(shuō)到這些,還有一個(gè)不得不提的目標(biāo),就是人臉。在之前的鈦坦白分享中,大家已經(jīng)探討了很多這方面的內(nèi)容。我本人從2002年開始就做人臉識(shí)別,到今天已經(jīng)有15年左右的時(shí)間。人臉是我們?nèi)艘簧幸?jiàn)到最多的物體。人臉的技術(shù)包括人臉檢測(cè)、跟蹤、定位、識(shí)別,行業(yè)里有很多友商也都在做這一塊的內(nèi)容。對(duì)格靈深瞳來(lái)講,我們對(duì)人臉識(shí)別有一個(gè)期待。我不知道大家有沒(méi)有看過(guò)一部片子叫《速度與激情7》,這里邊提到了一個(gè)系統(tǒng)叫天網(wǎng)(SkyNet),這個(gè)系統(tǒng)可以潛入到任何一個(gè)攝像頭里面去通過(guò)人臉識(shí)別方法找到想找的人。這實(shí)際上代表了我們對(duì)人臉識(shí)別這個(gè)技術(shù)的一個(gè)最完美的暢想,我們也一直向這個(gè)目標(biāo)努力。我想強(qiáng)調(diào)的一點(diǎn)是,人臉識(shí)別并不僅僅是一個(gè)算法問(wèn)題,所以我們才做了人眼攝像機(jī)。我們認(rèn)為人臉識(shí)別想真正大規(guī)模實(shí)用,是一個(gè)結(jié)合軟件和硬件的完整解決方案。如果不改變前端的圖像采集部分,僅僅是做算法的話,哪怕是深度學(xué)習(xí),假設(shè)抓取的臉只有十幾個(gè)像素,這個(gè)信息不不足以表示人與人之間的差別的話,在軟件算法上再怎么做都是不可能成功的。

  • 由感知到行動(dòng)

我們剛才講的所有的事情其實(shí)都是關(guān)于感知。感知是指圖像輸入以后經(jīng)過(guò)分析,我們能夠理解這個(gè)圖像里邊是有什么樣的物體,發(fā)生了什么樣的事情,或者這是哪個(gè)人,他的車牌號(hào)是多少。但在我們真實(shí)的世界里面,除了理解之外,也需要產(chǎn)生行動(dòng)去影響環(huán)境,這才能創(chuàng)造更大價(jià)值。對(duì)格靈深瞳而言,我們正在嘗試做一些機(jī)器人相關(guān)的事情,我們之前還做了無(wú)人駕駛相關(guān)的事情。很多人可能已經(jīng)知道,在無(wú)人駕駛方面,因?yàn)槲覀兿Mプ鰺o(wú)人駕駛汽車,而不是ADAS器件,所以,這塊業(yè)務(wù)我們通過(guò)引入更多的領(lǐng)域?qū)<襾?lái)一起做,最終成立了馭勢(shì)科技。這是一家在無(wú)人駕駛領(lǐng)域非常有影響力的創(chuàng)業(yè)公司。

我們希望,由視覺(jué)的感知擴(kuò)展到行動(dòng),通過(guò)機(jī)器人或者無(wú)人駕駛這些產(chǎn)品讓視覺(jué)技術(shù)能夠產(chǎn)生更大的價(jià)值,這也是格靈深瞳的愿景。

計(jì)算機(jī)視覺(jué)大規(guī)模應(yīng)用的必經(jīng)之路

我本人做計(jì)算機(jī)視覺(jué)技術(shù)已經(jīng)15年了,對(duì)這個(gè)行業(yè)是非常有感情的,我一直非常希望能夠見(jiàn)到計(jì)算機(jī)視覺(jué)能夠大規(guī)模被應(yīng)用。而今天其實(shí)還沒(méi)有達(dá)到這樣的一個(gè)狀態(tài)。

首先,決定計(jì)算機(jī)視覺(jué)技術(shù)能否被大規(guī)模應(yīng)用的兩個(gè)因素,第一是準(zhǔn)確率,第二是成本。只有當(dāng)這兩個(gè)因素都被解決得很好的時(shí)候,視覺(jué)技術(shù)才會(huì)被大規(guī)模的應(yīng)用。

從技術(shù)的角度來(lái)講,我會(huì)認(rèn)為計(jì)算機(jī)視覺(jué)大規(guī)模應(yīng)用的路徑應(yīng)該會(huì)是一個(gè)從云到端到芯片的漸進(jìn)方式。

  • 云的方式,其實(shí)就用類似服務(wù)器,不管是公有云還是私有云的方式,攝像頭的數(shù)據(jù)傳回到服務(wù)器端進(jìn)行處理進(jìn)行運(yùn)算。這個(gè)方式最大的好處能促進(jìn)算法的快速落地,能夠產(chǎn)生大量的數(shù)據(jù),而且能夠幫助快速的迭代算法,促進(jìn)算法的成熟,推動(dòng)應(yīng)用的發(fā)展。云的主要優(yōu)勢(shì)在于快速靈活,所以在早期應(yīng)該采用這種云的方式。
  • 云+端的方式,通過(guò)端來(lái)幫助云做一些運(yùn)算量比較少的一些事情。他的主要優(yōu)勢(shì)第一個(gè)可以減少網(wǎng)絡(luò)帶寬,如果把所有的視頻數(shù)據(jù)傳回中心的話,網(wǎng)絡(luò)帶寬開銷是非常大的,第二基于云加端的方式可以把運(yùn)算由中心分散到前端,這個(gè)我個(gè)人認(rèn)為一定是未來(lái)的一個(gè)重要趨勢(shì)。
  • 芯片的方式。芯片方式一定是能夠降低成本,同時(shí)提高運(yùn)算能力。但是我認(rèn)為,芯片方式一定是在一個(gè)大規(guī)模應(yīng)用狀態(tài)下的終極階段,這個(gè)結(jié)果是需要條件的,就是必須等算法成熟,而且應(yīng)用也比較被大眾所接受了之后才會(huì)達(dá)到的一種狀態(tài)。如果過(guò)早的進(jìn)行芯片化,本身把算法放到芯片上,本身就是有精度損失的,而且,迭代更新速度會(huì)很慢,反而無(wú)法使得技術(shù)快速落地應(yīng)用。這就是我為什么會(huì)強(qiáng)調(diào)計(jì)算機(jī)視覺(jué)技術(shù)是會(huì)遵循云、端、芯的漸進(jìn)方式。

從商業(yè)模式上講,我認(rèn)為單純的算法提供模式是沒(méi)有未來(lái)的,只有深入到場(chǎng)景中才能促進(jìn)技術(shù)的落地并且創(chuàng)造出最大的價(jià)值。

有一句英語(yǔ)叫eat our own dog food,即吃自己的狗食。這句話在互聯(lián)網(wǎng)軟件行業(yè)非常流行,意思是說(shuō),你做了一個(gè)東西你必須自己去用他,這樣才能把它用好。所以對(duì)我們算法來(lái)講也是同樣的,如果我們做了一個(gè)算法提供給別人去用,別人并不了解這個(gè)算法,他們不太可能把這個(gè)算法真正用好,所以我們必須深入到場(chǎng)景中去,針對(duì)這個(gè)場(chǎng)景去改進(jìn)我們的算法,這樣才能促進(jìn)技術(shù)的落地和應(yīng)用。

在整個(gè)產(chǎn)業(yè)鏈中,單純的算法提供模式實(shí)際上是沒(méi)有辦法持續(xù)的。隨著技術(shù)的進(jìn)步,比如今天講的深度學(xué)習(xí),大家之間的差別已經(jīng)沒(méi)有那么巨大了,算法的優(yōu)勢(shì)是非常難保持的。比如在金融行業(yè),人證比對(duì)是一個(gè)大家很看好的場(chǎng)景,但目前已經(jīng)淪為了一個(gè)純粹的算法比拼和成本比拼,競(jìng)爭(zhēng)非常充分。大家都很難保證自己比別人有非常大的技術(shù)優(yōu)勢(shì),這種情況下基本上大家變成最后拼成本,報(bào)價(jià)都報(bào)的非常的低,最終損害了整個(gè)行業(yè)。

對(duì)于算法在這個(gè)產(chǎn)業(yè)鏈分得的利益,初期的時(shí)候,因?yàn)樗惴ê芟∪?,可以分得相?duì)多的利益,但量很難大起來(lái),到了中后期,由于算法成熟,量雖然增加了,但算法在產(chǎn)業(yè)鏈里面分的利益會(huì)變得很少。以車牌識(shí)別為例,早期的車牌識(shí)別一套大概可以買到幾千元,后期只能買到幾百元,甚至是免費(fèi)送。

芯片方式和算法SDK方式有一些相似的地方。芯片有兩種模式,第一種是通用的芯片,第二種是非通用的,比如說(shuō)人臉識(shí)別芯片。假設(shè)是非通用方案的話,雖然芯片門檻要比做純算法SDK要高,但是想保持壟斷優(yōu)勢(shì)也不是非常容易的事情。芯片是一個(gè)產(chǎn)業(yè),是一個(gè)生態(tài),不僅僅在于要把芯片做出來(lái),還要提供相關(guān)的工具鏈,還要有銷售的渠道。而對(duì)于通用的深度學(xué)習(xí)芯片而言,市場(chǎng)空間是非常巨大的,但面臨的競(jìng)爭(zhēng)必然也會(huì)非常大。對(duì)于深度學(xué)習(xí)預(yù)測(cè)(inference)芯片而言,已有的芯片公司比如華為、海思、高通、ARM,他們雖然在前瞻性上面略差,但他們對(duì)資源的投入會(huì)非常巨大??紤]到芯片的周期比較長(zhǎng),一款芯片從設(shè)計(jì)到真正的成熟應(yīng)用至少需要一年多的時(shí)間,所以如何保持先發(fā)優(yōu)勢(shì)也是非常有挑戰(zhàn)的。不過(guò)我還是認(rèn)為,芯片領(lǐng)域是一個(gè)非常巨大的市場(chǎng),是計(jì)算機(jī)視覺(jué)未來(lái)大規(guī)模應(yīng)用的重要一環(huán)。

從產(chǎn)業(yè)鏈的角度,只有深入到場(chǎng)景中才能夠形成閉環(huán),獲得數(shù)據(jù),而且只有有了業(yè)務(wù)和數(shù)據(jù)之后你才能形成真正的護(hù)城河。一個(gè)類比其實(shí)是現(xiàn)在的阿里和騰訊,阿里和騰訊一定不是技術(shù)最好的公司,為他們服務(wù)的思科、華為、聯(lián)通、電信這樣的公司技術(shù)會(huì)更好,但最終只有阿里和騰訊形成了生態(tài),有了護(hù)城河。簡(jiǎn)單的算法提供,更像思科這種設(shè)備提供商的角色,在生態(tài)里面最終能獲得的價(jià)值實(shí)際上是非常少的。

鈦坦白群友互動(dòng):

Q:鄧總,想請(qǐng)教一下,目前還沒(méi)有看到格靈深瞳特別強(qiáng)調(diào)在自動(dòng)駕駛方面的應(yīng)用與開發(fā),重點(diǎn)主要是在安防監(jiān)控、人臉識(shí)別、車輛識(shí)別方面,這背后的邏輯和思考是怎樣的?

鄧亞峰:實(shí)際上格靈深瞳在創(chuàng)業(yè)初期很早的時(shí)候,就在自動(dòng)駕駛方面進(jìn)行了投入。我們?cè)谒伎己脱芯恐蟀l(fā)現(xiàn),自動(dòng)駕駛?cè)绻皇亲鯝DAS器件的方式,并不是特別好的一條路徑,所以我們最終選擇了要自己去做一個(gè)自動(dòng)駕駛汽車。如果做一個(gè)自動(dòng)駕駛汽車的話,在格靈深瞳內(nèi)部來(lái)做,應(yīng)該不是最好的選擇,所以我們把自動(dòng)駕駛的團(tuán)隊(duì)孵化了出去,吸引了吳甘沙和姜巖等更多人才一起創(chuàng)立了馭勢(shì)科技,馭勢(shì)科技目前發(fā)展得非常好??梢院?jiǎn)單理解成,格靈深瞳的自動(dòng)駕駛是在馭勢(shì)科技去實(shí)現(xiàn)的。

Q:麻煩把人眼攝像機(jī)的原理再講一下。

鄧亞峰:簡(jiǎn)單來(lái)講,普通的相機(jī),或者看得比較廣,但看得很近,比如說(shuō)普通監(jiān)控?cái)z像機(jī),他看得比較廣,大概是一個(gè)七八十度這樣的視角范圍,但他只能看到3-5米左右的范圍;或者看得遠(yuǎn),但是視角只有幾度,比如說(shuō)一個(gè)定焦單反相機(jī)。我們的這個(gè)相機(jī),第一是要能關(guān)注很廣的范圍,第二是能自動(dòng)確定視場(chǎng)里面最應(yīng)該關(guān)注的目標(biāo)是哪個(gè),然后讓相機(jī)聚焦到最應(yīng)該關(guān)注的那個(gè)目標(biāo)上去,從而能夠在這個(gè)目標(biāo)上得到特別高的分辨率,進(jìn)而得到一個(gè)非常好的識(shí)別效果。這個(gè)技術(shù)在行業(yè)內(nèi)是獨(dú)創(chuàng)的。

Q:如何看待安防市場(chǎng)?

鄧亞峰:大家對(duì)安防其實(shí)關(guān)注蠻多的,我們對(duì)安防行業(yè)的一個(gè)判斷:第一安防是個(gè)剛需的市場(chǎng),這個(gè)市場(chǎng)非常的巨大,有數(shù)千億規(guī)模,而且這里面非常剛需的一點(diǎn)是智能化做得很不好,監(jiān)控?cái)?shù)據(jù)雖然我們存儲(chǔ)下來(lái)了,但是并沒(méi)有真正被理解和分析,還處于一個(gè)非常低效的階段。這里邊一定有一個(gè)非常巨大的市場(chǎng)。

第二、在深度學(xué)習(xí)出現(xiàn)之前,技術(shù)上是很難做的非常好的。所以說(shuō)可以理解成這是剛需,原有的技術(shù)又滿足的不好,而現(xiàn)在的技術(shù)發(fā)展已經(jīng)能讓我們?cè)诤芏鄨?chǎng)景下能夠滿足這個(gè)市場(chǎng)的需求了。所以他是一個(gè)潛在的巨大需求。正是基于這樣的判斷,我們投了比較多的精力在這個(gè)方向上。但這并不等于說(shuō)格靈深瞳要把自己定位成是一個(gè)安防公司,我們只是覺(jué)得說(shuō)對(duì)計(jì)算機(jī)視覺(jué)的幾個(gè)方向來(lái)講,比如說(shuō)自動(dòng)駕駛、安防、機(jī)器人、醫(yī)療和增強(qiáng)現(xiàn)實(shí)而言,安防市場(chǎng)應(yīng)該是落地最快,最容易實(shí)現(xiàn)商業(yè)價(jià)值的一個(gè)方向。所以,我們會(huì)很關(guān)注。

Q:深度學(xué)習(xí)的這個(gè)技術(shù)的上限在哪里?

鄧亞峰:如果考慮到深度學(xué)習(xí)本身的表示能力可以通過(guò)增加非線性層來(lái)擴(kuò)展,可以認(rèn)為這個(gè)技術(shù)沒(méi)有明顯的上限。但深度學(xué)習(xí)顯然有其適合的應(yīng)用場(chǎng)景和局限。此外,深度學(xué)習(xí)技術(shù)發(fā)展到今天,某種意義上來(lái)講,短期到達(dá)了一個(gè)瓶頸期。雖然有些新興的領(lǐng)域,包括序列學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、非監(jiān)督學(xué)習(xí),都有了一些進(jìn)展。但這些技術(shù)目前還更多限于學(xué)術(shù)上的進(jìn)展,真正能在實(shí)際應(yīng)用上產(chǎn)生巨大改變還需要時(shí)間。這實(shí)際上是這個(gè)技術(shù)最大的上限。但我相信,因?yàn)榇蠹曳浅jP(guān)注這個(gè)領(lǐng)域,中長(zhǎng)期還是可能會(huì)有巨大的進(jìn)步產(chǎn)生。

在這個(gè)時(shí)間點(diǎn)的話,深度學(xué)習(xí)最大的挑戰(zhàn)是我們?cè)趺窗堰@些深度學(xué)習(xí)技術(shù)真正能夠成熟應(yīng)用。因?yàn)榧词股疃葘W(xué)習(xí)技術(shù)不會(huì)再突破性發(fā)展,如果我們可以用海量的數(shù)據(jù)去訓(xùn)練,并且有更好的硬件用于保證更深更強(qiáng)的網(wǎng)絡(luò)實(shí)時(shí)預(yù)測(cè)的話,它的潛力其實(shí)就是無(wú)限的。

Q:嵌入式設(shè)備成本會(huì)不會(huì)很高,此外模型更新怎么辦?

鄧亞峰:關(guān)于成本,嵌入式設(shè)備有很多選擇,有的成本確實(shí)非常高,但有的成本在這個(gè)階段是能夠被接受的。這個(gè)階段的話,智能的設(shè)備/產(chǎn)品本身就偏高端一點(diǎn),用戶對(duì)成本本身也有一些預(yù)期,肯定不能和傳統(tǒng)的攝像頭直接去對(duì)比。關(guān)于模型更新,現(xiàn)在的很多設(shè)備都是連接上網(wǎng)絡(luò)上面的,用一些在線更新的方式去做就好了,這并沒(méi)有什么難的。

(本文獨(dú)家首發(fā)鈦媒體,根據(jù)格靈深瞳技術(shù)副總裁鄧亞峰在鈦坦白上的分享整理)

………………………………………………

鈦坦白第28期“AI已來(lái),讓機(jī)器看懂這個(gè)世界”,六位鈦客的精彩分享已經(jīng)結(jié)束,干貨會(huì)陸續(xù)發(fā)布:http://m.chcmb.cn/tag/1508094

鈦坦白2017年,精彩分享繼續(xù)!

推薦鈦客、贊助、合作:請(qǐng)與鈦坦白負(fù)責(zé)人佳音聯(lián)系,郵箱jiayinge@tmtpost.com

本文系作者 葛佳音 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

20:34

大風(fēng)、降水來(lái)襲,長(zhǎng)江江蘇段部分區(qū)域?qū)嵤┡R時(shí)交通管制

19:59

國(guó)航C919正式投入北京—廈門、北京—哈爾濱兩條航線運(yùn)營(yíng)

19:57

中鋁國(guó)際:2025年歸母凈利潤(rùn)2.58億元,同比增長(zhǎng)16.47%

19:19

伊朗稱已打擊與美軍工有關(guān)聯(lián)的兩家企業(yè)

18:36

伊朗與巴基斯坦兩國(guó)外長(zhǎng)通電話,討論地區(qū)局勢(shì)

18:35

2025年玩具(不含潮玩)國(guó)內(nèi)市場(chǎng)零售總額達(dá)1035.3億元

18:08

全國(guó)豬價(jià)跌破5元,創(chuàng)歷史新低

18:07

時(shí)代天使2025年實(shí)現(xiàn)收入3.7億美元,同比增長(zhǎng)37.8%

17:57

電魂網(wǎng)絡(luò):擬投資4920萬(wàn)元取得上海漫魂51%股權(quán)

17:51

美國(guó)1天超3000場(chǎng)反戰(zhàn)示威

17:28

雀巢12噸巧克力被盜

17:11

伊朗官員表示將“果斷反擊”美軍奪島

17:08

伊朗議長(zhǎng)稱武裝部隊(duì)“正等著美軍地面行動(dòng)”,并將“懲罰”其地區(qū)盟友

17:05

三安光電:董事長(zhǎng)及總經(jīng)理擬增持公司股份

16:58

全球多地爆發(fā)示威抗議,民眾高呼“不要戰(zhàn)爭(zhēng)”

16:55

中信證券:配置上建議繼續(xù)堅(jiān)守中國(guó)優(yōu)勢(shì)制造業(yè),靜待4月決斷

16:38

美國(guó)土安全部資金中斷進(jìn)入第44天,創(chuàng)美國(guó)史上最長(zhǎng)政府部分“停擺”紀(jì)錄

16:17

北京啟動(dòng)智能網(wǎng)聯(lián)新能源汽車商業(yè)保險(xiǎn)開發(fā)應(yīng)用,統(tǒng)一適配L2至L4全級(jí)別智能網(wǎng)聯(lián)新能源汽車

16:16

恒林股份發(fā)布AI體感工學(xué)白皮書,加速布局AI智能家居

16:15

中國(guó)國(guó)家創(chuàng)新指數(shù)綜合排名世界第9位,較上年提升1位

掃描下載App