国产一级片在线免费观看视频,亚洲天堂性爱内射,动漫精品1区二区

計(jì)算機(jī)視覺(jué)技術(shù)面臨怎樣的挑戰(zhàn)和機(jī)遇？怎么樣讓機(jī)器看得更真更遠(yuǎn)？怎么能使計(jì)算機(jī)視覺(jué)技術(shù)可以大規(guī)模應(yīng)用？

繼“讓機(jī)器聽懂你的聲音”，鈦坦白又請(qǐng)來(lái)六位鈦客，探討如何讓機(jī)器看懂這個(gè)世界。本文根據(jù)格靈深瞳技術(shù)副總裁鄧亞峰在鈦坦白的分享整理。
鄧亞峰具有15年人工智能特別是計(jì)算機(jī)視覺(jué)方向的研發(fā)經(jīng)驗(yàn)，發(fā)表論文十余篇，獲得專利授權(quán)95項(xiàng)。曾是百度深度學(xué)習(xí)研究院的科學(xué)家，帶領(lǐng)團(tuán)隊(duì)開發(fā)出世界第一的人臉檢測(cè)、人臉識(shí)別算法，開發(fā)出的算法和系統(tǒng)服務(wù)于億級(jí)別用戶產(chǎn)品。格靈深瞳是一家視頻大數(shù)據(jù)產(chǎn)品和方案提供商，致力于將計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)技術(shù)應(yīng)用于商業(yè)領(lǐng)域，產(chǎn)品包括皓目行為分析儀、威目視圖大數(shù)據(jù)平臺(tái)、威目車輛大數(shù)據(jù)系統(tǒng)、威目視頻結(jié)構(gòu)化系統(tǒng)、威目人臉識(shí)別系統(tǒng)、深瞳人眼攝像機(jī)等。

以下是鄧亞峰在鈦坦白的分享：

大家好，今晚我分享的題目是“如何讓機(jī)器看得更真更遠(yuǎn)？”希望通過(guò)格靈深瞳在計(jì)算機(jī)視覺(jué)領(lǐng)域的一些嘗試和經(jīng)驗(yàn)與大家交流怎么能使得計(jì)算機(jī)視覺(jué)技術(shù)可以大規(guī)模應(yīng)用。

先簡(jiǎn)單介紹下。格靈深瞳是2013年4月份由創(chuàng)始人趙勇在北京創(chuàng)立的，是一家同時(shí)具備計(jì)算機(jī)視覺(jué)技術(shù)、深度學(xué)習(xí)技術(shù)以及嵌入式硬件研發(fā)能力的公司，主要關(guān)注的領(lǐng)域包括公共安全、智能交通、金融安防等，同時(shí)公司在無(wú)人駕駛、機(jī)器人和智能醫(yī)療方面也進(jìn)行了深入的布局。

計(jì)算機(jī)視覺(jué)的研究目標(biāo)和應(yīng)用趨勢(shì)

大家知道，視覺(jué)是我們?nèi)祟惈@取信息最主要的方式，在視覺(jué)、聽覺(jué)、嗅覺(jué)，觸覺(jué)和味覺(jué)中，視覺(jué)接受信息的比例大概是占到百分之八十幾，處于絕對(duì)領(lǐng)先的地位。

遠(yuǎn)在1966年的時(shí)候，有一個(gè)人工智能領(lǐng)域的先行者叫Marvin Minsky，他是MIT的老師，他給他的本科學(xué)生部署了一個(gè)有趣的作業(yè)“Link a camera to a computer and get the computer to describe what it saw”，翻譯成中文就是“讓計(jì)算機(jī)看懂世界”。在當(dāng)時(shí)，他認(rèn)為這是一個(gè)本科生在一個(gè)暑假就能完成的作業(yè)。但是已經(jīng)過(guò)去了50多年的時(shí)間，經(jīng)過(guò)了無(wú)數(shù)學(xué)術(shù)界和工業(yè)界同仁的努力，我們發(fā)現(xiàn)，計(jì)算機(jī)視覺(jué)還是一個(gè)非常熱但并沒(méi)有真正成熟的領(lǐng)域。

對(duì)于計(jì)算機(jī)視覺(jué)系統(tǒng)而言，輸入實(shí)際上是visual sensor（視覺(jué)傳感器），包括比較常見(jiàn)的RGB傳感器，也包括其他比如depth（深度）以及l(fā)idar（激光雷達(dá)）等傳感器。計(jì)算機(jī)視覺(jué)系統(tǒng)接收一個(gè)信號(hào)輸入之后，輸出的是Understanding of the world，也就是對(duì)世界的理解，這實(shí)際上是計(jì)算機(jī)視覺(jué)的目標(biāo)。

在當(dāng)今這個(gè)時(shí)代，計(jì)算機(jī)視覺(jué)領(lǐng)域呈現(xiàn)出很多新的趨勢(shì)，其中最為顯著的一個(gè)，就是應(yīng)用的爆炸性增長(zhǎng)。除了手機(jī)、個(gè)人電腦和工業(yè)檢測(cè)之外，計(jì)算機(jī)視覺(jué)技術(shù)在智能安防、機(jī)器人、自動(dòng)駕駛、智慧醫(yī)療、無(wú)人機(jī)、增強(qiáng)現(xiàn)實(shí)（AR）等領(lǐng)域都出現(xiàn)了各種形態(tài)的應(yīng)用方式。計(jì)算機(jī)視覺(jué)迎來(lái)了一個(gè)應(yīng)用爆炸性增長(zhǎng)的時(shí)代。

計(jì)算機(jī)視覺(jué)技術(shù)面臨的挑戰(zhàn)和機(jī)遇

挑戰(zhàn)

對(duì)計(jì)算機(jī)視覺(jué)來(lái)講，雖然歷經(jīng)了六十年的發(fā)展，但是到今天為止，真正的大規(guī)模成熟應(yīng)用還是屈指可數(shù)，比如指紋識(shí)別、車牌識(shí)別或者數(shù)碼相機(jī)里面的一些人臉檢測(cè)技術(shù)。這里面很大的原因是技術(shù)的局限。近幾年，隨著深度學(xué)習(xí)在視覺(jué)領(lǐng)域的應(yīng)用，很多技術(shù)都取得了巨大的提升，但我們發(fā)現(xiàn)還面臨著很多技術(shù)上的挑戰(zhàn)。

比如說(shuō)以ILSVRC2016（就是我們經(jīng)常提到的ImageNet競(jìng)賽，它是視覺(jué)領(lǐng)域最重要的競(jìng)賽之一，每年會(huì)舉辦一次）的Object detection即物體檢測(cè)任務(wù)為例，最好的結(jié)果MAP達(dá)到0.663，這實(shí)際上意味著，計(jì)算機(jī)自動(dòng)給出圖像中的各種物體的外邊緣矩形框，這個(gè)結(jié)果的平均正確率是66%左右。這個(gè)結(jié)果實(shí)際上代表著世界范圍內(nèi)的最高水平，但我們知道這樣的結(jié)果，還只能用于一些對(duì)準(zhǔn)確率要求不是特別高的場(chǎng)景，還遠(yuǎn)沒(méi)有達(dá)到大規(guī)模應(yīng)用的程度。

同時(shí)，在應(yīng)用層面，我們最終要實(shí)現(xiàn)的是用戶價(jià)值，一方面只有視覺(jué)技術(shù)的話其實(shí)是不夠的，另外一方面，也不需要等待視覺(jué)技術(shù)完全成熟才能夠被使用。正是因?yàn)橐曈X(jué)技術(shù)的不成熟不完善，就必須和其它技術(shù)結(jié)合，必須和產(chǎn)品應(yīng)用結(jié)合，才能使得視覺(jué)技術(shù)真正產(chǎn)生應(yīng)用價(jià)值。

總結(jié)為一句話就是即使經(jīng)過(guò)了60年的努力，我們依然在路上，我們還沒(méi)有真正達(dá)到目標(biāo)。

機(jī)遇

計(jì)算機(jī)視覺(jué)領(lǐng)域近幾年面臨的機(jī)遇有：

第一，我們整個(gè)計(jì)算機(jī)視覺(jué)領(lǐng)域迎來(lái)了前所未有的關(guān)注和接踵而來(lái)的投資熱潮。這些關(guān)注既來(lái)自于風(fēng)險(xiǎn)投資、互聯(lián)網(wǎng)公司和傳統(tǒng)公司，還吸引了國(guó)家政府前所未有的關(guān)注，甚至連普通民眾也開始關(guān)注和討論這個(gè)領(lǐng)域。這些關(guān)注和相繼而來(lái)的投資必然會(huì)促進(jìn)這個(gè)領(lǐng)域的技術(shù)進(jìn)步和應(yīng)用發(fā)展。

第二，計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用呈現(xiàn)了爆發(fā)式的增長(zhǎng)態(tài)勢(shì)。我們剛才已經(jīng)提到在安防監(jiān)控、高度的自動(dòng)化駕駛、增強(qiáng)現(xiàn)實(shí)、醫(yī)療圖像、機(jī)器人工業(yè)視覺(jué)、移動(dòng)互聯(lián)網(wǎng)等領(lǐng)域都有眾多的計(jì)算機(jī)視覺(jué)應(yīng)用產(chǎn)生，這些應(yīng)用里面產(chǎn)生的海量數(shù)據(jù)，將會(huì)促使計(jì)算機(jī)視覺(jué)技術(shù)加速發(fā)展，而技術(shù)和應(yīng)用的結(jié)合也會(huì)推動(dòng)技術(shù)的成熟落地。

第三，從世界范圍來(lái)講，我們?nèi)A人在計(jì)算機(jī)視覺(jué)領(lǐng)域無(wú)論在學(xué)術(shù)影響上還是在創(chuàng)業(yè)公司領(lǐng)域都處于一個(gè)領(lǐng)先的地位，這使得我們有可能和美國(guó)一起去爭(zhēng)奪這個(gè)世界人工智能的制高點(diǎn)，這是中國(guó)未來(lái)面臨的一個(gè)非常巨大的機(jī)遇。

總之，對(duì)于我們這些做計(jì)算機(jī)視覺(jué)的人來(lái)講，這是一個(gè)做計(jì)算機(jī)視覺(jué)最好的時(shí)代。

怎么樣讓機(jī)器看得更真更遠(yuǎn)？

如何讓深度學(xué)習(xí)和數(shù)據(jù)形成良性的循環(huán)？

如果大家學(xué)過(guò)一門叫作《模式識(shí)別》的課程，第一節(jié)就會(huì)講述一個(gè)基本的處理流程，里面包括三個(gè)方面的內(nèi)容——原始數(shù)據(jù)的準(zhǔn)備、特征提取、學(xué)習(xí)。特征提取里面可以細(xì)分為預(yù)處理、特征抽取、特征選擇這樣三個(gè)模塊。這里面最明顯的特征是，這個(gè)流程里面，特征和學(xué)習(xí)是分開的兩個(gè)部分。這是傳統(tǒng)的模式識(shí)別方法，換句話說(shuō)是傳統(tǒng)的計(jì)算機(jī)視覺(jué)圖象識(shí)別的流程。而在深度學(xué)習(xí)的時(shí)代，最大的不同是什么呢？就是我們可以把特征和學(xué)習(xí)融合起來(lái)，變成特征學(xué)習(xí)，就是用基于深度學(xué)習(xí)的特征表示代替原來(lái)繁瑣的預(yù)處理、特征抽取和特征選擇以及學(xué)習(xí)的過(guò)程，這實(shí)際上是一個(gè)很巨大的進(jìn)步。

這個(gè)進(jìn)步的最大的好處就是，原來(lái)的特征完全是領(lǐng)域?qū)＜腋鶕?jù)他對(duì)領(lǐng)域的理解去手工設(shè)計(jì)出來(lái)的，對(duì)不同的物體比如人臉和車牌，用的是完全不同的兩種特征。一方面，需要為人臉或者車牌分別做兩套方法，另外一方面，這個(gè)特征本身依賴于人對(duì)數(shù)據(jù)的理解，加上學(xué)習(xí)本身用的是非常淺層的表示，無(wú)法用復(fù)雜的非線性模型更好的刻畫和表示數(shù)據(jù)，最終得到的表示能力并不是特別強(qiáng)，限制了算法的表現(xiàn)。而在深度學(xué)習(xí)時(shí)代，特征完全是基于數(shù)據(jù)去驅(qū)動(dòng)，去學(xué)習(xí)出來(lái)的，對(duì)人或者對(duì)車而言，在架構(gòu)或者方法上有可能做到非常相近甚至是完全一樣的，這就使得這個(gè)系統(tǒng)變得非常的優(yōu)雅。同時(shí)因?yàn)檫@個(gè)特征是由數(shù)據(jù)驅(qū)動(dòng)去學(xué)習(xí)出來(lái)的，而且他是一層一層的非線性表示，這個(gè)層可以不斷的添加，所以能夠很方便的得到對(duì)一個(gè)數(shù)據(jù)非常強(qiáng)的表示。這實(shí)際上是深度學(xué)習(xí)最大的優(yōu)勢(shì)。

實(shí)際上2012年是深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域應(yīng)用的一個(gè)節(jié)點(diǎn)。雖然從2006年左右開始，深度學(xué)習(xí)已經(jīng)開始在語(yǔ)音識(shí)別方面得到應(yīng)用，但是那個(gè)時(shí)候在計(jì)算機(jī)視覺(jué)領(lǐng)域大家都很置疑這個(gè)方法，原因是因?yàn)榇蠹矣X(jué)得他沒(méi)有什么可解釋性。但是真正的一個(gè)影響力的事件是在2012年的時(shí)候，深度學(xué)習(xí)的鼻祖之一Hinton讓自己的學(xué)生Alex用深度學(xué)習(xí)方法最終在ImageNet競(jìng)賽上面使得錯(cuò)誤率達(dá)到了15%。而在2011年的時(shí)候大概是25%的錯(cuò)誤率，下降了10%，而在2010年的時(shí)候這個(gè)錯(cuò)誤率大概是30%。

在傳統(tǒng)方法時(shí)代，每年錯(cuò)誤率的下降是非常小的，而真正用了深度學(xué)習(xí)之后，大家發(fā)現(xiàn)錯(cuò)誤率的下降變得非常的快速。即使是在2012年之后，比如說(shuō)到了2013年和2014年，大家發(fā)現(xiàn)在深度學(xué)習(xí)方法的推動(dòng)下，這個(gè)錯(cuò)誤率還會(huì)有非常明顯的降低，可以達(dá)到每年百分之五十左右的一個(gè)相對(duì)錯(cuò)誤率的降低。也就是說(shuō)用了深度學(xué)習(xí)方法之后，大家發(fā)現(xiàn)在圖像識(shí)別任務(wù)上，技術(shù)的推進(jìn)變得比原來(lái)快得非常多。

另一個(gè)例子是人臉識(shí)別。人臉識(shí)別最早的一個(gè)著名方法叫特征臉，也就是PCA（主分量分析），是非常經(jīng)典的方法，這大概是在1991年左右發(fā)明的方法。人臉識(shí)別領(lǐng)域有一個(gè)非常著名的數(shù)據(jù)集，叫作LFW（Labeled face in the wild），特征臉?lè)椒ㄔ谶@個(gè)數(shù)據(jù)集上面的錯(cuò)誤率是40%。到了2013年的時(shí)候這個(gè)錯(cuò)誤率大概是7%，是傳統(tǒng)方法的最好水平。經(jīng)過(guò)20年左右的努力，錯(cuò)誤率下降了五倍多。在2014年的時(shí)候，深度學(xué)習(xí)方法開始應(yīng)用到人臉識(shí)別上面，不到一年的時(shí)間，錯(cuò)誤率一下子由7%下降到了3%，有超過(guò)50%的下降，到2015年這個(gè)錯(cuò)誤率到了千分之六左右，不到兩年下降了10多倍。可以看到用了深度學(xué)習(xí)方法以后，人臉識(shí)別領(lǐng)域的錯(cuò)誤率下降也非常的明顯。

總之，深度學(xué)習(xí)使得整個(gè)圖像識(shí)別領(lǐng)域發(fā)生了一個(gè)翻天覆地的變化。

為什么深度學(xué)習(xí)方法能夠這么成功呢？總結(jié)起來(lái)最重要的三個(gè)要素是：深度學(xué)習(xí)算法、大規(guī)模數(shù)據(jù)和硬件平臺(tái)。深度學(xué)習(xí)算法大家比較好理解；關(guān)于數(shù)據(jù)，因?yàn)樵趥鹘y(tǒng)的時(shí)代數(shù)據(jù)量很小，只有幾千或者幾萬(wàn)，即使用了非常強(qiáng)大模型，也會(huì)遇到過(guò)擬合的現(xiàn)象，表示能力強(qiáng)的模型需要大量的數(shù)據(jù)才能夠訓(xùn)練好，否則就會(huì)出現(xiàn)過(guò)擬合現(xiàn)象；硬件平臺(tái)方面，在深度學(xué)習(xí)出現(xiàn)之前，已經(jīng)有人工神經(jīng)網(wǎng)絡(luò)的方法了，那是在九幾年的時(shí)候，神經(jīng)網(wǎng)絡(luò)方法非常流行，當(dāng)時(shí)訓(xùn)練一個(gè)人工神經(jīng)網(wǎng)絡(luò)，即使是很少量的數(shù)據(jù)，大概也要訓(xùn)練一個(gè)月到三個(gè)月的時(shí)間，非常難以忍受。而近年來(lái)，由于有了非常好的硬件平臺(tái)，特別是GPU之后，大家發(fā)現(xiàn)訓(xùn)練一個(gè)很大的深度學(xué)習(xí)模型也可以很快訓(xùn)練完成，比如一周就可以出結(jié)果。這樣使得這個(gè)方法容易被大家接受從而在工程上使用。

我們還可以以一個(gè)國(guó)際上通用的數(shù)據(jù)集的數(shù)據(jù)量的增長(zhǎng)來(lái)看，在最早的時(shí)候，比如說(shuō)像PASCAL VOC數(shù)據(jù)集的量級(jí)大概是一萬(wàn)左右的圖像大概十類左右，那是2007年左右。而到了近期，比如講ImageNet的數(shù)據(jù)量大概能夠到100多萬(wàn)，然后類別的話大概是千的級(jí)別，這是這兩個(gè)時(shí)期最著名的兩個(gè)數(shù)據(jù)集。公開數(shù)據(jù)集數(shù)據(jù)量的提升本身也促進(jìn)了深度學(xué)習(xí)方法的發(fā)展和迅速推廣。

談到深度學(xué)習(xí)對(duì)大規(guī)模數(shù)據(jù)的依賴，這并不是一個(gè)靜態(tài)的過(guò)程。我們?cè)趺礃幽軌蜃屔疃葘W(xué)習(xí)和數(shù)據(jù)形成一種良性的循環(huán)呢？在初期，我們需要一些初始的數(shù)據(jù)，這個(gè)數(shù)據(jù)可能是幾十萬(wàn)級(jí)別或者到幾千萬(wàn)級(jí)別的數(shù)據(jù)，這個(gè)數(shù)據(jù)經(jīng)過(guò)深度學(xué)習(xí)平臺(tái)的訓(xùn)練，得到了一個(gè)模型，這個(gè)模型被應(yīng)用到系統(tǒng)里邊去，這個(gè)應(yīng)用系統(tǒng)會(huì)反饋到那些最應(yīng)該被標(biāo)注或者最應(yīng)該被使用的數(shù)據(jù)，這些數(shù)據(jù)經(jīng)過(guò)標(biāo)注之后再被當(dāng)作訓(xùn)練數(shù)據(jù)反饋到系統(tǒng)里面去，這樣形成從應(yīng)用到數(shù)據(jù)到算法的正循環(huán)。這樣可以達(dá)到一個(gè)由應(yīng)用產(chǎn)生數(shù)據(jù)，數(shù)據(jù)推動(dòng)模型的發(fā)展，模型再反過(guò)來(lái)促進(jìn)應(yīng)用的發(fā)展的正循環(huán)。

所以在這個(gè)時(shí)代，我們一提到計(jì)算機(jī)視覺(jué)，深度學(xué)習(xí)就已經(jīng)成為標(biāo)配。雖然大家在置疑說(shuō)后面也許會(huì)有別的方法把深度學(xué)習(xí)的方法代替掉，或者深度學(xué)習(xí)的熱潮會(huì)冷卻下來(lái)，我承認(rèn)深度學(xué)習(xí)領(lǐng)域不會(huì)一直如此快速的發(fā)展，也會(huì)遭遇低潮，也會(huì)出現(xiàn)更好的方法，但是深度學(xué)習(xí)代表了一種learning of representation的思想，這個(gè)思想是不會(huì)過(guò)時(shí)的，換句話講，深度學(xué)習(xí)已經(jīng)成為一個(gè)標(biāo)配，哪怕后面的方法再變化也不會(huì)被完全的淘汰，只是會(huì)被發(fā)展會(huì)被繼承。

深度學(xué)習(xí)遇到depth

在格靈深瞳，我們的目標(biāo)是讓計(jì)算機(jī)看懂世界。在一些復(fù)雜的場(chǎng)景下，我們?cè)趺礃尤ダ斫馊说男袨?，是我們一直以?lái)非常關(guān)心的一個(gè)問(wèn)題。對(duì)于圖像識(shí)別而言，我們最常用的傳感器是RGB傳感器。除此之外，還有一種傳感器，不僅有RGB信息，還有depth信號(hào)，一般叫作RGBD傳感器，基于RGBD信號(hào)的圖像識(shí)別我們一般叫作3D圖像識(shí)別。

對(duì)于純粹的只利用RGB信息的方法我們叫2D的方法。2D的方法一般有幾個(gè)缺陷：第一個(gè)是在沒(méi)有可見(jiàn)光的情況，比如說(shuō)特別黑的時(shí)候他就沒(méi)辦法工作；第二個(gè)，因?yàn)樗鄙偕疃鹊男畔?，?dāng)我們拍一張照片的時(shí)候，會(huì)出現(xiàn)近處的車模會(huì)顯得更大一些，遠(yuǎn)處的一個(gè)真實(shí)的車輛反而顯得更小一些，這時(shí)候這個(gè)系統(tǒng)沒(méi)有辦法分清近的是車模還是遠(yuǎn)處的是車模，他把深度的信息丟失了。而且更重要的是他沒(méi)有辦法處理遮擋和交疊的情況。所以基于普通的RGB的輸入，一般而言只能做一些非常特定的場(chǎng)景（比如垂直向下的人頭計(jì)數(shù)等等），而且即使這樣的情況下，也需要很巨大的運(yùn)算量。哪怕是用了深度學(xué)習(xí)的方法能把效果做得很好，但運(yùn)算量也會(huì)非常大。如果我們需要在嵌入式設(shè)備上做復(fù)雜的軌跡分析或者行為分析的話，只有深度學(xué)習(xí)其實(shí)是不夠的。

在格靈深瞳，我們實(shí)際上是做了一套基于叫depth proposal的深度學(xué)習(xí)的物體檢測(cè)方法。給大家簡(jiǎn)單地介紹一下這個(gè)方法：第一步我們基于depth輸入來(lái)做前景提取的工作，得到里邊潛在的目標(biāo)區(qū)域，之后我們會(huì)做一個(gè)投影變換，因?yàn)槲覀冎懒?D的信息之后，我們可以把潛在的目標(biāo)投影到水平平面上去，之后我們結(jié)合RGB的方法產(chǎn)生一些proposal，因?yàn)閷?shí)際中會(huì)產(chǎn)生一些干擾和誤識(shí)別，我們后面使用深度學(xué)習(xí)的方法去做proposal的后處理過(guò)濾，這樣的話就能做一個(gè)快速且效果好的多目標(biāo)檢測(cè)器，基于多目標(biāo)檢測(cè)和跟蹤，可以進(jìn)一步做比較復(fù)雜的行為分析的工作。

我們發(fā)現(xiàn)，如果純用深度學(xué)習(xí)的方法直接來(lái)做這樣的復(fù)雜場(chǎng)景的話，因?yàn)闀?huì)遇到各種各樣的問(wèn)題，比如說(shuō)遮擋的問(wèn)題，還有兩個(gè)人連接到一起的問(wèn)題，所以如果用直接的深度學(xué)習(xí)方法很難在這種場(chǎng)景下處理的特別好，運(yùn)算速度也是特別慢。我們發(fā)現(xiàn)結(jié)合了這種depth的方法之后，深度學(xué)習(xí)方法的威力會(huì)發(fā)揮的更好，而且這個(gè)運(yùn)算速度是特別快的。

下圖是我們的一些識(shí)別結(jié)果，左上角子圖是采集到的RGB圖像，上面繪制了最終的跟蹤結(jié)果，大家可以看到每個(gè)人身體上會(huì)有一個(gè)圈表征說(shuō)這是一個(gè)人，實(shí)際上這是一個(gè)3D的圈，圖像里邊右上角子圖里面的橙色和深藍(lán)色顯示的是遠(yuǎn)近的區(qū)別。左下角子圖的扇形區(qū)域里面，大家可以看到每個(gè)人的位置，這是一個(gè)垂直向下的視角。由于現(xiàn)實(shí)場(chǎng)景中存在非常大的遮擋，如果單純用2D的方法是不可能做成這個(gè)樣子的。我們可以做到在非常復(fù)雜的場(chǎng)景下，對(duì)幾十個(gè)人中的每個(gè)人都進(jìn)行跟蹤，從而對(duì)每個(gè)人的行為進(jìn)行分析。如果需要的話，基于這個(gè)depth sensor，再結(jié)合RGB的信息，我們可以對(duì)每個(gè)人的骨架進(jìn)行分析，可以做手、腳或者頭級(jí)別的更精細(xì)的動(dòng)作分析。

最終我們開發(fā)的產(chǎn)品叫作皓目行為分析儀。這個(gè)產(chǎn)品主要針對(duì)的是銀行或者商業(yè)上一些需要對(duì)人的行為進(jìn)行分析的場(chǎng)景。比如分析銀行ATM上是否有人做一些不合法的行為，或者銀行加鈔間里面是否有人違規(guī)操作等。下圖是我們實(shí)際的產(chǎn)品，可以看到，在depth sensor上面接了一個(gè)小盒子，我們所有的運(yùn)算都是發(fā)生在這個(gè)小盒子里的，也就是說(shuō)用一個(gè)非常小規(guī)模的嵌入式的系統(tǒng)，就可以完成非常復(fù)雜的一個(gè)分析。這里邊最大的體會(huì)，就是把depth信息和深度學(xué)習(xí)結(jié)合起來(lái)。我們并不認(rèn)為深度學(xué)習(xí)萬(wàn)能到可以解決一切的問(wèn)題。

讓“感”和“知”互動(dòng)起來(lái)

我們講人的感知，一般是認(rèn)為“感”和“知”是連在一起的。簡(jiǎn)單的說(shuō)，“感”就是我們眼睛或者是一些視覺(jué)的sensor得到信息的過(guò)程，比如說(shuō)獲取圖像的過(guò)程；而“知”是基于獲取的信息得到對(duì)世界的理解。在一般的視覺(jué)系統(tǒng)里面，感是第一步，知是第二步，兩個(gè)之間是沒(méi)有相互作用的。感是知的前一步，知不會(huì)影響感。普通的視覺(jué)系統(tǒng)基本上都是這樣一個(gè)邏輯。下面，我想以我們實(shí)際做的一個(gè)產(chǎn)品來(lái)介紹我們對(duì)這件事情的理解。

在介紹我們的產(chǎn)品和技術(shù)之前，我請(qǐng)大家看一個(gè)實(shí)際的例子。這是幾年前很著名的波士頓爆炸案的一個(gè)例子。左上角這張圖里面，實(shí)際上是兩個(gè)犯罪嫌疑人在離他只有幾米距離，而且是視角最好的一個(gè)傳統(tǒng)的監(jiān)控?cái)z像機(jī)里邊的圖像。大家看到右邊這個(gè)從這個(gè)攝像頭中獲取得到的人臉區(qū)域的圖像，質(zhì)量非常差。下面這些圖是他們?cè)谄渌F(xiàn)場(chǎng)數(shù)碼相機(jī)和社交媒介中的圖像。簡(jiǎn)而言之，對(duì)于監(jiān)控場(chǎng)景，在我們現(xiàn)在已有的監(jiān)控?cái)z像頭里邊，很多獲取的圖像質(zhì)量都非常的差，這樣的質(zhì)量即使我們的算法再好，都很難正確識(shí)別，這里面的信息是不足夠進(jìn)行自動(dòng)識(shí)別的。

為此，我們還做了一系列的實(shí)驗(yàn)，我把這些結(jié)果分享給大家看一下。我們利用一個(gè)單反相機(jī)，分析1080P圖像中，人臉距離相機(jī)不同距離時(shí)的臉部分辨率。第一張圖里面，人距離相機(jī)是十米左右，這時(shí)臉上的分辨率大概是36×36。在第二張圖里面，人處于距離相機(jī)20米左右的距離，人臉的分辨率大概是18×18。第三張圖里面，人處于距離相機(jī)30米左右距離的時(shí)候，人臉的識(shí)別率大概是12×12?？傊?，在這三張圖中，顯示了人在不同的距離的情況下，臉部分辨率的變化情況，當(dāng)人在30米左右的情況下，臉上的分辨率基本上只能判斷這是一張人臉，但是已經(jīng)完全分不清他是誰(shuí)了。這是單反的情況，對(duì)于1080P的普通監(jiān)控?cái)z像頭，基本上只能做到三五米距離下可識(shí)別，再遠(yuǎn)一點(diǎn)基本上已經(jīng)很難進(jìn)行識(shí)別了。

為了調(diào)研人臉?lè)直媛蕦?duì)于人臉識(shí)別率的影響，我們參考了一篇公開的論文。這篇論文用了一個(gè)比較經(jīng)典的VGG模型來(lái)進(jìn)行人臉表示，然后研究當(dāng)人臉的分辨率降低的情況下，人臉的識(shí)別率大概是什么規(guī)律。下面這張圖像，橫軸是分辨率，從0、25、50、75到100最高到250像素，縱軸就是人臉驗(yàn)證的準(zhǔn)確率（accuracy），論文發(fā)現(xiàn)當(dāng)人臉的分辨率在75以下的時(shí)候會(huì)對(duì)準(zhǔn)確率有非常大的影響。比如說(shuō)在人臉的分辨率達(dá)到50的時(shí)候，這個(gè)準(zhǔn)確率大概只有80%多，如果到25像素，準(zhǔn)確率則只有70%多。而當(dāng)人臉的分辨率在100像素以上的時(shí)候，準(zhǔn)確率可以達(dá)到95%左右。這個(gè)實(shí)驗(yàn)從側(cè)面驗(yàn)證了對(duì)人臉識(shí)別而言，圖像的分辨率是非常重要的。而且不僅僅是圖像的分辨率，在低光照情況下，人臉的模糊、噪聲等質(zhì)量都會(huì)變得很差。

所以一種直觀的思路就是我們要提高目標(biāo)的分辨率。但實(shí)際上，大家發(fā)現(xiàn)這是矛盾的。就是如果我們想看得比較寬的話，我們就需要一個(gè)比較廣角的攝像機(jī)，而這個(gè)廣角的攝像機(jī)基本上只能看得很近，比如說(shuō)可以看到三五米處的物體。另外一方面，我們希望看得很遠(yuǎn)的話，我們只能用一個(gè)非常窄視角的相機(jī)，這樣的話我們能看到很遠(yuǎn)但卻只能覆蓋十幾度范圍的視角。寬和遠(yuǎn)這兩者是不可兼得的。

還有一種思路，就是去提高攝像機(jī)的分辨率。這個(gè)在理論上來(lái)講是可行的，一個(gè)4K分辨率的攝像頭可以做到10米的范圍，7K可以做到20米。但是在實(shí)際當(dāng)中其實(shí)是非常難做到的，因?yàn)?strong>提高攝像機(jī)的分辨率，會(huì)造成數(shù)據(jù)量的增加，使得傳感器的成本有巨大的提高，此外，對(duì)網(wǎng)絡(luò)傳輸和存儲(chǔ)也會(huì)造成非常大的壓力。所以說(shuō)，這個(gè)思路在工程上來(lái)講基本上是不可行的。

我們?cè)谒伎歼@個(gè)問(wèn)題的時(shí)候，由人眼得到了一些啟發(fā)。對(duì)人眼而言，實(shí)際上有一個(gè)明確的感和知的過(guò)程。這個(gè)感我們可以簡(jiǎn)單的叫sensing，即信息獲取，然后知的話就是叫understanding，也叫信息理解。圖像感知，可以簡(jiǎn)單理解為由圖像采集和圖像理解兩個(gè)模塊組成，這兩個(gè)模塊實(shí)際上是一個(gè)相互作用的動(dòng)態(tài)過(guò)程。

所以，我們?cè)O(shè)計(jì)的產(chǎn)品里面，也包含了兩個(gè)模塊：第一個(gè)模塊是去模擬人眼的圖像采集的過(guò)程，第二個(gè)模塊是去模擬人眼圖像理解的過(guò)程。對(duì)我們這個(gè)系統(tǒng)來(lái)講，首先是一個(gè)圖像采集部分，在之后，會(huì)經(jīng)過(guò)一個(gè)圖像理解的過(guò)程，比如我們采用基于深度學(xué)習(xí)的物體檢測(cè)方法去檢測(cè)圖像里面是否有我們感興趣的人臉、人體或者汽車這些目標(biāo)，當(dāng)我們對(duì)這個(gè)場(chǎng)景有所理解了之后，知的模塊會(huì)反饋回來(lái)去控制圖像采集的部分，這樣能夠使得我們系統(tǒng)更聚焦于我們感興趣的區(qū)域上，再然后經(jīng)過(guò)一次新的知的過(guò)程，就得到了對(duì)場(chǎng)景里面物體的更好的理解并獲取到更高質(zhì)量的圖像。對(duì)于在50米外的物體，在傳統(tǒng)的相機(jī)里基本上是一個(gè)完全看不清楚的狀況。而在我們的相機(jī)里基本上可以得到一個(gè)非常清晰，比如說(shuō)100到200象素分辨率的結(jié)果，這對(duì)整個(gè)系統(tǒng)的提升是非常巨大的。最終，我們的產(chǎn)品可以對(duì)感興趣的物體的有效分辨率，有等效100倍左右的提升。

這個(gè)產(chǎn)品，我們命名為人眼攝像機(jī)（FOVEACAM），如文章頭圖。

這個(gè)產(chǎn)品的特點(diǎn)：第一是可以看清很遠(yuǎn)的目標(biāo)，在超遠(yuǎn)距離還可以達(dá)到高清特寫的效果，比如在50米距離的時(shí)候可以得到清晰可識(shí)別的人臉，在100米距離的時(shí)候，可以看清這個(gè)人全身的特征；第二是支持超大廣角到70度的視野；第三是它的所有運(yùn)算都發(fā)生在嵌入式系統(tǒng)里面，采用了基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)，包括人臉、行人、汽車，都能夠支持。這個(gè)相機(jī)包含了完整的感和知的模塊，而且在一個(gè)嵌入式系統(tǒng)里面做到感和知相互作用，模擬了人眼的原理。下面圖中顯示了我們實(shí)測(cè)時(shí)的一些結(jié)果，其中右側(cè)兩列圖像，左側(cè)是普通相機(jī)中的目標(biāo)的圖像，而右側(cè)是我們的相機(jī)中的效果。

我們實(shí)測(cè)了這個(gè)產(chǎn)品和我們的人臉識(shí)別引擎配合的效果。大概2016年10月份的時(shí)候，我們當(dāng)時(shí)是第一次對(duì)外進(jìn)行人眼攝像機(jī)這個(gè)新產(chǎn)品的發(fā)布，就請(qǐng)了大概幾十位的媒體記者到我們公司來(lái)，在他們沒(méi)有覺(jué)察的情況下，我們把他們的人臉抓拍放到我們的后臺(tái)數(shù)據(jù)庫(kù)中，再請(qǐng)大家現(xiàn)場(chǎng)在攝像頭里面拍攝他們的人臉和庫(kù)里的抓拍人臉去比對(duì)，結(jié)果識(shí)別率基本上是100%。大家都很驚訝的說(shuō)，自己不知道已經(jīng)被偷偷拍攝了。當(dāng)時(shí)很多女士抱怨最多的是你們趁我不注意抓拍的效果不夠美觀，讓我們是不是可以做一些美化之類的處理。

少即是多

整個(gè)人工智能領(lǐng)域非常大，整個(gè)計(jì)算機(jī)視覺(jué)領(lǐng)域也非常大，比如說(shuō)圖像識(shí)別有幾千類甚至可以定義出上萬(wàn)類。對(duì)一個(gè)創(chuàng)業(yè)公司來(lái)講我覺(jué)得最應(yīng)該做的事情就應(yīng)該是聚焦。格靈深瞳在視覺(jué)領(lǐng)域關(guān)注的主要目標(biāo)就是人臉、人體和汽車。

原因也比較簡(jiǎn)單：第一是因?yàn)橥ㄓ玫膱D像識(shí)別技術(shù)，在短期之內(nèi)是難以成熟的，如果說(shuō)大公司的一些研究院或者學(xué)校的老師來(lái)做這些事情的話，我肯定是非常支持的，但是對(duì)于一個(gè)創(chuàng)業(yè)公司來(lái)講做這些事情其實(shí)是需要商榷的。因?yàn)槿绻麤](méi)辦法產(chǎn)生商業(yè)價(jià)值的話，對(duì)創(chuàng)業(yè)公司而言就是一種浪費(fèi)；第二是因?yàn)閺膬r(jià)值角度，我們發(fā)現(xiàn)在現(xiàn)實(shí)社會(huì)中，最常見(jiàn)的物體主要是兩個(gè)，一個(gè)是人，一個(gè)是車，而車背后實(shí)際上也是人，而人可以細(xì)分為人體和人臉這兩個(gè)最重要的目標(biāo)。人體、人臉和汽車是現(xiàn)實(shí)社會(huì)中最為常見(jiàn)而且是最有分析價(jià)值的物體；第三是從技術(shù)可重用角度，人體、人臉和汽車都是剛體，在方法上也有很多相近之處，而且他們也是最容易做到成熟的技術(shù)。

下面我簡(jiǎn)單的給大家介紹一下我們?cè)谶@方面的探索和工作。

在智慧城市、平安城市、國(guó)家安全、公共安全以及智慧交通領(lǐng)域，我們布設(shè)了很多攝像頭，這些攝像頭數(shù)據(jù)目前主要是用于存儲(chǔ)和查看，如果想理解里面發(fā)生了什么事件，或者希望自動(dòng)找到某一個(gè)目標(biāo)車或者人，還主要依賴人工操作。我們做了一個(gè)威目視圖大數(shù)據(jù)分析系統(tǒng)，可以自動(dòng)完成對(duì)人和車等的抓取、識(shí)別和檢索。對(duì)車的識(shí)別，既包括對(duì)車輛類型的分類，比如小汽車/大汽車/大卡車這樣的分類，也包括對(duì)車牌號(hào)的識(shí)別，還包括對(duì)主品牌/子品牌的識(shí)別，比如主品牌是奧迪，子品牌是A6，還可以包括年份。此外還包括車身顏色、遮陽(yáng)板、紙巾盒、小掛件等等的識(shí)別。

我們的系統(tǒng)有幾個(gè)特點(diǎn)，第一個(gè)是車頭車尾是雙向識(shí)別的，只需要一個(gè)模型，不需要手工切換；第二個(gè)是白天和黑夜都能識(shí)別；第三個(gè)是識(shí)別的角度，可以支持到正負(fù)25度左右；第四，車輛品牌能夠支持到4000多種。我們?cè)谧罱囊恍?yīng)用中發(fā)現(xiàn)，我們的系統(tǒng)在傍晚，即使天非常暗，車燈非?；窝鄣那闆r下，對(duì)車的檢測(cè)和抓取也可以達(dá)到接近100%的抓取率。

除了上面提到的車，人也是我們非常關(guān)注的物體。我們?cè)谌梭w方面做了很多工作，包括檢測(cè)跟蹤，包括屬性分析，另外還包括一些人體ReID相關(guān)的工作，就是用人體的圖像去搜同一個(gè)人的其它人體圖像，我們?cè)谝粋€(gè)公開的人體ReID數(shù)據(jù)集上面，目前做到了世界最好的結(jié)果。在這里不一一贅述了。

說(shuō)到這些，還有一個(gè)不得不提的目標(biāo)，就是人臉。在之前的鈦坦白分享中，大家已經(jīng)探討了很多這方面的內(nèi)容。我本人從2002年開始就做人臉識(shí)別，到今天已經(jīng)有15年左右的時(shí)間。人臉是我們?nèi)艘簧幸?jiàn)到最多的物體。人臉的技術(shù)包括人臉檢測(cè)、跟蹤、定位、識(shí)別，行業(yè)里有很多友商也都在做這一塊的內(nèi)容。對(duì)格靈深瞳來(lái)講，我們對(duì)人臉識(shí)別有一個(gè)期待。我不知道大家有沒(méi)有看過(guò)一部片子叫《速度與激情7》，這里邊提到了一個(gè)系統(tǒng)叫天網(wǎng)（SkyNet），這個(gè)系統(tǒng)可以潛入到任何一個(gè)攝像頭里面去通過(guò)人臉識(shí)別方法找到想找的人。這實(shí)際上代表了我們對(duì)人臉識(shí)別這個(gè)技術(shù)的一個(gè)最完美的暢想，我們也一直向這個(gè)目標(biāo)努力。我想強(qiáng)調(diào)的一點(diǎn)是，人臉識(shí)別并不僅僅是一個(gè)算法問(wèn)題，所以我們才做了人眼攝像機(jī)。我們認(rèn)為人臉識(shí)別想真正大規(guī)模實(shí)用，是一個(gè)結(jié)合軟件和硬件的完整解決方案。如果不改變前端的圖像采集部分，僅僅是做算法的話，哪怕是深度學(xué)習(xí)，假設(shè)抓取的臉只有十幾個(gè)像素，這個(gè)信息不不足以表示人與人之間的差別的話，在軟件算法上再怎么做都是不可能成功的。

由感知到行動(dòng)

我們剛才講的所有的事情其實(shí)都是關(guān)于感知。感知是指圖像輸入以后經(jīng)過(guò)分析，我們能夠理解這個(gè)圖像里邊是有什么樣的物體，發(fā)生了什么樣的事情，或者這是哪個(gè)人，他的車牌號(hào)是多少。但在我們真實(shí)的世界里面，除了理解之外，也需要產(chǎn)生行動(dòng)去影響環(huán)境，這才能創(chuàng)造更大價(jià)值。對(duì)格靈深瞳而言，我們正在嘗試做一些機(jī)器人相關(guān)的事情，我們之前還做了無(wú)人駕駛相關(guān)的事情。很多人可能已經(jīng)知道，在無(wú)人駕駛方面，因?yàn)槲覀兿Ｍプ鰺o(wú)人駕駛汽車，而不是ADAS器件，所以，這塊業(yè)務(wù)我們通過(guò)引入更多的領(lǐng)域?qū)＜襾?lái)一起做，最終成立了馭勢(shì)科技。這是一家在無(wú)人駕駛領(lǐng)域非常有影響力的創(chuàng)業(yè)公司。

我們希望，由視覺(jué)的感知擴(kuò)展到行動(dòng)，通過(guò)機(jī)器人或者無(wú)人駕駛這些產(chǎn)品讓視覺(jué)技術(shù)能夠產(chǎn)生更大的價(jià)值，這也是格靈深瞳的愿景。

計(jì)算機(jī)視覺(jué)大規(guī)模應(yīng)用的必經(jīng)之路

我本人做計(jì)算機(jī)視覺(jué)技術(shù)已經(jīng)15年了，對(duì)這個(gè)行業(yè)是非常有感情的，我一直非常希望能夠見(jiàn)到計(jì)算機(jī)視覺(jué)能夠大規(guī)模被應(yīng)用。而今天其實(shí)還沒(méi)有達(dá)到這樣的一個(gè)狀態(tài)。

首先，決定計(jì)算機(jī)視覺(jué)技術(shù)能否被大規(guī)模應(yīng)用的兩個(gè)因素，第一是準(zhǔn)確率，第二是成本。只有當(dāng)這兩個(gè)因素都被解決得很好的時(shí)候，視覺(jué)技術(shù)才會(huì)被大規(guī)模的應(yīng)用。

從技術(shù)的角度來(lái)講，我會(huì)認(rèn)為計(jì)算機(jī)視覺(jué)大規(guī)模應(yīng)用的路徑應(yīng)該會(huì)是一個(gè)從云到端到芯片的漸進(jìn)方式。

云的方式，其實(shí)就用類似服務(wù)器，不管是公有云還是私有云的方式，攝像頭的數(shù)據(jù)傳回到服務(wù)器端進(jìn)行處理進(jìn)行運(yùn)算。這個(gè)方式最大的好處能促進(jìn)算法的快速落地，能夠產(chǎn)生大量的數(shù)據(jù)，而且能夠幫助快速的迭代算法，促進(jìn)算法的成熟，推動(dòng)應(yīng)用的發(fā)展。云的主要優(yōu)勢(shì)在于快速靈活，所以在早期應(yīng)該采用這種云的方式。
云+端的方式，通過(guò)端來(lái)幫助云做一些運(yùn)算量比較少的一些事情。他的主要優(yōu)勢(shì)第一個(gè)可以減少網(wǎng)絡(luò)帶寬，如果把所有的視頻數(shù)據(jù)傳回中心的話，網(wǎng)絡(luò)帶寬開銷是非常大的，第二基于云加端的方式可以把運(yùn)算由中心分散到前端，這個(gè)我個(gè)人認(rèn)為一定是未來(lái)的一個(gè)重要趨勢(shì)。
芯片的方式。芯片方式一定是能夠降低成本，同時(shí)提高運(yùn)算能力。但是我認(rèn)為，芯片方式一定是在一個(gè)大規(guī)模應(yīng)用狀態(tài)下的終極階段，這個(gè)結(jié)果是需要條件的，就是必須等算法成熟，而且應(yīng)用也比較被大眾所接受了之后才會(huì)達(dá)到的一種狀態(tài)。如果過(guò)早的進(jìn)行芯片化，本身把算法放到芯片上，本身就是有精度損失的，而且，迭代更新速度會(huì)很慢，反而無(wú)法使得技術(shù)快速落地應(yīng)用。這就是我為什么會(huì)強(qiáng)調(diào)計(jì)算機(jī)視覺(jué)技術(shù)是會(huì)遵循云、端、芯的漸進(jìn)方式。

從商業(yè)模式上講，我認(rèn)為單純的算法提供模式是沒(méi)有未來(lái)的，只有深入到場(chǎng)景中才能促進(jìn)技術(shù)的落地并且創(chuàng)造出最大的價(jià)值。

有一句英語(yǔ)叫eat our own dog food，即吃自己的狗食。這句話在互聯(lián)網(wǎng)軟件行業(yè)非常流行，意思是說(shuō)，你做了一個(gè)東西你必須自己去用他，這樣才能把它用好。所以對(duì)我們算法來(lái)講也是同樣的，如果我們做了一個(gè)算法提供給別人去用，別人并不了解這個(gè)算法，他們不太可能把這個(gè)算法真正用好，所以我們必須深入到場(chǎng)景中去，針對(duì)這個(gè)場(chǎng)景去改進(jìn)我們的算法，這樣才能促進(jìn)技術(shù)的落地和應(yīng)用。

在整個(gè)產(chǎn)業(yè)鏈中，單純的算法提供模式實(shí)際上是沒(méi)有辦法持續(xù)的。隨著技術(shù)的進(jìn)步，比如今天講的深度學(xué)習(xí)，大家之間的差別已經(jīng)沒(méi)有那么巨大了，算法的優(yōu)勢(shì)是非常難保持的。比如在金融行業(yè)，人證比對(duì)是一個(gè)大家很看好的場(chǎng)景，但目前已經(jīng)淪為了一個(gè)純粹的算法比拼和成本比拼，競(jìng)爭(zhēng)非常充分。大家都很難保證自己比別人有非常大的技術(shù)優(yōu)勢(shì)，這種情況下基本上大家變成最后拼成本，報(bào)價(jià)都報(bào)的非常的低，最終損害了整個(gè)行業(yè)。

對(duì)于算法在這個(gè)產(chǎn)業(yè)鏈分得的利益，初期的時(shí)候，因?yàn)樗惴ê芟∪?，可以分得相?duì)多的利益，但量很難大起來(lái)，到了中后期，由于算法成熟，量雖然增加了，但算法在產(chǎn)業(yè)鏈里面分的利益會(huì)變得很少。以車牌識(shí)別為例，早期的車牌識(shí)別一套大概可以買到幾千元，后期只能買到幾百元，甚至是免費(fèi)送。

芯片方式和算法SDK方式有一些相似的地方。芯片有兩種模式，第一種是通用的芯片，第二種是非通用的，比如說(shuō)人臉識(shí)別芯片。假設(shè)是非通用方案的話，雖然芯片門檻要比做純算法SDK要高，但是想保持壟斷優(yōu)勢(shì)也不是非常容易的事情。芯片是一個(gè)產(chǎn)業(yè)，是一個(gè)生態(tài)，不僅僅在于要把芯片做出來(lái)，還要提供相關(guān)的工具鏈，還要有銷售的渠道。而對(duì)于通用的深度學(xué)習(xí)芯片而言，市場(chǎng)空間是非常巨大的，但面臨的競(jìng)爭(zhēng)必然也會(huì)非常大。對(duì)于深度學(xué)習(xí)預(yù)測(cè)（inference）芯片而言，已有的芯片公司比如華為、海思、高通、ARM，他們雖然在前瞻性上面略差，但他們對(duì)資源的投入會(huì)非常巨大?？紤]到芯片的周期比較長(zhǎng)，一款芯片從設(shè)計(jì)到真正的成熟應(yīng)用至少需要一年多的時(shí)間，所以如何保持先發(fā)優(yōu)勢(shì)也是非常有挑戰(zhàn)的。不過(guò)我還是認(rèn)為，芯片領(lǐng)域是一個(gè)非常巨大的市場(chǎng)，是計(jì)算機(jī)視覺(jué)未來(lái)大規(guī)模應(yīng)用的重要一環(huán)。

從產(chǎn)業(yè)鏈的角度，只有深入到場(chǎng)景中才能夠形成閉環(huán)，獲得數(shù)據(jù)，而且只有有了業(yè)務(wù)和數(shù)據(jù)之后你才能形成真正的護(hù)城河。一個(gè)類比其實(shí)是現(xiàn)在的阿里和騰訊，阿里和騰訊一定不是技術(shù)最好的公司，為他們服務(wù)的思科、華為、聯(lián)通、電信這樣的公司技術(shù)會(huì)更好，但最終只有阿里和騰訊形成了生態(tài)，有了護(hù)城河。簡(jiǎn)單的算法提供，更像思科這種設(shè)備提供商的角色，在生態(tài)里面最終能獲得的價(jià)值實(shí)際上是非常少的。

鈦坦白群友互動(dòng)：

Q：鄧總，想請(qǐng)教一下，目前還沒(méi)有看到格靈深瞳特別強(qiáng)調(diào)在自動(dòng)駕駛方面的應(yīng)用與開發(fā)，重點(diǎn)主要是在安防監(jiān)控、人臉識(shí)別、車輛識(shí)別方面，這背后的邏輯和思考是怎樣的？

鄧亞峰：實(shí)際上格靈深瞳在創(chuàng)業(yè)初期很早的時(shí)候，就在自動(dòng)駕駛方面進(jìn)行了投入。我們?cè)谒伎己脱芯恐蟀l(fā)現(xiàn)，自動(dòng)駕駛?cè)绻皇亲鯝DAS器件的方式，并不是特別好的一條路徑，所以我們最終選擇了要自己去做一個(gè)自動(dòng)駕駛汽車。如果做一個(gè)自動(dòng)駕駛汽車的話，在格靈深瞳內(nèi)部來(lái)做，應(yīng)該不是最好的選擇，所以我們把自動(dòng)駕駛的團(tuán)隊(duì)孵化了出去，吸引了吳甘沙和姜巖等更多人才一起創(chuàng)立了馭勢(shì)科技，馭勢(shì)科技目前發(fā)展得非常好?？梢院?jiǎn)單理解成，格靈深瞳的自動(dòng)駕駛是在馭勢(shì)科技去實(shí)現(xiàn)的。

Q：麻煩把人眼攝像機(jī)的原理再講一下。

鄧亞峰：簡(jiǎn)單來(lái)講，普通的相機(jī)，或者看得比較廣，但看得很近，比如說(shuō)普通監(jiān)控?cái)z像機(jī)，他看得比較廣，大概是一個(gè)七八十度這樣的視角范圍，但他只能看到3-5米左右的范圍；或者看得遠(yuǎn)，但是視角只有幾度，比如說(shuō)一個(gè)定焦單反相機(jī)。我們的這個(gè)相機(jī)，第一是要能關(guān)注很廣的范圍，第二是能自動(dòng)確定視場(chǎng)里面最應(yīng)該關(guān)注的目標(biāo)是哪個(gè)，然后讓相機(jī)聚焦到最應(yīng)該關(guān)注的那個(gè)目標(biāo)上去，從而能夠在這個(gè)目標(biāo)上得到特別高的分辨率，進(jìn)而得到一個(gè)非常好的識(shí)別效果。這個(gè)技術(shù)在行業(yè)內(nèi)是獨(dú)創(chuàng)的。

Q：如何看待安防市場(chǎng)？

鄧亞峰：大家對(duì)安防其實(shí)關(guān)注蠻多的，我們對(duì)安防行業(yè)的一個(gè)判斷：第一安防是個(gè)剛需的市場(chǎng)，這個(gè)市場(chǎng)非常的巨大，有數(shù)千億規(guī)模，而且這里面非常剛需的一點(diǎn)是智能化做得很不好，監(jiān)控?cái)?shù)據(jù)雖然我們存儲(chǔ)下來(lái)了，但是并沒(méi)有真正被理解和分析，還處于一個(gè)非常低效的階段。這里邊一定有一個(gè)非常巨大的市場(chǎng)。

第二、在深度學(xué)習(xí)出現(xiàn)之前，技術(shù)上是很難做的非常好的。所以說(shuō)可以理解成這是剛需，原有的技術(shù)又滿足的不好，而現(xiàn)在的技術(shù)發(fā)展已經(jīng)能讓我們?cè)诤芏鄨?chǎng)景下能夠滿足這個(gè)市場(chǎng)的需求了。所以他是一個(gè)潛在的巨大需求。正是基于這樣的判斷，我們投了比較多的精力在這個(gè)方向上。但這并不等于說(shuō)格靈深瞳要把自己定位成是一個(gè)安防公司，我們只是覺(jué)得說(shuō)對(duì)計(jì)算機(jī)視覺(jué)的幾個(gè)方向來(lái)講，比如說(shuō)自動(dòng)駕駛、安防、機(jī)器人、醫(yī)療和增強(qiáng)現(xiàn)實(shí)而言，安防市場(chǎng)應(yīng)該是落地最快，最容易實(shí)現(xiàn)商業(yè)價(jià)值的一個(gè)方向。所以，我們會(huì)很關(guān)注。

Q：深度學(xué)習(xí)的這個(gè)技術(shù)的上限在哪里？

鄧亞峰：如果考慮到深度學(xué)習(xí)本身的表示能力可以通過(guò)增加非線性層來(lái)擴(kuò)展，可以認(rèn)為這個(gè)技術(shù)沒(méi)有明顯的上限。但深度學(xué)習(xí)顯然有其適合的應(yīng)用場(chǎng)景和局限。此外，深度學(xué)習(xí)技術(shù)發(fā)展到今天，某種意義上來(lái)講，短期到達(dá)了一個(gè)瓶頸期。雖然有些新興的領(lǐng)域，包括序列學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、非監(jiān)督學(xué)習(xí)，都有了一些進(jìn)展。但這些技術(shù)目前還更多限于學(xué)術(shù)上的進(jìn)展，真正能在實(shí)際應(yīng)用上產(chǎn)生巨大改變還需要時(shí)間。這實(shí)際上是這個(gè)技術(shù)最大的上限。但我相信，因?yàn)榇蠹曳浅ｊP(guān)注這個(gè)領(lǐng)域，中長(zhǎng)期還是可能會(huì)有巨大的進(jìn)步產(chǎn)生。

在這個(gè)時(shí)間點(diǎn)的話，深度學(xué)習(xí)最大的挑戰(zhàn)是我們?cè)趺窗堰@些深度學(xué)習(xí)技術(shù)真正能夠成熟應(yīng)用。因?yàn)榧词股疃葘W(xué)習(xí)技術(shù)不會(huì)再突破性發(fā)展，如果我們可以用海量的數(shù)據(jù)去訓(xùn)練，并且有更好的硬件用于保證更深更強(qiáng)的網(wǎng)絡(luò)實(shí)時(shí)預(yù)測(cè)的話，它的潛力其實(shí)就是無(wú)限的。

Q：嵌入式設(shè)備成本會(huì)不會(huì)很高，此外模型更新怎么辦？

鄧亞峰：關(guān)于成本，嵌入式設(shè)備有很多選擇，有的成本確實(shí)非常高，但有的成本在這個(gè)階段是能夠被接受的。這個(gè)階段的話，智能的設(shè)備/產(chǎn)品本身就偏高端一點(diǎn)，用戶對(duì)成本本身也有一些預(yù)期，肯定不能和傳統(tǒng)的攝像頭直接去對(duì)比。關(guān)于模型更新，現(xiàn)在的很多設(shè)備都是連接上網(wǎng)絡(luò)上面的，用一些在線更新的方式去做就好了，這并沒(méi)有什么難的。

（本文獨(dú)家首發(fā)鈦媒體，根據(jù)格靈深瞳技術(shù)副總裁鄧亞峰在鈦坦白上的分享整理）

………………………………………………

鈦坦白第28期“AI已來(lái)，讓機(jī)器看懂這個(gè)世界”，六位鈦客的精彩分享已經(jīng)結(jié)束，干貨會(huì)陸續(xù)發(fā)布：http://m.chcmb.cn/tag/1508094

鈦坦白2017年，精彩分享繼續(xù)！

推薦鈦客、贊助、合作：請(qǐng)與鈦坦白負(fù)責(zé)人佳音聯(lián)系，郵箱jiayinge@tmtpost.com

免费看在线a黄视频|99爽99操日韩毛片儿|91停婷在线无码观看|日韩三级片小视频|一级黄片免费播放|欧美成人视频网站导航|亚洲日韩欧美七区|国产视频在线观看91|人成视频免费在线播放|国产精品成人在线免费观看

【鈦坦白】格靈深瞳鄧亞峰：如何讓機(jī)器看得更真更遠(yuǎn)？

以下是鄧亞峰在鈦坦白的分享：

計(jì)算機(jī)視覺(jué)的研究目標(biāo)和應(yīng)用趨勢(shì)

計(jì)算機(jī)視覺(jué)技術(shù)面臨的挑戰(zhàn)和機(jī)遇

怎么樣讓機(jī)器看得更真更遠(yuǎn)？

計(jì)算機(jī)視覺(jué)大規(guī)模應(yīng)用的必經(jīng)之路

鈦坦白群友互動(dòng)：

鈦坦白2017年，精彩分享繼續(xù)！

敬原創(chuàng)，有鈦度，得贊賞

免费看在线a黄视频|99爽99操日韩毛片儿|91停婷在线无码观看|日韩三级片小视频|一级黄片免费播放|欧美成人视频网站导航|亚洲日韩欧美七区|国产视频在线观看91|人成视频免费在线播放|国产精品成人在线免费观看

【鈦坦白】格靈深瞳鄧亞峰：如何讓機(jī)器看得更真更遠(yuǎn)？

以下是鄧亞峰在鈦坦白的分享：

計(jì)算機(jī)視覺(jué)的研究目標(biāo)和應(yīng)用趨勢(shì)

計(jì)算機(jī)視覺(jué)技術(shù)面臨的挑戰(zhàn)和機(jī)遇

怎么樣讓機(jī)器看得更真更遠(yuǎn)？

計(jì)算機(jī)視覺(jué)大規(guī)模應(yīng)用的必經(jīng)之路

鈦坦白群友互動(dòng)：

鈦坦白2017年，精彩分享繼續(xù)！

敬原創(chuàng)，有鈦度，得贊賞

【鈦坦白】格靈深瞳鄧亞峰：如何讓機(jī)器看得更真更遠(yuǎn)？

怎么樣讓機(jī)器看得更真更遠(yuǎn)？

鈦坦白2017年，精彩分享繼續(xù)！

敬原創(chuàng)，有鈦度，得贊賞