鈦媒體注:從1966年到2016年,正好恰恰過去了50年,過去的50年計算機視覺發(fā)展非??臁=裉煊嬎銠C視覺是不是變成了很成熟、很完美的技術(shù)?在鈦媒體和《商業(yè)價值》主辦的移動互聯(lián)網(wǎng)創(chuàng)新大會(MIIC2016)上,xPerception創(chuàng)始人包英澤不這么認為(鈦媒體作者硅星聞曾介紹過包英澤創(chuàng)辦的公司見《這家做智能感知的公司,想要給你的家居設(shè)備都安上“眼睛”》)
在他看來,新的技術(shù)革命即將到來。手機之后的計算平臺有兩個方向,一種是VR、AR;另一種是智能機器人,而這兩者都需要計算機視覺技術(shù)做基礎(chǔ)。
歷經(jīng)50年的發(fā)展,計算機視覺產(chǎn)生了諸多的應(yīng)用。而包英澤則用特斯拉車禍事件,給我們講述這樣一個觀點:雖然計算機視覺技術(shù)并沒有發(fā)展到成熟的階段,但隨著應(yīng)用市場的打開,新的機會與技術(shù)革新將馬上到來。
對于未來3-5年,他認為這個領(lǐng)域有三個方向值得注意:
計算機視覺有很多開源軟件包,可以解決很多問題,但是問題復(fù)雜與安全性要求高的需求,則會催生解決問題的專業(yè)團隊。
在移動化的設(shè)備里面,要以低能耗的方式進行復(fù)雜的算法,芯片一定是必經(jīng)之路。
深度學(xué)習之后會產(chǎn)生什么樣的數(shù)學(xué)模型,解決計算機負責問題的終極框架到底是怎樣的。
以下是包英澤在2016MIIC移動互聯(lián)網(wǎng)創(chuàng)新大會上的演講實錄,經(jīng)鈦媒體編輯:
手機是當今最主流的計算平臺,手機之前的計算平臺是PC,手機之后計算平臺是什么?
VR、AR可能會取代手機,他們是最接近我們?nèi)粘I畹钠脚_。但是這種虛擬技術(shù),其中存在很多技術(shù)細節(jié),技術(shù)難點。第一個是AR系統(tǒng)需要對房間進行準確的3D建模,這樣才能把物質(zhì)展現(xiàn)給用戶;位置角度也要進行跟蹤,這樣才把虛擬世界正確的視覺呈現(xiàn)給大家。像是判斷你手指在空間的位置,這就需要AR系統(tǒng)中的計算機部分,以及對環(huán)境進行感知。如果沒有計算機視覺,就不可能有真正意義上的AR和VR。
另一種可能是智能機器人。智能機器人也需要通過攝像機對環(huán)境進行掃描,從而確認對自己的軌跡進行合理的規(guī)劃。在這個場景中,我們看到機器人平臺需要對房間進行3D建模,還需要檢測場景中動態(tài)物體,這樣確保百分之百的安全。
對于計算機視覺這個詞,我想下一個定義:它是一個過程,是真實世界的信息,經(jīng)過傳感器的捕捉,再將抽象信息(包括事件、位置、大小等等)進行提取的過程。比如去海邊玩拍照片,照片用人類視角很容易看到大海、船只,而同樣一張照片,計算機只能看到一組抽象的數(shù)字。
計算機視覺技術(shù)風風雨雨50載,仍舊不能說成熟
大概十年前,包英澤在清華進行計算機研究的時候,很少有人提到這個詞,今天隨著新科技的普及,人們越來越多地談?wù)撈鹩嬎阋曈X。它不是最近才出現(xiàn)的黑科技,這個學(xué)科年齡比在座的各位都要大。
1966年,麻省理工大學(xué)教授突發(fā)奇想——計算機能否像人類一樣讀圖片?于是,他便給自己的研究生布置了這個課題,這個事件標致著計算機視覺的誕生。
計算機視覺首先被應(yīng)用于軍事領(lǐng)域,在80年代開始應(yīng)用于工廠,進行流水線上瑕疵品的檢測,隨著PC的普及,越來越多的應(yīng)用走入我們生活。在座開車的都能記得,以前在進入停車場的時候,進門時候要拿一張卡片,出門的時候歸還,停車場以此來記錄停車時間。之后,進出的時候只需要拍兩張照片,后臺就直接識別出你停車時間。
進入2000年,計算機視覺遍地開花,舉兩個例子:一個是人臉的檢測和識別,用智能手機拍照的時候可以檢測出人臉,以此來確定焦距和視角;還有一個例子是二維碼掃描,一維碼五十年代就得到了發(fā)明和普及,照片中獲取二維碼,這是最近十年成熟的技術(shù)。最新的進展大家都非常熟悉,像是信息檢索,自動駕駛。
從1966年到2016年,正好恰恰過去了五十年,過去的五十年計算機視覺發(fā)展非??臁=裉煊嬎銠C視覺是不是變成了很成熟、很完美的技術(shù)?并不是。
比如說,藍天白云下,公路上有一輛白色的大卡車,計算機就可能說,這是一朵白云。大家可能都想到了這是一個慘?。阂惠v特斯拉沒有檢測出的卡車,使得高速行駛的特斯拉司機當場死亡。
盡管計算機視覺技術(shù)并沒有發(fā)展到成熟的階段,但隨著應(yīng)用市場的打開,新的機會與技術(shù)革新將隨之而來。
未來3-5年,計算機視覺領(lǐng)域?qū)⒂腥齻€變化值得關(guān)注
做為一個計算機視覺行業(yè)的從業(yè)者,講講我個人對未來三到五年的看法。
首先,計算機視覺有很多開源軟件包,但是隨著視覺的問題越來越復(fù)雜,以及我們對安全性的要求越來越高,復(fù)雜的問題一定要找專業(yè)的團隊來解決。比如解決攝像機運動軌跡的問題,你如果拿一個手機從一個房間走到另外一個房間,再回到原來的位置,生成了一條軌跡。把這個數(shù)據(jù)給Orb slam去分析,它所得出的軌跡就有所變化,而且和墻壁有很大的重疊。如果有一個機器人使用了這個Orb slam項目,出門的時候會撞到墻。
即使現(xiàn)在有許多開源的項目,但商用化的計算機視覺系統(tǒng)能在不同的平臺和不同的使用環(huán)境下反復(fù)測試對比,最終可以實現(xiàn)平均性能更加優(yōu)越,并且沒有重大安全隱患。復(fù)雜的問題與應(yīng)用,一定要找專業(yè)的團隊去解決。這個領(lǐng)域會出現(xiàn)超過十億臺下一代測算平臺,新一代的智能手機,還有無人機。與這對應(yīng)的技術(shù)有數(shù)百億的市場,計算機視覺領(lǐng)域?qū)⒄Q生出很多上市企業(yè)。
第二個關(guān)注的變化是芯片化。我們知道計算機視覺往往需要非常復(fù)雜的算法去解決,應(yīng)用往往都是移動化的,例如移動化的設(shè)備,移動的機器人。在移動化的設(shè)備里面,要以低能耗的方式進行復(fù)雜的算法,芯片一定是必經(jīng)之路?,F(xiàn)在行業(yè)里面,大量團隊在進行算法的研發(fā),一些走的比較快的同行已經(jīng)開始將成熟的算法芯片化了。這樣,除了算法的優(yōu)越程度以外,肯定還存在芯片的功耗與成本問題。
第三個關(guān)注的變化是理論上的,即深度學(xué)習之后會產(chǎn)生什么樣的數(shù)學(xué)模型。深度學(xué)習的缺點也是人盡皆知,它需要進行海量的資料的學(xué)習。曾經(jīng)有這個領(lǐng)域的權(quán)威Davis Marr,在生前預(yù)言說,計算機是復(fù)雜的問題,最后會有單一理論框架使之得到解決。
深度學(xué)習不會是這種終極框架,還將有更強大的數(shù)學(xué)模型出現(xiàn)。它對人類影響也會是更深遠的,我們應(yīng)該深刻關(guān)注理論上的變化,把最新的技術(shù)做成產(chǎn)品來解決實際的問題。(本文首發(fā)鈦媒體,由張霖根據(jù)包英澤在2016MIIC大會上的演講整理)
更多趣聞和爆料,關(guān)注鈦媒體微信號:鈦媒體(ID:taimeiti)
鈦媒體微信二維碼






快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論
自動識別的范圍。未來自動識別的應(yīng)用將高度整合和堆積。