像TOF 跟 structured light,我認(rèn)為硬件其實不是太成熟,因為光要打得很密集,然后彈回來,才有一個比較準(zhǔn)確高精度的3D建模的畫面。但如果你光打得很密集的話,你的FOV可能也會受限,因為在VR最理想的狀態(tài),你可能需要有110度的FOV,但是目前這種硬件只可以做到70到90度,它的FOV是偏小的,這個主要是受限于硬件技術(shù)的方面。
電腦視覺除了這種高端的攝像頭,我們凌感是走另一個方向。我們是用成本比較低的紅外攝像頭,這種低像素的攝像頭,需要傳輸?shù)馁Y料量也少很多,但每秒可以到捕捉很高的幀率,像60幀或者是90幀,再由USB2.0、3.0傳去電腦端或者是移動端的CPU上面去做計算,這點對于移動端VR來說還蠻重要的。
目前來看,如果是電腦視覺的話,像TOF 、structured light他們主要是受限于硬件,我們凌感目前認(rèn)為傳統(tǒng)攝像頭的硬件比較成熟了。傳統(tǒng)攝像頭捕捉到畫面之后,我們用軟件去計算手在哪里,手在做什么樣的動作,這個困難點在哪呢?困難點就是我們這個技術(shù)主要依賴軟件技術(shù),它對硬件的要求是非常低的。這個技術(shù)其實在開發(fā)方面有非常大的困難度。如果有人給你一張圖片,跟你說手是什么姿勢,你可能講得出來,但你讓電腦去看,這個照片里面手在做什么姿勢,其實是非常難的。
目前市面上,用傳統(tǒng)攝像頭技術(shù)做這種手骨骼識別的公司,知名度和成名度比較高的也并不多,主要都是創(chuàng)業(yè)型的公司。對于創(chuàng)業(yè)公司來說,我們專注在技術(shù)研發(fā),提供更優(yōu)的解決方案。如果想讓AR VR進(jìn)入大眾化,光有這個手勢交互的技術(shù)是不夠的,因為從使用者的角度來看,他不在乎你的技術(shù)有多好,只在乎你能給他帶來多好的體驗,他不會為技術(shù)買單,但是他會為體驗買單。
剛剛我就提到,像電腦和智能手機(jī),當(dāng)輸入做升級的時候,硬件由純鍵盤到鍵盤加鼠標(biāo),或者是從手機(jī)的純鍵盤到觸摸屏幕,軟件交互操作界面也是需要升級的。現(xiàn)在我覺得手勢輸入最缺乏的就是這個交互界面。因為當(dāng)蘋果推出了他們的觸摸屏幕的時候,他們也同時推出了IOS系統(tǒng),但是我們現(xiàn)在有手勢交互的技術(shù),對創(chuàng)業(yè)公司來說,可能沒有這個能力去同時做很多方面,所以我們并沒有自己去開發(fā)基于這個交互技術(shù)的操作系統(tǒng)。
我們作為創(chuàng)業(yè)公司,專注走純技術(shù)路線,在其他方面,我們可以去和一些大品牌、大公司合作。一般來說,其實大廠內(nèi)部也會有手勢交互的團(tuán)隊配置,他們在找尋解決方案的同時,自己也會同步研發(fā),所以在進(jìn)入大廠的時候,也會遇到一些挑戰(zhàn),也會遇到一間公司多個部門同時和我們對接不同需求的狀況。
但創(chuàng)業(yè)公司的優(yōu)勢可能也就體現(xiàn)在這里。首先這些軟件技術(shù)是非常復(fù)雜的,我們在做研發(fā)的時候有時也是因為突發(fā)奇想,想到一個點子,然后突然我們的技術(shù)就變更成熟了。就算是我們今天走到還不錯的成熟度,也是花了三年的時間,我們的CTO在計算機(jī)視覺和三維圖形學(xué)領(lǐng)域也有十多年的技術(shù)儲備和累積,所以如果大廠說“我今年就要投入很多人力很多資源,然后明年就要有這個技術(shù)”,這其實是非常不現(xiàn)實的。
因為當(dāng)你去招一批人的時候,你跟他說“我一年之后就要有這個技術(shù)”,這個團(tuán)隊的想法可能是“我要馬上會有效果出來”。如果他們是這種想法的話,可能就會選用偏硬件的方式,因為硬件的話,像走TOF和Structured light,你一開始做研發(fā)的時候就會有成果,但是你很快就會遇到瓶頸,成熟度就會上不去。
其實我們可以看到,像國際知名大廠,有些可能著重在硬件方面,他們也有很強(qiáng)大的這種TOF的攝像頭功能,他們也是用這個攝像頭可以做像3D周圍環(huán)境的建模,或者是也可以用來做手勢識別的技術(shù)。但是目前來說,可以看到他們在手勢方面做得比較有限,因為他們嚴(yán)重依賴硬件方面,硬件目前還沒有達(dá)到非常成熟的地步,所以我們來看還是這種用傳統(tǒng)攝像頭然后走軟件的方式去開發(fā)的效果比較好。
像我們這種創(chuàng)業(yè)型公司,現(xiàn)在有了這個技術(shù),我們希望可以商品化。如果去找一些頭盔廠商,大家也知道中國有很多頭盔廠商,我們在去聊的時候會說:“你看我們的手勢交互技術(shù)感覺還不錯。”他們也會自己做測試,認(rèn)為確實對目前產(chǎn)品來說,會是一個很大的改變,但是他們同時就會說:“哎,技術(shù)不錯,但是你們有內(nèi)容嗎?”那這個問題是我們目前遇到的瓶頸,因為我們主要是做技術(shù)的公司,我們有些非常簡單的demo的內(nèi)容,但是這些不完整的內(nèi)容是不大能去往消費者市場推的,當(dāng)我們被問到有什么內(nèi)容的時候,其實我們只能說目前來說還沒有很完整的手勢輸入的內(nèi)容。
所以我們?nèi)ツ暌灿凶鲆粋€開發(fā)者大賽,就是讓很多開發(fā)者團(tuán)隊拿我們的技術(shù)去做一些內(nèi)容的開發(fā),包括游戲、教育、房地產(chǎn)等行業(yè)。我們目前看到的狀況是:因為手勢輸入還是一個非常領(lǐng)先的偏未來的技術(shù),很多團(tuán)隊他們可能知道要怎么用鍵盤跟鼠標(biāo)做游戲,可能會知道怎么用觸摸屏幕做游戲,但如果要求他們,用自然手勢交互去做游戲的話,我覺得很多人的經(jīng)驗還是不夠多的。坦白說我覺得我們經(jīng)驗也不夠多,因為這就是非常新的一個技術(shù),所以對開發(fā)者來說,開發(fā)手勢輸入的內(nèi)容是非常困難的。
所以我們現(xiàn)在在做手勢交互技術(shù)拓展的時候就遇到這個問題,跟頭顯廠商聊的時候他們會問有沒有內(nèi)容。雖然我們最終的目標(biāo)是要把我們的技術(shù)跟VR/AR頭盔做結(jié)合,那他們在早期也希望能有一些內(nèi)容配合,那我們今年也會在內(nèi)容開發(fā)者方面提供多一些支援。當(dāng)我們內(nèi)容有一定存量和不同行業(yè)應(yīng)用的時候,這時我們再去找頭盔廠商談合作,進(jìn)程可能會更快。因為那個時候我們不但有手勢交互的技術(shù),我們也有基于這些交互技術(shù)的內(nèi)容。
我們公司其實之前也有內(nèi)部討論:雖然這種自然手勢交互很酷炫、很未來的感覺,但是很多開發(fā)者在開發(fā)的時候就會遇到很多開發(fā)的困難,不知道要怎么開發(fā)這個內(nèi)容,所以我們也在看是否可以提供一些定義好的手勢動作供開發(fā)者直接使用。
剛有提到手勢輸入是大致上分兩種的。第一個是手勢識別,就好像說你在用手機(jī)的時候,你是雙手指滑、三個手指滑或者一個手指雙點擊,像這種就是手勢識別,好比說你比“1”可以開燈,比“2”可以關(guān)燈,比“3”可能可以開冷氣這樣,像手語,你要記得比“1”是什么作用,比“2”是什么作用,用這些比較簡單的手勢識別去做操作。另外就是我們比較早開發(fā)的非常自然的手勢交互:伸手拿一個杯子,拿一本書這樣非常非常自然的動作,就不用去記了。
所以現(xiàn)在的話,我們可能會往這種簡單操作的手勢識別去做開發(fā),因為我們覺得內(nèi)容團(tuán)隊依據(jù)這種比較簡單的手勢識別去做開發(fā)的話,他們可能會比較熟悉。因為其實很多觸摸屏幕的操作方式也是用手勢在做操作的。
我的分享差不多了,再跟大家說一下,我們在開發(fā)的手勢交互的這種技術(shù)還是非常前端的,也在做很多的探索、嘗試。我們希望哪一天我們的技術(shù)真的是成熟到讓很多使用者一戴上VR/AR頭盔就可以很自然地做交互,完全沒有學(xué)習(xí)成本,這是我們的夢想,我們希望可以讓我們的手勢交互的技術(shù)有更普及的應(yīng)用。
1、請問陳總,光打出去返回這種交互,感覺對環(huán)境和操作要求比較高啊。有其他障礙物怎么辦?手不在光束范圍內(nèi)怎么辦?
陳佳敬:現(xiàn)在TOF攝像頭的FOV偵測范圍可能在90度左右,如果手不在這個范圍內(nèi),那就偵測不到了。如果遇到障礙物或手指被擋住的狀況,那是遇到了盲點,這個時候,可以靠軟件來解決了。就像說一個柱子后面有顆球,那其實是很難判別到的。
2、請問凌感最主要用的技術(shù)是圖像識別吧?我有個疑問,正對著攝像頭的手肯定能拍照并且分析出來,但比如我指頭彎曲,就會有一個面是攝像頭無法透視的。怎么解決的呢?
陳佳敬:是的,凌感最主要的技術(shù)是圖像識別,而且是針對裸手的識別。當(dāng)手指被擋住的時候,攝像頭看不到了,這個時候就是要用軟件來做計算和預(yù)測。我拍個案例圖給大家看。
像這個時候,攝像頭只看得到大拇指和食指,但是我們很容易知道其他手指是在后面被擋住了,我們也教了我們的軟件去識別這種狀況和其他類似的狀況。
3、剛才陳總提到凌感的技術(shù)在落地中遇到比較多麻煩,既然是軟件為什么不考慮SDK嵌入硬件呢?在整個VR內(nèi)容都不多的情況下,有考慮自己做內(nèi)容,推動技術(shù)的使用嗎?
陳佳敬: 我們現(xiàn)在跟 VR/AR 頭盔廠商合作的時候,就是希望我們的硬件和 SDK 軟件能集成到對方的頭盔里面。但因為加了硬件,成本也會上去,產(chǎn)品售價也會提高。頭盔廠商認(rèn)為如果消費者要多買單,那產(chǎn)品需要提供更多的內(nèi)容。
目前的問題就是缺乏手勢交互的內(nèi)容。我們自己有內(nèi)容團(tuán)隊,主要是做體驗級別的內(nèi)容,而不是完整的消費級內(nèi)容。完整的用戶使用的內(nèi)容,還是需要外面有豐富經(jīng)驗的團(tuán)隊來制作。
5、作為技術(shù)小白有個疑問:體驗VR的時候發(fā)現(xiàn)VR內(nèi)容里可與人產(chǎn)生互動的是特殊的幾個點,或者特別的方向,比如一盞燈,面向地面。要實現(xiàn)全手勢的操作是不是對于內(nèi)容里各種物體的標(biāo)記,需要增加特別多?
陳佳敬: 我個人看法是:很多內(nèi)容是在 Unity 或 Unreal 里面開發(fā)的,我們能把現(xiàn)實的手動作轉(zhuǎn)成虛擬的手動作。那虛擬的手跟虛擬物體的互動主要是在內(nèi)容開發(fā)軟件里實現(xiàn),比如說碰撞偵測的判斷,拿起和放下的互動。
物體的標(biāo)記,我認(rèn)為是內(nèi)容開發(fā)團(tuán)隊需要根據(jù)內(nèi)容去設(shè)計的。很多標(biāo)記是放在現(xiàn)實物體上,那如果物體存在于虛擬世界中,真實世界沒有這個物體,就不需要給現(xiàn)實物體做標(biāo)記了,因為沒有現(xiàn)實物體的存在。
6、請問陳總,是不是手勢交互中的攝像頭對手勢有很多限制?有哪些困難呢?我想在VR里更自由啊。
陳佳敬:我們的技術(shù)是想讓攝像頭取代人眼,很多狀況,人眼雖然看不到手的動作,但還是能推測的出手指在哪里。我們的軟件技術(shù),是在做類似的推測。
這里可以特別解釋一個概念,很多客戶有問到我們可以識別哪些特定手勢?其實主要是依據(jù)手的輪廓做判別,但從我們提供的技術(shù)來說,是可以識別捕捉自然的手勢動作。因為是對手部的關(guān)節(jié)點做追蹤識別。至于具體用什么手勢來表達(dá)含義,是由應(yīng)用層開發(fā)定義的。
目前的困難除了之前討論的手勢交互外,另一個 VR 很需要的技術(shù)是位置追蹤,基于移動端的從里到外的位置追蹤(inside out tracking)。
7、請問產(chǎn)品是不是用到深度學(xué)習(xí)了?是否會隨著使用精確度提高?
陳佳敬:是的,是有用到深度學(xué)習(xí),時間久了,精確度會提升。
8、冒昧問陳總會不會被市場的反應(yīng)打擊了積極性,以后要不要做全身動作的捕捉呢?
陳佳敬:其實手部姿態(tài)的識別是非常復(fù)雜的,手指的靈活度非常高,也有很多遮擋的狀況需要軟件去判別。
全身動作捕捉有很多很棒的公司在做,也有很不錯的應(yīng)用,我們還是會聚集做好精準(zhǔn)識別短距離的這個細(xì)分。
(本文獨家首發(fā)鈦媒體,根據(jù)uSens凌感中國區(qū)商務(wù)VP陳佳敬在鈦坦白上的分享整理)
……………………………………
詳情:http://m.chcmb.cn/2597450.html
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機(jī)號后發(fā)表評論
想想以后沉浸在VR里做幾個手勢就可以辦很多事,真的很酷
概念很多行動很少