圖片來源:視覺中國
只需普通光學攝像頭就能構(gòu)建出你的“3D立體人像”,這是種什么體驗?
人工智能平臺公司云從科技近日發(fā)布了其在3D人體重建技術(shù)上取得的重大突破。3月19日,作為“國內(nèi)CV(計算機視覺)四小龍”之一的云從科技(以下簡稱云從)宣布,其基于單幀圖像的3D人體重建技術(shù)刷新了三項世界紀錄,這也是繼去年云從在3D人臉數(shù)據(jù)集上大幅刷新紀錄后,再次在此類3D重建技術(shù)上取得重要成果。
所謂的三項世界紀錄,指的是Human3.6M、Surreal和UP-3D三個數(shù)據(jù)集,是全球關(guān)于3D人體重建技術(shù)的權(quán)威數(shù)據(jù)集。榜單中的競爭對手包括加州大學伯克利分校、賓夕法尼亞大學、Amazon和Adobe Research等知名企業(yè)、研究所與高校。
那么,這項“牛逼”的AI技術(shù)到底有哪些應用呢?對于大眾而言,3D人體重建技術(shù)帶來的是全新體驗:
這意味著,只用美顏APP就可以完成高精度的全身“瘦身”;你站在鏡子前,商場的試衣鏡便可實現(xiàn)一秒換裝;如果放在電影工業(yè)的范疇來看,全新的3D人體重建技術(shù),甚至將超越今年熱映好萊塢科幻大片《阿麗塔》中所使用的視覺特效水平(鈦媒體曾對該片的特效技術(shù)有詳細介紹)。
在3D重建領(lǐng)域,誤差通常被作為算法能力的主要衡量指標,它指的是生成模型與實際圖像的差別。一般來說誤差越低,精度越高,技術(shù)的性能越好。
云從對鈦媒體透露,此次技術(shù)突破,“將原有最低誤差記錄大幅降低30%,使3D人體建模的結(jié)果更優(yōu)秀,更接近人體的實際情況”。以下為云從提供的最低誤差記錄的信息:
全身精度誤差在Surreal上從75.4毫米降低到52.7毫米;
關(guān)節(jié)精度誤差從55.8毫米降低到40.1毫米;
Human3.6M上的關(guān)節(jié)精度誤差從59.9毫米降低到46.7毫米;
除了誤差指標,流暢度也是評價技術(shù)效果的關(guān)鍵指標。據(jù)云從透露,當前人體模型的幀率已經(jīng)達到了200幀/每秒,相較之下,電影的幀率通常只有24幀/秒,即使對流暢度要求很高的電子游戲,達到60幀/秒就已經(jīng)非常流暢。在運算速度上,人體建模的耗時也從上百毫秒降低到5毫秒,建模效率更高。
關(guān)鍵指標取得重大突破,加速了3D人體重建的落地進程,但這一概念在大眾眼中實屬陌生。云從所提出的單幀3D人體重建到底是什么?其革命性到底體現(xiàn)在哪里?
因為人體有豐富的姿態(tài)和穿著,云從提出了一套全新的基于人體3D縱深預測的3D信息表征方式。該技術(shù)通過對三原色圖像(RGB,不含深度信息)進行分析,預測人體的3D形態(tài)和姿勢。
這是3D人體重建從2D時代向3D時代的飛躍。
傳統(tǒng)的人體關(guān)鍵點檢測技術(shù)往往監(jiān)測的是2D的人體骨骼關(guān)節(jié)點,即通過技術(shù)預測RGB圖像中人體的十幾個關(guān)節(jié)點的坐標。這種方式存在著不足,其一這樣捕捉的節(jié)點非常稀疏;其二,這樣捕捉的結(jié)果一般只包含2D平面的坐標預測,不能還原3D的深度信息,無法體現(xiàn)縱深感。
而基于單幀圖像的3D重建技術(shù)不僅能輸出骨骼關(guān)節(jié)點信息,更能同時預測大量人體表面的關(guān)鍵點信息,使預測結(jié)果更豐富。而且每個點的坐標都是3D呈現(xiàn),能夠體現(xiàn)不同軀干的縱深信息。
人體關(guān)鍵點監(jiān)測:從2D向3D進化
值得注意的是,云從在新一代3D人體重建技術(shù)上,還強調(diào)了是“基于單幀圖像”。這與傳統(tǒng)技術(shù)大多需要“連續(xù)圖像序列”或“多視角圖像”產(chǎn)生了鮮明差異。
單幀圖像就是一張照片,只需要普通的光學攝像頭作為感知設(shè)備,就可完成人體重建。而傳統(tǒng)技術(shù)中對圖像要求更高,硬件上需要雙目攝像機或者結(jié)構(gòu)光攝像機等設(shè)備,在手機端等便攜設(shè)備上是不可能完成的事。
基于單幀圖像的3D重建技術(shù)降低了設(shè)備使用門檻,也對背后的技術(shù)提出了更難的挑戰(zhàn)。該技術(shù)需要從單幀圖像中推理出人體或人臉的3D形態(tài),并通過“光學透視”、“陰影疊加”等基本光學原理預測各個關(guān)鍵點在3D空間的位置和朝向,從而得到人體的姿態(tài)或表情信息。
云從科技對鈦媒體羅列了上述技術(shù)可能的落地場景。在C端的應用上,如上文提到,在不需要結(jié)構(gòu)光的條件下,高精度全身瘦身可以通過手機App完成、并進行動畫合成操作;智能換裝也將成為普及性的體驗。
其技術(shù)原理是,精度和顯示效果大幅提升,設(shè)備門檻得以降低,將推動3D人體重建技術(shù)的落地步伐。
此外,還可以應用于疑犯身份重建、醫(yī)療仿真肢體3D重建以及電影特效領(lǐng)域。
視覺盛宴的締造者《阿凡達》、《阿麗塔》等影片,不斷抬高著人們挑剔的審美品位。未來,如果3D人體重建技術(shù)應用于電影特效制作,不僅會顛覆傳統(tǒng)的特效技術(shù),更會直接提升工業(yè)電影的制作水平。
《猩球崛起》CG特效
20世紀90年代,影視特效往往采用的是光學式動作捕捉。在動作捕捉中,演員要穿上帶有特定感應器的緊身衣,感應器會捕捉演員動作并同步給電腦中的虛擬角色,使得虛擬動作與真人動作完全同步。鮮為人知的是,1996年卡梅隆在制作《泰坦尼克號》時,沉船場景中的大多數(shù)乘客就都是CG人物。
2001年的《指環(huán)王》可謂是動作捕捉技術(shù)發(fā)展的分水嶺;不過當時的技術(shù)還停留在捕捉頭、四肢這樣較大身體部位的水平,CG人物的表情還需要手工制作。
自《阿凡達》開始,特效技術(shù)開始從“動作捕捉”轉(zhuǎn)向“表情捕捉”,《阿麗塔》則是實現(xiàn)了從“動作捕捉”到“表情捕捉”的徹底跨越。

《阿麗塔》CG特效圖
在此前接受鈦媒體專訪時,好萊塢金牌特效團隊“維塔數(shù)碼”曾闡釋了“表情捕捉”的優(yōu)勢,“所謂表演捕捉,就是不局限于四肢打斗幾個固定散點的移動捕捉,全身上下還增加了好幾倍的、更密集的感應點,也包括對面部表情的捕獲。”
在這類特效電影中,對人像進行動作和表情捕捉,需要用專業(yè)的特效設(shè)備和面部貼點來進行。而3D人體重建技術(shù)顛覆了傳統(tǒng)的技術(shù),使得人體建構(gòu)更加流暢飽滿。根據(jù)云從科技提供的數(shù)據(jù),當前3D人體重建技術(shù)能夠用6萬多個點完整描繪人體,在速度和精度上都有突破,人體模型建構(gòu)也會更精細。
這不僅能降低工業(yè)級3D動畫合成的門檻,也將會對工業(yè)電影的特效帶來革命性的影響。
2018年10月,云從科技已完成 B+輪融資,金額超過 10 億元。自2015年正式成立以來,云從已完成 4 輪融資,累積融資額已超過35億元。(本文首發(fā)鈦媒體,作者/蘆依)
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論