近期,生成式人工智能(AIGC)領(lǐng)域又涌現(xiàn)出多款創(chuàng)意十足的新應(yīng)用。
今天,鈦媒體AGI梳理了免費(fèi) AI “神器”系列第十四彈,共五款,其中不少產(chǎn)品再一次拓寬了我們對(duì)AI的想象力。
產(chǎn)品信息:StreamingT2是由Picsart AI Research、UT Austin和Shi Labs的研究團(tuán)隊(duì)共同開(kāi)發(fā)的一款文生視頻模型,該模型突破了以往AI視頻長(zhǎng)度限制,可生成長(zhǎng)達(dá)2分鐘的長(zhǎng)視頻。StreamingT2的發(fā)布將視頻生成技術(shù)推向了新高度,也被稱(chēng)為Sora的強(qiáng)勁對(duì)手。
![]()
產(chǎn)品功能: StreamingT2V可以根據(jù)用戶(hù)的文字提示生成長(zhǎng)達(dá)120秒的長(zhǎng)視頻,同時(shí),StreamingT2V將條件注意力模塊(CAM)和外觀保持模塊(APM)核心構(gòu)架結(jié)合,使得生成的視頻與文本描述緊密相關(guān)且動(dòng)態(tài)連續(xù),展現(xiàn)高動(dòng)態(tài)效果和時(shí)間一致性。
此外,StreamingT2V的實(shí)現(xiàn)方法分為初始化、Streaming T2V生成和Streaming Refinement三個(gè)階段,保證了視頻生成的高質(zhì)量和高分辨率,并且StreamingT2V的高效能并不局限于特定的模型,這意味著隨著技術(shù)的進(jìn)步,視頻質(zhì)量還有進(jìn)一步提升的空間。
項(xiàng)目及演示:https://streamingt2v.github.io
論文地址:https://arxiv.org/abs/2403.14773
產(chǎn)品信息:AnyV2V是一款無(wú)需訓(xùn)練,即插即用的AI視頻編輯框架,該框架由滑鐵盧大學(xué)、Vector Institute 和 Harmony.AI 團(tuán)隊(duì)共同開(kāi)發(fā),旨在幫助用戶(hù)簡(jiǎn)化視頻創(chuàng)作流程,提高視頻制作效率。

產(chǎn)品功能:AnyV2V不僅支持對(duì)源視頻進(jìn)行深度編輯與修改,還能按照輸入文本提示,主題或風(fēng)格等,生成對(duì)應(yīng)新視頻。
具體來(lái)看,AnyV2V將視頻編輯簡(jiǎn)化為了兩個(gè)主要步驟:首先,AnyV2V 可以插入任何現(xiàn)有的圖像編輯工具,從而支持多個(gè)視頻編輯任務(wù)。其次,AnyV2V 可以插入任何現(xiàn)有的圖像視頻模型,執(zhí)行 DDIM 反轉(zhuǎn)和中間特征注入,從而保持與源視頻的外觀和運(yùn)動(dòng)一致性。
此外, AnyV2V 還可以支持視頻編輯任務(wù),包括基于參考的風(fēng)格轉(zhuǎn)換、主題驅(qū)動(dòng)編輯和身份處理。
項(xiàng)目地址:https://tiger-ai-lab.github.io/AnyV2V/
論文地址:https://huggingface.co/papers/2403.14468
3、谷歌圖生視頻模型——Vlogger
產(chǎn)品信息:Vlogger是谷歌推出的一款圖生視頻技術(shù)框架,該框架是基于 MENTOR 數(shù)據(jù)庫(kù)訓(xùn)練而來(lái),數(shù)據(jù)庫(kù)中包含超過(guò) 80 萬(wàn)名人物肖像,以及累計(jì)超過(guò) 2200 小時(shí)的影片,使得VLOGGER可以生成不同種族、不同年齡、不同穿著、不同姿勢(shì)的人物視頻。

產(chǎn)品功能:用戶(hù)只需上傳一張人物圖片+音頻文件,就能實(shí)現(xiàn)讓人物開(kāi)口說(shuō)話(huà),生成一段人像與音頻完美貼合且流暢的視頻,并能做到視頻中人物面部表情及肢體動(dòng)作都相當(dāng)自然且生動(dòng)。
團(tuán)隊(duì)成員表示,和業(yè)內(nèi)此前的同類(lèi)方法相比,VLOGGER最大的優(yōu)勢(shì)體現(xiàn)在不需要對(duì)每個(gè)人進(jìn)行訓(xùn)練、也不依賴(lài)于面部檢測(cè)和裁剪,并且生成的視頻很完整(既包括面部和唇部,也包括肢體動(dòng)作)等等。此外,Vlogger 還具有視頻編輯和翻譯等應(yīng)用,能夠讓人物閉嘴、閉眼,甚至進(jìn)行視頻翻譯。
項(xiàng)目地址:https://enriccorona.github.io/vlogger
4、文本轉(zhuǎn)視頻模型——Hotshot ACT-1
產(chǎn)品信息:Hotshot - ACT 1是一款由Hotshot Research開(kāi)發(fā)的文本生成視頻模型,該模型基于大規(guī)模高分辨率文本視頻語(yǔ)料庫(kù)訓(xùn)練,注重空間對(duì)齊、時(shí)間對(duì)齊和審美質(zhì)量,旨在為視頻創(chuàng)作者提供高質(zhì)量的視頻創(chuàng)作體驗(yàn)。
![]()
產(chǎn)品功能:用戶(hù)只需輸入文本描述,即可生成動(dòng)畫(huà)風(fēng)格的視頻。同時(shí)可以根據(jù)自身需求選擇不同的寬高比和分辨率輸出,定制化自己的視頻內(nèi)容。
體驗(yàn)地址:https://hotshot.co/act-one
5、AI視頻生成模型——Motion-I2V
產(chǎn)品信息: Motion-I2V是一款A(yù)I視頻生成模型,能夠根據(jù)一張靜態(tài)圖片生成連貫且可控制的視頻。
產(chǎn)品功能:能實(shí)現(xiàn)圖像到視頻的自動(dòng)轉(zhuǎn)換,能夠?qū)㈧o態(tài)圖像自動(dòng)轉(zhuǎn)換成連貫的動(dòng)態(tài)視頻,通過(guò)模擬圖像中對(duì)象的自然運(yùn)動(dòng),使靜態(tài)圖像動(dòng)起來(lái)。同時(shí)支持用戶(hù)精確控制視頻中的運(yùn)動(dòng)軌跡和運(yùn)動(dòng)區(qū)域,使得生成的視頻不僅流暢連貫,而且用戶(hù)可以通過(guò)簡(jiǎn)單的操作控制視頻內(nèi)容。
![]()
此外,基于其先進(jìn)的運(yùn)動(dòng)增強(qiáng)和時(shí)間注意力技術(shù),無(wú)需額外的訓(xùn)練樣本,Motion-I2V就能實(shí)現(xiàn)視頻風(fēng)格轉(zhuǎn)換,比如從現(xiàn)實(shí)風(fēng)格轉(zhuǎn)換成漫畫(huà)風(fēng)格。
項(xiàng)目主頁(yè):https://xiaoyushi97.github.io/Motion-I2V/
論文地址:https://huggingface.co/papers/2401.15977
(本文首發(fā)于鈦媒體APP,作者|章橙,編輯|林志佳)
![]()
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論