近期,生成式人工智能(AIGC)領(lǐng)域又涌現(xiàn)出多款創(chuàng)意十足的新應(yīng)用。

今天,鈦媒體AGI梳理了免費(fèi) AI “神器”系列第七彈,共五款,其中不少產(chǎn)品再一次拓寬了我們對(duì)AI的想象力。

1、華為首個(gè) AI 圖像生成模型PixArt-Σ亮相

產(chǎn)品信息:日前,華為諾亞方舟實(shí)驗(yàn)室團(tuán)隊(duì)在arxiv平臺(tái)上發(fā)布多篇論文,展示華為首個(gè) AI 圖像生成模型PixArt-Σ技術(shù),參數(shù)規(guī)模為6億左右,其采用與Sora的Diffusion Transformer (DiT) 架構(gòu),可直接生成 4K 分辨率的 AI 圖像。

產(chǎn)品功能:華為團(tuán)隊(duì)在論文中表示,相比其前身PixArt-α,新的PixArt-Σ在訓(xùn)練效率、數(shù)據(jù)質(zhì)量、圖像標(biāo)題配對(duì)、圖像生成質(zhì)量等方面都有巨大提升,提供明顯更高保真度的圖像,并改進(jìn)了與文本提示的一致性。同時(shí),PixArt-Σ以顯著較小的模型規(guī)模實(shí)現(xiàn)了優(yōu)于現(xiàn)有文本到圖像擴(kuò)散模型,如 SDXL (26 億參數(shù)) 和 SD Cascade (51 億參數(shù))的圖像質(zhì)量和用戶(hù)提示遵從能力。 華為團(tuán)隊(duì)在論文中強(qiáng)調(diào),新的PixArt-Σ可生成 4K 圖像能力,從而將有效增強(qiáng)電影和游戲等行業(yè)中高質(zhì)量視覺(jué)內(nèi)容的制作。

體驗(yàn)地址:https://pixart-alpha.github.io/PixArt-sigma-project/

2、可以理解和生成音樂(lè)的大語(yǔ)言模型——Chat Musician

產(chǎn)品信息:Chat Musician是一個(gè)能理解和生成音樂(lè)的開(kāi)源大語(yǔ)言模型,通過(guò)持續(xù)預(yù)訓(xùn)練和微調(diào)LLaMA2,采用文本兼容的音樂(lè)表示方式——ABC符號(hào),使模型能夠像處理語(yǔ)言文本一樣理解和生成音樂(lè)。

產(chǎn)品功能:首先是音樂(lè)生成功能,ChatMusician可以根據(jù)給定的文本提示、和弦序列、旋律線(xiàn)索、音樂(lè)主題等,自動(dòng)生成結(jié)構(gòu)完整、風(fēng)格多樣的音樂(lè)作品,性能超越GPT-4的基線(xiàn)。

其次是音樂(lè)理解功能,ChatMusician可以理解和分析音樂(lè)理論的各個(gè)方面,如和聲分析、旋律結(jié)構(gòu)、音樂(lè)形式等。在專(zhuān)為大學(xué)級(jí)音樂(lè)理解基準(zhǔn)測(cè)試MusicTheoryBench上,ChatMusician在零樣本設(shè)置中超過(guò)了LLaMA2和GPT-3.5,展示了其在音樂(lè)理論理解方面的優(yōu)異性能。

此外,ChatMusicia還提供了大規(guī)模的音樂(lè)語(yǔ)言語(yǔ)料庫(kù)(MusicPile)、音樂(lè)理論基準(zhǔn)測(cè)試(MusicTheoryBench)、模型代碼和在線(xiàn)演示,以供研究和教育使用。

項(xiàng)目演示:https://shanghaicannon.github.io/ChatMusician/

論文地址:https://arxiv.org/pdf/2402.16153.pdf

3、克隆自己的數(shù)字分身——D-IDAgent

產(chǎn)品介紹:D-IDAgent是生成數(shù)字人平臺(tái)D-ID推出的一項(xiàng)可定制AI化身功能,用戶(hù)只需通過(guò)一張照片就能生成屬于自己的AI數(shù)字人。

產(chǎn)品功能:用戶(hù)可以通過(guò)上傳一張照片或一段語(yǔ)音就能生成屬于自己的AI數(shù)字人,并且生成的數(shù)字人可實(shí)現(xiàn)人性化交互。在接受用戶(hù)指令后,數(shù)字人可以通過(guò)面部表情和手勢(shì)以及多種語(yǔ)言進(jìn)行回應(yīng),提供類(lèi)似真人的面對(duì)面溝通體驗(yàn)。此外,D-IDAgent可以通過(guò)鏈接或嵌入到網(wǎng)站上與他人共享AI代理。

據(jù)悉,D-ID Agent利用檢索增強(qiáng)生成 (RAG) 技術(shù),能夠更加了解用戶(hù)的環(huán)境并能在兩秒內(nèi)提供超過(guò) 90% 的準(zhǔn)確率響應(yīng)查詢(xún),支持多種主要語(yǔ)言,可滿(mǎn)足不同用戶(hù)生成需求。

D-ID Agent的使用場(chǎng)景豐富,電商行業(yè)可利用數(shù)字人進(jìn)行廣告代言、直播、產(chǎn)品推廣和營(yíng)銷(xiāo);教培行業(yè)可利用數(shù)字人生成數(shù)字教師進(jìn)行線(xiàn)上授課;視頻創(chuàng)作者可以用數(shù)字人代替真人拍攝,從而降低視頻制作成本,提升視頻制作效率。

付費(fèi)方面,D-ID Agent有14天免費(fèi)試用期,超過(guò)試用期有三種按月付費(fèi)標(biāo)準(zhǔn),不同的付費(fèi)標(biāo)準(zhǔn)對(duì)應(yīng)不同的使用功能,比如在生成視頻時(shí)長(zhǎng),支持插件和視頻水印方面都有區(qū)別。

體驗(yàn)地址:https://studio.d-id.com/

4、可以讀唇語(yǔ)的大模型框架——VSP-LLM

產(chǎn)品信息:VSP-LLM是一款基于AV-HuBERT模型開(kāi)發(fā)的語(yǔ)言模型框架,該框架將視覺(jué)語(yǔ)音處理和大語(yǔ)言模型(LLMs)進(jìn)行結(jié)合,旨在利用LLMs的上下文理解能力來(lái)提高視覺(jué)語(yǔ)音識(shí)別和翻譯的準(zhǔn)確性和效率。

產(chǎn)品功能:VSP-LLM可以通過(guò)觀察視頻中人物的唇部動(dòng)作,識(shí)別和理解說(shuō)話(huà)內(nèi)容,并將這些內(nèi)容直接翻譯成目標(biāo)語(yǔ)言文本。同時(shí),利用先進(jìn)的視覺(jué)語(yǔ)音識(shí)別技術(shù),結(jié)合大語(yǔ)言模型的上下文理解能力,VSP-LLM通過(guò)自監(jiān)督學(xué)習(xí),可以智能識(shí)別和去除視頻中的冗余信息,避免內(nèi)容重復(fù),提升內(nèi)容生成速度和準(zhǔn)確性。

GitHub:

https://github.com/sally-sh/vsp-llm?tab=readme-ov-file&continueFlag=a18ff0efaae82b7b920d78ac725952b5

論文:https://arxiv.org/abs/2402.15151v1

5、醫(yī)學(xué)檢索增強(qiáng)生成(RAG)框架——MIRAGE

產(chǎn)品信息:MIRAGE是一個(gè)基于搜索增強(qiáng)生成(RAG)的框架,旨在提高醫(yī)學(xué)問(wèn)答(QA)任務(wù)中的性能。

MIRAGE框架包含來(lái)自生物醫(yī)學(xué)領(lǐng)域五個(gè)常用QA數(shù)據(jù)集的7663 個(gè)問(wèn)題,通過(guò)在工作中引入的 MedRag工具包對(duì)不同語(yǔ)料庫(kù)、檢索器和骨干LLM 的 41 種組合進(jìn)行了超過(guò) 1.8 萬(wàn)億個(gè)提示標(biāo)記的大規(guī)模實(shí)驗(yàn)。

產(chǎn)品功能:首先是增強(qiáng)醫(yī)學(xué)問(wèn)答準(zhǔn)確性,通過(guò)檢索增強(qiáng)生成(RAG)技術(shù),MEDRAG利用最新可靠的醫(yī)學(xué)文檔信息來(lái)輔助大型語(yǔ)言模型(LLM),提高醫(yī)學(xué)問(wèn)答任務(wù)中的準(zhǔn)確性和可靠性。

其次是系統(tǒng)性評(píng)估醫(yī)學(xué)RAG系統(tǒng),MIRAGE基準(zhǔn)為醫(yī)學(xué)問(wèn)答領(lǐng)域的檢索增強(qiáng)生成(RAG)系統(tǒng)提供了一個(gè)系統(tǒng)性評(píng)估平臺(tái)。這種評(píng)估有助于識(shí)別哪些方法在處理醫(yī)學(xué)信息時(shí)最有效,特別是在準(zhǔn)確性和可靠性方面。

再次,提供醫(yī)學(xué)專(zhuān)用工具包,MEDRAG工具包集成了多個(gè)領(lǐng)域特定的語(yǔ)言資料庫(kù)、搜索器和大型語(yǔ)言模型(LLM),支持研究人員在醫(yī)學(xué)問(wèn)答任務(wù)上進(jìn)行全面的實(shí)驗(yàn)和評(píng)估。這些組件包括專(zhuān)門(mén)為醫(yī)學(xué)領(lǐng)域設(shè)計(jì)的文檔庫(kù)、針對(duì)醫(yī)學(xué)信息優(yōu)化的搜索算法以及適用于醫(yī)學(xué)問(wèn)答的LLM。

最后,零樣本學(xué)習(xí)能力,MEDRAG特別關(guān)注RAG系統(tǒng)的零樣本學(xué)習(xí)能力,即在沒(méi)有給出具體例子的情況下,系統(tǒng)能夠解答新的、未見(jiàn)過(guò)的醫(yī)學(xué)問(wèn)題。通過(guò)提高系統(tǒng)的零樣本學(xué)習(xí)能力,可以確保醫(yī)學(xué)問(wèn)答系統(tǒng)即使在缺乏特定數(shù)據(jù)的情況下也能提供準(zhǔn)確的答案,顯著提高系統(tǒng)在實(shí)際應(yīng)用中的靈活性和有效性。

論文地址:https://arxiv.org/abs/2402.13178

GitHub地址:https://github.com/abi/screenshot-to-code

(本文首發(fā)鈦媒體App,作者|章橙,編輯|林志佳)

 

本文系作者 章橙 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶(hù)分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

2026-03-28 23:01

澤連斯基稱(chēng)與中東3國(guó)達(dá)成防務(wù)合作協(xié)議,涉聯(lián)合生產(chǎn)無(wú)人機(jī)

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi),已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長(zhǎng)發(fā)表書(shū)面致辭,支持世貿(mào)組織《電子商務(wù)協(xié)定》達(dá)成臨時(shí)實(shí)施安排

2026-03-28 21:54

40余家單位聯(lián)盟,中國(guó)最大人形機(jī)器人訓(xùn)練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會(huì)預(yù)判:百億智能體或成新物種,AI推動(dòng)人類(lèi)文明分化

2026-03-28 21:38

第五代宏光MINIEV上市,售價(jià)4.48萬(wàn)-5.48萬(wàn)元

2026-03-28 20:42

烏稱(chēng)伊朗襲擊迪拜倉(cāng)庫(kù)并致烏克蘭人傷亡消息不實(shí)

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國(guó)務(wù)卿和歐盟官員被曝就烏克蘭問(wèn)題激烈交鋒

2026-03-28 19:44

“Token”這個(gè)詞的搜索量最高一天達(dá)到7.7萬(wàn)次,比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國(guó)首個(gè)可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動(dòng)2026”在北京啟動(dòng)

2026-03-28 19:03

國(guó)務(wù)院食安辦、市場(chǎng)監(jiān)管總局約談相關(guān)地方市級(jí)人民政府負(fù)責(zé)人,督辦“3?15”晚會(huì)曝光問(wèn)題整改

2026-03-28 18:44

飛書(shū) CLI 開(kāi)源:AI 可直連飛書(shū)辦公套件

2026-03-28 18:36

馬來(lái)西亞說(shuō)伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個(gè)月中國(guó)創(chuàng)新藥對(duì)外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國(guó)和菲律賓舉行南海問(wèn)題雙邊磋商機(jī)制第十一次會(huì)議

2026-03-28 17:30

印尼正式實(shí)施16歲以下社媒禁令,約7000萬(wàn)人受影響

2026-03-28 17:04

美國(guó)加州禁止官員借內(nèi)幕消息在預(yù)測(cè)市場(chǎng)牟利

2026-03-28 17:02

北京“超現(xiàn)場(chǎng)”生態(tài)共同體建設(shè)暨全國(guó)覆蓋啟動(dòng)

掃描下載App