近期,生成式人工智能(AIGC)領(lǐng)域又涌現(xiàn)出多款創(chuàng)意十足的新應(yīng)用。
今天,鈦媒體AGI梳理了免費(fèi) AI “神器”系列第七彈,共五款,其中不少產(chǎn)品再一次拓寬了我們對(duì)AI的想象力。
產(chǎn)品信息:日前,華為諾亞方舟實(shí)驗(yàn)室團(tuán)隊(duì)在arxiv平臺(tái)上發(fā)布多篇論文,展示華為首個(gè) AI 圖像生成模型PixArt-Σ技術(shù),參數(shù)規(guī)模為6億左右,其采用與Sora的Diffusion Transformer (DiT) 架構(gòu),可直接生成 4K 分辨率的 AI 圖像。
產(chǎn)品功能:華為團(tuán)隊(duì)在論文中表示,相比其前身PixArt-α,新的PixArt-Σ在訓(xùn)練效率、數(shù)據(jù)質(zhì)量、圖像標(biāo)題配對(duì)、圖像生成質(zhì)量等方面都有巨大提升,提供明顯更高保真度的圖像,并改進(jìn)了與文本提示的一致性。同時(shí),PixArt-Σ以顯著較小的模型規(guī)模實(shí)現(xiàn)了優(yōu)于現(xiàn)有文本到圖像擴(kuò)散模型,如 SDXL (26 億參數(shù)) 和 SD Cascade (51 億參數(shù))的圖像質(zhì)量和用戶(hù)提示遵從能力。 華為團(tuán)隊(duì)在論文中強(qiáng)調(diào),新的PixArt-Σ可生成 4K 圖像能力,從而將有效增強(qiáng)電影和游戲等行業(yè)中高質(zhì)量視覺(jué)內(nèi)容的制作。
![]()
體驗(yàn)地址:https://pixart-alpha.github.io/PixArt-sigma-project/
產(chǎn)品信息:Chat Musician是一個(gè)能理解和生成音樂(lè)的開(kāi)源大語(yǔ)言模型,通過(guò)持續(xù)預(yù)訓(xùn)練和微調(diào)LLaMA2,采用文本兼容的音樂(lè)表示方式——ABC符號(hào),使模型能夠像處理語(yǔ)言文本一樣理解和生成音樂(lè)。
![]()
產(chǎn)品功能:首先是音樂(lè)生成功能,ChatMusician可以根據(jù)給定的文本提示、和弦序列、旋律線(xiàn)索、音樂(lè)主題等,自動(dòng)生成結(jié)構(gòu)完整、風(fēng)格多樣的音樂(lè)作品,性能超越GPT-4的基線(xiàn)。
其次是音樂(lè)理解功能,ChatMusician可以理解和分析音樂(lè)理論的各個(gè)方面,如和聲分析、旋律結(jié)構(gòu)、音樂(lè)形式等。在專(zhuān)為大學(xué)級(jí)音樂(lè)理解基準(zhǔn)測(cè)試MusicTheoryBench上,ChatMusician在零樣本設(shè)置中超過(guò)了LLaMA2和GPT-3.5,展示了其在音樂(lè)理論理解方面的優(yōu)異性能。
此外,ChatMusicia還提供了大規(guī)模的音樂(lè)語(yǔ)言語(yǔ)料庫(kù)(MusicPile)、音樂(lè)理論基準(zhǔn)測(cè)試(MusicTheoryBench)、模型代碼和在線(xiàn)演示,以供研究和教育使用。
項(xiàng)目演示:https://shanghaicannon.github.io/ChatMusician/
論文地址:https://arxiv.org/pdf/2402.16153.pdf
產(chǎn)品介紹:D-IDAgent是生成數(shù)字人平臺(tái)D-ID推出的一項(xiàng)可定制AI化身功能,用戶(hù)只需通過(guò)一張照片就能生成屬于自己的AI數(shù)字人。
產(chǎn)品功能:用戶(hù)可以通過(guò)上傳一張照片或一段語(yǔ)音就能生成屬于自己的AI數(shù)字人,并且生成的數(shù)字人可實(shí)現(xiàn)人性化交互。在接受用戶(hù)指令后,數(shù)字人可以通過(guò)面部表情和手勢(shì)以及多種語(yǔ)言進(jìn)行回應(yīng),提供類(lèi)似真人的面對(duì)面溝通體驗(yàn)。此外,D-IDAgent可以通過(guò)鏈接或嵌入到網(wǎng)站上與他人共享AI代理。
![]()
據(jù)悉,D-ID Agent利用檢索增強(qiáng)生成 (RAG) 技術(shù),能夠更加了解用戶(hù)的環(huán)境并能在兩秒內(nèi)提供超過(guò) 90% 的準(zhǔn)確率響應(yīng)查詢(xún),支持多種主要語(yǔ)言,可滿(mǎn)足不同用戶(hù)生成需求。
D-ID Agent的使用場(chǎng)景豐富,電商行業(yè)可利用數(shù)字人進(jìn)行廣告代言、直播、產(chǎn)品推廣和營(yíng)銷(xiāo);教培行業(yè)可利用數(shù)字人生成數(shù)字教師進(jìn)行線(xiàn)上授課;視頻創(chuàng)作者可以用數(shù)字人代替真人拍攝,從而降低視頻制作成本,提升視頻制作效率。
付費(fèi)方面,D-ID Agent有14天免費(fèi)試用期,超過(guò)試用期有三種按月付費(fèi)標(biāo)準(zhǔn),不同的付費(fèi)標(biāo)準(zhǔn)對(duì)應(yīng)不同的使用功能,比如在生成視頻時(shí)長(zhǎng),支持插件和視頻水印方面都有區(qū)別。
![]()
體驗(yàn)地址:https://studio.d-id.com/
產(chǎn)品信息:VSP-LLM是一款基于AV-HuBERT模型開(kāi)發(fā)的語(yǔ)言模型框架,該框架將視覺(jué)語(yǔ)音處理和大語(yǔ)言模型(LLMs)進(jìn)行結(jié)合,旨在利用LLMs的上下文理解能力來(lái)提高視覺(jué)語(yǔ)音識(shí)別和翻譯的準(zhǔn)確性和效率。
產(chǎn)品功能:VSP-LLM可以通過(guò)觀察視頻中人物的唇部動(dòng)作,識(shí)別和理解說(shuō)話(huà)內(nèi)容,并將這些內(nèi)容直接翻譯成目標(biāo)語(yǔ)言文本。同時(shí),利用先進(jìn)的視覺(jué)語(yǔ)音識(shí)別技術(shù),結(jié)合大語(yǔ)言模型的上下文理解能力,VSP-LLM通過(guò)自監(jiān)督學(xué)習(xí),可以智能識(shí)別和去除視頻中的冗余信息,避免內(nèi)容重復(fù),提升內(nèi)容生成速度和準(zhǔn)確性。

GitHub:
https://github.com/sally-sh/vsp-llm?tab=readme-ov-file&continueFlag=a18ff0efaae82b7b920d78ac725952b5
論文:https://arxiv.org/abs/2402.15151v1
產(chǎn)品信息:MIRAGE是一個(gè)基于搜索增強(qiáng)生成(RAG)的框架,旨在提高醫(yī)學(xué)問(wèn)答(QA)任務(wù)中的性能。
MIRAGE框架包含來(lái)自生物醫(yī)學(xué)領(lǐng)域五個(gè)常用QA數(shù)據(jù)集的7663 個(gè)問(wèn)題,通過(guò)在工作中引入的 MedRag工具包對(duì)不同語(yǔ)料庫(kù)、檢索器和骨干LLM 的 41 種組合進(jìn)行了超過(guò) 1.8 萬(wàn)億個(gè)提示標(biāo)記的大規(guī)模實(shí)驗(yàn)。
![]()
產(chǎn)品功能:首先是增強(qiáng)醫(yī)學(xué)問(wèn)答準(zhǔn)確性,通過(guò)檢索增強(qiáng)生成(RAG)技術(shù),MEDRAG利用最新可靠的醫(yī)學(xué)文檔信息來(lái)輔助大型語(yǔ)言模型(LLM),提高醫(yī)學(xué)問(wèn)答任務(wù)中的準(zhǔn)確性和可靠性。
其次是系統(tǒng)性評(píng)估醫(yī)學(xué)RAG系統(tǒng),MIRAGE基準(zhǔn)為醫(yī)學(xué)問(wèn)答領(lǐng)域的檢索增強(qiáng)生成(RAG)系統(tǒng)提供了一個(gè)系統(tǒng)性評(píng)估平臺(tái)。這種評(píng)估有助于識(shí)別哪些方法在處理醫(yī)學(xué)信息時(shí)最有效,特別是在準(zhǔn)確性和可靠性方面。
再次,提供醫(yī)學(xué)專(zhuān)用工具包,MEDRAG工具包集成了多個(gè)領(lǐng)域特定的語(yǔ)言資料庫(kù)、搜索器和大型語(yǔ)言模型(LLM),支持研究人員在醫(yī)學(xué)問(wèn)答任務(wù)上進(jìn)行全面的實(shí)驗(yàn)和評(píng)估。這些組件包括專(zhuān)門(mén)為醫(yī)學(xué)領(lǐng)域設(shè)計(jì)的文檔庫(kù)、針對(duì)醫(yī)學(xué)信息優(yōu)化的搜索算法以及適用于醫(yī)學(xué)問(wèn)答的LLM。
最后,零樣本學(xué)習(xí)能力,MEDRAG特別關(guān)注RAG系統(tǒng)的零樣本學(xué)習(xí)能力,即在沒(méi)有給出具體例子的情況下,系統(tǒng)能夠解答新的、未見(jiàn)過(guò)的醫(yī)學(xué)問(wèn)題。通過(guò)提高系統(tǒng)的零樣本學(xué)習(xí)能力,可以確保醫(yī)學(xué)問(wèn)答系統(tǒng)即使在缺乏特定數(shù)據(jù)的情況下也能提供準(zhǔn)確的答案,顯著提高系統(tǒng)在實(shí)際應(yīng)用中的靈活性和有效性。
論文地址:https://arxiv.org/abs/2402.13178
GitHub地址:https://github.com/abi/screenshot-to-code
(本文首發(fā)鈦媒體App,作者|章橙,編輯|林志佳)
![]()
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論