圖片來(lái)源@pixabay

大模型的生產(chǎn)需要數(shù)據(jù)底座的支撐,因?yàn)橹挥懈哔|(zhì)量、高密度的數(shù)據(jù)去訓(xùn)練模型,才有可能得到更精準(zhǔn)的生成效果。就當(dāng)前而言,訓(xùn)練一個(gè)500T參數(shù)的模型,使用的訓(xùn)練數(shù)據(jù)已經(jīng)達(dá)到16.6PB,如果一本書按500KB算,相當(dāng)于332億本的數(shù)據(jù)量。這是什么概念?好比說(shuō)現(xiàn)存每個(gè)人類擁有4本書的量級(jí)。

但問題是,使用大量互聯(lián)網(wǎng)上公開數(shù)據(jù)集,僅在數(shù)據(jù)清洗環(huán)節(jié)就提出極大挑戰(zhàn),被精煉的高質(zhì)量數(shù)據(jù)正如石油一樣,非常珍貴。鈦媒體APP注意到,目前不少模型提供方,已經(jīng)在特定領(lǐng)域使用合成數(shù)據(jù)用于模型訓(xùn)練,其原理是希望能夠基于大模型自動(dòng)生成高質(zhì)量數(shù)據(jù)集。而這只是一方面。

目前數(shù)據(jù)量的暴漲,還要求使用各種技術(shù)手段實(shí)現(xiàn)數(shù)據(jù)的預(yù)訓(xùn)練和微調(diào),數(shù)據(jù)智能應(yīng)用場(chǎng)景下,對(duì)大數(shù)據(jù)平臺(tái)的管理水平和安全能力要求提升,這對(duì)于基于云服務(wù)應(yīng)用的企業(yè)而言,挑戰(zhàn)的復(fù)雜性會(huì)更為明顯。

在媒體溝通會(huì)上,亞馬遜云科技探討了數(shù)據(jù)在生成式AI時(shí)代的重要性及挑戰(zhàn),從三個(gè)層面分析企業(yè)想要構(gòu)建數(shù)據(jù)底座,可參考的解決方案和路徑。鈦媒體摘錄了一些關(guān)鍵要點(diǎn),如下:

  1. 企業(yè)構(gòu)建數(shù)據(jù)底座過(guò)程中,往往會(huì)通過(guò)三類方式進(jìn)行基礎(chǔ)模型的數(shù)據(jù)定制,以適應(yīng)不同應(yīng)用場(chǎng)景,分別是:檢索增強(qiáng)生成(Retrieval-Augmented Generation,RAG)、微調(diào)和持續(xù)預(yù)訓(xùn)練。
  2. RAG、微調(diào)和持續(xù)預(yù)訓(xùn)練需要的數(shù)據(jù)規(guī)模、數(shù)據(jù)來(lái)源和技術(shù)要求各不相同。例如,RAG需要GB級(jí)企業(yè)數(shù)據(jù),微調(diào)需要GB級(jí)人工標(biāo)的高質(zhì)量數(shù)據(jù),持續(xù)預(yù)訓(xùn)練則需要TB級(jí)未標(biāo)的原始數(shù)據(jù)。RAG的數(shù)據(jù)來(lái)源是企業(yè)內(nèi)部文檔庫(kù)、數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、知識(shí)圖譜;微調(diào)數(shù)據(jù)來(lái)源為私域知識(shí);持續(xù)預(yù)訓(xùn)練數(shù)據(jù)來(lái)源為公開的數(shù)據(jù)集或企業(yè)各部門的數(shù)據(jù)。
  3. 企業(yè)構(gòu)建數(shù)據(jù)底座面臨三類挑戰(zhàn):一是在模型微調(diào)和預(yù)訓(xùn)練階段,將海量原始數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量的大數(shù)據(jù)集,對(duì)存儲(chǔ)、清洗、治理的挑戰(zhàn);二是快速獲取專有數(shù)據(jù)的挑戰(zhàn);三是基礎(chǔ)模型頻繁調(diào)用將會(huì)導(dǎo)致成本的增加和響應(yīng)的延遲的挑戰(zhàn)
  4. 企業(yè)構(gòu)建數(shù)據(jù)底座也應(yīng)從上述三類挑戰(zhàn)入手:一是找到合適的存儲(chǔ)來(lái)承載海量數(shù)據(jù);清洗加工原始數(shù)據(jù)為高質(zhì)量數(shù)據(jù)集;對(duì)整個(gè)組織內(nèi)數(shù)據(jù)的發(fā)現(xiàn)編目治理;二是利用RAG將專有數(shù)據(jù)提供給基礎(chǔ)模型;三是通過(guò)將之前問答生成的新數(shù)據(jù)存入緩存,從而在面對(duì)類似問題時(shí),可以不調(diào)用模型,而直接通過(guò)緩存給出回答,這不但能夠減少模型調(diào)用,還可以節(jié)約成本。

  圖片來(lái)源@亞馬遜云科技

亞馬遜云科技大中華區(qū)數(shù)據(jù)分析與生成式AI產(chǎn)品總監(jiān)崔瑋在交流中告訴鈦媒體APP,從前端模型的使用來(lái)看,Amazon Bedrock提供了一個(gè)平臺(tái)開放給客戶,讓客戶自己選擇適合自身業(yè)務(wù)場(chǎng)景的模型。同樣在后端,無(wú)論是數(shù)據(jù)分析工具,還是數(shù)據(jù)庫(kù),都是希望通過(guò)提供一套最合適的產(chǎn)品和服務(wù),讓用戶在任何一個(gè)應(yīng)用,任何一個(gè)數(shù)據(jù)存儲(chǔ)的環(huán)境,都可以通過(guò)向量化能力,對(duì)接到企業(yè)客戶的不同業(yè)務(wù)場(chǎng)景中。

在數(shù)據(jù)存儲(chǔ)方面,擴(kuò)展性和響應(yīng)速度是關(guān)鍵。Amazon S3對(duì)象存儲(chǔ),支持廣泛的數(shù)據(jù)協(xié)議,應(yīng)對(duì)各種數(shù)據(jù)類型,還支持智能分層以降低訓(xùn)練成本。Amazon FSx for Lustre文件存儲(chǔ)服務(wù),提供亞毫秒延遲和數(shù)百萬(wàn)IOPS的吞吐性能,能夠進(jìn)一步加快模型優(yōu)化的速度。

在數(shù)據(jù)清洗方面,企業(yè)面臨著繁重的數(shù)據(jù)清洗加工任務(wù)。Amazon EMR serverless采用無(wú)服務(wù)器架構(gòu),幫助企業(yè)運(yùn)行任何規(guī)模的分析工作負(fù)載,自動(dòng)擴(kuò)展功能可在幾秒鐘內(nèi)調(diào)整資源大小,以滿足不斷變化的數(shù)據(jù)量和處理要求。Amazon Glue是一個(gè)簡(jiǎn)單可擴(kuò)展的無(wú)服務(wù)器數(shù)據(jù)集成服務(wù),可快速完成微調(diào)或預(yù)訓(xùn)練模型的數(shù)據(jù)準(zhǔn)備工作。

在數(shù)據(jù)治理方面,企業(yè)難以在多個(gè)賬戶和區(qū)域中查找數(shù)據(jù),也缺乏有效的數(shù)據(jù)治理工具。Amazon DataZone讓企業(yè)能夠跨組織邊界大規(guī)模地發(fā)現(xiàn)、共享和管理數(shù)據(jù),不但能夠?yàn)槎嘣炊嗄B(tài)數(shù)據(jù)進(jìn)行有效編目和治理,還提供簡(jiǎn)單易用的統(tǒng)一數(shù)據(jù)管理平臺(tái)和工具。

利用RAG技術(shù)將專有數(shù)據(jù)提供給基礎(chǔ)模型。將向量搜索的支持功能加入到主流的數(shù)據(jù)服務(wù)中,通過(guò)將數(shù)據(jù)和向量存儲(chǔ)在一起來(lái)提升數(shù)據(jù)查詢性能。Amazon Neptune圖數(shù)據(jù)庫(kù)推出分析數(shù)據(jù)庫(kù)引擎,以結(jié)合圖數(shù)據(jù)庫(kù)與大模型的優(yōu)勢(shì),從而能夠快速?gòu)膱D形數(shù)據(jù)中獲取洞察,并進(jìn)行更快的向量搜索。

在提升模型調(diào)用效率方面。Amazon Memory DB內(nèi)存數(shù)據(jù)庫(kù)通過(guò)緩存之前問答生成的新數(shù)據(jù),實(shí)現(xiàn)對(duì)類似問題的快速響應(yīng)和準(zhǔn)確回答,同時(shí)有效降低基礎(chǔ)模型的調(diào)用頻率。此外,亞馬遜云科技還將無(wú)服務(wù)器數(shù)據(jù)庫(kù)服務(wù)和Amazon OpenSearch Serverless用于向量搜索。

正如亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建所言,“企業(yè)需要的是懂業(yè)務(wù)、懂用戶的生成式AI應(yīng)用,而打造這樣的應(yīng)用需要從數(shù)據(jù)做起。”

例如,北京靈奧科技是一家大模型中間件領(lǐng)域創(chuàng)企。在此之前,北京靈奧科技就已經(jīng)將整個(gè)平臺(tái)搭建在亞馬遜科技之上,使用了Amazon EKS、Amazon DocumentDB、Amazon S3等基礎(chǔ)云服務(wù)和數(shù)據(jù)存儲(chǔ)產(chǎn)品,以及基于Amazon Bedrock提供的Claude模型,用于構(gòu)建Vanus平臺(tái)的AI Agent助手。

  圖片來(lái)源@靈奧科技

在服務(wù)一家南美州服飾類電商企業(yè)的過(guò)程中,Vanus為Shopify電商客戶構(gòu)建了客服類Agent VanChat。數(shù)據(jù)顯示,通過(guò)VanChat提供的用戶意圖識(shí)別、產(chǎn)品推薦等功能加速用戶產(chǎn)品購(gòu)買,提升網(wǎng)站的銷售額。VanChat為該客戶帶來(lái)快速的營(yíng)收增長(zhǎng),僅上線首月ROI高達(dá)611%。 

從最近的動(dòng)作來(lái)看,擅長(zhǎng)從客戶需求視角倒推產(chǎn)品,亞馬遜云科技已將上述提及的能力抽象為部分產(chǎn)品方案開放出來(lái)。(本文首發(fā)于鈦媒體APP, 作者|楊麗,編輯 | 蓋虹達(dá))  

本文系作者 TechHorizon 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

15:01

國(guó)內(nèi)兆瓦級(jí)液氫燃料航空發(fā)動(dòng)機(jī)首次整機(jī)性能達(dá)標(biāo)

14:30

河南:聚焦老年用品研發(fā)生產(chǎn)培育龍頭企業(yè)和產(chǎn)業(yè)集群,建設(shè)高標(biāo)準(zhǔn)養(yǎng)老產(chǎn)業(yè)園區(qū)

14:28

河南:到2027年養(yǎng)老服務(wù)等領(lǐng)域民政服務(wù)供給不斷優(yōu)化

14:02

宇樹科技王興興:具身智能GPT時(shí)刻大概還需兩到三年

14:01

阿塞拜疆首都地區(qū)降水量打破百年紀(jì)錄

13:54

蒙古國(guó)執(zhí)政黨選定總理候選人

13:32

本周南向資金凈買入251億港元,泡泡瑪特凈買入超36億港元

13:17

沙特每日700萬(wàn)桶石油繞過(guò)霍爾木茲

13:16

中東兩大鋁廠遇襲,恐影響全球供應(yīng)鏈

12:58

全國(guó)累計(jì)器官捐獻(xiàn)志愿登記人數(shù)超過(guò)733萬(wàn)

12:46

宇樹科技具身智能體驗(yàn)館亞洲首店將于5月底落地上海

12:44

洛杉磯10萬(wàn)人參加“不要國(guó)王”抗議,多人被捕

12:37

今年前兩月霍爾果斯口岸果蔬出口增長(zhǎng)29.3%

11:48

中國(guó)首臺(tái)商用12兆伏串列加速器成功下線

11:40

美副總統(tǒng)稱無(wú)意滯留伊朗,將很快撤出

11:39

中關(guān)村兩院具身通用智能基座模型與社會(huì)模擬器等科研成果發(fā)布

11:37

清明檔新片預(yù)售票房突破2000萬(wàn)

11:30

約千人“包圍”洛杉磯政府機(jī)構(gòu)大樓,兩人被捕

10:59

中穎電子:有序推進(jìn)車規(guī)芯片研發(fā),新產(chǎn)品預(yù)期今年推出

10:50

德研究報(bào)告:中國(guó)工業(yè)數(shù)字化水平全球領(lǐng)先

掃描下載App