圖片來(lái)源@pixabay
大模型的生產(chǎn)需要數(shù)據(jù)底座的支撐,因?yàn)橹挥懈哔|(zhì)量、高密度的數(shù)據(jù)去訓(xùn)練模型,才有可能得到更精準(zhǔn)的生成效果。就當(dāng)前而言,訓(xùn)練一個(gè)500T參數(shù)的模型,使用的訓(xùn)練數(shù)據(jù)已經(jīng)達(dá)到16.6PB,如果一本書按500KB算,相當(dāng)于332億本的數(shù)據(jù)量。這是什么概念?好比說(shuō)現(xiàn)存每個(gè)人類擁有4本書的量級(jí)。
但問題是,使用大量互聯(lián)網(wǎng)上公開數(shù)據(jù)集,僅在數(shù)據(jù)清洗環(huán)節(jié)就提出極大挑戰(zhàn),被精煉的高質(zhì)量數(shù)據(jù)正如石油一樣,非常珍貴。鈦媒體APP注意到,目前不少模型提供方,已經(jīng)在特定領(lǐng)域使用合成數(shù)據(jù)用于模型訓(xùn)練,其原理是希望能夠基于大模型自動(dòng)生成高質(zhì)量數(shù)據(jù)集。而這只是一方面。
目前數(shù)據(jù)量的暴漲,還要求使用各種技術(shù)手段實(shí)現(xiàn)數(shù)據(jù)的預(yù)訓(xùn)練和微調(diào),數(shù)據(jù)智能應(yīng)用場(chǎng)景下,對(duì)大數(shù)據(jù)平臺(tái)的管理水平和安全能力要求提升,這對(duì)于基于云服務(wù)應(yīng)用的企業(yè)而言,挑戰(zhàn)的復(fù)雜性會(huì)更為明顯。
在媒體溝通會(huì)上,亞馬遜云科技探討了數(shù)據(jù)在生成式AI時(shí)代的重要性及挑戰(zhàn),從三個(gè)層面分析企業(yè)想要構(gòu)建數(shù)據(jù)底座,可參考的解決方案和路徑。鈦媒體摘錄了一些關(guān)鍵要點(diǎn),如下:
![]()
圖片來(lái)源@亞馬遜云科技
亞馬遜云科技大中華區(qū)數(shù)據(jù)分析與生成式AI產(chǎn)品總監(jiān)崔瑋在交流中告訴鈦媒體APP,從前端模型的使用來(lái)看,Amazon Bedrock提供了一個(gè)平臺(tái)開放給客戶,讓客戶自己選擇適合自身業(yè)務(wù)場(chǎng)景的模型。同樣在后端,無(wú)論是數(shù)據(jù)分析工具,還是數(shù)據(jù)庫(kù),都是希望通過(guò)提供一套最合適的產(chǎn)品和服務(wù),讓用戶在任何一個(gè)應(yīng)用,任何一個(gè)數(shù)據(jù)存儲(chǔ)的環(huán)境,都可以通過(guò)向量化能力,對(duì)接到企業(yè)客戶的不同業(yè)務(wù)場(chǎng)景中。
在數(shù)據(jù)存儲(chǔ)方面,擴(kuò)展性和響應(yīng)速度是關(guān)鍵。Amazon S3對(duì)象存儲(chǔ),支持廣泛的數(shù)據(jù)協(xié)議,應(yīng)對(duì)各種數(shù)據(jù)類型,還支持智能分層以降低訓(xùn)練成本。Amazon FSx for Lustre文件存儲(chǔ)服務(wù),提供亞毫秒延遲和數(shù)百萬(wàn)IOPS的吞吐性能,能夠進(jìn)一步加快模型優(yōu)化的速度。
在數(shù)據(jù)清洗方面,企業(yè)面臨著繁重的數(shù)據(jù)清洗加工任務(wù)。Amazon EMR serverless采用無(wú)服務(wù)器架構(gòu),幫助企業(yè)運(yùn)行任何規(guī)模的分析工作負(fù)載,自動(dòng)擴(kuò)展功能可在幾秒鐘內(nèi)調(diào)整資源大小,以滿足不斷變化的數(shù)據(jù)量和處理要求。Amazon Glue是一個(gè)簡(jiǎn)單可擴(kuò)展的無(wú)服務(wù)器數(shù)據(jù)集成服務(wù),可快速完成微調(diào)或預(yù)訓(xùn)練模型的數(shù)據(jù)準(zhǔn)備工作。
在數(shù)據(jù)治理方面,企業(yè)難以在多個(gè)賬戶和區(qū)域中查找數(shù)據(jù),也缺乏有效的數(shù)據(jù)治理工具。Amazon DataZone讓企業(yè)能夠跨組織邊界大規(guī)模地發(fā)現(xiàn)、共享和管理數(shù)據(jù),不但能夠?yàn)槎嘣炊嗄B(tài)數(shù)據(jù)進(jìn)行有效編目和治理,還提供簡(jiǎn)單易用的統(tǒng)一數(shù)據(jù)管理平臺(tái)和工具。
利用RAG技術(shù)將專有數(shù)據(jù)提供給基礎(chǔ)模型。將向量搜索的支持功能加入到主流的數(shù)據(jù)服務(wù)中,通過(guò)將數(shù)據(jù)和向量存儲(chǔ)在一起來(lái)提升數(shù)據(jù)查詢性能。Amazon Neptune圖數(shù)據(jù)庫(kù)推出分析數(shù)據(jù)庫(kù)引擎,以結(jié)合圖數(shù)據(jù)庫(kù)與大模型的優(yōu)勢(shì),從而能夠快速?gòu)膱D形數(shù)據(jù)中獲取洞察,并進(jìn)行更快的向量搜索。
在提升模型調(diào)用效率方面。Amazon Memory DB內(nèi)存數(shù)據(jù)庫(kù)通過(guò)緩存之前問答生成的新數(shù)據(jù),實(shí)現(xiàn)對(duì)類似問題的快速響應(yīng)和準(zhǔn)確回答,同時(shí)有效降低基礎(chǔ)模型的調(diào)用頻率。此外,亞馬遜云科技還將無(wú)服務(wù)器數(shù)據(jù)庫(kù)服務(wù)和Amazon OpenSearch Serverless用于向量搜索。
正如亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建所言,“企業(yè)需要的是懂業(yè)務(wù)、懂用戶的生成式AI應(yīng)用,而打造這樣的應(yīng)用需要從數(shù)據(jù)做起。”
例如,北京靈奧科技是一家大模型中間件領(lǐng)域創(chuàng)企。在此之前,北京靈奧科技就已經(jīng)將整個(gè)平臺(tái)搭建在亞馬遜科技之上,使用了Amazon EKS、Amazon DocumentDB、Amazon S3等基礎(chǔ)云服務(wù)和數(shù)據(jù)存儲(chǔ)產(chǎn)品,以及基于Amazon Bedrock提供的Claude模型,用于構(gòu)建Vanus平臺(tái)的AI Agent助手。
![]()
圖片來(lái)源@靈奧科技
在服務(wù)一家南美州服飾類電商企業(yè)的過(guò)程中,Vanus為Shopify電商客戶構(gòu)建了客服類Agent VanChat。數(shù)據(jù)顯示,通過(guò)VanChat提供的用戶意圖識(shí)別、產(chǎn)品推薦等功能加速用戶產(chǎn)品購(gòu)買,提升網(wǎng)站的銷售額。VanChat為該客戶帶來(lái)快速的營(yíng)收增長(zhǎng),僅上線首月ROI高達(dá)611%。
從最近的動(dòng)作來(lái)看,擅長(zhǎng)從客戶需求視角倒推產(chǎn)品,亞馬遜云科技已將上述提及的能力抽象為部分產(chǎn)品方案開放出來(lái)。(本文首發(fā)于鈦媒體APP, 作者|楊麗,編輯 | 蓋虹達(dá))
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論