圖片來源@視覺中國
文 | 宇婷DayDayUp
根據(jù)創(chuàng)業(yè)投資家、前谷歌中國總裁、今年早些時候創(chuàng)辦了位于北京的大型語言模型開發(fā)初創(chuàng)公司01.AI的李開復(fù)的說法,中國的生成型人工智能初創(chuàng)公司正在經(jīng)歷“預(yù)選賽階段”。上個月,該公司以10億美元的估值完成了一輪融資。
中國最大的互聯(lián)網(wǎng)公司,如阿里巴巴、騰訊、百度和字節(jié)跳動,以及數(shù)十家初創(chuàng)公司,都在開發(fā)自己的大型語言模型,當?shù)孛襟w將其描述為“百模之戰(zhàn)”。由于中國政府封鎖了OpenAI、谷歌和其他美國互聯(lián)網(wǎng)服務(wù),國內(nèi)公司正爭奪人工智能的霸主地位。李開復(fù)在接受采訪時表示,公司目前正處于試圖證明自己具備構(gòu)建高質(zhì)量模型的技術(shù)的階段。那些通過了這一測試的公司將進入下一階段,這將涉及如何增加收入并最終實現(xiàn)盈利。
李開復(fù)的公司成立于今年3月,現(xiàn)在擁有100多名員工,大部分位于中國大陸,主要是北京。上個月,01.AI推出了其第一個開源語言模型Yi-34B,但該公司不會依賴該模型來獲取未來的收入。相反,它的商業(yè)計劃是銷售專有的語言模型,主要面向中國的客戶。據(jù)李開復(fù)稱,該公司目前正在開發(fā)一個擁有超過1000億參數(shù)的新的專有模型。
上個月,Yi-34B迅速攀升至Hugging Face開源語言模型排行榜的首位,引發(fā)了一些爭議。開發(fā)者的詢問揭示出Yi-34B使用了Meta Platforms的Llama開源AI模型,但沒有提及Llama。最終,01.AI將Yi-34B的部分重命名以致謝Llama,并對此事進行了道歉。
李開復(fù)在北京的辦公室通過視頻通話接受了《The Information》的采訪,他談到了01.AI如何應(yīng)對美國政府對芯片出口的限制,以及中國人工智能公司在全球的機會。以下是經(jīng)過編輯的問答內(nèi)容。
我認為中國在以前的很多情況下都經(jīng)歷過這種情況,比如Groupon的仿制品、共享單車應(yīng)用,以及在深度技術(shù)領(lǐng)域的計算機視覺和語音識別。當計算機視覺被證明取得重大突破時,中國的每個人都紛紛加入,并嘗試用各種可能的應(yīng)用。但其中大多數(shù)都沒有生存下來。中國市場是一個非常非常競爭激烈的市場,甚至可能比美國還要激烈。
目前中國的競爭仍處于預(yù)選賽階段。第一個測試是:在這100家公司中,哪一家能夠創(chuàng)建出具有真正價值的高質(zhì)量模型?這意味著要展現(xiàn)出良好的性能,因為在提供有用內(nèi)容和戰(zhàn)略洞察方面,技術(shù)的優(yōu)劣仍然是至關(guān)重要的。如果你沒有足夠好的模型,那么它更像是一個玩具,而不是一個解決實際問題的技術(shù)。
在預(yù)選賽階段通過技術(shù)測試的公司將進入下一個階段,即商業(yè)價值。你的商業(yè)模式是什么?你如何賺錢?很快,這些公司將根據(jù)其損益報表進行評估,投資者將問與云服務(wù)提供商、企業(yè)軟件公司和消費者應(yīng)用程序相同的問題。如果公司無法回答這些問題,它們的增長將停止。在美國,OpenAI已經(jīng)證明了其世界領(lǐng)先的技術(shù),它也能夠產(chǎn)生收入。OpenAI創(chuàng)造了足夠的價值,以至于人們在其上構(gòu)建應(yīng)用并為此付費。
在中國,最終會有幾家大贏家,幾家不錯的退出,但大多數(shù)公司最終要么會退出市場,要么會轉(zhuǎn)向更為保守的領(lǐng)域,例如為特定行業(yè)構(gòu)建應(yīng)用程序和解決方案,而不是嘗試預(yù)訓練的大型模型,因為這類模型的成本將隨時間增加。
我們都不希望出現(xiàn)平行宇宙。我們更喜歡在全球范圍內(nèi)競爭,讓最好的公司獲勝。這樣更加高效。但在這種情況下,我們無法控制我們的命運。
尤其存在地緣政治問題。如果我們想進入美國市場,雖然沒有規(guī)定說我們不能進入,但由于當前對中國軟件的(我認為是不公平的)看法,我認為我們不會獲得很多業(yè)務(wù)。所以這只是我們接受了的實際情況。
各國希望對自己的模型擁有更多控制權(quán)。
我確實認為有機會為不同的國家構(gòu)建特殊的模型。這是硅谷公司自然不會去做的事情。為不同的市場構(gòu)建不同的模型是一項龐大的工程任務(wù)。因此,硅谷公司自然不會傾向于構(gòu)建這些模型。而來自世界其他地區(qū)的公司,包括中國,可能有機會研究這些模型。當然,他們必須贏得用戶和各國政府的信任。
我們擁有一個非常強大的基礎(chǔ)設(shè)施團隊。這是我們團隊中最大的一部分。我早些時候告訴我的員工,每當你增加一個建模人員,你就在稀釋你的[圖形處理單元]。每當你增加一個基礎(chǔ)設(shè)施人員,你就能更好地利用你的GPU。當然,你需要一個強大的建模團隊,但從一開始,我們就把建立一個強大的基礎(chǔ)設(shè)施團隊作為首要任務(wù)。
基礎(chǔ)設(shè)施是默默無聞的英雄之工作。他們必須處理硬件、軟件和大量的數(shù)據(jù)傳輸。他們同時處理GPU、內(nèi)存和網(wǎng)絡(luò),其中任何一個都可能成為瓶頸。
GPU很難擴展到數(shù)千個以上。當你從2000個擴展到8000個時,你不能只運行現(xiàn)有的軟件,因為隨著模型和數(shù)據(jù)規(guī)模的增大,網(wǎng)絡(luò)需求會發(fā)生巨大變化。
我們的基礎(chǔ)設(shè)施團隊由幾十名工程師組成,目前是01.AI最大的團隊。例如,我們的基礎(chǔ)設(shè)施團隊所做的工作包括全面使用FP8——Nvidia H100芯片的一種數(shù)據(jù)格式,從而大幅減少計算量。團隊找出了在哪些地方可以使用FP8,在哪些地方可以使用其他類型,并且如何無縫轉(zhuǎn)換。他們還處理了像使用哪種網(wǎng)絡(luò)協(xié)議、如何優(yōu)化編譯器以及如何處理故障GPU等問題。GPU的故障率實際上相當高。當一個GPU故障時,你能熱插拔嗎?拔掉?我們?nèi)栽谂鉀Q這個問題。如果你的訓練因為一個GPU在千個GPU集群中故障而停止一個小時,能夠熱插拔將節(jié)省你每天一個小時的時間。這些小事情都會累積起來。
另一個相關(guān)的問題是彈性訓練。這意味著如果你有一個由2000個H100芯片組成的集群,并且你需要500個用于其他任務(wù),你能在檢查點之間移除它們,然后再添加回來嗎?這些任務(wù)與AI研究人員的訓練并不相關(guān),更與網(wǎng)絡(luò)工程師有關(guān)。
如果LLM的開發(fā)是火箭科學,那么沒有工程師,火箭將永遠無法起飛。SpaceX之所以成功,并不僅僅因為一群研究人員,而是因為它有一大批非常復(fù)雜、錯綜復(fù)雜的工程師。
我公開表示,我們有足夠的芯片供應(yīng)可以維持18個月的時間。這基本上是之前我們購買的芯片。我們肯定在努力研究如何使用中國芯片。
Nvidia的芯片非常出色,但有人可能會爭辯說,一個更簡單的芯片可以以更低的成本完成工作。但Nvidia的強大之處在于其圍繞CUDA軟件庫建立的整個生態(tài)系統(tǒng),使得編程變得簡單。如果強迫工程師使用非Nvidia芯片,他們的工作效率會大大降低,他們基本上會反對這樣做。但我們現(xiàn)在面臨的問題是在18個月內(nèi),我們必須開始得更早。如果我們無法獲得Nvidia芯片,我們將尋找更專注于transformers的更簡單的芯片,但編程將變得非常困難。但如果我們別無選擇,那我們就別無選擇。
但是中國工程師以能力強、肯做苦工而著稱。這與我之前關(guān)于我們基礎(chǔ)設(shè)施團隊的工作所說的類似。
中國的創(chuàng)業(yè)者堅韌不拔。中國的工程師勤奮努力,他們不怕苦。這正是美團打造卓越服務(wù)的原因,也是微信成為卓越產(chǎn)品的原因。
是的,這些都是困難的挑戰(zhàn),你可以說它們是浪費時間和許多人的精力。但這就是我們面臨的現(xiàn)實,所以我們會盡力發(fā)揮我們的優(yōu)勢。
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論