圖片來(lái)源@視覺(jué)中國(guó)

文 | 硅谷101,作者 | 鐘子湫,編輯 | 泓君

隨著AI過(guò)火,最近越來(lái)越多的中國(guó)大模型加入了這場(chǎng)AI大模型之戰(zhàn)。中國(guó)的大模型跟海外大模型相比到底怎么樣?真格基金做了一套大模型的大模型測(cè)試集Z-Bench,設(shè)計(jì)了300個(gè)問(wèn)題去評(píng)估中外大模型之家的綜合能力。

在這套評(píng)分系統(tǒng)下,今年3月份的測(cè)試數(shù)據(jù),OpenAI推出的GPT3.5得分60多分,之后GPT4發(fā)布得分80分。在這套評(píng)分系統(tǒng)剛剛推出來(lái)的3月份,真格對(duì)中國(guó)幾家創(chuàng)業(yè)公司的模型水平做了測(cè)試:,一家是30分,一家是19分,國(guó)產(chǎn)的文心一言大概是20分左右的水平,幾個(gè)月前差距還是比較大。

“就在前兩天我們也陸續(xù)拿到一些國(guó)產(chǎn)的上市公司或者大型公司做的模型,又進(jìn)行了一些測(cè)試,商湯的模型已經(jīng)到了 50 分的水平。這也就是說(shuō)國(guó)產(chǎn)大模型得分一開(kāi)始和GPT差距很大,但現(xiàn)在的差距的確在不斷縮小。”真格基金管理合伙人戴雨森在和《硅谷101》的談話中稱(chēng):“但這里面同時(shí)也會(huì)有一個(gè)問(wèn)題,就是說(shuō)模型的提分會(huì)不會(huì)有個(gè)平臺(tái)期,可能你從 20 追到 50 是容易的,但 50 到 80 可能就很難了。”

本期,《硅谷101》主理人泓君對(duì)話真格基金管理合伙人戴雨森,我們將聊聊,他對(duì)國(guó)內(nèi)外頂尖大模型的使用體驗(yàn);以及除了芯片問(wèn)題,國(guó)產(chǎn)大模型還有哪些要解決的問(wèn)題。

大模型的使用體驗(yàn):效果震撼,迭代速度快

硅谷101:我對(duì)你特別感興趣的有兩點(diǎn),第一是想問(wèn)你對(duì)于大模型的使用體驗(yàn),因?yàn)槲铱茨闶且粋€(gè)大模型的深度使用者,不管是語(yǔ)言模型還是 Midjourney。第二就是想問(wèn)作為一個(gè)投資人,你是怎么看這些大模型的?今天我們的談話也會(huì)分成這兩個(gè)部分去聊。你是什么時(shí)候開(kāi)始注意到大模型然后去使用它的?

戴雨森:首先我我非常喜歡嘗試新東西,所以我相信在一個(gè)大的革命發(fā)生的時(shí)候,最好的方式就是去使用,體驗(yàn),而不是只是研究。在 GPT3 出來(lái)的時(shí)候,我其實(shí)也在一些 demo 上嘗試過(guò),但坦率來(lái)講,那個(gè)時(shí)候 GPT3 表現(xiàn)出來(lái)的對(duì)話能力,尤其是中文對(duì)話能力沒(méi)有那么強(qiáng)。在 ChatGPT 出來(lái)的當(dāng)天晚上,我的一位同事第一時(shí)間用上了ChatGPT,他非常的興奮,一直用到凌晨五六點(diǎn)鐘。我當(dāng)時(shí)沒(méi)有OpenAI賬號(hào),所以我還專(zhuān)門(mén)弄了一個(gè)國(guó)外手機(jī)號(hào),結(jié)果終于在十幾二十個(gè)小時(shí)之后用上了ChatGPT。

我最震撼的是我當(dāng)時(shí)給ChatGPT用自然語(yǔ)言描述了一下“20 問(wèn)”這個(gè)游戲的規(guī)則。這個(gè)游戲本質(zhì)上就是我心里想一個(gè)東西,你可以通過(guò)最多問(wèn) 20 個(gè)問(wèn)題來(lái)嘗試猜到我心中想的是什么,而我只能回答是,否,或者不確定。我大概用 100 多個(gè)字把這個(gè)規(guī)則跟ChatGPT描述了一遍,他就可以開(kāi)始和我進(jìn)行游戲了。第一次我想的是貓,它用了大概五六步就猜到了是貓。第二次我想的是拜登,它用了大概 14 步就猜到了拜登,我真的徹底被震驚了。

硅谷101:你覺(jué)得和真人比,ChatGPT的水平如何?

戴雨森:我覺(jué)得第一步是他能夠理解我給他的這個(gè)規(guī)則。第二步是他能夠有效地使用二分法去進(jìn)行查找。如何高效地尋找玩家心中所想的詞匯?這時(shí)候就需要做一些二分法。比如玩家心里想的詞是不是有生命的?如果有生命,那他是不是人?是一個(gè)活著的人還是逝去的人?這些查找的方式都還挺不一樣的,但我覺(jué)得ChatGPT其實(shí)做得非常好。后來(lái)我還嘗試讓ChatGPT跟我下棋,寫(xiě)代碼,還有當(dāng)我的英語(yǔ)老師,他可以從初中到研究生水平給我出不同的英語(yǔ)的題,改我寫(xiě)的英語(yǔ)作文,并且給出很多很好的建議。越使用ChatGPT,我越能發(fā)現(xiàn)他能不斷完成不同的任務(wù)。

硅谷101:除了ChatGPT,你也是Midjourney的重度用戶(hù),你能感受到它從V3到V5的進(jìn)化嗎?我們剛剛在講大語(yǔ)言模型,那現(xiàn)在再來(lái)說(shuō)說(shuō)擴(kuò)散模型,你覺(jué)得它表現(xiàn)的怎么樣?

戴雨森:Midjourney我是從 V3 開(kāi)始用的。那時(shí)候它雖然可以產(chǎn)生一些有意思的概念,但和實(shí)際使用還有很大的差距,因?yàn)樗€是不太能做出比較逼真的畫(huà)面。但 V4 的效果直接上了個(gè)大臺(tái)階。V4 對(duì)于人物、照片的處理,包括一些很風(fēng)格化的處理,很明顯到了一個(gè)能夠打敗大多數(shù)的普通藝術(shù)從業(yè)人員的水平。

接下來(lái)再來(lái)說(shuō)說(shuō)V5。V5 讓很多細(xì)節(jié)和場(chǎng)景變得更真實(shí)了,所以有的時(shí)候不是那么的風(fēng)格化,這就更貼近現(xiàn)實(shí)生活了。V5還有一個(gè)重要的功能就是“describe”。describe 的功能是讓你傳一張圖片,然后模型可以給你生成幾個(gè)可能的prompt。傳統(tǒng)的文生圖工具需要你直接對(duì)著一個(gè)輸入框去想你要畫(huà)什么,這其實(shí)很難,因?yàn)槿说膭?chuàng)作往往是先看到某個(gè)圖片或者物體,被激發(fā)了靈感,然后再在這個(gè)基礎(chǔ)上進(jìn)行調(diào)整。

舉個(gè)具體例子,假設(shè)我看到一個(gè)圖片的構(gòu)圖不錯(cuò),但我想改一下圖中的對(duì)象,或者我看到一個(gè)圖片景色不錯(cuò),但我想把畫(huà)中的“白天”改成“晚上”,這時(shí)候我就可以使用describe功能,讓模型幫我去生成一個(gè)很好用的prompt,然后我在此prompt的基礎(chǔ)再進(jìn)行修改。這與我之前先在腦子里主動(dòng)想到一個(gè)場(chǎng)景,再根據(jù)語(yǔ)言詳細(xì)描述該畫(huà)面,自己從頭寫(xiě)prompt的工作方式相比,簡(jiǎn)單不少。

再總結(jié)一下,describe 就是圖生文,只不過(guò)生成的文是prompt,然后你可以直接用這個(gè) prompt 再生成圖。

(圖片來(lái)源于網(wǎng)絡(luò) Midjourney的describe功能)

硅谷101:我記得你之前說(shuō)你一直想畫(huà)一個(gè)大教堂,但是一直沒(méi)畫(huà)出理想的,卡在哪了?

戴雨森:可能我當(dāng)時(shí)沒(méi)用describe這個(gè)功能去嘗試,如果我上傳一張科隆大教堂的圖,讓模型給我生成一個(gè)prompt,再基于這個(gè)prompt進(jìn)行修改,沒(méi)準(zhǔn)就能畫(huà)出理想的圖片了。但說(shuō)實(shí)話,如果你想很仔細(xì)的畫(huà)一個(gè)東西,Midjourney不太行,在這方面stable diffusion加control net會(huì)更有優(yōu)勢(shì)。Midjourney的特長(zhǎng)在于幫你進(jìn)行頭腦風(fēng)暴和畫(huà)出很有藝術(shù)感的圖。但當(dāng)加入了 describe 這些元素之后,模型的可控性就會(huì)變強(qiáng)一些,因?yàn)槲蚁嘈糯蠖鄶?shù)公司都是需要有時(shí)候發(fā)散,有時(shí)候可控。大量的商業(yè)場(chǎng)景是還是需要可控的,如果它完全不可控,那肯定不是一個(gè)最有效率的方式,但是可能是一個(gè)最有意思的方式。

硅谷101:剛剛你提到了很多大模型讓你驚艷的部分,但如果反過(guò)來(lái)想,你覺(jué)得這些模型有哪些地方表現(xiàn)得還不夠好?有一個(gè)AI研究員告訴我們說(shuō)如果你不知道某個(gè)問(wèn)題的答案,就不要問(wèn)ChatGPT,因?yàn)樗o你的可能是對(duì)的,也可能是胡謅的。從你的角度,你覺(jué)得ChatGPT在哪些任務(wù)中可以被直接應(yīng)用,而哪些方面還不太行?

戴雨森:首先,我覺(jué)得所有和語(yǔ)言相關(guān)的任務(wù)ChatGPT都可以直接應(yīng)用。這個(gè)語(yǔ)言包括自然語(yǔ)言和編程語(yǔ)言。實(shí)際上現(xiàn)在很多人的代碼已經(jīng)有超過(guò)一半是 Copilot 寫(xiě)的了。ChatGPT 能夠很好地完成像翻譯、總結(jié)、改寫(xiě)、擴(kuò)寫(xiě)等一系列語(yǔ)言任務(wù),因?yàn)樗旧砭褪谴笳Z(yǔ)言模型。其次,需要頭腦風(fēng)暴的任務(wù)ChatGPT也可以很好的處理。比如列提綱,寫(xiě)信,或者寫(xiě)job description,針對(duì)這些任務(wù),我都可以先讓ChatGPT把大概的內(nèi)容列出來(lái),然后我再進(jìn)行修改。

但是,如果你長(zhǎng)期使用ChatGPT,你會(huì)意識(shí)到它的缺點(diǎn)非常多,但同時(shí)你應(yīng)該也能發(fā)現(xiàn)它在非常快地迭代和修正。在ChatGPT剛出的時(shí)候,它連三位數(shù)的加法都還沒(méi)法準(zhǔn)確計(jì)算,但現(xiàn)在它其實(shí)能做更多位數(shù)的加法了,不過(guò)在乘法運(yùn)算上還是差一些。另外,它對(duì)于事實(shí)性問(wèn)題的回答肯定還是不太行。

所以,你要從語(yǔ)言和邏輯的角度使用ChatGPT。但如果你想從知識(shí)的角度去使用它,很多時(shí)候還是要通過(guò) prompt 或者 embedding 的方式把增值的新信息給它快速灌進(jìn)去,否則他就很可能會(huì)胡謅答案。整體來(lái)講,當(dāng)你意識(shí)到它有這些缺點(diǎn)的時(shí)候,就不太會(huì)被它騙。但如果有一天ChatGPT的知識(shí)準(zhǔn)確度達(dá)到了99%,只有 1% 的時(shí)候胡說(shuō)八道,那個(gè)時(shí)候可能才是最危險(xiǎn)的。

300個(gè)問(wèn)題組成大模型的評(píng)分系統(tǒng)

硅谷101:我看到你們做了一個(gè)專(zhuān)門(mén)評(píng)價(jià)大模型評(píng)估的Benchmark,為什么要設(shè)計(jì)這樣一款模型?從你的評(píng)估模型來(lái)看, GPT 4 比 GPT 3. 5 好在哪?如果再把它跟一些國(guó)產(chǎn)的大模型比,好在哪?

戴雨森:先來(lái)介紹一下我們做這個(gè)評(píng)估模型的背景。當(dāng) ChatGPT 火了之后,出現(xiàn)了很多做聊天機(jī)器人或者做國(guó)產(chǎn)大模型的初創(chuàng)公司,有的公司用了ChatGPT,有的說(shuō)自己訓(xùn)了模型。但是,哪怕很多資深的投資人在面對(duì)一個(gè)新的類(lèi)似GhatGPT的應(yīng)用時(shí),能做的也就是隨便問(wèn)幾個(gè)問(wèn)題,這種問(wèn)題可能是隨便想的,或者說(shuō)是難度比較低的,但這樣的測(cè)試其實(shí)很難反映出這個(gè)類(lèi)似ChatGPT軟件的真實(shí)水平。

我們作為非技術(shù)人員,其實(shí)也不想做一個(gè)特別嚴(yán)謹(jǐn)?shù)臏y(cè)試集,但我們希望能實(shí)現(xiàn)手工檢驗(yàn)?zāi)P偷倪吔缒芰Γ虼?,我們希望讓這些測(cè)試問(wèn)題有區(qū)分度,有來(lái)歷。我們有時(shí)候會(huì)問(wèn)一些日常中比較有意思的問(wèn)題,比如問(wèn)它麻辣螺絲釘?shù)淖龇?,看它?huì)不會(huì)跟著胡編亂造。同時(shí)學(xué)界也有很多 NLP 任務(wù)的研究,比如OpenAI在 ChatGPT 出來(lái)的時(shí)候就公布說(shuō) ChatGPT 已經(jīng)具備了 48 種基礎(chǔ)能力,然后我們就通過(guò)這個(gè)構(gòu)建了第一版版本的測(cè)試問(wèn)題。

我們還從MMLU和BIG-bench這些比較成熟的NLP測(cè)試集中抽取了一些能在各個(gè)領(lǐng)域反映模型不同能力的內(nèi)容。同時(shí),我們也參考了 ChatGPT 新具備的能力,如涌現(xiàn)能力,寫(xiě)代碼能力,用 SVG 語(yǔ)言畫(huà)圖的能力,處理更復(fù)雜應(yīng)用題的能力,最后總共設(shè)計(jì)了 300 個(gè)問(wèn)題。這樣一來(lái),非技術(shù)人員也能夠通過(guò)手工輸入測(cè)試,來(lái)對(duì)一個(gè)大模型的整體能力進(jìn)行評(píng)價(jià)了。

(備注:MMLU是一個(gè)2020年推出的包含57個(gè)不同學(xué)科的數(shù)據(jù)集,科目從STEM到人文,題目難度從初級(jí)到高級(jí)不等,主要目的是為了檢驗(yàn)預(yù)訓(xùn)練模型的知識(shí)獲取程度。BIG-bench同理也是一個(gè)自然語(yǔ)言理解基準(zhǔn)測(cè)試,旨在評(píng)估人工智能模型的泛化能力、理解力和創(chuàng)造性。)

在三月份的時(shí)候我們測(cè)試了一下,GPT 3.5的分?jǐn)?shù)是60多分,而GPT 4則是大概70分。

硅谷101:這個(gè) 60 多分是怎么打的?怎么樣的評(píng)價(jià)標(biāo)準(zhǔn)?

戴雨森:用回答正確數(shù)量除以300。國(guó)產(chǎn)的文心一言大概是20分左右的水平,我們還測(cè)試了幾家創(chuàng)業(yè)公司的模型水平,一家是30分,一家是19分,雖然我們需要鼓勵(lì)創(chuàng)業(yè)公司,但是差距還是比較大。前兩天我們也陸續(xù)拿到一些國(guó)產(chǎn)的上市公司或者大型公司做的模型,又進(jìn)行了一些測(cè)試,整體來(lái)講進(jìn)步還是很快的。比如說(shuō)商湯的模型已經(jīng)到了 50 分的水平。到了現(xiàn)在,GPT 4 現(xiàn)在也許已經(jīng)可以打 80 多分了,這也就是說(shuō)國(guó)產(chǎn)大模型得分一開(kāi)始和GPT差距很大,但現(xiàn)在的差距的確在不斷縮小。但這里面同時(shí)也會(huì)有一個(gè)問(wèn)題,就是說(shuō)模型的提分會(huì)不會(huì)有個(gè)平臺(tái)期,可能你從 20 追到 50 是容易的,但 50 到 80 可能就很難了。

硅谷101:除了從分?jǐn)?shù)角度對(duì)比不同的模型,能不能給大家舉個(gè)例子,假設(shè)針對(duì)同一個(gè)問(wèn)題,GPT3.5, GPT 4還有文心一言的回答都是怎么樣的?

戴雨森:假設(shè)你問(wèn)這些大模型麻辣螺絲釘?shù)淖龇?,?yīng)該只有 GPT4會(huì)瞬間告訴你螺絲釘不是一個(gè)菜,不能吃;但其他的模型都會(huì)假模假樣的說(shuō)麻辣螺絲釘?shù)淖龇ㄊ欠派侠苯?,加上紅油,然后再加入螺絲釘少許。同樣,當(dāng)時(shí)我們還有一個(gè)很經(jīng)典的問(wèn)題,就是問(wèn)大模型為什么爸媽的婚禮沒(méi)邀請(qǐng)我參加。只有GPT 4 回答了正確答案——你當(dāng)時(shí)還沒(méi)出生;而其他模型都回答說(shuō)可能因?yàn)楫?dāng)時(shí)他們太忙沒(méi)邀請(qǐng)你,或者你沒(méi)時(shí)間。

硅谷101:你剛提到的這個(gè)麻辣螺絲釘?shù)睦犹貏e有趣。我們之前在播客錄制的時(shí)候,有一個(gè)嘉賓直接在播客里問(wèn)我晚上有沒(méi)有吃爆炒籃球。后來(lái)在這個(gè)播客播出去了以后,就有很多聽(tīng)眾在 GPT 3.5上搜爆炒籃球,我看按照他們?cè)u(píng)論的時(shí)間,最開(kāi)始 GPT3.5 還會(huì)一本正經(jīng)地解釋這個(gè)爆炒籃球怎么做。但是隔了一兩天后,GPT 3.5第一次告訴大家爆炒籃球不能吃,或者這樣做是有風(fēng)險(xiǎn)的。再隔一天 GPT 3.5就會(huì)告訴大家,爆炒籃球不是一個(gè)菜,就不應(yīng)該這樣做,由此可見(jiàn)GPT3.5是在不斷進(jìn)化的,而且進(jìn)化速度很快。

戴雨森:你去用 ChatGPT 的時(shí)候,你會(huì)發(fā)現(xiàn)下面有一行小字,這個(gè)小字就是告訴你現(xiàn)在用的是ChatGPT 哪一天的版本。在我們不斷和ChatGPT進(jìn)行交互的過(guò)程中,用戶(hù)可以頂,可以踩,也可以重新讓ChatGPT生成新的回答,生成新回答之后ChatGPT可能還會(huì)問(wèn)你這個(gè)新答案比原來(lái)的更好還是更差。所以其實(shí)我們用戶(hù)是在不斷的通過(guò)人工反饋,來(lái)讓模型訓(xùn)練的越來(lái)越好,這就形成了數(shù)據(jù)的飛輪效應(yīng)。雖然很多地方都有這種用戶(hù)的對(duì)話數(shù)據(jù),但是就用戶(hù)跟特定聊天機(jī)器人的對(duì)話數(shù)據(jù)而言,ChatGPT 的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)大于其他人。

硅谷101:說(shuō)到大模型的變化,過(guò)去兩個(gè)月的進(jìn)展真的太快了。在過(guò)去一兩個(gè)月內(nèi),大模型領(lǐng)域有哪些進(jìn)展?你現(xiàn)在的認(rèn)知跟兩個(gè)月以前有什么不一樣?

戴雨森:我覺(jué)得進(jìn)展非常大。在ChatGPT剛出來(lái)的時(shí)候,我只是把它當(dāng)作一個(gè)聊天機(jī)器人,我們驚訝的是它能夠進(jìn)行多輪對(duì)話,還能夠根據(jù)下文給出合適的回答,但這基本都屬于 NLP 的任務(wù)。

后來(lái),我們逐漸發(fā)現(xiàn)它可以寫(xiě)代碼,寫(xiě)營(yíng)銷(xiāo)文案,甚至圖像類(lèi)的生成模型還能幫我們生成精美的圖片、照片、還有漫畫(huà)。這時(shí)候,ChatGPT就從聊天機(jī)器人進(jìn)入到下個(gè)Copilot階段。在這個(gè)階段,它能夠幫助我們?nèi)プ龊芏嗍虑椋覀円龅木褪墙o出目標(biāo),幫助Copilot進(jìn)行選擇和調(diào)整。

接下來(lái),得益于像reflection、Hugging-GPT 這幾篇論文,Auto-GPT和Baby AGI這類(lèi)大模型也逐漸發(fā)展起來(lái)了。這些模型能夠識(shí)別一個(gè)任務(wù),把它進(jìn)行拆解,分解成子任務(wù),調(diào)動(dòng)合適的工具去完成子任務(wù),觀察自己完成的結(jié)果,對(duì)結(jié)果進(jìn)行反思,并且調(diào)整他要做的任務(wù),實(shí)現(xiàn)了從識(shí)別任務(wù)到調(diào)整任務(wù)的一整個(gè)循環(huán)。

同時(shí),GPT 4 也出了插件系統(tǒng),之后它就可以調(diào)用外部的插件去檢索信息,寫(xiě)代碼,然后完成很多更復(fù)雜的任務(wù)。在這個(gè)階段,大模型又從 Copilot 進(jìn)一步變成了Agent。那么在 Agent 的設(shè)定下,大模型就可以基于人給出的初始目標(biāo),然后通過(guò)自我迭代去完成目標(biāo)了。

如果我們把大模型的迭代跟自動(dòng)駕駛?cè)?duì)比的話,大模型也可以有一個(gè)五級(jí)分類(lèi):

國(guó)產(chǎn)大模型:不止是芯片問(wèn)題

硅谷101:中國(guó)最近也有很多大廠的大模型在密集發(fā)布,比如說(shuō)百度、阿里、華為;另外,上一批移動(dòng)互聯(lián)網(wǎng)創(chuàng)業(yè)的成功者也在做大模型,比如王慧文,王小川;像賈揚(yáng)清、李志飛之前說(shuō)要做大模型,但現(xiàn)在做的應(yīng)該算是應(yīng)用。你能否介紹一下,中國(guó)市場(chǎng)大家做的大模型分別都是什么?

戴雨森:目前來(lái)看,像百度、字節(jié)、阿里、騰訊、商湯、360這些大廠,包括王慧文、王小川的公司,唐杰帶隊(duì)的智譜,這些都是想做一個(gè)類(lèi)似GPT 3.5或者GPT 4的大模型。這類(lèi)大模型一般都有上百億參數(shù),能夠解決很多 NLP 和通用領(lǐng)域的問(wèn)題。但是像賈揚(yáng)清,他可能是想做一個(gè)偏中間層的創(chuàng)業(yè)公司。我覺(jué)得在這過(guò)程中肯定大家也會(huì)去思考到底大模型是不是適合我做,以及現(xiàn)在是不是做這件事的最好的時(shí)機(jī)。
同樣,大家現(xiàn)在是基于有了ChatGPT才能夠去延申的這么一個(gè)邏輯。但越到后來(lái)大家可能越會(huì)有不同的觀點(diǎn)出現(xiàn):第一,如果出現(xiàn)了一個(gè)很好用的國(guó)產(chǎn)大模型,沒(méi)有搶到頭籌的團(tuán)隊(duì)可能就會(huì)去想是不是轉(zhuǎn)去做應(yīng)用會(huì)更好?第二,做大模型真的是了解現(xiàn)在的 AGI 或者未來(lái) AGI 能力的唯一途徑嗎?也許大家未來(lái)會(huì)有其他理解方式,所以其實(shí)也沒(méi)必要做大模型。
舉個(gè)更形象一點(diǎn)的例子,目前大家只有坐船才能到美洲,所以所有人都先造船。如果有一天大家有飛機(jī)了,那也不用造船了。但就目前沒(méi)有飛機(jī)的情況來(lái)看,還是得先造船。現(xiàn)在在中國(guó),所有人都沒(méi)有船,因此大家的第一反應(yīng)都是要自己造,這是個(gè)很正常的情況。美國(guó)為什么沒(méi)有什么獨(dú)立做大模型的新公司了?因?yàn)槊绹?guó)已經(jīng)有幾條固定的“大船”了,如OpenAI號(hào),Claude號(hào)(Claude是由Anthropic開(kāi)發(fā)的聊天機(jī)器人,Anthropic是由OpenAI黑手黨創(chuàng)立的AI公司),Cohere號(hào)(Cohere是一個(gè)在多倫多的NLP處理平臺(tái)公司,由Google前研究人員創(chuàng)立),還有Bard號(hào)(Bard是Google開(kāi)發(fā)的基于LaMDA大語(yǔ)言模型的聊天機(jī)器人)。有了船之后,人們就該思考“到美洲之后我該做什么” 了,有的人去種棉花,有的人去挖煤炭,于是各種用于不同場(chǎng)景的應(yīng)用就相繼出現(xiàn)了。

硅谷101:那中國(guó)的大模型未來(lái)是一個(gè)怎么樣的格局?是一家獨(dú)大,還是百家爭(zhēng)鳴?

戴雨森:我覺(jué)得這個(gè)問(wèn)題目前來(lái)看還沒(méi)有答案,我覺(jué)得未來(lái)的大模型格局會(huì)是一個(gè)光譜。
第一種就是集中度最高,也就是贏者通吃的局面。如果大模型未來(lái)是一個(gè)主要ToC 的場(chǎng)景,也就是說(shuō)未來(lái)很多人都會(huì)用像 ChatGPT 這樣的助理,那么我可以想象,大部分人最后都只會(huì)用某一個(gè)最領(lǐng)先的助手,可能是ChatGPT,也可能是另一家公司,但我完全沒(méi)有理由用一個(gè)第二名的。就像Google的搜索引擎占了93%的搜索引擎份額,你如果做的引擎超不過(guò)Google,我肯定不用你,就算你超過(guò)了,但沒(méi)超過(guò)太多,我也沒(méi)動(dòng)力為你改變我之前的習(xí)慣。
第二種,也有可能形成一個(gè)寡頭壟斷的局面。假設(shè)未來(lái)使用大語(yǔ)言模型的場(chǎng)景是 ToB而非ToC,并且OpenAI沒(méi)辦法長(zhǎng)期保持一個(gè)特別遙遙領(lǐng)先的狀態(tài),那么第一梯隊(duì)可能會(huì)有 2 到 3 家或者3 到 4 家都還不錯(cuò),各有特點(diǎn)的公司。這就像公有云一樣,有的公司跑在AWS上,有的跑在Azure上,還有的跑在 Google Cloud Service 上。
第三也有可能形成一個(gè)百家爭(zhēng)鳴的局面。大模型這事現(xiàn)在很厲害,但當(dāng)它逐漸變成開(kāi)源的,越來(lái)越多的人都可以把開(kāi)源的模型微調(diào)之后部署在自己的服務(wù)器上,那這個(gè)時(shí)候可能就變成了一種百家爭(zhēng)鳴狀態(tài)。也許 OpenAI 就是一個(gè)開(kāi)創(chuàng)者,未來(lái)它的大量技術(shù)都變成了人類(lèi)共有的技術(shù)。

硅谷101:在聊到中美大模型的時(shí)候,大家都會(huì)談到芯片。如果未來(lái)芯片不能持續(xù)的供應(yīng)給中國(guó),或者說(shuō)中國(guó)的芯片性能跟不上,但美國(guó)的芯片還在持續(xù)進(jìn)化中,你是否覺(jué)得中美大模型之間的差距會(huì)越來(lái)越大?

戴雨森:第一,我們要弄清楚大模型訓(xùn)練是個(gè)百米賽跑,還是百公里長(zhǎng)跑?如果它是一個(gè)很快會(huì)遇到瓶頸的事情,那可能現(xiàn)有的算力就夠了。但是,如果模型未來(lái)會(huì)變得越來(lái)越大,那現(xiàn)在這些芯片就不太能用了。雖然現(xiàn)在很多人認(rèn)為后者是未來(lái)格局,但是也不一定。
第二,模型訓(xùn)練的效率和方法本身也在不斷提高,在之前需要很多算力才能被訓(xùn)練的模型,現(xiàn)在也許會(huì)有更省算力的訓(xùn)練方式。
第三,芯片雖然是我們現(xiàn)在看到的一個(gè)顯著問(wèn)題,但我們?cè)跀?shù)據(jù)、基礎(chǔ)設(shè)施、算法這些方面其實(shí)都有很多待解決的問(wèn)題,因此我們不能把問(wèn)題的解決方式只簡(jiǎn)化成“買(mǎi)一萬(wàn)塊A100芯片”。你如果非要一萬(wàn)塊A100,其實(shí)國(guó)內(nèi)是有這個(gè)數(shù)量的,但是我們離用好1萬(wàn)塊 A100 還差很遠(yuǎn)。
假設(shè)你想探索怎么去做一個(gè)像GPT 3.5那樣的模型,其實(shí)根本用不到一萬(wàn)塊A100,你想想GPT 3其實(shí)是在一萬(wàn)塊V100上訓(xùn)練出來(lái)的,而且GPT 3.5 本身就是一個(gè)更小的模型。所以,這件事反映出來(lái)我們其實(shí)有很多跟芯片一樣重要,甚至在短期比芯片更重要的問(wèn)題還沒(méi)有被解決。

硅谷101:中文互聯(lián)網(wǎng)的數(shù)據(jù)你覺(jué)得會(huì)是一個(gè)問(wèn)題嗎?

戴雨森:我覺(jué)得完全不是問(wèn)題。簡(jiǎn)單來(lái)說(shuō),ChatGPT 并沒(méi)有用什么獨(dú)有的中文數(shù)據(jù),它就已經(jīng)在中文上具有這么好的表現(xiàn)了。如果從預(yù)訓(xùn)練的部分來(lái)看GPT 4的話,實(shí)際上維基百科和Common Crawl對(duì)應(yīng)的論文都是通過(guò)英文然后泛化到中文來(lái)的。
所以,我并不覺(jué)得Open AI 有什么我們沒(méi)有的中文數(shù)據(jù),但如何用將現(xiàn)有的中文數(shù)據(jù)進(jìn)行清洗,標(biāo)注,提供人工反饋,這才是真正的難點(diǎn)??梢?jiàn)我們需要解決的是一個(gè)工程問(wèn)題,而非語(yǔ)料問(wèn)題。

AI的安全風(fēng)險(xiǎn)與未來(lái)

硅谷101:GPT 是怎么被做出來(lái)的,它中間經(jīng)歷了哪些重要的時(shí)刻?能否介紹一下幾個(gè)關(guān)鍵節(jié)點(diǎn)?

戴雨森:現(xiàn)在微軟可以每天訓(xùn)練一個(gè) GPT3,因?yàn)橛?xùn)練 GPT3 已經(jīng)變成了一個(gè)順手可做的事情。但是微軟自己沒(méi)辦法訓(xùn)練 GPT4 ,只有在 Azure 那一臺(tái)專(zhuān)門(mén)為訓(xùn)練 GPT4 打造的超算上才可以進(jìn)行GPT4的訓(xùn)練,可見(jiàn) GPT4的訓(xùn)練難度高了很多。

硅谷101:為什么微軟可以隨便訓(xùn)練一個(gè) GPT3?而GPT4就不行?

戴雨森:GPT3 所需要的算力以及對(duì)應(yīng)的架構(gòu)已經(jīng)很成熟了,你可以直接通過(guò)云服務(wù)獲得算力,但 GPT4所需要的算力達(dá)到了一個(gè)新的級(jí)別。其實(shí) GPT4 初始的能力比現(xiàn)在強(qiáng)很多,我看過(guò)一些沒(méi)有經(jīng)過(guò)微調(diào)的GPT4 畫(huà)出來(lái)的圖像,它比現(xiàn)在GPT4 畫(huà)出的圖像精細(xì)很多。如果你看了“通用人工智能的火花”這篇論文,你會(huì)發(fā)現(xiàn) GPT4 是可以畫(huà)圖的。在論文中它畫(huà)了個(gè)獨(dú)角獸,但是那已經(jīng)是經(jīng)過(guò)微調(diào)之后的 GPT4 畫(huà)的了。沒(méi)有經(jīng)過(guò)微調(diào)的 GPT4 畫(huà)的圖其實(shí)要比那個(gè)精細(xì)很多。就換句話說(shuō),GPT4 為了和人類(lèi)對(duì)齊,犧牲了很多它的能力。

硅谷101:你剛提到GPT4沒(méi)有經(jīng)過(guò)微調(diào)的版本比現(xiàn)在強(qiáng)大很多,為了讓它符合安全標(biāo)準(zhǔn),不要說(shuō)不該說(shuō)的話或者有種族歧視,它經(jīng)歷了八個(gè)月的安全測(cè)試。你覺(jué)得OpenAI的下一步會(huì)怎么走?它有可能會(huì)把之前未閹割的模型版本再放出來(lái)一些嗎?

戴雨森:這個(gè)問(wèn)題可能只有Sam Altman(OpenAI總裁)能回答。首先,OpenAI讓我覺(jué)得很厲害的一點(diǎn)就是他們一開(kāi)始是一個(gè)研究機(jī)構(gòu),而且研究?jī)?nèi)容比較發(fā)散,但后來(lái)就變成了一個(gè)做產(chǎn)品的公司。
GPT4發(fā)布之后,我聽(tīng)到兩種聲音:一部分人覺(jué)得很失望,因?yàn)樗鼪](méi)有做文生圖或者多模態(tài),主要還是文字。但同樣還有一部分人覺(jué)得很厲害,當(dāng)然后面插件和Auto-GPT出現(xiàn)之后,就更厲害了。這恰恰反映了 OpenAI 在用一種做好產(chǎn)品,做一個(gè)上億人使用的基礎(chǔ)產(chǎn)品的態(tài)度去做這件事情。如果是個(gè)學(xué)術(shù)研究機(jī)構(gòu),他可能會(huì)更有動(dòng)力去發(fā)表一個(gè)視頻到文字,或者說(shuō)文字到視頻的研究結(jié)果。

OpenAI不光把已有的基礎(chǔ)打好了,它還在努力的讓產(chǎn)品去和現(xiàn)有的價(jià)值觀匹配,那么這個(gè)價(jià)值觀主要是美國(guó)加州白人男性的價(jià)值觀。全世界有很多文明,在一個(gè)文明完全正確的事情,在另外一個(gè)文明可能就是不正確的。同樣我們的價(jià)值觀變化也非???。十幾年前我在美國(guó)讀書(shū)的時(shí)候,同性婚姻還是非常禁忌的話題,當(dāng)時(shí)奧巴馬競(jìng)選的時(shí)候都說(shuō)不允許同性婚姻,但現(xiàn)在同性婚姻當(dāng)確是一個(gè)很受歡迎的價(jià)值觀。
在價(jià)值觀不斷演變的過(guò)程中,你會(huì)發(fā)現(xiàn) AI 該跟什么價(jià)值觀對(duì)齊,該如何動(dòng)態(tài)調(diào)整,都還存在很多問(wèn)題。那么在這個(gè)過(guò)程中我覺(jué)得也需要一些跨國(guó)的合作,就像核不擴(kuò)散國(guó)際公約一樣,但核不擴(kuò)散條約大家是否遵守還比較好檢驗(yàn),但是在計(jì)算機(jī)里運(yùn)行著的最先進(jìn)的 AI 實(shí)際上很難被看出來(lái)。因此,我們一定要去思考該如何對(duì)這種未知,同時(shí)又可能具有很大破壞性的應(yīng)用進(jìn)行監(jiān)管。

舉個(gè)例子,電話詐騙、殺豬盤(pán),現(xiàn)在可能是比較弱智的騙術(shù),但以后有了AI的加持,就會(huì)變的更加強(qiáng)大。進(jìn)一步去想,假設(shè)在一個(gè)選舉中可以用 AI 打電話給100 萬(wàn)個(gè)關(guān)鍵選民,結(jié)果有1萬(wàn)人改了投票,也許美國(guó)總統(tǒng)就變了,這可能就是非常大的一個(gè)變化。另外,如果Auto GPT 調(diào)用了一個(gè)發(fā)消息應(yīng)用的API,它完全可以不知疲倦地生成虛假內(nèi)容,去添塞整個(gè)互聯(lián)網(wǎng)。AI 消滅人類(lèi)還是比較偏科幻,但是它目前是個(gè)強(qiáng)大的語(yǔ)言工具,而我們又缺乏對(duì)于一個(gè)看似形式很完善的謊言的識(shí)別能力,所以這其實(shí)非常危險(xiǎn)。現(xiàn)在有些人抨擊OpenAI說(shuō)它不開(kāi)源,但我認(rèn)為如果我們還沒(méi)意識(shí)到GPT的能力,冒然開(kāi)源可能會(huì)有很大的風(fēng)險(xiǎn),至少我們等到知道該怎么防御,再進(jìn)行開(kāi)源。

硅谷101:除了AI的安全風(fēng)險(xiǎn),我覺(jué)得 OpenAI 的股權(quán)設(shè)置也很值得討論。Sam 本人他是沒(méi)有任何 OpenAI 的股權(quán)的,主要股權(quán)都給了OpenAI的科學(xué)家。OpenAI一開(kāi)始是一個(gè)非盈利型公司,但后來(lái)又在非盈利下面設(shè)了一個(gè)盈利型公司。如果在盈利型公司有股權(quán),就意味著可以獲得財(cái)務(wù)回報(bào),但是在董事會(huì)就會(huì)沒(méi)有投票權(quán)。Sam 不持盈利性公司的股權(quán),也就是說(shuō)不要財(cái)務(wù)回報(bào),而要投票權(quán),我在想為什么Sam要去做這樣一種設(shè)置?

戴雨森:Sam其實(shí)提到了一點(diǎn),微軟現(xiàn)在雖然有 49% 的收益權(quán),可以賺錢(qián),但是它沒(méi)有控制權(quán)。因?yàn)樗麄儚囊婚_(kāi)始就相信這樣的技術(shù)很危險(xiǎn),需要得到有效的監(jiān)管和控制,不能夠落入邪惡的大公司手里。但是,又因?yàn)榇蠊居绣X(qián),能夠幫助小初創(chuàng)公司去開(kāi)發(fā),所以大家才定下來(lái)這種收益和控制分開(kāi)的協(xié)定。這是一個(gè)很有意思的設(shè)定,大家提前把話說(shuō)清楚,賺錢(qián),控制,你只能選擇一個(gè)。最開(kāi)始,OpenAI就是因?yàn)椴辉谶@種大集團(tuán)里,才吸引了很多優(yōu)秀人才,但是隨著公司未來(lái)越做越大,還是得解決被資本裹挾的問(wèn)題。

硅谷101:我看到你們也投大模型的應(yīng)用層,我很好奇從投資的角度,你會(huì)怎么去判斷一個(gè)項(xiàng)目,甚至是一個(gè)人他值不值得投?

戴雨森:底層能力我們一直認(rèn)為是類(lèi)似的,比如說(shuō)學(xué)習(xí)力、領(lǐng)導(dǎo)力、創(chuàng)新力、意志力,這些都是普世的優(yōu)秀品質(zhì)。但是,每個(gè)公司的情況不一樣,創(chuàng)始人所需要具備的技能也不一樣。某個(gè)新領(lǐng)域的第一家公司可能需要?jiǎng)?chuàng)始人有很強(qiáng)的探索能力,但第二家公司可能就需要更強(qiáng)的執(zhí)行能力,所以我覺(jué)得不宜直接去類(lèi)比。
另外,OpenAI幾個(gè)人的搭配非常厲害,每個(gè)人在自己應(yīng)該做的事情上都是世界頂級(jí)的。比如Greg Brockman 90%的時(shí)間都在寫(xiě)代碼,在這里我不是想強(qiáng)調(diào)他代碼寫(xiě)的多么好,而是想說(shuō)在公司早期很多事情都不確定的時(shí)候,組織里面有一個(gè)非常有話語(yǔ)權(quán),執(zhí)行力非常高,且知道每一個(gè)環(huán)節(jié)都在具體做什么的人非常重要。當(dāng)公司業(yè)務(wù)已經(jīng)比較清楚,且到達(dá)了一個(gè)學(xué)習(xí),研究和探索的階段后,如果核心成員會(huì)的東西牽涉到的領(lǐng)域多,牽涉到團(tuán)隊(duì)多,就會(huì)很有幫助了。但不管怎么說(shuō),有技術(shù)背景的人當(dāng) CEO ,也有老王這種商業(yè)業(yè)務(wù)背景人的人當(dāng) CEO,創(chuàng)業(yè)它永遠(yuǎn)無(wú)法是一副完美的牌,哪怕你有看上去完美的牌,你也未必能打得完美它。

硅谷101:最后還有什么要補(bǔ)充的嗎?

戴雨森:首先,我覺(jué)得 AI 這一波跟之前的元宇宙, Web 3 這種大家覺(jué)得有泡沫的浪潮,我覺(jué)得還有些不太一樣的地方。任何科技進(jìn)步都有很多泡沫,沒(méi)有泡沫的地方也不會(huì)有啤酒,但是我覺(jué)得判斷一個(gè)事情是不是只有泡沫,取決于他是否給普通的用戶(hù)提供了直接的價(jià)值。不管是AIGC還是Chatgpt,都做到了在使用門(mén)檻低的情況下給普通用戶(hù)提供了價(jià)值。原來(lái)我們所有的技術(shù)其實(shí)都在改進(jìn)我們使用的工具,而這次是第一次我們直接改變了工具,并且這個(gè)新工具可能是比我們?nèi)祟?lèi)還要更強(qiáng)大。數(shù)字世界的迭代是非??斓?,我們看到的像Auto-GPT這樣的雛形,可能三五年之后就會(huì)變得完全不一樣,會(huì)完善、成熟很多。所以在這個(gè)過(guò)程中我們要保持開(kāi)放心態(tài)。

然后最重要的一點(diǎn),在一個(gè)技術(shù)革命的早期去預(yù)測(cè)未來(lái),基本上都是錯(cuò)的。試想 2010 年的時(shí)候,移動(dòng)互聯(lián)網(wǎng)的浪潮其實(shí)已經(jīng)開(kāi)始了,然后移動(dòng)互聯(lián)網(wǎng)跟互聯(lián)網(wǎng)比其實(shí)也差不太多,但如果讓你在 2010 年預(yù)設(shè) 2023 年的移動(dòng)互聯(lián)網(wǎng)贏家,你會(huì)想到字節(jié)、快手、小紅書(shū)、拼多多、美團(tuán)、滴滴、Uber嗎?我覺(jué)得非常難。如果移動(dòng)互聯(lián)網(wǎng)都這么難,那預(yù)測(cè)AI 我覺(jué)得就更難。就有人說(shuō)大模型會(huì)吞食掉應(yīng)用的空間,有人說(shuō)開(kāi)源會(huì)戰(zhàn)勝閉源,我覺(jué)得我們一定要記住,這是一個(gè)大部分人就只接觸了幾個(gè)月的技術(shù),所以這個(gè)時(shí)候大家可以猜測(cè),但不用特別在意它的精確度。尤其是對(duì)于年輕人來(lái)講,早點(diǎn)的去投身其中,去嘗試、去探索其實(shí)是才是代表命運(yùn)最好的方式。

在過(guò)去幾年我經(jīng)常聽(tīng)人說(shuō) 80 后很幸運(yùn),因?yàn)橼s上了互聯(lián)網(wǎng)的浪潮。我覺(jué)得20 年之后,大家會(huì)說(shuō) 00 后很幸運(yùn),因?yàn)橼s上了AGI火花的誕生。我相信技術(shù)成熟有利于成熟創(chuàng)業(yè)者,但新技術(shù)反而利好年輕人。 

本文系作者 硅谷101 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶(hù)分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容
IPO
  • 滬市主板
  • 深市主板
  • 科創(chuàng)板
  • 創(chuàng)業(yè)板
  • 北交所
更多

掃描下載App