圖片來源@視覺中國

鈦媒體注:本文來源于微信公眾號機(jī)器之心 (ID:almosthuman2014),作者 | 機(jī)器之心,編輯 | 澤南、陳萍,鈦媒體經(jīng)授權(quán)發(fā)布。

昨天,很多人徹夜未眠 —— 全球科技圈都把目光聚焦在了美國舊金山。

短短 45 分鐘時間里,OpenAI CEO 山姆?奧特曼向我們介紹了迄今為止最強(qiáng)的大模型,和基于它的一系列應(yīng)用,一切似乎就像當(dāng)初 ChatGPT 一樣令人震撼。

OpenAI 在本周一的首個開發(fā)者日上推出了 GPT-4 Turbo,新的大模型更聰明,文本處理上限更高,價格也更便宜,應(yīng)用商店也開了起來。現(xiàn)在,用戶還可以根據(jù)需求構(gòu)建自己的 GPT。

根據(jù)官方說法,這一波 GPT 的升級包括:

發(fā)布會一開完,人們蜂擁而入開始嘗試。GPT4 Turbo 的體驗(yàn)果然不同凡響。首先是快,快到和以前所有大模型拉開了代差:

然后是功能增多,畫畫的時候,你一有靈感就可以直接說話讓 AI 負(fù)責(zé)實(shí)現(xiàn):

設(shè)計(jì)個 UI,幾個小時的工作變成幾分鐘:

我直接不裝了,截個圖復(fù)制粘貼別人的網(wǎng)站,生成自己的,只用 40 秒:

利用 ChatGPT 與 Bing 的瀏覽功能以及與 DALL-E 3 圖像生成器的集成,沃頓商學(xué)院教授 Ethan Mollick 分享了一段視頻,展示了他的名為「趨勢分析器」的 GPT 工具,其可查找市場特定細(xì)分市場的趨勢,然后創(chuàng)建新產(chǎn)品的原型圖像。

Octane AI 首席執(zhí)行官 Matt Schlicht 的 Simponize Me GPT 會自動應(yīng)用提示來轉(zhuǎn)換用戶上傳的個人資料照片,生成《辛普森一家》的風(fēng)格,做這個小應(yīng)用只用了不到十分鐘。

GPT-4 Turbo 具有創(chuàng)紀(jì)錄的準(zhǔn)確率,在 PyLLM 基準(zhǔn)上,GPT-4 Turbo 的準(zhǔn)確率是 87%,而 GPT-4 的準(zhǔn)確率是 52%,這是在速度幾乎快了四倍多的情況下(每秒 48 token)實(shí)現(xiàn)的。 

至此,生成式 AI 的競爭似乎進(jìn)入了新的階段。很多人認(rèn)為,當(dāng)競爭對手們依然在追求更快、能力更強(qiáng)的大模型時,OpenAI 其實(shí)早就已經(jīng)把所有方向都試過了一遍,這一波更新會讓一大批創(chuàng)業(yè)公司作古。

也有人表示,既然 Agent 是大模型重要的方向,OpenAI 也開出了 Agent 應(yīng)用商店,接下來在智能體領(lǐng)域,我們會有很多機(jī)會。

競爭者們真的無路可走了嗎?價格降低,速度變快以后,大模型的性能還能同時變得更好?這必須要看實(shí)踐,在 OpenAI 的博客中,其實(shí)說法是這樣的:在某些格式的輸出下,GPT-4 Turbo 會比 GPT-4 結(jié)果更好。那么總體情況會如何?

在新模型發(fā)布的 24 小時內(nèi),就有研究者在 Aider 上進(jìn)行了 AI 生成代碼的能力測試。

在 gpt-4-1106-preview 模型上,僅使用 diff 編輯方法對 GPT-4 模型進(jìn)行基準(zhǔn)測試得出的結(jié)論是:

接下來是使用 whole 和 diff 編輯格式對 GPT-3.5 模型進(jìn)行的基準(zhǔn)測試。結(jié)果表明,似乎沒有一個 gpt-3.5 模型能夠有效地使用 diff 編輯格式,包括最新的 11 月出現(xiàn)的新模型( 簡稱 1106)。下面是一些 whole 編輯格式結(jié)果:

這項(xiàng)測試是如何進(jìn)行的呢,具體而言,研究者讓 Aider 嘗試完成 133 個 Exercism Python 編碼練習(xí)。對于每個練習(xí),Exercism 都提供了一個起始 Python 文件,文件包含所要解決問題的自然語言描述以及用于評估編碼器是否正確解決問題的測試套件。

基準(zhǔn)測試分為兩步:

  1. 第一次嘗試時,Aider 向 GPT 提供要編輯的樁代碼文件以及描述問題的自然語言指令。這些指令反映了用戶如何使用 Aider 進(jìn)行編碼。用戶將源代碼文件添加到聊天中并請求更改,這些更改會被自動應(yīng)用。

  2. 如果測試套件在第一次嘗試后失敗,Aider 會將測試錯誤輸出提供給 GPT,并要求其修復(fù)代碼。Aider 的這種交互式方式非常便捷,用戶使用 /run pytest 之類的命令來運(yùn)行 pytest 并在與 GPT 的聊天中共享結(jié)果。 

然后就有了上述結(jié)果。至于 Aider ,對于那些不了解的小伙伴,接下來我們簡單介紹一下。

Aider 是一個命令行工具,可以讓用戶將程序與 GPT-3.5/GPT-4 配對,以編輯本地 git 存儲庫中存儲的代碼。用戶既可以啟動新項(xiàng)目,也可以使用現(xiàn)有存儲庫。Aider 能夠確保 GPT 中編輯的內(nèi)容通過合理的提交消息提交到 git。Aider 的獨(dú)特之處在于它可以很好地與現(xiàn)有的更大的代碼庫配合使用。

簡單總結(jié)就是,借助該工具,用戶可以使用 OpenAI 的 GPT 編寫和編輯代碼,輕松地進(jìn)行 git commit、diff 和撤消 GPT 提出的更改,而無需復(fù)制 / 粘貼,它還具有幫助 GPT-4 理解和修改更大代碼庫的功能。

為了達(dá)到上述功能,Aider 需要能夠準(zhǔn)確地識別 GPT 何時想要編輯用戶源代碼,還需要確定 GPT 想要修改哪些文件并對 GPT 做出的修改進(jìn)行準(zhǔn)確的應(yīng)用。然而,做好這項(xiàng)「代碼編輯」任務(wù)并不簡單,需要功能較強(qiáng)的 LLM、準(zhǔn)確的提示以及與 LLM 交互的良好工具。

操作過程中,當(dāng)有修改發(fā)生時,Aider 會依靠代碼編輯基準(zhǔn)(code editing benchmark)來定量評估修改后的性能。例如,當(dāng)用戶更改 Aider 的提示或驅(qū)動 LLM 對話的后端時,可以通過運(yùn)行基準(zhǔn)測試以確定這些更改產(chǎn)生多少改進(jìn)。

此外還有人使用 GPT-4 Turbo 簡單和其他模型對比了一下美國高考 SAT 的成績:

同樣,看起來聰明的程度并沒有拉開代差,甚至還有點(diǎn)退步。不過必須要指出的是,實(shí)驗(yàn)的樣本數(shù)量很小。

綜上所述,GPT-4 Turbo 的這一波更新更重要的是完善了功能,增加了速度,準(zhǔn)確性是否提高仍然存疑。這或許與整個大模型業(yè)界目前的潮流一致:重視優(yōu)化,面向應(yīng)用。業(yè)務(wù)落地速度慢的公司要小心了。

另一方面,從這次開發(fā)者日的發(fā)布內(nèi)容來看,OpenAI 也從一個極度追求前沿技術(shù)的創(chuàng)業(yè)公司,變得開始關(guān)注起用戶體驗(yàn)和生態(tài)構(gòu)建,更像大型科技公司了。

再次顛覆 AI 領(lǐng)域的 GPT-5,我們還得再等一等。

參考內(nèi)容

本文系作者 機(jī)器之心 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

2026-03-28 23:01

澤連斯基稱與中東3國達(dá)成防務(wù)合作協(xié)議,涉聯(lián)合生產(chǎn)無人機(jī)

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi),已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長發(fā)表書面致辭,支持世貿(mào)組織《電子商務(wù)協(xié)定》達(dá)成臨時實(shí)施安排

2026-03-28 21:54

40余家單位聯(lián)盟,中國最大人形機(jī)器人訓(xùn)練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會預(yù)判:百億智能體或成新物種,AI推動人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市,售價4.48萬-5.48萬元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉庫并致烏克蘭人傷亡消息不實(shí)

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國務(wù)卿和歐盟官員被曝就烏克蘭問題激烈交鋒

2026-03-28 19:44

“Token”這個詞的搜索量最高一天達(dá)到7.7萬次,比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國首個可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動2026”在北京啟動

2026-03-28 19:03

國務(wù)院食安辦、市場監(jiān)管總局約談相關(guān)地方市級人民政府負(fù)責(zé)人,督辦“3?15”晚會曝光問題整改

2026-03-28 18:44

飛書 CLI 開源:AI 可直連飛書辦公套件

2026-03-28 18:36

馬來西亞說伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個月中國創(chuàng)新藥對外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國和菲律賓舉行南海問題雙邊磋商機(jī)制第十一次會議

2026-03-28 17:30

印尼正式實(shí)施16歲以下社媒禁令,約7000萬人受影響

2026-03-28 17:04

美國加州禁止官員借內(nèi)幕消息在預(yù)測市場牟利

2026-03-28 17:02

北京“超現(xiàn)場”生態(tài)共同體建設(shè)暨全國覆蓋啟動

掃描下載App