說明:

· GPQA Diamond: 這是一個(gè)評估模型在通用問題解答能力上的指標(biāo)。

· AIME 2022-2024: 這是美國數(shù)學(xué)邀請賽(American Invitational Mathematics Examination)的一個(gè)分?jǐn)?shù)段,用于評估模型在數(shù)學(xué)推理和解題能力上的表現(xiàn)。

· Codeforces ELO: 這是編程競賽平臺Codeforces上的一種評分系統(tǒng),類似于國際象棋中的Elo評級系統(tǒng),用于評估模型在編程任務(wù)上的表現(xiàn)。

雖然o3-mini專注于推理,但目前它還不具備視覺能力。如果開發(fā)者和用戶需要上傳圖片或文件,仍然需要使用o1。

競爭加劇

o3-mini的發(fā)布標(biāo)志著OpenAI首次向免費(fèi)用戶提供推理模型。此前,o1系列模型僅限于ChatGPT Plus、Pro等付費(fèi)用戶使用,或者通過OpenAI的付費(fèi)API。

通過2022年11月推出ChatGPT,OpenAI開啟了大語言模型(LLM)聊天機(jī)器人的新領(lǐng)域。而在2024年9月,OpenAI推出o1系列模型,正式開創(chuàng)了推理模型這一新類別,采用了新的訓(xùn)練機(jī)制和架構(gòu)。

然而,OpenAI并沒有將o1開源,這與其名稱和最初的創(chuàng)立理念相悖。與之相對,DeepSeek的R1模型采用了開源方式,且完全免費(fèi),允許全球用戶自由使用、修改和定制。R1模型的訓(xùn)練成本遠(yuǎn)低于o1和其他頂級實(shí)驗(yàn)室的模型,因此在消費(fèi)市場和企業(yè)市場中獲得了廣泛應(yīng)用,甚至OpenAI的投資方微軟和Anthropic的支持者亞馬遜也快速將其添加到自己的云市場中。

DeepSeek還推出了免費(fèi)的應(yīng)用和網(wǎng)站,并允許用戶對R1模型進(jìn)行修改和定制,這使得它在消費(fèi)者和企業(yè)市場迅速崛起。DeepSeek的這種開源政策以及低成本訓(xùn)練,使其成為了一個(gè)強(qiáng)有力的競爭者。

ChatGPT中的可用性

o3現(xiàn)在在全球范圍內(nèi)推向ChatGPT Free、Plus、Team和Pro用戶,Enterprise和Education版本將在下周推出。

免費(fèi)用戶可以通過選擇聊天欄中的“reason(推理)”按鈕或重新生成回答來首次體驗(yàn)o3-mini。

Plus和Team用戶的消息限制提高了3倍,從每天50條增加到150條。

Pro用戶將能夠無限制使用o3-mini以及一個(gè)新的更高推理版本——o3-mini-high。

此外,o3-mini現(xiàn)在支持與搜索功能的集成,用戶將能夠獲得包含相關(guān)網(wǎng)頁鏈接的回答。這個(gè)功能仍處于初期階段,OpenAI正在不斷改進(jìn)推理模型中的搜索能力。

API集成與定價(jià)

對于開發(fā)者,o3-mini已通過Chat Completions API、Assistants API和Batch API提供。該模型支持功能調(diào)用、結(jié)構(gòu)化輸出和開發(fā)者消息,便于開發(fā)者將其集成到實(shí)際應(yīng)用中。

o3-mini的最大優(yōu)勢之一是其成本效益:它比o1-mini便宜63%,比完整的o1模型便宜93%,每百萬token的進(jìn)出費(fèi)用分別為1.10美元/4.40美元(享有50%的緩存折扣)。

盡管如此,DeepSeek的R1模型的API價(jià)格仍然更具優(yōu)勢,僅為0.14美元/0.55美元每百萬token進(jìn)出。但考慮到DeepSeek總部位于中國,涉及到一些國外老生常談的“用戶數(shù)據(jù)流動(dòng)的安全與地緣政治問題”,OpenAI可能仍將是美國和歐洲一些注重安全的客戶和企業(yè)的首選。

開發(fā)者可以根據(jù)應(yīng)用需求調(diào)整推理難度(低、中、高),以控制延遲和準(zhǔn)確性之間的平衡。

安全性與隱私保護(hù)

OpenAI表示,在o3-mini中采用了“深思熟慮對齊”的方法。這意味著模型會思考并理解人類編寫的安全指南,理解這些指南的意圖和預(yù)防的危害,并且會提出自己的方法確保這些危害得到有效避免。OpenAI表示,這樣可以使模型在討論敏感話題時(shí)更加寬容,同時(shí)保持高安全性。

OpenAI稱,o3-mini在處理安全性和越獄挑戰(zhàn)時(shí),優(yōu)于GPT-4o。該模型在發(fā)布前進(jìn)行了廣泛的安全性測試。

最近有一些國外的第三方報(bào)道指出,DeepSeek的R1模型在50次越獄測試中“全部失敗”,這將使得一些國外媒體宣傳o3-mini在需要高安全性的場合更具優(yōu)勢。

結(jié)語:未來展望

o3-mini的發(fā)布標(biāo)志著OpenAI進(jìn)一步努力讓先進(jìn)的推理AI變得更加普及和高效,特別是在DeepSeek R1等競爭者的壓力下。Google也在推出其競爭性推理模型Gemini 2 Flash Thinking,并擴(kuò)展了輸入上下文,支持高達(dá)100萬個(gè)tokens。

OpenAI聚焦于STEM推理和成本效益,旨在擴(kuò)大AI驅(qū)動(dòng)的解決方案在消費(fèi)者和開發(fā)者中的應(yīng)用。

然而,隨著OpenAI不斷擴(kuò)展雄心,最近宣布的一個(gè)由軟銀支持的5000億美元數(shù)據(jù)中心基礎(chǔ)設(shè)施項(xiàng)目Stargate,問題仍然存在:它的戰(zhàn)略是否足以讓這些巨額投資獲得回報(bào)?隨著開源模型不斷接近OpenAI的性能并在成本上超越它,OpenAI是否能憑借其安全性、強(qiáng)大的能力、易用的API和用戶友好的界面維持現(xiàn)有客戶,特別是在企業(yè)市場上?我們將繼續(xù)關(guān)注這些發(fā)展。

本文系作者 科技旋渦 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論

登錄后輸入評論內(nèi)容
  • 被迫免費(fèi)開源了

    回復(fù) 2025.02.01 · via iphone

快報(bào)

更多

2026-03-28 23:01

澤連斯基稱與中東3國達(dá)成防務(wù)合作協(xié)議,涉聯(lián)合生產(chǎn)無人機(jī)

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi),已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長發(fā)表書面致辭,支持世貿(mào)組織《電子商務(wù)協(xié)定》達(dá)成臨時(shí)實(shí)施安排

2026-03-28 21:54

40余家單位聯(lián)盟,中國最大人形機(jī)器人訓(xùn)練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會預(yù)判:百億智能體或成新物種,AI推動(dòng)人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市,售價(jià)4.48萬-5.48萬元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉庫并致烏克蘭人傷亡消息不實(shí)

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國務(wù)卿和歐盟官員被曝就烏克蘭問題激烈交鋒

2026-03-28 19:44

“Token”這個(gè)詞的搜索量最高一天達(dá)到7.7萬次,比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國首個(gè)可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動(dòng)2026”在北京啟動(dòng)

2026-03-28 19:03

國務(wù)院食安辦、市場監(jiān)管總局約談相關(guān)地方市級人民政府負(fù)責(zé)人,督辦“3?15”晚會曝光問題整改

2026-03-28 18:44

飛書 CLI 開源:AI 可直連飛書辦公套件

2026-03-28 18:36

馬來西亞說伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個(gè)月中國創(chuàng)新藥對外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國和菲律賓舉行南海問題雙邊磋商機(jī)制第十一次會議

2026-03-28 17:30

印尼正式實(shí)施16歲以下社媒禁令,約7000萬人受影響

2026-03-28 17:04

美國加州禁止官員借內(nèi)幕消息在預(yù)測市場牟利

2026-03-28 17:02

北京“超現(xiàn)場”生態(tài)共同體建設(shè)暨全國覆蓋啟動(dòng)

1

掃描下載App