文 | 新芒X
今天看到這么一個觀點,說很少有新興技術能夠比代理人工智能 (Agentic AI)為組織提供更多機會來加速生產(chǎn)力和轉(zhuǎn)變業(yè)務運營,其前景甚至超過了其表親生成人工智能 (GenAI)。
另外還看到華泰證券的一個報告,稱生成式AI正邁入以AI智能體為主導的新發(fā)展階段。
這里所說的代理人工智能,其實也就是我們常見的智能體的概念。最近我也參加過多場活動,也上手實測了不少主打智能體的AI產(chǎn)品,很明顯感覺到智能體概念的持續(xù)升溫。
清晰的感知到,這或許就是自從ChatGPT問世后,躁動了許久的AI領域,一路進化的最新態(tài)勢。今天就試圖帶大家去探尋一下,這幅更宏大的全球智能體發(fā)展圖景。
一:從“博學大腦”到“全能打工人”:智能體究竟是什么?
要理解智能體(Agent)為何被寄予厚望,我們首先要弄清它與我們熟悉的生成式AI(GenAI)的根本區(qū)別。
如果說以ChatGPT為代表的GenAI是一個知識淵博、有問必答的“大腦”,那么AI智能體就是為這個大腦裝上了“手和腳”,讓它從一個“對話者”變成一個“行動者”。
GenAI工具受其編程邏輯的約束,擅長根據(jù)指令生成內(nèi)容,但它的行動力到此為止。而智能體則被賦予了更高級的能力:
它被委托一個目標,然后可以自主地進行理解、規(guī)劃、調(diào)用工具,并與環(huán)境交互以達成這個目標。
舉個簡單的例子,比如我之前實測的一句話生成一部三五分鐘,甚至10分鐘的超清視頻大片。劇本、分鏡、配樂、畫面生成……這些需要耗費人類團隊數(shù)周的工作,智能體一次性就能完成 。
業(yè)內(nèi)專家提出了一個清晰的智能體進化路徑,大致可分為幾個階段:從最初只能進行簡單問答的L1級聊天助手,到需要人類預設流程的L2級工作流智能體,再到能夠像領域?qū)<乙粯幼灾饕?guī)劃任務的L3級推理型智能體。而當前競爭最激烈的,則是L4級的多智能體系統(tǒng),它能夠讓多個專長不同的智能體協(xié)同作戰(zhàn),像一個團隊一樣解決跨領域的復雜問題。
從這個進化路徑可以看出,AI的發(fā)展方向正從追求單一模型的“更大、更強”,轉(zhuǎn)向構(gòu)建一個能夠協(xié)同作戰(zhàn)的“智能生態(tài)系統(tǒng)”。
這正是智能體概念持續(xù)升溫的根本原因——它標志著AI正從一個“工具”,向一個真正的“合作伙伴”和“數(shù)字勞動力”轉(zhuǎn)變。
全球巨頭“亮劍”,智能體賽道的“現(xiàn)在進行時”
智能體的浪潮并非空談,放眼全球,科技巨頭們早已重兵布局,爭相亮出自己的“王牌”,將這個未來概念加速推向“現(xiàn)在進行時”。
微軟:將智能體植入生產(chǎn)力的每一個角落
微軟的戰(zhàn)略是“無處不Copilot”。它正致力于將Copilot從一個應用內(nèi)的助手,升級為一個能夠橫跨Windows操作系統(tǒng)、Office 365全家桶、Teams協(xié)作平臺和Azure云服務的“超級智能體”。
未來的Copilot將不再僅僅是幫你寫郵件或總結(jié)文檔,而是能理解“為下周的銷售會議準備一份完整的報告”這樣的復雜指令,然后自主地從Excel調(diào)取數(shù)據(jù)、在PowerPoint中生成圖表、從Teams的聊天記錄中提取要點,并最終為你整合成一份完整的演示文稿。
此外,微軟還開源了AutoGen這樣的框架,旨在幫助開發(fā)者構(gòu)建強大的多智能體應用,其目標是打造一個龐大的、協(xié)同工作的AI智能體網(wǎng)絡,將智能體能力深度融入到數(shù)字工作的每一個環(huán)節(jié)。
谷歌:以多模態(tài)通用AI定義未來交互
谷歌則將賭注押在了多模態(tài)和通用性上。其在I/O大會上驚艷亮相的Project Astra計劃,便是一個最好的例證。
Astra的目標是打造一個能看、能聽、能說、能記憶、能理解復雜情境的通用AI代理。在演示中,它能通過手機攝像頭實時識別周圍環(huán)境,理解代碼,甚至記住物品的存放位置,展現(xiàn)了其作為“日常生活全能助手”的巨大潛力。
這背后是谷歌Gemini模型的強大能力,尤其是其天生的多模態(tài)理解和“工具使用”(Tool Use)能力,使其可以調(diào)用各種API來執(zhí)行現(xiàn)實世界的任務。
對企業(yè)用戶,谷歌則提供了Vertex AI Agent Builder,幫助他們快速構(gòu)建面向特定業(yè)務場景的智能體。
OpenAI:通往AGI之路的關鍵里程碑
作為引領本輪AI浪潮的先鋒,OpenAI將智能體視為實現(xiàn)通用人工智能(AGI)的關鍵路徑。其推出的GPTs可以看作是構(gòu)建智能體的初步嘗試,讓用戶可以為特定任務創(chuàng)建自定義的ChatGPT版本。
但OpenAI的野心遠不止于此。其正在積極研發(fā)能夠自主操作計算機桌面環(huán)境、使用瀏覽器、操作各種軟件來完成復雜任務的下一代智能體。這種智能體將能夠像人類一樣與數(shù)字世界交互,從預訂機票到管理復雜的項目,真正成為人類能力的延伸。
NVIDIA:為智能體時代提供“軍火庫”
在這場競賽中,NVIDIA扮演著不可或缺的“軍火商”角色。它不僅為全球AI公司提供算力強大的GPU,更重要的是,它正在構(gòu)建一個完整的智能體開發(fā)和運行平臺。
其推出的NIM(NVIDIA Inference Microservices)等工具,讓開發(fā)者可以輕松地將模型打包成可調(diào)用的服務,這是構(gòu)建智能體的基石。
最近,NVIDIA甚至發(fā)布了專為人形機器人設計的“GR00T”項目,展示了其將智能體能力從數(shù)字世界延伸到物理世界的雄心。
當然,在這場全球性的競賽中,中國的科技力量同樣不容小覷。諸如百度、360等公司也已推出了面向公眾的、能夠處理復雜任務的多智能體平臺,顯示了這一領域的全球同步發(fā)展態(tài)勢。
“數(shù)字員工”照進現(xiàn)實,智能體如何顛覆百行千業(yè)
那說了這么多高大上的技術,這些“AI智能體”到底會怎么改變我們的工作和生活呢?簡單說,就是各行各業(yè)都會迎來一批不知疲倦、能力超強的“數(shù)字員工”。
比如說,我們都煩透了和那些只會說“請問有什么可以幫您”的機器人客服打交道。未來的智能體客服就不一樣了,它們會有更大的自主權,能像真人一樣,調(diào)取你的資料,理解你的問題,真正幫你把事情給辦了。
在公司內(nèi)部,這些“數(shù)字員工”更是大顯身手。管倉庫的智能體可以24小時盯著庫存,一旦發(fā)現(xiàn)要斷貨,它自己就能重新安排發(fā)貨路線和時間。
對于程序員小哥來說,很多繁瑣又重復的編程工作也可以甩給AI智能體了,它們能幫忙寫新功能、檢查代碼、還能實時抓Bug。甚至在一些超酷的領域,比如“數(shù)字孿生”(就是給一個真實機器在電腦里建個一模一樣的模型),智能體可以分析各種數(shù)據(jù),模擬機器運轉(zhuǎn),提前告訴你哪會出故障,甚至還能組團幫忙安排修理。
當然,有好處也有風險。最直接的挑戰(zhàn)就是網(wǎng)絡安全。你想啊,當黑客也用上了“智能體黑客”,他們就能發(fā)動又快又猛的自動化攻擊。這就逼著我們必須得有自己的“安全智能體”戰(zhàn)隊,未來網(wǎng)絡世界的攻防,很可能就是兩撥AI智能體之間的較量了。
聽起來是不是感覺未來已來,但又有點遙遠?確實,這條路雖然前景光明,但腳下還有幾個坎兒要過。
最大的一個問題是,現(xiàn)在各家公司做的智能體,互相之間還不太會“說普通話”。它們?nèi)鄙俳y(tǒng)一的標準和接口,導致沒法很順暢地跨平臺、跨公司合作。這個問題一旦解決,智能體的能力可以說是“無所不能”了。
前路漫漫亦燦燦,挑戰(zhàn)與未來展望
所以,我們現(xiàn)在正處在一個非常關鍵的起步階段。雖然那些全能AI助理的視頻看起來像魔法一樣神奇,但要讓它真正普及開來,還需要很多努力
那我們該怎么辦?專家的建議很實在:
謹慎地開始,但現(xiàn)在就得開始。我們每個人和每個公司都應該去主動了解和探索,看看這些AI智能體到底能為我們做什么,尤其要找到那些能實實在在帶來回報的用法。你可以先從一些小的試點項目開始,給你的AI智能體一把“鑰匙”,讓它在數(shù)字世界里先跑起來,積累經(jīng)驗。
回到最初的問題:智能體是AI進化的最新態(tài)勢嗎?答案是肯定的。它標志著AI從一個被動的“內(nèi)容生成器”,進化為一個主動的“任務執(zhí)行者”。這是一個根本性的飛躍。
現(xiàn)在,正是我們探索智能體的最佳時機。我們需要借鑒已有的成功案例,從小處著手,開始構(gòu)建和試點,讓智能體獲得“數(shù)字化的實踐鑰匙”。
只有親自下場探索,才能真正理解其潛力與邊界,引領你的個人生活和組織發(fā)展,成功跨越學習曲線,從理想邁向成功。







快報
根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論