這個(gè)技術(shù)細(xì)節(jié),某種程度上揭示了語(yǔ)音交互賽道的獨(dú)特競(jìng)爭(zhēng)邏輯。不同于視頻生成、代碼生成等領(lǐng)域可以用算力和資本直接碾壓,語(yǔ)音交互的長(zhǎng)尾場(chǎng)景極其復(fù)雜且難以標(biāo)準(zhǔn)化,AI陪伴兒童玩具需要“像幼兒園老師一樣溫暖”;AI陪伴男友既需要霸總的聲音,也需要青春男生的聲音。“可以說(shuō)一個(gè) AI 陪伴男友需要 100 多個(gè)性格迥異的虛擬聲音。”梅杰透露,你很難用一個(gè)通用模型同時(shí)滿足幼教的親和力和情感陪伴的細(xì)膩度。
這些長(zhǎng)尾需求,豆包、千問(wèn)、MiniMax 等大廠的通用模型大約能覆蓋 60%,剩下 40% 的市場(chǎng)需要深度定制。但從機(jī)會(huì)成本看,大廠不會(huì)為單一的客戶需求投入更多資源。
在他們眼中,語(yǔ)音業(yè)務(wù)遠(yuǎn)不如推理、視頻生成等十億美金級(jí)別的產(chǎn)品重要。這個(gè)空白地帶,正是 VUI Labs 看到的機(jī)會(huì)。
2026 年初,這家成立僅一年的公司完成數(shù)千萬(wàn)元天使+輪融資,由同創(chuàng)偉業(yè)領(lǐng)投,老股東靖亞資本、小苗朗程持續(xù)加注。這家公司半年內(nèi)累計(jì)融資近億元。創(chuàng)始人梅杰是連續(xù)創(chuàng)業(yè)者,浙大竺可楨學(xué)院創(chuàng)新與創(chuàng)業(yè)管理強(qiáng)化班校友。聯(lián)合創(chuàng)始人錢彥旻是上海交大計(jì)算機(jī)學(xué)院特聘教授、教育部長(zhǎng)江學(xué)者,其團(tuán)隊(duì)早在 2019 年就在全球首次提出端到端語(yǔ)音模型訓(xùn)練方案。
VUI Labs 基于千問(wèn)等開源大模型重新構(gòu)建端到端語(yǔ)音對(duì)話模型,針對(duì)客戶長(zhǎng)尾場(chǎng)景做深度定制,從數(shù)據(jù)管線中“反直覺”的噪聲處理,到算法層面融合 Transformer與卷積神經(jīng)網(wǎng)絡(luò)、借鑒腦科學(xué)的情感計(jì)算,再到推理層面的延時(shí)優(yōu)化,每一層都在解決大廠通用模型“最后 40%”的問(wèn)題。
目前,VUI Labs 已與榮耀、紫光展銳、印象筆記等頭部客戶達(dá)成合作。API 平臺(tái)推出首月,Luna-TTS模型即實(shí)現(xiàn) 200 萬(wàn)元收入。
在大廠主導(dǎo)的 AI 時(shí)代,一家創(chuàng)業(yè)公司如何在語(yǔ)音賽道找到生存空間?端到端模型的技術(shù)壁壘究竟在哪里?與巨頭的差異化競(jìng)爭(zhēng)點(diǎn)是什么?![]()
VUI Labs創(chuàng)始人 梅杰
智客ZhiKer:為什么選擇做情感語(yǔ)音交互方向?
梅杰:選擇做這件事情其實(shí)有兩方面因素,一個(gè)是市場(chǎng)需求,一個(gè)是我們本身的技術(shù)儲(chǔ)備積累。
從技術(shù)儲(chǔ)備來(lái)看,我們的聯(lián)合創(chuàng)始人錢彥旻教授是國(guó)內(nèi)語(yǔ)音領(lǐng)域最優(yōu)秀的科學(xué)家之一,也是全球范圍內(nèi)最早提出端到端語(yǔ)音對(duì)話模型的科學(xué)家之一,2019 年就發(fā)表了第一篇端到端語(yǔ)音對(duì)話模型的論文。這個(gè)時(shí)間點(diǎn)是非常早的。
為什么情感對(duì)話和端到端語(yǔ)音模型密切相關(guān)?過(guò)去的語(yǔ)音交互,比如天貓精靈、小愛音箱,本質(zhì)上是指令控制,并沒(méi)有真正的智能。
隨著大模型的發(fā)展,AI 有了智能,但在真人對(duì)話過(guò)程中,除了文本信息,還有大量副語(yǔ)言信息。比如我現(xiàn)在邊思考邊講,中間會(huì)夾雜著停頓、語(yǔ)氣變化,甚至話沒(méi)說(shuō)完的情況。這些信息在傳統(tǒng)方案下往往都會(huì)被丟失。
更重要的一點(diǎn)是,人在不同的情緒和情感狀態(tài)下,所表達(dá)的意思可能完全不同。舉個(gè)例子,“你可真行,你可真厲害”,從文本角度看是肯定,但在真實(shí)對(duì)話中可能是嘲諷。只有在端到端語(yǔ)音交互模型下,才能實(shí)現(xiàn)更擬人、更豐富情感的能力,這是我們整個(gè)技術(shù)路線選擇的出發(fā)點(diǎn)。
智客ZhiKer:從市場(chǎng)角度,你們看到了什么樣的機(jī)會(huì)?
梅杰:從市場(chǎng)角度來(lái)看,現(xiàn)在不管是對(duì)話機(jī)器人,還是各種 Agent 的應(yīng)用、具身智能、智能硬件、智能玩具等等,大家對(duì)于語(yǔ)音交互的需求是越來(lái)越多的,對(duì)于體驗(yàn)的要求也越來(lái)越高。
我們有很多客戶,在用上語(yǔ)音交互之后,就希望整個(gè)交互能夠更加擬人化、表達(dá)更加富有情感。所以從發(fā)展趨勢(shì)來(lái)講,這是一個(gè)非常好的賽道。
智客ZhiKer:多模態(tài)情感交互語(yǔ)音大模型Luna系列跟傳統(tǒng)方案有什么區(qū)別?
梅杰:我們采用的是端到端語(yǔ)音交互架構(gòu),而傳統(tǒng)方案是級(jí)聯(lián)模型,人說(shuō)話之后,先用 ASR 把語(yǔ)音轉(zhuǎn)化成文字,然后把文字交給 LLM 去理解,LLM 輸出文字之后再交給 TTS 合成語(yǔ)音輸出。這個(gè)過(guò)程會(huì)丟失大量信息。
但端到端模型不一樣。我們相當(dāng)于是在模型訓(xùn)練的時(shí)候,從一開始就把語(yǔ)音信號(hào)和文本做了很多對(duì)齊的訓(xùn)練,所以模型是能夠直接理解語(yǔ)音的,不需要經(jīng)過(guò)那個(gè)級(jí)聯(lián)的轉(zhuǎn)換。
在超低延時(shí)和豐富情感語(yǔ)音交互、豐富情感語(yǔ)音生成、多說(shuō)話人理解等方面全面對(duì)標(biāo)國(guó)內(nèi)外的一線語(yǔ)音模型廠商,如Google,ElevenLabs,OpenAI,Hume AI和Sesame等。
智客ZhiKer:延時(shí)是多少?
梅杰:我們的語(yǔ)音對(duì)話延遲只有 1.4 秒,達(dá)到了行業(yè)領(lǐng)先水平。
Luna-1 在 VoiceBench 權(quán)威測(cè)評(píng)中取得了 79.05 分,這個(gè)分?jǐn)?shù)是非常高的,緊隨 GPT-4o-Audio 的 86.42 分。
Luna-TTS-1 語(yǔ)音合成模型的延遲更是低至 200 毫秒。
智客ZhiKer:情感識(shí)別在技術(shù)上是怎么實(shí)現(xiàn)的?
梅杰:情感識(shí)別主要靠?jī)蓚€(gè)方面,一個(gè)是算法,一個(gè)是數(shù)據(jù)。
從算法角度,我們的模型里面不只是有 Transformer 架構(gòu),還有卷積神經(jīng)網(wǎng)絡(luò)等不同的技術(shù)。為什么這么做?因?yàn)?Transformer 并不是在所有情況下都是最優(yōu)的。錢教授還參與了國(guó)家腦科學(xué)計(jì)劃,所以有很多算法是借鑒了人腦在處理聲音情感時(shí)的計(jì)算方式,把過(guò)去 20 年的技術(shù)積累融入進(jìn)去了。
從數(shù)據(jù)角度,我們構(gòu)建了一個(gè)專門的語(yǔ)音對(duì)話數(shù)據(jù)管線。有一個(gè)非常有趣的現(xiàn)象,做其他訓(xùn)練的時(shí)候,比如做代碼或者圖像生成,你可能希望數(shù)據(jù)標(biāo)注得越清晰越好,把噪音、雜音都去掉。但是在聲音領(lǐng)域不是這樣的,如果你用非常干凈的純語(yǔ)音數(shù)據(jù)去做訓(xùn)練,模型能力反而不行。
原因是真實(shí)的聲音就是在嘈雜的、有各種不確定性的情況下發(fā)生的。你訓(xùn)練的時(shí)候給它太干凈的數(shù)據(jù),等遇到真實(shí)場(chǎng)景就不行了。包括喂給它的訓(xùn)練數(shù)據(jù)的順序,先給什么數(shù)據(jù)、后給什么數(shù)據(jù),都會(huì)影響模型的能力。這里面有很多 know-how,是我們的技術(shù)壁壘之一。
智客ZhiKer:面對(duì)大廠競(jìng)爭(zhēng),你們的差異化在哪里?
梅杰:我們并不覺得大廠在語(yǔ)音對(duì)話上有壓倒性優(yōu)勢(shì)。原因有三點(diǎn)。
第一是人才。語(yǔ)音領(lǐng)域的頂尖人才本身就稀缺。大廠能觸達(dá)的人才,我們團(tuán)隊(duì)也有。錢教授在這個(gè)領(lǐng)域深耕多年,我們?cè)谌瞬艃?chǔ)備上不輸大廠。
第二是戰(zhàn)略聚焦度。我們只做語(yǔ)音這一件事。而大廠的精力更多放在推理、Coding、視頻生成這些十億美金級(jí)別的業(yè)務(wù)上。語(yǔ)音對(duì)他們來(lái)說(shuō)不是戰(zhàn)略重點(diǎn)。
第三是長(zhǎng)尾場(chǎng)景的定制能力,這是最核心的差異化。我們有客戶接了豆包、千問(wèn)、MiniMax,但從具體場(chǎng)景來(lái)說(shuō),通用模型只能解決 50%~60%的問(wèn)題,剩下 40% 解決不了。
舉個(gè)例子,AI情感陪伴產(chǎn)品,每個(gè)角色都有獨(dú)特的音色、聲線、說(shuō)話風(fēng)格和語(yǔ)氣。有的要像霸總一樣有力量感,有的要溫柔體貼會(huì)撒嬌。通用模型不可能覆蓋這些細(xì)分場(chǎng)景。
更關(guān)鍵的是,語(yǔ)音數(shù)據(jù)不像圖像數(shù)據(jù)那樣豐富。真實(shí)的人與人對(duì)話數(shù)據(jù)涉及隱私,互聯(lián)網(wǎng)上根本沒(méi)有,大廠也拿不到。這意味著每個(gè)客戶的場(chǎng)景都需要用高度相關(guān)的數(shù)據(jù)單獨(dú)訓(xùn)練。
大廠不會(huì)為了一個(gè)客戶,去做這樣的深度優(yōu)化,機(jī)會(huì)成本太高。但我們不一樣,既然聚焦語(yǔ)音賽道,我們就愿意為客戶需求做數(shù)據(jù)層面的優(yōu)化、模型層面的微調(diào)、預(yù)訓(xùn)練和后訓(xùn)練,最終把需求滿足度從 60% 提升到 80%、90%,甚至 100%。
這就是我們的生存空間,大廠看不上的那 40%,恰恰是我們深耕的價(jià)值高地,也是我們不可替代的理由。
智客ZhiKer:商業(yè)模式是怎樣的?
梅杰:商業(yè)模式有三類。
首先是基模的API,我們不會(huì)去做深度的項(xiàng)目制開發(fā)。我們的API覆蓋語(yǔ)音領(lǐng)域的全棧模型,包括語(yǔ)音識(shí)別、語(yǔ)音合成、聲音克隆、多說(shuō)話人日志,智能打斷、聲音鑒別、端到端對(duì)話等。
其次,TTS模型的個(gè)性化研發(fā)和IP分成模式。我們聚焦泛娛樂(lè)場(chǎng)景,比如社交、游戲、AI 陪伴、情感陪伴、AI 漫劇、短劇等,這方面我們會(huì)給客戶做一些個(gè)性化研發(fā)。與合作伙伴聯(lián)合訓(xùn)練出來(lái)的聲線或角色,通過(guò)長(zhǎng)期分成方式構(gòu)建商業(yè)模式。不是像以前外包一樣一次性開發(fā)。
第三,語(yǔ)音智能體產(chǎn)品。構(gòu)建面向C端用戶和B端用戶的VoiceAgent產(chǎn)品。
智客ZhiKer:目前服務(wù)了哪些客戶?可以詳細(xì)講一個(gè)合作案例嗎?
梅杰:我們已經(jīng)和榮耀、紫光展銳、印象筆記等國(guó)內(nèi)外頭部企業(yè)合作。
跟硬件廠商的合作更偏前端,偏語(yǔ)音交互。我們有一些模型比如識(shí)別、抗噪、聲音鑒偽,這些都是偏理解側(cè)的。剛才講的 AI 男友是偏生成側(cè),硬件廠商是偏理解側(cè)。
舉個(gè)例子,我們跟榮耀的合作,我們有一款多模態(tài)語(yǔ)音理解模型,可以用來(lái)做實(shí)時(shí)同聲傳譯。硬件廠商希望在手機(jī)端側(cè)就能搭載語(yǔ)音通話的同聲傳譯,這樣有幾個(gè)好處:第一是隱私性,尤其是是榮耀在歐洲發(fā)布的手機(jī),它們比較強(qiáng)調(diào)隱私,很多對(duì)話數(shù)據(jù)不會(huì)上傳到云端,手機(jī)可以用本地模型解決。
榮耀的Case 有幾個(gè)核心問(wèn)題:第一它要求模型是端側(cè)部署的Cost 要低;第二又能夠非常好地做多國(guó)語(yǔ)言的同聲傳譯;第三它要求保留說(shuō)話人的說(shuō)話風(fēng)格和聲音,相當(dāng)于我既做翻譯又做克隆,而且都是實(shí)時(shí)的,又是在設(shè)備端側(cè)可以直接跑的。
這三個(gè)點(diǎn),當(dāng)時(shí)在那個(gè)階段能做得比較好的,國(guó)內(nèi)可能就我們。做了之后,這確實(shí)作為他高端折疊屏手機(jī)在歐洲市場(chǎng)的一個(gè)非常好的用戶體驗(yàn)提升,因?yàn)槠渌謾C(jī)品牌沒(méi)有,而且到目前為止很多廠商也沒(méi)能夠跟進(jìn)和做這件事情。
智客ZhiKer:聽說(shuō)你們也推出了 C 端產(chǎn)品?
梅杰:是的,這是我剛才講的,我們?cè)赩oice Agent產(chǎn)品上的嘗試。SaySo語(yǔ)音輸入法,直接對(duì)標(biāo)的是美國(guó)的 Wispr Flow。![]()
https://www.sayso.ai/
Wispr Flow在海外的月費(fèi)大概是12 美金,我們定價(jià)是 3-5 美金,這款A(yù)I語(yǔ)音輸入法主要定位為創(chuàng)作者群體的語(yǔ)音輸入助手。
現(xiàn)在很多創(chuàng)作者傾向于“口述創(chuàng)作”的模式,他們需要捕捉稍縱即逝的靈感,而語(yǔ)音是最快的載體。SaySo 的核心價(jià)值,就是用 AI 把這些碎片化的語(yǔ)音流,瞬間梳理成邏輯嚴(yán)密的結(jié)構(gòu)化文字。我們要做的,就是讓創(chuàng)作者徹底從繁瑣的整理工作中解放出來(lái)。
SaySo產(chǎn)品我們年初剛推出PC 版,移動(dòng)版正在開發(fā)中。
智客ZhiKer:宇生月伴正在建設(shè)的 Voice Agent 平臺(tái)是什么?未來(lái)的規(guī)劃是什么?
梅杰:Voice Agent 平臺(tái)第一階段主要服務(wù)創(chuàng)作者,圍繞創(chuàng)作者的全工作流,做更深度的 Agent 能力進(jìn)化。未來(lái)我們也會(huì)逐步切入B端市場(chǎng)。
從市場(chǎng)規(guī)劃角度,我們?cè)趪?guó)內(nèi)外有不同的策略。國(guó)內(nèi)市場(chǎng)我們主要做 agent 應(yīng)用,海外市場(chǎng)我們更多推模型能力。
為什么這么規(guī)劃?因?yàn)榉叛廴?,真正能做模型的?guó)家就是中美兩個(gè)。但語(yǔ)音交互的需求是全球人都需要的。所以在海外,我們可能會(huì)推廣基礎(chǔ)的模型能力;在國(guó)內(nèi),我們覺得 Agent 應(yīng)用更有市場(chǎng),因?yàn)閲?guó)內(nèi)模型開源加上價(jià)格戰(zhàn),競(jìng)爭(zhēng)很激烈。
智客ZhiKer:在國(guó)內(nèi)做 Agent 應(yīng)用,是做成獨(dú)立的產(chǎn)品還是跟其他 Agent 合作?
梅杰:我們更傾向于做成獨(dú)立的產(chǎn)品。因?yàn)閷?duì)于 Voice Agent 平臺(tái)來(lái)說(shuō),獨(dú)立應(yīng)用就是它落地的最佳載體(或者說(shuō)‘第一入口’)。國(guó)內(nèi)更適合做 C 端市場(chǎng),C 端市場(chǎng)的話可能需要端到端交付。所以我們更偏向于做一個(gè)偏語(yǔ)音交互形態(tài)的 Agent 產(chǎn)品。
至于具體的產(chǎn)品形態(tài),我們有一個(gè)從“廣度”到“切入點(diǎn)”的思考邏輯:
從廣度看,語(yǔ)音交互絕對(duì)是未來(lái)的主流接口。你看從兒童(天然 voice-first)到中老年群體(打字困難),他們對(duì)語(yǔ)音有著天然的剛需,這證明了 Voice Agent 的市場(chǎng)天花板極高,是全人群通用的。
但為了把產(chǎn)品做透,我們目前的切入點(diǎn)必須聚焦。既然第一階段服務(wù)創(chuàng)作者,我們決定先把“語(yǔ)音輸入”這個(gè)最高頻、最剛需的場(chǎng)景做到極致,希望通過(guò)這個(gè)高頻入口,先把模型能力打磨好,未來(lái)再順勢(shì)延展到更廣泛的 C 端場(chǎng)景。
智客ZhiKer:公司現(xiàn)在團(tuán)隊(duì)規(guī)模如何?
梅杰:目前大概 20 個(gè)人,上海和杭州兩地辦公。上海偏算法,因?yàn)殡x錢教授的實(shí)驗(yàn)室比較近,算法的人上海更多一些;杭州偏工程。
智客ZhiKer:如何看待語(yǔ)音交互市場(chǎng)的未來(lái)?
梅杰:我們認(rèn)為語(yǔ)音交互是未來(lái)最大最重要的交互界面。
你回想一下過(guò)去幾十年交互界面的演進(jìn):從PC時(shí)代的鍵盤鼠標(biāo)交互,到移動(dòng)互聯(lián)網(wǎng)時(shí)代的觸屏交互,未來(lái)最大的交互就是語(yǔ)音交互。
隨著 AI 能力的提升,人與軟件交互的邏輯也在發(fā)生變化。過(guò)去我們需要先學(xué)會(huì)“怎么操作軟件”,記很多菜單、按鈕和指令;但未來(lái),人可能只需要表達(dá)“我想要什么”。剩下的事情由 AI 去理解、拆解任務(wù),再去執(zhí)行。換句話說(shuō),過(guò)去我們是在學(xué)習(xí)怎么用軟件,未來(lái)軟件會(huì)學(xué)會(huì)理解人。
把人從很多繁瑣的操作里解放出來(lái)。更多地去關(guān)注判斷、創(chuàng)意和決策,而把執(zhí)行層面的工作交給 AI。這種交互方式其實(shí)會(huì)出現(xiàn)在很多場(chǎng)景里,比如軟件 Agent、各種智能終端、機(jī)器人、車載系統(tǒng)等等。
從數(shù)據(jù)來(lái)看,美國(guó)語(yǔ)音交互已經(jīng)連續(xù)十個(gè)季度保持 10%—15%的穩(wěn)定增長(zhǎng)。雖然短期沒(méi)有像視頻生成那樣爆發(fā),但長(zhǎng)期一直在穩(wěn)步增長(zhǎng)。這是一個(gè)巨大的市場(chǎng)機(jī)會(huì)。
智客ZhiKer:未來(lái)三五年希望 VUI Labs 發(fā)展成什么樣?
梅杰:我們的愿景就是讓 voice user interface 夢(mèng)想成真。我們希望在未來(lái) VUI 時(shí)代,成為最重要的基礎(chǔ)設(shè)施公司之一。
從規(guī)模角度,我們預(yù)期三年內(nèi)做到 3000 萬(wàn)美金的 ARR。我們現(xiàn)在 TTS 產(chǎn)品剛上線第一個(gè)月就有 200 萬(wàn)收入了,整體需求還是很大的。
關(guān)鍵是要在這個(gè)蓬勃發(fā)展的市場(chǎng)里找到一個(gè)精準(zhǔn)的定位,既能夠避開巨頭的競(jìng)爭(zhēng),又能在這個(gè)里面很好地成長(zhǎng)起來(lái)。
我們希望能夠成為新時(shí)代最強(qiáng)的全球化語(yǔ)音交互公司,成為這個(gè)新時(shí)代的全球化的“科大訊飛”。(作者|郭虹妘,編輯|陶天宇)
更多對(duì)全球市場(chǎng)、跨國(guó)公司和中國(guó)經(jīng)濟(jì)的深度分析與獨(dú)家洞察,歡迎訪問(wèn)
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論