久草视频在线播放,婷婷视频一区二区,欧美日黄色大片播放

這個(gè)技術(shù)細(xì)節(jié)，某種程度上揭示了語(yǔ)音交互賽道的獨(dú)特競(jìng)爭(zhēng)邏輯。不同于視頻生成、代碼生成等領(lǐng)域可以用算力和資本直接碾壓，語(yǔ)音交互的長(zhǎng)尾場(chǎng)景極其復(fù)雜且難以標(biāo)準(zhǔn)化，AI陪伴兒童玩具需要“像幼兒園老師一樣溫暖”；AI陪伴男友既需要霸總的聲音，也需要青春男生的聲音。“可以說(shuō)一個(gè) AI 陪伴男友需要 100 多個(gè)性格迥異的虛擬聲音。”梅杰透露，你很難用一個(gè)通用模型同時(shí)滿足幼教的親和力和情感陪伴的細(xì)膩度。

這些長(zhǎng)尾需求，豆包、千問(wèn)、MiniMax 等大廠的通用模型大約能覆蓋 60%，剩下 40% 的市場(chǎng)需要深度定制。但從機(jī)會(huì)成本看，大廠不會(huì)為單一的客戶需求投入更多資源。

在他們眼中，語(yǔ)音業(yè)務(wù)遠(yuǎn)不如推理、視頻生成等十億美金級(jí)別的產(chǎn)品重要。這個(gè)空白地帶，正是 VUI Labs 看到的機(jī)會(huì)。

2026 年初，這家成立僅一年的公司完成數(shù)千萬(wàn)元天使+輪融資，由同創(chuàng)偉業(yè)領(lǐng)投，老股東靖亞資本、小苗朗程持續(xù)加注。這家公司半年內(nèi)累計(jì)融資近億元。創(chuàng)始人梅杰是連續(xù)創(chuàng)業(yè)者，浙大竺可楨學(xué)院創(chuàng)新與創(chuàng)業(yè)管理強(qiáng)化班校友。聯(lián)合創(chuàng)始人錢彥旻是上海交大計(jì)算機(jī)學(xué)院特聘教授、教育部長(zhǎng)江學(xué)者，其團(tuán)隊(duì)早在 2019 年就在全球首次提出端到端語(yǔ)音模型訓(xùn)練方案。

VUI Labs 基于千問(wèn)等開源大模型重新構(gòu)建端到端語(yǔ)音對(duì)話模型，針對(duì)客戶長(zhǎng)尾場(chǎng)景做深度定制，從數(shù)據(jù)管線中“反直覺”的噪聲處理，到算法層面融合 Transformer與卷積神經(jīng)網(wǎng)絡(luò)、借鑒腦科學(xué)的情感計(jì)算，再到推理層面的延時(shí)優(yōu)化，每一層都在解決大廠通用模型“最后 40%”的問(wèn)題。

目前，VUI Labs 已與榮耀、紫光展銳、印象筆記等頭部客戶達(dá)成合作。API 平臺(tái)推出首月，Luna-TTS模型即實(shí)現(xiàn) 200 萬(wàn)元收入。

在大廠主導(dǎo)的 AI 時(shí)代，一家創(chuàng)業(yè)公司如何在語(yǔ)音賽道找到生存空間？端到端模型的技術(shù)壁壘究竟在哪里？與巨頭的差異化競(jìng)爭(zhēng)點(diǎn)是什么？

▎以下為與梅杰的對(duì)話全文，略有刪減：

梅杰：選擇做這件事情其實(shí)有兩方面因素，一個(gè)是市場(chǎng)需求，一個(gè)是我們本身的技術(shù)儲(chǔ)備積累。

從技術(shù)儲(chǔ)備來(lái)看，我們的聯(lián)合創(chuàng)始人錢彥旻教授是國(guó)內(nèi)語(yǔ)音領(lǐng)域最優(yōu)秀的科學(xué)家之一，也是全球范圍內(nèi)最早提出端到端語(yǔ)音對(duì)話模型的科學(xué)家之一，2019 年就發(fā)表了第一篇端到端語(yǔ)音對(duì)話模型的論文。這個(gè)時(shí)間點(diǎn)是非常早的。

為什么情感對(duì)話和端到端語(yǔ)音模型密切相關(guān)？過(guò)去的語(yǔ)音交互，比如天貓精靈、小愛音箱，本質(zhì)上是指令控制，并沒(méi)有真正的智能。

隨著大模型的發(fā)展，AI 有了智能，但在真人對(duì)話過(guò)程中，除了文本信息，還有大量副語(yǔ)言信息。比如我現(xiàn)在邊思考邊講，中間會(huì)夾雜著停頓、語(yǔ)氣變化，甚至話沒(méi)說(shuō)完的情況。這些信息在傳統(tǒng)方案下往往都會(huì)被丟失。

更重要的一點(diǎn)是，人在不同的情緒和情感狀態(tài)下，所表達(dá)的意思可能完全不同。舉個(gè)例子，“你可真行，你可真厲害”，從文本角度看是肯定，但在真實(shí)對(duì)話中可能是嘲諷。只有在端到端語(yǔ)音交互模型下，才能實(shí)現(xiàn)更擬人、更豐富情感的能力，這是我們整個(gè)技術(shù)路線選擇的出發(fā)點(diǎn)。

梅杰：從市場(chǎng)角度來(lái)看，現(xiàn)在不管是對(duì)話機(jī)器人，還是各種 Agent 的應(yīng)用、具身智能、智能硬件、智能玩具等等，大家對(duì)于語(yǔ)音交互的需求是越來(lái)越多的，對(duì)于體驗(yàn)的要求也越來(lái)越高。

我們有很多客戶，在用上語(yǔ)音交互之后，就希望整個(gè)交互能夠更加擬人化、表達(dá)更加富有情感。所以從發(fā)展趨勢(shì)來(lái)講，這是一個(gè)非常好的賽道。

梅杰：我們采用的是端到端語(yǔ)音交互架構(gòu)，而傳統(tǒng)方案是級(jí)聯(lián)模型，人說(shuō)話之后，先用 ASR 把語(yǔ)音轉(zhuǎn)化成文字，然后把文字交給 LLM 去理解，LLM 輸出文字之后再交給 TTS 合成語(yǔ)音輸出。這個(gè)過(guò)程會(huì)丟失大量信息。

但端到端模型不一樣。我們相當(dāng)于是在模型訓(xùn)練的時(shí)候，從一開始就把語(yǔ)音信號(hào)和文本做了很多對(duì)齊的訓(xùn)練，所以模型是能夠直接理解語(yǔ)音的，不需要經(jīng)過(guò)那個(gè)級(jí)聯(lián)的轉(zhuǎn)換。

在超低延時(shí)和豐富情感語(yǔ)音交互、豐富情感語(yǔ)音生成、多說(shuō)話人理解等方面全面對(duì)標(biāo)國(guó)內(nèi)外的一線語(yǔ)音模型廠商，如Google，ElevenLabs，OpenAI，Hume AI和Sesame等。

梅杰：我們的語(yǔ)音對(duì)話延遲只有 1.4 秒，達(dá)到了行業(yè)領(lǐng)先水平。

Luna-1 在 VoiceBench 權(quán)威測(cè)評(píng)中取得了 79.05 分，這個(gè)分?jǐn)?shù)是非常高的，緊隨 GPT-4o-Audio 的 86.42 分。

梅杰：情感識(shí)別主要靠?jī)蓚€(gè)方面，一個(gè)是算法，一個(gè)是數(shù)據(jù)。

從算法角度，我們的模型里面不只是有 Transformer 架構(gòu)，還有卷積神經(jīng)網(wǎng)絡(luò)等不同的技術(shù)。為什么這么做？因?yàn)?Transformer 并不是在所有情況下都是最優(yōu)的。錢教授還參與了國(guó)家腦科學(xué)計(jì)劃，所以有很多算法是借鑒了人腦在處理聲音情感時(shí)的計(jì)算方式，把過(guò)去 20 年的技術(shù)積累融入進(jìn)去了。

從數(shù)據(jù)角度，我們構(gòu)建了一個(gè)專門的語(yǔ)音對(duì)話數(shù)據(jù)管線。有一個(gè)非常有趣的現(xiàn)象，做其他訓(xùn)練的時(shí)候，比如做代碼或者圖像生成，你可能希望數(shù)據(jù)標(biāo)注得越清晰越好，把噪音、雜音都去掉。但是在聲音領(lǐng)域不是這樣的，如果你用非常干凈的純語(yǔ)音數(shù)據(jù)去做訓(xùn)練，模型能力反而不行。

原因是真實(shí)的聲音就是在嘈雜的、有各種不確定性的情況下發(fā)生的。你訓(xùn)練的時(shí)候給它太干凈的數(shù)據(jù)，等遇到真實(shí)場(chǎng)景就不行了。包括喂給它的訓(xùn)練數(shù)據(jù)的順序，先給什么數(shù)據(jù)、后給什么數(shù)據(jù)，都會(huì)影響模型的能力。這里面有很多 know-how，是我們的技術(shù)壁壘之一。

梅杰：我們并不覺得大廠在語(yǔ)音對(duì)話上有壓倒性優(yōu)勢(shì)。原因有三點(diǎn)。

第一是人才。語(yǔ)音領(lǐng)域的頂尖人才本身就稀缺。大廠能觸達(dá)的人才，我們團(tuán)隊(duì)也有。錢教授在這個(gè)領(lǐng)域深耕多年，我們?cè)谌瞬艃?chǔ)備上不輸大廠。

第二是戰(zhàn)略聚焦度。我們只做語(yǔ)音這一件事。而大廠的精力更多放在推理、Coding、視頻生成這些十億美金級(jí)別的業(yè)務(wù)上。語(yǔ)音對(duì)他們來(lái)說(shuō)不是戰(zhàn)略重點(diǎn)。

第三是長(zhǎng)尾場(chǎng)景的定制能力，這是最核心的差異化。我們有客戶接了豆包、千問(wèn)、MiniMax，但從具體場(chǎng)景來(lái)說(shuō)，通用模型只能解決 50%～60%的問(wèn)題，剩下 40% 解決不了。

舉個(gè)例子，AI情感陪伴產(chǎn)品，每個(gè)角色都有獨(dú)特的音色、聲線、說(shuō)話風(fēng)格和語(yǔ)氣。有的要像霸總一樣有力量感，有的要溫柔體貼會(huì)撒嬌。通用模型不可能覆蓋這些細(xì)分場(chǎng)景。

更關(guān)鍵的是，語(yǔ)音數(shù)據(jù)不像圖像數(shù)據(jù)那樣豐富。真實(shí)的人與人對(duì)話數(shù)據(jù)涉及隱私，互聯(lián)網(wǎng)上根本沒(méi)有，大廠也拿不到。這意味著每個(gè)客戶的場(chǎng)景都需要用高度相關(guān)的數(shù)據(jù)單獨(dú)訓(xùn)練。

大廠不會(huì)為了一個(gè)客戶，去做這樣的深度優(yōu)化，機(jī)會(huì)成本太高。但我們不一樣，既然聚焦語(yǔ)音賽道，我們就愿意為客戶需求做數(shù)據(jù)層面的優(yōu)化、模型層面的微調(diào)、預(yù)訓(xùn)練和后訓(xùn)練，最終把需求滿足度從 60% 提升到 80%、90%，甚至 100%。

這就是我們的生存空間，大廠看不上的那 40%，恰恰是我們深耕的價(jià)值高地，也是我們不可替代的理由。

首先是基模的API，我們不會(huì)去做深度的項(xiàng)目制開發(fā)。我們的API覆蓋語(yǔ)音領(lǐng)域的全棧模型，包括語(yǔ)音識(shí)別、語(yǔ)音合成、聲音克隆、多說(shuō)話人日志，智能打斷、聲音鑒別、端到端對(duì)話等。

其次，TTS模型的個(gè)性化研發(fā)和IP分成模式。我們聚焦泛娛樂(lè)場(chǎng)景，比如社交、游戲、AI 陪伴、情感陪伴、AI 漫劇、短劇等，這方面我們會(huì)給客戶做一些個(gè)性化研發(fā)。與合作伙伴聯(lián)合訓(xùn)練出來(lái)的聲線或角色，通過(guò)長(zhǎng)期分成方式構(gòu)建商業(yè)模式。不是像以前外包一樣一次性開發(fā)。

第三，語(yǔ)音智能體產(chǎn)品。構(gòu)建面向C端用戶和B端用戶的VoiceAgent產(chǎn)品。

梅杰：我們已經(jīng)和榮耀、紫光展銳、印象筆記等國(guó)內(nèi)外頭部企業(yè)合作。

跟硬件廠商的合作更偏前端，偏語(yǔ)音交互。我們有一些模型比如識(shí)別、抗噪、聲音鑒偽，這些都是偏理解側(cè)的。剛才講的 AI 男友是偏生成側(cè)，硬件廠商是偏理解側(cè)。

舉個(gè)例子，我們跟榮耀的合作，我們有一款多模態(tài)語(yǔ)音理解模型，可以用來(lái)做實(shí)時(shí)同聲傳譯。硬件廠商希望在手機(jī)端側(cè)就能搭載語(yǔ)音通話的同聲傳譯，這樣有幾個(gè)好處：第一是隱私性，尤其是是榮耀在歐洲發(fā)布的手機(jī)，它們比較強(qiáng)調(diào)隱私，很多對(duì)話數(shù)據(jù)不會(huì)上傳到云端，手機(jī)可以用本地模型解決。

榮耀的Case 有幾個(gè)核心問(wèn)題：第一它要求模型是端側(cè)部署的Cost 要低；第二又能夠非常好地做多國(guó)語(yǔ)言的同聲傳譯；第三它要求保留說(shuō)話人的說(shuō)話風(fēng)格和聲音，相當(dāng)于我既做翻譯又做克隆，而且都是實(shí)時(shí)的，又是在設(shè)備端側(cè)可以直接跑的。

這三個(gè)點(diǎn)，當(dāng)時(shí)在那個(gè)階段能做得比較好的，國(guó)內(nèi)可能就我們。做了之后，這確實(shí)作為他高端折疊屏手機(jī)在歐洲市場(chǎng)的一個(gè)非常好的用戶體驗(yàn)提升，因?yàn)槠渌謾C(jī)品牌沒(méi)有，而且到目前為止很多廠商也沒(méi)能夠跟進(jìn)和做這件事情。

梅杰：是的，這是我剛才講的，我們?cè)赩oice Agent產(chǎn)品上的嘗試。SaySo語(yǔ)音輸入法，直接對(duì)標(biāo)的是美國(guó)的 Wispr Flow。

Wispr Flow在海外的月費(fèi)大概是12 美金，我們定價(jià)是 3-5 美金，這款A(yù)I語(yǔ)音輸入法主要定位為創(chuàng)作者群體的語(yǔ)音輸入助手。

現(xiàn)在很多創(chuàng)作者傾向于“口述創(chuàng)作”的模式，他們需要捕捉稍縱即逝的靈感，而語(yǔ)音是最快的載體。SaySo 的核心價(jià)值，就是用 AI 把這些碎片化的語(yǔ)音流，瞬間梳理成邏輯嚴(yán)密的結(jié)構(gòu)化文字。我們要做的，就是讓創(chuàng)作者徹底從繁瑣的整理工作中解放出來(lái)。

SaySo產(chǎn)品我們年初剛推出PC 版，移動(dòng)版正在開發(fā)中。

梅杰：Voice Agent 平臺(tái)第一階段主要服務(wù)創(chuàng)作者，圍繞創(chuàng)作者的全工作流，做更深度的 Agent 能力進(jìn)化。未來(lái)我們也會(huì)逐步切入B端市場(chǎng)。

從市場(chǎng)規(guī)劃角度，我們?cè)趪?guó)內(nèi)外有不同的策略。國(guó)內(nèi)市場(chǎng)我們主要做 agent 應(yīng)用，海外市場(chǎng)我們更多推模型能力。

為什么這么規(guī)劃？因?yàn)榉叛廴?，真正能做模型的?guó)家就是中美兩個(gè)。但語(yǔ)音交互的需求是全球人都需要的。所以在海外，我們可能會(huì)推廣基礎(chǔ)的模型能力；在國(guó)內(nèi)，我們覺得 Agent 應(yīng)用更有市場(chǎng)，因?yàn)閲?guó)內(nèi)模型開源加上價(jià)格戰(zhàn)，競(jìng)爭(zhēng)很激烈。

梅杰：我們更傾向于做成獨(dú)立的產(chǎn)品。因?yàn)閷?duì)于 Voice Agent 平臺(tái)來(lái)說(shuō)，獨(dú)立應(yīng)用就是它落地的最佳載體（或者說(shuō)‘第一入口’）。國(guó)內(nèi)更適合做 C 端市場(chǎng)，C 端市場(chǎng)的話可能需要端到端交付。所以我們更偏向于做一個(gè)偏語(yǔ)音交互形態(tài)的 Agent 產(chǎn)品。

至于具體的產(chǎn)品形態(tài)，我們有一個(gè)從“廣度”到“切入點(diǎn)”的思考邏輯：

從廣度看，語(yǔ)音交互絕對(duì)是未來(lái)的主流接口。你看從兒童（天然 voice-first）到中老年群體（打字困難），他們對(duì)語(yǔ)音有著天然的剛需，這證明了 Voice Agent 的市場(chǎng)天花板極高，是全人群通用的。

但為了把產(chǎn)品做透，我們目前的切入點(diǎn)必須聚焦。既然第一階段服務(wù)創(chuàng)作者，我們決定先把“語(yǔ)音輸入”這個(gè)最高頻、最剛需的場(chǎng)景做到極致，希望通過(guò)這個(gè)高頻入口，先把模型能力打磨好，未來(lái)再順勢(shì)延展到更廣泛的 C 端場(chǎng)景。

梅杰：目前大概 20 個(gè)人，上海和杭州兩地辦公。上海偏算法，因?yàn)殡x錢教授的實(shí)驗(yàn)室比較近，算法的人上海更多一些；杭州偏工程。

梅杰：我們認(rèn)為語(yǔ)音交互是未來(lái)最大最重要的交互界面。

你回想一下過(guò)去幾十年交互界面的演進(jìn)：從PC時(shí)代的鍵盤鼠標(biāo)交互，到移動(dòng)互聯(lián)網(wǎng)時(shí)代的觸屏交互，未來(lái)最大的交互就是語(yǔ)音交互。

隨著 AI 能力的提升，人與軟件交互的邏輯也在發(fā)生變化。過(guò)去我們需要先學(xué)會(huì)“怎么操作軟件”，記很多菜單、按鈕和指令；但未來(lái)，人可能只需要表達(dá)“我想要什么”。剩下的事情由 AI 去理解、拆解任務(wù)，再去執(zhí)行。換句話說(shuō)，過(guò)去我們是在學(xué)習(xí)怎么用軟件，未來(lái)軟件會(huì)學(xué)會(huì)理解人。

把人從很多繁瑣的操作里解放出來(lái)。更多地去關(guān)注判斷、創(chuàng)意和決策，而把執(zhí)行層面的工作交給 AI。這種交互方式其實(shí)會(huì)出現(xiàn)在很多場(chǎng)景里，比如軟件 Agent、各種智能終端、機(jī)器人、車載系統(tǒng)等等。

從數(shù)據(jù)來(lái)看，美國(guó)語(yǔ)音交互已經(jīng)連續(xù)十個(gè)季度保持 10%—15%的穩(wěn)定增長(zhǎng)。雖然短期沒(méi)有像視頻生成那樣爆發(fā)，但長(zhǎng)期一直在穩(wěn)步增長(zhǎng)。這是一個(gè)巨大的市場(chǎng)機(jī)會(huì)。

梅杰：我們的愿景就是讓 voice user interface 夢(mèng)想成真。我們希望在未來(lái) VUI 時(shí)代，成為最重要的基礎(chǔ)設(shè)施公司之一。

從規(guī)模角度，我們預(yù)期三年內(nèi)做到 3000 萬(wàn)美金的 ARR。我們現(xiàn)在 TTS 產(chǎn)品剛上線第一個(gè)月就有 200 萬(wàn)收入了，整體需求還是很大的。

關(guān)鍵是要在這個(gè)蓬勃發(fā)展的市場(chǎng)里找到一個(gè)精準(zhǔn)的定位,既能夠避開巨頭的競(jìng)爭(zhēng)，又能在這個(gè)里面很好地成長(zhǎng)起來(lái)。

我們希望能夠成為新時(shí)代最強(qiáng)的全球化語(yǔ)音交互公司，成為這個(gè)新時(shí)代的全球化的“科大訊飛”。（作者｜郭虹妘，編輯｜陶天宇）

更多對(duì)全球市場(chǎng)、跨國(guó)公司和中國(guó)經(jīng)濟(jì)的深度分析與獨(dú)家洞察，歡迎訪問(wèn)

快報(bào)

2026-03-28 23:01

澤連斯基稱與中東3國(guó)達(dá)成防務(wù)合作協(xié)議，涉聯(lián)合生產(chǎn)無(wú)人機(jī)

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi)，已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長(zhǎng)發(fā)表書面致辭，支持世貿(mào)組織《電子商務(wù)協(xié)定》達(dá)成臨時(shí)實(shí)施安排

2026-03-28 21:54

40余家單位聯(lián)盟，中國(guó)最大人形機(jī)器人訓(xùn)練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會(huì)預(yù)判：百億智能體或成新物種，AI推動(dòng)人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市，售價(jià)4.48萬(wàn)-5.48萬(wàn)元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉(cāng)庫(kù)并致烏克蘭人傷亡消息不實(shí)

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國(guó)務(wù)卿和歐盟官員被曝就烏克蘭問(wèn)題激烈交鋒

2026-03-28 19:44

“Token”這個(gè)詞的搜索量最高一天達(dá)到7.7萬(wàn)次，比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國(guó)首個(gè)可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動(dòng)2026”在北京啟動(dòng)

2026-03-28 19:03

國(guó)務(wù)院食安辦、市場(chǎng)監(jiān)管總局約談相關(guān)地方市級(jí)人民政府負(fù)責(zé)人，督辦“3?15”晚會(huì)曝光問(wèn)題整改

2026-03-28 18:44

飛書 CLI 開源：AI 可直連飛書辦公套件

2026-03-28 18:36

馬來(lái)西亞說(shuō)伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個(gè)月中國(guó)創(chuàng)新藥對(duì)外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國(guó)和菲律賓舉行南海問(wèn)題雙邊磋商機(jī)制第十一次會(huì)議

2026-03-28 17:30

印尼正式實(shí)施16歲以下社媒禁令，約7000萬(wàn)人受影響

2026-03-28 17:04

美國(guó)加州禁止官員借內(nèi)幕消息在預(yù)測(cè)市場(chǎng)牟利

2026-03-28 17:02

北京“超現(xiàn)場(chǎng)”生態(tài)共同體建設(shè)暨全國(guó)覆蓋啟動(dòng)