文 | 青山資本
兩年前,ChatGPT橫空出世,顛覆世界認知。今年年初,文生視頻大模型Sora發(fā)布,全網刷屏。前不久,生成式AI音樂軟件Suno V3誕生,音樂創(chuàng)作迎來了“ChatGPT時刻”。
人工智能在以更快的速度闖進人類的世界,當AI的風吹向音樂圈,帶走了什么?又留下了什么?
作為投資人,同時也是音樂人,今天,來聊聊AI與音樂。
作為投資人,常被問到“AI音樂的商業(yè)模式怎么樣?”
我的答案是,有效但也有限
AI音樂不是一個新鮮的詞,除了現(xiàn)在說的生成式,其實還有一些輔助創(chuàng)作工具,例如人聲分離等。如果回歸到生成音樂本身,這個歷史也很久了。我上學的時候老師講現(xiàn)代音樂,就提到上世紀50年代美國教授用數(shù)學的形式隨機生成音樂,甚至還有貓踩鋼琴生成音樂,這是一個概率問題,所有生成技術的底層邏輯都是概率。
前幾年國內有一個生成音樂的商業(yè)模式。公司像是一個大廠房,格子間里的工作人員,每人一臺電腦,一個小的電琴,每人每天要創(chuàng)作幾首新歌上傳平臺,歌曲就像流水線上的商品按照固定的模式生產出來了。人工加水電,每首歌的生產成本幾百上千。緊接著的投放也有一套流程,例如一千首歌上傳到短視頻平臺,每個投10元,挑出表現(xiàn)好的繼續(xù)再投100,再挑再投,直到某一首歌被聽到和傳播了,獲得收益。流量倒入到音樂流媒體平臺,平臺跟工廠結版稅。他們不需要去辨別一首歌質量的高低,只要其中的某句歌詞、某個旋律觸動聽眾,得到傳播,不斷地循環(huán),商業(yè)模式就是有效的。在這個模式下,大量的電子垃圾被生產出來,堆砌到互聯(lián)網上。AI音樂讓這類公司的成本進一步降低了,每首歌從幾百塊可以降到幾塊錢,財務模型確實會帶來大幅優(yōu)化。
當然,青山沒有投這樣的公司。第一,我們追求更高的天花板。從投資視角,我們希望一家企業(yè)有機會做的很大,而不僅僅是賺點錢;第二,我們要考慮商業(yè)或投資的社會意義。投資這么多年,結果上我們不能說沒有瑕疵,但在動機和出發(fā)點上,我們一直很在乎社會意義,也一定有除了賺錢以外的考量。
有些人可能會問,上面的商業(yè)模式里,AI降低了歌曲的生產成本,但是收入項會增加嗎?也就是說AI模仿和學習能力這么強,會更容易產生爆火的神曲嗎?這個要從“歌”和“火”兩件事看。我認為AI生成一些中國流行樂壇上的火歌是非常容易的事情,每天生成100萬、1000萬,一定是有一些滿足火的條件的,甚至現(xiàn)在就有,這還是概率問題。但是,火這個事很難做到,因為不會被聽見。很多人擔心AI會產生大量的歌,其實這個事已經持續(xù)很多年了。在流媒體平臺上,比如QQ音樂、網易云音樂、spotify,每天都有十萬以上的新歌被上傳。真正被人聽到的有幾首?可能1000首都不到,99%都被淹沒了。如果這個數(shù)字變成100萬,變成一億又怎么樣,也不會被人聽到,不會因為供給增多而拉高需求。
當然,還有另外一種to B的音樂,諸如罐頭音樂等,他們的存在不是為了吸引你的注意力,更多的是提供一種情緒氛圍。有大量的低成本的視覺內容,以及線下游樂園、商場和餐廳等有類似的需求,這類型的音樂有非常穩(wěn)定的交易市場和商業(yè)業(yè)態(tài),它們也不需要精良的制作,我認為AI對這類型音樂的影響是非常直接和迅速的。
AI音樂目前來看受益最大的還是平臺,很簡單的道理,平臺如果不需要每年支付大額的版權費給上游創(chuàng)作者,何樂而不為呢?平臺的邏輯簡單說是計算下游聽眾的收聽總時長,對應上游版權支付的成本。如果一部分被平臺自產的AI音樂替換,就相當于上游支付版權的成本降低了一大塊。當然,創(chuàng)作者是一定會反對有人用他們的音樂訓練大模型來取代他們,前提是得確切地知道。所以,在整個AI領域,推動訓練數(shù)據(jù)的公開透明化,去溯源和監(jiān)管訓練數(shù)據(jù)是必須要做的事。平臺也需要在這個里面扮演個歷史正面的角色。
上面提到了一些有效的商業(yè)模式,但我認為總體來看生成式AI在音樂領域的發(fā)展依然是有限的。
人工智能本質上就是輸入、計算和輸出三個環(huán)節(jié)。計算環(huán)節(jié)會隨著時間發(fā)展不斷進步,進步的邊界人類不一定能夠特別清楚的掌握,但但凡是文生,輸入環(huán)節(jié)就始終會受到人類語言的制約。人類大腦皮層70%都是由視覺處理的功能覆蓋的,語言誕生的時候就是通過視覺的同構來建立了人類的交流系統(tǒng)。相比視覺,人類語言和聽覺的同構性是很差的。而創(chuàng)作音樂是嘗試對沒有邊界和沒有格式的聲學環(huán)境做一個描述,人類語言很難精準表達。這就導致在輸入環(huán)節(jié)的效率非常低,無論是創(chuàng)作時還是修改時,人類的語言描述都很難將內心想要的東西正確傳達給計算機。只要是文生,這個顆粒度就無法降得很小。
所以,在計算環(huán)節(jié)同樣進步的情況下,文生圖片、文生視頻等文生視覺的進步速度會遠遠高于文生音樂,甚至文生音樂的天花板是極其明顯的,因為文對音樂的描述能力太過粗糙。
作為音樂人,常被問到“AI真的可以進行藝術創(chuàng)作嗎?”
我的答案是,除非有一天AI產生企圖和情感
不同音樂創(chuàng)作的流程是完全不同的。
我最早開始寫歌是在90年代,那時候組過搖滾樂隊。樂隊寫歌其實不是一個非常嚴謹?shù)膭?chuàng)作過程,更像是大家一起玩出一首歌來,情緒和靈感的碰撞,每個人貢獻其中一部分。
后來我學習古典音樂,音樂創(chuàng)作是相對嚴謹?shù)?。古典音樂的?chuàng)作通常是由一個人來完成,創(chuàng)作過程是作曲家自己以記錄、寫譜等視覺呈現(xiàn)出來,樂團的演奏是與其明確對應的,一個周期下來要半年、一年甚至更長。
現(xiàn)在做電子樂,電子音樂的創(chuàng)作又是另外一套流程。電子樂的創(chuàng)作可以是一個人,也可以是幾個人,但基本可以完全用軟件來創(chuàng)作,當然也可以用硬件來做輔助。整個音樂所具備的要素,無論是旋律、音色、節(jié)奏和各種樂器,都被拆解成了一個個可輸入和可編輯的最小單元。
進入到電子音樂時代,當音樂被拆解成一個個數(shù)字單元,智能音樂、生成音樂就具備了基礎。在計算編排方面的能力到了一定程度后,音樂創(chuàng)作自然就會被順勢覆蓋。
但是AI創(chuàng)作的音樂可以被稱作藝術嗎?不止是音樂,AI生成的畫作、文學、設計等等,這些能被稱作是藝術嗎?又該怎樣定義藝術呢?
首先,藝術是人類特有的內容形式,其次,一切藝術都該有兩個層面,技巧層和內核層。在這兩個層面里,內核層是必要條件,技巧層是充分條件。
把音排列組合成旋律和和聲,編排上樂器,模擬出人的嗓音,這些是技巧層。
把線條、色彩排列組合成人類喜歡的樣子,這是技巧層。
把古文的詞匯按規(guī)律組合成七言五言,這是技巧層。
內核層是什么?是人類的企圖與情感。任何一個藝術作品,都能找到這兩種元素。而AI目前,沒有企圖與情感。
怎樣看待AI可能帶來的大量“電子垃圾”?
創(chuàng)作者、分發(fā)者和受眾,到底誰應該為電子垃圾負責,這是一個爭論不休的話題。
首先,我認為受眾是沒有錯的。雖然很多人批判觀眾審美差,所以內容差,但我認為這種說法是站不住腳的?;仡^看人類歷史發(fā)展的各個階段,絕大部分的人都不知道自己要什么。藝術造詣或深或淺的時代、地區(qū),受眾都是一樣的結構。
其次,我認為分發(fā)環(huán)節(jié)只能遵從客觀。從經銷商的門店到流媒體,分發(fā)渠道發(fā)生了劇烈的變化。很多人將過錯歸于分發(fā)環(huán)節(jié),批判分發(fā)公司不負責任,什么都推。這種質疑也是站不住腳的。試想如果分發(fā)公司設置了價值標準,那是不是更加錯誤?我們不應該要求分發(fā)環(huán)節(jié)去判斷,而應該要求它客觀公正。按受眾結構匹配分發(fā)不是過錯。
我認為,問題產生的源頭在創(chuàng)作環(huán)節(jié),這是一個非常主觀的并且有明確標準的環(huán)節(jié)。對于創(chuàng)作者,你要盡你所能,創(chuàng)作精益求精的作品,無關乎硬件和環(huán)境,你都要去精雕細琢,不斷嘗試,這也就是所謂的匠人精神。如果是這樣的創(chuàng)作生態(tài),再加上客觀公平的分配機制,我相信結果會不一樣。
歸根到底,工具是為人所用的。職業(yè)音樂人是把AI用于收集素材和靈感,還是會把AI簡單生成的歌作為自己的歌發(fā)行,這是自己的選擇。
最后,聊聊AI音樂的未來。
一百多年前拍照是一個很專業(yè)的事情,門檻很高。甚至五十年前,拍照依然要學會使用專業(yè)的相機,調整光圈等。后來出現(xiàn)了傻瓜相機,再后來智能手機實現(xiàn)了拍照平權,拍照融入了日常生活,每個人都可以隨時隨地拍照上傳社交媒體。這個世界每天產生幾十億甚至上百億的圖片,但結構是非常典型的冪次結構。極少數(shù)的明星和網紅花了很多時間和心思拍攝的精修圖能夠被很多人看到,絕大多數(shù)的普通人隨手一拍發(fā)在社交媒體上的被幾個幾十個熟人看到。
未來的AI內容仍然遵循這一結構。
未來可能每個人都可以用AI生成音樂表達自己的心情,通過終端分享到平臺,但是結構不會改變,依然是那些花費更多時間和擁有更多額外條件的人,他們的音樂會被更多人聽到,絕大多數(shù)人的音樂還是只會在小范圍傳播,但也挺好,AI給了我們更多選擇。
無論是投資人還是音樂人的生活,AI都在帶來翻天覆地的變化。人總還是懷舊的,看著一代人有一代人的音樂,感謝音樂代替我們表達一代又一代人的叛逆。
從純自然聲響到電聲進入音樂領域,再到麥克風讓耳語能被聽到,又來到數(shù)字時代的電子音樂,音樂范式的變革推動音樂核心內容的變化,窮盡一個范式會助推下一個范式的到來,電子音樂時代的AI正扮演著加速器的角色。
至于下一個范式是什么?什么時候到來?
我們無從知曉。
風起時,我們只能聽著吹動的響,看揚起的沙,
期待加速到來的明天。







快報
根據(jù)《網絡安全法》實名制要求,請綁定手機號后發(fā)表評論