圖片來源:視覺中國
在被稱為AI 落地元年的2018年,以“AI+視覺”為主的CV(Computer Vision)領域大放異彩。不論是通過圖像、人臉識別向安防、自動駕駛、零售等領域的廣泛拓張,還是商湯、云從、曠視、依圖“CV四小巨頭”的興起,計算機視覺已成為人工智能發(fā)展進程中實現(xiàn)領先的一條賽道。
然而,與視覺識別相對的語言、語義識別領域,即NLP(Natural Language Processing 自然語言處理),雖然起源時間更早,但發(fā)展程度與落地表現(xiàn)卻稍遜于前者。
早在“人工智能”概念在1956年達特茅斯會議提出后,科學家們開始寄希望于用計算機模擬大腦理解語言學的過程。1962年,“機器翻譯與計算語言學學會”(后更名為國際計算機語言學委員會,簡稱“ACL”)在美國成立,標志著學界對機器翻譯、語義理解等AI技術深入研究的開端。
不過,按照中科院研究院博士生導師宗成慶的說法,“機器翻譯遇到了很多難以克服的語義障礙,甚至一度進入低迷狀態(tài)。”
2013年,宗成慶成為國內(nèi)至今唯一一位加入 ACL 的華人科學家。在他看來,在語音語義理解的機器翻譯操作中,需要面臨諸如“口音、標點識別不準導致語句翻譯出錯”、“政治經(jīng)濟等專業(yè)術語機器無法勝任”等諸多挑戰(zhàn)。
然而,隨著底層技術的持續(xù)突破,與商用場景的進一步擴展,包含語音交互、TTS(文本轉換)等內(nèi)容的NLP也即將迎來新的“春天”。
“接下來這兩年,NLP領域一定有更多機會。” 微軟亞洲研究院自然語言計算組資深研究員韋福如在近期對鈦媒體表示。
從武漢大學計算機學院獲得博士學位,到2010年加入微軟亞洲研究院自然語言計算組工作至今,韋福如已在NLP領域從事十年有余。今年春節(jié)期間,微軟平臺聯(lián)合央視新聞推出H5交互產(chǎn)品《你的生活,AI為你唱作》,就融入了韋福如所在團隊深耕多年的NLP技術。
鈦媒體也試用了這則H5應用:
在上傳照片后,系統(tǒng)會對照片內(nèi)容如環(huán)境、人物、顏色、表情等進行分析;然后基于對照片的理解,歌詞創(chuàng)作系統(tǒng)會自動譜寫符合該照片內(nèi)容的歌詞;最后,由語音合成技術模擬的央視主持人康輝或微軟智能女聲曉曉,則可以根據(jù)歌詞內(nèi)容結合配樂伴奏進行演唱,用戶就得到了一首專屬定制的MP3歌曲。
春節(jié)期間,微軟平臺聯(lián)合央視新聞推出H5交互產(chǎn)品《你的生活,AI為你唱作》
“圖片-歌詞轉化”是韋福如團隊負責攻克的重點環(huán)節(jié)。當中的難點,首先在于對用戶輸入圖片的理解,比如年紀相仿的男女是否可以對應愛情,或者是大笑的表情可以對應相關的歌詞內(nèi)容等;
再一個難點是對歌詞基調(diào)的把握——由于該產(chǎn)品推出時機是豬年春節(jié),微軟團隊希望“這一H5產(chǎn)品表達出的感情基調(diào)是更積極的”——這就需要技術人員在后端算法上進行調(diào)試。
事實上,除了韋福如團隊所代表的自然語言處理,《你的生活,AI為你唱作》中還包含了微軟在去年發(fā)布的深度神經(jīng)網(wǎng)絡語音合成服務、以及在后端支持數(shù)據(jù)高并發(fā)的微軟Azure云服務等,可以說,以這則H5為代表的微軟跨部門方案協(xié)作背后,是由整個微軟NLP、語音合成、云服務等完整方案的商用縮影。
關于NLP 的發(fā)展阻力,目前擔任微軟亞洲研究院副院長的周明曾談到技術“閾值”的理論。
周明拿圖像識別中的安防場景舉例,由于該領域“人證比對”的需求極度旺盛,一旦深度學習將計算機視覺的水平提高至一定的閾值,該場景的巨大需求就會立刻激活。
然而,由于NLP的技術難度實在太大,機器翻譯水平始終沒能達到該場景的閾值,再加上自然語言處理的場景并不像安防那樣有著迫切需求,NLP始終在落地到商業(yè)化的路徑上面臨挑戰(zhàn)。
為了提升NLP的技術閾值,韋福如也帶領團隊始終專注在機器閱讀理解上的深入研究和系統(tǒng)開發(fā)。
2018年1月,在斯坦福大學發(fā)起的SQuAD文本理解挑戰(zhàn)賽中,韋福如所帶領的團隊所開發(fā)的端到端的深度神經(jīng)網(wǎng)絡模型r-net在EM值上以82.650的最高分占據(jù)榜首,首次超越人類成績82.304。
此后,韋福如團隊再次獲得突破,升級后的nlnet模型在EM值和F1值兩個維度上,以85.954和91.677的分數(shù)首次全面超越人類在SQuAD數(shù)據(jù)集上的表現(xiàn)。2019年1月,他們基于BERT開發(fā)的最新系統(tǒng)又在SQuAD 2.0和交互式、多輪閱讀理解數(shù)據(jù)集CoQA上名列榜首。
這樣的技術折射到實際案例中,韋福如希望能借助通用的自然語言模型,讓機器學會“無監(jiān)督”式的自我學習。就拿剛才提到的《AI 唱作》H5來說,在韋福如的規(guī)劃下,當前期積累一定數(shù)據(jù)后,機器可以根據(jù)用戶輸入的照片,自行具備較強的文字理解與組織能力,而不是依靠人為的標注數(shù)據(jù)。
不過,對于NLP目前力所能及的技術范圍,韋福如也對鈦媒體表示,“機器閱讀理解超越人類”仍需一段時日。
“在SQuAD超越人類成績只能說明模型可以擬合這樣的結果,在特定的數(shù)據(jù)集和評測標準下,算法可以做到普通人類(更具體來說是標注人員)的水平,而不是說現(xiàn)在機器理解自然語言比人類強。”韋福如在此前接受采訪時表示。
為了加快技術落地的效率,微軟內(nèi)部除了在底層技術研發(fā)取得突破外,也頗為注重技術產(chǎn)品化的輸出形式。
去年9月,微軟發(fā)布了企業(yè)級定制語音合成的平臺,讓企業(yè)可以根據(jù)他們想要的音色定制聲音。去年12月,微軟在語音產(chǎn)品上再次取得重大技術突破——推出深度神經(jīng)網(wǎng)絡語音合成技術。
這項看起來晦澀的技術名詞,實際上就是我們使用高德、百度地圖時郭德綱、林志玲等明星聲音的由來。通過深度神經(jīng)網(wǎng)絡語音合成技術,明星只需要錄制有限的關鍵語句,即可讓機器合成、并學習擴展至更多的語料。
“很多過去做不到的事情,現(xiàn)在可以做到了。”微軟亞洲互聯(lián)網(wǎng)工程院語音組產(chǎn)品經(jīng)理劉越穎對鈦媒體表示,她舉例道,諸如語氣、情感方面機器擬人的自然度、模型的穩(wěn)定度都得到了明顯的提升;同時,平臺也整合了定制化的能力,可以根據(jù)企業(yè)需求將不同的聲音風格賦予不同的場景。
另外,語音合成技術對數(shù)據(jù)量的減少,也成為這項技術愈發(fā)受到企業(yè)青睞的原因之一。
以此次《AI 唱作》H5為例,為了獲得央視主持人康輝的語音合成聲音,微軟只需要康輝錄制不到十首歌,就可以用相似的風格演繹成千上萬首歌,“比友商減少了十倍”。而這種對語音訓練數(shù)據(jù)的減少,直接刺激了企業(yè)定制語音的需求。
目前,微軟已經(jīng)利用深度神經(jīng)網(wǎng)絡語音合成技術拿下多個客戶,比如教育領域的Roobo 機器人;智能硬件中的小米,其最新發(fā)布的小米9手機中,來自歌手王源的聲音助理,就是由微軟通過語音合成制作而成。
“這種定制化語音的需求正愈加明顯,從早期定制地圖的語音,到現(xiàn)在的呼叫中心,AI在線老師等。每個公司都希望有一個自己的形象,這個形象不僅僅是基于圖像層面的,同時也是三維的。”劉越穎告訴鈦媒體。(本文首發(fā)鈦媒體,作者/蘇建勛)
快報
根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論
因爲這些機器視覺的AI應用容錯率比較高,能湊合用,但語音識別就不行,說錯一點或語無倫次一般人很難容忍,只能用語固定口令的應用。