請(qǐng)輸入圖說

它是一個(gè)分層的VQ-VAE,可以把不同尺度的信息分開處理。

比如,輸入一張256×256圖像,編碼器要把它壓縮進(jìn)不同的潛在空間里:

頂層 (Top Level) 要壓縮成64×64的潛在映射圖,為**全局信息 (比如形狀等) 生成潛碼;

底層 (Bottom Level) 要壓縮成32×32的潛在映射圖,為局部信息 (比如紋理等) 生成潛碼。

然后,解碼器用這兩個(gè)潛在映射圖 (Latent Maps) 中,做出一張與原圖同樣大小的重構(gòu)圖,其中包含了局部和全局信息。

團(tuán)隊(duì)發(fā)現(xiàn),如果不用頂層來調(diào)節(jié) (Condition) 底層,頂層就需要編碼像素中每一個(gè)細(xì)節(jié)。

所以,他們就讓每個(gè)層級(jí)分別依賴于像素 (Separately Depend on Pixels) :可以鼓勵(lì)A(yù)I在每個(gè)映射圖中,編碼補(bǔ)充信息 (Complementary Information) ,降低重構(gòu)誤差。

而學(xué)到分層潛碼 (Hierarchical Latent Codes) 之后,該進(jìn)入下一部分了:

在從潛碼中學(xué)到先驗(yàn) (Prior) ,生成新圖。

這一部分,是二代與一代最大的區(qū)別所在:把一代用到的自回歸先驗(yàn) (Autoregressive Priors) 擴(kuò)展、增強(qiáng)了。

用當(dāng)前最優(yōu)秀的PixelRNN模型來為先驗(yàn)建模,這是一個(gè)帶自注意力機(jī)制的自回歸模型,能夠把先驗(yàn)分布 (Prior Distribution) ,和上一部分學(xué)到的邊界后驗(yàn) (Marginal Posterior) 匹配起來。

這樣,可以生成比從前相干性更高,保真度也更高的圖像。

和第一部分相似:這里也有編碼器和解碼器,可以進(jìn)一步壓縮圖像。

做好之后,從先驗(yàn)里取樣,可以生成新的圖像:和原圖清晰度一致,并且保持了相關(guān)性 (Coherence) 。

兩個(gè)部分合在一起,可以把256×256的圖像,壓縮200倍來學(xué)習(xí);把1024×1024的高清大圖,壓縮50倍來學(xué)習(xí)。

團(tuán)隊(duì)說這樣一來,把圖像生成速度提升了一個(gè)數(shù)量級(jí)。

在需要快速編碼、快速解碼的應(yīng)用上,這樣的方法便有了得天獨(dú)厚的優(yōu)勢。

同時(shí),還避免了GAN的兩個(gè)著名缺點(diǎn):

一是mode collapse,即生成某些圖像之后,GAN的生成器和判別器就達(dá)成和解,不再繼續(xù)學(xué)習(xí)了;二是多樣性不足的問題。

作者簡介

這項(xiàng)研究的作者共有三位,均來自DeepMind,Ali Razavi和Aäron van den Oord為共同一作,Oriol Vinyals為二作。

Ali Razavi博士畢業(yè)于滑鐵盧大學(xué),此前在IBM、Algorithmics和Google就職過,2017年加入DeepMind,任職研究工程師。

研究員Aäron van den Oord小哥主要研究生成模型,此前還參與Google Play的音樂推薦項(xiàng)目。

2017年,Aäron參與了哈薩比斯項(xiàng)目組關(guān)于Parallel WaveNet的研究,為這篇論文的第一作者。

Oriol Vinyals小哥此前參與了多個(gè)明星項(xiàng)目,比如星際項(xiàng)目、比如AlphaStar,還與圖靈獎(jiǎng)得主Geoffrey Hinton和谷歌大腦負(fù)責(zé)人Jeff Dean一起合作過,合著論文Distilling the knowledge in a neural network。

對(duì)了,最先稱贊BigGAN是“史上最佳GAN”的人,也是他~

傳送門

論文Generating Diverse High-Fidelity Images with VQ-VAE-2地址:

https://arxiv.org/abs/1906.00446

本文系作者 量子位 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

14:30

河南:聚焦老年用品研發(fā)生產(chǎn)培育龍頭企業(yè)和產(chǎn)業(yè)集群,建設(shè)高標(biāo)準(zhǔn)養(yǎng)老產(chǎn)業(yè)園區(qū)

14:28

河南:到2027年養(yǎng)老服務(wù)等領(lǐng)域民政服務(wù)供給不斷優(yōu)化

14:02

宇樹科技王興興:具身智能GPT時(shí)刻大概還需兩到三年

14:01

阿塞拜疆首都地區(qū)降水量打破百年紀(jì)錄

13:54

蒙古國執(zhí)政黨選定總理候選人

13:32

本周南向資金凈買入251億港元,泡泡瑪特凈買入超36億港元

13:17

沙特每日700萬桶石油繞過霍爾木茲

13:16

中東兩大鋁廠遇襲,恐影響全球供應(yīng)鏈

12:58

全國累計(jì)器官捐獻(xiàn)志愿登記人數(shù)超過733萬

12:46

宇樹科技具身智能體驗(yàn)館亞洲首店將于5月底落地上海

12:44

洛杉磯10萬人參加“不要國王”抗議,多人被捕

12:37

今年前兩月霍爾果斯口岸果蔬出口增長29.3%

11:48

中國首臺(tái)商用12兆伏串列加速器成功下線

11:40

美副總統(tǒng)稱無意滯留伊朗,將很快撤出

11:39

中關(guān)村兩院具身通用智能基座模型與社會(huì)模擬器等科研成果發(fā)布

11:37

清明檔新片預(yù)售票房突破2000萬

11:30

約千人“包圍”洛杉磯政府機(jī)構(gòu)大樓,兩人被捕

10:59

中穎電子:有序推進(jìn)車規(guī)芯片研發(fā),新產(chǎn)品預(yù)期今年推出

10:50

德研究報(bào)告:中國工業(yè)數(shù)字化水平全球領(lǐng)先

10:39

訊飛醫(yī)療2025年?duì)I收增長25%,虧損收窄

掃描下載App