請(qǐng)輸入圖說
它是一個(gè)分層的VQ-VAE,可以把不同尺度的信息分開處理。
比如,輸入一張256×256圖像,編碼器要把它壓縮進(jìn)不同的潛在空間里:
頂層 (Top Level) 要壓縮成64×64的潛在映射圖,為**全局信息 (比如形狀等) 生成潛碼;
底層 (Bottom Level) 要壓縮成32×32的潛在映射圖,為局部信息 (比如紋理等) 生成潛碼。
然后,解碼器用這兩個(gè)潛在映射圖 (Latent Maps) 中,做出一張與原圖同樣大小的重構(gòu)圖,其中包含了局部和全局信息。
團(tuán)隊(duì)發(fā)現(xiàn),如果不用頂層來調(diào)節(jié) (Condition) 底層,頂層就需要編碼像素中每一個(gè)細(xì)節(jié)。
所以,他們就讓每個(gè)層級(jí)分別依賴于像素 (Separately Depend on Pixels) :可以鼓勵(lì)A(yù)I在每個(gè)映射圖中,編碼補(bǔ)充信息 (Complementary Information) ,降低重構(gòu)誤差。
而學(xué)到分層潛碼 (Hierarchical Latent Codes) 之后,該進(jìn)入下一部分了:
在從潛碼中學(xué)到先驗(yàn) (Prior) ,生成新圖。
這一部分,是二代與一代最大的區(qū)別所在:把一代用到的自回歸先驗(yàn) (Autoregressive Priors) 擴(kuò)展、增強(qiáng)了。
用當(dāng)前最優(yōu)秀的PixelRNN模型來為先驗(yàn)建模,這是一個(gè)帶自注意力機(jī)制的自回歸模型,能夠把先驗(yàn)分布 (Prior Distribution) ,和上一部分學(xué)到的邊界后驗(yàn) (Marginal Posterior) 匹配起來。
這樣,可以生成比從前相干性更高,保真度也更高的圖像。
和第一部分相似:這里也有編碼器和解碼器,可以進(jìn)一步壓縮圖像。
做好之后,從先驗(yàn)里取樣,可以生成新的圖像:和原圖清晰度一致,并且保持了相關(guān)性 (Coherence) 。
兩個(gè)部分合在一起,可以把256×256的圖像,壓縮200倍來學(xué)習(xí);把1024×1024的高清大圖,壓縮50倍來學(xué)習(xí)。
團(tuán)隊(duì)說這樣一來,把圖像生成速度提升了一個(gè)數(shù)量級(jí)。
在需要快速編碼、快速解碼的應(yīng)用上,這樣的方法便有了得天獨(dú)厚的優(yōu)勢。
同時(shí),還避免了GAN的兩個(gè)著名缺點(diǎn):
一是mode collapse,即生成某些圖像之后,GAN的生成器和判別器就達(dá)成和解,不再繼續(xù)學(xué)習(xí)了;二是多樣性不足的問題。
這項(xiàng)研究的作者共有三位,均來自DeepMind,Ali Razavi和Aäron van den Oord為共同一作,Oriol Vinyals為二作。
Ali Razavi博士畢業(yè)于滑鐵盧大學(xué),此前在IBM、Algorithmics和Google就職過,2017年加入DeepMind,任職研究工程師。
研究員Aäron van den Oord小哥主要研究生成模型,此前還參與Google Play的音樂推薦項(xiàng)目。
2017年,Aäron參與了哈薩比斯項(xiàng)目組關(guān)于Parallel WaveNet的研究,為這篇論文的第一作者。
Oriol Vinyals小哥此前參與了多個(gè)明星項(xiàng)目,比如星際項(xiàng)目、比如AlphaStar,還與圖靈獎(jiǎng)得主Geoffrey Hinton和谷歌大腦負(fù)責(zé)人Jeff Dean一起合作過,合著論文Distilling the knowledge in a neural network。
對(duì)了,最先稱贊BigGAN是“史上最佳GAN”的人,也是他~
傳送門
論文Generating Diverse High-Fidelity Images with VQ-VAE-2地址:
https://arxiv.org/abs/1906.00446
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論