国产三级片高清无码在线观看,99亚洲国产欧美日韩

它是一個(gè)分層的VQ-VAE，可以把不同尺度的信息分開處理。

比如，輸入一張256×256圖像，編碼器要把它壓縮進(jìn)不同的潛在空間里：

然后，解碼器用這兩個(gè)潛在映射圖 (Latent Maps) 中，做出一張與原圖同樣大小的重構(gòu)圖，其中包含了局部和全局信息。

團(tuán)隊(duì)發(fā)現(xiàn)，如果不用頂層來調(diào)節(jié) (Condition) 底層，頂層就需要編碼像素中每一個(gè)細(xì)節(jié)。

所以，他們就讓每個(gè)層級(jí)分別依賴于像素 (Separately Depend on Pixels) ：可以鼓勵(lì)A(yù)I在每個(gè)映射圖中，編碼補(bǔ)充信息 (Complementary Information) ，降低重構(gòu)誤差。

而學(xué)到分層潛碼 (Hierarchical Latent Codes) 之后，該進(jìn)入下一部分了：

這一部分，是二代與一代最大的區(qū)別所在：把一代用到的自回歸先驗(yàn) (Autoregressive Priors) 擴(kuò)展、增強(qiáng)了。

用當(dāng)前最優(yōu)秀的PixelRNN模型來為先驗(yàn)建模，這是一個(gè)帶自注意力機(jī)制的自回歸模型，能夠把先驗(yàn)分布 (Prior Distribution) ，和上一部分學(xué)到的邊界后驗(yàn) (Marginal Posterior) 匹配起來。

和第一部分相似：這里也有編碼器和解碼器，可以進(jìn)一步壓縮圖像。

做好之后，從先驗(yàn)里取樣，可以生成新的圖像：和原圖清晰度一致，并且保持了相關(guān)性 (Coherence) 。

兩個(gè)部分合在一起，可以把256×256的圖像，壓縮200倍來學(xué)習(xí)；把1024×1024的高清大圖，壓縮50倍來學(xué)習(xí)。

團(tuán)隊(duì)說這樣一來，把圖像生成速度提升了一個(gè)數(shù)量級(jí)。

在需要快速編碼、快速解碼的應(yīng)用上，這樣的方法便有了得天獨(dú)厚的優(yōu)勢。

一是mode collapse，即生成某些圖像之后，GAN的生成器和判別器就達(dá)成和解，不再繼續(xù)學(xué)習(xí)了；二是多樣性不足的問題。

作者簡介

這項(xiàng)研究的作者共有三位，均來自DeepMind，Ali Razavi和Aäron van den Oord為共同一作，Oriol Vinyals為二作。

Ali Razavi博士畢業(yè)于滑鐵盧大學(xué)，此前在IBM、Algorithmics和Google就職過，2017年加入DeepMind，任職研究工程師。

研究員Aäron van den Oord小哥主要研究生成模型，此前還參與Google Play的音樂推薦項(xiàng)目。

2017年，Aäron參與了哈薩比斯項(xiàng)目組關(guān)于Parallel WaveNet的研究，為這篇論文的第一作者。

Oriol Vinyals小哥此前參與了多個(gè)明星項(xiàng)目，比如星際項(xiàng)目、比如AlphaStar，還與圖靈獎(jiǎng)得主Geoffrey Hinton和谷歌大腦負(fù)責(zé)人Jeff Dean一起合作過，合著論文Distilling the knowledge in a neural network。

本文系作者量子位授權(quán)鈦媒體發(fā)表，并經(jīng)鈦媒體編輯，轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號(hào)，文章內(nèi)容僅供參考、交流、學(xué)習(xí)，不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn)，點(diǎn)擊這里投稿。創(chuàng)業(yè)或融資尋求報(bào)道，點(diǎn)擊這里。

快報(bào)