主要收获

方面详细信息
7}深度无监督学习的新方法
7}

在复杂数据集上生成对抗性视频

双视频判别器 GAN(DVD-GAN)可扩展到更长、更高分辨率的视频,产生高复杂度和保真度的样本。它为视频合成和预测设定了新的基准。

生成动态场景的长视频

一种视频生成模型,能准确再现物体运动和摄像机视角随时间的变化,解决了在生成新内容的同时保持逼真动态效果的难题。

VideoGPT:使用 VQ-VAE 和变压器生成视频

VideoGPT 采用 VQ-VAE 和变换器对自然视频进行建模,生成高保真样本,展示了视频生成简单架构的有效性。

NÜWA:创建神经视觉世界的视觉合成预训练

NÜWA 是一个用于生成或处理视觉数据的多模态预训练模型。它采用三维变压器编码器-解码器框架,在各种视觉合成任务中取得了最先进的结果。

Imagen Video:利用扩散模型生成高清视频

Imagen Video 使用文字提示,通过级联扩散模型生成高清视频,展示了如何通过文字提示生成高清视频。

能够制作出具有高度可控性的多样化艺术视频。

对齐你的潜像利用潜在扩散模型合成高分辨率视频

通过在图像上进行预训练和在视频上进行微调,将潜在扩散模型(LDM)应用于高分辨率视频生成,实现了最先进的性能,并展示了个性化文本到视频生成的潜力。

利用扩散模型生成逼真视频

W.A.L.T 是一种基于变压器的方法,利用扩散建模生成逼真的视频,在视频和图像生成基准测试中取得了很高的性能。

关注就是一切

在机器翻译等序列转换任务中,完全基于注意力机制的 Transformer 模型优于递归网络和卷积网络,表现出卓越的质量和效率。

语言模型是快速学习者

GPT-3是一个大型自回归语言模型,它在NLP任务中表现出强大的性能,展示了扩大语言模型以提高任务性能的潜力。

一幅图像胜过 16×16 个字:规模图像识别的变形金刚

视觉变换器(ViT)将纯变换器直接应用于图像补丁,在图像分类任务中取得了优异的成绩,并证明在视觉任务中无需依赖 CNN。

ViViT:视频视觉转换器

ViViT 是一种基于变换器的视频分类模型,它从视频中提取时空标记并用变换器层对其进行编码,在多个视频分类基准测试中取得了最先进的结果。

遮蔽式自动编码器是可扩展的视觉学习器

本文介绍了可扩展的计算机视觉自监督学习器–掩码自动编码器(MAE),它在大型模型上表现出了高效的训练能力和较高的准确性。

Patch N’ Pack:NaViT:适用于任何长宽比和分辨率的视觉变形器

NaViT 可处理任意分辨率和长宽比的输入,提高了训练效率,并增强了鲁棒性和公平性基准的结果。

利用潜在扩散模型合成高分辨率图像

潜在扩散模型(LDM)通过在强大的预训练自动编码器的潜在空间中运行,实现了高保真图像合成和灵活性,为图像绘制和其他任务设定了新标准。

image

自动编码变异贝叶斯

论文介绍了一种随机变分推理和学习算法,该算法对大型数据集和连续潜变量非常有效,可使用标准随机梯度方法进行直接优化。

利用非平衡热力学进行深度无监督学习

受非平衡态统计物理学的启发,我们开发了一种新颖的深度无监督学习方法,允许在深度生成模型中快速学习和采样。

去噪扩散概率模型

针对高质量图像合成引入了扩散概率模型,并与去噪分数匹配和朗格文动力学建立了新的联系,从而在图像合成基准测试中取得了一流的性能。

改进的去噪扩散概率模型

对去噪扩散概率模型(DDPMs)进行修改后,可获得具有竞争力的对数似然和高质量的样本,同时还能进行高效采样,便于部署。

扩散模型在图像合成中击败广义泛函模型

与生成式对抗网络(GANs)相比,扩散模型可实现更高的图像样本质量,并提高了条件图像合成的保真度和多样性。

阐明基于扩散的生成模型的设计空间

该论文为基于扩散的生成模型提供了一个清晰的设计空间,通过更快的采样和更高的预训练分数网络效率,实现了最先进的新性能。

带变压器的可扩展扩散模型

我们对扩散变换器(DiTs)进行了探索,结果表明其具有良好的可扩展性,在图像基准上优于先前的扩散模型,其中最大的模型达到了最先进的保真度。

零镜头文本到图像生成

本文介绍了一种基于转换器的文本到图像生成的简单方法,该方法以零镜头方式与特定领域模型竞争。

内容丰富的文本到图像生成的比例自回归模型

Parti 模型可扩展自回归文本到图像的生成,生成高保真逼真的图像,并支持复杂的合成和世界知识。

利用 CLIP Latents 分层文本条件生成图像

一个两阶段模型利用 CLIP 图像嵌入技术从文字说明中生成图像,从而提高了多样性,并能以零镜头方式进行语言引导的图像处理。

SDEdit:利用随机微分方程引导图像合成和编辑

SDEdit 引入了一种用于图像合成和编辑的扩散模型生成先验,在逼真度和忠实于用户输入之间取得了平衡,而无需进行特定任务的训练。


常见问题

7}
答:MoCoGAN 可将视频分解为内容和动作两个部分,从而生成具有不同动态效果的视频,同时保持相同的内容。

问:Imagen Video 如何生成高清视频?
答:Imagen Video 使用文本提示和级联扩散模型生成具有高保真和艺术风格的视频。

问:扩散模型为图像和视频合成带来了哪些进步?
答:扩散模型通过更好的架构和分类器引导实现了高质量的合成,在各种基准测试中取得了最先进的性能。

问:变压器能否有效地用于视频分类?
答:是的,像 ViViT 这样的模型表明,基于纯变换器的模型可以在视频分类中取得最先进的结果。

问:使用潜在扩散模型进行图像合成的优势是什么?
答:潜在扩散模型是在压缩的潜在空间中运行的,因此可以在降低计算要求的情况下进行高分辨率合成。

问:在图像合成和编辑过程中,SDEdit 如何平衡真实感和用户输入?
答:SDEdit 使用扩散模型先验生成技术对图像进行迭代去噪,在逼真度和忠实于用户指南之间取得了平衡,而无需进行特定任务的训练。