主要收获
方面 | 详细信息 |
---|---|
7} | 深度无监督学习的新方法 |
7}在复杂数据集上生成对抗性视频双视频判别器 GAN(DVD-GAN)可扩展到更长、更高分辨率的视频,产生高复杂度和保真度的样本。它为视频合成和预测设定了新的基准。 生成动态场景的长视频一种视频生成模型,能准确再现物体运动和摄像机视角随时间的变化,解决了在生成新内容的同时保持逼真动态效果的难题。 VideoGPT:使用 VQ-VAE 和变压器生成视频VideoGPT 采用 VQ-VAE 和变换器对自然视频进行建模,生成高保真样本,展示了视频生成简单架构的有效性。 NÜWA:创建神经视觉世界的视觉合成预训练NÜWA 是一个用于生成或处理视觉数据的多模态预训练模型。它采用三维变压器编码器-解码器框架,在各种视觉合成任务中取得了最先进的结果。 Imagen Video:利用扩散模型生成高清视频Imagen Video 使用文字提示,通过级联扩散模型生成高清视频,展示了如何通过文字提示生成高清视频。 能够制作出具有高度可控性的多样化艺术视频。 对齐你的潜像利用潜在扩散模型合成高分辨率视频通过在图像上进行预训练和在视频上进行微调,将潜在扩散模型(LDM)应用于高分辨率视频生成,实现了最先进的性能,并展示了个性化文本到视频生成的潜力。 利用扩散模型生成逼真视频W.A.L.T 是一种基于变压器的方法,利用扩散建模生成逼真的视频,在视频和图像生成基准测试中取得了很高的性能。 关注就是一切在机器翻译等序列转换任务中,完全基于注意力机制的 Transformer 模型优于递归网络和卷积网络,表现出卓越的质量和效率。 语言模型是快速学习者GPT-3是一个大型自回归语言模型,它在NLP任务中表现出强大的性能,展示了扩大语言模型以提高任务性能的潜力。 一幅图像胜过 16×16 个字:规模图像识别的变形金刚视觉变换器(ViT)将纯变换器直接应用于图像补丁,在图像分类任务中取得了优异的成绩,并证明在视觉任务中无需依赖 CNN。 ViViT:视频视觉转换器ViViT 是一种基于变换器的视频分类模型,它从视频中提取时空标记并用变换器层对其进行编码,在多个视频分类基准测试中取得了最先进的结果。 遮蔽式自动编码器是可扩展的视觉学习器本文介绍了可扩展的计算机视觉自监督学习器–掩码自动编码器(MAE),它在大型模型上表现出了高效的训练能力和较高的准确性。 Patch N’ Pack:NaViT:适用于任何长宽比和分辨率的视觉变形器NaViT 可处理任意分辨率和长宽比的输入,提高了训练效率,并增强了鲁棒性和公平性基准的结果。 利用潜在扩散模型合成高分辨率图像潜在扩散模型(LDM)通过在强大的预训练自动编码器的潜在空间中运行,实现了高保真图像合成和灵活性,为图像绘制和其他任务设定了新标准。 自动编码变异贝叶斯论文介绍了一种随机变分推理和学习算法,该算法对大型数据集和连续潜变量非常有效,可使用标准随机梯度方法进行直接优化。 利用非平衡热力学进行深度无监督学习受非平衡态统计物理学的启发,我们开发了一种新颖的深度无监督学习方法,允许在深度生成模型中快速学习和采样。 去噪扩散概率模型针对高质量图像合成引入了扩散概率模型,并与去噪分数匹配和朗格文动力学建立了新的联系,从而在图像合成基准测试中取得了一流的性能。 改进的去噪扩散概率模型对去噪扩散概率模型(DDPMs)进行修改后,可获得具有竞争力的对数似然和高质量的样本,同时还能进行高效采样,便于部署。 扩散模型在图像合成中击败广义泛函模型与生成式对抗网络(GANs)相比,扩散模型可实现更高的图像样本质量,并提高了条件图像合成的保真度和多样性。 阐明基于扩散的生成模型的设计空间该论文为基于扩散的生成模型提供了一个清晰的设计空间,通过更快的采样和更高的预训练分数网络效率,实现了最先进的新性能。 带变压器的可扩展扩散模型我们对扩散变换器(DiTs)进行了探索,结果表明其具有良好的可扩展性,在图像基准上优于先前的扩散模型,其中最大的模型达到了最先进的保真度。 零镜头文本到图像生成本文介绍了一种基于转换器的文本到图像生成的简单方法,该方法以零镜头方式与特定领域模型竞争。 内容丰富的文本到图像生成的比例自回归模型Parti 模型可扩展自回归文本到图像的生成,生成高保真逼真的图像,并支持复杂的合成和世界知识。 利用 CLIP Latents 分层文本条件生成图像一个两阶段模型利用 CLIP 图像嵌入技术从文字说明中生成图像,从而提高了多样性,并能以零镜头方式进行语言引导的图像处理。 SDEdit:利用随机微分方程引导图像合成和编辑SDEdit 引入了一种用于图像合成和编辑的扩散模型生成先验,在逼真度和忠实于用户输入之间取得了平衡,而无需进行特定任务的训练。 常见问题7} 问:Imagen Video 如何生成高清视频? 问:扩散模型为图像和视频合成带来了哪些进步? 问:变压器能否有效地用于视频分类? 问:使用潜在扩散模型进行图像合成的优势是什么? 问:在图像合成和编辑过程中,SDEdit 如何平衡真实感和用户输入? |