一文看尽SOTA生成式模型：9大类别21个模型全回顾！

2023-01-31 新智元

加入收藏

新智元报道

编辑：LRS

【新智元导读】一次学完所有生成式模型！

过去的两年时间里，AI界的大型生成模型发布呈井喷之势，尤其是Stable Diffusion开源和ChatGPT开放接口后，更加激发了业界对生成式模型的热情。

但生成式模型种类繁多，发布速度也非常快，稍不留神就有可能错过了sota

最近，来自西班牙科米利亚斯主教大学的研究人员全面回顾了各个领域内AI的最新进展，将生成式模型按照任务模态、领域分为了九大类，并总结了2022年发布的21个生成式模型，一次看明白生成式模型的发展脉络！

论文链接：https://arxiv.org/abs/2301.04655

生成式AI分类

模型可以按照输入和输出的数据类型进行分类，目前主要包括9类。

有趣的是，在这些已发布大模型的背后，只有六个组织（OpenAI, google, DeepMind, Meta, runway, Nvidia）参与部署了这些最先进的模型。

其主要原因是，为了能够估计这些模型的参数，必须拥有极其庞大的计算能力，以及在数据科学和数据工程方面高度熟练且经验丰富的团队。

因此，也只有这些公司，在收购的初创公司和与学术界合作的帮助下，能够成功部署生成式人工智能模型。

在大公司参与初创企业方面，可以看到微软向OpenAI投资了10亿美元，并帮助他们开发模型；同样，谷歌在2014年收购了Deepmind。

在大学方面，VisualGPT是由阿卜杜拉国王科技大学（KAUST）、卡内基梅隆大学和南洋理工大学开发的，Human Motion Diffusion模型是由以色列特拉维夫大学开发的。

同样，其他项目也是由一家公司与一所大学合作开发的，比如Stable Diffusion由Runway、Stability AI和慕尼黑大学合作开发；Soundify由Runway和卡内基梅隆大学合作开发；DreamFusion由谷歌和加州大学伯克利分校合作。

Text-to-image模型

DALL-E 2

由OpenAI开发的DALL-E 2能够从由文本描述组成的提示中生成原始、真实、逼真的图像和艺术，而且OpenAI已经对外提供了API来访问该模型。

DALL-E 2特别之处在于它能够将概念、属性和不同风格结合起来，其能力源于语言-图像预训练模型CLIP神经网络，从而可以用自然语言来指示最相关的文本片段。

具体来说，CLIP embedding有几个理想的属性：能够对图像分布进行稳定的转换；具有强大的zero-shot能力；并且在微调后实现了最先进的结果。

为了获得一个完整的图像生成模型，CLIP图像embedding解码器模块与一个先验模型相结合，从一个给定的文本标题中生成相关CLIP图像embedding

其他的模型还包括Imagen，Stable Diffusion，Muse

Text-to-3D模型

对于某些行业，仅能生成2D图像还无法完成自动化，比如游戏领域就需要生成3D模型。

Dreamfusion

DreamFusion由Google Research开发，使用预先训练好的2D文本到图像的扩散模型来进行文本到3D的合成。

Dreamfusion使用一个从二维扩散模型的蒸馏中得到的损失取代了CLIP技术，即扩散模型可以作为一个通用的连续优化问题中的损失来生成样本。

相比其他方法主要是对像素进行采样，在参数空间的采样比在像素空间的采样要难得多，DreamFusion使用了一个可微的生成器，专注于创建从随机角度渲染图像的三维模型。

其他模型如Magic3D由英伟达公司开发。

Image-to-Text模型

获得一个描述图像的文本也是很有用的，相当于图像生成的逆版本。

Flamingo

该模型由Deepmind开发，在开放式的视觉语言任务上，只需通过一些输入/输出例子的提示，即可进行few-shot学习。

具体来说，Flamingo的输入包含视觉条件下的自回归文本生成模型，能够接收与图像或视频交错的文本token序列，并生成文本作为输出。

用户可以向模型输入query，并附上一张照片或一段视频，模型就会用文本答案来回答。

Flamingo模型利用了两个互补的模型：一个是分析视觉场景的视觉模型，一个是执行基本推理形式的大型语言模型。

VisualGPT

VisualGPT是一个由OpenAI开发的图像描述模型，能够利用预训练语言模型GPT-2中的知识。

为了弥合不同模态之间的语义差距，研究人员设计了一个全新的编码器-解码器注意力机制，具有整流门控功能。

VisualGPT最大的优点是它不需要像其他图像到文本模型那样多的数据，能够提高图像描述模型的数据效率，能够在小众领域得到应用或对少见的物体的进行描述。

Text-to-Video模型

Phenaki

该模型由Google Research开发制作，可以在给定一连串文字提示的情况下，进行真实的视频合成。

Phenaki是第一个能够从开放域时间变量提示中生成视频的模型。

为了解决数据问题，研究人员在一个大型的图像-文本对数据集以及数量较少的视频-文本例子上进行联合训练，最终获得了超越视频数据集中的泛化能力。

主要是图像-文本数据集往往有数十亿的输入数据，而文本-视频数据集则小得多，并且对不同长度的视频进行计算也是一个难题。

Phenaki模型包含三个部分：C-ViViT编码器、训练Transformer和视频生成器。

将输入token转换为embedding后，接着经过时序Transformer和空间Transformer，再使用一个没有激活的单一线性投影，将token映射回像素空间。

最终模型可以生成以开放域提示为条件的时间连贯性和多样性的视频，甚至能够处理一些数据集中不存在的新概念。