来了来了，多模态ChatGPT它来了

2023-09-22 元宇宙与碳中和研究院

21日，周四凌晨，AI target=_blank class=infotextkey>OpenAI在官网宣布将在今年十月份通过API向ChatGPT Plus和企业版用户提供全新文生图大模型DALL-E 3，ChatGPT也将集成在其中，彼此加持下将开启久违的多模态输出模式，用户通过文本就能直接在ChatGPT中生成各种类型图片。官网链接：https://openai.com/dall-e-3

根据OpenAI官方的说法，DALL-E 3“比以往系统更能理解细微差别和细节，让用户更加轻松地将自己的想法转化为非常准确的图像”。这里举个网友分享的例子，提示词（prompt）都是“一幅描绘篮球运动员扣篮的油画，并伴以爆炸的星云”，来对比下前代的DALL-E 2（左）和现在DALL-E 3（右）的绘图效果。

很明显的能看出来，DALL-E 3在细节、亮度、清晰度等方都进步明显，甚至人物的侧脸还颇有NBA乔帮主--迈克尔·乔丹年轻时的感觉。除了炸裂的绘图效果之外，此次 DALL-E 3 的最大看点莫过于和ChatGPT的集成，它原生构建在ChatGPT之上，用ChatGPT来创建、拓展和优化提示词。这样一来，用户无需在提示词上花费太多时间即可完成绘图。具体说来，因为与ChatGPT的集成，用户不必绞尽脑汁地想出详细的提示词来引导和完成绘图了。只要输入一个想法，ChatGPT会自动为DALL-E 3生成详细的prompt，匹配程度之高宛如量身定制，同时用户也可以使用自己的提示词。

通过这几个实例，可以发现DALL-E 3在绘制写实、二次元、平面、创意、朋克、3D等多种类型的图片时的表现还是可圈可点的。

2021年1月5日，OpenAI公布了第一代DALL-E，通过120亿参数的GPT-3来理解自然语言输入并生成相应的图片，既可以生成现实的对象也能生成现实中不存在的对象，这也是它保留至今的特点。它的名字源于Pixar（皮克斯）2008年的动画电影，《机器人总动员》中的主角WALL-E（瓦力），以及20世纪西班牙加泰罗尼亚著名画家Salvador Dalí（萨尔瓦多·达利），是二者的混成词。两个月后，DALL-E的论文和代码正式公开。

在DALL-E之前已有其他许多人工神经网络可以生成逼真图像，而DALL-E的特点在于它能够通过纯文本描述生成类似的图像。2021年与DALL-E同时公布的还有CLIP（Contrastive Language-Image Pre-training，对比式图文预训练）大模型，这是一个独立于DALL-E之外的并行大模型，主要用于理解输出图像并为其打分。DALL-E生成图像后还有要由CLIP模型进行筛选，以保证绘制图像的质量。

2022年4月，OpenAI宣布了新一代产品DALL-E 2，表示它可以从文本描述中生成照片级的图像，是一个“可以从文本描述中生成原创、逼真的图像和艺术”的产品，另外还有一个配套的编辑器，允许对绘图进行简单修改。虽然DALL-E 2是新产品，但有时仍会犯一些人类不常犯的错误，比如“一本黄色的书与一个红色的花瓶”和“一本红色的书与一个黄色的花瓶”，面对这种绕口令似的提示词时DALL-E 2就非常容易混淆。

时隔一年半左右，DALL-E 3即将面世，虽然目前仍处于研究预览版本。OpenAI的想法是在十月首先向ChatGPT Plus会员和ChatGPT企业版用户发布，随后再向研究实验机构及其API服务发布。不过，OpenAI并未透露何时或者是否计划发布免费的公开版本，DALL-E 3背后的技术细节和相关论文可能也不会公开。

自消息公布以来，关于DALL-E 3与Midjourney孰优孰劣的话题迅速就引起了各界的争论。X（之前的推特）用户@MattGarciaEth已经将二者生成的图片进行了很多比较。具体结果也是见仁见智，此处不予置评。

提示词“一个鳄梨坐在治疗师的椅子上，说‘我只是觉得内心很空虚’，中间有一个坑大小的洞。”

提示词“一颗由半透明玻璃制成的人心，矗立在惊涛骇浪中的基座上。”

OpenAI称在DALL-E 3的开发上投入了大量精力，包括强力的安全措施以防止生成有害内容。OpenAI表示通过与外部的“红队”成员（一个系统测试团队，用故意试图破坏的办法测试系统的安全性）合作，同时加入了输入分类器的协作，这是一种训练大模型忽略某些单词以避免显式或暴力提示词的方法。此外，DALL-E 3也无法生成公众人物的图像，以及在世艺术家风格的图像，这一点是相比前代很大的不同。

过去曾介绍过，有艺术家社区曾起诉Stability AI和Midjourney，以及艺术网站DeviantArt，指控使用他们拥有版权的作品来训练文生图大模型。前不久OpenAI也差点面临类似的麻烦，此次将允许艺术家将其作品从未来版本的文生图大模型中删除，不用于训练。创作者可以提交一张他们拥有版权的图片，并在网站上填写表格要求将其移除。这样，未来的DALL-E 3上线时就可以屏蔽与艺术家的图像和风格相似的结果。