文本-图像人工智能系统目前在能力和受欢迎程度上都在蓬勃发展,还有什么比它们出现在世界最热门的应用程序中更好的证明?那就是TikTok。这个视频平台最近增加了一种新的效果,它称之为"人工智能绿屏",允许用户输入文字提示,然后软件会生成一个图像。这张图片随后可以作为视频的背景--对创作者来说可能是一个非常有用的工具。
与google的Imagen、OpenAI的DALL-E 2或Midjourney的同名软件等最先进的文本到图像模型相比,TikTok系统的输出相当基本。它只创建了相当抽象的图像;TikTok建议的提示如"海洋中的宇航员"和"鲜花星系"的案例就反映了这一做法。相比之下,其他模型既能产生逼真的图像,也能产生复杂而连贯的插图,看起来像是人类绘制或画的。
不过,TikTok模型的局限性很可能是故意的。首先,更先进的模型需要更强的计算能力,对该公司来说,这将是昂贵和资源密集型的实施。其次,TikTok有超过10亿的用户,让所有这些人有能力创造他们能想象的任何东西的逼真图像,几乎能够肯定又会让一些人产生一些不安的想法。
在媒体测试其模型创造裸体和血腥的能力时,文本到图像生成器往往会对这两种来自用户的意图施加限制。该模型输出的抽象性质意味着带有挑衅性语言的提示只能产生一些无意义的漩涡。
同样,涉及裸体的要求只产生了一些合适的颜色,但不会有什么让人脸红的内容出现。
TikTok的"人工智能绿屏"的出现值得注意的是,它显示了这项技术进入主流的速度正不断提升。文本到图像的人工智能的最新发展周期可以说始于2021年,OpenAI最初发布了DALL-E。不到两年后,这项技术已经通过TikTok这样的应用程序进入了数百万人的手中。