颠覆性王炸！一句话生成一分钟视频，网友：整个行业都要消亡了

2024-02-17 21世纪经济报道

加入收藏

作者丨肖潇

编辑丨王俊黎雨桐许婷婷

AI target=_blank class=infotextkey>OpenAI在AI生成视频领域扔出一枚“王炸”。

当地时间2月15日，OpenAI发布了第一个文生视频大模型Sora。这一模型可以根据用户输入的提示词生成长达一分钟的高清视频，虽然还没公开使用，但已经引发了热议。

OpenAI重磅发布，文字直接生成视频！网友：我要失业了

在官方分享的演示视频中，Sora可以直接输出有多个角色、多种场景和运镜的画面。比如一段提示词为：镜头穿过熙熙攘攘的东京街道，跟随几个人享受雪天并逛街。在Sora生成的视频中，镜头从天空的雪花中俯冲，跟着一对牵手的情侣，走过日本风格的街道。

再例如一端提示词的描述是：在东京街头，一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。

在Sora生成的视频里，女士身着黑色皮衣、红色裙子在霓虹街头行走，不仅主体连贯稳定，还有多镜头，包括从大街景慢慢切入到对女士的脸部表情的特写，以及潮湿的街道地面反射霓虹灯的光影效果。

电影预告片讲述了30岁宇航员戴着红色羊毛针织摩托车头盔的冒险经历，蓝天、盐漠，电影风格，35毫米胶片拍摄，色彩鲜艳。

竖屏超近景视角下，这只蜥蜴细节拉满：

“穿过东京郊区的火车窗外的倒影”。

“赛博朋克背景下机器人的生活故事”。

OpenAI首席执行官奥特曼（Sam Altman）周四在X网站上让该平台用户把自己想给Sora的文字描述提交给他。然后，他分享了Sora根据这些描述生成的视频。

“我们想向你们展示Sora能做什么，”他在X上写道，“不用担心你的要求太细，或是难度太大！”

有人提出想要“一段海上自行车比赛的视频，让各种动物作为运动员骑自行车，采用无人机拍摄视角”。奥特曼在回复中发布了一段由Sora生成的视频，视频中有企鹅、海豚和其他水生生物骑自行车。

另一段视频显示，一位身穿围裙、面带微笑的白发女士邀请观众进入她的厨房。有人向奥特曼要一段“由一名祖母辈的网红主持的自制团子烹饪课程，背景是一个质朴的托斯卡纳乡村厨房，并配有电影级的灯光”，之后Sora生成了这段AI视频。

网友直呼game over，工作要丢了：

甚至有人已经开始“悼念”一整个行业：

还有网友表示，电影业要彻底颠覆了。

OpenAI详解技术突破点

AI视频的运用可以追溯到2022年。初创公司Runway被认为是这一技术领域的“鼻祖”，热门科幻电影《瞬息全宇宙》就用到了其视频编辑技术。从那时起，AI视频技术开始快速迭代，以Runway、Pika、Meta（Emu Video）为代表的公司进入竞争赛道。不过，这些AI视频大多只能维持几秒钟的长度，存在场景不逼真、元素闪现、运动不连贯等“一眼AI”的问题。

而在OpenAI目前公开的48个演示视频里，无论是猫踩醒被窝里的主人，模仿手机拍摄的尼日利亚街道，还是中国的春节舞龙活动......几乎看不出AI生成的痕迹。

OpenAI解释，Sora不仅能满足提示词的要求，还理解各种物体在物理世界的存在方式。实现的最关键的一处技术突破是，“画面主体即使暂时离开镜头，也能保持不变。”因此生成视频的逼真度和连贯性有了肉眼可见的进步。

一位硅谷AI公司的从业者告诉21记者，根据她的使用体验，Sora在演示视频中展现的能力远远超Pika和Runway，“Pika只能生成3-15秒的视频，Sora能直接生成一分钟的视频。从画面效果和时长来看，Sora肯定是一个重要突破。”

业内普遍认为，Sora能力的提升，主要来自高质量的数据集，以及准确的语言理解能力。OpenAI 没有透露训练视频的大小、来源，只声称训练的是公开有版权的视频。前述从业者认为，Sora无疑有巨大的数据量，因此能够支持多大的调用量，视频加载和渲染有多少延迟，都将是后续挑战。“真正投入使用会是什么样？能不能达到官方演示的效果？”还是一个未知数。

‍

Sora还难以呈现复杂的物理变化规律

OpenAI已经公开承认了一些Sora存在的缺陷：它可能难以呈现复杂的物理变化规律，无法理解因果关系，混淆空间细节。

例如在演示视频中，“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”，狼的数量会变化，一些凭空出现或消失。

再如一位寿星向生日蛋糕上的蜡烛吹气，但蜡烛没有任何变化；或者篮球直接穿透了篮筐，而不是从篮筐中进球。

值得注意的是，Sora目前定性为初期研究成果，不面向公众使用，因为公司担心深度伪造视频的滥用问题。现在只有一部分视觉艺术家、设计师和电影制作人有内部试用机会。此外，OpenAI 还在与第三方安全测试人员共享该模型，进行红队测试。

在安全问题上，Sora已经包含了一个过滤器，阻止暴力、色情、仇恨，以及特定人物的视频输出。公司还将借鉴去年在DALL-E 3 上实验的图像探测器，把C2PA技术标准——一种内容追溯方式，也可以理解为内容水印——嵌入到Sora的输出视频中，以鉴别视频是否为AI深度伪造视频。

SFC

本期编辑黎雨桐实习生赵凤铃