Sora炸裂科技圈：真神还是焦虑制造机

2024-02-21 零态LT

加入收藏

　　作者｜吴狄

　　出品｜零态LT（LingTAI_LT）

　　周鸿祎又口出狂言了。

　　他说，“AGI（通用人工智能）的实现将从10年缩短到1年”，而背后的原因，仅仅是因为一个1分钟的短视频。

　　注意看，这个女人叫小美，她正向我们走来。虽然身处日本某条热闹的大街，小美却总是不停地回头张望，似乎在暗示观众镜头之外隐藏了不为人知的秘密。

　　▲图：主角出场

　　镜头拉近，可以清晰看到小美修长的脖子和优美的下颌线，让整个画面充满了令人无法抗拒的神秘和美感。

　　▲图：细节展示

　　实际上，整个短视频中，从街景到行人，包括小美，在现实中根本不存在。这是OpenAI最新产品Sora制作的演示视频，而正是这个视频，让周鸿祎做出了AGI发展将会10倍提速的预言。

　　传统方式制作这样一段1分钟的视频成本非常高。除了需要选址，选演员，提前进行分镜构图，架设机位外等，想要碰上如此理想的天气，还需要赌一赌运气。落日转瞬即逝，一旦失误就只能第二天重头来过。

　　拍摄完成后，是非常耗时的后期制作。不仅要调整画面色调，还要仔细核对画面中是否有瑕疵，比如眼镜反射的画面会不会导致穿帮、路人中是否出现不协调元素等等。

　　但Sora出马，全部流程就是（字面意义上的）一句话的事。

　　Sora官网上公布了十几段“制作”精良的高清演示短片，从现实人物到3D动画，所有短片都是通过一句话生成的。

　　▲图：Sora展示视频

　　看过这些短片后，我科技圈的朋友集体表示“炸裂”；大众圈的朋友表示“AI都到了这种程度了吗”；而摄影圈的朋友表示，尽管还是能看出和人类摄影师有一点点差距，但依然被Sora的效果震撼了，进而纷纷开始和我讨论起失业以后，除了送外卖还可以从事什么工作。

　　但如果我们抛开网上铺天盖地、对Sora近乎玄幻的赞誉，跳出官网演示视频的魅惑就会发现，Sora本质上是生成式AI在视频领域的一个应用，一个diffusion transformer模型。

　　而官方宣传的Sora所有功能，例如通过文字或者图片生成高清短视频，在此基础上进行扩展生成一段更长的视频等，其实很多公司都在做。比较知名的产品包括已经商用的Runway，免费的Pika，以及还在完善阶段的google Lumiere、Meta Make-A-Video，还有一些知名度稍低的产品如Leonardo，FinalFrame等等。

　　这里就有一个很大的疑问：凭什么出圈的又是Sora，它真有网上说的那么神吗？

　　凭借更逼真的效果

　　OpenAI再次出圈

　　1月24日，谷歌研究人员公布了一段Lumiere的演示视频。画质非常高清，且真实。

　　▲图：由Lumiere生成的游泳海龟视频

　　Lumiere除了可以生成真实图片外，还可以实现一键换装、根据图片和提示词生成动态视频等功能。

　　▲图：一键换装

　　▲图：通过图片生成视频

　　2月15日，刚刚过完情人节的谷歌在疯狂星期四又重磅推出了下一代AI产品Gemini 1.5。在此前的演示视频中，Gemini已经展现了其在图像识别和多轮对话中的逆天能力。

　　演示视频中，演示人员画了一个类似鸭子的轮廓让Gemini辨认，Gemini表示它觉得像个鸟。

　　▲图：Gemini演示

　　但是当演示人员画上了波浪后，Gemini表示通过长脖子长嘴又会游泳这几个依据，判断这是只鸭子。

　　▲图：Gemini演示

　　随后演示人员拿了个玩具小鸭子问Gemini这个东西是什么材质做的，Gemini表示看起来可能是橡胶也可能是塑料。而当演示人员捏响橡胶鸭子后，Gemini立刻判断出是用柔软的橡胶做成的。

　　▲图：Gemini演示

　　就在圈内很多人认为谷歌将要凭借Lumiere和Gemini拿下今年头条的时候，OpenAI仅仅用Sora就轻松获得了更高的关注度。

　　Sora这个词很有意思，它在韩语中表示海螺壳，在日语中表示天空，在芬兰语中表示砂砾。这就很难不让人想到《海底两万里》的鹦鹉螺号，《沙丘》，以及“我们的目标是星辰大海”的豪情壮志。

　　而且Sora是一个比较常见的名字，比Lumiere（法语，光）更短、更好读。

　　和GPT当年的故事如出一辙，Sora也是踩着竞争对手以碾压式的优势胜出。相比同类产品，Sora能抓住提示词的精髓，巧妙地生成具有多个角色和特定动作的场景。

　　有人做过对比，使用同样的提示词，让AI生成一个在花园里、似乎正在追逐什么东西、快乐奔跑的黄白相间的猫，最终结果的差距十分明显。

　　▲图：不同AI产品的效果对比

　　上面由Sora生成的视频看起来非常真实，甚至在奔跑时候，猫腮帮子上的毛都会随着脑袋起伏。而下面通过Pika, Runway, Leonardo, FinalFrame生成的视频，猫不仅看起来不像真的，连动作都很诡异。

　　在生成的视频时长上，Sora也碾压友商。Sora可以生成1分钟的视频，相对的，Pika是3秒，Runway是4秒，Lumiere是5秒。

　　最重要的是，Sora有望解决一个生成式AI的痛点，那就是同样的提示词通常不会生成同样的结果，例如“黄白相间的猫”这个提示词，不同的视频里会出现不同模样的黄白相间的猫。导致的结果，就是无法通过拼接来创作更长的视频。

　　尽管Sora一出道就秀出了远超同行的肌肉，但Sora并没有选择像Pika、Runway一样，开放给大众使用，而是采取了Google、Meta类似的保守策略，先官宣来吊足大家胃口，然后慢慢内测，等待一个合适的时机，再向大众开放。

　　因为，有很多关键问题，大家都没有找到好的解决方案。

　　AI一调皮

　　人类就头疼

　　生成式AI天生就有一个“不按物理定律出牌”的老毛病，即便是看起来已经非常接近真实世界的Sora也不例外。这个问题过于明显，以至于OpenAI都懒得去遮掩，干脆自己先大方的说了出来。

　　从内测用户流出的视频可以发现，Sora无视物理法则随意发挥的意愿十分高涨，而这种意愿在“必须还原物理世界”的规则约束下，很容易生成像人类做梦一样的场景。有过做梦经历的朋友应该会这样的体会：明明梦是虚幻的，但在梦里你的感受又很“真实”。

　　下面就是个很典型的例子。

　　▲图：Sora的梦境物理

　　注意看，视频中的这个杯子莫名其妙的跳了起来并侧翻在桌面上，杯中的液体在杯子跳起来的一瞬间穿透了杯底铺满桌面，而最终杯子连同里面剩余的液体一起，融进了桌面。

　　▲图：融进桌面的杯子

　　这样的视频显然无法应用在正式的场合，大概率只能出现在B站的鬼畜区，告诉你一个学了3年动画的人，是如何因为一个毕业作品被老师轰出门外的故事。

　　此外，Sora对算力有很高的要求。下面这个视频演示了低算力和高算力之间的差距能有多可怕。

　　▲图：算力差距

　　而想要高算力，就得花更多的钱。

　　以Runway为例，个人版收费模式分3档，标准版为每月15美元，可以制作一个125秒的Gen-1视频，或者44秒的Gen-2视频，相当于每秒1-2.4元人民币，超出部分需要额外付费。Pro版每月35美元，至尊版每月95美元。而用户如果希望加快视频的产出效率，也需要额外购买“时间”。

　　能力越大

　　危险越大

　　生成式AI在社会层面有几个老生常谈的问题。

　　首先就是造假问题。AI生成的视频越真实，造假就越容易。最直接的解决办法是将AI生成的内容打上一个特殊的标签，以便于平台将其和人工拍摄的视频进行区分，OpenAI和Google的确也在做这件事。

　　但水印的问题在于，它可以在分享的过程中会被人恶意抹除。例如通过截图、录屏的方式获得视频副本，不会带有任何水印。

　　其次是版权问题。版权问题比造假更加复杂，它既是一个形而上的宏大概念，又和每一个创作者的个人利益息息相关。目前对版权的争论主要集中在AI和人类对齐的过程中，比如，AI通过学习别的艺术家的风格在此基础上进行的创作，和人类以同样方式进行的创作，本质上有没有区别？

　　而更直白的问题则是，AI到底是来帮我赚钱的，还是来跟我抢钱呢？

　　这些问题一个比一个难解决，也就意味着Sora们至少在短时间内不会向公众开放。从某种角度来看，这或许对于视频制作者是一个好消息，至少有了更多的缓冲时间，来思考如何应对接下来Sora们带来的冲击。

　　无论如何，Sora们向公众开放，只是时间问题，至于会不会像周鸿祎预言的那么快，可能还存在疑问。但有一点毫无疑问：

　　那时候的Sora们，将比现在更加强大。