人工智能(AI)巨头OpenAI又出王炸,其最新推出的文生视频大模型Sora因其“逼真”和“富有想象力”被广泛赞誉,其生成视频可达60秒也颠覆了传统视频生成领域平均只有4秒的视频生成长度。
OpenAI官网介绍,Sora是一种扩散模型,它从看起来像静态噪声的视频开始生成视频,然后通过多个步骤消除噪声来逐渐对其进行转换生成视频。Sora能够一次生成整个视频或扩展生成的视频以使其更长。通过一次为模型提供多个帧的预见,OpenAI解决了一个具有挑战性的问题,即确保主题即使暂时离开视野也保持不变。
与GPT模型类似,Sora使用Transformer架构。Sora建立在过去对DALL·E和GPT模型的研究之上。它使用DALL·E 3的重述技术,该技术涉及为视觉训练数据生成高度描述性的标题。因此,该模型能够更精准遵循生成用户的文本指令。
OpenAI表示,Sora是能够理解和模拟现实世界的模型基础,相信这一功能将成为实现AGI(通用人工智能)的重要里程碑。
券商建议关注多模态技术
Sora视频一出,立刻震惊业界。360集团创始人、董事长周鸿祎2月16日在微博发文表示,这意味着AGI实现将从10年缩短到1年。
其实,Sora出现之前,也有其他类似的AI视频模型。比如,谷歌在去年12月21日发布一个全新的视频生成模型VideoPoet,能够执行包括文本到视频、图像到视频、视频风格化等操作。META则有名为Emu的模型。此前一夜爆红的文生视频软件Pika更掀起了AI视频应用热潮。
浙商证券认为,短期内,Sora及同类产品可大幅提升图像和短视频的制作效率,改变创意生产及营销工作流,提升短视频产品生产力,对于业态更加复杂的长视频和游戏,受限于模型目前还无法很好理解因果关系,和其他技术难点,现阶段或以提供美术灵感支持为主。中长期来看,Sora及同类产品将参与到改变信息生产和分发两大环节的进程中,PGC(专业生产内容)将广泛采用AI工具辅助生产,UGC(用户生产内容)将借助AI工具逐步替代PGC。此间,AI生成视频工具的商业化将提速,目前Sora还未公布收费标准,参照之前Runway等文生视频工具收费情况,定价相对较高。鉴于Sora采用的世界模拟器技术路径,边际成本或有降低的可能。
浙商证券列出的下游应用侧,从相关受益细分行业来看,包括但不限于视频美化、广告营销、短剧、游戏、办公软件等。具体到投资标的,建议关注美图公司(1357:HK)(视觉大模型+大DAU图像应用)、中文在线(300364)(短剧出海+IP)、阅文集团(0772:HK)(IP)、金山软件(3888:HK)、三人行(605168)等;上游增加需求来看,推荐关注英伟达等算法、算力方面标的。
东方证券早前的报告认为,从技术突破的角度来看,下一阶段的重点攻克方向必然会是多模态技术。能够真正处理和应用好多模态AI能力,才能真正打通物理世界和数字世界的障壁,用最基础的感知世界能力直接生成操作,实现与物理世界最自然的交互。因此,基于多模态的应用场景仍需不断探索,AI视频生成仅仅是多模态技术路径中的一个小方向,多模态领域的ChatGPT时刻还未到来。
东方证券建议关注海康威视(002415)、大华股份(002236)、萤石网络(688475)、中科创达(300496)、虹软科技(688088)、科大讯飞(002230)、万兴科技(300624)等公司。
中泰证券研报指出,跨时代文生视频模型,有望推动硬件需求进一步提升。Sora基于图片做长视频生成,再基于生成视频做extend,其所需token(文本处理最小单位)数量相较于文本及图片模型的推理,有望成数量级增长,判断Sora将刺激推理算力需求将持续上升。此外,推理端token增加、算力需求的增长,也对显存及带宽提出更高要求,预计将拉升400G光通信技术在以太网中的应用,并有望推动800G乃至1.6T光通信技术的应用。
哪些A股公司有布局?
据不完全统计,已有十多家A股上市公司之前已经布局多模态大模型或对AI视频相关研发。
海康威视(002415)在去年4月20日回复投资者提问时披露,公司从几年前就开始研发视觉大模型,现在已经到了多模态大模型的研发阶段,包括视觉、语音、文本等多模态信号的融合训练及处理。
大华股份(002236)于2023年10月发布“星汉大模型”,该模型融合点云、语音、图像等输入,构建了多模态融合的行业视觉大模型。
大华股份在1月15日在投资者问答中介绍,公司多模态融合的行业视觉大模型(大华星汉大模型),是基于公司过去丰富的行业和细分场景的业务经验,面向以视觉为核心的智慧物联领域,通过融合图像、点云、文本、语音等多模态数据所搭建的,大幅提升了视觉解析能力,该模型为解析式大模型,与市面上的ChatGPT等生成式大模型有明显差异。
万兴科技(300624)此前发布音视频多媒体大模型万兴“天幕”。据了解,万兴“天幕”是一个以音视频生成式AI技术为基础的多媒体创作垂类大模型,由视频大模型、音频大模型、图片大模型、语言大模型组成,聚焦数字创意垂类创作场景。
2月2日,万兴科技在互动平台表示,天幕大模型主要基于公司在数字创意领域二十年的产品开发与运营经验而打造的音视频多媒体大模型,具备多媒体、垂直解决方案、算力数据及应用本土化等特色,以更智能、更沉浸的功能效果和产品体验赋能全球内容创作者的创意表达。
博汇科技(688004)1月9日在回复投资者提问时表示,公司通过运用人工智能、大数据等技术,对采集到的数据进行分析、特征学习和样本训练,构建智慧监管模型,提升了对文本、图片、音频、视频等多模态数据的处理分析能力,进一步强化核心技术优势,提高产品竞争力。
易点天下(301171)在2月4日在投资者互动平台表示,公司旗下AIGC创作平台KreadoAI可以帮助企业实现从脚本撰写、语音克隆、个性化数字人选择到输出口播视频的内容生产AI化全链路闭环。
数码视讯(300079)1月4日互动平合表示,公司多年来积极自主研发积累AI技术,龙其是在视频内容生产领域,持续不断探素AIGC生成式技术,并配合智能审核技术、多模态智能搜索等实现全媒体行业的媒资管理,构建全新视音频服务。
汉王科技(002362)2023年12月31日互动平台表示,公司在文本、图像、视频、生物特征、语音等多榄态识别、文本理解和利用等技术上耕耘多年,并形成智能终端产品和行业解决方案。目前正在研发的AI模型尚属于新生技术,在文本生成、生成内容的控制与审核等方面的技术细节尚在进一步完善。
当虹科技(688039)1月5日互动平台表示,公司拥有自研的AIGC工具集,发布了以静态照片生成三维体积视频的方案,并且通过点云模型转换及压缩算法实现高达800倍的视觉无损压缩,实现不同模态之间相互切换。公司AIGC视频内容智能生成系统融合了大模型技术,能助力用户在新闻传播、视频内容创作等多项领域中创作出优质视频内容。
东方国信(300166)去年12月27日互动平台表示,在AI多模态方面,公司在文本、语音、图像、视频等非结构化数据类型的AI分析上,均有应用产品和落地案例。视觉类有基于Stable Diffusion的图像生成能力,其他视觉类大模型应用还在探索技术路径和应用场景。
神思电子(300479)2023年12月26日在互动平台表示,公司经过多年人工智能领域积累,已突破了远距离全天候复杂场景激光热成像联动入侵检测技术,掌握了基于深度学习的非结构化数据处理、视频分析、语音对话、知识管理以及云平台技术。公司正在对于文生图、图生文、视频生文、文生视频等多模态数据互相跳转的收敛性质进行研究,支撑培训、检索、推荐、目标追踪等多个场景的生成式大模型应用。
因赛集团(300781)2023年12月25日在互动平台表示,公司InsightGPT具备文生文、视频智能剪辑、图生视频等功能,目前正在开发文生视频功能。在现有图生视频等技术框架下,InsightGPT目前可生成20秒以上的视频。在目前文生视频的逻辑流程中,InsighGPT先结合图像、视频大模型,融合抠图等多种算法,再结合音频模型,整体渲染后最终合成完整视频。
拓尔思(300229)2023年12月14日在互动平台表示,公司在Transformer架构方面积极跟踪业内最新技术,未来将根据技术研发和业务需求的实际情况,适时采用类似架构。
国脉文化(600640)去年12月12日在互动平台表示,公司在文生视频方面,已内部开发基于大模型的AIGC数字内容生成平台,平台利用多模态技术,使用自有的版权内容,生成文字、音频、图片、视频等影视素材,进行内容的创作生产,正在内部试用中。
佳都科技(600728)在2023年12月11日在互动平台表示,公司TransCorc-M多模态大模型能够理解立本、图像、视频等多种模态的信息,并且按照用户需求将其进行描述、提示或转化为指令代码,是个非常“聪明”的交通信息小助手。
来源:澎湃新闻