商汤推出大模型体系“日日新”：现场演示AI写代码、线上问诊、做视频

2023-04-10 智东西

五年磨一剑，27000块GPU加持，现场演示AI编程问诊，几分钟训练出港风美人。

作者 | ZeR0

编辑 | 漠影

智东西4月10日报道，今日，商汤科技宣布以AGI（通用人工智能）作为核心发展战略，基于“日日新SenseNova”大模型体系，以“大模型+大算力”持续实现AGI的更多突破。

商汤还在现场展示了其类ChatGPT平台——自研中文语言大模型应用平台“商量”：现场演示写广告词、写邀请函、交替创作儿童故事、看长篇PDF文件并快速做阅读理解、编写代码等多样能力。

此外，商汤一连甩出基于“日日新SenseNova”大模型体系的4款生成式AI应用平台。商汤现场演示了实时的AI文生图、AI创作生动数字人视频的实操过程，并展示了用其3D内容生成平台做的高逼真城市级重建、复杂结构物体的商业广告视频，还用平板电脑演示了流畅的3D内容实时交互。

目前商汤已打造CV（计算机视觉）、NLP（自然语言处理）、AIGC（人工智能内容生成）多个AI大模型。其SenseCore AI大装置是业内稀缺的大模型专用基础设施，现有27000块GPU，可输出5000 PetaFlops算力，能够以最大4000卡规模集群进行单任务训练，并可做到7天以上不间断的稳定训练。

商汤将基于AI大装置，向客户提供涵盖自动化数据标注、大模型推理部署、大模型并行训练、大模型增量训练、开发者效率提升等多种大模型即服务（MaaS，Model-as-a-Service）。

在“一平台四支柱”的战略体系下，商汤“日日新SenseNova”大模型体系已全面支持了智能汽车、智慧生活、智慧商业、智慧城市等业务板块，打通了多个领域、行业的应用闭环。

01.

中文语言大模型露面：AI现编“手写

文档OCR”程序，还充当大夫在线问诊

“商量”是商汤科技自研的中文语言大模型应用平台，支持单轮对话、多轮对话及超长文本理解，能够秒解复杂问题、提供定制化建议、辅助创作文本内容，并具备不断学习进化的特性。

，时长

01:26

该平台背后，是商汤研发的千亿参数中文语言大模型，支持企业服务、城市管理、汽车出行等600+个垂直领域。

▲商汤中文语言大模型能理解句意，并尝试判断句子的合理性

据分享，“商量”具备逻辑推演与智能，可在互动式引导过程中精进判断力与创作智能；兼具理解广度与深度，在多轮对话、超长文本知识理解、问诊与编程等垂直领域表现突出，全方位覆盖各种应用。

比如，打开一个PDF文件，通过文字识别技术，它能快速阅读理解《专利法》，并根据用户针对此文输入的问题，给出相应的答案。

“商量”还支持知识自动及时更新，能够回答文档中不涉及的知识，生成更可信、更准确、更安全的文本和对话。

目前，商汤已经面向编程、医疗等细分领域，打造了行业专属中文语言大模型。

面向编程领域，商汤“AI代码助手”是商汤科技研发的一款基于大语言模型的的AI辅助开发工具，为开发人员提供代码补全、注释生成代码、测试代码生成、代码翻译、代码修正、代码重构、复杂度分析等功能。

输入中文要求，它就能自动生成完整代码。

现场，商汤还让“AI代码助手”编写“手写文档OCR”的程序，并成功跑通了代码。

“AI代码助手”同时支持中英文及多种编程语言，并能快速适应开发者的个性化编码风格，提高开发效率、减少开发错误，帮助开发人员专注于更有创造性的编程工作与代码设计。

据商汤内部实测，应用“AI代码助手”后，代码编写效率提升62%，HumanEval测试集一次通过率为39%。

面向医疗行业，商汤基于海量医学知识和真实医患互动对话数据打造的中文医疗语言大模型，能够提供导诊、问诊、健康咨询、辅助决策等多场景多轮会话能力，目前在问诊分诊、医疗知识科普、疾病鉴别诊断等领域表现出色。

商汤中文医疗语言大模型具备持续学习能力，并能根据用户的反馈和评价进行自我调整和优化，从而提升自身应对各种医疗场景时的理解与分析能力，未来将继续拓展在药物治疗、手术方案等方面的问诊能力，帮助医生进一步提升诊疗效率。

02.

生成式AI应用系列：

AI文生图、自动制作视频、3D内容生成

除了对话外，商汤也基于“日日新SenseNova”大模型体系，自研了AI绘图、AI视频制作和生成工具平台，包括秒画、如影、琼宇、格物等，为短视频、直播产业带来生产力的提升。

1、“秒画”AI内容创作社区平台：单卡支持每10秒生成5张512分辨率图片

“秒画”是商汤科技打造的AI内容创作社区平台，可帮助用户轻松地创作高质量的艺术作品，自动生成元素和细节。该平台支持用户训练个性化绘模型，可满足不同绘画风格需求。

“秒画”采用了商汤自研的超10亿参数自研文生图生成模型，方便用户在本地在推理和自训练：1）推理速度快，单卡支持每10秒生成5张@512分辨率的图片；2）单卡支持5分钟内定制属于自己的LoRA模型@20张训练图片。

商汤现场演示了在聊天框输入一连串详细的中文描述，让AI生成港风美女照片。

看起来，AI理解了什么是美女，但还没弄明白什么是港风。

但这不是问题，让AI现学就行了。点击页面左边菜单栏中的“训练模型”，输入模型提示词，上传20张或者更多的港风美女照片，再训练它一下。很快，AI学成归来，生成了更符合要求的港风美女：

商汤的生成模型开源社区汇聚了10000+开源模型。基于“秒画”平台发布的模型可设置为to B服务API，结合商汤大算力对外提供商业化服务。

2、“如影”视频生成平台：聊聊天制作出AI数字人，自动生成文案和最终视频

商汤“如影”AI数字人视频生成平台旨在让每个人都能轻松创作视频，支持AI数字人动作表情、AI文案生成、AI跨语言文稿、AI素材生成的全栈式智能创作，且卡通/真实各种风格切换自如。

，时长

01:37

整个过程无需专业拍摄设备，如影即可生成高度逼真的数字形象，并通过文字驱动，快速、高效地创作各种人物视频内容。而且创作出的数字人形象逼真、表情自然丰富。

只需在对话框中输入视频创作的粗略想法，商汤如影就能自动产生相应的视频文案，并直接AI驱动各种数字内容生最终视频。

该平台支持百余种语言，方便跨语种创作，并通过图片AI生成等能力让创作素材获取更加便利。商汤现场演示了换成阿拉伯语，生成的视频中，数字人连口型都对的很好。

如影AI数字人视频生成平台不仅可以帮助创作者快速打造各种短视频，直播等营销内容，还可以为教育培训、企业宣传，娱乐文化等领域提供视频解决方案，提高品牌知名度和用户粘性。

3、“琼宇/格物”3D内容生成平台：实时编辑创作，还原真实细节

琼宇、格物是商汤科技基于神经辐射场技术（NeRF）的3D内容生成平台，可基于3D内容生成技术实现对空间和物体的复刻与交互，大到城市数字孪生，小到桌面手办，都能逼真复刻。

两套平台生成的各类3D内容都能进行再编辑再创作，通过海量高精度数字资产的生产，满足影视创作、建筑设计、商品营销、数字孪生管理等各类对可交互3D实景内容有强烈需求的应用场景。

琼宇大空间3D内容生成应用主打场景生成，复刻和还原超真实感的场景，不仅支持自由漫游，还支持实时交互和编辑，可用于城市及园区的数字孪生、影视创作、文旅、电商等应用场景。

琼宇拥有厘米级重建精度、大场景实时渲染与互动、多源数据融合、超精细化等算法优势，具备城市级大尺度的空间重建生成能力，可生成100平方公里的空间。传统人工建模10000人/天的建模任务，通过琼宇只需2天即可完成（算力为1200 TFLOPS），并能还原真实细节和光照效果。

相较于传统物体建模方式，格物小物体3D内容生成应用可实现各品类物体超细节的复刻还原，带来400%的综合效率提升，实现95%的综合成本降低，覆盖品类全、重建效果好。

凭借商汤NeRF技术，格物可良好支持复杂结构物体复刻，并做到光照精准复刻，材质完美还原，适用于商业广告、商品营销等应用场景。下图是商汤用格物生成的商业广告视频。

03.

提供多元化MaaS服务、开放API接口

对外提供7000多张GPU计算资源

可以看到，商汤大模型体系的落地布局主要面向to B客户，为细分应用场景提供专用大模型，通过平台形式对外输出，将内容生成技术价值转化为易上手、好操作的实用工具，来释放生产力。

大模型体系名称取自《礼记·大学》中汤之盘铭曰“苟日新、日日新、又日新”。商汤科技希望在模型的迭代速度及处理问题的能力上可以日日更新，不断解锁AGI更多可能。

基于“日日新SenseNova”大模型体系，商汤将向客户提供图片生成、自然语言对话、视觉推理和标注服务等API接口，方便客户按需调用商汤大模型的各项AI技术能力，以及进行二次开发。

此外，商汤科技还将面向客户提供自动化数据标注、大模型推理部署、大模型并行训练、大模型增量训练、开发者效率提升等多种大模型即服务（MaaS，Model-as-a-Service）：

（1）大模型并行训练和大模型增量训练服务：帮助客户以更低成本，快速结合相关领域知识，训练不同的行业大模型，实现千行千面模型开发，并将增量微调成本降低90%。

目前商汤AI大装置已支持了超过10个大模型训练项目，其中还对外提供7000多张GPU计算资源，支持了包括互联网、游戏、商业银行和科研机构等8家客户自定义的大模型训练任务。

（2）自动化数据标注：可实现智能标注，带来近百倍效率提升。平台内置10余个通用大模型和行业专用大模型，支持智能驾驶、智慧交通、智慧城市等多种场景的2D分类、检测和3D检测的智能标注，相比传统人工标注和小模型标注模式，具有标注效果好、效率高、成本低等核心优势。

（3）大模型推理部署：可实现推理成本最低化，效率提升100%，助力客户快速部署大模型应用。

（4）开发者效率提升：面向开发人员开放模型及AI开发工具链，赋能开发者效率提升。

无论是中文大语言模型应用平台、4款生成式AI应用平台，还是开放API接口和提供多元化MaaS服务，都有助于进一步降低AI技术在实际业务环节中部署的门槛，降低成本并提高效率。

而商汤之所以能一次性放出这么多大招，离不开这5年多以来的技术积淀和实践经验。

04.

AI大模型五年磨一剑

全面支持四大业务板块

商汤自2018年起致力于AI大模型的研发，2019年便使用上千张GPU卡进行单任务训练，推出了10亿参数量规模的视觉模型，创当时业界最好算法效果；近两年训练了百亿参数规模的超大视觉模型，相当于千亿参数语言模型的训练量。

目前商汤已成功研发了320亿参数量的全球最大的通用视觉模型，实现了高性能的目标检测、图像分割和多物体识别算法，并在自动驾驶、工业质检、医疗影像等多个领域得到广泛应用。

商汤还发布了最大的用于真实感知、重建和生成的多模态数据集（OmniObject3D）。

在“一平台四支柱”的战略体系下，商汤“日日新SenseNova”大模型体系已全面支持了智能汽车、智慧生活、智慧商业、智慧城市等业务板块，打通了多个领域、行业的应用闭环。

在智能驾驶领域，通过大模型生产高精度车端模型，大幅提升了few/one/zero shot在长尾类别中的精度，在重点关注类别上平均精度提升3%。此外，大模型提供了高精度的智能标注能力，为数据闭环提供了核心功能，大大减少了需要人工标注的数据量，加速了模型精度的提升。

得益于大模型能力，商汤实现了BEV环视感知，做到了3000类物体的高精度识别，还构建了感知决策一体化的自动驾驶多模态大模型，带来更强的环境、行为、动机解码能力。

在生物医药领域，商汤AI大装置为蛋白质结构大模型提供AI推理算力，并为蛋白质相互作用模型，提供研发平台及训练算力。

商汤与百英科技合作，训练抗体亲和力预测模型。通过高性能计算优化，蛋白质结构预测大模型推理时间由数小时减少到数分钟，使得蛋白质结构预测性能达到工业应用的标准，抗体筛选效率提升60%。

基于在智慧城市、智慧商业等领域的长期实践，商汤积累了海量真实世界的高质量视觉数据，这些数据又反过来推动商汤在视觉技术方面的持续突破，为大模型的研发提供有力基础。

05.

5000P大算力、27000块GPU

支持20个千亿参数超大模型同时训练

商汤科技董事长兼CEO徐立博士说，在AI的大模型时代，所需要的计算量，等于大模型参数量与处理数据量的乘积。

▲商汤科技董事长兼CEO徐立博士

过去5年，AI大模型的参数量几乎每一年提升一个数量级。过往的10年，最好AI算法对于算力的需求增长超过了100万倍。人一生中能听到约10亿词汇量，而GPT-3已学习约5000亿自然语言数据量，已知最大自然语言模型的数据量达到2万亿。

大模型参数量将以指数级的速率提升，随着多模态引入，数据量还将大规模增长，必然导致算力需求剧增。

商汤科技依托人工智能基础设施SenseCore AI大装置实现了前瞻的算力布局，以及源于产业实践的丰富高质量视觉信息和技术积累，为大模型的研发提供了强大的算力底座。

1、5000 Petaflops超大规模算力，是亚洲最大的智能计算平台之一：SenseCore商汤AI大装置目前包含27000块GPU，可输出5000 Petaflops算力，是亚洲最大的智能计算平台之一。

2、支持20个千亿参数超大模型同时训练，并提供一条龙基础设施服务：商汤AI大装置当前算力可支持20个千亿参数量的超大模型同时训练，并提供涵盖数据、训练工具、推理部署、性能优化一条龙的大模型基础设施服务体系。

3、支持最大4000卡并行单任务训练，可持续7天以上不间断稳定训练：不仅支持了商汤自身的大模型训练项目，而且还训练了其他企业自定义的模型。商汤将力争在4000卡规模集群的训练关键指标达到世界领先，为万亿级参数提供基础。

据悉，在AI大模型时代，衡量算力能力和核心指标不是简单的数字，其一是多卡并行状态下的有效利用率，即能够支撑大模型训练的实际算力；其二是系统能够持续稳定运行的时长。

商汤AI大装置融合了AI、超算与大数据的核心能力，通过为AI优化的高性能计算、高性能存储及缓存、高性能网络，以存算分离，大规模弹性、容错调度等特征，支撑大模型在数千张卡、PB级存储上，完成万亿级参数大模型训练。

SenseCore AI平台产品还提供了模块化、全链条的数据、训练及推理能力。可实现百亿级数据管理及检索，人工标注服务，加速AI大模型研发效率。一键量化、一键部署、一键应用，提供了大模型快速上线验证的工具，加速创新。

06.

结语：以“大模型+大算力”战略布局

剑指AGI时代的基础设施服务

过去十年，深度学习掀起的AI技术革命在很多领域突破了“工业红线”，但在广泛复杂的场景需求下，定制化AI模型的开发模式依然面临研发成本高、周期长等问题。

如今，将语言、视觉等信息和能力融为一体的多模态大模型正催生新的研究范式，通过强化学习和人类反馈不断解锁基模型新的能力，从而更高效地解决海量的开放式任务。

AI新的技术革命已经到来，它的影响注定深远。今天，商汤通过展示“日日新SenseNova”大模型体系和业界稀缺的大模型专用基础设施商汤AI大装置，交出了迈向AGI目标的阶段性答卷。

基于“日日新SenseNova”大模型体系，商汤自研了中文语言大模型应用平台、革新的人机协作模式，以及包括AI内容创作、2D/3D数字人视频生成、大场景/小物体生成的一系列视频内容的制作和生成工具平台。

这些平台将为医疗问诊、短视频、直播、商业广告、商品营销、数字孪生、影视创作、文旅等产业带来生产力的提升。而商汤提供的多种API接口、MaaS服务等，又将进一步助攻大模型AI技术在各行各业的规模化普及。