开源与自研的“战火”在大模型时代重燃

2023-11-17 IT168

这几天朋友圈异常热闹，导火索来自前阿里AI科学家贾扬清的一则消息，他说某国产大模型抄袭了META 的LLaMA架构，并且只换了几个变量名称就说成是自研，谴责这种行为没有底线。就在很多人拿着国产大模型一对一比对，猜测是哪家公司这么干的时候，“肇事者”终于“浮出了水面”，原来是创新工场董事长兼 CEO 李开复推出的“零一万物”（Yi-34B）。

关于抄袭的“大锅”

有国外开发者直接点名，在零一万物的Hugging Face开源主页上，开发者ehartford质疑称该模型使用了META LLaMA的架构，只修改了两个tensor（张量）。零一万物曾在几天前表述，最新发布的开源大模型Yi-34B性能卓越，一鸣惊人。该公司有冲进第一阵营的初心和决心，拥有可以对标 OpenAI、google等一线大厂的团队。抄袭事件出来以后，零一万物公开致歉，并表示会在各开源平台重新提交模型及代码，补充LLaMA 协议副本的流程，尽速完成各开源社区的版本更新。

很明显，零一万物光明正大地承认自己在模型训练过程中，沿用了GPT/LLaMA的基本架构，正是因为LLaMA社区在开源上的贡献，使得零一万物可以快速起步。

至此，我们不去评价功过是非，当所有国内大模型都松了一口气，这口“锅”没砸在自己的头上时，关于开源与自研的问题再次引起争议。

其实，在之前的软件时代，国产软件的自主创新能力就遭遇过质疑。由于我国基础软件基础薄弱，起步较晚，我们最早大量采用开源，导致我们的软件被称为是“开源套壳”。的确，国产软件在研发过程中，确实存在着一部分功能采用欧美企业软件来实现，导致我们现在还在受这些企业的专利限制，并支付专利费用。事实上，在全球化科技环境中，跨国竞争与合作是一种常态，各种技术创新都建立在前人实践的成果之上。换言之，开源的使用并不意味着缺乏自主创新能力，而是基于社区可靠性和广泛性支持，可以帮助更多企业构建更稳定的应用。

只不过，不管你是开源的玩法，还是选择自研创新，都要遵守游戏规则。你是怎样一种状况，就要清清楚楚告诉用户，尊重各自的劳动成果，这是一家企业最基本的行为准则。

开源，还是闭源？

从去年底开始，国内外均以肉眼可见的速度奔向大模型，各种文生文、文生图、文生视频等应用，如雨后春笋般诞生，这背后开源的基础架构带来了强大的推动力。因为，有了开源的数据、算法和框架，其他企业就不用重复造轮子，可以让科技创新更高效。那么，到底如何评价一个模型是不是自研？业内有一种说法是，如果你采用的算法和框架是自己实现的，同时数据是自己收集、清洗的，那就算自研；如果其中三项均来自开源，那就不能被认为是自研。

需要特别注意的是，在开源环境下，模型的自研性并不是唯一的考量标准，还需要考虑模型的实用性、性能和可靠性等因素。所以，如果你使用了开源的框架，同时遵守了开源社区的规范和准则，不侵犯他人知识产权，并且尽可能回馈给开源社区，促进开源社区的发展，那这个模型就可以被认定为是自研。

事实上，当大模型开始狂飙，很多企业都在这个问题上纠结过。有了开源，我们还需要自研吗？最终，大多数企业的选择都是同一个，那就是只能借鉴，不能全盘照抄！模型训练不是开黑盒，只要做不到完全透明，就存在安全风险。

目前，大模型正在向各个行业和企业渗透，比如：金融行业的信息评估预测、医疗行业的影像分析和药物研发、零售行业的销售分析和市场预测、制造业的生产数据分析和调度计划等，都会受到前所未有的影响，我们必须要构建出属于自己的可以自主可控的模型，才能拥有最终话语权。

现实情况是，对于很多互联网大厂来说，如果没有自己的大模型生态，那意味着未来的发展会受阻，甚至出局，所以大模型是必选项。而一些小企业，则依附更大的生态来发展自己垂直领域的模型。所以，大模型看起来非常热闹，已经演变成“百模之争、千模大战”，但背后的竞争也会更加残酷。对于每一个入局的玩家而言，只有找准“赛点”，才能在白热化的竞争中存活下来。