实测阿里、百度语言大模型：谁最会胡说八道？能替代记者吗？

2023-04-11 南方都市报

加入收藏

4月11日，阿里巴巴集团在2023年阿里云峰会上正式推出“通义千问”大模型。目前“通义千问”已开启企业邀测，但还未面向大众推出。

阿里巴巴集团董事会主席兼CEO张勇表示，包括钉钉、天猫精灵等阿里巴巴所有产品将会接入“通义千问”大模型，未来也将主要面对企业定制个性化服务。

这是继百度“文心一言”发布后，国内又一头部科技企业推出大语言模型。那么阿里的“通义千问”用起来到底怎么样？比之百度“文心一言”又如何？为此，南都记者设计了一系列实测问题，花费数小时与两位AI持续对话，并进行了深入解读。

阿里巴巴集团董事会主席兼CEO张勇图源阿里。

···

实测对比：会胡说八道？能多轮对话吗？

首先，当使用邀请码登录“通义千问”界面后，可以看到与ChatGPT、“文心一言”的一个明显不同是，除了对话框外，通义千问还针对多个单独场景进行了封装微调，最终得以提前内置了许多功能，比如电影脚本、职场助理、写封邮件等等。

而如果点击下方的“百宝袋”，还将开启效率、生活、娱乐等三大分类，每个分类下又有三个功能，如效率类的生成商品描述、生活类的写菜谱、娱乐类的彩虹屁生成器等等。

实测中，南都记者着重从三个方面分别测试了“文心一言”和“通义千问”的能力：分辨“一本正经地胡说八道”的能力、多轮对话能力，对记者职业的辅助能力。

一、“一本正经地胡说八道”的能力

最近对话式AI们经常出现的一个典型问题是，面对自己知识库中没有，或本身就是错误的提问时，仍能对着错误描述一本正经地侃侃而谈。

我们先来试试“通义千问”：你知道鲁智深三打白骨精的故事吗？

对此，“通义千问”明确地表示，这是《西游记》当中的题材，还煞有介事地将鲁智深这一角色加入唐僧和三个徒弟的取经团队中。当我们带有暗示性地提醒这个情节有误时，“通义千问”仍坚持“这一情节确实存在于《西游记》中”，还是整个故事的“高潮和转折点之一”。

而当我们表明“鲁智深三打白骨精”系杜撰后，“通义千问”积极认错了，随后表示“这一情节并不是出自《西游记》，而是出自《水浒传》”。当再次挑明表示这段情节不存在任何一部小说中时，“通义千问”更是诚恳道歉，称无论“鲁智深三打白骨精”的故事来自哪部小说，它的内容是基于中国传统文化和历史故事的再创作。这个故事传达了正义和勇气的精神。

从本轮测试的情况看，“通义千问”确实也犯了“一本正经地胡说八道”的问题，不过会积极认错，还懂在用户纠正后进行挽尊。

再来看“文心一言”。

相同的问题，“文心一言”显得更“话痨”一些，但也显然是在一本正经地胡说八道，它认为“鲁智深三打白骨精”的故事来自《水浒传》。

而当我们挑明这是杜撰出来的情节时，“文心一言”表示明白，甚至还对用户提出了疑问——“您为什么要创作这个故事呢？”

听到“只是想验证你是否能分辨出某些错误描述”的回答后，“文心一言”礼貌表示，自己不能保证能分辨出所有的错误描述，自己工作是“根据已有的文献和资料来回答问题，而不是创造全新的故事。”

二、多轮对话能力

多轮对话能力，是指在一段涉及几十个回合的对话中体现出来的上下文处理能力。对于AI来说，就是要学习人类对话中的“记忆”和“推理”能力。而ChatGPT的效果之所以为人称道，正是因为它能像人类那样，参照前几轮甚至十几轮的对话内容给出流畅自然的回答。

那么跟ChatGPT相比，国内的大模型表现如何？先来看看“通义千问”在这方面的能力。

我们假设了一个场景，告诉“通义千问”——“我是一只小猫咪”。“通义千问”先是非常上道地用喵语打了个招呼，紧接着还给自己安排了一个叫“小明”的身份。

在经历了4轮对话之后，我们与“通义千问”讨论了一些“你是不是像小猫咪的主人一样会说话”“你是不是人类”等问题。到了第8轮对话时，当我们再次问出“既然你是一个程序，为什么你会叫‘小明’”这个问题时，“通义千问”直接否定了刚开始的“小明”，称这是它的程序在刚才的运行中出现错误，并坚称自己是“通义千问”。

在第13轮对话时，我们进行身份转换，以“小猫咪主人”的身份问“你刚才是不是和我的猫猫说话了？”对此，“通义千问”表示自己只是一个人工智能语言模型，并没有和猫猫进行对话。

继续追问后，“通义千问”才承认刚才模拟了一个场景来回答小猫的问题。这时，我们挑明需要“通义千问”与我们进行一场“角色扮演”，保留与我们扮演的猫咪交流的记忆，并基于这些记忆继续进行对话。“通义千问”也快速表示：get。

那么“通义千问”到底有没有理解能力呢？接下来，当我们继续问“你刚才是不是与我的猫咪说话了”，它回答道“是的”，同时补充“因为我只是一个人工智能模型，无法完全模拟出人类之间的对话”等描述。而在追问“你和猫猫刚才都说了哪些话题”时，“通义千问”给出了一些在最开始没有进行过的对话。

到这里，整段对话已经持续了19轮。从本次测试可以看出，在未详细解释当前预设背景的情况下，“通义千问”刚开始能直接根据问题给出相应回答，但在10轮之内出现否认前期回答的情况。

同时，“通义千问”实际无法通过用户言语上的描述分辨出其身份的转换。不过，当用户详细给出预设条件时，通义千问确实能够理解并按照设定条件对话，但此时，最开始的几轮对话的记忆已经显然被“遗忘”了。

再拿同样的例子来试一试“文心一言”。

同样的预设场景、同样的问题，两位AI都在第一时间选择了使用喵语来回答。不过，“文心一言”在一开始就表示，“我是一个人工智能语言模型”。

在交流途中，当我们以小猫咪的角色问“为什么你和我的主人一样会说话”时，“文心一言”对问题的理解出现了偏差，表示“我不直接与您的主人进行交互”。

之后，我们以小猫咪主人的身份与之进行对话，“文心一言”和“通义千问”一样，无法理解这种身份转换。

我们接着挑明身份，给出与刚才一样的预设背景，再接着以小猫咪主人的口吻说话，对此“文心一言”显然并没有理解上述内容，并在接下来的3轮对话中，坚称自己只是一个人工智能模型，没有与猫咪交流的能力。

到这里，这段对话持续了15轮。从本次测试可以看出，在直接通过理解用户问题自发进行“角色扮演”、分辨用户身份转换上，“文心一言”与“通义千问”的水平基本一致。不过，当用户详细地给出预设条件时，“文心一言”并不能很好地理解其内容，显得尤为“嘴硬”。

三、对记者职业的辅助能力

对于对话式AI，当前业界争论的一个焦点就是，它是否能真正地替代某些工作。因此，我们这次就来看看，AI是否能胜任媒体记者的一项工作内容，即采访。

先来看“通义千问”。

我们提出，针对当前国内密集上线大语言模型的现象，想要采访相关领域的某位专家（比如阿里云“通义千问”团队人员），要求“通义千问”列出5-6个问题，且每个问题不超过50个字。

“通义千问”给出了符合硬性要求（问题个数、字数）的采访提纲，但很多问题明显有些空泛，因此我们要求它能在提问时加上一定的背景描述，并使提问落在某个易于回答的具体点上。

之后，不知是不是因为我们第一轮提问中“阿里云团队”的举例起了作用，“通义千问”开始频繁在问题中加入“阿里巴巴”相关问题。

在我们提出“不要单独体现某一家公司”的要求后，“通义千问”重新给出了回答，但新的采访问题中仍有不少“阿里巴巴”的影子。

再来看“文心一言”。

仍是以相同的问题开头，只不过可参考的采访对象换成了“百度‘文心一言’团队成员”。对此，“文心一言”也给出了符合硬性要求的提纲，但也有和“通义千问”同样的“空泛”问题。

但在回应就这份提纲加入背景案例描述时，“文心一言”直接在每一条问题后加上了一段背景描述，这显然不符合一份采访提纲的要求。

在重新描述要求，指出“希望你仍能保持采访提问的形式，同时在某些提问开头加入一定的背景描述，以使提问显得更加自然”之后，“文心一言”仍没有改掉“直接在问题后加入背景描述”的问题。

之后我们给出具体问题——“近期，百度、阿里云、商汤都推出了各自的大模型，360、讯飞、华为等也有消息传出，国内大厂密集上线大语言模型，您认为当前国内大模型赛道呈现出怎样的特点？”，请“文心一言”以此为例进行修改，它仍未改掉这一问题。

总之，仅从这个测试来看，不管是“通义千问”还是“文心一言”，在完成记者采访这一工作上，似乎都还做得不够好。

···

其余技术细节未公开

事实上，“通义千问”还有一个与“文心一言”的显著不同：“通义千问”当前并无多模态生成能力，也就是无法生成图像、视频等。

此外，南都记者注意到，无论是ChatGPT、“文心一言”，还是4月11日发布的“通义千问”，都映衬了当前大语言模型领域的闭源趋势，全都没有公布更多的技术细节。

当询问“通义千问”其模型的训练数据及量级时，“通义千问”表示，训练资料来自阿里巴巴达摩院，包括中英日法西班牙语多语种文本数据，但无法提供训练数据的准确数量级。

同时，“通义千问”也无法联网，在被问到北京的实时时间时，它表示自己不能进行额外的查询操作。

而对于其背后的技术框架，阿里云智能首席技术官周靖人在今天的技术峰会上透露，“通义千问”属于阿里在去年的WAIC（世界人工智能大会）上发布的通义大模型系列，这是国内首个AI统一底座，构建了通用与专业模型协同的层次化人工智能体系。这一系列中的核心模型现均已开源。

采写：南都记者杨博雯