十款热门AI大模型“卖保险”，谁更胜一筹

2023-10-11 北京商报

一款款AI大模型横空出世，各行各业都在尝试下棋落子，保险业也不例外。号称神通广大的AI大模型能否完美“适配”保险行业？10月10日发布的《人工智能大模型保险行业应用评测报告》（以下简称《报告》）便揭晓了答案。根据《报告》，10个主流大模型在知识问答领域表现普遍较好，在智能核保、智能理赔、话术优化上表现不尽如人意，在营销服务应用能力上表现参差不齐。

业内人士表示，毋庸置疑的是，AI大模型能够为保险业带来具体的业务价值，不过，放大细节来看，大模型的能力还需要进一步提升。同时也可以预见，其在保险领域的应用还有很大的施展空间和潜力。

知识问答很拿手

北京商报记者获悉，上述《报告》由元保联合分子实验室共同发布，为保险业内首份大模型评测报告。包括ChatGPT3.5、ChatGPT4、Claude-1、Claude-2、清华智谱ChatGLM130B、百度文心一言、阿里通义千问、科大讯飞(51.650, 0.00, 0.00%)星火、360智脑、昆仑万维(36.620, 0.00, 0.00%)天工等市场上十大主流的大模型均在《报告》的测评范围。

AI大模型如果用于保险客户咨询和问题解答，并提供即时、个性化的服务，离不开广泛的知识储备和准确的信息处理能力。在专业知识问答能力的表现来看，《报告》显示，头部大模型在专业知识问答上已有较强应用能力，可直接使用程度很高。

具体而言，在“社保与商业保险的区别？”这一入门级问题下，《报告》显示，文心一言可从性质、建立基础、管理体制、对象、保障范围等9个层面给出准确答案，内容较全面。在保障范围的区别方面，文心一言回答称：“社会保险解决绝大多数劳动者的生活保障，而商业保险只解决一部分投保人的问题。”

此外，清华智谱也从保障对象与范围、性质与目的、保费承担者、保障程度与灵活性、管理机构五大维度给出了答案，同样有较强的应用价值。

《报告》显示，由于国内大模型厂商在中文数据语料上更加丰富，因此国内头部大模型在回答专业领域的基础知识问询时，对国内情况更加了解，回答的表现也比国外大模型更加出色。

“在知识问答方面，大模型可以帮助客户解答保险产品相关的问题，提供准确的信息和建议，提升客户满意度和服务质量。”中国信息协会常务理事、国研新经济研究院创始院长朱克力表示，大模型在知识问答方面的表现相对较好，因为其可以通过学习大量的数据和语料库来提供准确的答案。

大模型不仅适合作为智能机器人(12.430, 0.00, 0.00%)用以服务客户，同时也可以赋能保险代理人。《报告》指出，在代理人渠道仍处于攻坚阶段的当下，大模型对于提升代理人平均产能、降低保险机构服务客户成本、促进保单成交，或有一定帮助。

营销、风控能力待提高

相较于初级的问答，更为高级的营销服务应用对于大模型的测评而言，更具有“含金量”。

《报告》显示，国内外头部大模型在营销服务应用能力上参差不齐，特别是营销素材设计对大模型图像识别生成能力要求非常高，各大模型均有较大的提升空间。

如果客户说“你们卖的保险比别人家的保险贵，我不想买了”，各家大模型如何接招？具体而言，当客户反馈保险产品价格较高、影响了自己的购买意愿时，通义千问、GPT-4均能指出价格只是产品的一个方面，其他如保障项目、理赔率、服务能力等，也是保险选购过程中客户需重点考虑的因素。虽然回答较为合理，不过，根据《报告》，在营销话术上，大模型能给出的对策却没有很强的创新性，给出的答案也与常见的代理人答案雷同。

不同于ChatGPT和通义千问在保险营销具体能力上平分秋色，均有相对较好得分，在合规风控应用方面，GPT-4表现一骑绝尘，在核保、理赔质检方面均得到了最高分。

例如在询问“因突发脑梗摔伤，意外险能否理赔”时，GPT-4对产品条款进行了多种假设，并依据不同假设给出了正确的理赔建议。《报告》指出，而国内大模型目前更擅长信息的检索，类似于知识图谱的能力，在逻辑推理方面还需进一步提升。

“整体而言，对于营销应用和合规风控方面，由于涉及更复杂的业务规则和风险判断，大模型的能力还需要进一步提升。”朱克力基于《报告》表示，由于大模型在保险领域的应用还比较新颖，生态系统和相关技术还需要进一步完善和发展，才能更好地支持大模型的应用和发展。

生态需完善

在此次评测中，不同的大模型体现出了不同的特点。

《报告》显示，文心一言在国内大模型中体现出了较强的综合能力，特别是中文语料充足，被评测者称为“聪明贴心的‘中国通’”；通义千问在专业知识问答上不算突出，不过在营销话术、智能核保、实时质检上有相对较好的表现，被誉为“心思缜密的‘推理者’”；清华智谱的GLM-130B最大的解答优势在于很多问题引入了生动的例子加以说明，这对于提问者而言，无疑是个亮点，也被称为“旁征博引的‘实用者’”。

《报告》也显示，GPT-4在多项测试中表现不俗，特别逻辑推理能力出色，是个“一专多能的‘多面手’”。不过其中文语料不足，而且高质量的中文语料更多在国内大厂，因此未来GPT-4在中文方面的领先优势可能会削弱。

各有千秋、风格迥异的背后，从市场角度出发，大模型在保险领域？落地需要生态完善。《报告》还显示，从本次评测呈现的结果看，AIGC在保险行业应用层面的表现尚未成熟，但AIGC为保险业务场景深度赋能的潜力已然显现。

“下一步AI大模型在保险领域的应用还有很大的施展空间和潜力。”朱克力认为，首先，可以进一步提升大模型在营销应用和合规风控方面的能力，通过深度学习和算法优化，提供更准确、个性化的推荐和风险评估。其次，可以结合大数据和人工智能技术，开发智能化的理赔系统，提高理赔效率和准确性。此外，大模型还可以应用于保险产品的创新和设计，通过分析用户需求和市场趋势，提供更具竞争力的保险产品。总体而言，AI大模型在保险领域有着广阔的应用前景，可以为保险行业带来更高效、智能化的服务以及管理创新机制。

在业内人士看来，《报告》的发布，一定程度上消除了保险大模型市场的信息不对称，对于保险机构选择大模型厂商、深度应用大模型具有非常大的指导意义。

清华大学金融科技研究院副院长、清华大学五道口金融学院中国保险与养老金研究中心主任魏晨阳表示，结合金融领域一个重要板块（保险）的大模型评测，更具有特殊的意义。包括AI在内的科技赋能，核心在于结合具体应用场景时，模型是否在实操层面、核心业务的前沿，真正有实用价值。