ChatGPT在金融营销领域的应用

2023-04-26 道乐科技

3月21日，比尔·盖茨发表文章表示，自1980年首次看到图形用户界面以来，OpenAI的GPT人工智能模式是他所见过的最具革命性的技术进步。3月23日，OpenAI宣布目前正在逐步推出ChatGPT相关插件。

AI技术的应用比想象中更快，人工智能时代已经到来。各行各业畅想人工智能将在各领域带来怎样的改变，AI将给财富管理领域带来怎样的变革？本期我们采访了道乐科技技术总监蔡树彬，看看他对ChatGPT的技术解读及金融营销领域应用的猜想。

ChatGPT技术解析

简单来说，ChatGPT（及GPT系列）是一种基于深度学习的自然语言处理技术。其基本原理是使用大规模的语料库进行训练，以获得自然语言的语义和语法规则，从而生成自然流畅的对话。ChatGPT主要经由数据准备、模型训练、模型优化和微调以及模型部署和应用这4个阶段形成。

01 数据准备

数据准备包括数据收集和数据清洗。OpenAI没有披露ChatGPT的具体训练数据集，但ChatGPT是在GPT-3的基础上形成的，两者的数据集大致相同。GPT-3的训练数据集包括但不限于以下维基百科、新闻、社交媒体等超过45TB的数据集：

除了这些数据集外，ChatGPT 还利用了其他一些开源的自然语言数据集，如OpenWebText、WebText、Stories等，以扩展模型的语言覆盖范围和学习能力。这些数据集的广泛性和多样性可以帮助模型学习更丰富和复杂的语言知识和模式。ChatGPT 对这些数据集进行了清洗、预处理和格式化，以保证数据的质量和一致性，提高模型的训练效果和性能。质量越高的数据集，如Wikipedia，具有更高的权重，在训练中会被更多地使用到。

数据集信息

02 模型训练

模型训练阶段，ChatGPT使用了Transformer网络架构来训练模型，以预测下一个词或一段话的概率。Transformer网络结构的核心是自注意力机制，该机制能够使模型在计算每个位置的表示时，考虑到所有其他位置的信息。这种机制可以使模型更好地理解文本中的上下文关系，并且能够捕捉到文本中的长期依赖关系。Transformer的模型架构如下图所示：

Transformer 模型结构

具体来说，Transformer的模型各部分功能如下：

1. 输入嵌入（Input Embedding）

将输入序列中的每个元素转换成向量表示，通常使用预训练的词向量或字符向量来表示。

2. 位置编码（Positional Encoding）

将输入序列中每个元素的位置信息编码到向量中，以便模型能够识别其在序列中的位置。

3. 编码器（Encoder）

将输入序列经过多个编码器层进行处理，每个编码器层包含一个自注意力子层和一个全连接前馈神经网络子层。在自注意力子层中，模型会计算每个输入元素与其他元素之间的关系，以便更好地捕捉序列中的依赖关系。随后，在全连接前馈神经网络子层中，模型会对每个元素进行进一步的处理，以便模型更好的提取特征。

4. 解码器（Decoder）

将编码器的输出序列经过多个解码器层进行处理，每个解码器层包含一个自注意力子层、一个编码器－解码器注意力子层和一个全连接前馈神经网络子层。其中，编码器－解码器注意力子层会计算输入序列和输出序列之间的关系，以便实现翻译等NLP任务。

5. 输出层（Output Layer）

将解码器的输出序列经过一个全连接层进行处理，得到最终的输出结果。通常使用SoftMax函数将输出转换为概率分布，以进行分类等任务。

总的来说，Transformer架构可以看作是对输入序列进行编码和解码的过程，并使用自注意力机制捕捉序列中的依赖关系，以便更准确地处理长序列数据。

在这个处理过程中，语言文本中的单词都被转化为向量表示，这个向量就是词向量。词向量将单词表示为一个固定长度的向量，其中每个维度代表了单词在不同语境下的含义。向量之间的距离与词语之间的语义相似度保持一致，这样单词之间的相似性和关联性就可以在词向量空间中获得表示。这种方式将单词转换为计算机可以处理的数值形式，从而可以方便地进行各种自然语言处理任务。

ChatGPT是使用无监督学习的方式进行训练的。在训练ChatGPT模型时，需要定义一个损失函数，它可以帮助我们评估模型的性能并指导其学习——即训练模型的目标是使损失函数最小化。

在ChatGPT的训练中，损失函数一般是基于语言模型的交叉熵损失函数。交叉熵损失函数的目标是最小化模型预测的概率分布与实际概率分布之间的差异。两者之间的差异越小，则代表模型的性能就越好。GPT最早期使用的是一种基于自回归模型的语言模型，它通过最大化给定输入序列的下一个单词出现的概率来预训练模型。自回归模型的目标是最大化模型对无标注文本数据的似然性，即最大化模型在给定无标注文本数据下的对数似然函数。这样，训练出来的模型可以在当前输入文本序列的基础上，预测下一个单词出现的概率。预测概率的一个重要指标就是似然性，即当前模型预测的结果与实际观测值之间的相似程度。

在GPT-2，GPT-3中，在模型预训练阶段还引入了掩码语言模型（MLM，Masked Language Model，和Bert中的一样）。MLM的目标是在输入序列中随机遮盖一些单词，并让模型预测这些被遮盖的单词。掩码语言模型的似然函数表示为：

其中Wi表示第i个位置的被遮蔽的单词，通常在文本中用一个特殊符号“[MASK]”标记，Wi表示第i个位置之后的单词序列，表示文本序列的长度。使用MLM技术可以迫使模型学习到上下文信息，并在预测下一个标记时考虑到前面已经出现的标记。MLM损失函数的目标是最小化模型预测被替换标记的概率分布与真实标记的概率分布之间的差异，即使上述似然函数最大。

在训练ChatGPT模型时，需要使用梯度下降算法对模型参数进行优化，以最小化模型的损失函数。ChatGPT 使用随机梯度下降（SGD）的变体进行训练，称为 Adam 优化器。Adam 优化器结合了 SGD 和均方根传播（RMSProp）优化算法的优点，在训练过程中可以自适应地调整学习率，有助于模型更快、更准确地收敛。

从GPT-1到GPT-3，GPT模型的几个重要参数都在迅速增大。词向量的维度从768维快速增加到12888维；上下文窗口大小从1024增加到2048；每层Transformer的注意头从12个增加到96个，Transformer的层数从12层增加到96层。模型参数从1.17亿急剧增加到1750亿，训练的代价也从几百万美元增加到上亿美元。随着模型参数量急剧增大，模型甚至涌现出一些人们预料之外的能力。

03 模型优化和微调

模型微调的训练数据来自多个NLP任务（如分类、相似、选择和蕴含推理等）的公开数据集，这些数据集有明确的标注，规模相对较小。OpenAI未公开所使用的数据集，一些常用的NLP数据集列举如下：

模型微调时只训练输出层和分隔符的嵌入值。利用分隔符使模型能使用相同的方式（预测下一个单词）来处理不同的NLP任务。ChatGPT微调时使用的数据集包括Cornell Movie Dialogs Corpus、Persona-Chat、DailyDialog等，这些数据集覆盖了不同领域和类型的对话，包括电影对话、个性化对话、日常对话等。通过使用这些数据集，ChatGPT可以更好地理解和模拟人类对话，从而提高其生成对话的质量和流畅度。

一般的模型在训练时以预测下一个单词的方式和最小化损失函数来建模，未能引入人的偏好和主观意见。ChatGPT在模型优化和微调时使用了指令微调（Instruction Fine-Tuning，IFT），有监督微调（Supervised Fine-tuning, SFT）和人类反馈强化学习（Reinforcement Learning From Human Feedback，RLHF）等方法来提高生成文本的质量。

指令微调可以让模型学会以正确的方式遵循用户的指令。指令范式由三个主要部分组成：指令，输入和输出。IFT 的训练数据通常是人工编写的指令及用语言模型自举生成的实例的集合。在自举时，先输入一些指令样本给LLM 用于提示它，随后要求 LLM 生成新的指令、输入和输出。每一轮都会从人工编写的样本和模型生成的样本中各选择一些高质量指令输入到模型中。然而经过指令微调的模型并不总是生成有帮助的和安全的响应，所以还需要在高质量的人类标注数据上使用SFT来微调模型，以提高有用性和无害性。

RLHF的思想是使用强化学习的方式直接优化带有人类反馈的语言模型。RLHF使得在一般文本数据语料库上训练的语言模型能和复杂的人类价值观对齐。RLHF的训练过程可以分解为三个核心步骤：1.预训练语言模型；2.收集数据并训练奖励模型；3.通过强化学习微调LM。RLHF的实现包括两个重要的组成部分：奖励模型和人类反馈收集。奖励模型是一个用于评估生成文本质量的模型，它基于已有的训练数据和人类反馈，学习生成文本的质量，并给出相应的奖励或惩罚。奖励模型的目标是最大化模型得到的总体奖励。

在ChatGPT中，奖励模型是通过对人类反馈进行监督学习得到的，这些反馈包括对生成文本的评价和改进建议。人类反馈收集是RLHF的另一个重要组成部分，它用于训练奖励模型并提供奖励或惩罚。在ChatGPT中，人类反馈收集主要通过两种方式实现。一种是在线收集人类反馈，即让人类用户在与聊天机器人对话时，对机器人生成的文本进行评价和反馈。另一种是离线收集人类反馈，即从已有的人类对话记录中提取生成文本和人类反馈，用于奖励模型的训练和模型参数的微调。

最后使用近端策略优化（Proximal Policy Optimization，PPO）微调初始 LM 的部分或全部参数。PPO 算法确定的奖励函数具体计算如下：将提示输入初始 LM 和当前微调的 LM，分别得到了输出文本，将来自当前策略的文本传递给 RM 得到一个标量的奖励，将两个模型的生成文本进行比较，计算差异的惩罚项。在每个训练批次中，这一项被用于惩罚 RL策略生成的文本大幅偏离初始模型，以确保模型输出合理连贯的文本。最后根据 PPO 算法，我们按当前批次数据的奖励指标进行优化。PPO 算法是一种信赖域优化（Trust Region Optimization，TRO）算法，它使用梯度约束确保更新步骤不会破坏学习过程的稳定性。

ChatGPT 训练流程

04 模型部署和应用

经训练后获得的模型，或换句话说就是训练得到的权重和偏置矩阵等，则可以部署到所需的应用系统中并对外提供服务。OpenAI将模型部署在微软的Azure云上后，围绕该模型设计，应用了账户、计费、用户界面等模块，同时开放了API接口，形成了我们日常所接触的ChatGPT。从下图的接口示例可以看到，该接口使用起来非常简单（与OpenAI网站的Playground页面内容一一对应）。

ChatGPT是在大量语料上训练出来的语言模型。通过综合提炼这些语料上的语言上下文模式，它能很好地根据输入，预测下一个词或下一段话。也即它能通过提示语，生成回答。对比之前其他NLP模型，GPT有一个重要的设计目标是要在不针对特定任务进行微调的情况下，尽可能地提高模型的泛化能力，从而能在多个NLP任务中实现更好的表现。OpenAI的实验表明，通过利用指令（instruction）和示例（shot），ChatGPT已经能很好地实现这个目标。另一方面，OpenAI通过分析数百万行现有的代码和文档，训练了Codex模型，学习编程语言的语法和编程模式。Codex模型学习了许多逻辑分析和处理的内容，被认为可能是引发了ChatGPT思维链（CoT）的主要原因。通过综合运用指令、示例和思维链，我们可以让ChatGPT产生更有意思的回答。

AI在金融营销领域的应用

AI在金融领域早有过不少成功实施的先例。ChatGPT引起的这次AIGC浪潮，以内容生成为其主要特征，将在金融领域各个需要生成内容、使用内容、核对内容的地方获得各种应用。例如，在金融营销领域，AIGC可以辅助生成营销材料；在投资者教育领域，AIGC可以生成专门针对投资者的金融教育材料；在社群运营领域，AIGC可以辅助快速生成回复等等。

以金融营销领域为例，面对市场快速变化，基金公司需要及时发布、更新相关营销资料。但基金客户对基金产品的认识理解差异大，千人一面的营销材料难以获得投资者的广泛认可；基金产品介绍涉及的数据、内容有高度的专业性要求，快速响应的营销动作容易出现差错；投资者适当性需要贯彻整个营销过程，片面追求营销效果容易导致出现合规性问题。在此背景下，提升营销效率和精度的重要性日益显现。

基金行业的精细化营销可以从以下方面切入：以单客户画像为核心实施个性化策略；精准匹配基金标签和客户需求；高命中低频次客户需求；根据不同客户特性和画像推出多版本营销话术，以期达到营销方案快速测试、精准客户触达、精准效果营销。为此，道乐科技推出“乐创”产品以赋能基金公司解决上述痛点。

乐创平台是一款基于人工智能技术的金融营销内容创作平台，旨在帮助金融机构提升内容创作效率和内容质量，实现智能化生成文字和图片等内容。

在乐创中，营销人员可以根据不同的应用场景制定相应的工作台，如产品宣传、新基金发售、基金经理介绍、营销活动策划、投资者教育专栏等。在每个应用场景下，乐创均内置对应场景的输入数据，用户只需要轻松地配置所需内容即可高效地输出针对不同需求的营销内容，以帮助金融机构更精准和有效的营销。

以持营基金内容营销宣传为例，用户只需要根据页面指示选择需要宣传的基金、指定面向的受众、需要结合的时事热点，以及配置输出的规则，如内容人设、文本长度和文本数量等。

同时，在选择基金后系统还会自动调用道乐金融营销数据库中关于该基金的信息，如在不同统计范围之内的业绩表现、最大回撤、基金经理、同类排名以及投资主题。

用户可以按不同营销场景的需要，择优选取关键营销内容，免去在数据平台和内容创作平台之间数据来回复制的麻烦。

金融机构往往同时面对多个目标客户群体，如零售客户、机构客户、高净值客户等，需要为每个群体创作不同类型的内容。但由于资源和时间有限，很难同时保证每个群体的内容都能够得到充分的关注和投入。

乐创的另一大特色是可以内置多个用户画像，通过一下点击切换目标客户群，调整营销内容的输出。

除了内置的画像，还可以自定义创建无数用户画像，只需要输入性别、年龄层即可对客户进行精细化分类，还可以对用户痛点进行设置，让 AI 输出的结果更有针对性，以达到提升转化率的效果。

基金营销往往与时下政策热点、投资热点相关，运营人员需要在不同平台资讯中来回翻找可供参考的信息，还要抽象和提炼内容的观点，无疑十分费时费力。为此，乐创整合多个财经平台资讯供用户搜索和参考。只需选取相关的热点标题，乐创即会在后台进行观点提炼，帮助用户节省时间和精力。同时，乐创还根据每一只基金进行相关热点匹配，方便用户筛选。

经过简单的配置和输入后，乐创会根据输入的要求瞬间生成多个符合要求的结果，用户可以根据不同的结果进行复制、收藏以及调优。

金融领域的内容营销必须符合监管规定和保证信息安全，并且对表达专业性也有要求。因此，乐创会自动为每一条结果进行效果预测、受众分析和智能风控，以降低内容审核所需的额外时间及成本，以及向不同受众准确地传达可信实用的信息。

上述是用户如何通过乐创快速批量生产营销短文案的说明。而基金公司除了短文案的生产，往往也需要深度的长文案输出。以下则通过“指数投资价值分析”案例介绍如何在乐创中智能输出长文案。

在乐创中，用户只需要通过两大步骤即可输出一篇长文案：配置主题和审核调整。

（1）配置主题。以“指数投资价值分析”为例，用户需要选取需要分析的产品品类（本例中为“指数”），然后选择具体标的（如“中证全指信息技术指数”），乐创即会在后台生成智能大纲（下左图）。用户通过修改大纲内容确定最终内容输出的框架，以控制输出的内容，本例中“指数投资价值分析”的框架是“指数简介”“指数成分分析”“指数业绩分析”“指数估值表现”“与最新政策热点结合”和“与当前热点的结合”。（下右图）

（2）审核调整。乐创会根据智能大纲补充相关细节，用户在输出后只需要审阅、调整输出的内容。在此步骤中，乐创提供了先进的自然语言处理（NLP）技术，对生成的内容进行文本审核，包括语法、拼写、句法等方面的检查，避免因为文本错误导致内容质量下降；进行自动优化，包括调整词汇、句子结构、段落结构等，以提高文章的整体质量和流畅性；进行语义分析，保证内容的逻辑性和通顺性，避免产生歧义或不通顺的内容；进行可读性分析，分析文章的段落长度、句子长度、使用词汇、句子结构等，提供具体的改进建议，以提高文章的易读性和可懂性。如用户对段落或句子仍不满意，还可以使用乐创的智能改写工具进行修改 —— 只需要告诉 AI 想怎样修改即可，大大降低内容创作成本。

同时，乐创集成了道乐金融营销数据库中的内容，拥有强大的金融数据调取能力，用户可以根据不同的场景需求插入不同的金融图表。

总之，乐创是一款基于人工智能的全方位金融营销内容创作解决方案，可以帮助金融机构实现智能化服务和个性化营销，提高市场竞争力和业务盈利能力。

参考文献[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.[2] Brown T, Mann B, Ryder N, etal. Language models are few-shot learners[J]. Advances in neural information processing systems, 2020, 33: 1877-1901.[3] Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in Neural Information Processing Systems, 2022, 35: 27730-27744.[4] OpenAI. GPT-4 Technical Report. OpenAI, 2023.

作者简介：蔡树彬，中山大学计算机专业学士、博士。目前担任道乐科技技术总监，深圳移动互联网应用中间件技术工程实验室主任。