【IEEE】基于敏感信息主题的大数据情感分析方法

2020-05-17

摘要

随着Internet的迅猛发展，越来越多的用户通过Internet表达了自己的看法。因此，文本的大数据是在Internet上生成的。在大数据时代，通过自然语言处理技术挖掘互联网上海量文本所包含的情感倾向已成为舆论监督的重要方式。本文提出了一种基于敏感信息主题的大数据情感分析方法。该方法通过神经网络模型将主题语义信息集成到文本表示中。将注意力机制引入神经网络，并引入上下文感知向量来计算每个单词的权重。另外，为了使模型更具适应性，使用情感词典标注的方法来获得训练数据。实验结果表明，该模型可以有效提高情感分析结果的准确性。

核心内容

基于敏感信息主题的情感分析模型可以对大量文本敏感信息主题进行情感分析，以实现舆论监督和指导。本文提出了一种基于敏感信息主题的情感分析模型（SITSAM），它将敏感信息的主题描述整合到文本表示学习模型中。同时，引入了上下文感知注意机制来增加情感词对句子情感分类的贡献。

基于敏感信息主题的情感分析模型（SITSAM）如下图所示。

模型的输入包括两部分：左侧是句子中包含的单词{}，右侧是是敏感信息主题词。本文采用word2vec模型获得词向量。在传统递归神经网络模型的参数训练过程中，梯度逐渐减小直到消失，从而限制了序列数据的长度。LongShortTermMemory（LSTM）通过引入输入门i，输出门o，遗忘门f和记忆单元克服了梯度消失的问题。本文选择LSTM作为句子表征的基本训练模型。在传统的递归神经网络模型中，信息只能向前传播，导致时间t的状态只依赖于时间t之前的信息，为了使每个时刻都包含上下文信息，采用双向递归神经网络（BiRNN）和LSTM单元相结合的BiLSTM来获得句子的表示。双向长短期存储器网络的结构如下图所示。BiLSTM可以捕获文本信息更新，其正向传播在X1->Xn方向，反向传播在Xn->X1方向。Xi表示句子中的第i个单词。沿两个方向的隐藏层输出被连接为最终的隐藏层输出：

为了使词条和主题词在句子中映射到相同的向量空间，使用Siamese BiLSTM网络进行训练。Siamese BiLSTM网络的思想是在两个BiLSTM网络之间共享权重。为了将主题词的意义合并到每个词中，使用平均池来聚合主题词的所有隐藏层输出，以生成主题,计算如下：

然后，将与每个单词的输出连接起来，以获得最终的隐藏层每个单词的输出：

对于情感分析任务，情感词通常比非情感词更重要，这通常确定句子的情感倾向。为了更好地估计每个单词的重要性，引入了上下文感知向量来计算每个单词的权重：

其中，c是句子中每个单词的隐藏层状态的平均值。

注意权重通过以下计算获得：

其中，W表示注意层的权重向量，b表示偏移向量。最后，句子向量表示为：

“最后一层是softmax层，它将文本表示纳入softmax函数，以计算文本情感倾向的概率y。”

Abstract

With the rapid development of the Internet, more and more users expressed their views on the Internet. Therefore, the big data of texts are generated on the Internet. In the era of big data, mining the sentiment tendencies contained in massive texts on the Internet through natural language processing technology has become an important way of public opinion supervision. In this paper, the sensitive information topics-based sentiment analysis method for big data is proposed. This method integrates topic semantic information into text representation through a neural network model. The attention mechanism is introduced into the neural network, and context-aware vector is introduced to calculate the weight of each word. In addition, in order to make the model more adaptable, the method of sentiment dictionary tagging is used to obtain the training data. The experimental results show that the proposed model can effectively improve the accuracy of sentiment analysis results.