一种基于深度学习和辅助特征的短文本立场检测方法

导航：龙图腾网> 最新专利技术> 一种基于深度学习和辅助特征的短文本立场检测方法

申请/专利权人：四川乐为科技有限公司;西华大学

申请日：2022-07-06

公开（公告）日：2024-05-14

公开（公告）号：CN115146031B

主分类号：G06F16/33

分类号：G06F16/33;G06F16/335;G06F16/35;G06N3/0464

优先权：

专利状态码：有效-授权

法律状态：2024.05.14#授权;2022.10.25#实质审查的生效;2022.10.04#公开

摘要：本发明提供一种基于深度学习和辅助特征的短文本立场检测方法，包括步骤1：对从互联网当中所获取到的用户所发表的短文本数据进行预处理；步骤2：辅助特征提取层主要使用SVM开发基于统计机器学习的方法；步骤3：词嵌入；步骤4：词编码层；步骤5：多头注意力层；步骤6：辅助特征连接层；步骤7：softmax层在特征连接融合之后得到新的句子表示M′进行立场检测得到短文本的立场类型，通过softmax函数得到最终立场类型。并且使用二元交叉熵损失函数对模型进行训练。本发明适用于互联网当中的所有短文本信息，具有很强的普适性。并且在训练集足够丰富的情况下，可以对任何种类的短文本进行精准的立场分类处理。

主权项：1.一种基于深度学习和辅助特征的短文本立场检测方法，其特征在于，包括以下步骤：步骤1：对从互联网当中所获取到的用户所发表的短文本数据进行预处理；步骤2：辅助特征提取层使用SVM开发基于统计机器学习的方法，方法中使用了以下手工提取的特征：1语义特征；2情感特征：3其他特征：1语义特征：模型中使用LIWC字典来获取语义信息；将短文本中的每个单词提取取出并在LIWC词典中查找，将每种类型的单词数设置为立场检测的语义特征，LIWC词典中包含有64种不同的词汇类别，被分为3类：语言过程，心理过程，个人关注；2情感特征：立场是用户表达对一个目标的态度和观点，以下几个用于立场检测的情感相关特征：肯定词否定词：短文本中是否至少有一个词是肯定的，没有否定词，反之亦然；肯定标点符号否定标点符号：这个特征表示是否存在至少一个肯定词而没有否定词的句子，反之亦然；句子中的连续几个感叹号表示对句子的肯定，而问号表示疑问；3其他特征：还提取了短文本中的其他特征：转发次数和点赞数，用户是否是公众人物；步骤3：词嵌入；模型采用通过在维基百科上训练好的Word2Vec模型进行文本向量化表示；模型中，将给定一个包含n个单词xi的短文本T作为输入，对于T中的每个词，模型首先查找嵌入矩阵其中v是固定大小的词汇表，d是词嵌入的大小；E是通过预训练的词嵌入向量化；每个单词xi都将被转换成一个向量表示wi；短文本T是以下形式的单词序列：T＝w1,w2,···,wnT1步骤4：词编码层；在该层中，模型采用Bi-GRU进行词编码，GRU具体的步骤和计算公式如2-5所示：rt＝σWr[ht-1,xt]2ut＝σWu[ht-1,xt]3 其中，rt、ut分别代表着重置门和更新门，Wr、Wu、W表示GRU网络权重矩阵，σ、tanh表示激活函数，符号表示Hadamard的乘积，h′t和ht表示隐藏状态，ht-1表示上一时间段的隐藏状态；模型MHA-BiGRU词编码层中，采用Bi-GRU进行建模，每个词都是通过对短文本中两个方向，即前向和后向的上下文信息来实现的，这两个方向中的GRU处理信息的所采用的方法过程是一样的，只是处理这些信息时的方向不同；在Bi-GRU中，该模型采用表示网络从前向后获取文本特征信息的隐藏向量，具体通过公式6计算，表示网络从后向前获取文本特征信息的隐藏向量，具体通过公式7计算；由公式6和公式7得到两个方向不同的隐藏向量后通过公式8得到Bi-GRU的最终隐藏向量；以上的过程帮助模型获得了短文本中每个单词的所有表示，短文本的表示如公式9所示：H＝h1,h2,···,hn9步骤5：多头注意力层；每个词在多个因素中被赋予适当的重要性，以表示短文本中的整体语义：X＝tanhW1HT10Y＝softmaxW2X11多头注意力层采用整个隐藏状态H作为输入并将其与相乘W1，然后将输出传递给tanh函数得到X，为了从不同的因素中提取每个组件的注意力，将X乘以W2,然后传递给softmax以计算不同头部归一化的权重，从而得到权重向量Y；W1、W2表示参数；G＝YH12最后，将隐藏状态H与权重向量Y相乘，并计算注意力的加权和，得到一个新的短文本嵌入矩阵G；步骤6：辅助特征连接层；为语料库中给定的短文本提取了语义信息、情感信息以及其他手工特征值参考步骤2后，使用这些辅助特征值F，将其与多头注意力层嵌入的句子表示G相结合，生成新的句子表示，如公式13所示；其中，表示向量之间的拼接；步骤7：softmax层在特征连接融合之后得到新的句子表示M′进行立场检测得到短文本的立场类型，通过公式14的softmax函数得到最终立场类型；并且使用二元交叉熵损失函数对模型进行训练，如公式15所示；其中，表示预测的立场分类的概率，Wp和b分别表示权重和偏差；m表示类别标签的数量，Py表示第y个类别的类标签，表示第y个类别的预测概率。

全文数据：

权利要求：

百度查询：四川乐为科技有限公司;西华大学一种基于深度学习和辅助特征的短文本立场检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：电池的装配结构、圆柱电池、电池模组和电池包

下一篇：一种用于3C零件组装的点胶设备

相关技术

电池的装配结构、圆柱电池、电池模组和电池包

一种用于3C零件组装的点胶设备

一种单因子加药泵回水安全阀

一种防滑型无纺布的裁剪装置

一种螺旋输送装置

一种零部件加工的表面喷漆装置

一种脱模剂集中供料装置

一种可移动式智能温控糖化槽生产线

一种叠加机

一种家用温湿度传感器

一种安装工具

一种圆管弯曲成型装置

短相关技术

一种短边无A面组件边框_一道新能源科技股份有限公司_202322761716.0

短睡眠时长计算方法、装置和车辆_长城汽车股份有限公司_202410357464.1

一种大尺寸低稀土高强镁合金挤压材短流程制备方法_太原科技大学_202410437007.3

一种上拉式短肢悬挑承力架_四川省铁路建设有限公司_202322741732.3

一种能够缓解便秘的短双歧杆菌及其应用_善恩康生物科技(苏州)有限公司_202410676683.6

一种短应力轧机复合铜螺母的制造方法及其制造设备_上海米右智能科技有限公司_202410382120.6

环修饰的脯氨酸短肽化合物及其应用_福建广生中霖生物科技有限公司_202410386257.9

一种短肽偶联药物及其制备方法和应用_常州市智态生创科技有限公司_202311385577.4

短双岐杆菌、微生态制剂及其在抗抑郁中的应用_善恩康生物科技(苏州)有限公司_202410676690.6

一种方钢管混凝土短柱轴压承载力预测方法_长安大学_202410347872.9

特征相关技术

声纹特征存储方法、声纹特征匹配方法、装置及电子设备_中信银行股份有限公司_202011268559.4

实时特征的处理方法及装置_中国工商银行股份有限公司_202410542367.X

使用镜片特征的身份认证_创新先进技术有限公司_202080009328.3

确定图像特征的方法和装置_北京地平线机器人技术研发有限公司_201910520908.8

一种语音声学特征扩大系统_西安交通大学_201811443497.9

用户特征信息的处理方法和装置_北京百度网讯科技有限公司_202011037919.X

基于极化散射特征的海面微弱目标检测方法_南京工业大学_202310031826.3

图像特征的传输方法、装置和系统_中国电信股份有限公司_202110339533.2

用于自行车轮辋的轮胎保持特征_什拉姆有限责任公司_202011438978.8

基于分组特征分析的指纹活性检测方法_三峡大学_202410219254.6

文本相关技术

文本识别模型训练方法、文本识别方法、装置及存储介质_北京百度网讯科技有限公司_202310019561.5

编码器优化的文本渲染_安讯士有限公司_202311785952.4

文本情感分析方法和装置_北京百度网讯科技有限公司_202110818598.5

文本处理方法及装置_华为技术有限公司_201911335070.1

文本识别方法和装置_深圳市星桐科技有限公司_202210660171.1

一种文本标注方法及软件产品_深圳思为科技有限公司_202111408204.5

识别图像中文本的方法、装置和系统_华为技术有限公司_201911391341.5

文本信息的确定方法及电子设备_联想(北京)有限公司_202410323963.9

文本识别方法、装置、设备及存储介质_深圳市星桐科技有限公司_202210661531.X

一种文本生成方法及装置_北京深言科技有限责任公司_202410250261.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于深度学习和辅助特征的短文本立场检测方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务