买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国科学院计算技术研究所
摘要:本发明提出一种引述句和辟谣模式句引导的“谣言‑辟谣文章”匹配方法及系统。通过引导模型行为,使其更加关注辟谣文章中带有“引述”和“辟谣模式”成分的句子,实现考虑到辟谣文章特点的“谣言‑辟谣文章”匹配程度评分。具体地,本发明通过使用文字相似度指标精调神经网络模型增强引述句的发现能力,通过引入模式向量增强辟谣模式句的发现能力,从而使模型关注到含有引述成分和辟谣模式的关键句子,过滤掉辟谣文章中大部分无关句子,最终实现高效准确的“谣言‑辟谣文章”匹配。
主权项:1.一种引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法,其特征在于,包括:步骤1、将待测消息q和其对应辟谣文章d中的l个句子S={s1,s2,…,sl}分别组成包含待测消息q和辟谣句si的l个待测对,并将该l个待测对拼接后输入至嵌入表示层,得到残差嵌入表示rs,q;步骤2、分别计算待测对的匹配得分scrQq,s和模式-辟谣句的匹配得分scrPq,s,并得出s对q的重要性得分scrq,s;步骤3、对待测消息q和辟谣文章中所有句子S的重要性得分进行排序,选取得分最高的前k句作为关键句将待测消息q和关键句构成的信息对分别输入第一变换器模块,得到联合表示之后采用第二变换器模块获取的精细表示向量q'和skey′;步骤4、选择辟谣模式向量库中与q和skey残差嵌入表示距离最近的辟谣模式向量mu,拼接q'、skey′和mu,得到拼接向量vi;步骤5、对所有关键句对应的拼接向量进行加权求和后输入全连接神经网络,其中每个拼接向量的权重为归一化之后的重要性得分,全连接神经网络输出结果作为待测消息q和辟谣文章d的匹配度得分根据该匹配度得分判定该辟谣文章d是否匹配该待测消息q;该步骤1包括:将该l个待测对与分类保留字[CLS]和分隔保留字[SEP]拼接后,输入嵌入表示层,将得到的残差嵌入表示rs,q输入第一变换器模块,得到q和s的联合表示:zq,s=Transformer[CLS]q[SEP]s提取zq,s中[CLS]对应的向量zq,s[CLS],并输入全连接神经网络Dense1,得到文本相似度估计向量 对该估计向量,使用文本相似度指标Rq,s作为监督信号,计算如下损失函数: 其中,是文本相似度指标得分,Δθ代表Transformer模块的参数变化量,λR是代表约束程度的常数;根据该损失函数对该第一变换器模块的权重参数进行调整;对每一对q和s,计算两者的残差嵌入表示rs,q:rs,q=AvgTokens-AvgTokenq其中AvgToken为词项嵌入表示的平均值,并只保留二范数在一定范围区间内的残差嵌入表示,即满足条件:tlow<||rs,q||2<thigh其中tlow和thigh是常数;对符合上述条件的残差嵌入表示进行向量聚类,聚类得到的K个聚类中心向量即初始辟谣模式向量,记为m1,m2,…,mK,并将上述向量保存到该辟谣模式向量库中。
全文数据:
权利要求:
百度查询: 中国科学院计算技术研究所 引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。