首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于目标信息识别的用户生成内容立场检测方法及系统 

申请/专利权人:哈尔滨工业大学

申请日:2024-03-26

公开(公告)日:2024-05-24

公开(公告)号:CN118070774A

主分类号:G06F40/194

分类号:G06F40/194;G06F40/242;G06F40/216

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.06.11#实质审查的生效;2024.05.24#公开

摘要:一种基于目标信息识别的用户生成内容立场检测方法及系统,涉及社交网络数据处理技术领域。本发明为了解决现有的用户生成内容立场检测或识别方法需要花费大量人工成本去标注目标信息,并且仅有的类似方法在目标识别阶段往往需要大规模数据对模型进行训练或微调,导致样本数据质量会直接影响目标识别的性能和准确率的问题。技术要点:首先从给定社交媒体文本中抽取出具有代表性的关键词;然后通过余弦相似度计算关键词与目标集合中特定目标之间的相似度,并根据相似度将确定文本所针对的目标对象;最后基于识别出的目标对象,采用多任务BERTweet模型来检测文本与该目标对象之间的立场关系。本发明所提出的基于目标信息识别的用户生成内容立场检测方法可有效减少人工成本,从而提高了立场检测方法在实际应用中的可行性和实用性。

主权项:1.一种基于目标信息识别的用户生成内容立场检测方法,其特征在于,所述方法的实现过程包括如下步骤:步骤1、对用户生成内容数据进行预处理,包括进行数据清洗和网络用语转化,得到预处理的用户生成内容数据;步骤2、利用预处理的用户生成内容数据,进行fastText模型的预训练,以获取高质量的词向量;在训练阶段,采用skipgram模型,通过随机选择的邻近词汇来进行目标词汇的预测;步骤3、使用轻量级无监督关键词抽取方法YAKE抽取用户生成内容中的关键词,并随后通过这些关键词的引导,挖掘内容中所涉及的目标对象;YAKE算法综合考虑下述五种文本特征,包括大小写特征WCase、词汇位置特征WPosition、词频特征WFrequence、上下文关系特征WRelation以及词汇句频特征WSentence,YAKE算法为每个候选单词计算相应的权重,实现对用户生成内容关键词的筛选和提取;步骤4、获取关键词集合之后,根据预训练好的fastText模型获取关键词以及目标信息的词向量,并使用余弦相似度计算关键词与目标信息的相似度,并选取具有最高相似值的目标信息作为当前文本的针对性目标;步骤5、通过对原始BERTweet模型的架构进行扩展,具体为:在模型训练过程中使用了多任务学习,在立场检测任务的基础上,引入了目标预测任务,两种任务共享一套模型参数,以使该模型能够更有效地聚焦于用户生成内容中与特定目标对象相关的文本特征;使用多任务BERTweet模型通过识别用户生成内容的针对性目标信息,进行立场检测。

全文数据:

权利要求:

百度查询: 哈尔滨工业大学 一种基于目标信息识别的用户生成内容立场检测方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。