首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多特征融合加权的微博文本立场检测方法 

申请/专利权人:上海海事大学

申请日:2020-10-10

公开(公告)日:2024-05-14

公开(公告)号:CN112214991B

主分类号:G06F40/216

分类号:G06F40/216;G06F40/242;G06F40/284;G06F18/25;G06F16/35

优先权:

专利状态码:有效-授权

法律状态:2024.05.14#授权;2021.01.29#实质审查的生效;2021.01.12#公开

摘要:本发明公开了一种基于多特征融合加权的微博文本立场检测方法,包含:S1、根据指定话题采集相应话题下的所有评论文本,将所有评论文本汇聚于数据集中;S2、对步骤S1中的数据集中的评论文本进行预处理操作;S3、计算步骤S2中所得的每个评论文本的词语的重要性standardx,提取每个评论文本的特征词;S4、提取每个评论文本中的情感词,将所述情感词与步骤S3中的特征词共同作为原文本,对所述原文本进行词向量映射;S5、将步骤S4所得的数据输入SVM分类器以判断目标文本情感极性倾向。其优点是:该方法通过考虑多个方面的属性特征计算词语的权重,筛选出具有更强意义的特征词,从而提高情感立场倾向检测的准确性,提高对大众舆情事件的响应速度。

主权项:1.一种基于多特征融合加权的微博文本立场检测方法,其特征在于,包含:S1、根据指定话题采集相应话题下的所有评论文本,将所有评论文本汇聚于数据集中;S2、对步骤S1中的数据集中的评论文本进行预处理操作;S3、计算步骤S2中所得的每个评论文本的词语的重要性standardx,提取每个评论文本的特征词;S4、提取每个评论文本中的情感词,将所述情感词与步骤S3中的特征词共同作为原文本,对所述原文本进行词向量映射;S5、将步骤S4所得的数据输入SVM分类器以判断目标文本情感极性倾向;所述步骤S3中,根据词语权重公式计算每个评论文本的词语的重要性standardx;所述步骤S3中的词语权重公式的构造方式包含:S31、统计数据集中各词语词频,使用对数函数对词频值进行映射,通过公式1合理化词频对特征词提取时的影响, 其中,wordfrequencex函数表示在对词语x的绝对词频采用对数函数降频后的词频值,d表示总文本数,ki表示词语x在评论文本i中的词频;S32、根据公式2计算词语在不同类间的平均信息熵entropyx, 其中,entropyx表示词语x的类间平均信息熵,C取类别数,pix表示词语x出现在某一类别的概率,根据公式3由平均信息熵entropyx转换为权重加权值importancex,importancex=1-entropyx3;S33、根据公式4对词语的词长权重lengthx做出修正,lengthx=true_lengthxα4,其中,true_lengthx表示词语的实际长度,α表示当前数据集下词长种类的中位数;S34、根据公式5构造词语的词频特征frequencex, 其中,N表示总评论文本数,Nx表示包含词语x的评论文本数;S35、结合步骤S31~S34构造特征提取的词语权重公式,所述词语权重公式为:standardx=frequencex*importancex+lengthx6。

全文数据:

权利要求:

百度查询: 上海海事大学 一种基于多特征融合加权的微博文本立场检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。