首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于DEA-GBDT的辟谣信息发布有效性识别方法 

申请/专利权人:湖南工商大学

申请日:2024-04-01

公开(公告)日:2024-06-25

公开(公告)号:CN118245879A

主分类号:G06F18/241

分类号:G06F18/241;G06F18/214;G06F18/213;G06F18/27;G06N3/126

优先权:

专利状态码:在审-公开

法律状态:2024.06.25#公开

摘要:本发明涉及信息识别技术领域,具体公开了基于DEA‑GBDT的辟谣信息发布有效性识别方法,用以解决现有的辟谣信息发布有效性识别困难及如何提高辟谣信息发布有效性的问题。其实现方法为:数据集准备与预处理;构建辟谣信息发布有效性影响因素指标体系,并使用机器学习算法对指标进行测量;构建数据包络分析模型DEA,综合评价单个决策单元,即对单条辟谣信息的效率进行分类;采用斯皮尔曼相关系数、距离相关系数、岭回归模型、随机森林模型这4种方法进行集成特征选择,选择出最具代表性和预测能力的特征,本发明提出的DEA‑GBDT模型能够充分利用辟谣信息的原始数据特征,能较好地识别用户提供的辟谣信息的有效性,对非有效辟谣信息提出改进建议。

主权项:1.基于DEA-GBDT的辟谣信息发布有效性识别方法,其特征在于:包括以下步骤:步骤一:数据集准备,从各社交媒体网站上获取到辟谣信息数据;步骤二:数据预处理,对收集到的样本数据进行缺失值、异常值处理后,采Z-score标准化处理数值型数据,采取独热编码的方法处理类别型数据,得到预处理后的数据矩阵;Z-score标准化能够将不同量级的辟谣信息数据转化为统一量度的Z-score分值,使得数据标准统一化,从而达到提高辟谣信息数据可比性目的,Z-score标准化的公式如式1所示; 其中Z*是由原始数据Z标准化后的数据,μ和σ分别为Z的均值与标准差;步骤三:特征提取,对样本数据集进行特征提取分为两个部分;提取辟谣信息发布有效性综合评估特征和影响辟谣信息发布有效性特征;步骤四:构建DEA模型,综合评价决策单元即单条辟谣信息的效率分类;步骤五:特征选择,将样本数据按照7:3的比例划分训练集和测试集,以辟谣信息发布有效性的影响指标体系为自变量,辟谣信息发布有效性的DEA分类作为因变量;采用斯皮尔曼相关系数、距离相关系数、岭回归模型、随机森林模型这4种方法进行集成特征选择;步骤六:训练DEA-GBDT模型,将特征选择后的特征作为自变量存入样本特征向量集合中,辟谣信息发布有效性DEA分类结果为标签,训练一个DEA-GBDT模型;步骤七:DEA-GBDT模型优化,由于辟谣信息发布有效性的正负样本很可能分布不均衡,因此采用过采样算法对训练数据进行重采样,将产生的新样本添加到训练数据集中,以平衡数据集类型,采用超参数优化算法对模型参数进行优化,将最优的参数保存,从而得到最优的辟谣信息发布效果评估模型;步骤八:DEA-GBDT模型评价,使用测试集样本验证最优参数的模型性能;采用准确率、精确率、召回率、F1得分和ACU值这些指标对优化后的DEA-GBDT模型的推广性能及分类性能进行评价;步骤九:根据用户给出的辟谣信息文本及用户信息,运用训练过的DEA-GBDT模型对辟谣信息有效性进行评估,系统识别得分较低的辟谣信息,分析其语法、语义、文本、辟谣策略这些特征,找出问题所在,对非有效辟谣信息提出改进建议。

全文数据:

权利要求:

百度查询: 湖南工商大学 基于DEA-GBDT的辟谣信息发布有效性识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。