首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于TF-IDF与模糊贝叶斯网络的风险预测方法_电子科技大学_202111030602.8 

申请/专利权人:电子科技大学

申请日:2021-09-03

公开(公告)日:2024-06-21

公开(公告)号:CN115115159B

主分类号:G06Q10/0635

分类号:G06Q10/0635;G06Q50/26;G06N7/01;G06F16/951;G06F40/216;G06F40/284

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2022.10.18#实质审查的生效;2022.09.27#公开

摘要:本发明公开了一种基于TF‑IDF与模糊贝叶斯网络的风险预测方法,涉及信息检索、数据挖掘和突发事件预测评估技术领域,该方法包括利用网络爬虫技术获取突发事件舆情数据;采用TF‑IDF文本分析技术获取突发事件影响因素,并结合突发事件生命周期演化模型构建突发事件指标体系;根据指标体系确定模糊贝叶斯网络拓扑结构,依据模糊理论、自然语言变量和解模糊法获取模糊贝叶斯网络拓扑结构父节点的先验概率分布;最后通过模糊贝叶斯网络推理技术预测突发事件的风险概率,为相关部门制定应急方案提供科学、合理的先发性预警支撑。

主权项:1.一种基于TF-IDF与模糊贝叶斯网络的风险预测方法,其特征在于,该方法包括以下步骤:步骤1:数据获取,在所述数据获取阶段,借助网络爬虫技术利用数据采集器获取突发事件在社交媒体平台的相关发帖内容,新闻报道以及网民对帖子转发数和评论数和点赞量的数据信息,综合得到突发事件的网络舆情数据;步骤2:将步骤1获取的突发事件的网络舆情数据进行文本分析,确定突发事件的特征因素,具体步骤如下:步骤2.1:由研究突发事件的领域专家确定提取关键词指标点,初步总结经步骤1获取的贴文内容和评论中的突发事件关键词,其中指标点包括:文本数据中出现的重复词;文本数据中人物名称和时间和地点;文本数据中体现态度情感词汇;以及文本数据中体现相关部门决策行为和相关部门名称词汇;步骤2.2:利用TF-IDF算法对所述突发事件的网络舆情数据进行特征提取,得到特征项,对比并总结步骤2.1中总结的突发事件关键词和TF-IDF算法得到的特征项,确定突发事件的特征因素,其中TF-IDF算法包括:1TF-IDF中TFTermFrequency表示词频,表示某个词在文档中出现的次数,为减少文档词数差异对结果造成的误差,词频归一化表示为: 其中,tfi表示词i归一化处理后的值;Ni,d表示词i出现在文档d中的总次数;表示文档d中全部词语的个数,n表示词总数;2TF-IDF中IDFInverseDocumentFrequency表示逆文档频率,当突发事件语料库包含词i的文档少时,词i区分文档类别效果好,计算词i的逆文档频率表示为: 其中,|D|表示突发事件语料库中文档总数,|{j:i∈dj}|表示包含词i的文档数,i∈dj表示词i属于突发事件语料库中第j个文档dj;3TF-IDF值表示区分类别的效果,TF-IDF值表示为:tf_idfii=tfii×idfii;步骤3:通过步骤2提取的突发事件的特征因素以及查阅以往同型事件发展特点确定突发事件生命周期演化模型,将所述突发事件的生命周期分为阶段1-阶段5共5个阶段;步骤4:通过步骤3构建的突发事件生命周期演化模型各阶段特点和步骤2获取的突发事件的特征因素,确定驱动突发事件态势变化的影响因素,从八个不同角度细化分析建立三级指标体系,所述三级指标体系从上至下依次表示为:一级指标点为突发事件风险预测,二级指标点为代表驱动突发事件态势变化的八个不同角度,三级指标点表示突发事件的影响因素;步骤5:根据步骤4建立的三级指标体系,确定关于突发事件模糊贝叶斯网络拓扑结构,该结构包含基本单位父节点、链接父节点与目标节点的中间节点和网络最终推理结果的目标节点,所述三级指标体系中三级指标点作为模糊贝叶斯网络拓扑结构的父节点,二级指标点作为模糊贝叶斯网络拓扑结构的中间节点,一级指标点作为模糊贝叶斯网络拓扑结构的目标节点;步骤6:引入语言评价等级描述变量,研究突发事件的领域专家依照语言评价等级描述变量,对步骤5构建的关于突发事件模糊贝叶斯网络拓扑结构中表示突发事件的影响因素的父节点进行评价,根据模糊理论知识确定自然语言变量分别为:“非常高VH”、“高H”、“偏高FH”、“中等M”、“偏低FL”、“低L”、“非常低VL”七个自然语言变量,用于表示领域专家对突发事件影响因素评价的程度倾向指标;步骤7:由步骤6确定的自然语言变量,研究突发事件的领域专家评价获得模糊语言:根据德尔菲法,研究突发事件的领域专家对突发事件的影响因素进行M轮匿名评价和筛选后确定领域专家评价结果;步骤8:利用积分值法对步骤7确定的领域专家评价结果解模糊化处理以得到模糊语言的量化值,将模糊语言的量化值进行均值化和或归一化操作后确定关于突发事件模糊贝叶斯网络拓扑结构中父节点的先验概率分布,用于关于突发事件模糊贝叶斯网络拓扑结构推理计算目标节点概率,具体地:模糊理论中截集表示模糊向清晰的转换过程,为量化领域专家评价结果,建立由步骤6确定的自然语言变量与模糊数与截集的量化关系表,截集参数为λ,模糊概率均值化其中表示第i′个事件发生的模糊概率,Ai′k表示第k个专家对第i′个事件评价的模糊值,n″代表事件个数;积分值法解模糊化获得准确概率计算公式为:其中p表示模糊概率,Ip表示解模糊化值,表示乐观系数,μkp,μrp分别表示左右隶属函数积分值,μkp,μrp的λ截集表达式如下: 其中,表示λ截集的下界,表示λ截集的上界;λ取值为0,0.1,0.2,…,1;Δλ取值为0.1;步骤9:根据步骤8计算结果Ip得到关于突发事件模糊贝叶斯网络拓扑结构中父节点的先验概率分布,将其输入GeNIe软件中推理计算以突发事件发生风险为目标节点的概率,进而得到突发事件的风险等级。

全文数据:

权利要求:

百度查询: 电子科技大学 基于TF-IDF与模糊贝叶斯网络的风险预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。