首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于大数据及自然语言处理的多维度舆情推荐方法_深圳市东晟数据有限公司_202210483561.6 

申请/专利权人:深圳市东晟数据有限公司

申请日:2022-04-29

公开(公告)日:2024-06-18

公开(公告)号:CN114861027B

主分类号:G06F16/951

分类号:G06F16/951;G06F16/245;G06F16/35

优先权:

专利状态码:有效-授权

法律状态:2024.06.18#授权;2022.08.23#实质审查的生效;2022.08.05#公开

摘要:本发明公开了一种基于大数据及自然语言处理的多维度舆情推荐方法,包括数据采集、数据接入、数据清洗、舆情评分、舆情推荐、舆情展示,本发明技术方案使用户快速获取符合要求的高质量舆情信息,提高舆情分析的效率。

主权项:1.一种基于大数据及自然语言处理的多维度舆情推荐方法,其特征在于,包括如下步骤:S1:利用互联网爬虫技术爬取互联网舆情数据,并将爬取的数据保存到数据库mysql中;S2:采用大数据技术实时采集技术Flinkcdc,实时从mysql中读取全量和增量数据,从网页内容提取网页的主题、内容、发布日期,保存到大数据集群Hive数据库中;S3:从关键词表中读取用户设定的多种关键词匹配方法,按照模式匹配的方法,解析每种关键词匹配方法,与Hive数据中每条记录的内容做匹配;只要符合其中一种,即可认为该内容符合关键词匹配,将匹配到的数据保存到清洗的结果数据库中;S4:进行舆情打分,包括舆情分类打分、舆情关键词打分、舆情媒体打分,并将舆情分类得分值、舆情关键词得分值、舆情媒体得分值通过算法公式进行计算,得到舆情总评分;算法公式为,其中,为舆情总评分,为舆情分类得分值,为舆情关键词得分值,为舆情媒体得分值,为舆情分类的权值系数,为舆情关键词的权值系数;将分数划分为阶梯区间,,为舆情重要程度阈值;S5:将舆情总评分、舆情分类类别进行筛选排序进行结果推荐;使用舆情分类类别将推荐数据进行筛选,使用总评分进行排序,推荐给前端展示;舆情分类打分具体包括:通过深度学习技术,将文本内容进行多分类操作;使用数据标注软件对分类数据进行标注,对每一条数据都进行数据标注得到分类训练数据;选择分类模型设置不同参数对分类训练数据进行模型训练;将分类模型进行部署,可以部署为一个推理接口,对舆论文本进行预测,接口会返回一个分类的类别与该类别的概率;将预测后的舆情文本类别、类别概率中筛选概率高于一个设定阈值的文本及标签作为以后优化分类模型的训练数据;使用计算舆情分类的得分值;其中为舆情分类得分值,为某类别的得分值,为分类模型预测为该分类的概率值;舆情关键词打分具体包括:给出关键词表,对舆情文本进行关键词匹配;获取舆情文本所有匹配的关键词后,计算所述关键词的得分;舆情媒体打分具体包括:,其中为舆情媒体得分值,为媒体置信度值。

全文数据:

权利要求:

百度查询: 深圳市东晟数据有限公司 一种基于大数据及自然语言处理的多维度舆情推荐方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。