买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】使用机器学习算法朴素贝叶斯预测新闻发布时间的方法_南京万得资讯科技有限公司_202311792995.5 

申请/专利权人:南京万得资讯科技有限公司

申请日:2023-12-25

公开(公告)日:2024-04-26

公开(公告)号:CN117933454A

主分类号:G06Q10/04

分类号:G06Q10/04;G06F16/951;G06F18/2415;G06N7/01

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.05.14#实质审查的生效;2024.04.26#公开

摘要:本发明提出使用机器学习算法朴素贝叶斯预测新闻发布时间的方法,使用朴素贝叶斯算法进行新闻发布时间的预测,解决了带宽消耗以及爬取任务冲突,提高了新闻预测的精度和效率,并且可以适应复杂的数据模式和处理需求,同时提供可解释性和实时性,从而更好地支持新闻获取的相关业务。

主权项:1.使用机器学习算法朴素贝叶斯预测新闻发布时间的方法,其特征在于,包括以下步骤:步骤1:定义新闻网站得到网站定义,网站定义包括网站ID、URL等相关属性;步骤2:定义新闻网站的新闻频道得到频道定义,包括频道的URL、频道ID及行业分类的频道属性;步骤3:将网站定义和频道定义进行关联;步骤4:获取新闻网站及新闻频道发布的历史数据,历史数据包括历史新闻的新闻ID、发布时间、内容、类别以及作者;步骤5:对网站定义、频道定义以及历史数据进行清洗和去重处理得到预处理数据,预处理数据包括网站定义、频道定义、发布时间、新闻获取时间以及新闻ID;步骤6:将预处理数据中的新闻ID生成新闻主键,将预处理数据和新闻主键进行存储,得到存储数据;步骤7:根据舆情获取的及时性要求,确定新闻获取时间,将全天时间以整数形式进行编号得到时间段编号,对过去一年的新闻的历史数据进行衍生计算,计算获得标题数据,标题数据包括网站ID、频道ID、新闻ID、时间段编号、是否为工作日、是否为工作时间、是否为重点网站、是否为重点频道、时间段编号是否有新闻,以文本格式导出标题数据;步骤8:将标题数据作为输入的学习数据,来建立朴素贝叶斯预测时间模型;步骤9:利用标题数据使用朴素贝叶斯算法训练一个分类模型,模型输入为标题数据,输出为以天为单位的时间段编号是否有新闻的预测数据,建立朴素贝叶斯预测时间模型;步骤9.1:采用条件概率来判断时间段编号是否有新闻的概率,其中P有|时间段表示时间段编号有新闻发布的概率,P无|时间段表示时间段编号没有新闻发布的概率;步骤9.2:通过朴素贝叶斯准则计算概率值,对应的概率计算公式为:PC|时间段=P时间段|C*PCP时间段;步骤9.3:若时间段编号有新闻发布的概率大于时间段编号没有新闻发布的概率,即P有|时间段P无|时间段,则时间段编号相对应的时间段有新闻发布,反之则时间段编号相对应的时间段时间段没有新闻发布;步骤9.4:提取并分类预期天数内每天中预设时间段的新闻发布特征,新闻发布特征包括:网站ID、频道ID、新闻ID、时间段编号、是否为工作日、是否为工作时间、是否为重点网站以及是否为重点频道,并对时间段编号相对应的时间段进行是否有新闻的预测;步骤9.5:将新闻发布特征转化为一组数字,利用贝叶斯计算概率的公式计算计算有新闻发布和没有新闻发布对应的概率,然后比较有新闻发布的概率和没有新闻发布的概率的大小,建立朴素贝叶斯预测时间模型;贝叶斯计算概率的公式为:PCi|W=PW|Ci*PCiPW其中,W为新闻发布特征;P为概率;Ci为是否有新闻发布;步骤10:根据朴素贝叶斯预测时间模型预测新闻发布的时间得到预测数据,通过任务管理程序生成新闻获取的计划任务,若预测数据中有新闻发布的概率大于没有新闻发布的概率,则生成对应的计划任务中的爬取任务,若预测数据中没有新闻发布的概率大于有新闻发布的概率,则生成计划任务的减少或停止爬取任务。

全文数据:

权利要求:

百度查询: 南京万得资讯科技有限公司 使用机器学习算法朴素贝叶斯预测新闻发布时间的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。