首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种事件脉络生成方法、电子设备和存储介质_北京中科闻歌科技股份有限公司;新华融合媒体科技发展(北京)有限公司_202310347374.X 

申请/专利权人:北京中科闻歌科技股份有限公司;新华融合媒体科技发展(北京)有限公司

申请日:2023-04-03

公开(公告)日:2024-05-03

公开(公告)号:CN116361468B

主分类号:G06F16/35

分类号:G06F16/35

优先权:

专利状态码:有效-授权

法律状态:2024.05.03#授权;2023.07.18#实质审查的生效;2023.06.30#公开

摘要:本发明提供了一种事件脉络生成方法、电子设备和存储介质,方法包括:首先对接收到的文本进行文本编码,然后进行文本聚类,并进行话题清洗与合并,得到所有话题,然后对每个话题,进行事件拆分,得到每个事件,并对相似事件进行合并,然后基于文本相似度进行事件脉络生成,能够更好地划分话题或事件,使得生成的话题或事件更加准确。此外,本发明不需要人工干预,可自动对多篇新闻进行数据预处理,生成话题库和事件库,并根据发布时间,输出事件的事件脉络。

主权项:1.一种事件脉络生成方法,其特征在于,所述方法包括如下步骤:S100,对待聚类文本中的每个文本进行预处理,并获取预处理后的每个文本的特征向量和关键词;S200,基于所有文本的特征向量,通过设定聚类方法对待聚类文本进行聚类,得到多个类别,每个类别对应一个话题,每个话题包括至少一个文本;S300,基于话题和文本之间的关键词相同数量以及文本和话题的话题描述特征向量之间的相似度,对得到的多个话题进行清洗处理,得到清洗处理后的多个清洗话题;S400,基于话题之间的关键词相同数量和话题描述特征向量之间的相似度对多个清洗话题进行合并处理,得到合并处理后的多个合并话题;S500,获取多个合并话题中的每个话题的初始事件列表,其中,每个话题的初始事件列表通过对该话题中的所有文本对应的事件描述中相同的事件描述进行合并得到,每个文本的事件描述通过设定事件描述生成模型生成;S600,对于每个话题的初始事件列表,基于事件之间的关键词相同数量和事件的事件描述向量之间的相似度,对该话题中的事件进行合并,得到每个话题合并后的合并事件列表;S700,基于文本的特征向量之间的相似度获取每个合并事件列表中的每个事件的子事件列表;S800,输出每个事件的事件脉络,其中,每个事件脉络包括按照文本发布时间由早到晚进行排序的多个排序子事件,并且,每个排序子事件中的文本按照发布时间由早到晚的顺序进行排序;其中,S300具体包括:S301,获取第p次清洗处理对应的当前待清洗话题中的任一话题中的任一文本以及任一话题的关键词和话题描述特征向量;p的取值为1到C0,C0为预设清洗次数;S302,对于当前待清洗话题中的话题i中的第j个文本Tij,分别获取gpi,j和STpij,如果gpi,j≥D1p,并且STpij≥D2p,则将Tij保留在话题i中,执行S308;否则,执行S303;其中,gpi,j为第p次清洗处理时Tij和话题i之间的关键词相同的数量,STpij为第p次清洗处理时Tij的话题描述特征向量和话题i的话题描述特征向量之间的相似度;i的取值为1到k,k为当前待清洗话题的数量;j的取值为1到fi,fi为话题i中的文本数量;D1p为第p次清洗处理对应的第一设定阈值,D2p为第p次清洗处理对应的第二设定阈值;S303,获取话题描述相似度集STij={ST1ij,ST2ij,…,STsij,…,STk-1ij},STsij为Tij的话题描述特征向量和当前待清洗话题中除话题i之外的k-1个话题中的第s个话题对应的话题描述特征向量之间的相似度,s的取值为1到k-1;执行S304;S304,将STij按照降序进行排序得到排序后的相似度集,并获取排序后的相似度集中的前m个相似度形成对比相似度集STCij={STC1ij,STC2ij,…,STCwij,…,STCmij},STCwij为STCij中的第w个相似度,w的取值为1到m;执行S305;S305,获取关键词相同数量集gij={g1ij,g2ij,…,gwij,…,gmij},gwij为Tij和话题w之间的关键词相同的数量;执行S306;S306,获取maxA=max{STC1ij+g1ij,STC2ij+g2ij,…,STCwij+gwij,…,STCmij+gmij}对应的话题作为Tij的候选合并话题,并且,如果maxA对应的关键词相同数量大于D1p,并且话题描述相似度大于D2p,则将Tij合并到对应的候选合并话题中并从原话题中删除,否则,执行S307;S307,为Tij创建一个新话题并从原话题中删除,并将Tij加入到对应的新话题中,设置k=k+1,执行S308;S308,设置j=j+1,如果j≤fi,执行S302,否则,设置i=i+1,如果i≤k,执行S302,如果i>k,执行S310;S310,设置p=p+1,如果p≤C0,执行S301;否则,得到清洗处理后的H个清洗话题,并执行S400。

全文数据:

权利要求:

百度查询: 北京中科闻歌科技股份有限公司;新华融合媒体科技发展(北京)有限公司 一种事件脉络生成方法、电子设备和存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。