买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:易方达基金管理有限公司
摘要:本发明公开了一种舆情数据的新闻主体识别方法及系统,方法包括将新闻舆情数据通过AI大模型进行主体名称识别,得到舆情特征识别结果;其中,AI大模型通过基于上下文指令对ChatGPT模型进行数据训练而得到;通过对舆情特征识别结果进行字符串匹配,判断舆情特征识别结果中是否存在新闻主体,若不存在,则输出未识别出主体的提示信息;若存在,则将舆情特征识别结果进行无效信息剔除,得到主体简化数据,并对主体简化数据进行主体数量判别分割,获得主体简化名称;通过公共子序列最优匹配策略,将主体简化名称与预先构建的公司知识库进行匹配,输出新闻主体名称识别结果。本实施例实现在海量新闻舆情信息中高效提取主体公司名称,提高主体识别的精准性。
主权项:1.一种舆情数据的新闻主体识别方法,其特征在于,包括:将新闻舆情数据通过AI大模型进行主体名称识别,得到舆情特征识别结果;其中,所述AI大模型通过基于上下文指令对ChatGPT模型进行数据训练而得到;通过对所述舆情特征识别结果进行字符串匹配,判断所述舆情特征识别结果中是否存在新闻主体,若不存在,则输出未识别出主体的提示信息;若存在,则将所述舆情特征识别结果进行无效信息剔除,得到主体简化数据,并对所述主体简化数据进行主体数量判别分割,获得主体简化名称;通过公共子序列最优匹配策略,将所述主体简化名称与预先构建的公司知识库进行匹配,得到新闻主体名称识别结果,并输出所述新闻主体名称识别结果;其中,所述主体简化名称至少为1个;所述通过公共子序列最优匹配策略,将所述主体简化名称与预先构建的公司知识库进行匹配,得到新闻主体名称识别结果,具体为:将当前的主体简化名称作为第一序列,将所述公司知识库中的各主体信息名称作为第二序列;通过最长公共子序列动态规划法,依次将所述第一序列与各所述第二序列进行匹配,得到若干个最长公共子序列;根据各所述最长公共子序列,确定最优匹配长度;当所述最优匹配长度不小于预设长度阈值时,通过最长连续公共子序列动态规划法,依次将各所述最长公共子序列与各所述第二序列进行匹配,得到若干个最长连续公共子序列;比较各所述最长连续公共子序列的序列长度,提取所述序列长度最小值对应的最长连续公共子序列,得到所述当前的主体简化名称对应的新闻主体名称识别结果。
全文数据:
权利要求:
百度查询: 易方达基金管理有限公司 一种舆情数据的新闻主体识别方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。