买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京中科睿途科技有限公司
摘要:本发明公开了一种基于自然语言处理的敏感词库构建方法及系统,其包括:获取并预处理含敏感词的文本数据,并通过自然语言处理技术从中获取敏感词,并确定敏感词的特征信息;确定敏感词特征信息对应的主题类型,并按照主题类型对敏感词进行分类,得到敏感词集;确定敏感词集对应主题类型的敏感评估指标,并根据敏感评估指标评估敏感词集对应主题类型的敏感度值;根据敏感度值确定敏感词集的储存区域,将属于相同敏感度值的敏感词集储存到对应的储存区域中,完成敏感词库的构建。本发明通过自然语言处理技术来确定出文本中的敏感词,提高了对敏感词识别的准确度和效率,并通过对敏感词情况全面分析,确定其词库的构建逻辑,以更准确构建出敏感词库。
主权项:1.一种基于自然语言处理的敏感词库构建方法,其特征在于,包括:获取含敏感词的文本数据,并对文本数据进行预处理;通过自然语言处理技术从预处理后文本数据中获取敏感词,并确定敏感词的特征信息;对敏感词的特征信息进行分析,确定敏感词的主题类型;按照主题类型对敏感词进行分类,并将属于相同主题类型的敏感词归类到同一敏感词集中;确定敏感词集对应主题类型的敏感评估指标,并根据敏感评估指标评估敏感词集对应主题类型的敏感度值;根据敏感度值确定敏感词集的储存区域,将属于相同敏感度值的敏感词集储存到对应的储存区域中,完成敏感词库的构建。
全文数据:
权利要求:
百度查询: 北京中科睿途科技有限公司 一种基于自然语言处理的敏感词库构建方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。