【发明授权】一种基于NLP的敏感词汇屏蔽方法及系统_北京深维智信科技有限公司_202311068514.6

导航：龙图腾网> 最新专利技术> 一种基于NLP的敏感词汇屏蔽方法及系统_北京深维智信科技有限公司_202311068514.6

申请/专利权人：北京深维智信科技有限公司

申请日：2023-08-23

公开（公告）日：2024-06-07

公开（公告）号：CN117113988B

主分类号：G06F40/284

分类号：G06F40/284;G06F40/30;G06F16/951;G06F18/214;G06F18/25;G06N3/006;G06N3/0442;G06N3/045;G06N3/08

优先权：

专利状态码：有效-授权

法律状态：2024.06.07#授权;2023.12.12#实质审查的生效;2023.11.24#公开

摘要：本发明属于敏感词汇屏蔽技术领域，公开了一种基于NLP的敏感词汇屏蔽方法及系统。所述的方法包括如下步骤：构建敏感词汇语料库和非敏感词汇语料库；使用NLP算法，构建敏感词汇识别模型；对待分析文件进行文本提取；使用分词算法，对待分析文本进行分词处理；将待分析词序列输入敏感词汇识别模型进行敏感词汇识别；根据敏感词汇语料库，对待分析词序列的敏感词汇进行核验，若核验结果为真实，则使用屏蔽符号替换待分析词序列的敏感词汇；获取敏感词汇屏蔽后文本，并将敏感词汇屏蔽后文本加载至待分析文件，得到敏感词汇屏蔽后文件。本发明解决了现有技术存在的屏蔽敏感词汇的准确率低，效率低以及实用性低的问题。

主权项：1.一种基于NLP的敏感词汇屏蔽方法，其特征在于：包括如下步骤：构建敏感词汇语料库和非敏感词汇语料库，包括如下步骤：使用爬虫工具，在互联网中抓取中文或英文的若干已知的敏感词汇；抓取若干已知的敏感词汇的拼音、近义词汇以及同音词汇；对若干已知的敏感词汇及其拼音、近义词汇以及同音词汇进行数据压缩处理、数据降噪处理以及数据清洗处理，得到处理后的若干已知的敏感词汇及其拼音、近义词汇以及同音词汇；根据处理后的若干已知的敏感词汇及其拼音、近义词汇以及同音词汇，构建敏感词汇语料库；使用爬虫工具，在互联网中采集中文或英文的若干通用词汇；根据敏感词汇语料库，对若干通用词汇中混入的已知的敏感词汇及其拼音、近义词汇以及同音词汇进行剔除，得到若干非敏感词汇；对若干非敏感词汇进行数据压缩处理、数据降噪处理以及数据清洗处理，得到处理后的若干非敏感词汇；根据处理后的若干非敏感词汇，构建非敏感词汇语料库；根据敏感词汇语料库和非敏感词汇语料库，使用NLP算法，构建敏感词汇识别模型，包括如下步骤：任意提取敏感词汇语料库中的已知的敏感词汇及其拼音、近义词汇以及同音词汇和非敏感词汇语料库中的非敏感词汇，构成若干训练文本数据；使用NLP算法中的BERT-BILSTM-CRF算法，构建初始的敏感词汇识别模型；所述的敏感词汇识别模型包括依次连接的输入层、设置有BERT预训练语言子模型的向量表征层、BILSTM层、特征融合层、CRF层以及输出层；引入Circle混沌序列初始化和动态反向学习策略对传统的WOA寻优算法进行改进，得到IWOA寻优算法；Circle混沌序列初始化的公式为：式中，xi+1,j+1为Circle混沌映射生成的鲸鱼种群的初始位置；xi,j为随机生成的鲸鱼种群的初始位置；mod·为mod函数；i为鲸鱼个体指示量；j为维度指示量；动态反向学习策略的公式为：x'ijt＝kajt+bjt-xijt式中，x'ijt、xijt分别为第i鲸鱼个体第j维的反向位置和正向位置；ajt、bjt分别为当前鲸鱼种群第j维的上界和下界；k为递减惯性因子，k＝0.9-0.5DDmax；D、Dmax分别为当前迭代次数和最大迭代次数；t为时刻指示量；使用IWOA寻优算法优化初始的敏感词汇识别模型的网络参数，包括如下步骤：将BILSTM层的隐含层神经元数量、隐含层神经元的初始权值和初始阈值以及初始学习率作为优化目标，即IWOA种群的鲸鱼个体的位置；初始化IWOA寻优算法的参数，并使用Circle混沌序列初始化IWOA种群；计算IWOA种群中每个鲸鱼个体的适应度值；进行包围猎物行为、泡泡网攻击行为或搜索猎物行为，更新鲸鱼个体和IWOA种群；对更新后的IWOA种群进行动态反向学习，得到IWOA种群中每个正向解对应的反向解，根据IWOA种群中所有正向解和所有反向解的鲸鱼个体的适应度值，筛选最优鲸鱼个体及其最优适应度值；若最优适应度值满足要求或迭代次数满足要求，输出最优鲸鱼个体对应的全局最优解的位置，即BILSTM层最优的隐含层神经元数量、隐含层神经元的初始权值和初始阈值以及初始学习率，否则，重复更新鲸鱼个体和IWOA种群；根据BILSTM层最优的隐含层神经元数量、隐含层神经元的初始权值和初始阈值以及初始学习率，设置初始的敏感词汇识别模型的网络参数，并输入若干训练文本数据进行优化训练，得到最优的敏感词汇识别模型；对待分析文件进行文本提取，得到待分析文本；使用分词算法，对待分析文本进行分词处理，得到待分析词序列；将待分析词序列输入敏感词汇识别模型进行敏感词汇识别，得到待分析词序列的敏感词汇；根据敏感词汇语料库，对待分析词序列的敏感词汇进行核验，若核验结果为真实，则使用屏蔽符号替换待分析词序列的敏感词汇，得到敏感词汇屏蔽后词序列，否则，将待分析词序列重新进行敏感词汇识别；根据敏感词汇屏蔽后词序列，得到敏感词汇屏蔽后文本，并将敏感词汇屏蔽后文本加载至待分析文件，得到敏感词汇屏蔽后文件。

全文数据：

权利要求：

百度查询：北京深维智信科技有限公司一种基于NLP的敏感词汇屏蔽方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：对准失真的图像_ASML荷兰有限公司_202280075359.8

下一篇：用于提供更新的机器学习算法的系统和方法_西门子医疗有限公司_202311623232.8

相关技术

对准失真的图像_ASML荷兰有限公司_202280075359.8

用于提供更新的机器学习算法的系统和方法_西门子医疗有限公司_202311623232.8

一种微型电机防水密封检测装置_全南县超亚科技有限公司_202410179550.8

一种硅光器件及制造方法_上海集成电路研发中心有限公司_202211648345.9

图像解码方法及其装置_LG电子株式会社_202280076929.5

一种智能拍背装置_中日友好医院(中日友好临床医学研究所)_202410324763.5

车辆控制装置、车辆控制方法以及非暂时性存储介质_丰田自动车株式会社_202311560781.5

针对根据亮度预测色度的预测选择下采样滤波器_腾讯美国有限责任公司_202280075374.2

一种红茶的制作方法_安化县亮山茶业有限公司_202310583344.9

车辆显示控制装置、车辆显示控制方法和非暂时性存储介质_丰田自动车株式会社_202311728960.5

一种内置旋转式堰门一体化分流井_高邮市恒立液压成套设备有限公司_202211640138.9

一种隔振器_沈阳航空航天大学_202410227503.6

方法相关技术

配置方法_意法半导体(大西部)公司_202311748134.7

设备控制方法方法和装置_珠海格力电器股份有限公司_202111537707.2

模型预训练方法、模型训练方法、对象处理方法及装置_北京百度网讯科技有限公司_202310701200.9

脱水方法_赛纳塔生物有限公司_202280073278.4

任务处理方法、法律问答方法及任务处理模型训练方法_阿里巴巴(中国)有限公司_202410660148.1

移动台、基站、发送方法及接收方法_松下电器(美国)知识产权公司_201980043653.9

模型构建方法、图像分割方法、装置、设备、介质_北京字跳网络技术有限公司_202211634709.8

测试结构及其形成方法及测试方法_中芯国际集成电路制造(北京)有限公司_202211638350.1

消息发送方法、装置和资源分配方法、装置_北京小米移动软件有限公司_201880000686.0

窗口插件配置方法、窗口数据采集方法及装置_北京字节跳动网络技术有限公司_202111209776.0

词汇相关技术

一种基于美学属性词汇表生成美学描述的方法_西北大学_202410265173.X

一种词汇查询方法、装置、计算机设备及存储介质_镁佳(北京)科技有限公司_202410243928.6

基于词汇增强和多任务结构的车载语音理解方法及系统_普强时代(珠海横琴)信息技术有限公司_202410331978.X

一种基于开放词汇检测的高速公路抛洒物检测与分类方法_东南大学_202410349437.X

一种3D开放词汇检测与密集字幕生成统一的建模方法_四川大学_202311358367.6

一种词汇归纳展示卡_郑光何_202323066139.X

一种基于NLP的敏感词汇屏蔽方法及系统_北京深维智信科技有限公司_202311068514.6

一种面向数据增强的词汇组合知识建模方法及装置_山东大学_202410330986.2

一种中文词汇讲解展示装置_邢台技师学院_202322746949.3

一种网络交流词汇管理方法、系统和可读存储介质_湖南马兰数字教育科技有限公司_202311351081.5

屏蔽相关技术

电磁屏蔽结构_安华高科技股份有限公司_202311730745.9

屏蔽连接器_株式会社自动网络技术研究所_202280073905.4

一种槽形屏蔽效能补偿屏蔽门_江苏立达安全防护技术有限公司_202323262894.5

中子屏蔽材料及其制造方法_国立大学法人京都大学_202280075768.8

屏蔽栅MOSFET的形成方法_上海华虹宏力半导体制造有限公司_202410372498.8

一种油箱磁屏蔽结构_山东中晶电工有限公司_202410484908.8

一种金属屏蔽夹_安徽梅曼光电科技有限公司_202323208184.4

表面光洁度改善型屏蔽料、制备方法和半导电屏蔽制品_深圳供电局有限公司_202210870905.9

一种扫描机环境光屏蔽盒_泉州黑石科技有限公司_202323005900.9

一种防撞轨道交通屏蔽门_刘罗冲_202323108887.X

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】一种基于NLP的敏感词汇屏蔽方法及系统_北京深维智信科技有限公司_202311068514.6

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务