首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于Transformer和CNN的敏感词检测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:喀什地区电子信息产业技术研究院

摘要:本发明公开了一种基于Transformer和CNN的敏感词检测方法,解决传统的Transformer不能为长距离相关文本信息生成自适应权重,局部语义提取能力不足,在敏感词汇检测中词性理解能力不足的问题,包括:对待检测文本进行数据清洗、文本过滤、分词得到词语;使用PAD对词语进行填充,然后使用Word2Vec将单词映射到一个向量空间中的Wordembeddings;生成每个单词的Positionembeddings和Segmentembeddings;将得到的三种embeddings分别相加作为Transformer网络的输入、相拼接作为CNN网络的输入进行处理;将SwitchableNormalization的输出和最大池化的输出相加进行融合得到融合特征;将融合特征通过全连接层进行信息整合,送入Dropout层进行信息筛选,以0.5倍的权重与Dropout层的输出相加;最后再通过一个全连接层和Softmax进行二分类判别。

主权项:1.一种基于Transformer和CNN的敏感词检测方法,其特征在于:包括下述步骤:1对待检测文本进行数据清洗、文本过滤、分词得到词语;2使用PAD对词语进行填充得到固定长度的单词,然后使用Word2Vec将单词映射到一个向量空间中的Wordembeddings;同时,生成每个单词的Positionembeddings和Segmentembeddings;3将步骤2中得到的三种embeddings分别相加作为Transformer网络的输入、相拼接作为CNN网络的输入进行处理;4将SwitchableNormalization的输出和最大池化的输出相加进行融合得到融合特征;5将融合特征通过全连接层进行信息整合,保持特征维度不变的同时进一步对其语义信息进行抽象,将其投影到一个更有利于进行敏感词判别的特征空间;6将步骤5的输出送入Dropout层进行信息筛选,同时将步骤4的输出以0.5倍的权重与Dropout层的输出相加;7最后再通过一个全连接层和Softmax进行二分类判别,若预测结果大于0.5,则代表输入文本中包含敏感词。

全文数据:

权利要求:

百度查询: 喀什地区电子信息产业技术研究院 一种基于Transformer和CNN的敏感词检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。