一种面向中文小说领域的文本内容审核方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京邮电大学

摘要：一种面向中文小说领域的文本内容审核方法，包括：获取敏感词及所属类别，构建敏感词库；通过字符串匹配算法，检测待审核文本是否包含敏感词，如果是，则待审核文本是违规文本，且分类是敏感词所属类别，如果否，则继续下一步；设置多个违规分类标签，构建并训练小说文本内容审核模型，然后将待审核文本输入模型中，其工作流程如下：计算输入文本的语义特征向量和每个违规分类标签的信息特征向量，再计算输入文本和每个违规分类标签的相关语义特征向量，最后采用胶囊网络对相关语义特征向量聚类，根据顶层胶囊的每个违规分类标签的类别概率确定输入文本的分类。本发明属于信息技术领域，能实现中文小说文本内容自动审核，并提高审核准确率及效率。

主权项：1.一种面向中文小说领域的文本内容审核方法，其特征在于，包括有：步骤一、获取敏感词及所属类别，并构建敏感词库；步骤二、通过字符串匹配算法，检测待审核的中文小说文本是否包含有敏感词库中的敏感词，如果是，则待审核的中文小说文本是违规文本，且其审核分类是所包含敏感词的所属类别，本流程结束；如果否，则继续下一步；步骤三、设置多个违规分类标签，预先构建、并训练小说文本内容审核模型，然后将待审核的中文小说文本输入训练好的小说文本内容审核模型中，最后输出文本审核分类结果，小说文本内容审核模型的工作流程如下：首先通过神经网络编码得到输入的中文小说文本的语义特征向量和每个违规分类标签的信息特征向量，然后采用向量投影的计算方式，获得输入的中文小说文本和每个违规分类标签的相关语义特征向量，最后采用胶囊网络对输入的中文小说文本和所有违规分类标签的相关语义特征向量进行聚类，根据顶层胶囊计算得到的对应于每个违规分类标签的类别概率确定输入的中文小说文本的审核分类，敏感词库还包括有敏感拼音词库和敏感形近词库，步骤一进一步包括有：步骤11、获取多个敏感词表，设置敏感词表中每个敏感词的所属类别，然后将敏感词表中的所有敏感词作为原始敏感词构成敏感词库；步骤12、查询汉字拼音表，获取敏感词库中的每个原始敏感词的拼音，然后由所有原始敏感词的拼音构成敏感拼音词库；步骤13、将敏感词库中的所有原始敏感词拆分成多个单独的字，并由拆分后的所有字构成敏感字种子集合，然后获取多个汉字作为候选字构成候选字集合，计算敏感字种子集合中的每个敏感字和候选字集合中的每个候选字之间的相似度，挑选出相似度大的候选字作为每个敏感字的形近字，由每个敏感字的所有形近字构成每个敏感字的形近字集合；步骤14、根据敏感词库中的原始敏感词的汉字组成关系，从构成每个原始敏感词的敏感字的形近字集合中分别挑选一个形近字以组成一个新的敏感词，然后将新的敏感词写入敏感形近词库中，且新的敏感词的所属类别是其对应的原始敏感词的所属类别，这样，步骤二还包含有：检测待审核的中文小说文本是否包含有敏感拼音词库和敏感形近词库中的敏感词，步骤13中计算敏感字种子集合中的每个敏感字和候选字集合中的每个候选字之间的相似度，进一步包括有：步骤131、采用编辑距离算法，计算敏感字A和候选字B的拼音相似度，计算公式如下：其中，EditDisA,B为敏感字A和候选字B的拼音之间的最小编辑次数，统计的编辑方式包括删除一个字符、增加一个字符和修改一个字符，LA、LB分别是敏感字A、候选字B的拼音长度；步骤132、设置笔形映射表，笔形映射表中包含有每个汉字笔形和其编码数字的映射关系，分别取敏感字A、候选字B的左上角、右上角、左下角、右下角以及右下角上方共五个位置的笔形，读取笔形映射表查询五个位置笔形各自对应的编码数字，组成敏感字A和候选字B的四角编码，然后计算敏感字A和候选字B的字形相似度：其中，encA、encB分别是敏感字A、候选字B的四角编码，Count函数表示逐位计算两个四角编码的异同，当其中一位相同则结果加1，不同则结果加0，该函数结果的取值范围为[0,5]；步骤133、将汉字的所有结构类型分别编号，所述结构类型包括有：独体字、左右结构、上下结构、左中右结构、上中下结构、左上包围结构、右上包围结构、左下包围结构、上三包围结构、下三包围结构、左三包围结构、全包围结构、镶嵌结构、品字结构和田字结构，并获取敏感字A、候选字B的结构编号HA、HB，然后计算敏感字A和候选字B的结构相似度：步骤134、计算敏感字A和候选字B的笔画相似度，其计算公式如下：其中，NA、NB分别是敏感字A、候选字B的笔画总数；步骤135、在大规模中文语料上训练Bert模型得到预训练语言模型，所述预训练语言模型的输入是字，输出是输入字对应的字向量，然后计算敏感字A和候选字B的语义相似度：其中，EA、EB分别是敏感字A、候选字B的字向量，||EA||和||EB||分别是EA和EB的模，对于预训练语言模型中未出现过的生僻字，则其语义相似度默认置为0；步骤136、计算敏感字A和候选字B的相似度：sim＝α1sim1+α2sim2+α3sim3+α4sim4+α5sim5，其中，α1、α2、α3、α4、α5分别是拼音相似度、字形相似度、结构相似度、笔画相似度、语义相似度的权重参数，步骤三中的小说文本内容审核模型的工作流程进一步包括有：步骤31、构建语义特征模型，语义特征模型由一个中断循环神经网络DRNN构成，并采用双向门控循环神经网络BiGRU作为DRNN的循环神经单元，分别计算前向和后向网络t个时刻的隐藏层输出，对于每一个时刻，将前向和后向的隐藏层输出向量进行求和从而获得该时刻的特征向量，最后输出的t个时刻的特征向量即是输入的中文小说文本的语义特征向量；步骤32、从预训练好的Bert语言模型中查找每个违规分类标签中所包含词汇的词向量，若没有对应的词向量，则查找词汇拆分成字后的字向量，对所有字向量求和平均来表示词向量，然后将每个违规分类标签的词向量输入一个全连接神经网络，最后输出的向量即是每个违规分类标签的信息特征向量；步骤33、计算输入的中文小说文本和每个违规分类标签的相关语义特征向量：其中，xj是输入的中文小说文本的第j个语义特征向量，j∈[1,t]，yi是第i个违规分类标签的信息特征向量，Projxj,yi是输入的中文小说文本的第j个语义特征向量和第i个违规分类标签的相关语义特征向量；步骤34、构建胶囊网络，所述胶囊网络包含一个卷积胶囊层和一个全连接胶囊层，胶囊网络的处理流程如下：输入的中文小说文本和每个违规分类标签的每一个相关语义特征向量都是卷积胶囊层的一个输入胶囊，卷积胶囊层的输出胶囊是全连接胶囊层的输入胶囊，每个全连接胶囊层的输出胶囊对应一个分类类别，输出胶囊称为顶层胶囊，即每个顶层胶囊的模长对应一个违规分类标签的类别概率，每层胶囊网络从输入胶囊到输出胶囊的特征传递过程使用动态路由的方式进行计算，最后根据顶层胶囊对应的类别概率确定输入的中文小说文本的审核分类。

全文数据：

权利要求：

百度查询：北京邮电大学一种面向中文小说领域的文本内容审核方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：用于装置气溶胶生成系统的传感器

下一篇：一种种子栽培种植开沟装置

相关技术

用于装置气溶胶生成系统的传感器

一种种子栽培种植开沟装置

一种拉杆切割打孔集成设备及加工工艺

一种坐浴盆

通过光学衍射改善粒度

一种玉米栽培供水装置

含氟甲醛基的哌啶型阴离子交换膜及其制备方法

一种金属制品加工用数控刀头

电池充电时长确定方法、确定装置以及电池管理系统

信息处理系统以及信息处理方法

一种电驱机械振动辅助负压可弯导引鞘

用于治疗三尖瓣功能不全的系统、方法和装置

文本相关技术

文本分析模型的训练方法、文本分析方法及装置_支付宝(杭州)信息技术有限公司_202410763384.6

文本评价方法和电子设备_长城汽车股份有限公司_202410817912.1

文本处理模型的训练方法、文本处理方法、问答处理方法及装置_阿里巴巴(中国)有限公司_202410711037.9

文本检测方法及装置、电子设备、存储介质_创新奇智(西安)科技有限公司_202011574458.X

一种文本输入方法、装置及存储介质_北京小米移动软件有限公司_202310258273.5

一种文本聚类的方法和装置_北京沃东天骏信息技术有限公司_202411035357.3

文本去重方法、装置和电子设备_北京清格科技有限公司_202111618080.3

文本的隐私政策合规检测方法及系统_中国科学院信息工程研究所_202410763193.X

文本分类的方法、装置以及电子设备_上海桔晟科技有限公司_202310188514.3

文本审核方法、装置、电子设备及存储介质_汉王科技股份有限公司_202410605780.6

领域相关技术

一种基于多源域适应的跨领域虚假新闻检测方法_江苏海洋大学_202410515982.1

化合物及其在有机电致发光领域的应用_北京鼎材科技有限公司_201711360272.2

用于混合领域的成分句法分析的方法、装置和介质_西湖大学_202310210624.5

一种应用于石油开采领域的固井水泥头_德州金玉石油机械科技有限公司_202410591650.1

一种面向数字人文领域的思想自动抽取方法_南京大学_202410614452.2

一种基于无监督方式的小众领域英文关系抽取方法_中国科学技术大学_202410806214.1

一种氟比洛芬盐溶液及其在消炎止痛领域的应用_吉林化工学院_202410831013.7

一种环保的农业工程领域的土壤杀菌处理设备_朔州市新玉农牧有限公司_202210310461.3

基于可迁移语义知识的无源领域自适应图像识别方法_安徽大学_202410750577.8

一种基于几何特征领域添加扰动的对抗点云生成方法_华中科技大学_202210494180.8

内容相关技术

使用高速缓存用于内容验证和错误补救_微软技术许可有限责任公司_201980045686.7

内容推荐方法、装置、电子设备及存储介质_中国建设银行股份有限公司_202410388405.0

内容分发方法、装置及电子设备_北京字跳网络技术有限公司_202410670313.1

电网新设备启动内容自动逐项应答方法_国网浙江省电力有限公司湖州供电公司_202310222398.2

表格内容生成方法、装置、设备、介质及产品_北京字跳网络技术有限公司_202410797886.0

播放内容推荐方法、电子设备及车辆_长城汽车股份有限公司_202410815736.8

一种便于更换广告内容的广告箱_上海众效科技有限公司_202420177091.5

用于生成和共享内容的系统和方法_元平台公司_202080033015.1

基于知识追踪的学习内容推荐方法及系统_肇庆学院_202410709998.6

学习内容定位方法、装置、及电子设备_江苏云学堂网络科技有限公司_202410865045.9

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种面向中文小说领域的文本内容审核方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务