首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

实现超高质量的自然语义智能审核方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:东方财富信息股份有限公司

摘要:在工业界中,通过算法实现文本分类,一直存在预测质量瓶颈质量指标召回率、查准率约70%~80%并且长期无法突破。约束算法预测质量的原因有二个:1、算法的语义表达能力不足以表达海量文本数据的复杂特征,2、训练数据本身质量不好,存在大量噪音,导致算法无法很好收敛。本发明提供的一种实现超高质量的自然语义智能审核方法从这两个方面下手,提出CNN3Wide双塔深度学习模型,融合低阶和高阶特征,丰富语义表达能力,然后通过数据分区,多模型交叉验证数据置信度,概率留存,自动迭代清洗低置信度的数据,经过多轮迭代,算法最终突破瓶颈,预测质量可达到“三九纯金”99.9%,为实现超高质量的自然语义智能审核,提供一种切实可行的解决方案。

主权项:1.一种实现超高质量的自然语义智能审核方法,其特征在于,包括以下步骤:步骤1、建立双塔神经网络模型,该双塔神经网络模型包括:嵌入层:文本经过单字字符字典One-Hot向量化之后输入嵌入层,由嵌入层用于将原本高维稀疏空间的高纬文本向量y0嵌入到低维稠密空间得到低维文本向量y1,其中,高维稀疏空间的维度为Done-hot,Done-hot为单字字符字典的字数,低维稠密空间的维度为De,De<<Done-hot;基于单层CNN实现的交叉网络及基于多层CNN实现的深度网络:低维文本向量y1同时输入到交叉网络及深度网络;通过交叉网络提取低维文本向量y1的低阶特征y2,通过深度网络提取低维文本向量y1的高阶特征y3;展平层:用于对交叉网络输出的低阶特征y2和深度网络输出的高阶特征y3分别进行展平操作,得到展平的低阶特征y2,记为Flatteny2,以及展平的高阶特征y3,记为Flatteny3;联结层Concatenate:用于将展平层Flatten输出的Flatteny2及Flatteny3拼接成向量[Flatteny2,Flatteny3];两个全连接层DNN及Sigmoid函数输出层:向量[Flatteny2,Flatteny3]经过两个全连接层DNN后,向量[Flatteny2,Flatteny3]中的Flatteny2与Flatteny3充分交叉,最后通过Sigmoid函数输出层输出预测打标结果y;步骤2、对步骤1得到的双塔神经网络模型进行训练,得到M个第N代双塔神经网络模型,M为大于1的整数,包括以下步骤:步骤201、设n=0;为真删除真保留标签数据、置信度100%错删漏删标签数据、置信度错删漏删标签数据和不确定标签数据,分别设置不同的留存率,其中,对于置信度错删漏删标签数据,基于不同的置信度设置不同的留存率;步骤202、基于第n个版本的训练数据集形成M组数据,M组数据之间无差异;步骤203、利用M组数据分别训练M个同构的步骤1建立的双塔神经网络模型,得到M个第n代双塔神经网络模型,对于分组数据中的每个数据得到M个双塔神经网络模型给出的预测打标结果;对于同一个数据:若训练数据集中该数据的人工打标结果为删除,且M个双塔神经网络模型给出的预测打标结果也为删除,或者若训练数据集该数据的人工打标结果为保留,且M个双塔神经网络模型给出的预测打标结果也为保留,则该数据为真删除真保留标签数据;若训练数据集中该数据的人工打标结果为删除,且M个双塔神经网络模型给出的预测打标结果为保留,或者若训练数据集该数据的人工打标结果为保留,且M个双塔神经网络模型给出的预测打标结果为删除,则该数据为置信度100%错删漏删标签数据;若训练数据集中该数据的人工打标结果为删除,且M个双塔神经网络模型中M1个双塔神经网络模型给出的预测打标结果为删除,其余双塔神经网络模型给出的预测打标结果为保留,或者若训练数据集该数据的人工打标结果为保留,且M个双塔神经网络模型中M1个双塔神经网络模型给出的预测打标结果为删除,其余双塔神经网络模型给出的预测打标结果为保留,则该数据为置信度错删漏删标签数据;若错删漏删标签数据置信度为50%,则将该错删漏删标签数据重新定义为不确定标签数据;步骤204、获得训练数据集中每个数据的留存率,通过产生随机数,将留存率大于随机数的数据保留下来,抛弃留存率小于随机数的数据;步骤205、n=n+1,若n大于N,则退出,否则进入步骤206;步骤206、上一步保留下来的数据通过混洗的方式得到第n个版本的训练数据集,返回步骤202;步骤3、训练后的M个第N代双塔神经网络模型中的至少一个通过接口的方式对外提供智能审核的微服务,包括以下步骤:将基于双塔神经网络模型实现的应用整体打包成镜像,把应用的运行环境与机器系统的环境隔离分开,把镜像发布到多个机器上,并且在每个机器内实例化成多个容器,机器内的所有容器并行对外提供微服务;为该微服务配置一个域名,通过域名服务器将对微服务的访问请求的压力随机分配到各个机器,机器再进一步将访问请求的压力随机分配到各个容器中,从而响应请求获取微服务。

全文数据:

权利要求:

百度查询: 东方财富信息股份有限公司 实现超高质量的自然语义智能审核方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。