买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:奇点智保(北京)科技有限公司
摘要:本发明提供了一种文本处理方法、装置、电子设备和存储介质,涉及文本处理领域,方法包括:首先对待处理的文本进行去噪处理,接着将去噪处理后的文本输入经训练的AI模型中,得到对应的预测结果和中间处理数据,然后,基于中间处理数据获取该文本的关键字,能够知晓预测结果的产生原因,起到溯源作用,提高用户体验。
主权项:1.一种文本处理方法,其特征在于,所述方法包括如下步骤:S200,基于待处理的初始文本对应的参考关键字集,获取所述待处理的初始文本的关键字集,作为初始文本的第一关键字集KWI1={KWI11,KWI12,……,KWI1t,……,KWI1d};KWI1t为KWI1中的第t个关键字,t的取值为1到d,d为KWI1t中的关键字的数量;所述待处理的初始文本包括文本内容和文本描述,所述文本描述为基于所述文本内容得到的描述;S210,基于经训练的AI模型,获取所述初始文本对应的预测结果和对应的注意力权重矩阵R0;其中,所述预测结果通过将所述初始文本包括的文本内容输入到经训练的AI模型中得到,所述注意力权重矩阵R0为所述经训练的AI模型的中间数据,所述注意力权重矩阵R0的第i行第j列的元素dij表示第i个纵向位置标识LVi对第j个横向位置标识LHj的注意力权重,其中,LVi对应初始文本中的第i个字符,LHj对应预测结果中的第j个字符,i的取值为1到m,m为初始文本中的字符的数量,j的取值为1到n,n为预测结果中的字符的数量;S220,基于R0,获取所述初始文本的关键字集,作为初始文本的第二关键字集KWI2={KWI21,KWI22,……,KWI2k,……,KWI2Q},KWI2k为KWI2中的第k个关键字,k的取值为1到Q,Q为KWI2中的关键字的数量;S230,基于KWI1和KWI2,对所述初始文本是否存在异常进行判断,如果存在异常,对所述初始文本执行对应的处理操作,得到对应的目标文本;如果不存在异常,将所述初始文本作为目标文本;S240,基于所述经训练的AI模型,获取所述目标文本对应的预测结果和对应的注意力权重矩阵R,以及基于R,获取所述目标文本对应的关键字;S250,如果所述目标文本对应的预测结果与所述目标文本对应的文本描述不一致,输出表示所述目标文本对应的预测结果与所述目标文本对应的文本描述不一致的提示信息,并将所述目标文本对应的关键字进行可视化显示;其中,KWI2通过如下步骤获取得到:S2201,设置j=1;S2202,如果j≤n,设置i=1,执行S2203,如果j>n,执行S2207;S2203,如果i≤m,执行S2204,否则,执行S2206;S2204,对于dij,如果dij≥W0,将dij对应的纵向位置标识LVi加入当前的第j个候选关键字集合KWCj中,执行S2205,否则,直接执行S2205,其中,KWCj的初始值为空,W0为预设权重阈值;W0=(1m)×k,k为预设系数,k>1;S2205,设置i=i+1,执行S2203;S2206,设置j=j+1,执行S2202;S2207,获取关键字交集KWI=(KWC1∩KWC2∩……∩KWCj∩……∩KWCn);执行S2208;S2208,基于KWI获取KWI2;S2208具体包括:S1,设置变量r=1;S2,如果r≤p,执行S3,否则,执行S5;p为KWI中的纵向位置标识的数量;S3,对于KWI中的第r个纵向位置标识Lr,如果Lr≠(Lr-1+1)并且Lr≠(Lr+1-1),将Lr加入当前的异常位置标识集LS中,执行S4;否则,执行S4;LS的初始值为空;S4,设置r=r+1,执行S2;S5,将KWI中除LS中的纵向位置标识之外的纵向位置标识对应的字符作为第一中间关键字,以及将LS中的纵向位置标识对应的连续片段作为第二中间关键字;执行S6;所述连续片段由目标文本中包含对应的纵向位置标识对应的字符并且位于两个相邻的标点符号之间的字符串形成;S6,获取第一中间关键字和第二中间关键字的并集作为KWI2。
全文数据:
权利要求:
百度查询: 奇点智保(北京)科技有限公司 一种文本处理方法、装置、电子设备和存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。