首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

文本纠错方法、装置、计算机存储介质及计算机程序产品 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:阿里巴巴达摩院(杭州)科技有限公司

摘要:本申请实施例提供了一种文本纠错方法、装置、计算机存储介质及计算机程序产品。该方法包括:对待纠错文本进行切分,获得待纠错文本中的多个文字;获得多个文字分别对应的语义向量、读音向量和字形向量,并根据语义向量、读音向量和字形向量生成多个文字的特征向量,由于考虑了文字对应的语义、读音和字形,使得生成的特征向量携带的信息更为丰富,表达的文字特征更准确。根据多个文字的特征向量,获得待纠错文本中的多个文字在词表中分别映射到多个候选文字的概率;根据多个文字的音形向量和词表的音形向量,计算表征待纠错文本与正确文本之间的相似度。然后根据多个候选文字的概率和相似度,确定待纠错文本的输出结果,提高了文本纠错的准确性。

主权项:1.一种文本纠错方法,包括:对待纠错文本进行切分,获得所述待纠错文本中的多个文字;获得所述多个文字分别对应的语义向量、读音向量和字形向量,并根据所述语义向量、所述读音向量和所述字形向量生成多个文字的特征向量;针对所述多个文字中的每个文字,对该文字的特征向量进行编码,得到该文字的特征向量的隐藏状态;对该文字的特征向量的隐藏状态进行基于词表中的候选文字的分类,得到该文字在词表中分别映射到多个候选文字的概率,其中,所述概率用于表示该文字分别匹配候选文字的置信度;根据所述多个文字的音形向量和词表的音形向量,计算表征所述待纠错文本与正确文本之间的相似度,其中,所述音形向量根据所述读音向量和所述字形向量生成,所述相似度为对音形向量乘积进行归一化处理得到,所述音形向量乘积为所述多个文字的音形向量和所述词表的音形向量的乘积;将所述多个候选文字的概率和所述相似度进行相乘,得到所述待纠错文本的相似概率;将所述待纠错文本的相似概率中概率最大值对应的文本作为所述待纠错文本的输出结果。

全文数据:

权利要求:

百度查询: 阿里巴巴达摩院(杭州)科技有限公司 文本纠错方法、装置、计算机存储介质及计算机程序产品

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术