首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种多阶段语音与文本容错对齐的方法及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:青岛科技大学

摘要:本发明公开了一种多阶段语音与文本容错对齐的方法及装置,包括:将语音转换成文字,形成识别文本的第一阶段;在原始文本与识别文本中,通过寻找最长递增子序列搜索锚点的第二阶段;根据锚点在句子中的位置关系,在识别文本中划分出初步对齐段和未对齐段的第三阶段;对未对齐段重复执行第二、三阶段,直到未对齐段不再发生变化或者没有新的锚点出现为止的第四阶段;针对未对齐段,采用相似度计算函数在识别文本中寻找与原始文本中最相似的字词作为句子边界,对未对齐段进行初步对准的第五阶段;判断初步对齐的句子是精确对准还是错误对准的第六阶段。本发明的文语对齐方法可以有效解决连续、非完全匹配的长语音与文本的句子级的对准问题。

主权项:1.一种多阶段语音与文本容错对齐的方法,其特征在于,包括:第一阶段:将语音转换成文字,形成识别文本;第二阶段:在原始文本与所述识别文本中,通过寻找最长递增子序列搜索锚点;其包括:将所述原始文本和识别文本中的文字转换成拼音;对原始文本和识别文本中的拼音进行相似度匹配,找出识别文本与原始文本中匹配完全一致的字词;根据所述匹配完全一致的字词在原始文本中的位置,采用寻找最长递增子序列的方法获取锚点集合;第三阶段:根据所述锚点在句子中的位置关系,在识别文本中采用以下对准规则划分出初步对齐段和未对齐段:对准规则1:一个句子中锚点之间的部分划分为初步对齐段;对准规则2:跨句子的锚点之间的部分划分为未对齐段;第四阶段:对所述未对齐段重复执行所述第二阶段和第三阶段,直到未对齐段不再发生变化或者没有新的锚点出现为止;第五阶段:针对所述未对齐段,采用相似度计算函数在识别文本中寻找与原始文本中最相似的字词作为句子边界,对未对齐段进行初步对准;第六阶段:对初步对齐的句子进行精确对准和错误对准的判断。

全文数据:

权利要求:

百度查询: 青岛科技大学 一种多阶段语音与文本容错对齐的方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。