首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种乱序文字的自动组词方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:汕头大学;广东叁玖捌大数据科技有限公司

摘要:本发明公开了一种乱序文字的自动组词方法,先利用训练文本结合预设的训练模型构建出字符表,对于输入的乱序文字,遍历所有排序,并基于构建好的字符表,计算每个排序对应的自然语序度量值,最后以自然语序度量值最高的排序作为乱序文字的排序结果。采用本发明技术方案能减少训练成本,而且采用本发明的组词方法能够有效解决中文并列短语的判断准确率低的问题,提高组词的准确性。

主权项:1.一种乱序文字的自动组词方法,其特征在于,包括:根据预先获取的训练文本,经过训练模型训练后构建字符表;其中,所述字符表包括第一字符词频表、第二字符词频表和字符查找表;所述第一字符词频表中的元素记录了相邻字符组合在所有训练文本中的出现频次;所述第二字符词频表中的元素记录了相隔1字符的组合在所有训练文本中的出现频次;所述字符查找表记录了若干个常用字符以及每个常用字符在所有训练文本中的出现总次数;获取待组词乱序文字对应的待组词字符串,并根据字符串中的字符查找表查询所有待组词字符串对应的出现总次数,以此构建第一向量;根据所述待组词字符串当前的字符排列顺序,分别查询所述第一字符词频表和所述第二字符词频表,并根据查询结果构建第一条件概率计数向量和第二条件概率计数向量;根据第一向量、第一条件概率计数向量和第二条件概率计数向量,分别计算得出所述待组词字符串对应的第一条件概率向量和第二条件概率向量;分别对所述第一条件概率向量和第二条件概率向量中的各元素取对数,并将概率之积转化为对数概率之和,依次获得第一自然语序度量值和第二自然语序度量值;根据所述第一自然语序度量值和第二自然语序度量值,获得所述待组词字符串当前的字符排列顺序对应的自然语序度量值,并遍历所述待组词字符串的所有字符排列顺序,按照相同的计算方法,依次获得若干个自然语序度量值,再选择自然语序度量值最大的字符排列顺序,将所述待组词字符串进行自动组词。

全文数据:

权利要求:

百度查询: 汕头大学 广东叁玖捌大数据科技有限公司 一种乱序文字的自动组词方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。