买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:苏州魔视智能科技有限公司
摘要:本发明涉及自然语言处理技术领域,公开了一种语言数据处理方法、装置、计算机设备及存储介质,该方法包括:获取待识别的词语数组,所述词语数组中的元素为互不相同的词语;按照长度从小到大的顺序对所述词语进行排序;针对每一所述词语,判断是否是由所述词语前面的两个或两个以上的词语组成;若是,则确定所述词语为组合词。本发明降低了在一组给定的词语列表中找出所有的组合词的时间复杂度,提高了组合词的查找效率。
主权项:1.一种语言数据处理方法,其特征在于,所述方法包括:获取待识别的词语数组,所述词语数组中的元素为互不相同的词语;按照长度从小到大的顺序对所述词语进行排序;针对每一所述词语,判断是否是由所述词语前面的两个或两个以上的词语组成;若是,则确定所述词语为组合词;所述针对每一所述词语,判断是否是由所述词语前面的两个或两个以上的词语组成,包括:对于当前正在判断的目标词语,建立目标数组,所述目标数组的长度比所述目标词语的长度多1;将所述目标数组中的各元素置为初始值;按顺序判断所述目标词语的每一子词语是否是排在所述目标词语前面的词语;若是,则更新所述目标数组中对应的第一目标元素的值;根据更新后的所述目标数组中元素的值,确定所述目标词语是否是由所述目标词语前面的两个或两个以上的词语组成;所述按顺序判断所述目标词语的每一子词语是否是排在所述目标词语前面的词语;若是,则更新所述目标数组中对应的第一目标元素的值,包括:按照从短到长的顺序依次获取所述目标词语的第一个字开始的第一子词语;对于获取到的所述第一子词语,判断是否是排在所述目标词语前面的词语;若是,则更新所述目标数组中所述第一子词语对应的所述第一目标元素的值;按照从短到长的顺序依次获取所述目标词语的第二个字开始的第二子词语、所述目标词语的其他字开始的第二子词语;所述其他字是所述目标词语中除所述第一个字和所述第二个字以外的字;对于获取到的所述第二子词语,判断是否是排在所述目标词语前面的词语;若是,则更新所述目标数组中所述第二子词语对应的所述第一目标元素的值;所述更新所述目标数组中所述第二子词语对应的所述第一目标元素的值,包括:在所述第二子词语的起始字是所述目标词语中的第M个字,所述第二子词语的末尾字是所述目标词语中的第N个字的情况下,确定所述目标数组中所述第二子词语对应的所述第一目标元素为第N+1个元素;将所述目标数组中的所述第N+1个元素的值更新为第M个元素的值加上预设值;所述按照从短到长的顺序依次获取所述目标词语的第二个字开始的第二子词语、所述目标词语的其他字开始的第二子词语,包括:根据所述目标数组中的第二目标元素的最新值,确定是否获取所述目标词语的第L个字开始的所述第二子词语;所述第二目标元素是与所述目标词语的第L-1个字对应的元素,所述第二目标元素的最新值能够指示,所述目标词语的第一个字至所述第L-1个字组成的子词语是否是所述目标词语前面的词语、或者是由所述目标词语前面的两个或两个以上的词语组成;L为大于1的整数;若是,则获取所述目标词语的第L个字开始的所述第二子词语;否则,跳过获取所述目标词语的第L个字开始的所述第二子词语。
全文数据:
权利要求:
百度查询: 苏州魔视智能科技有限公司 语言数据处理方法、装置、计算机设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。