达闼机器人股份有限公司罗镇权获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉达闼机器人股份有限公司申请的专利分词方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114676697B 。
龙图腾网通过国家知识产权局官网在2025-07-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210195487.8,技术领域涉及:G06F40/289;该发明授权分词方法及装置是由罗镇权设计研发完成,并于2022-03-01向国家知识产权局提交的专利申请。
本分词方法及装置在说明书摘要公布了:本公开提供一种分词方法及装置,该方法:按照预设粒度将待处理语料划分为多个语料片段;在多个语料片段之间插入遮罩片段,并将包含多个语料片段以及遮罩片段的待预测语料输入预训练语言模型中;通过预训练语言模型预测多个语料片段各自相邻的遮罩片段中的语料信息;基于多个语料片段以及语料信息对待处理语料进行分词处理,得到目标分词结果。该方法通过预训练语言模型能够预测出遮罩片段的语料信息,从而通过预测得到的语料信息完成分词处理,无需借助词典或分词文本即可完成分词,避免人工构建词典或分词文本带来的效率下降,提升分词效率。
本发明授权分词方法及装置在权利要求书中公布了:1.一种分词方法,其特征在于,包括: 按照预设粒度将待处理语料划分为多个语料片段; 在所述多个语料片段之间插入遮罩片段,并将包含所述多个语料片段以及所述遮罩片段的待预测语料输入预训练语言模型中; 通过所述预训练语言模型预测多个语料片段各自相邻的所述遮罩片段中的语料信息; 将各个遮罩片段中的语料信息与相邻的语料片段进行对比; 在各个遮罩片段对应的待选字集合中,查询是否存在与各个遮罩片段相邻的语料片段中一致的字; 若待选字集合中不存在与相邻语料片段中一致的字,则确定当前遮罩片段的语料信息与相邻语料片段均不匹配,并以当前遮罩片段作为第一遮罩片段,并在第一遮罩片段处标注切分标识; 若待选字集合中存在与相邻的任一语料片段中一致的字,则确定当前遮罩片段的语料信息与相邻语料片段匹配,并将当前遮罩片段相邻的语料片段合并为一个词; 基于所述切分标识对所述待处理语料中的多个语料片段进行切分,得到目标分词结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人达闼机器人股份有限公司,其通讯地址为:200245 上海市闵行区中青路207号8幢;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。