恭喜北京信息科技大学;复杂系统仿真总体重点实验室吕学强获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜北京信息科技大学;复杂系统仿真总体重点实验室申请的专利一种稀疏样本下武器装备领域长术语的抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117034915B 。
龙图腾网通过国家知识产权局官网在2025-05-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310053706.3,技术领域涉及:G06F40/279;该发明授权一种稀疏样本下武器装备领域长术语的抽取方法是由吕学强;肖刚;游新冬;韩君妹设计研发完成,并于2023-02-03向国家知识产权局提交的专利申请。
本一种稀疏样本下武器装备领域长术语的抽取方法在说明书摘要公布了:本发明涉及自然语言处理领域的文本处理方法,针对术语自动抽取任务,为了解决武器装备领域样本稀疏和长术语难以识别的问题,本文提出头尾指针和主动学习相结合的方法。在术语抽取模型方面,提出了融合五笔特征的头尾指针网络的术语抽取模型,使用BERT预训练语言模型得到词向量表示,利用头尾指针网络对长术语进行抽取;然后提出新的主动学习采样策略,在未标注样本上筛选高质量样本不断迭代训练模型,降低模型对数据规模的依赖。
本发明授权一种稀疏样本下武器装备领域长术语的抽取方法在权利要求书中公布了:1.一种稀疏样本下武器装备领域长术语的抽取方法,其特征在于,包括以下步骤:在嵌入层模块,将包含武器装备领域术语的非结构化文本进行数据预处理,得到输入序列;所述输入序列通过BERT编码得到字向量,将BERT输出的字向量通过第一个线性层分类器得到术语开头的标注序列,具体是对每一个字符进行一个二分类,分类器预测的分值代表了该字符是术语开头的概率大小;在得到术语开头的标注序列结果之后,将术语开头的标注序列结果拼接到BERT字向量上送入线性层分类器得到术语结尾的标注序列;进行主动学习采样,对未标注的样本进行挑选,具体包括:使用基于字符粒度的Margin采样策略,分别计算预测出的序列中每个位置二分类的概率大小的差值,每个位置的概率差值累加作为整个序列的置信度,基于置信度进行序列采样;使用基于术语头尾数量差值的采样策略,将预测出的序列中的术语头尾数量差值作为置信度,基于术语头尾数量差值进行序列采样;在使用基于术语头尾数量差值的采样策略进行采样时,先判断待采样序列是否已通过基于字符粒度的Margin采样策略被采样,如果已经被采样则不再进行采样,如果没有被采样过则正常进行采样;更新训练数据,在循环训练模型F1值达到使用全量数据训练情况下的F1值或采样轮数大于12时终止循环。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京信息科技大学;复杂系统仿真总体重点实验室,其通讯地址为:100192 北京市海淀区清河小营东路12号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。