恭喜重庆大学鄢萌获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜重庆大学申请的专利一种基于大模型数据增强的项目域代码摘要自动生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119166211B 。
龙图腾网通过国家知识产权局官网在2025-05-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411320547.X,技术领域涉及:G06F8/73;该发明授权一种基于大模型数据增强的项目域代码摘要自动生成方法是由鄢萌;李璐;张小洪;毕霁超;徐玲;雷晏设计研发完成,并于2024-09-23向国家知识产权局提交的专利申请。
本一种基于大模型数据增强的项目域代码摘要自动生成方法在说明书摘要公布了:本发明涉及一种基于大模型数据增强的项目域代码摘要自动生成方法,该方法包括项目相似度数据增强、项目域元学习微调、项目域代码摘要生成。首先通过对比学习构造正负样本从函数粒度的源代码中计算代码相似度分数并基于项目相似度计算生成项目域增强数据,其次通过元学习技术进行项目域微调,通过项目域子任务来学习多元项目特征信息,以保证对项目域中增强数据的噪声的抗噪性能,最后目标项目域数据上进行微调,将步骤二的元学习模型参数嵌入目标域任务以整合项目域数据信息,使用解码器进行代码摘要生成。本发明能够通过与代码预训练模型相结合来增强代码摘要方法在处理少样本项目域数据信息方面的能力,从而提高代码摘要生成的性能和效率。
本发明授权一种基于大模型数据增强的项目域代码摘要自动生成方法在权利要求书中公布了:1.一种基于大模型数据增强的项目域代码摘要自动生成方法,其特征在于,包括以下步骤:步骤1:项目相似度数据增强,根据输入的取样项目级源代码及辅助增强项目级源代码,将取样项目级源代码及辅助增强项目级源代码解析为项目级向量pE,其中E代表源代码词嵌入向量,p代表项目级向量映射,计算输入的取样项目级源代码与每段辅助增强项目级源代码之间的项目级相似度分数RelScore,将RelScore按照从大到小降序排列,取前n个且RelScore大于增强项目数据集阈值的RelScore所对应的辅助增强项目级源代码作为增强数据集;步骤2:选取代码摘要生成模型并训练,基于MAML元学习框架对代码摘要生成模型进行训练得到最优代码摘要生成模型;代码摘要生成模型训练过程中,项目域元学习模型的损失函数表示MAMLLoss为:φ0=Cloneφ′ 其中,φ′表示初始网络参数,表示在每个项目的支持数据集上进行优化后的权重参数和超参数,φk表示在每个项目的查询数据集上更新后获得的查询数据集子任务网络参数,λsup和λqry分别表示支持数据集和查询数据集子任务网络学习率,liφi表示每个项目的子任务网络的损失函数;对增强数据集训练任务进行子任务划分,生成支持数据集和查询数据集 其中,N为元学习框架中的网络超参数,对每个子任务进行训练,计算子任务损失函数; 其中,Lsupport表示支持数据集的子任务网络损失函数,X表示支持数据集的源代码,表示支持数据集的摘要,表示每个项目的支持数据集的子任务网络参数;算出梯度并更新参数: 其中,表示对支持数据集损失函数的梯度计算,φk表示每个项目的查询数据集的子任务网络参数;对查询数据集 其中,Lquery表示查询数据集的子任务网络损失函数,X′表示查询数据集的源代码,表示查询数据集的摘要,φk表示每个项目的查询数据集的子任务网络参数;更新参数: 其中,表示对每个项目的查询数据集损失函数的梯度计算;将目标项目数据集划分为支持数据集和查询数据集,利用目标项目数据集的支持数据集进行微调让元学习框架的模型继续学习少量样本,使用其查询数据集来评估训练后模型的性能,具体生成方法如下: 其中,Lsup表示目标项目支持数据集的子任务网络损失函数,X表示目标项目支持数据集的源代码,表示目标项目支持数据集的摘要,ψ表示目标项目支持数据集的子任务网络参数;更新网络参数: 其中,λ表示目标项目支持数据集的子任务网络的学习率,是元学习框架的网络的损失函数在目标项目支持数据集上的梯度,表示网络在目标项目支持数据集上的损失函数;步骤3:将目标项目代码输入最优代码摘要生成模型,输出其对应的代码摘要。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆大学,其通讯地址为:400044 重庆市沙坪坝区沙正街174号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。