首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于语义信息增强的Bash代码注释生成方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南通大学

摘要:本发明提供了一种基于语义信息增强的Bash代码注释生成方法,属于计算机领域。解决了Bash注释生成任务中数据集较小和不能全部利用CodeBERT输出的所有特征信息的问题。其技术方案为:包括以下步骤:S1:在语料库生成的嵌入层使用对抗训练,生成对抗样本以增强语义信息;S2:使用原语料库生成的词嵌入和对抗样本对CodeBERT进行微调,输出12层表征信息;S3:使用Bi‑LSTM+注意力机制聚合12层表征信息,生成融合信息;S4:使用解码器进行解码并输出Bash注释。本发明的有益效果为:本发明提出的模型可以捕获和利用更多的语义表征信息,从而提高注释生成的质量和可靠性。

主权项:1.一种基于语义信息增强的Bash代码注释生成方法,其特征在于,包括以下步骤:S1、将NL2Bash研究中共享的语料库和NLC2CMD竞赛共享的语料库合并,再删除重复的样本,最终构建了一个包含10,592个样本的高质量数据集E,设定数据集的格式为代码,注释;S2、对构建的数据集随机划分成训练集、验证集和测试集,同时构建预训练模型CodeBERT;S3、使用CodeBERT生成词嵌入C1,并在Embedding层使用PGD对抗训练方法添加干扰,生成一系列对抗样本C2;S4、在所述步骤S3得到的词嵌入C1和对抗样本C2上继续微调CodeBERT,输出12层表征信息CLSi,同时构建Bi-LSTM神经网络;S5、使用由12个单元构成的Bi-LSTM神经网络聚合所述步骤S4得到的12层表征信息CLSi,输出12个隐向量hi;S6、使用注意力机制根据不同权重聚合所述步骤S6得到的12个隐向量hi,得到最终融合向量h;S7、使用Transformer解码器对所述步骤S7得到的最终融合向量h进行解码并输出相应Bash代码注释。

全文数据:

权利要求:

百度查询: 南通大学 一种基于语义信息增强的Bash代码注释生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。