首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

在异构语义空间中基于假设检验的软件跨模态检索方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:哈尔滨工业大学

摘要:本发明公开了一种在异构语义空间中基于假设检验的软件跨模态检索方法,所述方法使用分布生成网络将文本投影到分布空间中的CFP相关分布;将代码表示为控制流图,并抽取其中所有的路径;利用样本生成网络将CFP映射为样本空间中的CFP样本向量,此时代码被表示为一个CFP样本向量集合;使用假设检验计算CFP样本向量集合对CFP相关分布的服从程度作为二者的匹配分数,并用于实现代码检索文本或文本检索代码形式的跨模态检索任务。本发明首次提出将代码和文本投影到异构语义空间中进行表示学习,即将文本投影到CFP相关分布空间并将代码投影到CFP样本空间,能够准确表征文本和代码各自的独特语义,提高跨模态检索的准确性。

主权项:1.一种在异构语义空间中基于假设检验的软件跨模态检索方法,其特征在于所述方法包括如下步骤:步骤1:对文本和代码数据进行预处理,具体步骤如下:步骤11:文本预处理去除文本中的停用词、数字以及标点符号,拆分以驼峰命名法或下划线命名法出现的标识符,并对每一个词进行词性还原和小写化;步骤12:提取代码中的CFP对于文件粒度的搜索任务,首先基于下推自动机的函数文法分析器提取代码文件中的所有函数,随后对函数中的语句换行方式进行规范化,最后将每一个函数都转化为CFG,并通过深度优先搜索提取其中的每一条CFP;步骤13:CFP预处理对CFP中以驼峰命名法或下划线命名法命名的标识符进行拆分,并对拆分后的token进行词性还原和小写化;步骤2:使用分布生成网络将文本表示为CFP相关分布,将CFP相关分布的协方差矩阵∑看作是一个对角线元素大于0而其他元素为0的对角阵,并将由其对角线元素构成的向量定义为σ2,由σ2中每个元素的平方根的倒数构成的向量定义为σ-1,具体步骤如下:步骤21:将文本中的单词表示为独热编码,并使用词嵌入层将文本中的每个单词表示为词嵌入向量;步骤22:使用Text-CNN网络提取文本的语义向量表示;步骤23:将该文本的语义向量表示送入激活函数为tanh的全连接层中生成期望向量μ并输出;步骤24:将该文本的语义向量表示送入激活函数为sigmoid的全连接层中生成标准差倒数向量σ-1并输出,生成的μ和σ2可以唯一地表示一个CFP相关分布Nμ,σ2;步骤3:使用样本生成网络将代码表示为CFP样本向量集合;步骤4:使用某种假设检验方法在异构语义空间中计算CFP样本向量集合和CFP相关分布的匹配分数,具体步骤如下:步骤41:做出零假设H0:EX=μ和另外一个可供选择的假设H1:EX≠μ,其中X=[x1,x2,…,xm]为CFP样本向量集合,xi为第i个CFP样本向量,EX为X的均值,μ为CFP相关分布的期望向量;步骤42:选择统计量T2,有: 其中,⊙表示哈达玛积;步骤43:当假设H0成立时,T2服从卡方分布,记作T2~χ2,采用左边检验,当显著性水平为α时有: 是一个小概率事件,如果假设H0成立导致该小概率事件的发生,可以认为采样检验的结果与假设H0成立相矛盾,因此应该拒绝假设H0并接受假设H1,反之,当时则接受假设H0并拒绝假设H1;步骤5:通过三元组损失函数和随机梯度下降算法优化分布生成网络和样本生成网络;步骤6:使用步骤5训练好的分布生成网络和样本生成网络实现文本检索代码形式的软件跨模态检索任务;步骤7:使用步骤5训练好的分布生成网络和样本生成网络实现代码检索文本形式的软件跨模态检索任务。

全文数据:

权利要求:

百度查询: 哈尔滨工业大学 在异构语义空间中基于假设检验的软件跨模态检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。