【发明授权】一种基于重排序的代码搜索去偏差方法及系统_厦门大学_202410176550.2

导航：龙图腾网> 最新专利技术> 一种基于重排序的代码搜索去偏差方法及系统_厦门大学_202410176550.2

申请/专利权人：厦门大学

申请日：2024-02-08

公开（公告）日：2024-06-04

公开（公告）号：CN117725087B

主分类号：G06F16/242

分类号：G06F16/242;G06F16/248;G06F16/28

优先权：

专利状态码：有效-授权

法律状态：2024.06.04#授权;2024.04.05#实质审查的生效;2024.03.19#公开

摘要：本发明提供了代码搜索技术领域的一种基于重排序的代码搜索去偏差方法及系统，方法包括：步骤S1、基于历史搜索语句、历史搜索结果组成的搜索数据构建数据集；步骤S2、计算各搜索数据的MRR分数，基于偏差项对搜索数据分组；步骤S3、通过历史搜索结果计算各历史搜索语句的重排序分数项；步骤S4、计算当前搜索语句在候选代码库搜索候选代码的MRR分数；步骤S5、计算与当前搜索语句最相似的n条搜索数据；步骤S6、基于MRR分数对搜索数据进行聚类得到低MRR分数代码区间；步骤S7、通过低MRR分数代码区间中代码的先验偏差项特征，为候选代码库具有相同偏差项的候选代码的MRR分数加上重排序分数项以进行去偏。本发明的优点在于：极大的提升了代码搜索的准确性。

主权项：1.一种基于重排序的代码搜索去偏差方法，其特征在于：包括如下步骤：步骤S1、定义代码搜索的偏差项，获取历史搜索语句以及所述历史搜索语句在代码搜索模型上的历史搜索结果，基于各所述历史搜索语句以及历史搜索结果组成的搜索数据构建数据集，将所述数据集结构化存储至数据库中；所述偏差项包括长度偏差、抽象语法树节点数据量偏差、AST深度偏差、保留字偏差、词汇重要性偏差以及重叠单词偏差；所述长度偏差用于表征代码搜索模型偏好长度较长的代码片段或者搜索语句；所述抽象语法树节点数据量偏差用于表征代码搜索模型偏好候选代码中AST节点更多的代码；所述AST深度偏差用于表征代码搜索模型偏好候选代码中AST更深的代码；所述保留字偏差用于表征代码搜索模型偏好候选代码中包含更多当前编程语言保留字的代码；所述词汇重要性偏差用于表征代码搜索模型偏好候选代码中包含更多重要性词汇的代码；所述重叠单词偏差用于表征代码搜索模型偏好候选代码中与当前搜索语句重叠单词更多的代码；步骤S2、从所述数据库中读取各所述搜索数据，计算各所述搜索数据的MRR分数，基于所述偏差项对数据集中的搜索数据进行分组；步骤S3、通过所述历史搜索结果计算各历史搜索语句的重排序分数项；所述重排序分数项的计算公式为：；其中，R表示重排序分数项；表示历史搜索语句c的原始分数；所述原始分数为预设代码搜索模型对于给定查询语句，每条候选代码的置信度分数；表示代码搜索模型在训练搜索数据上的MRR分数；表示代码搜索模型在数据集上整体的MRR分数；表示在所有的搜索数据中，代码搜索模型显示低于整体的MRR分数的搜索数据的百分比；步骤S4、通过搜索界面获取当前搜索语句，实时计算所述当前搜索语句在候选代码库搜索候选代码的MRR分数；所述候选代码库为一系列代码片段的结合，用于检索并返回对查询语句的代码；步骤S5、实时计算所述当前搜索语句与数据集中，最相似的n条所述搜索数据，n为正整数；步骤S6、基于MRR分数对最相似的各所述搜索数据进行聚类，得到高MRR代码区间以及低MRR分数代码区间；步骤S7、基于选择的偏差项，通过所述低MRR分数代码区间中代码的先验偏差项特征，为所述候选代码库上具有相同偏差项的候选代码的MRR分数加上重排序分数项以进行去偏，不断重复直至所有的所述偏差项都完成去偏，基于去偏的各所述候选代码生成代码搜索结果，通过所述搜索界面显示代码搜索结果，基于所述代码搜索结果以及当前搜索语句生成搜索日志，对所述搜索日志进行备份；所述先验偏差项特征为对候选代码库中每条代码计算各个偏差项得到的数值。

全文数据：

权利要求：

百度查询：厦门大学一种基于重排序的代码搜索去偏差方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：乙烷混合液烃萃取精馏脱碳系统及方法_长庆工程设计有限公司_202211655444.X

下一篇：一种基于双蒸发器的紧凑式压缩制冷散热系统及应用_苏州华旃航天电器有限公司_202410334871.0

相关技术

乙烷混合液烃萃取精馏脱碳系统及方法_长庆工程设计有限公司_202211655444.X

一种基于双蒸发器的紧凑式压缩制冷散热系统及应用_苏州华旃航天电器有限公司_202410334871.0

一种模拟母乳油脂组合物及其制备方法与应用_杭州岛屿星晴生物技术有限公司_202410349373.3

一种油溶性石墨烯的制备方法_重庆烯达科技有限公司_202410279749.8

一种自润滑长寿命硬质合金串珠及其制备方法和应用_郑州机械研究所有限公司_202311466192.0

交互控制方法、装置及电子设备_网易(杭州)网络有限公司_202410176251.9

一种硅光器件及制造方法_上海集成电路研发中心有限公司_202211648345.9

紧急救援呼救方法、装置、系统及车辆_长城汽车股份有限公司_202410325030.3

一种悬索桥用超硬复合板及其制备工艺_德阳天元重工股份有限公司_202410240910.0

一种红茶的制作方法_安化县亮山茶业有限公司_202310583344.9

催化剂质子膜涂层及其制备方法、以及膜电极、燃料电池_武汉氢能与燃料电池产业技术研究院有限公司_202410642734.3

延时调节方法及装置、电子设备_北京小米移动软件有限公司_202211643851.9

代码相关技术

代码的检验方法、装置、设备及存储介质_北京有竹居网络技术有限公司_202110341854.6

基于大语言模型的代码质控方法及装置_北京惠每云科技有限公司_202410407254.9

代码检测方法、装置及计算机设备_平安银行股份有限公司_202011542708.1

一种低代码应用开发系统及方法_振宁(无锡)智能科技有限公司_202311784864.2

神经网络模型定义代码生成及优化_美光科技公司_202311743374.8

基于JAVA代码输出文档的方法和系统_永中软件股份有限公司_202211652069.3

代码补全方法、装置、电子设备和介质_中国工商银行股份有限公司_202410204963.7

代码覆盖率叠加的方法及系统_中国光大银行股份有限公司_202410256445.X

基于预训练模型的智能合约代码克隆语义相似性检测方法_上海交通大学宁波人工智能研究院_202410571555.5

一种低代码平台的组件管理方法和装置_青岛海尔科技有限公司_202410198511.2

搜索相关技术

信息搜索方法及其装置_维沃移动通信有限公司_202410443326.5

一种文本数据搜索方法及系统_北京航天情报与信息研究所_202410274634.X

用于NR-U WB操作的搜索空间设计_诺基亚技术有限公司_201980098091.8

React中Select组件的内容搜索方法及装置_一网互通(北京)科技有限公司_202410633722.4

可搜索加密的数据共享方法和系统_中国移动通信有限公司研究院_202211644173.8

用于基于相机的搜索的扫描辅助_霍尼韦尔国际公司_202311512449.1

视频搜索方法及装置、电子设备和介质_百度在线网络技术(北京)有限公司_202110492157.0

天区划分与成像区域搜索方法及系统_上海卫星工程研究所_202410158777.4

一种代码搜索方法、装置、电子设备及存储介质_四川大学_202410431330.X

一种基于多尺度融合卷积的目标检测模型搜索方法_上海悠络客电子科技股份有限公司_202111514245.2

偏差相关技术

车身尺寸偏差的预测方法和装置_上汽通用五菱汽车股份有限公司_202410267463.8

一种钢筋施工用偏差检测装置_保定府工建筑工程有限公司_202322974627.4

一种消除工艺偏差的阻抗匹配装置及方法_天津大学合肥创新发展研究院_202410463736.6

一种幅度偏差自补偿晶体振荡器_东南大学_202310241635.X

光功率分段拟合上报偏差评估和校验点选择方法_江苏信而泰智能装备有限公司_202410345118.1

相机安装偏差的确定方法和视觉检测补偿方法_宁德时代新能源科技股份有限公司_202410037531.1

一种周期偏差定位方法、装置、设备、介质及车辆_北京车和家信息技术有限公司_202211631740.6

基于速度偏差和道路语义的在线路网轨迹数据压缩方法_南京邮电大学_202210778393.3

在线修正风力发电机组的对风偏差的方法和装置_金风科技股份有限公司_201911378712.6

一种控制DPF再生时温度偏差大的方法_潍柴动力扬州柴油机有限责任公司_202210960393.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】一种基于重排序的代码搜索去偏差方法及系统_厦门大学_202410176550.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务