基于遗传算法的发现大语言模型冒犯性回复方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：电子科技大学

摘要：本发明提供了一种基于遗传算法的发现大语言模型冒犯性回复方法，从指令数据集和有害提示数据集中随机抽取一部分内容，通过迭代过程，模拟遗传算法的搜索中能引起语言模型危险回复的提示词，通过使用语言模型修改有害提示数据集中的有害提示，通过规则化的函数执行提示词交叉操作，评估文本中的冒犯程度。基于本发明的技术方案，能够发现大型语言模型可能产生的大量冒犯性回复的提示。通过对识别出的引发危险回复的提示进行有针对性的训练，降低语言模型产生冒犯性回复的可能性，从而提高其整体安全性。

主权项：1.一种基于遗传算法的发现大语言模型冒犯性回复方法，语言模型包括指令数据集和有害提示数据集，其特征在于，包括以下步骤：S1.从指令数据集和有害提示数据集中随机抽取一部分内容，形成“初始种群”；S2.通过迭代过程，模拟遗传算法的搜索中能引起语言模型危险回复的提示词，迭代过程中包括变异、交叉、评估、选择操作；S3.使用语言模型修改有害提示数据集中的有害提示，模拟遗传算法中的变异操作以生成变异提示；S4.通过规则化的函数执行提示词交叉操作，将“指令”和有害提示进行交叉，从而生成一个新的交叉提示；S5.将经过变异、交叉操作后的提示词输入待检测的语言模型，得到语言模型的回复；S6.将语言模型的回复输入冒犯性语言评估模块，用于评估文本中的冒犯程度；S7.保留评估模块评估更高冒犯性得分响应的提示，形成新一代的种群；通过重复迭代过程，识别出能引发语言模型潜在攻击性响应的提示。

全文数据：

权利要求：

百度查询：电子科技大学基于遗传算法的发现大语言模型冒犯性回复方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：识别操作终端设备的手势的方法和终端设备

下一篇：电力检修工具的夹持装置

相关技术

识别操作终端设备的手势的方法和终端设备

电力检修工具的夹持装置

一种用于土壤检测的土壤钻孔取土装置

一种用于化工材料的干燥装置

一种生活垃圾与市政污泥协同处理系统及方法

一种胶囊药粒干燥装置及其干燥方法

信息推送方法、装置、电子设备及存储介质

一种紫外光固化机器人

显示设备

一种用于MTS816实验的破碎试样收集装置及使用方法

用于提高预应力筋内缩量测量精度的布测方法以及装置

用于运行电动车辆的驱动系统的方法和用于电动车辆的驱动系统

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于遗传算法的发现大语言模型冒犯性回复方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务