买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:电子科技大学
摘要:本发明提供了一种基于遗传算法的发现大语言模型冒犯性回复方法,从指令数据集和有害提示数据集中随机抽取一部分内容,通过迭代过程,模拟遗传算法的搜索中能引起语言模型危险回复的提示词,通过使用语言模型修改有害提示数据集中的有害提示,通过规则化的函数执行提示词交叉操作,评估文本中的冒犯程度。基于本发明的技术方案,能够发现大型语言模型可能产生的大量冒犯性回复的提示。通过对识别出的引发危险回复的提示进行有针对性的训练,降低语言模型产生冒犯性回复的可能性,从而提高其整体安全性。
主权项:1.一种基于遗传算法的发现大语言模型冒犯性回复方法,语言模型包括指令数据集和有害提示数据集,其特征在于,包括以下步骤:S1.从指令数据集和有害提示数据集中随机抽取一部分内容,形成“初始种群”;S2.通过迭代过程,模拟遗传算法的搜索中能引起语言模型危险回复的提示词,迭代过程中包括变异、交叉、评估、选择操作;S3.使用语言模型修改有害提示数据集中的有害提示,模拟遗传算法中的变异操作以生成变异提示;S4.通过规则化的函数执行提示词交叉操作,将“指令”和有害提示进行交叉,从而生成一个新的交叉提示;S5.将经过变异、交叉操作后的提示词输入待检测的语言模型,得到语言模型的回复;S6.将语言模型的回复输入冒犯性语言评估模块,用于评估文本中的冒犯程度;S7.保留评估模块评估更高冒犯性得分响应的提示,形成新一代的种群;通过重复迭代过程,识别出能引发语言模型潜在攻击性响应的提示。
全文数据:
权利要求:
百度查询: 电子科技大学 基于遗传算法的发现大语言模型冒犯性回复方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。