首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】测评题目动态生成方法及系统、电子设备、可读存储介质_北京邮电大学_202410381770.9 

申请/专利权人:北京邮电大学

申请日:2024-04-01

公开(公告)日:2024-06-21

公开(公告)号:CN117993366B

主分类号:G06F40/166

分类号:G06F40/166;G06F40/194;G06F40/253;G06N3/045;G06N3/048

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2024.05.24#实质审查的生效;2024.05.07#公开

摘要:本公开提供了一种测评题目动态生成方法及系统、电子设备、可读存储介质,属于模型测评领域,该方法包括:基于种子题目和提示生成多个第一测试题目;基于目标模型针对多个第一测试题目的第一回复信息确定多个第一测试题目的难度;若多个第一测试题目的难度不符合预设难度,则对多个第一测试题目进行调整,返回执行基于目标模型针对多个第一测试题目的回复信息确定多个第一测试题目的难度的步骤;若多个第一测试题目的难度符合预设难度,则将多个第一测试题目确定为针对目标模型的测试题目。本公开提供的测评题目动态生成方法及系统、电子设备、可读存储介质,以解决现有评估方法缺乏自适应性的问题。

主权项:1.一种测评题目动态生成方法,其特征在于,包括:基于种子题目和提示生成多个第一测试题目;基于目标模型针对多个第一测试题目的第一回复信息确定多个第一测试题目的难度;若多个第一测试题目的难度不符合预设难度,则对多个第一测试题目进行调整,返回执行基于所述目标模型针对多个第一测试题目的回复信息确定多个第一测试题目的难度的步骤;若多个第一测试题目的难度符合预设难度,则将多个第一测试题目确定为针对所述目标模型的测试题目;对所述多个第一测试题目的质量进行评分;当所述多个第一测试题目的质量评分低于预设值时,对所述多个第一测试题目进行调整;所述第一测试题目用于评估所述目标模型的生成能力,所述目标模型为大语言模型;通过第一公式对所述多个第一测试题目的质量进行评分;所述第一公式为: 其中,为第i个第一测试题目的质量,为第i个第一测试题目与对应种子题目的相似性,为第i个第一测试题目的创造性,为第i个第一测试题目的语言流畅度,、和分别为相似性、创造性和语言流畅度对应的权重系数;通过文本相似度算法来计算第一测试题目与种子题目之间的相似性,相似性的计算公式为: 其中,和分别为第一测试题目和种子题目的向量,表示第一测试题目和种子题目的向量点积,‖A‖和‖B‖分别表示第一测试题目和种子题目的欧几里得范数;通过评估生成第一测试题目的多样性来计算第一测试题目的创造性,多样性的计算公式为: 其中,是第i个类别中题目的比例,n是类别的总数,H是多样性指数;通过可读性公式来计算第一测试题目的语言流畅度,语言流畅度的计算公式为: 其中,为第一测试题目的语言流畅度,ASL是平均句子长度,ASW是平均每个单词的音节数,Sentences是文本中句子的数量。

全文数据:

权利要求:

百度查询: 北京邮电大学 测评题目动态生成方法及系统、电子设备、可读存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。