买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国科学技术大学
摘要:本发明公开了一种基于外推技术的长上下文大模型创建方法,所述方法包括:步骤1、预训练具有较短上下文窗口的基座大模型;步骤2、位置插值,扩展上下文长度;步骤3、采用位移稀疏注意力减少计算量;步骤4、LoRA+微调大模型获得长上下文理解能力;步骤5、评估大模型能力。该方法提高了模型在长上下文场景下的理解和生成能力,使其在需要处理大量上下文信息的任务中表现更加出色、高效,极大地降低了成本和处理速度,并且回答的准确率也大大提高。
主权项:1.一种基于外推技术的长上下文大模型创建方法,其特征在于,所述方法包括:步骤1、预训练具有较短上下文窗口的基座大模型;步骤2、位置插值,扩展上下文长度;步骤3、采用位移稀疏注意力减少计算量;步骤4、LoRA+微调大模型获得长上下文理解能力;步骤5、评估大模型能力。
全文数据:
权利要求:
百度查询: 中国科学技术大学 基于外推技术的长上下文大模型创建方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。