买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:河钢数字技术股份有限公司
摘要:本发明公开了一种从文件中提取数据微调大语言模型的方法,涉及软件开发技术领域,一种从文件中提取数据微调大语言模型的方法,此方法使得用户在前台可视化界面上传文件,后台服务端自动将文件的内容提取并生成训练数据推送至大语言模型中,通过编写前台可视化界面实现用户任意文件的上传下载功能,使用Java搭建后台服务端将文件包含内容提取并存储,支持文件格式有Word、Excel、Pdf等十余种;之后将文件内容清洗并按分隔符分割成一条条的语句,再根据实际的大语言模型训练场景需要将语句拼接为大小合适的段落;将段落的关键词提取出来并保存,使用Python搭建执行微调大语言模型的训练服务,接成完整报文推送给训练服务,执行具体的大语言模型训练工作。
主权项:1.一种从文件中提取数据微调大语言模型的方法,其特征在于:包括以下方法流程:文件的上传与存储、解析抽取文件内容、清洗内容数据、内容分句、分段组合、关键词的提取、构建训练服务、生成训练数据并推送、执行大语言模型训练;所述文件的上传与存储,用于用户以在可视化界面操作的方式将文件上传至数据处理服务端以下简称“数据服务端”,数据服务端收到文件后执行持久化操作保存至某个存储介质中。此模块主要包含功能有文件的查询与删除、上传与下载;所述解析抽取文件内容,即表示数据服务端在接收到文件后,将文件含带的内容提取出来,标记其来源、名称、内容明细、时间、状态等信息,生成结构化数据存储至数据库中;所述清洗内容数据,即表示数据服务端将提取好的内容明细进一步的处理;所述内容分句,即表示数据服务端将内容拆分为一条条的句子;所述分段组合,即表示设定一个段落字数值,此值可以配置的方式灵活调整,与大语言模型每次能够接受的训练数据内容字数相近似;所述关键词的提取,即表示采用分词算法将分段后段落中的关键词提取出来,形成多个关键词对应一段内容的映射关系,生成结构化数据存储至数据库中;所述构建训练服务,即表示采用与大语言模型接口相兼容的技术栈搭建一般为Python能够接受训练数据的服务端以下简称“训练服务端”,作为数据处理服务端与大语言模型之间的桥梁。在一种可能的实现方式中,训练服务端起到的作用为:接受训练数据时做一些简易的数据处理,并在前台用户想要使用大语言模型的能力时,将大语言模型的输出内容推送给数据服务端到前台供用户查阅;所述生成训练数据并推送,即表示数据服务端将关键词、分段内容等信息拼接起来生成适配训练服务端API接口能接收的内容,此接口具体数据格式双方训练服务端与数据服务端需提前约定;所述执行大语言模型训练,即表示训练服务端调用大语言模型的训练相应的对外接口,将训练数据传输至接口当中执行具体训练运算。
全文数据:
权利要求:
百度查询: 河钢数字技术股份有限公司 一种从文件中提取数据微调大语言模型的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。