一种从文件中提取数据微调大语言模型的方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：河钢数字技术股份有限公司

摘要：本发明公开了一种从文件中提取数据微调大语言模型的方法，涉及软件开发技术领域，一种从文件中提取数据微调大语言模型的方法，此方法使得用户在前台可视化界面上传文件，后台服务端自动将文件的内容提取并生成训练数据推送至大语言模型中，通过编写前台可视化界面实现用户任意文件的上传下载功能，使用Java搭建后台服务端将文件包含内容提取并存储，支持文件格式有Word、Excel、Pdf等十余种；之后将文件内容清洗并按分隔符分割成一条条的语句，再根据实际的大语言模型训练场景需要将语句拼接为大小合适的段落；将段落的关键词提取出来并保存，使用Python搭建执行微调大语言模型的训练服务，接成完整报文推送给训练服务，执行具体的大语言模型训练工作。

主权项：1.一种从文件中提取数据微调大语言模型的方法，其特征在于：包括以下方法流程：文件的上传与存储、解析抽取文件内容、清洗内容数据、内容分句、分段组合、关键词的提取、构建训练服务、生成训练数据并推送、执行大语言模型训练；所述文件的上传与存储，用于用户以在可视化界面操作的方式将文件上传至数据处理服务端以下简称“数据服务端”，数据服务端收到文件后执行持久化操作保存至某个存储介质中。此模块主要包含功能有文件的查询与删除、上传与下载；所述解析抽取文件内容，即表示数据服务端在接收到文件后，将文件含带的内容提取出来，标记其来源、名称、内容明细、时间、状态等信息，生成结构化数据存储至数据库中；所述清洗内容数据，即表示数据服务端将提取好的内容明细进一步的处理；所述内容分句，即表示数据服务端将内容拆分为一条条的句子；所述分段组合，即表示设定一个段落字数值，此值可以配置的方式灵活调整，与大语言模型每次能够接受的训练数据内容字数相近似；所述关键词的提取，即表示采用分词算法将分段后段落中的关键词提取出来，形成多个关键词对应一段内容的映射关系，生成结构化数据存储至数据库中；所述构建训练服务，即表示采用与大语言模型接口相兼容的技术栈搭建一般为Python能够接受训练数据的服务端以下简称“训练服务端”，作为数据处理服务端与大语言模型之间的桥梁。在一种可能的实现方式中，训练服务端起到的作用为：接受训练数据时做一些简易的数据处理，并在前台用户想要使用大语言模型的能力时，将大语言模型的输出内容推送给数据服务端到前台供用户查阅；所述生成训练数据并推送，即表示数据服务端将关键词、分段内容等信息拼接起来生成适配训练服务端API接口能接收的内容，此接口具体数据格式双方训练服务端与数据服务端需提前约定；所述执行大语言模型训练，即表示训练服务端调用大语言模型的训练相应的对外接口，将训练数据传输至接口当中执行具体训练运算。

全文数据：

权利要求：

百度查询：河钢数字技术股份有限公司一种从文件中提取数据微调大语言模型的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种储物筐可调节的电动购物车

下一篇：一种带式输送机撒料治理装置

相关技术

一种储物筐可调节的电动购物车

一种带式输送机撒料治理装置

军用火炮气液泵装置

一种五金生产用清洗装置

一种煤枪煤粉反吹收集装置

新型弹簧球铰支座

一种散热盘管焊缝位置打磨抛光装置

一种畜牧用防疫架

一种具有防护结构的物料升降装置

一种涂装喷粉装置

一种压缩空气储能系统

一种废旧电池回收系统及其回收方法

数据相关技术

数据处理装置和数据驱动装置_硅工厂股份有限公司_201911310542.8

基于虚拟数据和真实数据的机器学习_达索系统美国公司_202010329355.0

基于异常数据的大数据存储方法_江西孺智信息技术有限公司_202411081304.5

点云数据发送装置、点云数据发送方法、点云数据接收装置和点云数据接收方法_LG电子株式会社_202080069413.9

数据收集方法和装置_北京沃东天骏信息技术有限公司_202010047444.6

传输数据的传输设备_西门子交通有限责任公司_202080087774.6

双向数据链路_德克萨斯仪器股份有限公司_202410824850.7

一种具有可旋转数据线接头的数据线_深圳市泽熙数码科技有限公司_202420189095.5

一种基于数据-图像转换的光伏异常数据识别方法_东南大学_202410997230.3

优先级数据库的数据处理方法及装置_杭州迪普科技股份有限公司_202210175881.5

微调相关技术

基于大语言模型的微调语料质量提升方法、装置及设备_上海智臻智能网络科技股份有限公司_202410866438.1

一种机器人抓手盘旋转微调机构_烟台学奕信息技术有限公司_202323652771.2

进行提示微调训练的方法、关系抽取的方法及相关装置_富士通株式会社_202310450811.0

大语言模型的知识蒸馏微调方法、装置、设备及存储介质_芯安微众(上海)微电子技术有限公司_202411000020.9

小提琴微调器_马永孝_202323446383.9

一种清洁滚轮胶辊高度微调机构_郭胜明_202420124745.8

一种具有微调结构的箱体_旭显未来(北京)科技有限公司_202323444837.9

一种晶体谐振器微调装置_深圳市晶峰晶体科技有限公司_202411305891.1

一种光伏边框型材切割锯可微调锁紧装置_深圳市先豪科技有限公司_202420436841.6

用于少样本缺陷图像生成的扩散模型微调方法和装置_华中科技大学_202410796707.1

语言相关技术

经由语言服务器协议的测试框架_SAP欧洲公司_202311075282.7

基于大语言模型的任务分解方法和系统_北京九章云极科技有限公司_202410970256.9

基于视觉语言模型的机器人控制方法、装置及机器人_北京东土科技股份有限公司_202410938016.0

一种大语言模型的提示词攻击检测方法和装置_天翼安全科技有限公司_202410892196.3

基于算法容器实现多语言算法调用的项目需求匹配系统_杭州浙星科技(集团)有限公司_202410933207.8

基于生成式学习模型的多语言语音识别方法以及系统_深圳市贝铂智能科技有限公司_202411315924.0

大语言模型的服务请求调度方法、介质、设备及程序产品_北京有竹居网络技术有限公司_202411018503.1

基于大语言模型的信息处理方法、装置、设备及智能助理_北京百度网讯科技有限公司_202410804781.3

结合多模态知识图谱和多模态大语言模型的信息检测方法_深圳市金大智能创新科技有限公司_202410996902.9

基于注意力引导的大语言模型的主观试题批改方法及系统_广东科凯达智能机器人有限公司_202410795330.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种从文件中提取数据微调大语言模型的方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务