Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种自动持续采集网络数据微调大语言模型的方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:河钢数字技术股份有限公司

摘要:本发明公开了一种自动持续采集网络数据微调大语言模型的方法,涉及软件开发技术领域,该自动持续采集网络数据微调大语言模型的方法,包括以下流程:所述度任务的创建与配置、基于搜索引擎的主题内容抓取、页面主体内容解析、固定地址的页面内容抓取、清洗内容数据、内容分句、分段组合、关键词的提取、构建训练服务、生成训练数据并推送、执行大语言模型训练,该自动持续采集网络数据微调大语言模型的方法,通过可视化操作使用户自由上传含有自定义内容的文件,再以自动化的处理、清洗、解析流程将自定义内容投喂给大语言模型中,使大语言模型的训练过程更加方便、简洁、易懂,减轻了专业技术人员操作大语言模型的训练流程。

主权项:1.一种自动持续采集网络数据微调大语言模型的方法,其特征在于:包括以下流程:所述度任务的创建与配置、基于搜索引擎的主题内容抓取、页面主体内容解析、固定地址的页面内容抓取、清洗内容数据、内容分句、分段组合、关键词的提取、构建训练服务、生成训练数据并推送、执行大语言模型训练;所述调度任务的创建与配置,即表示用户以在可视化界面操作的方式创建调度任务,调度任务包含的字段有:任务名称、类型主题、指定地址、挖掘深度、主题类型的时间区间、任务状态、执行时间等等。其中,类型中的主题类型即表示执行基于搜索引擎的主题内容抓取操作,类型中的指定地址即表示固定地址的页面内容抓取操作;所述基于搜索引擎的主题内容抓取,即表示数据服务端在触发主题类型调度任务后,调用搜索引擎的关键词搜索功能得到搜索结果中一定数量的相关链接,再依次跳转到各个链接内部抓取页面信息,此种方式借用于一种或多种搜索引擎,故需数据服务端编写针对不同搜索引擎搜索结果数据解析的方法,若选用了多种搜索引擎,在得到各个搜索结果后,可按相关性高低将其整合在一起;所述页面主体内容解析,即表示数据服务端在获取到网页内容数据后,使用某种特定算法提取网页的主体内容,剔除页面中大量的无意义的头尾内容,进行基本的清洗工作;所述固定地址的页面内容抓取,即表示数据服务端在触发指定地址类型调度任务后,前往各个地址站点中抓取页面内容,具体的,根据配置的深度再判断是否需要深入到页面存在的跳转链接进行抓取。示例性的,如配置深度为2,则数据服务端前往指定地址抓取到页面内容后,再将页面中所有可跳转链接进行汇总,此时深度为1。得到所有可跳转链接后,数据服务端再依次跳转至各个链接中抓取页面内容,此时深度为2,达到预定深度后即停止抓取,将内容汇总并持久化;所述清洗内容数据,即表示数据服务端将提取好的内容明细进一步的处理。所述内容分句,即表示数据服务端将内容拆分为一条条的句子;所述分段组合,即表示设定一个段落字数值,此值可以配置的方式灵活调整,与大语言模型每次能够接受的训练数据内容字数相近似。具体地,将上述拆分好的句子按照段落字数值重新拼接起来,每一段落由多个完整句子组成,实际字数在段落字数值的上下浮动。设置此步骤的目的在于不同的大语言模型受算法、机能等因素影响,其能够接收并执行训练数据量的区间也随之浮动,此步骤可通过配置式的方式使用户自由调节区间以适配不同的训练场景需要。需要注意的是,上述内容分句也是为了留存细粒度的句子数据,若在未来有更换大语言模型的需求,则可以复用此部分内容重新执行训练;所述关键词的提取,即表示采用分词算法将分段后段落中的关键词提取出来,形成多个关键词对应一段内容的映射关系,生成结构化数据存储至数据库中。在此步骤中,可引入一种或多种分词算法模型,其最后分词结果也可选用某一种算法模型的计算结果,或按权重合并多种算法模型的计算结果;所述构建训练服务,即表示采用与大语言模型接口相兼容的技术栈搭建一般为Python能够接受训练数据的服务端以下简称“训练服务端”,作为数据处理服务端与大语言模型之间的桥梁。在一种可能的实现方式中,训练服务端起到的作用为:接受训练数据时做一些简易的数据处理,并在前台用户想要使用大语言模型的能力时,将大语言模型的输出内容推送给数据服务端到前台供用户查阅;所述生成训练数据并推送,即表示数据服务端将关键词、分段内容等信息拼接起来生成适配训练服务端API接口能接收的内容,此接口具体数据格式双方训练服务端与数据服务端需提前约定;所述执行大语言模型训练,即表示训练服务端调用大语言模型的训练相应的对外接口,将训练数据传输至接口当中执行具体训练运算。

全文数据:

权利要求:

百度查询: 河钢数字技术股份有限公司 一种自动持续采集网络数据微调大语言模型的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。