首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种面向大模型表格问答方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国电子科技集团公司第十五研究所

摘要:本发明公开了一种面向大模型表格问答方法,涉及机器学习技术领域,包括以下步骤:采集表格数据,根据设定的语料生成模板和语料生成规则自动化生成文本语料;根据所述文本语料,基于提示学习和微调技术对大模型进行偏好性学习,获得问答模型;采集问答任务表格和问题,采用改进RCI方法对所述问答任务表格和所述问题进行处理,获得表格序列数据和问题类型,根据所述表格序列数据和所述问题类型利用所述问答模型获得问答答案。通过模板设计和规则制定自动化生成语料,训练更优的大模型,基于行列结合的表格序列化语义分析和大模型提升表格问答准确性和问答效果。

主权项:1.一种面向大模型表格问答方法,其特征在于,包括以下步骤:步骤1:采集表格数据,根据设定的语料生成模板和语料生成规则自动化生成文本语料;步骤11:采集表格数据,并进行解析和处理,获得列表表格;针对给定结构化数据表格的不同表现形式,使用不同脚本进行解析和处理;通过编写python脚本统一将表格数据转化成列表的列表格式;步骤12:根据不同问答任务设定若干语料生成模板;所述语料生成模板设置语料结构、语料格式和占位符,根据表格数据替换所述占位符;步骤13:根据所述表格数据的特点和结构设定语料生成规则;所述语料生成规则包括数据类型转换、值映射和文本处理;所述值映射包括采用字典映射方法将数字键映射为对应的字符串值;步骤14:将所述列表表格根据所述语料生成规则填充到所述语料生成模板中,生成文本语料;将字段映射到相应的描述词汇或短语,生成文本语料;步骤2:根据所述文本语料,基于提示学习和微调技术对语言大模型进行偏好性学习,获得问答模型;步骤21:根据所述文本语料采用word2vec模型生成向量知识库,与问答任务的问题文本向量进行相似度匹配计算,得到最大相似度对应的语料片段作为辅助知识;步骤22:根据所述表格数据和所述文本语料,生成大模型训练数据集;大模型训练数据集包括表格数据类型、表格数据和文本语料;步骤23:将所述语料片段作为Prompt,采用P-tuningv2的自动化Promptv2方法,根据所述大模型训练数据集对所述语言大模型进行偏好性学习训练,优化可训练的连续Prompt,获得最佳提示向量;步骤24:根据所述最佳提示向量通过LoRA微调方法对训练后的所述语言大模型的参数进行微调,获得问答模型;假设面向表格问答任务的模型参数为W,则W表示为:W=Wpretrain+ΔW+TpromptΔW=MBMA其中Wpretrain为预训练模型原始权重,Tprompt为最佳提示向量,ΔW是经LoRA微调更新的模型自身参数;MA和MB分别为模型旁边增加的一个旁路的降维矩阵和升维矩阵;步骤3:采集问答任务表格和问题,采用改进RCI方法对所述问答任务表格和所述问题进行处理,获得表格序列数据和问题类型,根据所述表格序列数据和所述问题类型利用所述问答模型获得问答答案;所述改进RCI方法包括新序列处理和分类预测;新序列处理在简化表格数据序列处理的基础上保证模型对表格的理解能力,新增一个基于transformer的问题分类器,通过结合意图识别模型对用户提问意图进行分类;所述步骤3的具体实现过程为:步骤31:采用新序列处理公式对所述问答任务表格进行序列化处理,获得表格序列数据,将所述表格序列数据附加到带有CLS和SEP令牌的问题中,组成表格数据-问题序列对;步骤32:将表格数据-问题序列对输入编码器ALBERT中,在编码器ALBERT的线性层中使用CLS令牌的输出分别作为问题和表格序列数据中列数据的向量表示,将问题向量、表格序列列向量以及二者对应的元素积、元素差的平方连接起来,利用softmax函数计算所述表格序列列向量属于问题对应目标的概率;步骤33:根据设定置信度阈值和所述概率从所述表格序列数据中选取答案候选行;步骤34:所述问题向量经过分类器处理,预测获得所述问题类型;步骤35:将所述答案候选行和所述问题类型组合成输入提示,输入所述问答模型,获得问答答案;所述新序列处理公式表示为: 其中,T表示所述表格序列数据;表示所述表格序列数据的第i行数据序列;m表示所述问答任务表格的行数,n表示所述问答任务表格的列数,[h1,h2,…,hn]表示所述问答任务表格的表头,[vi,j]表示所述问答任务表格中的单元格;表示在表头字符串后添加冒号符号;表示在单元格值字符串前附加一个垂直分割号;表示串联操作;H表示在所述表格序列数据的每一行数据序列前后添加分割符。

全文数据:

权利要求:

百度查询: 中国电子科技集团公司第十五研究所 一种面向大模型表格问答方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。