买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:浙江口碑网络技术有限公司;拉扎斯网络科技(上海)有限公司
摘要:本申请提供了一种基于生成式模型构建语言转换助手的方法和系统、电子设备及存储介质,涉及企业级数仓技术领域。该方法首先对各张初始数据表的元信息进行预处理,确保后续生成式模型能够准确理解数据表的结构和语义,提高生成的训练样本集的质量;随后利用生成式模型,结合至少一张预处理后数据表的元信息和当前日期,生成包含表信息、当前日期、自然语言查询问题、与自然语言查询问题对应的结构化语言检索语句的训练样本集,能够高效和准确地构建训练样本集;之后使用训练样本集对待训练模型进行训练,构建语言转换助手,后续语言转换助手可以帮助用户将自然语言查询问题转换为有效的结构化语言检索语句,提高了检索效率和准确性。
主权项:1.一种基于生成式模型构建语言转换助手的方法,其特征在于,包括:对至少一张初始数据表中各张初始数据表的元信息进行预处理,得到至少一张预处理后数据表;利用生成式模型,结合所述至少一张预处理后数据表的元信息和当前日期,生成包含表信息、当前日期、自然语言查询问题、与自然语言查询问题对应的结构化语言检索语句的训练样本集;使用所述训练样本集对待训练模型进行训练,构建将自然语言查询问题转换为结构化语言检索语句的语言转换助手;其中,所述元信息包括表名、表描述、字段名、字段别名、字段描述、维度列、指标列、是否为立方体表、下钻列、下钻列默认值或补全值中的一种或多种;所述表信息包括表名和或表描述;所述利用生成式模型,结合所述至少一张预处理后数据表的元信息和当前日期,生成包含表信息、当前日期、自然语言查询问题、与自然语言查询问题对应的结构化语言检索语句的训练样本集,包括:根据所述至少一张预处理后数据表的元信息和当前日期,将所述至少一张预处理后数据表中各张预处理后数据表的表名、表描述、字段名、字段别名、字段描述、当前日期、结构化语言语法范围、日期表达范围作为第一提示信息;根据待生成的训练样本集设计第二提示信息;融合所述第一提示信息和所述第二提示信息,得到与生成式模型交互的目标提示工程内容;将所述目标提示工程内容提供给所述生成式模型,生成包含表信息、当前日期、自然语言查询问题、与自然语言查询问题对应的结构化语言检索语句的训练样本集。
全文数据:
权利要求:
百度查询: 浙江口碑网络技术有限公司 拉扎斯网络科技(上海)有限公司 基于生成式模型构建语言转换助手的方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。