买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:深圳博瑞天下科技有限公司
摘要:本申请涉及自然语言处理技术领域,提供基于大型预训练模型的文本到SQL转换方法及系统。所述方法包括:获取查询文本语料库和SQL语句编码库;根据这两个语料库训练双向预训练模型;识别查询文本语料库中的交互时间样本,进行交互连续性分析,获取连续查询文本语料库;用该语料库优化训练双向预训练模型,输出双向优化转换模型;将用户实时查询文本输入该模型进行连续性SQL转换,获取连续SQL转换语句。本申请解决了SQL语句一句一句识别导致出现查询重复作业的技术问题,实现了通过连续输出,使得SQL可以连续的自动转换,提高文本到SQL转换的准确率和连续性,更好地支持连续查询的效果。
主权项:1.基于大型预训练模型的文本到SQL转换方法,其特征在于,所述方法包括:获取查询文本语料库和SQL语句编码库,其中,所述SQL语句编码库与所述查询文本语料库编码映射;根据所述查询文本语料库和所述SQL语句编码库进行训练,获取双向预训练模型,其中,所述双向预训练模型包括文本-SQL转换预训练模型和SQL-文本转换预训练模型,所述文本-SQL转换预训练模型和SQL-文本转换预训练模型的模型参数共享;识别所述查询文本语料库中各个文本的交互时间样本,根据所述交互时间样本进行交互连续性分析,获取连续查询文本语料库;接入所述连续查询文本语料库对所述双向预训练模型进行训练优化,输出双向优化转换模型;获取用户实时查询文本,将所述用户实时查询文本输入所述双向优化转换模型中进行连续性SQL转换,获取连续SQL转换语句;根据所述查询文本语料库和所述SQL语句编码库进行训练,获取双向预训练模型,方法包括:建立Seq2Seq模型框架,其中,所述Seq2Seq模型框架包括编码器和解码器,所述文本-SQL转换预训练模型与所述SQL-文本转换预训练模型共享所述编码器和解码器;根据所述Seq2Seq模型框架的编码器,对所述查询文本语料库和所述SQL语句编码库进行训练,获取文本-SQL转换预训练模型;根据所述Seq2Seq模型框架的解码器,对所述查询文本语料库和所述SQL语句编码库进行训练,获取SQL-文本转换预训练模型;引入交叉损失函数,对所述文本-SQL转换预训练模型和所述SQL-文本转换预训练模型进行损失优化,输出双向预训练模型;根据所述交互时间样本进行交互连续性分析,包括:根据所述交互时间样本对所述查询文本语料库进行分析,获取相邻文本之间的时间间隔长;根据相邻文本之间的时间间隔长对所述查询文本语料库进行划分,得到多组查询文本语料分区,其中,每组查询文本语料分区中相邻文本之间的时间间隔长小于等于预设间隔长;将每组查询文本语料分区作为一个连续查询文本语料分区,获取连续查询文本语料库;若相邻文本之间的时间间隔长大于所述预设间隔长,获取相邻文本对应的SQL相邻语句;判断所述SQL相邻语句是否存在执行连续性,若所述SQL相邻语句存在执行连续性,划分至当前组别的查询文本语料分区;若所述SQL相邻语句不存在执行连续性,获取中断指令,根据所述中断指令划分至新建组别的查询文本语料分区;将所述用户实时查询文本输入所述双向优化转换模型中进行连续性SQL转换,方法包括:根据各个文本的交互时间样本,定义初始化转移概率分布,其中,所述初始化转移概率分布为标识用户由上一查询语句转移到下一查询语句的转移概率;根据所述初始化转移概率分布,构建马尔可夫链;以所述马尔可夫链对所述用户实时查询文本进行转移概率预测,获取大于预设期望下的多个预测语句,其中,转移概率预测的表达式包括: ;其中,为转移概率,表示在时间的查询文本,表示在时间的查询文本;根据所述多个预测语句,输出连续SQL转换语句。
全文数据:
权利要求:
百度查询: 深圳博瑞天下科技有限公司 基于大型预训练模型的文本到SQL转换方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。