买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:上证所信息网络有限公司
摘要:本发明涉及人机对话、智能语义搜索技术领域,具体来说是一种基于先验知识的金融领域实体及意图识别方法,具体如下:上下文模型定义,将整个关系型数据库表的相关信息定义为上下文,含表及列名的名称、注释、类型以及数据字典的定义;上下文模型分析,根据数据库以数据字典、相关字段的属性值以及数据类型进行分析,将字段的属性值定义为开放类型还是限定可枚举类型;可以自适应学习,能够识别意图实体、关联实体以及大部分实体属性值;可以将识别的实体限定在特定的表中,一是避免了相似度在全局空间进行匹配,省去了同义词过滤评分的步骤;二是已识别的词可以限定在上下文中,未识别的词可以作为无关词汇过滤掉,避免影响识别的准确率。
主权项:1.一种基于先验知识的金融领域实体及意图识别方法,其特征在于,方法具体如下:步骤一:上下文模型定义,将整个关系型数据库表的相关信息定义为上下文,含表及列名的名称、注释、类型以及数据字典的定义;步骤二:上下文模型分析,根据数据库以数据字典、相关字段的属性值以及数据类型进行分析,将字段的属性值定义为开放类型还是限定可枚举类型;步骤三:将上下文模型进行编码,将表名及列名进行编码,为数据库表名和列名构建唯一标识符号,并建立起映射关系,将标识符与表名及列名含义进行拼接组成上下文,作为查询语句的先验知识;步骤四:构建输入,将查询问题和步骤三编码好的上下文进行拼接,作为bert模型的输入;步骤五:构建训练模型,将bert模型的输出下游构建两个全连接分类器和一个CRF,关联分类器和意图分类器是用于识别该查询问题与上下文是关联关系还是意图关系,CRF用于实体的识别;步骤六:模型训练,根据步骤四构建好的输入样本和与之对应的输出集合并结合步骤五构建的模型,在GPU环境下进行bert微调训练;步骤七:推理模型转换,将32位float转换成16位float;步骤八:推理阶段,将查询问题逐一和候选的表上下文模型进行组合,采用步骤四的方法输入到模型中,将得到的输出结果根据步骤三的映射关系进行还原,并获取上下文对应的实体名称;所述步骤三具体如下:a.确定好输入的全局最大长度max_seq_length,输入包含查询问句和上下文以及辅助字符;b.对于关系型数据表名和列名注释信息,以列名字段注释值或其对应的同义词为列名单元,将表中所有列名单元随机进行打乱组合产生N个组合,以表名字段注释值或其对应的同义词为表名单元,将表名单元分别与这个N个组合进行拼接,产生N个上下文,与原有的上下文一起共产生N+1个上下文;c.输入切割,将查询问句和N+1个上下文进行字符串拼接,构成N+1个输入,对每一个输入以列名单元进行切割,保证切割后的长度不超过max_seq_length,其中mcols为本次容纳字段个数,切割完成后的子输入加入新的集合中,供后续步骤使用;所述步骤五具体如下:A.将bert输出字编码进行全连接运算,M为上下文的实体标签的最大数量,hidden_size为bert的隐层维数,output_w为[2+M,hidden_size]维向量,output_b为[2+M]维向量,全连接后变成[batch_size,seq_length,2+M]维向量,将全连接后的向量进行分割,其中一个[batch_size,seq_length,1]记做R,另一个[batch_size,seq_length,1]记做I,[batch_size,seq_length,M]记做C_V,分别用于关联分类向量、意图分类向量、实体识别向量的识别;B.关联分类器:用于区分查询问题是否与该上下文有关联,即为该问句的条件;C.意图分类器:用于区分查询问题是否与该上下文有意图关联,即为该问句的真实意图;D.实体识别器:用于识别上下文中的实体,将查询问句中的内容和上下文中的标签信息对应起来。
全文数据:
权利要求:
百度查询: 上证所信息网络有限公司 一种基于先验知识的金融领域实体及意图识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。