首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于语义识别的在线问答方法、系统和存储介质 

申请/专利权人:国投人力资源服务有限公司

申请日:2024-01-03

公开(公告)日:2024-06-28

公开(公告)号:CN117828060B

主分类号:G06F16/332

分类号:G06F16/332;G06F16/33;G06F16/335;G06F16/35;G06F16/36;G06F40/211;G06F40/295;G06F40/30

优先权:

专利状态码:有效-授权

法律状态:2024.06.28#授权;2024.04.23#实质审查的生效;2024.04.05#公开

摘要:本发明公开了一种基于语义识别的在线问答方法,该方法包括:采用深度学习方法训练得到从输入映射到输出的动态权重系数矩阵;构建实体与答案链接知识库;将知识库中检索到的最相关的答案信息生成为用户可以理解的自然语言语句,显示到可视化界面,实现对用户提问的反馈。随着深度神经网络的兴起,图片识别的需求日益提高。图片文字识别作为其中重要的一部分,并且在现实生活中的应用越来越广泛,为了提高精度。本发明根据脚本算法审核报告基本信息,将信息中的文字及图片内容进行特征提取以及深度学习,结合图像识别算法,在实现图片占用最小空间特征识别的基础上,实现图片信息提取。该研究具有较好的通用性,为文字提取提供高效解决办法。

主权项:1.一种基于语义识别的在线问答方法,其特征在于,该方法包括:步骤1、命名实体识别模型构建:分别设计命名实体识别模型的输入层、特征提取层和输出层,采用深度学习方法训练得到从输入映射到输出的动态权重系数矩阵,利用外部实体字典辅助,降低中文词语的歧义性;步骤2、汉语短文本分类模型构建:分别设计汉语短文本分类模型的输入层、特征提取层和输出层,利用文本内部词语的依赖关系,提取局部特征,优化分类效果,最终输入到分类器中完成分类;步骤3、知识库构建:确定问答系统相关业务,从总体角度进行结构规划知识图谱,进行企业数据采集和录入,根据先验知识对数据进行标准化和格式化处理,构建实体与答案链接知识库;步骤4、用户提问文本预处理:利用命名实体模型,对用户提问文本进行预处理,针对独立且不同的上下文语境,准确提取文本实体类别;步骤5、用户提问文本分类:利用汉语短文本分类模型,对识别出的文本实体进行进一步分类,进一步缩小在知识库中检索答案的范围;步骤6、答案匹配:将文本分类结果与知识图谱进行匹配,检索知识库中与用户提问文本中最接近的命名实体,进而在知识库中筛选出最相关的答案;步骤7、答案生成反馈:将知识库中检索到的最相关的答案信息生成为用户理解的自然语言语句,显示到可视化界面,实现对用户提问的反馈,所述命名实体识别模型构建,具体处理过程包括以下步骤:步骤1-1、针对用户需求搜集用户应用场景中常用的文本数据,进行文本清洗,建立剔除规则,剔除空白等异常文本以及停顿词等无意义文本;步骤1-2、对文本清洗后的高质量数据进行标准化、统一化和数据标注,完成文本与实体的匹配,建立最符合用户需求的小型训练数据集;步骤1-3、针对实际应用场景选择合适的开源大型训练数据集,将步骤1-1建立的小型训练数据集与该数据集融合;步骤1-4、对文本训练数据的每个词语进行编码,编码后的文本训练数据表示为词向量x1,x2...xi…xn,其中n为文本训练数据的数目,xi=[v1,v2...vj,...vp],vj代表不同的词语对应的编码,同时将文本训练数据对应的实体数据表示为y=[y1,y2...yi…ym],其中m为实体数目,再设置权重参数矩阵W,W的作用是将文本数据输入映射到实体;步骤1-5、采用深度学习的方法,基于步骤1-3得到的数据集和步骤1-4编码后的数据,计算权重参数矩阵W,在计算过程中选取代价函数为: 上式中,xi为文本训练数据,vj代表不同的词语对应的编码,y为文本训练数据对应的实体数据,ln为对数运算,π为圆周率,∑为求和符号,tanh为双曲正切函数,所述汉语短文本分类模型构建,具体步骤如下:步骤4-1、针对用户需求搜集用户应用场景中常用的文本数据,进行文本清洗,建立剔除规则,剔除空白异常文本以及停顿词无意义文本;步骤4-2、对文本清洗后的高质量数据进行标准化、统一化和数据标注,完成文本与实体的匹配,建立最符合用户需求的小型训练数据集;步骤4-3、针对实际应用场景选择合适的开源大型训练数据集,将步骤4-1建立的小型训练数据集与该数据集融合;步骤4-4、文本训练数据的每个字进行位置编码,编码后的文本训练数据表示为词向量x1,x2...xi…xn,其中n为文本训练数据的数目,xi=[v1,v2...vj,...vp],vj代表不同位置的字对应的编码,具体编码方式如下: 上述公式中,α为泛化因子,j为字所处的位置,k为模型修正系数,e为自然对数底数,同时将文本训练数据对应的分类结果数据表示为y=[y1,y2...yi…ym],其中m为分类数目,再设置权重参数矩阵W,W的作用是将文本数据输入映射到各个类别;步骤4-5、采用深度学习的方法,基于步骤4-3得到的数据集和步骤4-4位置编码后的数据,计算权重参数矩阵W,在计算过程中选取代价函数为: 上式中,e为自然对数底数,fs代表激活函数ln为对数运算,∑为求和符号,log为对数运算。

全文数据:

权利要求:

百度查询: 国投人力资源服务有限公司 一种基于语义识别的在线问答方法、系统和存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。