首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度学习的规章制度检索方法及系统 

申请/专利权人:杭州初灵数据科技有限公司

申请日:2021-06-21

公开(公告)日:2024-02-13

公开(公告)号:CN113535936B

主分类号:G06F16/335

分类号:G06F16/335;G06F16/33;G06F16/36;G06F40/284;G06N3/0442;G06N3/0455;G06N3/048;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.02.13#授权;2021.11.09#实质审查的生效;2021.10.22#公开

摘要:本发明公开了一种基于深度学习的规章制度检索方法与系统,该方法包括:1.获取用户输入的查询文本;2.获取查询文本的目标分词以及目标分词的属性;3.构建规章制度数据库;4.根据目标分词及其属性,在规章制度数据库中进行检索,并计算基于分词的匹配度Xn;5.计算基于语义的匹配度Yn;6.根据Xn和Yn计算复合匹配度Zn;7.根据复合匹配度Zn、查询文本的目标分词属性以及规则制度中所特有的层级关系,最终得到倒排后的多条检索结果。本发明以深度学习基础,实现中文文本分词模型、中文文本依存句法分析模型、OCR文字识别模型、ESIM文本相似度计算模型,实现规章制度的快速准确检索。

主权项:1.一种基于深度学习的规章制度检索方法,其特征在于:S1.获取用户提供的查询文本,并将所述的查询文本输入中文文本分词模型,得到查询文本中的各目标分词;再将各目标分词输入中文文本依存句法分析模型,得到各目标分词的词性和属性;根据各目标分词的词性和属性对目标分词进行筛选;S2.在规章制度数据库中进行检索,得到多条检索结果,并计算各检索结果的基于分词的匹配度Xn后,筛选出符合要求的N条检索结果;2-1.根据原始查询文本和步骤S1筛选出的目标分词检索出多条初步检索结果;初步检索结果中均包含document-content部分和document-title部分;document-content部分为检索结果的具体内容部分;document-title为检索结果所属段落的标题或副标题;将各初步检索结果输入步骤S1所述的中文文本分词模型和中文文本依存句法分析模型;得到各初步检索结果中的目标分词以及目标分词的词性和属性;2-2.将步骤S1中筛选出的查询文本的目标分词与每条初步检索结果的document-content部分中提取出的目标分词,分别输入无监督匹配算法,得到查询文本与各初步检索结果之间的基本匹配度An;将步骤S1中筛选出的查询文本的目标分词与每条初步检索结果的document-title部分中提取出的目标分词,分别输入Jaccard相似度匹配算法,得到查询文本与各初步检索结果之间的附加匹配度Bn;2-3.分别计算查询文本与各初步检索结果之间基于分词的匹配度Xn=c·An+0.5-c·Bn;其中,c为第一权重系数,其取值范围为0~0.5;根据基于分词的匹配度Xn筛选出多条基于分词的检索结果;S3.利用Bert-ESIM模型分别计算查询文本与步骤S2筛选出的基于分词的各条检索结果之间的基于完整语义的匹配度Yn;所述的Bert-ESIM文本相似度计算模型中包括改进的ESIM网络;改进的ESIM网络中使用余弦相似计算器替代Softmax组件;使用Bert中文文本特征提取器替代输入编码器;S4.分别计算N条检索结果与查询文本的复合匹配度Zn=d·Xn+0.5-d·Yn;其中,d为第二权重系数,其取值范围为0~0.5;按照复合匹配度Zn从大到小对N条检索结果进行排序并输出;所述的中文文本分词模型采用多层Bi-GRU网络与CRF网络的结合网络;中文文本分词模型通过包括cwb2-data、人民日报数据集、SIGHANBakeoff2005、MSRA微软亚洲研究院数据集在内的中文分词数据集进行训练得到;中文文本分词模型的输入为中文文本,输出为该中文文本中的各目标分词以及各目标分词的属性和词性;所述的中文文本依存句法分析模型采用双层Bi-LSTM网络与MLP网络的组合网络;中文文本依存句法分析模型通过包括SemEval-2016、CoNLL、PennTreebank、百度开源数据集在内的中文依存句法分析数据集进行训练得到;中文文本依存句法分析模型的输入为目标分词,输出为该目标分词在查询文本中的词性和属性。

全文数据:

权利要求:

百度查询: 杭州初灵数据科技有限公司 一种基于深度学习的规章制度检索方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。