Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于NLP的适航非结构化数据的搜索方法及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中航机载系统共性技术有限公司

摘要:本发明属于适航测试技术领域,提供了一种基于NLP的适航非结构化数据的搜索方法及装置。本搜索方法,包括以下步骤:S1:获取适航数据,使用RLHF和TF‑IDF算法对适航数据进行处理,获得关键词数据集;S2:根据用户输入的查询语句,获取查询关键词词组;S3:利用NLP模型将查询关键词词组和S1中获得的关键词数据集进行匹配,得到候选适航数据集合;S4:将候选适航数据集合中的各适航数据排序并展示。本搜索方法,在获取关键词数据集的时候,将RLHF和TF‑IDF结合使用,提高关键词提取的准确性和精度。

主权项:1.一种基于NLP的适航非结构化数据的搜索方法,其特征在于,包括以下步骤:S1:获取适航数据,使用RLHF和TF-IDF算法对所述适航数据进行处理,获得关键词数据集,具体为:S1.1:对所述适航数据的各文本进行分词处理,将所述适航数据的各文本分解成若干个词;S1.2:计算每个所述词在所述适航数据的各文本中出现的总次数TF;S1.3:计算每个所述词的RLHF值,计算方式如下:对于一个给定的词w,计算其在对应文本中的位置pw和文本长度n,得到其相对位置rpw=pw,分别计算每个所述词在各文本中的rp值,排序并标准化为0-1之间的值,从而得到每个所述词的RLHF值;S1.4:计算每个所述词的TF-IDF值;S1.5:将每个所述词的RLHF值和TF-IDF值相乘,获得综合权重,根据权重值排序,获得所述关键词数据集;S2:根据用户输入的查询语句,获取查询关键词词组;S3:利用NLP模型将所述查询关键词词组和关键词数据集进行匹配,得到候选适航数据集合;S4:将所述候选适航数据集合中的各所述适航数据排序并展示;其中,所述步骤S2中,通过HMM和CRF模型来获取所述查询关键词词组,具体为:S2.1:特征提取:对于输入的查询文本,提取特征;S2.2:HMM模型训练:使用训练数据集训练HMM模型,根据已标注的关键词信息,计算初始状态概率、状态转移概率和观测概率;S2.3:HMM模型预测:对于待标注的文本序列,利用Viterbi算法和已训练好的HMM模型,计算出具有最大概率路径的状态序列;S2.4:特征转换:将HMM模型预测得到的所述状态序列转换成特征序列;S2.5:CRF模型训练:使用所述训练数据集和所述特征序列训练CRF模型;S2.6:CRF模型预测:对于所述待标注的文本序列和所述特征序列,利用已训练好的CRF模型进行预测;S2.7:通过结合HMM模型和CRF模型得到的数据集即是所述查询关键词词组。

全文数据:

权利要求:

百度查询: 中航机载系统共性技术有限公司 一种基于NLP的适航非结构化数据的搜索方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。