买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国人民解放军军事科学院军事科学信息研究中心
摘要:本发明公开了一种面向情报线索发现的层次化检索与多维度分类方法,所述方法包括:根据情报研究课题采集得到相关互联网开源数据,构建该研究课题的全文搜索索引库;根据检索关键词清单,基于全文搜索索引库执行层次化检索,得到多粒度情报线索筛选集合;根据多粒度情报线索筛选集合,对不同粒度情报线索进行多维度自动分类,得到多维度情报线索整编集合。本发明的方法不仅显著提升了情报线索筛选效率,还能够保证较高的召回率与准确率;并且有效提高了情报线索的归类整编效率与精确度。
主权项:1.一种面向情报线索发现的层次化检索与多维度分类方法,所述方法包括:步骤1根据情报研究课题采集得到相关互联网开源数据,构建该研究课题的全文搜索索引库;步骤2根据检索关键词清单,基于全文搜索索引库执行层次化检索,得到多粒度情报线索筛选集合;步骤3根据多粒度情报线索筛选集合,对不同粒度情报线索进行多维度自动分类,得到多维度情报线索整编集合;所述步骤1具体包括:步骤1-1根据情报研究课题,通过数据挖掘技术从互联网公开信息源中采集相关数据,得到一个与该课题相关的文档集合D={d1,...,di,...,dn},i∈[1,n],n为文档总数量,基于全文搜索引擎Elasticsearch创建该文档集合的索引并制定索引字段;步骤1-2遍历文档集合D,针对每一个文档di进行数据映射,并将映射后字段导入至该文档的索引,得到该情报研究课题相关的全文搜索索引库G;所述步骤1-1的索引字段包括:文档索引名称、文档索引类型、文档索引ID号、文档发表年份、文档简短描述、文档使用的语言、文档的数据源、文档标题、文档内容、文档爬取时间和文档超链接;所述步骤2具体包括:步骤2-1根据检索关键词清单W={w1,...,wm},其中m为关键词数量,以及检索时间范围Ts和Te,基于Elasticsearch生成检索查询语句q=FqueryW,Ts,Te,其中Fquery为查询语句生成函数;步骤2-2根据检索查询语句q对全文搜索索引库G进行全文检索得到篇章级情报线索筛选集合其中,n*为该集合内文档数量,n*≤n,Fretri为全文检索函数;步骤2-3遍历集合中的每篇文档,均进行以下处理:针对某篇文档执行分段与分句处理,得到文档的句子集合其中k为的句子数量;根据检索关键词清单W,结合启发式规则与硬匹配的方式对句子集合Si进行过滤得到文档的句子级情报线索集合其中,k*为筛选后句子数量,k*≤k,Ffilter为句子级过滤函数;步骤2-4汇总每篇文章的情报线索集合,得到集合的句子级情报线索筛选集合所述步骤3具体包括:步骤3-1遍历篇章级情报线索筛选集合,将文档正文连同标题输入预先建立和训练好的主题分类模型进行分类,得到篇章级情报线索整编集合;步骤3-2遍历句子级情报线索筛选集合,将线索句子输入预先建立和训练好的片段分类模型进行分类,得到句子级情报线索整编集合;步骤3-3将句子级情报线索整编集合中观点类句子输入预先建立和训练好的观点分类模型进行分类,得到观点类情报线索整编子集;所述步骤3-1具体包括:步骤3-1-1遍历集合中的每篇文章均进行以下处理:针对某篇文档其中,ti为该文档的标题,ci为该文档的正文,以特殊符号[CLS]和[SEP]作为分隔符对ti和ci进行拼接得到输入序列,根据输入序列得到词嵌入表示H0,词嵌入表示H0为字符嵌入、位置嵌入与分段嵌入之和;使用预训练语言模型对H0进行编码,所述预训练语言模型包括L个预训练Transformer块,对H0依次进行编码,得到下式: 其中,Hl和Hl-1分别为第l个和第l-1个Transformer块输出的隐状态表示,TransformerBlock表示Transformer函数;取第L个Transformer块输出的隐状态表示HL的[CLS]位向量HL[0]输入多层感知机层,得到主题分类的概率分布Ytopic:Ytopic=softmaxWtopicHL[0]其中,softmax表示归一化指数函数,Wtopic为主题分类模型的参数矩阵;对Ytopic进行解码,得到输入文档的主题分类结果topici;步骤3-1-2汇总集合中每篇文档的主题分类结果,得到篇章级情报线索整编集合;所述步骤3-2具体包括:步骤3-2-1遍历句子级情报线索筛选集合针对每篇文档对应的句子级情报线索集合均进行以下处理:遍历内情报线索句子以特殊符号[CLS]和[SEP]作为分隔符对该句子进行拼接,得到输入序列,根据输入序列得到对应的词嵌入表示词嵌入表示为字符嵌入、位置嵌入与分段嵌入之和;使用预训练语言模型对该词嵌入表示进行编码,所述预训练语言模型包括L个预训练Transformer块,对依次进行编码,得到下式: 取第L个Transformer块输出的隐状态表示的[CLS]位向量输入多层感知机层,得到片段分类的概率分布Ysegment: 其中,softmax表示归一化指数函数,Wsegment为片段分类模型的参数矩阵;对Ysegment进行解码,得到输入句子的片段分类结果步骤3-2-2汇总集合中每篇文档的句子片段分类结果,得到句子级情报线索整编集合;所述步骤3-3具体包括:步骤3-3-1遍历句子级情报线索筛选集合将句子级情报线索整编集合中观点类句子,均进行以下处理:以特殊符号[CLS]和[SEP]作为分隔符对观点类句子进行拼接,得到输入序列,根据输入序列得到对应的词嵌入表示使用预训练语言模型对该词嵌入表示进行编码,所述预训练语言模型包括L个预训练Transformer块,对依次进行编码,得到下式: 取第L个Transformer块输出的隐状态表示的[CLS]位向量输入多层感知机层,得到观点分类的概率分布Yopinion: 其中,softmax表示归一化指数函数,Wopinion为观点分类模型的参数矩阵;对Yopinion进行解码,得到该句子的细粒度观点分类结果;步骤3-3-2汇总集合中每篇文档的观点类句子的细粒度观点分类结果,得到观点类情报线索整编子集。
全文数据:
权利要求:
百度查询: 中国人民解放军军事科学院军事科学信息研究中心 一种面向情报线索发现的层次化检索与多维度分类方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。