买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:浙江工业大学
摘要:一种多属性事理关系抽取及可视分析方法,包括以下步骤:1数据预处理,对文本进行事件检测、事件对齐;基于规则和机器学习的事理关系抽取,融入频繁子树挖掘半自动化获取规则库;2提供总体概览的降维投影视图;3提供频繁事理比较的摘要视图;4提供文档详细事理演化的流视图。本发明提供一种多属性事理关系交互式可视分析系统,允许用户交互式探索文本从概要到细节的事理演变关系。
主权项:1.一种多属性事理关系抽取及可视分析方法,其特征在于,所述方法包括以下步骤:1融入频繁子树挖掘的事理关系抽取,对于事理关系的抽取,关注的事理关系包含:时序关系、因果关系、层次关系,时序关系是指两事件之间在时间发生顺序上的关系,因果关系是指两事件之间一方由另一方导致,层次关系是指事件在时空上包含另一事件;2提供总体概览的降维投影视图将每一篇文本抽取到的事理演变有向无环图,集中进行Graph2vec的高维向量表征,同时保留节点及边标签的语义与图结构特征,步骤如下:2.1对于步骤1中得到的每一篇文档的事理关系集合,通过关系首尾连接形成事理演变有向无环图g={e1,r,e2},其中每个节点e代表一个事件,每条有向边r代表两事件之间的事理关系,得到包含所有文档事理演变图的图集合G={g1,..,gn};2.2将步骤2.1中得到的图集合G作为Graph2vec的输入,获得G中每一个图生成的高维向量集合V,输出的向量维度统一为200;2.3使用UMAP投影算法将高维向量V投影到二维平面,平面中的每一个点表征一篇文档的事理关系图,点的距离越接近代表两篇文档的事理演变模式更接近;2.4对二维平面中的点通过DBSCAN获取投影聚类信息,给予不同的聚类簇不同的颜色,以此更有针对性地帮助用户探索具有相似事理演变表达的文本;此外提供刷选、点击的功能与其余视图形成交互提供细节信息展示;3提供频繁事理比较的摘要视图在步骤2得到的投影视图中,用户可以刷选感兴趣的点簇,然后得到将簇中所有被选中的点代表的事理演变图集合G’;利用Gspan算法搜索G’其中的所有的频繁边E={i,j,e1,e2,r},i,j为该边中事件节点的编号,r为边即事理关系的标签,e为事件节点的标签,其中事件节点标签利用命名实体识别将其中出现的人名、地点、组织进行泛化,利用边增长策略得到G’的频繁子图候选集,剔除其中节点数小于4的子图;将得到的事理频繁子图按照支持度排序,子图支持度即G’中包含该子图的事理演变图的个数,以此呈现在视图中,以此探索文本中的一般事理倾向;4提供文档详细事理演化的流视图流视图使用基于流的方法,展现在步骤1中所抽取出的多属性事理关系的演变模式,视图中的每一个节点代表一个事件,节点与节点之间的流路径代表事件之间的关系,流路径的颜色代表不同类别的事件,粗细代表该路径的重要程度,由于事件关系路径的相互交叉引起的视觉杂乱,通过两方面进行解决,一方面,在最大限度保留语义信息的情况下对路径进行过滤,另一方面,围绕事件语义和流图结构设计一种新的布局算法来更清晰地展现事理关系信息;所述步骤4的过程如下:4.1保留语义信息的路径过滤对于事理关系之间的演变语义,模型中会提取出包含重复信息的流路径,如存在A–B–C与A–C两条路径,前一条路径已经包含了后一条路径的传递信息,因此可过滤这些重复路径,同时保留下包含最多语义的路径以减少视图复杂度,过程为:4.1.1对于两个事件节点vi、vj,通过深度优先搜索得到两个事件节点之间的所有可能路径;4.1.2遍历搜索到的所有可能路径,若包含除了vi–vj直接连通的路径之外的多节点路径,如:vi–vk–vj,则从总路径图中去除vi–vj直连路径,并将该路径的权重平均绑定到其余路径中;4.1.3搜索流图中所有两点间的连通路径,执行步骤4.1.14.1.2来过滤图中所有重复传递语义的路径减少视图复杂度,并保留了所有可能存在的支流语义;4.2围绕重点事件节点的布局算法设计为了使事件演变流图能更具备阅读逻辑顺序,并且减少交叉带来的视觉影响,设计了围绕重点事件节点的布局算法。
全文数据:
权利要求:
百度查询: 浙江工业大学 一种多属性事理关系抽取及可视分析方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。