首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于领域语义关系图的文本领域确定方法与系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京邮电大学

摘要:本申请公开了一种领域语义关系图的文本领域确定方法与系统,包括:对待分析文本进行处理得到语句集合和文本词汇集合;确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,所述领域语义关系图为根据从网络平台中采集的文本生成的;根据语句集合和领域语义关系图,确定词汇联合得分;根据词汇联合得分和文本词汇得分确定领域总得分;根据所述领域总得分确定所述待分析文本所属的文本领域。根据从网络平台中采集的文本生成的领域语义关系图,通过确定待分析文本中的文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,能够根据需要针对特殊领域对文本进行分析。通过设置语义关联关系、权重系数和专属属性,提高灵活性和针对性。

主权项:1.一种基于领域语义关系图的文本领域确定方法,其特征在于,包括:对待分析文本进行处理得到语句集合和文本词汇集合;确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,所述领域语义关系图为根据从网络平台中采集的文本生成的,在领域语义关系图中,语义关联路径长度反应了两个词汇的领域相关性,相关性越高,路径长度越短,领域关注度越高;根据语句集合和领域语义关系图,确定词汇联合得分;按照以下公式确定词汇联合得分:其中Wi和Wj为依存关系树中的两个词汇;LWi,Wj为词汇间语义关联路径长度,当词汇间不存在语义关联路径时,LWi,Wj的值为正无穷大;GWi为词汇Wi的关注指数;GWj为词汇Wj的关注指数;SrWi,Wj为词汇联合得分,E为无理数;根据词汇联合得分和文本词汇得分确定领域总得分;根据所述领域总得分确定所述待分析文本所属的文本领域。

全文数据:一种基于领域语义关系图的文本领域确定方法与系统技术领域本申请涉及信息处理领域,尤其涉及一种基于领域语义关系图的文本领域确定方法与系统。背景技术随着大数据时代的快速发展,网络社区和社交媒体成为自由、匿名言论的聚集地。由于网络社区和社交媒体具有匿名性、便捷性和超越时空限制等特点。大量用户可以自由、随意地在这些网络平台上分享自己的意见、见解和对热点事件的看法等。对网络平台上随时产生的文本数据进行实时分析,可以及时掌握用户对热点事件的看法和情绪,检测出其中的不良言论和突发舆情。对随时产生的突发舆情和不良言论进行及时合理的引导,可以有效的提高网络空间的安全性和可信性,具有非常重要的社会意义。然而现有的方法无法根据需要,针对特殊领域对文本进行分析。综上所述,需要提供一种能够根据需要,针对特殊领域对文本进行分析的方法与系统。发明内容为解决以上问题,本申请提出了一种基于领域语义关系图的文本领域确定方法与系统。一方面,本申请提出一种基于领域语义关系图的文本领域确定方法,包括:对待分析文本进行处理得到语句集合和文本词汇集合;确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,所述领域语义关系图为根据从网络平台中采集的文本生成的;根据语句集合和领域语义关系图,确定词汇联合得分;根据词汇联合得分和文本词汇得分确定领域总得分;根据所述领域总得分确定所述待分析文本所属的文本领域。优选地,根据从网络平台中采集的文本,按照以下流程生成领域语义关系图:采集网络平台中的文本,对采集到的文本进行预处理,得到文本数据;筛选文本数据,得到领域文本数据;对领域文本数据进行分词,得到领域词汇集合;提取领域词汇集合中的多个词汇;根据领域专属属性,生成与所述多个词汇对应的多个领域语义节点;针对所述多个词汇,结合领域语义关联关系,生成三元组结构的语义关系;根据所述领域语义节点和三元组结构的语义关系生成领域语义关系图。优选地,所述对待分析文本进行处理得到语句集合和文本词汇集合,包括:对待分析文本进行预处理,得到预处理后的文本;对所述预处理后的文本进行分句,得到语句集合;对所述语句集合进行分词,得到文本词汇集合。优选地,所述确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,包括:查询文本词汇集合中各词汇在领域语义关系图中的关注指数;若该词汇存在于领域语义关系图中,则返回该词汇的关注指数;若该词汇不存在于领域语义关系图中,则返回数值0;根据得到的关注指数确定文本词汇得分。优选地,所述根据语句集合和领域语义关系图,确定词汇联合得分,包括:对语句集合中的每个语句进行依存句法分析,得到依存句法关系树;根据依存句法树中涉及到的词汇,确定词汇的联合得分。优选地,按照以下公式确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分:其中Wi为文本词汇集合中包含的各词汇;GWi为该词汇在领域语义关系图中的关注指数;Ni为该词汇在待分析文本中总共出现的有效次数;Sw为文本词汇得分。优选地,按照以下公式确定词汇联合得分:其中Wi和Wj为依存关系树中的两个词汇;LWi,Wj为词汇间语义关联路径长度,当词汇间不存在语义关联路径时,LWi,Wj的值为正无穷大;GWi为词汇Wi的关注指数;GWj为词汇Wj的关注指数;SrWi,Wj为词汇联合得分。优选地,按照以下公式确定领域总得分:Ss=A*SW+B*∑SrWi,Wj,其中A和B分别对应SW和Sr的权重系数;SW为文本词汇得分;SrWi,Wj为词汇联合得分。优选地,所述领域专属属性为自定义的属性,包括关注指数和类型。第二方面,本申请提出一种基于领域语义关系图的文本领域确定系统,包括:文本分析模块,用于对待分析文本进行处理得到语句集合和文本词汇集合;确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分;根据语句集合和领域语义关系图,确定词汇联合得分;根据词汇联合得分和文本词汇得分确定领域总得分;根据所述领域总得分确定所述待分析文本所属的文本领域;领域语义关系图构建模块,用于根据从网络平台中采集的文本生成领域语义关系图。本申请的优点在于:根据从网络平台中采集的文本生成的领域语义关系图,通过确定待分析文本中的文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,能够根据需要,针对特殊领域对文本进行分析。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选事实方案的目的,而并不认为是对本申请的限制。而且在整个附图中,用同样的参考符号表示相同的部件。在附图中:图1是本申请提供的一种基于领域语义关系图的文本领域确定方法的步骤示意图;图2是本申请提供的一种基于领域语义关系图的文本领域确定方法的领域语义关系的示意图;图3是本申请提供的一种基于领域语义关系图的文本领域确定方法的领域语义关系图构建的示意图;图4是本申请提供的一种基于领域语义关系图的文本领域确定方法的高校学生舆情领域语义关系图的局部截图;图5是本申请提供的一种基于领域语义关系图的文本领域确定系统的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。根据本申请的实施方式,提出一种基于领域语义关系图的文本领域确定方法,如图1所示,包括:S101,对待分析文本进行处理得到语句集合和文本词汇集合;S102,确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,所述领域语义关系图为根据从网络平台中采集的文本生成的;S103,根据语句集合和领域语义关系图,确定词汇联合得分;S104,根据词汇联合得分和文本词汇得分确定领域总得分;S105,根据所述领域总得分确定所述待分析文本所属的文本领域。根据从网络平台中采集的文本,按照以下流程生成领域语义关系图:采集网络平台中的文本,对采集到的文本进行预处理,得到文本数据;筛选文本数据,得到领域文本数据;对领域文本数据进行分词,得到领域词汇集合;提取领域词汇集合中的多个词汇;根据领域专属属性,生成与所述多个词汇对应的多个领域语义节点;针对所述多个词汇,结合领域语义关联关系,生成三元组结构的语义关系;根据所述领域语义节点和三元组结构的语义关系生成领域语义关系图。在领域语义关系图中,语义节点是由领域要素组成。领域要素对应为自然语言中的一个词语。每一个与领域相关的词汇都视作一个领域要素,同时生成一个领域相关节点。领域要素主要由两部分组成,一部分为领域涉及到的实体,包括人物、机构、地点、专有名词等;另一部分为领域涉及到的事件词汇,如“抢劫”,“自杀”等词汇。语义节点的属性包括两部分,一部分是词汇自然属性,用于描述词语在自然语言中所代表的概念或意义。例如词语的词性,词的英文等。另一部分是词汇的领域专属属性,用于描述词语在专属领域中所代表的概念或意义。例如,可以设置关注指数属性关注指数,用于表示词汇在该领域的关注程度,关注程度越高,则关注指数越高。语义节点属性定义如表1所示。表1如表1所示,词汇“偷窃”具有自然属性和领域专属属性,其中自然属性中,词性Part-of-speech,Pos的值为“v”,词汇对应的英文词为“steal”;领域专属属性中,词汇的关注指数为“8”,词汇的事件类型为“财产安全Propertysecurity,PS”。词汇“小偷”的自然属性中,词性的值为“n”,词汇对应的英文词为“thief”;领域专属属性中,词汇的关注指数为“6”,词汇的事件类型为“财产安全”。所述领域专属属性可以设置。所述领域语义关联关系为自定义的关联关系。所述对待分析文本进行处理得到语句集合和文本词汇集合,包括:对待分析文本进行预处理,得到预处理后的文本;对所述预处理后的文本进行分句,得到语句集合;对所述语句集合进行分词,得到文本词汇集合。所述预处理包括去噪和或去重等操作。所述确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,包括:查询文本词汇集合中各词汇在领域语义关系图中的关注指数;若该词汇存在于领域语义关系图中,则返回该词汇的关注指数;若该词汇不存在于领域语义关系图中,则返回数值0;根据得到的关注指数确定文本词汇得分。语义关系是用于描述两个语义节点之间存在的语义关联关系。根据领域关注内容,自定义语义关联关系领域语义关联关系类型。例如在高校学生舆情领域的语义关联关系包括主动关系,被动关系,同等关系,上下位关系,施事关系,受事关系等。语义关系边由两个语义节点和它们之间的语义关系构成,语义关系边采用三元组方式存储,具体结构为语义节点1,语义节点2,语义关系R,这里的语义关系是有向关系,方向为语义节点1到语义节点2,表示的含义是“语义节点1”和“语义节点2”有“语义关系R”。如图2所示,以财产安全事件“小偷偷窃商店”为例,结合领域背景知识,定义领域语义关系。“小偷偷窃商店”事件包含三个实体词汇和一个事件词汇。实体词汇为“小偷”,“商店”,“店主”;事件词汇为“偷窃”。如图2所示,事件中的实体与实体,实体与事件存在语义关联关系。其中包含的语义关系,如表2所示。表2关系起始项关系终止项语义关系小偷偷窃主动关系偷窃商店动宾关系商店店主属于关系店主商店拥有关系店主偷窃被动关系如表2所示,领域要素间存在着一种或多种语义关联关系。例如:“小偷”与“偷窃”存在一种语义关系,即“主动关系”;“店主”和“商店”存在多种语义关系,分别表示“店主拥有商店”和“商店属于店主”的语义关系。所述关注指数为自定义的数值。所述根据语句集合和领域语义关系图,确定词汇联合得分,包括:对语句集合中的每个语句进行依存句法分析,得到依存句法关系树;根据依存句法树中涉及到的词汇,确定词汇的联合得分。按照以下公式确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分:其中Wi为文本词汇集合中包含的各词汇;GWi为该词汇在领域语义关系图中的关注指数;Ni为该词汇在待分析文本中总共出现的有效次数;Sw为文本词汇得分。由于在领域语义关系图中,词汇都具有领域专属属性,其中包含关注指数属性。而且,每个词汇的关注指数与该词汇的关注程度成正比,关注程度越高,则关注指数就越高,所以可以通过设置关注指数,计算文本词汇得分。由公式可知,如果文本具备较高的词汇关注指数,原因可以分为两种情况:第一种为文本中出现了至少一个关注程度较高的词汇,此类词汇的出现,可以直接赋予文本较高的词汇得分,让文本词汇得分较高。第二种为文本中出现了一定数量的关注词汇,此类词汇可以不具备较高的关注指数,但积累到一定数量时,此时文本词汇得分也会较高。按照以下公式确定词汇联合得分:其中Wi和Wj为依存关系树中的两个词汇;E为无理数;LWi,Wj为词汇间语义关联路径长度,当词汇间不存在语义关联路径时,LWi,Wj的值为正无穷大;GWi为词汇Wi的关注指数;GWj为词汇Wj的关注指数;SrWi,Wj为词汇联合得分。语句是构成文本的基本单元,而语句是由词汇按照一定的句法关系构成的。其中语句中的主谓关系、动宾关系等涉及到的词汇是文本分析中的重点分析对象。通过对这些词汇进行词汇联合得分计算,在一定程度上可以对文本实现相关领域的语义分析,为文本的领域分析提供重要参加价值。在领域语义关系图中,语义关联路径长度反应了两个词汇的领域相关性,相关性越高,路径长度越短,领域关注度越高。通过计算,可以得到两个词汇之间的词汇联合得分Sr。由公式可知,词汇联合得分与词汇关注指数,语义关联路径长度相关。当词汇节点间不存在语义关联路径时,分为两种情况,第一种为存在至少一个词汇不属于领域语义关系图时,此时词汇间不存在领域语义关联,语义关联路径长度LWi,Wj的值为正无穷。第二种为两个词汇均存在于领域语义关系图中,但该词汇所在的语义节点之间不存在一条路径使两个节点连通。此时词汇节点间的语义关联路径长度LWi,Wj的值为正无穷,由公式可知,此时,两个词汇的词汇联合得分为0。当词汇节点间存在语义关联路径时,则说明两个词汇均存在于领域语义关系图中,且存在至少一条路径使语义节点相互连通。此时,可通过词汇关注指数和词汇间语义关联路径长度计算得到词汇联动得分。当词汇间出现多条语义关联路径时,LWi,Wj的值取最短的语义关联路径长度。由公式可知,词汇联合得分与词汇关注指数成正比,与词汇语义关联路径长度成反比。词汇关注指数越高,词汇间语义关联路径长度越短,词汇联合得分越高。按照以下公式确定领域总得分:Ss=A*SW+B*∑SrWi,Wj,其中A和B分别对应SW和Sr的权重系数,A与B之和为1;SW为文本词汇得分;SrWi,Wj为词汇联合得分。权重系数越高,表明该部分得分对文本领域总得分的影响越大。由公式Ss=A*SW+B*∑SrWi,Wj可知,文本领域总得分与文本词汇得分,词汇联合得分成正相关关系。文本是由语句构成的,语句是由词汇及其句法关系构成的。通过对文本词汇分析,词汇关联分析,从一定程度上可以对文本实现相关领域的语义分析。所述领域专属属性为自定义的属性,包括关注指数和类型。在所述根据所述领域总得分确定所述待分析文本所属的文本领域之前,还能够对领域总得分进行归一化处理,或对领域总得分进行数据标准化处理等。以对领域总得分进行归一化处理为例,由于网络文本数据存在长度不一,语句数量不确定的问题。导致不同文本最终得分存在较大的差异。因此,在对短文本进一步分析之前,可以对文本领域总得分进行归一化处理,将文本总得分控制在[0,1]区间。非线性回归方法是解决数据差异较大的合理方法,利用公式Y=1-e-s100将结果转换到0至1之间的数值,其中S为领域总得分,Y为得到的归一化得分,e为无理数。文本中包含的词汇在领域语义关系图中的词汇数量越多,包含的词汇领域关注指数越高,词汇在领域语义关系图中的词汇间存在的语义关联路径越短,此时文本的领域归一化得分越高。在实际应用场景中,可以设置合理的判别阈值,当文本归一化得分大于判别阈值时,认为文本内容与领域相关,可以标识出来。如图3所示,领域语义关系图的构建生成主要包括:文本采集,文本处理,语义节点,语义关系。数据源选取,选择从实际的应用场景出发,选择与领域相关网络平台,将这些网络平台的文本数据,用作领域语义关系图的构建的语料。例如,构建高校学生舆情领域语义关系图,可以选择高校相关论坛和社区进行文本数据收集。文本采集,根据对应的网络平台数据源,设计具有针对的网络爬虫方案和策略,尽可能多的获取领域相关文本数据。文本处理,将爬虫模块获取的数据进行去噪去重等操作,去除其中的非文本数据,筛选出其中的文本数据。并针对文本数据,进行人工筛选,进一步筛选出与领域相关的文本数据,作为构建领域语义关系图的语料。语义节点,利用分词工具,对领域文本数据进行分词操作,将文本数据拆分成词汇集合,从中提炼出于与领域相关的词汇,作为领域要素,结合自定义的领域专属属性,生成具有领域背景的语义节点。语义关系,针对提炼出的领域词汇,结合自定义的领域语义关联关系,自动生成三元组结构的语义关系,格式为:语义节点1,语义节点2和语义关系R。所述领域语义关联关系包括:主谓关系、动宾关系、动补关系、定中关系、状中关系和并列关系等。所述领域语义关联关系还能够根据需要进行定义设置,如自己定义一种主动关系和或被动关系。所述领域语义关联关系能够根据需要,从之前定义好的语义关系汇总中选择合适的领域语义关联关系。领域语义关系图,结合语义节点和语义关系,将领域要素作为语义关系图的节点,将领域要素之间语义关系作为节点之间的边,自动生成一张与领域相关的语义关系图,记为领域语义关系图。所述领域语义关系图包括:语义关系边的数据集合、语义关系的数据集合和语义节点的数据集合。所述领域语义关系图能够扩展。扩展方法包括:针对新发现的文本数据进行处理,提炼出其中新出现的领域词汇;根据领域先验知识,生成领域语义节点;根据语义关系规则,生成与其他词汇的语义关联关系,作为语义关系边;将最新生成的语义节点和语义关系边加入到领域语义关系图中。关注指数用于表示词汇在对应领域中的关注程度,关注指数从1到10,关注指数越高,表示该词汇受关注程度越高。词汇Wi的关注指数记为GWi。当词汇不存在与领域语义关系图中时,此时词汇的关注指数为0.语义关联用于表示在领域语义关系图中,如果从结点Ei到Ej有路径存在,则称结点Ei和Ej是语义关联的。语义关联路径用于表示,在领域语义关系图中,两个语义关联的结点之间的路径称为它们的语义关联路径。语义关联路径长度表示,在领域语义关系图中,如果结点Ei和Ej是语义关联的,对于它们之间的某一条语义关联路径P,将P上弧的数量称为它们的语义关联路径长度,记为LWi,Wj。语义关联路径长度反应了两个词汇的领域相关性,相关性越高,路径长度越短。所述语义关联路径长度可以设置。通过自定义领域语义关联关系、权重系数和领域专属属性等,能够根据需要,针对特殊领域,生成领域语义关系图。根据生成的领域语义关系图确定待分析文本的领域总得分。还能够根据需要,将待分析文本与多个领域语义关系图进行分析,分别计算待分析文本与多个领域语义关系图之间的各领域总得分。以高校学生舆情领域为实验对象,采集网络平台中的文本。所述网络平台包括各大高校论坛、主流网络社交平台和主流新闻网站等。其中高校论坛包含水木清华、北大未名和向北航行等。网络社交平台包括微博、知乎和贴吧等。截止目前为止,总计开发了86个爬虫模块,总计采集文本数据478303条,提炼出与高校学生舆情相关的文本数据81427条。根据采集到的文本数据,构建了一张包含5248个节点,包含16488条边的领域语义关系图。如图4所示,为高校学生舆情领域语义关系图的局部截图。为保证实验的可信性、有效性和客观性,采用真实网络平台作为实验数据采集源。数据采集源主要包括高校论坛和社交媒体两部分,其中高校论坛包括水木清华、北大未名、向北航行和蛋蛋网等;社交媒体包括微博和知乎等。采用网络爬虫技术采集以上数据源的文本数据作为测试数据集,共计40000条。人工标记测试数据集中的高校舆情领域文本。将标记后文本数据集分为两部分,训练集和测试集。训练集和测试集文本情况如表3所示。表3数据集领域相关文本数量文本总数量训练集735020000测试集684020000如表3所示,训练数据集中的数据共计20000条,其中与高校舆情领域相关的文本数据共计7350条;测试数据集中的数据共计20000条,其中与高校舆情领域相关的文本数据共计6840条。将实验测试数据集作为数据输入源,通过设置不同的判别阈值对数据集中的文本进行分析,将高于判别阈值的文本判别为与领域相关文本,将低于判别阈值的文本判别为与领域无关的文本。使用P、R、F值作为文本准确度的判别标准,用于确定判别阈值。其中P为准确率,R为查全率。准确率=分类正确的文本数量正确类别文本总数量;查全率=分类正确的文本数量该类文本总数量。F值是准确率P和查全率R的谐波平均值,作为评估绩效的重要指标,它代表了模型的准确度,其中结果为1的模型被认为是最好的模型。为了验证有效性,在当前诸多学者的不同方法实现的短文本分类方法研究中,选择新近的短文本分类方法作为对比方法。采用传统机器学习-支持向量机SupportVectorMachine,SVM方法、朴素贝叶斯NaiveBayesian,NB方法和基于深度学习卷积神经网络ConvolutionalNeuralNetworks,CNN方法作为对比,采用表3中标记的训练集对以上方法进行训练。最终使用准确率P,查全率R和F值作为评价指标。基于领域语义关系图的文本分析模型的判别阈值设为0.14。结果对比如表4所示。表4测试方法PRF支持向量机SVM78.23%72.35%75.18%朴素贝叶斯NB76.36%79.24%77.77%卷积神经网络CNN80.64%78.35%79.47%领域语义关系图的文本领域确定方法84.32%83.12%83.74%如表4所示,相对于传统机器学习方法和深度学习方法,本申请实施例的方法在准确率P,查全率R和准确度F值方面都有一定程度的提升。其中,相对于传统机器学习SVM方法,本申请实施例的方法的F值提升了8.6%;相比机器学习朴素贝叶斯NB方法,本申请实施例的方法的F值提升了6%;与深度学习卷积神经网络CNN方法相比,本申请实施例的方法的F值提升了约4%。本申请实施例的方法能够达到秒级级别,面向以短文本为主的网络社区文本数据,可以满足实时处理的基本需求。根据本申请的实施方式,还提出一种基于领域语义关系图的文本领域确定系统,如图5所示,包括:文本分析模块101,用于对待分析文本进行处理得到语句集合和文本词汇集合;确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分;根据语句集合和领域语义关系图,确定词汇联合得分;根据词汇联合得分和文本词汇得分确定领域总得分;根据所述领域总得分确定所述待分析文本所属的文本领域;领域语义关系图构建模块102,用于根据从网络平台中采集的文本生成领域语义关系图。所述文本分析模块还用于存储采集到的文本、语句集合、文本词汇集合和计算过程中得到的所有数据。所述文本分析模块能够根据设定,分别计算待分析文本与多个领域语义关系图之间的各领域总得分。所述文本分析模块还能够根据设定对领域总得分进行归一化处理,或对领域总得分进行数据标准化处理等。所述领域语义关系图构建模块还用于对生成好的领域语义关系图进行扩展。通过针对新发现的文本数据进行处理,提炼出其中新出现的领域词汇;根据领域先验知识,生成领域语义节点;根据语义关系规则,生成与其他词汇的语义关联关系,作为语义关系边;将最新生成的语义节点和语义关系边加入到领域语义关系图中。所述领域语义关系图构建模块还用于保存生成好的领域语义关系图。本申请实施例的方法中,根据从网络平台中采集的文本生成的领域语义关系图,通过确定待分析文本中的文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,能够根据需要,针对特殊领域对文本进行分析。领域语义关联关系、权重系数和领域专属属性等能够根据需要进行定义设置,灵活性高,针对性强,能够有效提高文本领域的准确率。并且可以对生成好的领域语义关系图进行扩展,还能够满足实时处理的需求。以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

权利要求:1.一种基于领域语义关系图的文本领域确定方法,其特征在于,包括:对待分析文本进行处理得到语句集合和文本词汇集合;确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,所述领域语义关系图为根据从网络平台中采集的文本生成的;根据语句集合和领域语义关系图,确定词汇联合得分;根据词汇联合得分和文本词汇得分确定领域总得分;根据所述领域总得分确定所述待分析文本所属的文本领域。2.如权利要求1所述的方法,其特征在于,根据从网络平台中采集的文本,按照以下流程生成领域语义关系图:采集网络平台中的文本,对采集到的文本进行预处理,得到文本数据;筛选文本数据,得到领域文本数据;对领域文本数据进行分词,得到领域词汇集合;提取领域词汇集合中的多个词汇;根据领域专属属性,生成与所述多个词汇对应的多个领域语义节点;针对所述多个词汇,结合领域语义关联关系,生成三元组结构的语义关系;根据所述领域语义节点和三元组结构的语义关系生成领域语义关系图。3.如权利要求1所述的方法,其特征在于,所述对待分析文本进行处理得到语句集合和文本词汇集合,包括:对待分析文本进行预处理,得到预处理后的文本;对所述预处理后的文本进行分句,得到语句集合;对所述语句集合进行分词,得到文本词汇集合。4.如权利要求1所述的方法,其特征在于,所述确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,包括:查询文本词汇集合中各词汇在领域语义关系图中的关注指数;若该词汇存在于领域语义关系图中,则返回该词汇的关注指数;若该词汇不存在于领域语义关系图中,则返回数值0;根据得到的关注指数确定文本词汇得分。5.如权利要求1所述的方法,其特征在于,所述根据语句集合和领域语义关系图,确定词汇联合得分,包括:对语句集合中的每个语句进行依存句法分析,得到依存句法关系树;根据依存句法树中涉及到的词汇,确定词汇的联合得分。6.如权利要求1所述的方法,其特征在于,按照以下公式确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分:其中Wi为文本词汇集合中包含的各词汇;GWi为该词汇在领域语义关系图中的关注指数;Ni为该词汇在待分析文本中总共出现的有效次数;Sw为文本词汇得分。7.如权利要求1所述的方法,其特征在于,按照以下公式确定词汇联合得分:其中Wi和Wj为依存关系树中的两个词汇;LWi,Wj为词汇间语义关联路径长度,当词汇间不存在语义关联路径时,LWi,Wj的值为正无穷大;GWi为词汇Wi的关注指数;GWj为词汇Wj的关注指数;SrWi,Wj为词汇联合得分。8.如权利要求1所述的方法,其特征在于,按照以下公式确定领域总得分:Ss=A*SW+B*∑SrWi,Wj,其中A和B分别对应Sw和Sr的权重系数;Sw为文本词汇得分;SrWi,Wj为词汇联合得分。9.如权利要求2所述的方法,其特征在于,所述领域专属属性为自定义的属性,包括关注指数和类型。10.一种基于领域语义关系图的文本领域确定系统,其特征在于,包括:文本分析模块,用于对待分析文本进行处理得到语句集合和文本词汇集合;确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分;根据语句集合和领域语义关系图,确定词汇联合得分;根据词汇联合得分和文本词汇得分确定领域总得分;根据所述领域总得分确定所述待分析文本所属的文本领域;领域语义关系图构建模块,用于根据从网络平台中采集的文本生成领域语义关系图。

百度查询: 北京邮电大学 一种基于领域语义关系图的文本领域确定方法与系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。