一种基于Topic Model的本体构建方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：上海电机学院

摘要：本发明提供的一种基于TopicModel的本体构建方法。本发明提出了AOL方法，该方法支持自动的领域本体构建，发明了一种信息的计算概念之间语义相似性的度量方法，用来计算LDA模型产生的概念之间的语义相似性，AOL方法不限制根节点的子节点数量，不需要有种子本体作为初始学习本体的辅助。实验结果表明，本发明提出的利用TopicModel进行自动本体构建的方法是非常有效的。

主权项：1.一种基于TopicModel的本体构建方法，其特征在于，包括以下步骤：第一步、利用LDA模型从给定的文献语料库中进行概念抽取，由抽取到的概念产生出概念集合，然后进行概念层次细分产生本体构建的层次结构G，G＝{T，E}，式中，T＝{t1,t2,…,tm}是概念集合，定义为上层概念集合；T’＝{t1’,t2’,…,tm’}是子概念集合，定义为上层概念集合T的下一层概念集合；E是边的集合，每个eij∈E表示概念集合T中的第i个概念ti与子概念集合T’中第j个概念tj’有边相连，其中，进行概念层次细分产生本体构建的层次结构G时遵循以下规则：规则1：如果ti∈T，tj’∈T’，NT＜NT’，结论是：子概念集合T’比概念集合T概念层次高，其中，NT和NT’分别是概念集合T和子概念集合T’的层高级别；规则2：如果ti∈T，tj’∈T’，在ti与tj’之间极有可能存在上下级关系，其中，是空集；第二步、利用CosTMI相似性度量方法，识别层次结构G中各个概念之间的相似性，即相邻层次间概念的潜在联系，其中，上层概念集合T中第p个概念tp与概念tp的上下文中，下一层概念集合T’中第s个概念ts’和第r个概念tr’两个概念的语义相似度CosTMIts′,tr′；tp 式中，tp包含词汇序列{wp1,wp2,…,wpn}；ts’包含词汇序列{ws’1,ws’2,…,ws’n}；tr’包含词汇序列{wr’1,wr’2,…,wr’n}；PMI是两个词汇的点互信息，两个词汇w与w’的点互信息为PMIw,w’，则有：式中，Pw,w’＝PwPw′|w；式中，z是主题，Pz＝j是主题为j时的概率，Pw|z＝j是主题为j时，词汇w的条件概率，k是概念的数量；式中，Pw′|z＝j是主题为j时候w’的条件概率，Pz＝j|w是词汇为w时，主题j的条件概率。

全文数据：一种基于TopicModeI的本体构建方法技术领域[0001]本发明涉及一种本体构建的方法，利用TopicModel作为产生基本概念单位，不用本体种子即可学习出本体达到构建本体的目的。背景技术[0002]近年来，本体构建已经应用到各种领域，如人工智能、信息抽取、机器翻译等领域。但是人工构建本体是非常耗时费力的工作，由于此原因，利用计算机数据分析、数据挖掘的方式自动构建本体是一件很有意义的研究，吸引了很多研究人员对此进行大量深入的研究。大多数现在的本体学习方法集中在扩展、更新已有的本体种子，利用从文献词库中抽取出概念或者词汇单元来更新和宽展本体种子。也有一些自动学习本体的方法，但是多数这种自动学习本体的方法都是基于特殊知识领域的本体构建，如SKOS模型，但是这些方法都具有一定的局限性。[0003]TopicModel概率模型是一种在没有先验知识提供的情况下，从科学出版物中识别出概念的已被业界证明了非常有效的模型。TopicModel模型现在已经被广泛应用到文本挖掘领域。[0004]EliasZavitsanos等提出一种基于统计方法的自动本体学习方法，该方法是通过不断的重复利用TopicModel模型训练出的概念集合，然后再利用条件独立性判断识别出的概念之间的联系，但是该方法不能进行两个层次结构之间概念的联系。Wangwei等人提出了两个方法都是基于语义Web学习本体结构的方法，该方法利用信息论与TopicModel相结合的方式，表现出很好的召回率和准确率，但是需要限制最近根节点的子概念节点的数量。发明内容[0005]本发明的目的是提供一种信息的计算概念之间语义相似性的度量方法，用来计算LDA模型产生的概念之间的语义相似性。[0006]为了达到上述目的，本发明的技术方案是提供了一种基于TopicModel的本体构建方法，其特征在于，包括以下步骤：[0007]第一步、利用LDA模型从给定的文献语料库中进行概念抽取，由抽取到的概念产生出概念集合，然后进行概念层次细分产生本体构建的层次结构G，G={T，E}，式中，T={tl，t2,…，tm}是概念集合，定义为上层概念集合;Τ’={tl’，t2’，…，tm’}是子概念集合，定义为上层概念集合T的下一层概念集合;E是边的集合，每个eijeE表示概念集合T中的第i个概念ti与子概念集合Τ’中第j个概念tj’有边相连；[0008]第二步、利用CosTMI相似性度量方法，识别层次结构G中各个概念之间的相似性，即相邻层次间概念的潜在联系，其中，上层概念集合T中第p个概念tp与概念tp的上下文中，下一层概念集合Τ’中第s个概念ts’和第r个概念tr’两个概念的语义相似度CosTMIts、tr7；tp[0009][0010]式中，tp包含词汇序列包含词汇序列;tr’包含词汇序列是两个词汇的点互信息，两个词汇w与w’的点互信息为PMIw，w’），则有：[0011][0012]式中，[0013]，式中，z是主题，是主题为j时的概率，是主题为j时，词汇w的条件概率，k是概念的数量；[0014]在^与tj’之间极有可能存在上下级关系，其中，f是空集。[0038]该规则能够帮助我们定义概念之间的本专利下面要介绍的相似性度量。[0039]三相似性度量[0040]本发明利用相似性度量的方法来构建本体的层次结构，也就是说概念之间的联系是通过概念之间的相似度建立的。两个层次概念集中的两个概念之间达到一定的相似度值，才能建立联系，否则认为他们之间是没有联系的。为了计算两个概念之间的语义相似性，要利用LDA模型在产生概念集合生成的概念矩阵，每个矩阵输入是概念出现在本体里的可能性大小。[0041]通常概念之间的相似性利用点互信息PMIPointwiseMutualInformation来度量，本发明定义了一种新的词汇w和w’之间语义相似性度量方法，利用两个概念的期望来定义PMI，每个概念有一系列的词汇组成，这也是LDA模型的一个特殊性质。两个词汇w与w’的点互信息为PMIw，w’），则有：[0042][0043]式中，[0044]，式中，z是主题，是主题为j时的概率，是主题为j时，词汇w的概率，k是概念的数量；[0045]式中，是主题为j时，w’的概率，PZ=j|w是词汇为W时，主题为j的条件概率。[0046]本发明给出两个词汇的点互信息的计算公式是为后续组织构建本体之间概念的层次结构做准备，而且定义另个概念之间的语义相似性也会用到该公式。[0047]由LDA产生的每个概念对应本体结构里面的一个概念。语义相似性度量是度量两个概念之间的语义相似度。在特殊语境的上下文中，另外两个概念的语义相似度。上层概念集合T中第p个概念tp与概念tp的上下文中，下一层概念集合Τ’中第s个概念ts’和第r个概念tr’两个概念的语义相似度CosTMIts';tp[0048][0049]式中，tp包含词汇序列包含词汇序列包含词汇序列[0050]预先设定阈值thct，如果CosTMIts';tp值大于一定的阈值thct，在tp和ts，ts’建立关系。通过上述定义以及语义相似性的计算，得出的可以建立关系的概念都是本体构建中本体里的一个概念。阈值Thct是通过实验要确定的一个值，此值越大说明两个概念之间的语义相似性越大，反之语义相似性越小。[0051]以下利用真实的GENIA语料库及本体GENIA本体验证本文提出本体构建方法的有效性和实用性。[0052]本发明所提出的构建本体方法，由GENIA语料库对应的GENIA本体来进行实验验证。GENIA语料库是一个生物语料库。该语料库包含1，999个医学词汇，是从MeSH、human、和bloodcells中收集得到。GENIA本体中包含45个概念和42个关系。本发明的实验内容是将GENIA预料输入到LDA模型，计算出要构建本体的所需概念。本发明对比了本发明提出的方法AOL和Zavitsanos等人提出的方法算法，执行是在奔腾4,内存2GB的PC机上完成，对比了CosTMI和Zavitsanos等人提出的CI方法，参数设置的阈值分别是0.93和3*10-6。[0053]本发明提出的算法最终以召回率、准确率和Fl度量来评估有效性和本体结构的质量。两个方法执行对比结果如表1所示。[0054]表1概念C和关系S基于相似性度量的执行结果[0056]从表1中我们可以看到，我们提出的方法AOL执行结果是非常有效地，能够被用于其他领域知识的本体构建，准确率和召回率都是高于CI方法。[0057]图2展示了每个概念包含的词汇数量，在我们做实验过程中发现，每个概念所包含的词汇数量会影响到本体构建的准确性。实验结果表明如果每个概念包含10个以下的词汇数量，会严重影响本体构建的准确性。反之，如果每个概念包含的词汇数量越多，构建出本体的准确性也越高。但是并不是包含的概念越多越好，通过实验测试分析，每个概念包含16个词汇结果会比较好，如果概念包含词汇太多，概念中会出现语料库中出现的一些低频词汇，对本体构建中概念的抽象意义不大，反而会影响到本体构建的实际质量。[0058]在图3中我们展示了算法执行准确度的一个细节图，图中展示了CosTMI度量下载阈值thct=0.93时，算法执行是Fl值的变化情况，在图3中我们可以看到，当本体层次数量为7的时候Fl值最高。

权利要求：1.一种基于TopicModel的本体构建方法，其特征在于，包括以下步骤：第一步、利用LDA模型从给定的文献语料库中进行概念抽取，由抽取到的概念产生出概念集合，然后进行概念层次细分产生本体构建的层次结构G，G={T，E}，式中，T=Ul，t2,…，tm}是概念集合，定义为上层概念集合;Τ’={tl’，t2’，...，tm’}是子概念集合，定义为上层概念集合T的下一层概念集合;E是边的集合，每个eijeE表示概念集合T中的第i个概念ti与子概念集合Τ’中第j个概念tj’有边相连；第二步、利用CosTMI相似性度量方法，识别层次结构G中各个概念之间的相似性，即相邻层次间概念的潜在联系，其中，上层概念集合T中第p个概念tp与概念tp的上下文中，下一层概念集合Τ’中第s个概念ts’和第r个概念tr’两个概念的语义相似度CosTMIt^，ty;tp式中，tp包含词汇序列{wpl，wp2,...，wpn};ts’包含词汇序列{ws'UwsS，...，ws’η};tr’包含词汇序列{wZl，w;i^2,...，wr’η};ΡΜΙ〇是两个词汇的点互信息，两个词汇w与w’的点互信息为PMIw，w’），则有：，式中，z是主题，PZ=j是主题为j时的概率，PwIZ=j是主题为j时，词汇w的条件概率，k是概念的数量；，式中，PwIz=j是主题为j时候w’的条件概率，PZ=j|w是词汇为w时，主题j的条件概率。2.如权利要求1所述的一种基于TopicModel的本体构建方法，其特征在于，在所述第一步中，进行概念层次细分产生本体构建的层次结构G时遵循以下规则：规则1:如果tieT，tj’ef结论是:子概念集合Τ’比概念集合T，其中，NT和NT7分别是概念集合T和子概念集合Τ’的层高级别；规则2:如果tieT，tj’eT’在ti与tj’之间极有可能存在上下级关系，其中，爭是空集。

百度查询：上海电机学院一种基于Topic Model的本体构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种秸秆生物质制糖的方法

下一篇：一种基于双模态融合注意力机制YOLOv8的电力绝缘子缺陷检测方法

相关技术

一种秸秆生物质制糖的方法

一种基于双模态融合注意力机制YOLOv8的电力绝缘子缺陷检测方法

一种关于IGBT外延层的退化表征方法

一种基于大型语言模型的化学文献解析和反应信息提取方法和装置

一种冷却水系统用绿色缓蚀剂

一种道路环保施工用防护装置

分离装置

一种机床进给系统直线度退化过程加速测试装置及方法

一种光色可调硅铝酸盐荧光材料及其制备方法和应用

一种海洋污水处理装置

水稻OsABCC1基因及其突变体序列在调控稻米镉积累方面的方法和应用

抗猪IgG抗体及其应用

Model相关技术

一种Model 3010数据采集方法_北京乐氏联创科技有限公司_202311516313.8

一种应用于表征学习的多模型线性融合Model Ensemble方法_长三角信息智能创新研究院_202211434704.0

一种在Power8 L model服务器上监控功耗的方法及系统_浪潮商用机器有限公司_202111422860.0

基于Model Builder生态风险指数计算方法_安徽建筑大学_201810316427.0

基于特征分量相关性的Rich Model隐写检测特征选取方法_中国人民解放军战略支援部队信息工程大学_202110638762.4

一种基于Topic Model的本体构建方法_上海电机学院_201711112981.9

基于Model-Free抽样的涡轮机匣低周疲劳寿命预测方法_西北工业大学_202110624507.4

支持混合模型融合的Model Ensemble方法_聚时科技(江苏)有限公司_202110227595.4

支持混合模型融合的Model Ensemble方法_聚时科技(江苏)有限公司_202110227595.4

一种基于U-model的四旋翼无人机控制方法_中国民航大学_201911420756.0

构建相关技术

语义地图的构建方法、构建装置、处理器和车辆系统_广州小马智行科技有限公司_202011555698.5

软件代码构建方法、系统、设备及存储介质_深圳依时货拉拉科技有限公司_202411034854.1

构建异构数据仓库的实现方法_北京中数睿智科技有限公司_202410905229.3

用于钢结构建筑的防火组件_张百振_202411286657.9

一种数字人大模型构建方法_巨人移动技术有限公司_202411125925.9

构建智能化破产管理人的方法_上海示右智能科技有限公司_202110916391.1

攻击检测模型的构建方法及攻击检测方法_上海斗象信息科技有限公司_202411019557.X

钢结构建筑结构加固装置_初同才_202420400152.X

一种组合物及文库构建方法_南京诺唯赞生物科技股份有限公司_202410927614.8

模型构建方法、参数配置方法以及相关装置_萱闱(北京)生物科技有限公司_202310980532.5

方法相关技术

攻击检测模型的构建方法及攻击检测方法_上海斗象信息科技有限公司_202411019557.X

对准装置及方法、成膜装置及方法和电子器件的制造方法_佳能特机株式会社_202410495098.6

模型压缩方法、训练方法、多媒体数据处理方法及装置_北京百度网讯科技有限公司_202311235188.3

温升预测模型训练方法、预测方法及控制方法_浙江吉利控股集团有限公司_202410908685.3

集成电路的制造方法、设计方法以及备用单元的设计方法_台湾积体电路制造股份有限公司_202410679429.1

图像编码/解码方法和图像数据的传输方法_LX半导体科技有限公司_202411317979.5

资源循环方法及资源循环管理方法_株式会社久保田_202380019741.1

包裹拉距方法及包裹分拣方法_苏州金峰物流设备有限公司_202410973216.X

数据更新方法、信息推送方法及装置_支付宝(杭州)信息技术有限公司_202410852906.X

学习装置、检查装置、学习方法以及检查方法_株式会社斯库林集团_202010947201.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于Topic Model的本体构建方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务