首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种中医理论典籍的知识图谱构建方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京科技大学

摘要:本发明提供一种中医理论典籍的知识图谱构建方法,能够提高构建的知识图谱的准确率。所述方法包括:确定中医理论典籍中的实体词表和动词词表;根据确定的实体词表,对中医理论典籍中的实体进行标注;根据已标注实体的中医理论典籍,通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别,得到中医理论典籍中的实体;根据识别出的中医理论典籍中的实体,利用结合注意力机制的双向门控循环单元神经网络进行关系抽取,获取中医理论典籍中实体之间的关系,形成实体关系表;以实体关系表中的实体为节点集,实体关系表中的关系为边集,构建中医理论典籍的知识图谱。本发明涉及知识工程领域。

主权项:1.一种中医理论典籍的知识图谱构建方法,其特征在于,包括:确定中医理论典籍中的实体词表和动词词表;根据确定的实体词表,对中医理论典籍中的实体进行标注;根据已标注实体的中医理论典籍,通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别,得到中医理论典籍中的实体;根据识别出的中医理论典籍中的实体,利用结合注意力机制的双向门控循环单元神经网络进行关系抽取,获取中医理论典籍中实体之间的关系,形成实体关系表;以实体关系表中的实体为节点集,实体关系表中的关系为边集,构建中医理论典籍的知识图谱;其中,所述确定中医理论典籍中的实体词表和动词词表包括:根据中医理论典籍的语言特点,按照特殊标点符号、数字和中医理论典籍中出现的固定句式,形成实体词表,并根据形成的实体词表进行实体的分类;利用固定句式总结中医理论典籍中的动词关系,形成动词词表,并根据形成的动词词表进行实体间关系的分类。

全文数据:一种中医理论典籍的知识图谱构建方法技术领域本发明涉及知识工程领域,特别是指一种中医理论典籍的知识图谱构建方法。背景技术从古至今,中医领域积累了大量的医学理论典籍,如《黄帝内经》、《难经》、《类经》等。这些典籍采用古文言文的形式,且大多是非结构化的文本。中医是一门渊源很久的学科,古代医学大家的理论典籍对后人了解中医知识和运用前人经验至关重要。而目前没有对中医理论典籍知识的结构化认识,如何将这些蕴含在中医理论典籍中的海量资源进行梳理并利用,已成为中医领域一个关注的热点问题。知识图谱是描述真实世界中存在的各种概念或实体,以及各种实体、概念之间的关系。本质上是将领域知识数据体系化、关系化的语义网络,是一种基于图的数据结构。通俗来说,知识图谱是基于信息系统建立的知识库,根据提取的实体间关系通过可视化技术把复杂知识领域系统地展示出来。知识图谱的应用,能够实现对知识的共建、共享及重用。但目前中医领域的知识图谱的应用很少,尤其是针对中医理论典籍这一类描述中医认识方法和辩证论治的理论书籍的知识图谱。发明内容本发明要解决的技术问题是提供一种中医理论典籍的知识图谱构建方法,以解决现有技术所存在的缺少描述中医认识方法和辩证论治的理论书籍的知识图谱的问题。为解决上述技术问题,本发明实施例提供一种中医理论典籍的知识图谱构建方法,包括:确定中医理论典籍中的实体词表和动词词表;根据确定的实体词表,对中医理论典籍中的实体进行标注;根据已标注实体的中医理论典籍,通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别,得到中医理论典籍中的实体;根据识别出的中医理论典籍中的实体,利用结合注意力机制的双向门控循环单元神经网络进行关系抽取,获取中医理论典籍中实体之间的关系,形成实体关系表;以实体关系表中的实体为节点集,实体关系表中的关系为边集,构建中医理论典籍的知识图谱。进一步地,所述确定中医理论典籍中的实体词表和动词词表包括:根据中医理论典籍的语言特点,按照特殊标点符号、数字和中医理论典籍中出现的固定句式,形成实体词表,并根据形成的实体词表进行实体的分类;利用固定句式总结中医理论典籍中的动词关系,形成动词词表,并根据形成的动词词表进行实体间关系的分类。进一步地,所述根据中医理论典籍的语言特点,按照特殊标点符号、数字和中医理论典籍中出现的固定句式,形成实体词表包括:根据预先设置的特殊标点符号,确定中医理论典籍中的概念和子概念,根据确定的概念和子概念进行细分,得到中医理论典籍中的实体;按照数字,确定中医理论典籍中的概念词实体和量词实体;按照固定句式,确定中医理论典籍句子中包含的实体;对得到的中医理论典籍中的实体进行汇总,形成实体词表;以中医的认识方法和辩证论治为依据,对实体词表中的实体进行分类。进一步地,实体的分类类别包括:生理、病理、自然、认识方法、治法;实体间关系的分类类别包括:表征、概念、因果、促进、抑制、包含、unknown,其中,unknown表示实体间有关系,但关系不明确。进一步地,在确定中医理论典籍中的实体词表和动词词表之后,所述方法还包括:收集预先设置的词库中与中医相关的词表;爬取预先设置的网站中的中医术语;根据收集的与中医相关的词表和爬取的中医术语,扩充实体词表。进一步地,所述根据确定的实体词表,对中医理论典籍中的实体进行标注包括:根据确定的实体词表,采用BIOES的标注方式,为中医理论典籍中包含的实体打标签;其中,BIOES中的B表示实体的开始、I表示实体的中间、E表示实体的结尾、S表示单个字符的实体、O表示非实体。进一步地,所述根据已标注实体的中医理论典籍,通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别,得到中医理论典籍中的实体包括:从网络上爬取和所述中医理论典籍相关的古籍,形成训练语料,根据形成的训练语料进行训练,得到中医理论典籍的字向量;根据已标注实体的中医理论典籍和得到的中医理论典籍的字向量,通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别,得到中医理论典籍中的实体。进一步地,所述从网络上爬取和所述中医理论典籍相关的古籍,形成训练语料,根据形成的训练语料进行训练,得到中医理论典籍的字向量包括:从网络爬取和所述中医理论典籍相关的古籍,形成训练语料;将训练语料中的古籍合并成一个文本,进行数据清洗后按字分割,其中,所述数据清洗包括:乱码清除、繁简体转换;根据分割后得到的字,利用词向量生成工具的连续词袋模型进行训练,得到中医理论典籍的字向量。进一步地,所述根据已标注实体的中医理论典籍和得到的中医理论典籍的字向量,通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别,得到中医理论典籍中的实体包括:A1,将已标注实体的中医理论典籍划分为训练集、验证集和测试集;A2,根据划分得到的训练集,将中医理论典籍字向量作为基于字符的双向长短期记忆网络的预训练模型的输入,得到初始网络参数;基于得到的初始网络参数,双向长短期记忆网络进行训练,拼接字向量的上下文语义向量,输出给条件随机场进行标注,得到训练模型;A3,利用划分得到的验证集,选择最优训练模型;A4,利用划分得到的测试集调整已选择的最优训练模型中的网络结构和网络参数;A5,利用已调整后的最优训练模型识别中医理论典籍中未标注的实体;A6,根据识别出的未标注的实体,扩充实体词表。进一步地,所述根据识别出的中医理论典籍中的实体,利用结合注意力机制的双向门控循环单元神经网络进行关系抽取,获取中医理论典籍中实体之间的关系,形成实体关系表包括:B1,将中医理论典籍中包含实体词表中两个及以上实体的句子作为关系语料,根据实体间关系的分类结果,对关系语料进行标注,得到实体-关系数据集;B2,将所述实体-关系数据集划分为训练集、验证集和测试集;B3,根据划分得到的训练集,通过结合注意力机制的双向门控循环单元神经网络进行网络训练;B4,利用划分得到的验证集,选择最优训练模型;B5,利用划分得到的测试集调整已选择的最优训练模型中的网络结构和网络参数;B6,利用已调整后的最优训练模型识别关系语料中未标注的句子进行关系抽取,获得实体之间可能的关系及概率;B7,选择概率最大的关系为实体之间的关系,并扩充实体关系表形成实体关系三元组。本发明的上述技术方案的有益效果如下:上述方案中,确定中医理论典籍中的实体词表和动词词表;根据确定的实体词表,对中医理论典籍中的实体进行标注;根据已标注实体的中医理论典籍,通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别,得到中医理论典籍中的实体;根据识别出的中医理论典籍中的实体,利用结合注意力机制的双向门控循环单元神经网络进行关系抽取,获取中医理论典籍中实体之间的关系,形成实体关系表;以实体关系表中的实体为节点集,实体关系表中的关系为边集,构建中医理论典籍的知识图谱;这样,利用循环神经网络加条件随机场进行实体识别,并利用循环神经网络加注意力机制进行关系抽取,能够提高实体识别和关系抽取的准确率,从而提高构建的知识图谱的准确率。附图说明图1为本发明实施例提供的中医理论典籍的知识图谱构建方法的流程示意图;图2为本发明实施例提供的中医理论典籍的知识图谱构建方法的详细流程示意图;图3为本发明实施例提供的黄帝内经的知识图谱示意图。具体实施方式为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。本发明针对现有的描述中医认识方法和辩证论治的理论书籍的知识图谱的问题,提供一种中医理论典籍的知识图谱构建方法。如图1所示,本发明实施例提供的中医理论典籍的知识图谱构建方法,包括:S101,确定中医理论典籍中的实体词表和动词词表;S102,根据确定的实体词表,对中医理论典籍中的实体进行标注;S103,根据已标注实体的中医理论典籍,通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络Bi-LSTM-CRF进行实体识别,得到中医理论典籍中的实体;S104,根据识别出的中医理论典籍中的实体,利用结合注意力机制的双向门控循环单元神经网络进行关系抽取,获取中医理论典籍中实体之间的关系,形成实体关系表;S105,以实体关系表中的实体为节点集,实体关系表中的关系为边集,构建中医理论典籍的知识图谱。本发明实施例所述的中医理论典籍的知识图谱构建方法,确定中医理论典籍中的实体词表和动词词表;根据确定的实体词表,对中医理论典籍中的实体进行标注;根据已标注实体的中医理论典籍,通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别,得到中医理论典籍中的实体;根据识别出的中医理论典籍中的实体,利用结合注意力机制的双向门控循环单元神经网络进行关系抽取,获取中医理论典籍中实体之间的关系,形成实体关系表;以实体关系表中的实体为节点集,实体关系表中的关系为边集,构建中医理论典籍的知识图谱;这样,利用循环神经网络加条件随机场进行实体识别,并利用循环神经网络加注意力机制进行关系抽取,能够提高实体识别和关系抽取的准确率,从而提高构建的知识图谱的准确率。在前述中医理论典籍的知识图谱构建方法的具体实施方式中,进一步地,所述确定中医理论典籍中的实体词表和动词词表包括:根据中医理论典籍的语言特点,按照特殊标点符号、数字和中医理论典籍中出现的固定句式,形成实体词表,并根据形成的实体词表进行实体的分类;利用固定句式总结中医理论典籍中的动词关系,形成动词词表,并根据形成的动词词表进行实体间关系的分类。本实施例中,根据中医理论典籍的语言特点,得到中医理论典籍的实体词表和动词词表,并根据得到的词表进行实体和实体间关系的分类。本实施例中,实体间关系主要分为以下七类:表征、概念、因果、促进、抑制、包含、unknown,其中,unknown表示实体间有关系,但关系不明确。在前述中医理论典籍的知识图谱构建方法的具体实施方式中,进一步地,所述根据中医理论典籍的语言特点,按照特殊标点符号、数字和中医理论典籍中出现的固定句式,形成实体词表包括:根据预先设置的特殊标点符号,确定中医理论典籍中的概念和子概念,根据确定的概念和子概念进行细分,得到中医理论典籍中的实体;按照数字,确定中医理论典籍中的概念词实体和量词实体;按照固定句式,确定中医理论典籍句子中包含的实体;对得到的中医理论典籍中的实体进行汇总,形成实体词表;以中医的认识方法和辩证论治为依据,对实体词表中的实体进行分类。本实施例中,例如,可以通过“:”“、”等特殊标点符号,确定中医理论典籍中的概念和子概念,根据确定的概念和子概念进一步进行细分,得到中医理论典籍中的实体;也可以通过“一”、“二”、“三”、“四”、“五”等数字,确定中医理论典籍中的概念词和量词等实体;还可以通过固定句式,确定中医理论典籍句子中包含的实体;然后,对得到的中医理论典籍中的实体进行汇总,形成实体词表。本实施例中,可以以中医的认识方法和辩证论治为依据,将实体词表中的实体分为以下具体五类:生理SL,包括五脏、六腑、奇恒之腑、气、血、津液、精、体液、外荣、形体、官窍、情志、神、经络穴位、脏腑生理功能、脏腑生理特性等概念、病理BL,包括疾病、病因、病机、症状等概念、自然ZR,包括四时、方位、时间、颜色、味道、五行、动植物等、认识方法FF,包括阴阳、天干地支、数字等概括总结形成的术语、治法ZF,包括辨证方法、证候、治则、治法、方药、性味归经等。在前述中医理论典籍的知识图谱构建方法的具体实施方式中,进一步地,在确定中医理论典籍中的实体词表和动词词表之后,所述方法还包括:收集预先设置的词库中与中医相关的词表;爬取预先设置的网站中的中医术语;根据收集的与中医相关的词表和爬取的中医术语,扩充实体词表。本实施例中,还可以通过爬取相关网站中的与中医相关的词表和中医术语,来扩充实体词表,具体步骤可以包括的:收集预先设置的词库例如,搜狗细胞词库中的与中医相关的词表,包括:方剂、穴位等;爬取预先设置的网站例如,百度百科和中医网站中的中医术语,包括:穴位、概念、治法、病症等;根据收集的与中医相关的词表和爬取的中医术语,扩充实体词表。本实施例中,通过2种途径获取词表:1根据中医理论典籍的语言特点数字、特殊符号、固定句式,确定中医理论典籍中的实体词表和动词词表,为理解中医理论典籍阐述的主要概念及其联系等提供了帮助,并可以作为未来研究中医理论典籍的资源。需要说明的是,在确定中医理论典籍中的实体词表和动词词表时,还可以结合用户对中医尤其是中医理论典籍的理解。2从网络中获取了另一部分词表和中医术语,不仅扩充了原实体词表,且操作过程简洁、迅速。通过1和2这两种方式,得到了针对中医理论典籍这一类非结构化文本整理的结构化词表。通过1和2这两种方式的结合,不仅增加了实体的数量,还能减少人工标注的工作量。在前述中医理论典籍的知识图谱构建方法的具体实施方式中,进一步地,所述根据确定的实体词表,对中医理论典籍中的实体进行标注包括:根据确定的实体词表,采用BIOES的标注方式,为中医理论典籍中包含的实体打标签;其中,BIOES中的B表示实体的开始、I表示实体的中间、E表示实体的结尾、S表示单个字符的实体、O表示非实体。本实施例中,可以利用词典的方法,为中医理论典籍中包含的实体打标签;还可以利用词典和人工校对相结合的方法,为中医理论典籍中包含的实体打标签。在前述中医理论典籍的知识图谱构建方法的具体实施方式中,进一步地,所述根据已标注实体的中医理论典籍,通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别,得到中医理论典籍中的实体包括:从网络上爬取和所述中医理论典籍相关的古籍,形成训练语料,根据形成的训练语料进行训练,得到中医理论典籍的字向量;根据已标注实体的中医理论典籍和得到的中医理论典籍的字向量,通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别,得到中医理论典籍中的实体。在前述中医理论典籍的知识图谱构建方法的具体实施方式中,进一步地,所述从网络上爬取和所述中医理论典籍相关的古籍,形成训练语料,根据形成的训练语料进行训练,得到中医理论典籍的字向量包括:从网络爬取和所述中医理论典籍相关的古籍,形成训练语料;将训练语料中的古籍合并成一个文本,进行数据清洗后按字分割,其中,所述数据清洗包括:乱码清除、繁简体转换;根据分割后得到的字,利用词向量生成工具word2vec的连续词袋模型ContinuousBag-of-Words,CBOW进行训练,得到中医理论典籍的字向量。本实施例中,字向量维度可以设置为200维,在实际应用中,字向量的维度可以根据实际应用场景确定。在前述中医理论典籍的知识图谱构建方法的具体实施方式中,进一步地,所述根据已标注实体的中医理论典籍和得到的中医理论典籍的字向量,通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别,得到中医理论典籍中的实体包括:A1,将已标注实体的中医理论典籍划分为训练集、验证集和测试集;A2,根据划分得到的训练集,将中医理论典籍字向量作为基于字符的双向长短期记忆网络的预训练模型的输入,得到初始网络参数;基于得到的初始网络参数,双向长短期记忆网络进行训练,拼接字向量的上下文语义向量,输出给条件随机场进行标注,得到训练模型;A3,利用划分得到的验证集,选择最优训练模型;A4,利用划分得到的测试集调整已选择的最优训练模型中的网络结构和网络参数;A5,利用已调整后的最优训练模型识别中医理论典籍中未标注的实体;A6,根据识别出的未标注的实体,扩充实体词表。将已标注实体的中医理论典籍划分为训练集、验证集和测试集;本实施例中,根据已标注实体的中医理论典籍和得到的中医理论典籍的字向量,利用Bi-LSTM-CRF的深度学习方法进行实体识别,得到中医理论典籍中的实体,其具体步骤可以包括:例如,将已标注实体的中医理论典籍作为一数据集,可以将数据集的60%作为训练集通过Bi-LSTM-CRF进行网络训练,20%作为验证集来选择最优训练模型,20%作为测试集进行测试,字向量采用200维进行训练,查看模型的识别效果,防止过拟合,并根据测试结果来调整已选择的最优训练模型中的网络结构和网络参数其中,防过拟合参数dropout为0.5,迭代次数为200次、批大小batch_size为10;然后,利用已调整后的最优训练模型识别中医理论典籍中未标注的实体,根据识别出的未标注的实体,进一步扩充实体词表。本实施例中,长短期记忆网络LongShortTermMemory,LSTM是一种特殊类型的循环神经网络。双向长短期记忆网络弥补了普通的循环神经网络不能记忆长距离依赖的缺点,考虑了输入字的上下文信息,条件随机场考虑了标签之间的相互作用。本实施例中,将中医理论典籍字向量作为双向长短期记忆网络的预训练模型的输入,以得到较优的初始网络参数,防止过拟合,且可以减少分词效果不佳累积的误差,也就是说:双向长短期记忆网络加入无监督预训练,能得到较好的局部最优解;随后双向长短期记忆网络进行有监督训练,拼接字向量的上下文语义向量,输出给条件随机场进行标注,得到训练模型。总的来说,用于预训练的字向量是作为双向长短期记忆网络的一层预训练模型,用于得到较好的初始化参数,得到较好的局部最优解,便于为后续有监督训练提供参考。在前述中医理论典籍的知识图谱构建方法的具体实施方式中,进一步地,所述根据识别出的中医理论典籍中的实体,利用结合注意力机制的双向门控循环单元神经网络进行关系抽取,获取中医理论典籍中实体之间的关系,形成实体关系表包括:B1,将中医理论典籍中包含实体词表中两个及以上实体的句子作为关系语料,根据实体间关系的分类结果,对关系语料进行标注,得到实体-关系数据集;B2,将所述实体-关系数据集划分为训练集、验证集和测试集;B3,根据划分得到的训练集,通过结合注意力Attention机制的双向门控循环单元神经网络Bidirectionalgatedrecurrentunit,BiGRU进行网络训练;B4,利用划分得到的验证集,选择最优训练模型;B5,利用划分得到的测试集调整已选择的最优训练模型中的网络结构和网络参数;B6,利用已调整后的最优训练模型识别关系语料中未标注的句子进行关系抽取,获得实体之间可能的关系及概率;B7,选择概率最大的关系为实体之间的关系,并扩充实体关系表形成实体关系三元组。本实施例中,双向门控循环单元神经网络也是一种特殊类型的循环神经网络。本实施例中,利用添加字、句两层注意力机制的BiGRU深度学习方法进行关系抽取,获取中医理论典籍中实体间的关系,形成实体关系三元组,其具体步骤可以包括:将中医理论典籍中包含实体词表中两个及以上实体的句子作为关系语料,根据实体间关系的分类结果,对关系语料进行标注,得到实体-关系数据集实体1,实体2,关系;根据得到的实体-关系数据集,实体-关系数据集划分同步骤B2中的划分方法,利用结合Attention机制的BiGRU深度学习的方法训练模型,进行关系抽取,输入关系语料中未标注的句子进行关系抽取,获得实体1和实体2之间可能的关系及概率,选择概率最大的关系为实体之间的关系,并扩充实体关系表形成实体关系三元组。本实施例中,Attention机制克服了传统的编码-解码Encoder-Decoder结构在解码过程中,对每个时刻的输出做预测的时候,用到的上下文向量相同的问题。引入Attention机制之后,预测输出时考虑了与输出对应的输入,使预测时更关注和输入相关的字。本实施例中,通过深度学习训练模型识别中医理论典籍中新的实体和新的实体间关系,进一步扩充中医理论典籍原有的实体词表和实体关系表。本实施例中,以实体关系表中的实体为节点集,实体关系表中的关系为边集,利用图数据库Neo4j的可视化技术构建中医理论典籍的知识图谱。综上,本实施例中,利用BIOES的标注方式对中医理论典籍进行标注,并将循环神经网络加条件随机场CRF、循环神经网络加注意力机制分别用于实体识别和关系抽取两个任务,形成了一种针对中医理论典籍的结合词表和深度学习的知识图谱的构建方法,能够很好地完成对非结构化文本的处理。本实施例中,以《黄帝内经》这一中医理论典籍为例,对本发明实施例所述的中医理论典籍的知识图谱构建方法进行详细说明,如图2所示,所述中医理论典籍的知识图谱构建方法具体可以包括:S1,根据中医理论典籍的语言特点,按照特殊标点符号、数字和中医理论典籍中出现的固定句式,形成实体词表,并根据形成的实体词表进行实体的分类,利用固定句式总结中医理论典籍中的动词关系,形成动词词表,并根据形成的动词词表进行实体间关系的分类;S2,爬取了相关网络中与中医相关的词表和术语例如,穴位、经脉、病症、药材等,进一步扩充实体词表;S3,根据确定的实体词表,采用BIOES的标注方式,为中医理论典籍句子中包含的实体打标签;S4,从网络上爬取和该中医理论典籍相关的古籍,形成训练语料,利用word2vec训练得到中医理论典籍的字向量;S5,利用Bi-LSTM-CRF的深度学习方法进行实体识别,得到中医理论典籍中的实体;S6,根据识别出的中医理论典籍中的实体,利用结合Attention机制的BiGRU深度学习方法进行关系抽取,获取中医理论典籍中的实体之间的关系,扩充实体关系表形成实体关系三元组;S7,以实体关系表中的实体为节点集,实体关系表中的关系为边集,利用Neo4j的可视化技术构建中医理论典籍的知识图谱。在S1的实施过程中,首先整理《黄帝内经》中的概念和子概念。《黄帝内经》有大量特殊标点符号,“:”“、”总结了大量概念,前后为“是”的解释关系。这一步利用标点符号,归纳了一些实体,如表1所示:表1实体表2实体量词时间动名词一二三四五六七八九一升二七一盛一阳二阳三阳四时五阳六阳七损八远九州三升二八二盛一阴二阴三阴四气五行六阴七诊八风九窍一丈五七十二盛一脏二脏三脏四脏五脏六腑九脏三丈五八一夺一候二穴三品四藏五藏六府七窍八益九候一剂六七五夺一节二火三水四季五气六气九气二剂六八一刺一痏二痏三痏四淫五风六节七节八节九节四寸七八三刺一经二之气三经四经五经六经九野六寸八七五刺十一焦三焦四街五焦六寸七焦八纪九焦一尺一日一逆十四椎三候四极五体六元八溪九针三尺十三日二逆三椎四椎五脉六椎七椎九分七尺二十日四逆三针四傍五痹六经脉七星八正九星一斗一夜五逆十二节二十五人三部四肢五形志六律八俞九谊三斗一备一合十二从二十五输三之气四支五胠俞六俞八痏九宫然后,整理《黄帝内经》中的数字概念。《黄帝内经》中有大量数字,如“一”、“二”、“三”、“四”、“五”,有的属于量词,有的属于总结出来的概念词,因此这一步通过数字,对《黄帝内经》中的实体进行归纳,得到的部分实体如表2所示。总结表1、表2,形成《黄帝内经》的实体词表,实体词表中的部分内容,如表3所示:表3实体词表中的部分内容五脏肝心脾肺肾五华五荣爪面色唇四白唇毛发五充五合五体筋血脉脉血肌肉肌肉皮皮毛骨髓骨髓五方东方南方中央西方北方五色青色苍赤色赤黄色黄白色白黑色黑五窍目耳口鼻二阴舌五味酸苦甘辛咸五行木火土金水五畜鸡羊牛马彘\猪犬五谷麦黍稷稻豆五谷麦黄黍麻糠米大豆五星岁星荧惑星镇星太白星辰星五音角徵征宫商羽五数八七五九六五臭臊焦香腥腐五液泪泣涕汗唾涎液五声呼笑歌哭呻五变动握忧哕咳栗五志怒喜忧思恐五菜韭葱薤藿葵五果李杏枣桃栗五劳行视坐卧立五脉弦石钩代毛五气表现柔息充成坚五性喧暑静兼凉凛五德和湿濡清寒五用动燥化固藏五化荣茂盈敛肃五虫毛羽倮介鳞五政散明谧劲静五令宣发郁蒸云雨雾露霰雪五变摧拉炎烁动注肃杀凝冽五眚为陨燔火芮淫溃苍落冰雹五时春夏长夏季夏秋冬天干甲乙丙丁戊己庚辛壬癸五炁五神魂神志魄精意五化生长化收藏五实脉盛皮热腹胀前后不通闷瞀五虚脉细皮寒气少泄利前后饮食不入五卫振埃发蒙去爪彻衣解惑六腑胆小肠胃大肠膀胱三焦六气风热暑湿燥寒火按照中医的认识方法和辨证论治将《黄帝内经》中的实体分为以下具体五类,如表4所示:表4实体的类别类别内容标签中医认识方法阴阳、天干地支、数字等概括总结形成的术语FF中医自然四时、方位、时间、颜色、味道、五行、动植物等ZR中医生理脏腑、精气血津液、形体官窍、情志、经络穴位等SL中医病理疾病、病因、病机、症状等BL辨证论治辨证方法、证候、治则、治法、方剂、药物等ZF最后,整理了《黄帝内经》中的固定句式,形成动词词表,动词词表中的部分动词及例句,如表5所示:表5动词词表中的部分动词及例句动词例句主心主脉,肺主皮,肝主筋,脾主肌,肾主骨。胜春胜长夏,长夏胜冬,冬胜夏,夏胜秋,秋胜春,所谓得五行时走辛走气、气病无多食辛;咸走血,血病无多食咸;藏心藏神、肺藏魄、肝藏魂、脾藏意、肾藏志。是谓五脏所藏。伤久视伤血、久卧伤气、久坐伤肉、久立伤骨、久行伤筋。恶心恶热、肺恶寒、肝恶风、脾恶湿、肾恶燥。是谓五恶。生寒极生热,热极生寒,寒气生浊,热气生清。归味归形,形归气,气归精,精归化,食精食气,形食味,出故清阳出上窍,浊阴出下窍;入酸入肝、辛入肺、苦入心、咸入肾、甘入脾,是为五入。欲故心欲苦,肺欲辛,肝欲酸,脾欲甘,肾欲咸,此五味之所合也。欲心欲软,急食咸以软之;用咸补之,甘泻之。当故白当皮,赤当脉,青当筋,黄当肉,黑当骨。应以春应中规,夏应中矩,秋应中衡,冬应中权。宜黄色宜甘,青色宜酸,黑色宜咸,赤色宜苦,白色宜辛。禁肝病禁辛,心病禁咸,脾病禁酸,肾病禁甘,肺病禁苦。根据上述动词词表,将实体间关系分为以下七类,如表6所示:表6实体间关系编号关系0unknown1表征2概念3促进4抑制5因果6包含表6中,“促进”关系是根据动词词表中的“主”来分类的,“心主脉”的意思是心气推动和调节血液循行于脉中;“因果”关系是根据动词词表中“当、则”等来分类的,“肺被伤,则金气不行”。在S2的实施过程中,例如,首先收集搜狗细胞词库中与中医相关的词表,主要为方剂、穴位等;其次爬取百度百科和中医网站中的中医术语,主要是穴位、概念、治法、病症等;最后将上述数据合并,进一步扩充实体词表。在S3的实施过程中,根据确定的实体词表,采用BIOESB表示实体的开始,I表示实体的中间,E表示实体的结尾,S表示单个字符的实体,O表示非实体的标注方式,为句子中包含的实体打标签,比如“体液”实体为生理SL,“体”对应的标签“B-SL”,“液”对应的标签“E-SL”,“身热目痛”实体为病理BL,“身”对应“B-BL”,“热”对应“I-BL”,“目”对应“I-BL”,“痛”对应“E-BL”。共标注20000条数据。在S4的实施过程中,首先从网络上爬取和《黄帝内经》相关的古籍,如《难经》、《伤寒》等共71本形成训练语料,然后将71本古籍合并成一个文本,按字分割,利用词向量生成工具word2vec的连续词袋模型CBOW训练得到中医典籍的字向量,字向量维度设置为200维。在S5的实施过程中,采用Bi-LSTM-CRF进行实体识别。首先将步骤S3中已标注实体的中医理论典籍的60%作为训练集进行网络训练,20%作为验证集来选择最优模型,20%作为测试集进行测试,字向量采用步骤S4中的200维进行训练,训练3次,最后取平均值;网络参数设置:防过拟合参数dropout为0.5,迭代次数为200次、批大小batch_size为10。训练模型的好坏用F1值来评判,《黄帝内经》训练得到的最优训练模型参数如表7所示:表7最优训练模型的参数实体Precision%Recall%F1%85.6983.4884.53BL68.4762.8165.52FF93.8686.9990.30SL88.3587.0587.70ZF86.3670.3777.55ZR81.5884.9483.19然后利用训练好的最优训练模型对《黄帝内经》中未标注的实体进行识别,新识别出来的实体可以进一步扩充实体词表,新识别出的部分实体如表8所示:表8新识别出的部分实体实体名类别句子天ZR昔在黄帝,生而神灵,弱而能言,幼而徇齐,长而敦敏,成而登天。长夏ZR病在肾,愈在春,春不愈,甚于长夏,长夏不死,持于秋,起于冬。飧泄BL此秋气之应,养收之道也;逆之则伤肺,冬为飧泄,奉藏者少。真牙SL三七肾气平均,故真牙生而长极。厥阴FF取其经,太阴足太阳之外,厥阴内血者。太阳FF逆夏气则太阳不长,心气内洞。砭石ZF治之以砭石,欲细而长,疏砭之,涂以豕膏,六日已,勿裹之。兔啮BL发于胫,名曰兔啮,其状赤至骨,急治之,不治害人也。涌泉SL太阴之后,名曰少阴,少阴根起于涌泉,名曰阴中之少阴。谬药ZF形数惊恐,筋脉不通,病生于不仁,治之以按摩谬药。孙络SL阴气不得出,审候见之在孙络盛坚而血者,皆取之。在S6的实施过程中,首先整理《黄帝内经》中包含实体词表中两个及以上实体的句子作为关系语料,根据步骤S1中的实体间关系分类结果,标注得到700条实体-关系数据集实体1,实体2,关系,句子,格式为:热火促进南方生热,热生火。筋肝因果筋痹不已,复感于邪,内舍于肝。心少阴概念师曰:心者火也,名少阴,其脉洪大而长,是心脉也。火金抑制火克西方金,法当痈肿,为难治也。胸阳气包含阳受气于胸中,胸中阳气不足,故病叉手自冒心。然后将步骤S1中的七类实体间关系放入文档relation.txt,实体-关系数据集的划分同S5步骤中的划分方法,利用结合Attention机制的BiGRU深度学习的方法进行模型训练,最后输入关系语料中未标注的句子进行关系抽取,从而获得实体1和实体2之间可能的关系及概率,选择概率最大的关系为实体1和实体2之间的关系,以此来扩充实体关系表。输入句子格式:name1name2sentence输入句子:肾唾肾热甚则出唾。抽取结果:No.1:因果,Probabilityis0.996217No.2:表征,Probabilityis0.00193673No.3:unknown,Probabilityis0.00128172因此,选取概率最高的因果关系为“肾”和“唾”的关系,并将其加入到实体关系表。得到的实体关系表的部分信息如表9所示:表9实体关系表的部分信息在S7的实施过程中,利用图数据库Neo4j的可视化技术,以步骤S6实体关系表中的实体为节点集,以实体关系表中的关系为边集,构建《黄帝内经》的知识图谱;其中,部分节点集如下:边集中的包含关系如下:最终构建的黄帝内经的知识图谱如图3所示。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

权利要求:1.一种中医理论典籍的知识图谱构建方法,其特征在于,包括:确定中医理论典籍中的实体词表和动词词表;根据确定的实体词表,对中医理论典籍中的实体进行标注;根据已标注实体的中医理论典籍,通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别,得到中医理论典籍中的实体;根据识别出的中医理论典籍中的实体,利用结合注意力机制的双向门控循环单元神经网络进行关系抽取,获取中医理论典籍中实体之间的关系,形成实体关系表;以实体关系表中的实体为节点集,实体关系表中的关系为边集,构建中医理论典籍的知识图谱。2.根据权利要求1所述的中医理论典籍的知识图谱构建方法,其特征在于,所述确定中医理论典籍中的实体词表和动词词表包括:根据中医理论典籍的语言特点,按照特殊标点符号、数字和中医理论典籍中出现的固定句式,形成实体词表,并根据形成的实体词表进行实体的分类;利用固定句式总结中医理论典籍中的动词关系,形成动词词表,并根据形成的动词词表进行实体间关系的分类。3.根据权利要求2所述的中医理论典籍的知识图谱构建方法,其特征在于,所述根据中医理论典籍的语言特点,按照特殊标点符号、数字和中医理论典籍中出现的固定句式,形成实体词表包括:根据预先设置的特殊标点符号,确定中医理论典籍中的概念和子概念,根据确定的概念和子概念进行细分,得到中医理论典籍中的实体;按照数字,确定中医理论典籍中的概念词实体和量词实体;按照固定句式,确定中医理论典籍句子中包含的实体;对得到的中医理论典籍中的实体进行汇总,形成实体词表;以中医的认识方法和辩证论治为依据,对实体词表中的实体进行分类。4.根据权利要求2所述的中医理论典籍的知识图谱构建方法,其特征在于,实体的分类类别包括:生理、病理、自然、认识方法、治法;实体间关系的分类类别包括:表征、概念、因果、促进、抑制、包含、unknown,其中,unknown表示实体间有关系,但关系不明确。5.根据权利要求1所述的中医理论典籍的知识图谱构建方法,其特征在于,在确定中医理论典籍中的实体词表和动词词表之后,所述方法还包括:收集预先设置的词库中与中医相关的词表;爬取预先设置的网站中的中医术语;根据收集的与中医相关的词表和爬取的中医术语,扩充实体词表。6.根据权利要求1所述的中医理论典籍的知识图谱构建方法,其特征在于,所述根据确定的实体词表,对中医理论典籍中的实体进行标注包括:根据确定的实体词表,采用BIOES的标注方式,为中医理论典籍中包含的实体打标签;其中,BIOES中的B表示实体的开始、I表示实体的中间、E表示实体的结尾、S表示单个字符的实体、O表示非实体。7.根据权利要求1所述的中医理论典籍的知识图谱构建方法,其特征在于,所述根据已标注实体的中医理论典籍,通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别,得到中医理论典籍中的实体包括:从网络上爬取和所述中医理论典籍相关的古籍,形成训练语料,根据形成的训练语料进行训练,得到中医理论典籍的字向量;根据已标注实体的中医理论典籍和得到的中医理论典籍的字向量,通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别,得到中医理论典籍中的实体。8.根据权利要求7所述的中医理论典籍的知识图谱构建方法,其特征在于,所述从网络上爬取和所述中医理论典籍相关的古籍,形成训练语料,根据形成的训练语料进行训练,得到中医理论典籍的字向量包括:从网络爬取和所述中医理论典籍相关的古籍,形成训练语料;将训练语料中的古籍合并成一个文本,进行数据清洗后按字分割,其中,所述数据清洗包括:乱码清除、繁简体转换;根据分割后得到的字,利用词向量生成工具的连续词袋模型进行训练,得到中医理论典籍的字向量。9.根据权利要求7所述的中医理论典籍的知识图谱构建方法,其特征在于,所述根据已标注实体的中医理论典籍和得到的中医理论典籍的字向量,通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别,得到中医理论典籍中的实体包括:A1,将已标注实体的中医理论典籍划分为训练集、验证集和测试集;A2,根据划分得到的训练集,将中医理论典籍字向量作为基于字符的双向长短期记忆网络的预训练模型的输入,得到初始网络参数;基于得到的初始网络参数,双向长短期记忆网络进行训练,拼接字向量的上下文语义向量,输出给条件随机场进行标注,得到训练模型;A3,利用划分得到的验证集,选择最优训练模型;A4,利用划分得到的测试集调整已选择的最优训练模型中的网络结构和网络参数;A5,利用已调整后的最优训练模型识别中医理论典籍中未标注的实体;A6,根据识别出的未标注的实体,扩充实体词表。10.根据权利要求2所述的中医理论典籍的知识图谱构建方法,其特征在于,所述根据识别出的中医理论典籍中的实体,利用结合注意力机制的双向门控循环单元神经网络进行关系抽取,获取中医理论典籍中实体之间的关系,形成实体关系表包括:B1,将中医理论典籍中包含实体词表中两个及以上实体的句子作为关系语料,根据实体间关系的分类结果,对关系语料进行标注,得到实体-关系数据集;B2,将所述实体-关系数据集划分为训练集、验证集和测试集;B3,根据划分得到的训练集,通过结合注意力机制的双向门控循环单元神经网络进行网络训练;B4,利用划分得到的验证集,选择最优训练模型;B5,利用划分得到的测试集调整已选择的最优训练模型中的网络结构和网络参数;B6,利用已调整后的最优训练模型识别关系语料中未标注的句子进行关系抽取,获得实体之间可能的关系及概率;B7,选择概率最大的关系为实体之间的关系,并扩充实体关系表形成实体关系三元组。

百度查询: 北京科技大学 一种中医理论典籍的知识图谱构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。