首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种融合中文医疗领域特征的医疗实体识别方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浙江工业大学

摘要:一种融合中文医疗领域特征的医疗实体识别方法,基于特定领域知识识别药品说明书中的实体,所述方法包括步骤:S1:收集中文药品说明书并进行文本预处理;S2:利用图卷积网络提取文本序列词级别的特征,其中节点的特征考虑了字音、字形以及字典的特征;S3:提取文本序列字级别的特征,并融合词级别的特征;S4:采用双向LSTM学习文本的序列特征,经过解码层得到汉字的序列标签,将标签进行组合,完成实体识别的任务。本发明充分全面地捕捉到汉字字音字形的特征,以词级别的粒度融入到实体识别的模型中,提高了医疗实体识别的精度。

主权项:1.一种融合中文医疗领域特征的医疗实体识别方法,其特征在于,包括如下步骤:S1:对中文药品说明书进行文本预处理操作,包括对说明书文本进行预清洗和文本的切分处理;S2:输入的句子通过中文语义分析工具得到语义依存关系,构造语义依存关系网络图,采用图卷积神经网络提取文本词级别的特征,其中输入图卷积神经网络的特征融合中文医疗领域字音、字形、字典的特征;具体包括:S2.1:输入的句子通过中文语义分析工具得到语义依存关系,构造语义依存关系网络图其中V表示的是句子中的词汇节点,E表示的是词汇之间的语义依存关系;所述的语义依存关系网络图中的词汇之间的语义依存关系,包括当事关系、受事关系、客事关系;S2.2:基于步骤S2.1构造的语义依存关系网络图,构建邻接矩阵采用以下公式对邻接矩阵进行卷积操作,对于输入图卷积神经网络的节点特征,融合了中文医疗领域字音、字形、字典的特征,字音通过拼音的声母、韵母、声调进行编码,字形通过汉字的部首信息和其余部分进行编码,医疗实体部首大多包含“月”、“疒”,相同的偏旁部首代表医疗实体中的一类实体,对部首进行单独的编码识别实体,字典信息根据医疗领域词典,采用N-gram语言模型描述医疗实体这类由字构成的词;1字音向量具体为:获取汉字的拼音,将拼音划分为声母、韵母、声调三个部分,通过拼音的声母、韵母、声调来编码汉字的拼音;2字形向量具体为:统计汉字的部首信息和获取汉字的笔画顺序信息,构建字典Dr和Ds,根据汉字的结构拆分成两个部分,通过两个部分对汉字的形状进行编码,如果有部分在部首字典Dr中,取该部首的one-hot编码Xsr,其余的部分按照笔画进行编码,任何一个汉字都由横、竖、撇、捺、折、点的线性组合表示,根据Ds,获取汉字剩余笔画的编码Xss; 其中,concat·表示将括号中的向量进行拼接;3字典向量具体为:根据N-gram特征模板和医疗领域词典,获取字典向量;步骤S2.2所述的输入图卷积神经网络的节点特征表示为: 聚合不同词汇之间的特征: 其中,表示第l层图卷积操作输出的词汇节点的特征表示,Wl,bl表示网络学习的参数,σ·表示激活函数,D表示对应的度矩阵,IN表示单位矩阵;S3:采用预训练模型提取医疗文本字级别的特征;S4:采用基于双向LSTM和CRF的实体识别模型,输入特征融合步骤S2中的文本词级别特征和步骤S3中的文本字级别特征,实现药品说明书中的实体识别的任务。

全文数据:

权利要求:

百度查询: 浙江工业大学 一种融合中文医疗领域特征的医疗实体识别方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。