基于词典增强和相互注意力的中文医疗命名实体识别方法

导航：龙图腾网> 最新专利技术> 基于词典增强和相互注意力的中文医疗命名实体识别方法

申请/专利权人：浙江工业大学

申请日：2024-03-21

公开（公告）日：2024-06-25

公开（公告）号：CN118246451A

主分类号：G06F40/295

分类号：G06F40/295;G06F40/242;G16H40/20;G06N3/045

优先权：

专利状态码：在审-公开

法律状态：2024.06.25#公开

摘要：一种基于词典增强和相互注意力的中文医疗命名实体识别方法，对原始医疗文本数据进行预处理，生成医疗文本数据集，将一元字符和二元字符映射到高维向量空间；使用医疗细分领域专有名词和短语构建一个医疗领域外部词典，使用医疗文本在词典中匹配得到医疗词汇，并将词汇分配到四个词集中，对词汇进行向量嵌入；将各词集中的词汇向量进行加权求和得到词集向量；计算字符嵌入和词集嵌入之间的相互注意力得分，通过时序网络获得医疗文本的上下文信息；通过计算各字符的标签概率，得到中文医疗命名实体识别结果。本发明利用了医疗领域的词典，考虑了词汇和字符之间的动态关系，提高了中文医疗领域命名实体识别的效率和准确率。

主权项：1.一种基于词典增强和相互注意力的中文医疗命名实体识别方法，其特征在于，所述方法包括以下步骤：步骤1：对医疗文本数据进行预处理，生成由汉字、英文和数字字符构成的医疗文本数据集{S1,S2,…,Si,SN}，其中Si＝{ci1,ci2,…,cij,…,cin}表示第i个医疗文本，N表示医疗文本数量，cij表示医疗文本Si中的第j个字符，in表示Si中的字符数量；使用医疗细分领域专有名词和短语构建一个医疗领域外部词典，定义医疗命名实体类别标签集合τ＝{label1,label2,…,labelt,…,labelm}，其中m是标签数量；步骤2：从医疗文本数据集中任意选择第i个医疗文本Si作为输入文本，文本中的每个字符作为一元字符，每个字符与其相邻字符组合作为二元字符；使用Word2Vec算法将医疗文本Si中所有一元和二元字符分别映射到一个d维词向量空间中作为一元和二元字符嵌入向量；任意选取Si中的第j个字符，将第j个字符对应的一元和二元字符嵌入向量拼接作为该字符的表征向量xij＝[eccij；ebcij,cij+1]，其中eccij和ebcij,cij+1分别表示用Word2Vec算法获取一元和二元医疗文本字符的嵌入向量；遍历医疗文本Si中所有字符，计算所有字符的表征向量；步骤3：在医疗文本Si中任选一个医疗字符cij，在医疗领域外部词典中检索出当前医疗文本字符cij匹配到的所有词汇，并依据医疗字符在其对应词汇中所处位置将词汇分配到当前医疗字符对应的四个词集中，即Bcij、Mcij、Ecij、Scij，其中B表示字符处于对应词汇首位，M表示字符处于词汇中间位置，E表示字符处于词汇末位，S表示当前字符独立成词，同时将各词集中的词汇依据由短到长的顺序排序；步骤4：使用Word2Vec算法将当前医疗字符cij所对应的四个词集中的词汇映射到d维向量空间，并对M词集中所有的词汇向量进行加权求和得到各词集的表征向量：其中，表示字符cij的M词集表征向量，ewMcij表示使用Word2Vec算法获取字符cij的M词集中所有词汇的嵌入向量，WM表示M词集中不同位置词汇的权重；使用同样的方式分别计算出B、E、S词集的向量步骤5：计算当前医疗字符cij对应的查询向量：Qij＝xijWq其中Wq表示查询向量的权重矩阵；步骤6：计算当前医疗字符cij对应的B、M、E、S词集的键向量：和值向量：其中，Wk和Wv分别为键、值向量的权重矩阵；步骤7：计算当前医疗文本字符cij和对应B、M、E、S词集间的注意力分数：Aij＝Qij+uΤKij其中，u是偏置项，Τ是转置操作；步骤8：计算当前医疗文本字符cij的最终表征向量：θij＝softmaxmaskAijVij其中，mask是掩码函数；遍历医疗文本Si中所有字符，重复执行步骤3～步骤8，计算医疗文本Si中的所有字符融合词汇信息后的表征向量；步骤9：按照j从1到in的顺序，使用双向LSTM网络计算当前医疗文本字符cij的上下文信息：其中 hij＝oij*tanhcellij其中，W表示可学习的权重参数，b表示偏置项，hij表示医疗文本字符cij的隐藏状态，σ是sigmoid激活函数，iij、fij、oij分别表示输入门、遗忘门和输出门；步骤10：按照j从1到in的顺序，计算cij的预测标签为labelt的概率：其中，labelt是从医疗命名实体类别集合τ任选的一个标签，ftyt-1,hij＝μlsllabelt,hij,j+γkukyij-1,labelt,hij,jwt是可调参数，sllabelt,hij,j是状态特征函数，ukyij-1,labelt,hij,j是状态转移函数，μl和γk是可调参数；遍历计算实体类别集合τ中所有标签的概率，选取概率最大的标签作为cij的预测标签yij；步骤11：计算损失其中n表示医疗文本序列的长度，表示字符cij的真实标签；步骤12：利用随机梯度下降方法更新模型参数，重复步骤2～步骤12，直至Loss小于指定的最小损失值后结束计算；得到医疗文本数据集中所有字符的预测标签，将标签依据BMES规则组合成医疗命名实体，作为识别结果。

全文数据：

权利要求：

百度查询：浙江工业大学基于词典增强和相互注意力的中文医疗命名实体识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种新型预制电力排管

下一篇：一种用于光伏发电装置的R型回转减速机

相关技术

一种新型预制电力排管

一种用于光伏发电装置的R型回转减速机

一种用于无级变速器的传动带金属环结构

一种纸面石膏板加工用除尘装置

一种自动开盖的压力烹饪器具

一种宽度紧凑型半导体封装结构

一种零部件加工的表面喷漆装置

一种生态护坡绿化模块

一种茶叶生产用高效翻炒装置

一种单因子加药泵回水安全阀

一种高选择性紧凑型超宽带滤波器的拓扑结构及滤波器

一种公共卫生用预防传染病喷雾装置

中文相关技术

一种特种设备维护问答系统的中文分词方法_四川省特种设备检验研究院_202410334443.8

一种基于关键词的多粒度中文短文本匹配方法_重庆邮电大学_202210738535.3

基于BiLSTM结合多头注意力的中文重叠事件抽取系统_重庆邮电大学_202210656832.3

一种基于汉字多维矩阵生成唯一中文ID的系统及方法_上海通办信息服务有限公司_202311586573.2

中文文本的转换方法、装置、设备及介质_中国平安财产保险股份有限公司_202111215392.X

一种中文书法练习装置_盘锦职业技术学院_202322619953.3

基于深度范例的中文文本识别方法_复旦大学_202410188396.0

一种中文作文句评输出方法_北京阅神智能科技有限公司_202111015051.8

一种文档中文本内容的排版方法及装置_珠海金山办公软件有限公司_202010005498.6

一种中文输入法及基于本输入法的键盘_朱新杰_202410543093.6

医疗相关技术

用于医疗器械的手柄和医疗器械_苏州英途康医疗科技有限公司_202420201125.X

医疗器械系统_深圳市先健呼吸科技有限公司_202211697317.6

一种医疗床_上海荣奥贸易发展有限公司_202322644224.3

解锁机构及医疗推车_武汉联影智融医疗科技有限公司_202323166551.9

一种医疗用儿童防护医疗床控制电路_余华燕_202321895242.2

一种基层医疗卫生机构医疗用氧装置_唐亚丽_202322593842.X

医疗设备的检测器温控方法和医疗设备_东软医疗系统股份有限公司_201810224199.4

医疗闭塞装置和包括该医疗闭塞装置和导管的系统_百多力股份公司_202280076459.2

环己基β-羟基烷基胺及其医疗用途_阿托基公司_202280074425.X

医疗废物上料提升机_曲靖银发危险废物集中处置中心有限公司_202322970899.7

注意力相关技术

基于多尺度和混合注意力的点云分类方法_杭州电子科技大学_202410383057.8

融合并行多卷积注意力的扩散模型去雾方法_太原理工大学_202410045689.3

基于双流注意力机制的半监督农作物识别方法_安徽师范大学_202410022216.1

基于RFLA和注意力机制的SAR遥感船舰目标检测方法_西安工程大学_202410448891.0

基于残差通道注意力网络的计算鬼成像重建方法_西安理工大学_202410343250.9

基于BiLSTM结合多头注意力的中文重叠事件抽取系统_重庆邮电大学_202210656832.3

一种轻量级瓶颈注意力机制的深度学习方法_暨南大学_202111466243.0

基于单位点积注意力机制的跨视角地理定位方法_哈尔滨工业大学_202410556228.2

一种结合自注意力模块的自监督视频异常检测方法_四川大学_202410447334.7

基于注意力机制的深度学习方法、装置、设备及存储介质_平安银行股份有限公司_202111149731.9

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于词典增强和相互注意力的中文医疗命名实体识别方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务