一种医疗领域中文文本部首特征获取方法

导航：龙图腾网> 最新专利技术> 一种医疗领域中文文本部首特征获取方法

申请/专利权人：安徽理工大学

申请日：2021-12-16

公开（公告）日：2024-06-25

公开（公告）号：CN114254651B

主分类号：G06F40/30

分类号：G06F40/30;G06F40/289;G06F40/58;G06F40/216;G06F16/25;G06F16/215;G06F16/21;G16H40/67

优先权：

专利状态码：有效-授权

法律状态：2024.06.25#授权;2022.04.15#实质审查的生效;2022.03.29#公开

摘要：本发明公开了一种融合部首信息的医疗领域中文文本因果关系抽取方法，涉及数据挖掘技术领域，包括：通过网络爬虫获取医疗领域中文文本数据集，再对获取到的数据进行预处理，采用谷歌翻译技术将文本中的英文专业名词转化为中文，利用在线新华字典获取所有字符的部首，再利用Word2Vec架构对部首进行增量训练，得到部首特征表示，然后将部首特征向量作为因果关系抽取模型的输入，对数据集进行因果关系抽取，得到因果关系实体。本发明解决了现有对医疗领域中文文本数据进行有效地因果关系抽取问题。通过本发明可以得到医疗领域中文文本数据的因果实体。

主权项：1.一种医疗领域中文文本部首特征获取方法，其特征在于包括如下步骤：步骤1：数据获取，获取医疗领域中文文本数据集合D＝{D1,D2...Dn},Di表示第i个文本，1≤i≤n,n为集合D中的文本总数；步骤2：对获取的文本数据进行预处理，其基本步骤如下：步骤2.1：去除文本中的停用词、网页标签，进行分词；步骤2.2：将文本提取成结构化数据，装入数据库；步骤3：将文本数据中的英文专业术语转化为中文，其基本步骤如下：步骤3.1：利用ASCII码值定位数据集中的英文专业术语；步骤3.2：利用翻译接口将英文专业术语转化为中文，得到仅含中文字符的数据集；步骤4：通过查询在线字典，获取数据集中所有字符的部首，对于没有部首的汉字，将字符本身看作词；步骤5：部首特征获取，其基本步骤如下：步骤5.1：定义变量，定义data为训练语料，停用词表stopword，返回的向量长度num_features，最低词频min_word_count，滑动窗口大小context，是否进行增量训练incremental，若进行增量训练，原始模型路径old_pat；步骤5.2：模型训练，从头开始训练模型，这里经过清洗之后的语料数据为text，返回Word2Vec模型；步骤5.3：增量训练word2Vec模型，这里经过清洗之后的语料数据为text，返回Word2Vec模型；步骤5.4：主函数，加入自定义分词词表，保存模型；步骤6：经过以上步骤对部首进行增量训练，可以得到部首特征向量表示；步骤7：利用BERT模型获取字符特征向量表示；步骤8：将部首特征作为行向量拼接在字符特征之后，得到融合部首信息的字符特征。

全文数据：

权利要求：

百度查询：安徽理工大学一种医疗领域中文文本部首特征获取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种地铁车辆车钩检修用辅助工具

下一篇：一种砂浆压实装置

相关技术

一种地铁车辆车钩检修用辅助工具

一种砂浆压实装置

一种空调器自清洁系统油污沉淀装置

一种可移动式智能温控糖化槽生产线

一种生态护坡绿化模块

一种液体沥青取样装置

一种双向限位器

一种水利施工用混凝土搅拌装置

一种用于塑料制品生产的表面加工装置

一种叠加机

一种巡检方便的电容补偿柜

一种纸箱印刷机用送料装置

文本相关技术

文本识别模型训练方法、文本识别方法、装置及存储介质_北京百度网讯科技有限公司_202310019561.5

编码器优化的文本渲染_安讯士有限公司_202311785952.4

文本情感分析方法和装置_北京百度网讯科技有限公司_202110818598.5

文本处理方法及装置_华为技术有限公司_201911335070.1

文本识别方法和装置_深圳市星桐科技有限公司_202210660171.1

一种文本标注方法及软件产品_深圳思为科技有限公司_202111408204.5

识别图像中文本的方法、装置和系统_华为技术有限公司_201911391341.5

文本信息的确定方法及电子设备_联想(北京)有限公司_202410323963.9

文本识别方法、装置、设备及存储介质_深圳市星桐科技有限公司_202210661531.X

一种文本生成方法及装置_北京深言科技有限责任公司_202410250261.2

部首相关技术

以部首和规范独体字为字根的汉字键盘输入系统_陈贤荣_202410364313.9

一种基于部首联想机制的汉语文本分类方法及装置_中国科学技术大学_202011437069.2

基于深度学习的甲骨文部首拆分匹配方法_华中科技大学_202311298964.4

基于部首建模文本匹配的医疗智能问答方法及装置_海南榕树家信息科技有限公司_202310819782.0

一种基于字符分解和重构的部首级古文字识别方法_吉林大学_202311195904.X

一种可持续互动的眼部首饰_北京服装学院_202320594759.1

一种便捷拆装型腕部首饰配带_东莞市艾施特科技有限公司_202320469328.2

一种基于关键偏旁部首分析的零样本汉字识别方法_厦门理工学院_202210823652.X

一种全景图像局部首尾相接巡航的装置与方法_广州市盛光微电子有限公司_202010479623.7

一种识别人体头部首次撞击车辆的系统与方法_长沙理工大学_202310209636.6

中文相关技术

一种基于关键词的多粒度中文短文本匹配方法_重庆邮电大学_202210738535.3

一种特种设备维护问答系统的中文分词方法_四川省特种设备检验研究院_202410334443.8

基于BiLSTM结合多头注意力的中文重叠事件抽取系统_重庆邮电大学_202210656832.3

一种基于汉字多维矩阵生成唯一中文ID的系统及方法_上海通办信息服务有限公司_202311586573.2

中文文本的转换方法、装置、设备及介质_中国平安财产保险股份有限公司_202111215392.X

一种中文书法练习装置_盘锦职业技术学院_202322619953.3

一种中文作文句评输出方法_北京阅神智能科技有限公司_202111015051.8

基于深度范例的中文文本识别方法_复旦大学_202410188396.0

一种中文输入法及基于本输入法的键盘_朱新杰_202410543093.6

一种文档中文本内容的排版方法及装置_珠海金山办公软件有限公司_202010005498.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种医疗领域中文文本部首特征获取方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务