首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种医疗领域中文文本部首特征获取方法 

申请/专利权人:安徽理工大学

申请日:2021-12-16

公开(公告)日:2024-06-25

公开(公告)号:CN114254651B

主分类号:G06F40/30

分类号:G06F40/30;G06F40/289;G06F40/58;G06F40/216;G06F16/25;G06F16/215;G06F16/21;G16H40/67

优先权:

专利状态码:有效-授权

法律状态:2024.06.25#授权;2022.04.15#实质审查的生效;2022.03.29#公开

摘要:本发明公开了一种融合部首信息的医疗领域中文文本因果关系抽取方法,涉及数据挖掘技术领域,包括:通过网络爬虫获取医疗领域中文文本数据集,再对获取到的数据进行预处理,采用谷歌翻译技术将文本中的英文专业名词转化为中文,利用在线新华字典获取所有字符的部首,再利用Word2Vec架构对部首进行增量训练,得到部首特征表示,然后将部首特征向量作为因果关系抽取模型的输入,对数据集进行因果关系抽取,得到因果关系实体。本发明解决了现有对医疗领域中文文本数据进行有效地因果关系抽取问题。通过本发明可以得到医疗领域中文文本数据的因果实体。

主权项:1.一种医疗领域中文文本部首特征获取方法,其特征在于包括如下步骤:步骤1:数据获取,获取医疗领域中文文本数据集合D={D1,D2...Dn},Di表示第i个文本,1≤i≤n,n为集合D中的文本总数;步骤2:对获取的文本数据进行预处理,其基本步骤如下:步骤2.1:去除文本中的停用词、网页标签,进行分词;步骤2.2:将文本提取成结构化数据,装入数据库;步骤3:将文本数据中的英文专业术语转化为中文,其基本步骤如下:步骤3.1:利用ASCII码值定位数据集中的英文专业术语;步骤3.2:利用翻译接口将英文专业术语转化为中文,得到仅含中文字符的数据集;步骤4:通过查询在线字典,获取数据集中所有字符的部首,对于没有部首的汉字,将字符本身看作词;步骤5:部首特征获取,其基本步骤如下:步骤5.1:定义变量,定义data为训练语料,停用词表stopword,返回的向量长度num_features,最低词频min_word_count,滑动窗口大小context,是否进行增量训练incremental,若进行增量训练,原始模型路径old_pat;步骤5.2:模型训练,从头开始训练模型,这里经过清洗之后的语料数据为text,返回Word2Vec模型;步骤5.3:增量训练word2Vec模型,这里经过清洗之后的语料数据为text,返回Word2Vec模型;步骤5.4:主函数,加入自定义分词词表,保存模型;步骤6:经过以上步骤对部首进行增量训练,可以得到部首特征向量表示;步骤7:利用BERT模型获取字符特征向量表示;步骤8:将部首特征作为行向量拼接在字符特征之后,得到融合部首信息的字符特征。

全文数据:

权利要求:

百度查询: 安徽理工大学 一种医疗领域中文文本部首特征获取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。