首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种中文文旅类的命名实体识别方法 

申请/专利权人:成都信息工程大学

申请日:2023-05-17

公开(公告)日:2024-06-04

公开(公告)号:CN116579343B

主分类号:G06F40/295

分类号:G06F40/295;G06N3/045;G06N3/0442;G06N3/0464;G06N3/048;G06N3/084

优先权:

专利状态码:有效-授权

法律状态:2024.06.04#授权;2023.08.29#实质审查的生效;2023.08.11#公开

摘要:本发明公开了一种中文文旅类的命名实体识别方法,包括以下步骤:S1、获取中文文旅类文本数据,并将其输入至字符嵌入层,得到字符向量表示;S2、将字符向量表示输入至双向长短期记忆网络层,得到上下文表示;S3、将上下文表示输入至CNN层,得到多尺度的局部上下文特征融合表示;S4、将多尺度的局部上下文特征融合表示输入至CRF层,通过CRF层进行序列标注,完成中文文旅类的命名实体识别。本发明考虑到对中文旅游类的命名实体识别研究的关注度较少的问题,针对于中文的文旅类文本数据进行网络搭建,在CNN层利用第二CNN模块学习多尺度的局部上下文特征融合表示,加强语义之间的相关性,提高有利于中文识别的特征表示。

主权项:1.一种中文文旅类的命名实体识别方法,其特征在于,包括以下步骤:S1、获取中文文旅类文本数据,并将其输入至字符嵌入层,得到字符向量表示;S2、将字符向量表示输入至双向长短期记忆网络层,得到上下文表示;S3、将上下文表示输入至CNN层,得到多尺度的局部上下文特征融合表示;S4、将多尺度的局部上下文特征融合表示输入至CRF层,通过CRF层进行序列标注,完成中文文旅类的命名实体识别;所述S1中,字符嵌入层包括并行的ChineseBert模块和第一CNN模块;所述S1包括以下分步骤:S11、获取中文文旅类文本数据;S12、将中文文旅类文本数据输入至ChineseBert模块,得到中文文旅类文本数据中每个字的字嵌入向量表示;S13、将中文文旅类文本数据输入至第一CNN模块,得到部首级嵌入表示;S14、将字嵌入向量表示与部首级嵌入表示进行拼接,得到字符向量表示;所述S2中,双向长短期记忆网络层包括第一~第十二LSTM单元,所述第一~第六LSTM单元正向处理输入的字符向量表示,第七~第十二LSTM单元反向处理输入的字符向量表示;得到上下文表示的方法具体为:根据第一~第十二LSTM单元的输出结果进行拼接,得到上下文表示;所述S13中,得到部首级嵌入表示M2的表达式具体为:M2=A1b1+C1x式中,x为汉字部首级特征,C1·为第一CNN模块,A1为第一激活函数,b1为第一CNN模块的偏重;所述S14中,得到字符向量表示Zconcat的表达式具体为:Zconcat=M1+M2式中,M1为字嵌入向量表示;所述S3中,CNN层设置有第二CNN模块,得到多尺度的局部上下文特征融合表示M3的表达式具体为:M3=A2b2+C2H式中,H为下文表示,C2·为第二CNN模块,A2为第二激活函数,b2为第二CNN模块的偏重。

全文数据:

权利要求:

百度查询: 成都信息工程大学 一种中文文旅类的命名实体识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。