首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于子词嵌入对齐的汉越依存句法分析方法_昆明理工大学_202410159266.4 

申请/专利权人:昆明理工大学

申请日:2024-02-04

公开(公告)日:2024-05-03

公开(公告)号:CN117973364A

主分类号:G06F40/211

分类号:G06F40/211;G06F40/242;G06F40/30;G06N5/02;G06N5/025;G06N3/0455;G06N3/0442;G06N3/096

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.05.21#实质审查的生效;2024.05.03#公开

摘要:本发明涉及基于子词嵌入对齐的汉越依存句法分析方法,属自然语言处理领域。本发明主要利用汉语和越南语的子词对齐特征改善越南语预训练语言模型本身表征能力相对较弱的问题。本发明利用对齐矩阵将汉语子词映射到越南语子词类似的表示空间;接着,筛选出与每个越南语子词最相似的十个汉语子词,并对其进行加权求和,将求和的结果与原始越南语子词表示进行融合作为越南语子词的嵌入表示;最后,将获得的越南语子词表示与XLM‑RoBERTa预训练模型得到的原始越南语词表示相结合作为输入越南语句子的最终词嵌入表示,通过经典的双仿射依存句法分析模型获得越南语句子所对应的依存句法树。本发明为越南语依存句法分析带来了显著的性能提升。

主权项:1.一种基于子词嵌入对齐的汉越依存句法分析方法,其特征在于:所述方法的具体步骤如下:Step1:收集中越双语字典以及带标签的中文和越南语数据集;Step2:通过Fasttext模型分别提取训练好的中文和越南语的词向量表示,再利用汉越双语词典和中越词向量表示通过正交相似变化获得双语子词对齐矩阵;Step3:将带标签的中文和越南语数据集经过XLM-RoBERTa模型进行预训练,再从此模型的分词器中获取各自切词后的子词,接着利用Fasttext模型找到中越分别对应子词的词向量表示,从而得到中文和越南语各自的子词向量表示;随后将中文子词向量表示和对齐矩阵进行点乘,使汉语子词映射到越南语子词类似的表示空间;再对点乘过后的中文词向量表示和未经点乘的越南语词向量表示进行归一化操作,得到最终的中文和越南语各自的子词向量表示;Step4:通过计算中文和越南语各自子词向量表示之间的相似度之后,筛选出与每个越南语子词最相似的若干个汉语子词,再从之前的XLM-RoBERTa预训练模型中提取这若干个汉语子词经训练得到的词向量表示,并对其进行加权求和,将求和的结果与原始越南语子词表示进行融合作为越南语子词的嵌入表示;Step5:最后,将获得的越南语子词表示与XLM-RoBERTa预训练模型得到的原始越南语词表示相结合作为输入越南语句子的最终词嵌入表示,来增强双仿射依存句法分析模型。

全文数据:

权利要求:

百度查询: 昆明理工大学 一种基于子词嵌入对齐的汉越依存句法分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。