【发明公布】一种基于子词嵌入对齐的汉越依存句法分析方法_昆明理工大学_202410159266.4

导航：龙图腾网> 最新专利技术> 一种基于子词嵌入对齐的汉越依存句法分析方法_昆明理工大学_202410159266.4

申请/专利权人：昆明理工大学

申请日：2024-02-04

公开（公告）日：2024-05-03

公开（公告）号：CN117973364A

主分类号：G06F40/211

分类号：G06F40/211;G06F40/242;G06F40/30;G06N5/02;G06N5/025;G06N3/0455;G06N3/0442;G06N3/096

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.05.21#实质审查的生效;2024.05.03#公开

摘要：本发明涉及基于子词嵌入对齐的汉越依存句法分析方法，属自然语言处理领域。本发明主要利用汉语和越南语的子词对齐特征改善越南语预训练语言模型本身表征能力相对较弱的问题。本发明利用对齐矩阵将汉语子词映射到越南语子词类似的表示空间；接着，筛选出与每个越南语子词最相似的十个汉语子词，并对其进行加权求和，将求和的结果与原始越南语子词表示进行融合作为越南语子词的嵌入表示；最后，将获得的越南语子词表示与XLM‑RoBERTa预训练模型得到的原始越南语词表示相结合作为输入越南语句子的最终词嵌入表示，通过经典的双仿射依存句法分析模型获得越南语句子所对应的依存句法树。本发明为越南语依存句法分析带来了显著的性能提升。

主权项：1.一种基于子词嵌入对齐的汉越依存句法分析方法，其特征在于：所述方法的具体步骤如下：Step1：收集中越双语字典以及带标签的中文和越南语数据集；Step2：通过Fasttext模型分别提取训练好的中文和越南语的词向量表示，再利用汉越双语词典和中越词向量表示通过正交相似变化获得双语子词对齐矩阵；Step3：将带标签的中文和越南语数据集经过XLM-RoBERTa模型进行预训练，再从此模型的分词器中获取各自切词后的子词，接着利用Fasttext模型找到中越分别对应子词的词向量表示，从而得到中文和越南语各自的子词向量表示；随后将中文子词向量表示和对齐矩阵进行点乘，使汉语子词映射到越南语子词类似的表示空间；再对点乘过后的中文词向量表示和未经点乘的越南语词向量表示进行归一化操作，得到最终的中文和越南语各自的子词向量表示；Step4：通过计算中文和越南语各自子词向量表示之间的相似度之后，筛选出与每个越南语子词最相似的若干个汉语子词，再从之前的XLM-RoBERTa预训练模型中提取这若干个汉语子词经训练得到的词向量表示，并对其进行加权求和，将求和的结果与原始越南语子词表示进行融合作为越南语子词的嵌入表示；Step5：最后，将获得的越南语子词表示与XLM-RoBERTa预训练模型得到的原始越南语词表示相结合作为输入越南语句子的最终词嵌入表示，来增强双仿射依存句法分析模型。

全文数据：

权利要求：

百度查询：昆明理工大学一种基于子词嵌入对齐的汉越依存句法分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种圆钢轧制加工用控轧控冷装置_江苏巴马型钢有限公司_202410433176.X

下一篇：用于CGM检测的前置运算放大电路、CGM_深圳列拓科技有限公司_202410379725.X

相关技术

一种圆钢轧制加工用控轧控冷装置_江苏巴马型钢有限公司_202410433176.X

用于CGM检测的前置运算放大电路、CGM_深圳列拓科技有限公司_202410379725.X

一种山茱萸多糖-壳聚糖复合膜及其制备方法_河南喜食散生物科技有限公司_202410331541.6

基于LSTM与Transformer的四序列系统发育树重建方法及系统_西安交通大学_202410287236.1

显示基板及其制备方法和显示装置_绵阳京东方光电科技有限公司_202410346620.4

一种铜铝合金翅片管及其生产工艺_扬州昊然机械配件有限公司_202410454855.5

显示面板、显示装置及其亮度调整方法、可读存储介质_京东方科技集团股份有限公司_202410382590.2

铸铁孕育剂和生产铸铁孕育剂的方法_埃尔凯姆公司_202410341971.6

车载仪表显示方法、装置、电子设备及存储介质_亿咖通(湖北)技术有限公司_202410344662.4

基于强化学习的图像检索方法_华东师范大学_202410347637.1

一种含四重氢键的聚氨酯抗冲击材料及其制备方法和应用_北京理工大学_202410480824.7

一种用于航班机组的占座方法、系统、设备及存储介质_中国民航信息网络股份有限公司_202410487321.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明公布】一种基于子词嵌入对齐的汉越依存句法分析方法_昆明理工大学_202410159266.4

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务