【发明授权】基于降噪原型序列的汉越神经机器翻译方法_昆明理工大学_202210787747.0

导航：龙图腾网> 最新专利技术> 基于降噪原型序列的汉越神经机器翻译方法_昆明理工大学_202210787747.0

申请/专利权人：昆明理工大学

申请日：2022-07-06

公开（公告）日：2024-06-21

公开（公告）号：CN115034239B

主分类号：G06F40/58

分类号：G06F40/58;G06F40/211;G06F40/295;G06F40/30

优先权：

专利状态码：有效-授权

法律状态：2024.06.21#授权;2022.09.30#实质审查的生效;2022.09.09#公开

摘要：本发明涉及基于降噪原型序列的汉越神经机器翻译方法，属自然语言处理领域。本发明包括：将汉语和越南语的句子语映射到向量空间，利用跨语言相似性检索出目标端原型序列；接着将子词粒度原型序列进行还原为音节粒度,再依据构建好的实体词典做噪声掩盖；之后依据原型序列与源端的相似性以及稀有词词频对其进行权重分配；最后将处理好的原型序列作为模板信息，应用在双编码器‑单解码器结构，指导翻译任务。针对汉越数据集的实验结果表明，与当前最优模型相比，本发明在利用越南语单语数据缓解双语资源匮乏的同时，将原型序列进行噪声过滤并将其中对机器翻译有益的知识特征进行增强，有效提升了汉越机器翻译的性能。

主权项：1.基于降噪原型序列的汉越神经机器翻译方法，其特征在于：所述方法的具体步骤如下：Step1、将汉语-越南语平行语料、越南语候选句子库进行分词处理，并利用Underthesea-VietnamNLP工具构建越南语单语词典；Step2、将词粒度的汉语句子、子词粒度越南语候选句子通过两个编码器映射到向量空间，利用跨语言相似性检索出子词粒度的目标端原型序列，并在音节粒度的候选句子库中对照出音节粒度的目标端原型序列；Step3、对子词级原型序列进行粒度还原，再依据构建好的实体词典做噪声掩盖，之后依据原型序列与源端的相似性以及稀有词词频对其进行权重分配，赋予原型序列参考价值；Step4、将处理好的原型序列作为模板信息，应用在双编码器-单解码器结构，指导翻译任务；所述Step2的具体步骤为：Step2.1、将词粒度的汉语句子x输入编码器，得到高维向量Ex；将子词粒度的越南语句子s输入编码器，得到高维向量Es，x与s之间的相关性分数通过计算得出：按照分数rxi,si筛选出与第i个源语言句子xi相关性高的前3个子词粒度的目标语言句子作为目标端语言原型序列S＝{sj,1,sj,2,sj,3}；Step2.2、依据子词粒度的目标端语言原型序列S在音节粒度的候选句子库中对照出音节粒度的原型序列S1；所述Step3的具体步骤为：Step3.1、将检索出的子词粒度的目标端语言原型序列S＝{sj,1,sj,2,sj,3}中，按照‘@@’符号为边界，将拆分过的音节还原；Step3.2、将音节粒度的原型序列S1遍历一遍词典，对照出音节粒度原型序列中实体的位置；Step3.3、对比Step3.1与Step3.2当中实体、数字的位置，将未处理过的子词粒度的目标端语言原型序列S中，实体、数字的位置用符号‘mask’替换，得到处理后的原型序列S′＝{S′j,1,S′j,2,S′j,3}；Step3.4、根据越南语词语表，统计子词级候选句子库中的句子进行词频统计，将出现频率低于10％的词作为稀有词ωj，计算处理后的子词粒度的原型序列S′＝{S′j,1,S′j,2,S′j,3}中每个句子S′j,k|k＝1,2,3的稀有词ωj的相对词频：为指示函数，当处理后的子词粒度的原型序列S′中的词ωi为稀有词时，函数值为1；相反，若不是稀有词时，函数值为0，Ntotal为原型序列中某个句子s′j,k|k＝1,2,3所包含的子词数目；Step3.5、将处理后的子词粒度的原型序列中每个句子s′j,k|k＝1,2,3所有稀有词的相对词频聚合，判断该原型序列中每个句子的整体难度分数： Step3.6、结合检索模块中的得到相关性得分rxi,si以及当前模块得到的原型序列难度根据公式4得到原型序列的参考价值所述Step4的具体步骤为：Step4.1、将源语言句子的词粒度的汉语句子x输入源语言编码器，将Step3得到的处理后的子词粒度的原型序列S′＝{s′j,1,s′j,2,s′j,3}输入目标语言编码器；Step4.2、解码器根据先前时间步生成的序列y1:t-1以及源语言编码器的输出，生成隐藏状态ht；经过一次线性变换以及softmax运算以后，得到下一个token的预测概率值：Pv＝softmaxWvht+bv5其中，Wv为维度变换矩阵，bv为偏置；Step4.3、原型编码器将处理后的子词粒度的原型序列S′的每个句子s′j,k|k＝1,2,3转换为一组词嵌入Li为原型序列的句子长度，给原型序列中被‘mask’替换的实体Sillegal的位置加上一个无穷大的负偏置，即：Sillegal＝Sillegal+Biasillegal6Biasillegal→-∞7Step4.4、计算隐状态ht与原型序列S′中每个句子s′j,k|k＝1,2,3的每一个词的注意力： Wm是一个维度变换矩阵，β为一个可以训练的权重参数，用来权衡参考价值csi的影响；M为原型序列S′中所含的句子数目；Step4.5、利用αk,l对原型序列S′＝{s′j,1,s′j,2,s′j,3}的每一个词做加权平均： Step4.6、用ct更新隐状态后，结合Step4.2得到的Pv，计算出下一个子词yt的预测概率值：为指示函数，λt是一个由前馈网络构成的门控单元，用以平衡原型序列的影响。

全文数据：

权利要求：

百度查询：昆明理工大学基于降噪原型序列的汉越神经机器翻译方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：显示装置和用于制造该显示装置的方法_三星显示有限公司_202311264824.5

下一篇：一种基于双蒸发器的紧凑式压缩制冷散热系统及应用_苏州华旃航天电器有限公司_202410334871.0

相关技术

显示装置和用于制造该显示装置的方法_三星显示有限公司_202311264824.5

一种基于双蒸发器的紧凑式压缩制冷散热系统及应用_苏州华旃航天电器有限公司_202410334871.0

由独立组分生产的果仁酱仿品_航行食品股份有限公司_202280059657.8

一种硅光器件及制造方法_上海集成电路研发中心有限公司_202211648345.9

一种悬索桥用超硬复合板及其制备工艺_德阳天元重工股份有限公司_202410240910.0

基于多模块组合的应用程序越权漏洞检测方法及系统_深圳开源互联网安全技术有限公司_202410023783.9

一种微型电机防水密封检测装置_全南县超亚科技有限公司_202410179550.8

一种集成传感器的封装结构和封装方法_合肥中航天成电子科技有限公司_202410654911.X

电解槽下料器和电解槽下料系统_云南云铝涌鑫铝业有限公司_202211606255.3

一种红茶的制作方法_安化县亮山茶业有限公司_202310583344.9

光学系统和包括该光学系统的相机模块_LG伊诺特有限公司_202280073239.4

一种机房巡检机器人控制方法及系统_广州申迪智能科技有限公司_202311823017.2

序列相关技术

磷灰石结合特性的七肽序列、淘选方法及其应用_华中科技大学同济医学院附属同济医院_202410359130.8

一种电控时间序列颗粒物采集装置系统_自然资源部第二海洋研究所_202111574441.9

非周期四相完美交叉Z互补序列对信号的生成装置及方法_重庆邮电大学_202111400815.5

一种基于DSA序列影像的UOA识别方法、设备及介质_华中科技大学同济医学院附属协和医院_202410328170.6

一种时间序列异常数据检测方法及相关设备_中国民航信息网络股份有限公司_202110261184.7

超声视频序列中分割模型的训练方法、设备及存储介质_苏州雷泰医疗科技有限公司_202410414843.X

一种基于电力混合业务流的时间序列预测方法和系统_国网经济技术研究院有限公司_202410297343.2

一种基于混淆策略的伪随机序列泛平衡化生成方法_华北理工大学_202410371955.1

一种数据流高速序列触发方法_电子科技大学(深圳)高等研究院_202410377331.0

一种基于混合序列网络进行一段炉过程监测的方法_浙江大学_202111348802.8

神经相关技术

一种神经病患神经传感诊疗反馈装置_汉中市人民医院_202410449375.X

用于插入神经组织的器件_神经毫微股份公司_201880033956.8

一种光子神经网络_联合微电子中心有限责任公司_202010956262.0

植入式神经刺激器及系统_苏州新云医疗设备有限公司_202410658792.5

用于刺激外周神经的装置_上海杉翎医疗科技有限公司_202310640781.X

卷积神经网络构建方法、装置、设备及介质_北京迈格威科技有限公司_202010414618.8

一种神经阻滞注射器_中国医学科学院肿瘤医院深圳医院_202322423931.X

卷积神经网络构建方法、装置、设备及介质_北京迈格威科技有限公司_202010414597.X

嗅神经检查物质用取样分析装置_无锡市第九人民医院_202410642253.2

神经网络模型定义代码生成及优化_美光科技公司_202311743374.8

汉越相关技术

基于零代词补齐的汉越数据增强方法_昆明理工大学_202210374347.7

基于上下文的汉越跨语言句嵌入方法_昆明理工大学_202210544674.2

一种三线交越保护装置_中国联合网络通信集团有限公司_202322468679.4

一种汉麻仁免疫活性肽发酵装置_黑龙江省科学院大庆分院_202322647640.9

一株泰国有孢汉逊酵母QJJY14及其发酵青金桔酵素的应用_海南省粮油科学研究所_202410313936.3

一种考虑抑制海上风电超短期预测偏差引发电压越限的无功调整降损优化方法_福州大学_202410486697.1

用于表达HPV 16 L1蛋白的蛋白酶A缺失型汉逊酵母菌株及其应用_易慧生物技术(上海)有限公司_202410301322.3

用于表达HPV 16 L1蛋白的蛋白酶B缺失型汉逊酵母菌株及其应用_江苏中慧元通生物科技股份有限公司_202311823309.6

一种考虑新能源不确定性和电网越限的输配协同调度方法_国网经济技术研究院有限公司_202410374702.X

一种蔓越莓果干的干燥装置_赫威(滁州)食品有限公司_202420153747.X

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】基于降噪原型序列的汉越神经机器翻译方法_昆明理工大学_202210787747.0

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务