Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 哈尔滨工业大学杨沐昀获国家专利权

哈尔滨工业大学杨沐昀获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉哈尔滨工业大学申请的专利一种基于ELECTRA的翻译质量估计伪数据生成方法及其生成系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114330373B

龙图腾网通过国家知识产权局官网在2025-07-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111470031.X,技术领域涉及:G06F40/51;该发明授权一种基于ELECTRA的翻译质量估计伪数据生成方法及其生成系统是由杨沐昀;曹海龙;朱聪慧;徐冰;赵铁军;孟庆晔;李岳旸;何明睿设计研发完成,并于2021-12-03向国家知识产权局提交的专利申请。

一种基于ELECTRA的翻译质量估计伪数据生成方法及其生成系统在说明书摘要公布了:本发明公开了一种基于ELECTRA的翻译质量估计伪数据生成方法。对于句子级QE伪数据,使用基于机器译文作为输入母本生成伪数据和基于人工后编辑译文生成伪数据产生两种数据分布的伪数据,并针对数据分布差异提出了先使用人工后编辑译文生成的伪数据对模型进行初次训练再使用机器译文生成的伪数据与原数据混合后的数据集二次训练的方法。对于词语级伪数据,针对训练数据标签分布不平衡的问题,生成了分布更为合理的伪数据,采取先使用得到的伪数据对模型训练再使用原数据集进行二次训练的方法。本发明针对翻译质量估计数据稀缺这一问题。

本发明授权一种基于ELECTRA的翻译质量估计伪数据生成方法及其生成系统在权利要求书中公布了:1.一种基于ELECTRA的翻译质量估计伪数据生成方法,其特征在于,按照句子为单位进行翻译,所述生成方法包括以下步骤: 步骤J1:使用待扩充的QE数据集中目标语言方向的人工后编辑译文生成伪数据或机器翻译译文生成伪数据; 步骤J2:基于步骤J1中人工后编辑译文生成的伪数据利用训练好的ELECTRA模型进行第一次训练; 步骤J3:基于步骤J1中机器翻译译文生成伪数据与原数据集进行混合后在步骤J2得到的ELECTRA模型进行第二次训练; 步骤J4:将步骤J3进行过二次ELECTRA模型训练的得到句子级别的翻译质量评估模型; 步骤J5:验证步骤J4的模型的性能; 所述步骤J1人工后编辑数据生成伪数据具体为, 步骤J1.1:使用待扩充的QE数据集中目标语言方向的人工后编辑译文或机器翻译译文; 步骤J1.2:将步骤J1.1的人工后编辑译文或机器翻译译文作为母本输入到ELECTRA生成器中; 步骤J1.3:基于ELECTRA生成器生成改写后的新人工后编辑译文或新机器翻译译文; 步骤J1.4:将步骤J1.3的人工后编辑译文或新机器翻译译文通过TERCOM工具包计算出对应的HTER分数; 步骤J1.5:将步骤J1.4的HTER分数以及最终源文、经生成器改写的新机器译文、人工后编辑译文这四部分构成了一条新的句子级翻译质量估计伪数据四元组; 所述步骤J1.3中生成改写后的新人工后编辑译文或新机器翻译译文具体为, 生成器会选择句子中的词进行预测并使用预测到的词替换原词,取消了对输入的mask操作,因此生成器会对句子中每个词都预测并替换一遍,而不是只对部分词预测替换; 上述过程的形式化表示如下,一段句子p=[p1,…pn],经过已经训练好的生成器G编码得到对于t位置预测得到所有词的概率: pGpt∣p=softmaxexppt·hGpt1 最后选择概率最大的词p替换为该位置的词:

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学,其通讯地址为:150001 黑龙江省哈尔滨市南岗区西大直街92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。