买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:清华大学
摘要:本发明实施例提供一种语法改错质量评估方法和系统,其中所述方法包括:基于给定输入句子和若干个语法改错结果,采用一个预训练语言模型构建给定输入句子和语法改错结果的词语向量表示;针对于每个语法改错结果中的词语向量,采用节点交互注意力机制从其他若干个语法改错结果中获取能够验证当前语法改错结果的词语的语法改错线索,并采用节点选择注意力机制将每条语法改错结果词语的语法改错线索进行整合,得到语法改错证据;利用所述语法改错证据,对当前语法改错结果进行质量评估。本发明实施例通过设计的注意力机制能够在不同的语法改错结果中找到有利于验证当前语法改错结果质量的语法改错证据,从而对当前语法改错结果进行质量评估。
主权项:1.一种语法改错质量评估方法,其特征在于,用于文本校对,包括:基于给定输入句子和若干个语法改错结果,采用一个预训练语言模型构建给定输入句子和语法改错结果的词语向量表示;针对于每个语法改错结果中的词语向量,采用节点交互注意力机制从其他若干个语法改错结果中获取能够验证当前语法改错结果的词语的语法改错线索,并采用节点选择注意力机制将每条语法改错结果词语的语法改错线索进行整合,得到语法改错证据;利用所述语法改错证据,对当前语法改错结果进行质量评估,其中,所述基于给定输入句子和若干个语法改错结果,采用一个预训练语言模型构建给定输入句子和语法改错结果的词语向量表示包括:对于给定的一个给定输入句子,利用一语法改错模型通过柱搜索得到个相应的语法改错结果,标记为;对于给定的包含m个词语的给定输入句子以及包含n个词语的第个语法改错结果,将给定输入句子和语法改错结果句子对利用表示句子开头和结尾的特殊符号“[CLS]”以及“[SEP]”进行拼接,并将拼接后的内容当做一个节点,然后使用BERT进行编码,得到节点初始化表示: ;所述给定输入句子和语法改错结果句子对的节点初始化表示包含了每个词语的隐状态表示,并标记为;其中,所述针对于每个语法改错结果中的词语向量,采用节点交互注意力机制从其他若干个语法改错结果中获取能够验证当前语法改错结果的词语的语法改错线索,并采用节点选择注意力机制将每条语法改错结果词语的语法改错线索进行整合,得到语法改错证据具体包括:基于所述,利用节点交互注意力机制通过计算注意力权重有选择地从第个节点中读取词语,从其中选择出能够对第个节点中的词语起到支持作用的语法改错线索,形成节点的细粒度表示;采用节点选择注意力机制,基于节点的细粒度表示计算节点的重要程度,从多个节点中整合能够支持验证当前词语质量的语法改错证据;其中,所述利用所述语法改错证据,对当前语法改错结果进行质量评估包括:使用交叉熵损失函数来计算对于第个节点中第个词语的词语质量分类标签的损失: ;其中,代表标注数据所给定的真实的标签分类;计算出模型训练时候的损失函数: ;对于第个节点中第个词语,利用相应的节点验证表示来计算出词级别的语法改错质量评估标签的概率: ;其中,“”代表元素对应位置相乘操作,“”则是代表拼接操作;对第个节点中的语法改错结果中的全部词语质量评估分数的得分,即概率进行平均,得到对于给定输入句子,语法改错结果的语法改错质量评估分数: 。
全文数据:
权利要求:
百度查询: 清华大学 语法改错质量评估方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。