买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:昆明理工大学
摘要:本发明涉及基于生成对抗网络的越南语新闻事件共指关系识别方法,属自然语言处理领域。本发明的事件共指关系识别任务需要识别新闻文档中事件描述句之间是否从不同的角度对同一件真实事情展开论述。针对事件信息比实体信息复杂导致事件共指关系识别的难度远远大于实体共指消解,以及在越南语新闻文档中存在不同事件句之间具有相似上下文但不具有共指关系的情况,而容易对模型造成困惑。因此,本发明采用事件上下文作为事件句的表征,并通过生成对抗网络来缓解文本中的噪声数据,以提高面向越南语新闻的事件共指关系识别的性能。在构建的越南语事件数据集上进行实验验证,结果表明,所提方法较基线模型取得了更好的效果。
主权项:1.基于生成对抗网络的越南语新闻事件共指关系识别方法,其特征在于:所述方法的具体步骤如下:Step1、为每一篇越南语新闻文档构建可靠数据R和不可靠数据U;Step2、使用越南语预训练语言模型PhoBERT构建编码器,用于对事件对实例中的事件信息进行编码表征;Step3、使用生成对抗网络进行对抗训练,用于过滤不可靠数据中的噪声实例,以提高事件共指关系识别的准确性;Step4、构建全局优化算法,用于以事件对为单位完成文档内的事件共指关系识别后,进一步组建单文档的事件共指链;所述Step3的具体步骤为:Step3.1、设计选择器S用于从不可靠数据U中选取对抗性样本实例,设计鉴别器D用于学习判断一个给定的事件对实例是来自R还是来自U;Step3.2、对抗训练的目标函数如下式1所示,选择器和鉴别器的训练过程是一个最大最小的博弈过程,选择器被训练来通过优化概率分布PU,从U中选择具有相似语义的事件对实例来欺骗鉴别器,期望该事件对实例在鉴别器中获得的置信度分数Dxi,xj,x∈U尽可能的大;而鉴别器被训练来最大化置信度分数Dxi,xj,x∈R和1-Dxi,xj,x∈U,即希望对来自R中的事件对实例持信任态度,而对来自U中的事件对实例持不信任态度,来提高共指关系的鉴别能力; 其中,PR为R中真实数据的分布,PU为U中噪声数据的分布;选择器由多个线性层组成,线性层之间的损失函数使用Tanh函数;选择器通过优化概率分布PU,从不可靠数据U中选择事件对实例以迷惑鉴别器,实例的迷惑性越强表明其具有共指关系的概率越大,训练达到平衡后由选择器选择的数据能被当做标注正确的例子;如式8~10所示,事件对实例xi,xj经过编码器获得向量表示H后,通过选择器计算对应的混淆分数;H=Encoderxi,xj8fxi,xj=TanhW1H+b1W2+b29 其中,PUxi,xj为事件对实例的混淆分数,fxi,xj为事件对实例经过选择器中线性层后的输出,W1、W2、b1、b2为线性层的参数和偏置;之后,对于U中混淆分数大的事件对实例,该事件对实例在鉴别器中获得的置信度分数Dxi,xj尽可能的高,以达到混淆鉴别器的目的,所以,希望一个优化后的选择器能够选择噪声数据U中具有真实共指关系的信息实例,也就是对于U中的数据能够捕捉其真实的概率分布;因此,给定事件对实例xi,xj属于U及其不可靠共指关系标记,设置选择器的损失函数如公式11所示; 其中,PUxi,xj是U中事件对实例的概率分布,Dxi,xj是由鉴别器计算所得的置信度分数;在优化选择器时,以PUxi,xj中的参数作为优化的对象;鉴别器被设计成打分函数的角色,其组成和选择器一样,由多个线性层构成;如式12~14所示,事件对实例xi,xj经过编码器后获得嵌入表示H;之后,H经过鉴别器中的两个全连接层后得到向量表征K;然后K经过sigmoid后获得事件对实例xi,xj共指关系的置信度分数;最后,根据置信度分数来进一步判断事件对实例xi,xj中的两个事件句之间是否具有真实的共指关系;H=Encoderxi,xj12K=TanhW1H+b1W2+b213Dxi,xj=σK14其中,H为事件对实例xi,xj的词嵌入表征,K为H经过全连接层后的输出向量,σ.为sigmoid损失函数,D表示鉴别器;在鉴别器的优化过程中,将为R中的事件对实例分配更高的置信度,而为U中的事件对实例持不信任态度,分配较低的置信度;因此,鉴别器的损失函数被设置成如下15所示: 其中,PUxi,xj为U中数据的概率分布;在优化鉴别器时,对Dxi,xj以及编码器Encoder中的参数进行优化;Step3.3、当选择器和鉴别器训练达到平衡时,选择器具备了一定噪声数据过滤的能力,倾向于选择U中富含信息、概率分布更高的信息实例;而鉴别器也提高了对噪声数据的鉴别能力,能更好地识别来自噪声数据U中的事件对实例是否具有真实的共指关系。
全文数据:
权利要求:
百度查询: 昆明理工大学 基于生成对抗网络的越南语新闻事件共指关系识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。