首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

面向金融领域的文档级事件主体对抽取的方法、存储介质及设备 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:哈尔滨工业大学

摘要:面向金融领域的文档级事件主体对抽取的方法、存储介质及设备,属于信息技术领域。为了解决现有的基于句子级的事件抽取的方法不能很好的应用于金融领域内文档的事件抽取,从而存在提取事件信息的性能较低的问题。本发明首先将文档按句进行分割,将第i个句子基于字通过词典映射成句子id,并将句子通过第一个字的Embedding矩阵,然后输入BERT,取其最后一层的编码得到句子中的每个token的编码并得到特征向量C;根据每个事件类型获取对应的t,获取文档级上下文表示eglobal;将每个token的hi,j拼接C、t和eglobal;最后基于前馈神经网络和CRF得到标注结果并最终得到主体对。主要用于金融领域的文档级事件主体对抽取。

主权项:1.面向金融领域的文档级事件主体对抽取的方法,其特征在于,包括以下步骤:步骤一、首先将文档按句进行分割d=[s1;s2;…;sNs],其中si表示第i个句子,Ns为文档中句子的个数;然后将第i个句子基于字通过词典映射成句子id;步骤二、将映射成id的句子si通过第一个字的Embedding矩阵得到每个token,即esi=[wi,1;wi,2;…wi,Nw],其中Nw表示第i个句子中共有Nw个token;然后输入至第一BERT中,取BERT输出的最后一层的编码,得到句子中的每个token的编码[hi,1;hi,2;…hi,Nw];步骤三、将步骤二中的句子的embeddingesi=[wi,1;wi,2;…wi,Nw]输入至CNN中获取n-gram的特征,将三个卷积核得到的三个向量拼接起来得到特征向量C;步骤四、对于步骤一输入的事件类型,首先对事件类型排序,然后按照排序好的顺序,得到每个事件类型对应的顺序位置,将每个事件类型映射成固定的事件类型id;然后在事件类型的Embedding矩阵中获取该事件类型的embeddingt;步骤五、获取文档级上下文表示eglobal:首先将文档分割后的每个句子si都按照和步骤一步骤二相同的方式得到每个句子的embeddingesi=[wi,1;wi,2;…wi,Nw],接着经过第二BERT得到每个句子的编码向量,文档中有n个句子,那么得到文档所有句子的编码矩阵[h’1;h’2;…;h’Ns];接着将上述编码矩阵[h’1;h’2;…;h’Ns]通过maxpooling,得到编码矩阵[c1;c2;…;cNs];然后经过Transformer进行信息的交互,得到dfinal=[cd1;cd2;…;cdNs];最后将dfinal进行maxpooling,最终得到文档级表示向量eglobal;步骤六、步骤二中得到的句子的编码hi=[hi,1;hi,2;…hi,Nw]的每个token的embeddinghi,j在长度维度上拼接上步骤三、步骤四和步骤五中得到的向量C、t和eglobal,拼接完成后得到hfinal;步骤七、将步骤六中得到的向量经过前馈神经网络改变长度维度,将长度维度变换为序列标注中标签个数的大小;步骤八、将步骤七中得到的向量输入到CRF中得到标注结果,再通过标注的得到的标签,根据这些标签找到原文对应的主体对,输出主体对作为结果。

全文数据:

权利要求:

百度查询: 哈尔滨工业大学 面向金融领域的文档级事件主体对抽取的方法、存储介质及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。