恭喜杭州远传新业科技股份有限公司嵇望获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜杭州远传新业科技股份有限公司申请的专利文摘自动生成方法、装置、电子设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN112183083B 。
龙图腾网通过国家知识产权局官网在2025-03-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202010898531.2,技术领域涉及:G06F40/284;该发明授权文摘自动生成方法、装置、电子设备及存储介质是由嵇望;王伟凯;郭心南;董悦;李舟扬;钱艳;安毫亿;朱鹏飞;梁青设计研发完成,并于2020-08-31向国家知识产权局提交的专利申请。
本文摘自动生成方法、装置、电子设备及存储介质在说明书摘要公布了:本发明公开了一种文摘自动生成方法、装置、电子设备和存储介质,该方法将原始文本和原始文本中的命名实体分别基于两个训练好的嵌入向量模型计算得到各单字的第一字符向量和第二字符向量并通过拼接得到各单字的词向量;通过训练好的Transformer编解码模型对各单字的词向量编解码处理得到多个生成词的词向量,可以增强多个生成词的词向量的特征表示能力,将每个生成词分为第一类生成词或第二类生成词,对第一类生成词和第二类生成词分别采用训练好的指针网络和记忆网络计算分别得到第一类输出词和第二类输出词,由多个第一类输出词和或多个第二类输出词组成目标文摘,可以有效解决生僻的命名实体无法生成的问题。
本发明授权文摘自动生成方法、装置、电子设备及存储介质在权利要求书中公布了:1.一种文摘自动生成方法,其特征在于:包括以下步骤:根据原始文本和所述原始文本中的命名实体分别基于两个训练好的嵌入向量模型进行计算分别得到所述原始文本中各单字的第一字符向量和所述命名实体中各单字的第二字符向量,并将各单字的第一字符向量和第二字符向量进行拼接得到各所述单字的词向量;根据各所述单字的词向量基于训练好的Transformer编解码模型进行编解码处理得到多个生成词的词向量;基于多个所述生成词的词向量和训练好的分类模型将多个生成词分别分为第一类生成词或第二类生成词;将多个第一类输出词和或多个第二类输出词组成目标文摘,其中,第一类输出词是根据第一类生成词的词向量基于训练好的指针网络计算得到的,第二类输出词是根据第二类生成词的词向量和命名实体中各单字的词向量基于训练好的记忆网络计算得到的;所述训练好的分类模型包括归一化指数函数,基于多个所述生成词的词向量和训练好的分类模型将多个生成词分别分为第一类生成词或第二类生成词,包括:将各所述生成词的词向量输入下述归一化指数函数进行计算得到各所述生成词的评分向量:Scorei=Softmax1WpmVi+bpmWc,其中,Vi表示第i个生成词的词向量,i=1,...,N,N表示生成词的总个数,Wpm、bpm以及Wc是训练好的参数,所述评分向量Scorei包括第i个生成词的词向量选择指针网络的第一得分和选择记忆网络的第二得分,Softmax1·表示归一化指数函数;若所述评分向量Scorei中的第一得分大于等于第二得分时,则第i个生成词为第一类生成词;若所述评分向量Scorei中的第一得分小于第二得分时,则第i个生成词为第二类生成词;所述训练好的指针网络包括线性变换层、归一化层和概率分布计算函数,所述第一类输出词通过下述方式得到:将所述第一类生成词的词向量通过线性变换层和归一化层进行处理得到第一分布概率序列,其中,所述第一分布概率表示词典中每个词语为第一类生成词的概率;根据所述第一分布概率序列基于下述概率分布计算函数进行计算得到第一类生成词的分布概率序列,其中,所述分布概率表示扩展词典中每个字词为第一类生成词的概率,所述扩展词典包括所述词典和所述原始文本:Pw=PgPvocabw+1-PgPAttw,其中,Pg表示所述第一类生成词的词向量通过所述线性变换层计算得到的权重,w表示第一类生成词的词向量,Pvocabw表示所述第一分布概率序列,PAttw表示第二分布概率序列,所述第二分布概率表示所述原始文本中每个单字为第一类生成词的概率,Pw表示所述分布概率序列;根据所述分布概率序列中值最大的分布概率查询扩展词典中对应的字词作为所述第一类输出词;所述训练好的记忆网络包括归一化指数函数,所述第二类输出词通过下述方式得到:将所述命名实体中多个单字的词向量进行取平均处理得到平均向量;将所述平均向量和所述第二类生成词的词向量进行拼接得到候选词向量;将所述候选词向量输入下述归一化指数函数计算得到候选词评分序列:Scorem=Softmax2WmV+bm,其中,V表示所述候选词向量,Wm和bm是训练好的转换参数,所述候选词评分序列Scorem包括将所述命名实体中的各个单字和所述第二类生成词分别作为第二类输出词的评分,Softmax2·表示归一化指数函数;根据所述候选词评分序列中值最大的评分查询得到对应的候选词作为所述第二类输出词。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州远传新业科技股份有限公司,其通讯地址为:310051 浙江省杭州市滨江区信诚路857号世贸中心23楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。