首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于BGE模型的电力科研知识关联性构建方法及系统_国网江苏省电力有限公司南通供电分公司_202410306464.9 

申请/专利权人:国网江苏省电力有限公司南通供电分公司

申请日:2024-03-18

公开(公告)日:2024-06-07

公开(公告)号:CN117910460B

主分类号:G06F40/242

分类号:G06F40/242;G06F40/30;G06F40/216;G06F16/901;G06Q50/06

优先权:

专利状态码:有效-授权

法律状态:2024.06.07#授权;2024.05.07#实质审查的生效;2024.04.19#公开

摘要:本发明公开了一种基于BGE模型的电力科研知识关联性构建方法及系统,该方法包括以下步骤:收集电力科研文献信息,并对收集到的文献信息进行预处理,得到电力领域关键词词库;获取电力领域关键词的释义,构建电力领域关键词词典;利用融合词典信息BGE模型对每个电力领域关键词的释义向量化,将所得电力领域关键词词库的释义全部向量化;根据所得的全部电力领域关键词的释义向量化计算电力领域关键词之间的语义相关性和语境相关性。本发明将构建的电力领域关键词释义经过RetroMAE预训练和嵌入层,分别处理后进行向量的拼接,得到多维度的释义向量表示,从两个方向聚合对象语义信息,可得到每个层面的最终表征,保证了语义信息不被削弱,提高了语义表征的能力。

主权项:1.一种基于BGE模型的电力科研知识关联性构建方法,其特征在于,该方法包括以下步骤:S1收集电力科研文献信息,并对收集到的文献信息进行预处理,得到电力领域关键词词库;S2获取电力领域关键词的释义,构建电力领域关键词词典;S3利用融合词典信息BGE模型对每个电力领域关键词的释义向量化,最终将所得的电力领域关键词词库的释义全部向量化,以此来表示关键词的向量语义表征;所述利用融合词典信息BGE模型对每个电力领域关键词的释义向量化包括:将待处理电力领域关键词的释义作为输入向量输入到RetroMAE预训练算法中,得到第一关键词释义向量化表示,所述RetroMAE预训练算法首先对待处理电力领域关键词的释义采用低掩码率,即随机删除关键词,以编码语义信息,然后,将这个编码得到的语义向量与相同文本的高掩码率版本拼接在一起;将待处理电力领域关键词的释义作为输入向量再次输入到带有词典信息的嵌入层中,得到第二关键词释义向量化表示,将第一关键词释义向量化表示和第二关键词释义向量化表示进行拼接,得到待处理关键词的释义向量化表示;其中,将待处理电力领域关键词的释义作为输入向量再次输入到带有词典信息的嵌入层中,得到第二关键词释义向量化表示,具体包括:S31将输入的关键词释义文本中的每一个字符t,所述关键词释义文本对应的长度为n,同时向前或者向后进行长度单位为1的字符组合,即共有n-1种字符组合,记为t1~tn-1;S32在构建的所述电力领域关键词典中的关键词匹配所有包含ti的词,其中,,将所有匹配到的电力关键词分别编码到Bt、Mt、Et、St四个集合中,其中,Bt表示该电力关键词个数大于2且以ti开头,Mt表示该电力关键词中的ti不在开头或结尾,Et表示该电力关键词字符个数大于2且以字符ti结尾,St表示该电力关键词仅由ti组成;S33获得每个字符所对应的B、M、E、S词语集合之后,对电力领域关键词的集合做压缩处理,其目的是将每个集合的词嵌入压缩为一个特征向量,即第二关键词释义向量化;S4根据所得的全部电力领域关键词的释义向量化计算电力领域关键词之间的语义相关性,并根据电力领域关键词词库的关联性计算语境相关性;所述特征向量表示为: 其中,vS表示集合S对应的特征向量,是关键词经过预训练好的词嵌入层得到的向量表示,xs表示由上述四个词语集合生成的向量表示拼接后的维度特征向量;为集合B中电力领域关键词对应向量表示的长度,为集合M中电力领域关键词对应向量表示的长度,为集合E中电力领域关键词对应向量表示的长度,为集合S中电力领域关键词对应向量表示的长度。

全文数据:

权利要求:

百度查询: 国网江苏省电力有限公司南通供电分公司 一种基于BGE模型的电力科研知识关联性构建方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。