恭喜西安长天长软件股份有限公司曹翔获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜西安长天长软件股份有限公司申请的专利一种环保领域文本词向量化方法及相关系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119990127B 。
龙图腾网通过国家知识产权局官网在2025-06-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510485995.3,技术领域涉及:G06F40/289;该发明授权一种环保领域文本词向量化方法及相关系统是由曹翔;李茂鹏;刘坤;陈黎明;赵若雨设计研发完成,并于2025-04-17向国家知识产权局提交的专利申请。
本一种环保领域文本词向量化方法及相关系统在说明书摘要公布了:本发明提供了一种环保领域文本词向量化方法及相关系统,属于自然语言处理领域。包括如下步骤:获取环保领域文本数据并建立词汇库;基于建立的词汇库构建共现列表,利用动态权重函数计算共现列表中每个单词对的权重值,通过GLOVE模型对权重值高的单词对进行词向量化,生成初始的词向量;基于生成的初始的词向量训练M3E模型,通过In‑batch负采样对比学习和跨模态损失函数联合优化M3E模型,对M3E模型进行优化训练;将文本数据输入训练好的M3E模型,生成文本词向量。通过使用GLOVE模型和M3E模型综合进行词向量化,提供了更丰富的语义信息,能够捕捉单词间的统计关系和单词在不同语境的细微差别。
本发明授权一种环保领域文本词向量化方法及相关系统在权利要求书中公布了:1.一种环保领域文本词向量化方法,其特征在于,包括如下步骤: 获取环保领域文本数据并建立词汇库; 基于建立的词汇库构建共现列表,利用动态权重函数计算共现列表中每个单词对的权重值,通过GLOVE模型对权重值高的单词对进行词向量化,生成初始的词向量; 具体方法如下: 遍历词汇库,统计单词对共现次数,生成共现矩阵X;共现矩阵X的元素为,表示单词与单词在一个窗口内的共现次数; 遍历词汇库,将每个单词及其出现的频率存储到字典D中,返回一个字典D→a,f,映射为专业词汇的ID和专业词汇的出现频率;其中,a表示专业词汇的ID,f表示该专业词汇出现的频率; 从共现矩阵X中提取每个单词对及其对应的共现次数,基于单词对的共现次数及其字典D的内容,建立共现列表; 设计动态权重函数,对共现列表中出现次数高的单词对赋予更高的权重,并补充出现次数低的但是与环保领域相关的单词对的共现关系,得到每个单词对的权重值; 对共现列表中的权重值高的单词对初始化一个随机的词向量表示,作为GLOVE模型的初始参数,定义GLOVE模型的损失函数; 基于GLOVE模型的初始参数,采用梯度下降法最小化损失函数,当损失函数的收敛不再改变时,得到训练好的GLOVE模型; 从训练好的GLOVE模型中提取权重值高的单词对的词向量表示,作为初始的词向量; 其中,出现次数高的单词对是指出现次数大于50次的单词对,出现次数低的单词对是指出现次数小于10次的单词对,对出现次数高的单词对赋予更高的权重值为2,权重值高的单词对是指权重值排名前10%的单词对; 基于生成的初始的词向量训练M3E模型,通过In-batch负采样对比学习和跨模态损失函数联合优化M3E模型,对M3E模型进行优化训练; 具体的,所述跨模态损失函数为: 其中,表示跨模态损失函数,为模态平衡系数且∈[0.6,0.8],为文本词向量对比损失函数,为表格数据向量对比损失函数; 将文本数据输入训练好的M3E模型,生成文本词向量。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安长天长软件股份有限公司,其通讯地址为:710065 陕西省西安市高新区丈八东路汇鑫IBC B座16层内;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。