首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种学习字向量方法、系统、电子设备及存储介质_北京明略软件系统有限公司_202110552809.5 

申请/专利权人:北京明略软件系统有限公司

申请日:2021-05-20

公开(公告)日:2024-06-21

公开(公告)号:CN113343669B

主分类号:G06F40/216

分类号:G06F40/216;G06F40/242;G06F40/289

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2021.09.21#实质审查的生效;2021.09.03#公开

摘要:本申请公开了一种学习字向量方法、系统、电子设备及存储介质,学习字向量方法包括:字典组建步骤:从预训练词向量模型中抽取词语,将所述词语切分成字,并对所述字进行处理后,使用处理后的字组成字典;PMI获取步骤:统计所述字的字频以及共现频率后,根据所述字频以及所述共现频率计算所述字的PMI;字向量计算步骤:对所述PMI进行归一化后,根据归一化后的PMI与所述词语的词向量,加权计算获取字向量。本发明将词向量转化为字向量,然后用字向量进行文本表示,从而解决中文分词与预训练语言模型的分词标准不一致的问题。

主权项:1.一种学习字向量方法,其特征在于,包括:字典组建步骤:从预训练词向量模型中抽取词语,将所述词语切分成字,并对所述字进行处理后,使用处理后的字组成字典;所述字典组建步骤包括:词典生成步骤:读取所述预训练词向量模型后,从所述预训练词向量模型中抽取所有的所述词语,并使用所述词语组成词典;字典生成步骤:将所述词典中的所述词语切分为单独的所述字,对切分出的所述字进行存储以及去重处理后,使用处理后的所述字组成所述字典;点互信息PMI获取步骤:统计所述字的字频以及共现频率后,根据所述字频以及所述共现频率计算所述字的点互信息PMI,所述点互信息PMI计算公式如下: 其中,和是所述字典中的字,即字和的共现次数,和分别指字和在所述词典的词语中出现的次数;字向量计算步骤:对所述点互信息PMI进行归一化后,根据归一化后的点互信息PMI与所述词语的词向量,加权计算获取字向量;所述加权计算获取字向量,包括:所述字向量由其所参与构词的词语集中的词语的向量加权而得,权重为字与其所参与构词的词语的点互信息PMI,所述字与其所参与构词的词语的点互信息PMI计算公式如下: 其中,指字所参与构词的词语的集合,是集合中的一个词语。

全文数据:

权利要求:

百度查询: 北京明略软件系统有限公司 一种学习字向量方法、系统、电子设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。