申请/专利权人:北京明略软件系统有限公司
申请日:2021-05-20
公开(公告)日:2024-06-21
公开(公告)号:CN113343669B
主分类号:G06F40/216
分类号:G06F40/216;G06F40/242;G06F40/289
优先权:
专利状态码:有效-授权
法律状态:2024.06.21#授权;2021.09.21#实质审查的生效;2021.09.03#公开
摘要:本申请公开了一种学习字向量方法、系统、电子设备及存储介质,学习字向量方法包括:字典组建步骤:从预训练词向量模型中抽取词语,将所述词语切分成字,并对所述字进行处理后,使用处理后的字组成字典;PMI获取步骤:统计所述字的字频以及共现频率后,根据所述字频以及所述共现频率计算所述字的PMI;字向量计算步骤:对所述PMI进行归一化后,根据归一化后的PMI与所述词语的词向量,加权计算获取字向量。本发明将词向量转化为字向量,然后用字向量进行文本表示,从而解决中文分词与预训练语言模型的分词标准不一致的问题。
主权项:1.一种学习字向量方法,其特征在于,包括:字典组建步骤:从预训练词向量模型中抽取词语,将所述词语切分成字,并对所述字进行处理后,使用处理后的字组成字典;所述字典组建步骤包括:词典生成步骤:读取所述预训练词向量模型后,从所述预训练词向量模型中抽取所有的所述词语,并使用所述词语组成词典;字典生成步骤:将所述词典中的所述词语切分为单独的所述字,对切分出的所述字进行存储以及去重处理后,使用处理后的所述字组成所述字典;点互信息PMI获取步骤:统计所述字的字频以及共现频率后,根据所述字频以及所述共现频率计算所述字的点互信息PMI,所述点互信息PMI计算公式如下: 其中,和是所述字典中的字,即字和的共现次数,和分别指字和在所述词典的词语中出现的次数;字向量计算步骤:对所述点互信息PMI进行归一化后,根据归一化后的点互信息PMI与所述词语的词向量,加权计算获取字向量;所述加权计算获取字向量,包括:所述字向量由其所参与构词的词语集中的词语的向量加权而得,权重为字与其所参与构词的词语的点互信息PMI,所述字与其所参与构词的词语的点互信息PMI计算公式如下: 其中,指字所参与构词的词语的集合,是集合中的一个词语。
全文数据:
权利要求:
百度查询: 北京明略软件系统有限公司 一种学习字向量方法、系统、电子设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。