首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于词频矩阵特征向量计算文本中新词的方法及系统_北京工联科技有限公司_202010776142.2 

申请/专利权人:北京工联科技有限公司

申请日:2020-08-05

公开(公告)日:2024-03-12

公开(公告)号:CN112101018B

主分类号:G06F40/289

分类号:G06F40/289;G06F40/284;G06F40/242;G06F40/216

优先权:

专利状态码:有效-授权

法律状态:2024.03.12#授权;2022.05.06#专利申请权的转移;2021.01.05#实质审查的生效;2020.12.18#公开

摘要:本发明涉及一种基于词频矩阵特征向量计算文本中新词的方法及系统,该方法,主要步骤如下:S1、文本集的词频字典的计算;S2、词频矩阵的初始化;S3、基于主成分分析进行降维;S4、新词发现。该系统,主要包括以下几个模块:文本集的词频字典的计算模块;词频矩阵的初始化模块;基于主成分分析的降维模块;新词发现模块。本发明一种基于词频矩阵特征向量计算文本中新词的方法及系统,能够以较高的准确率和计算效率对文本中的新词进行挖掘。

主权项:1.一种基于词频矩阵特征向量计算文本中新词的方法,其特征在于:该方法步骤如下:S1、文本集的词频字典的计算:S11、对于文本集中的每一篇文章,首先进行预处理;S12、预处理后,对于文本中的每一句话进行分词,将每一句话分词后的结果表示为{w1,w2,…,wi,…,wn},对于所述的分词后的结果,分别统计其1-gram,2-gram和3-gram的词频;S13、利用分布式计算程序,对文本集中的词频进行统计,将词和其词频的统计结果的映射关系记为Φ·;S2、词频矩阵的初始化:S21、在对文本中的新词进行挖掘时,首先还是要对文本进行预处理,对于每条文本中的每一条语句,用{w1,w2,…,wi,…,wn}来表示预处理后的结果;S22、基于该结果,对每一句话构造矩阵M={mij}n×n,矩阵的计算方法为: 上式表述了如何初始化矩阵M,如果Φ·中存在词wi和wiwi+i…wjij,则mi,j的值为该词对应的词频,如果Φ·不存在该词,mi,j初始化为0;S23、矩阵初始化后,需要对矩阵进行归一化处理,具体的归一化方法为:mi,j=2*mi,jmi,i+mj,j如果mi,j>1,则将mi,j的值初始化为0.5;S3、基于主成分分析进行降维:利用主成分分析的方法,来确定每一条语句应该被分为多少个词;首先计算矩阵M的特征值和特征向量,将矩阵M的特征值记为:λM={λ1,λ2,…,λn}其中,λ1≥λ2≥…≥λn对应的矩阵的特征向量为:{x1,x2,…,xn}取前k个特征值所对应的特征向量构成主成分矩阵将矩阵中的第i行向量作为该语句中第i个词的表示,向量为αi,即 其中对于参数k的确定,采用主成分分析的方法来确定参数k,计算方法为: 其中,λi为矩阵M的特征值,阈值Threshold由n来决定,具体为: S4、新词发现:利用余弦相似度的方法,来计算两个词wi,wj之间的相似度: 依次计算相邻两个词之间的余弦相似度,将这个n个词产生的n-1个余弦相似度的值从大到小排列,将最大的n-k个值所对应的新词组合输出。

全文数据:

权利要求:

百度查询: 北京工联科技有限公司 一种基于词频矩阵特征向量计算文本中新词的方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。