【发明授权】一种基于词频矩阵特征向量计算文本中新词的方法及系统_北京工联科技有限公司_202010776142.2

申请/专利权人：北京工联科技有限公司

申请日：2020-08-05

公开（公告）日：2024-03-12

公开（公告）号：CN112101018B

主分类号：G06F40/289

分类号：G06F40/289;G06F40/284;G06F40/242;G06F40/216

优先权：

专利状态码：有效-授权

法律状态：2024.03.12#授权;2022.05.06#专利申请权的转移;2021.01.05#实质审查的生效;2020.12.18#公开

摘要：本发明涉及一种基于词频矩阵特征向量计算文本中新词的方法及系统，该方法，主要步骤如下：S1、文本集的词频字典的计算；S2、词频矩阵的初始化；S3、基于主成分分析进行降维；S4、新词发现。该系统，主要包括以下几个模块：文本集的词频字典的计算模块；词频矩阵的初始化模块；基于主成分分析的降维模块；新词发现模块。本发明一种基于词频矩阵特征向量计算文本中新词的方法及系统，能够以较高的准确率和计算效率对文本中的新词进行挖掘。

主权项：1.一种基于词频矩阵特征向量计算文本中新词的方法，其特征在于：该方法步骤如下：S1、文本集的词频字典的计算：S11、对于文本集中的每一篇文章，首先进行预处理；S12、预处理后，对于文本中的每一句话进行分词，将每一句话分词后的结果表示为{w1,w2,…,wi,…,wn}，对于所述的分词后的结果，分别统计其1-gram，2-gram和3-gram的词频；S13、利用分布式计算程序，对文本集中的词频进行统计，将词和其词频的统计结果的映射关系记为Φ·；S2、词频矩阵的初始化：S21、在对文本中的新词进行挖掘时，首先还是要对文本进行预处理，对于每条文本中的每一条语句，用{w1,w2,…,wi,…,wn}来表示预处理后的结果；S22、基于该结果，对每一句话构造矩阵M＝{mij}n×n，矩阵的计算方法为：上式表述了如何初始化矩阵M，如果Φ·中存在词wi和wiwi+i…wjij，则mi,j的值为该词对应的词频，如果Φ·不存在该词，mi,j初始化为0；S23、矩阵初始化后，需要对矩阵进行归一化处理，具体的归一化方法为：mi,j＝2*mi,jmi,i+mj,j如果mi，j＞1，则将mi，j的值初始化为0.5；S3、基于主成分分析进行降维：利用主成分分析的方法，来确定每一条语句应该被分为多少个词；首先计算矩阵M的特征值和特征向量，将矩阵M的特征值记为：λM＝{λ1，λ2，…，λn}其中，λ1≥λ2≥…≥λn对应的矩阵的特征向量为：{x1，x2，…，xn}取前k个特征值所对应的特征向量构成主成分矩阵将矩阵中的第i行向量作为该语句中第i个词的表示，向量为αi，即其中对于参数k的确定，采用主成分分析的方法来确定参数k，计算方法为：其中，λi为矩阵M的特征值，阈值Threshold由n来决定，具体为： S4、新词发现：利用余弦相似度的方法，来计算两个词wi，wj之间的相似度：依次计算相邻两个词之间的余弦相似度，将这个n个词产生的n-1个余弦相似度的值从大到小排列，将最大的n-k个值所对应的新词组合输出。

全文数据：

权利要求：

百度查询：北京工联科技有限公司一种基于词频矩阵特征向量计算文本中新词的方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种诱导阴地蕨孢子萌发、有效培养原叶体的培养基及方法_毕节市中药研究所_202310551441.X

下一篇：一种感染科医用防护用具回收设备_丰都县十直镇卫生院(丰都县十直镇计划生育服务站)_202210727764.5

相关技术

一种诱导阴地蕨孢子萌发、有效培养原叶体的培养基及方法_毕节市中药研究所_202310551441.X

一种感染科医用防护用具回收设备_丰都县十直镇卫生院(丰都县十直镇计划生育服务站)_202210727764.5

基于IPSO-CHRFA模型的海洋哺乳动物叫声分类方法_青岛科技大学_202410508360.6

一种可变任意尺寸模具的挤吹机及其挤吹工艺_晋江里弗兰新材料有限公司_202410445743.3

一种物联网设备自动化测试系统、方法、存储介质及设备_成都秦川物联网科技股份有限公司_202210603550.7

一种4-环己基-3-(三氟甲基)苯甲醇的制备方法_浙江工业大学_202211411775.9

一种冰醋酸中微量乙酸酐的检测方法_浙江圣兆药物科技股份有限公司_202211266952.9

烤烟烟叶面积的测量方法及系统_河南启迪睿视智能科技有限公司_202210505490.5

一种防治猪繁殖与呼吸道综合征的复方中药可溶性粉的制备方法和应用_广东海大集团股份有限公司_202211577992.5

促进多面板用户设备的不连续接收_诺基亚技术有限公司_201880095028.4

外肢体机器人作业策略半物理仿真方法及系统_山东大学_202111470212.2

一种间隔条浇灌胶质的装置_河南金拇指防水工程有限公司_202210302950.4

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】一种基于词频矩阵特征向量计算文本中新词的方法及系统_北京工联科技有限公司_202010776142.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务