【发明授权】基于归一化词频权重的特征选择方法_不亦乐乎有朋(北京)科技有限公司_202110758265.8

导航：龙图腾网> 最新专利技术> 基于归一化词频权重的特征选择方法_不亦乐乎有朋(北京)科技有限公司_202110758265.8

申请/专利权人：不亦乐乎有朋(北京)科技有限公司

申请日：2021-07-05

公开（公告）日：2024-06-21

公开（公告）号：CN113657106B

主分类号：G06F40/284

分类号：G06F40/284;G06F40/216;G06F18/211;G06F18/214;G06F18/2411;G06F18/2415

优先权：

专利状态码：有效-授权

法律状态：2024.06.21#授权;2024.06.11#专利申请权的转移;2024.04.26#专利申请权的转移;2021.12.03#实质审查的生效;2021.11.16#公开

摘要：本发明公开一种基于归一化词频权重的特征选择方法，提取特征词在每篇文档中的词频并使用对率函数对其进行归一化处理，实现文档频率层面的词频加权。与此同时，本发明使用反正切归一化方法对MMR算法中最大最小比率部分进行处理，避免出现全局得分过大、与特征词的实际类别分辨能力不符的问题。实验结果显示本发明性能良好，提高了学习算法的执行效率以及分类结果的正确率，是可靠的特征选择算法。

主权项：1.基于归一化词频权重的特征选择方法，其特征在于，具体按照以下步骤实施：步骤1、选取拥有不同文档数量、类别数量以及包含不同特征词个数的文本类型数据集，对数据集进行预处理并划分出训练集和测试集；步骤2、设置最终选择出的特征子集的元素个数为C，首先使用特征排序函数计算训练集中所有出现的特征词的得分，根据得分情况对特征词进行降序排列，选择排名为前C的特征词作为最优特征子集的元素，根据最优特征子集分别对训练集和测试集数据进行降维处理；所述步骤2具体按照以下步骤实施：步骤2.1、计算训练集数据特征词的加权真正率wtpr以及加权假正率wfpr；步骤2.2、计算训练集数据特征词的反正切归一化因子atanfac以及正类影响因子poski；步骤2.3、计算特征词ti的全局得分NTWFSti，得到带有权值的特征词集合；步骤2.4、根据每个特征词的全局得分对训练集的所有特征进行降序排序，选择排名为前C的特征词构成最优特征子集；步骤2.5、根据步骤2.4得到的最优特征子集分别对训练集文档和测试集文档进行处理，完成对训练集和测试集数据的降维操作；所述步骤2.1具体按照以下步骤实施：步骤2.1.1、使用对率函数将特征词ti在文档dj中出现的频率tfij进行归一化处理，得到归一化词频权重Logistictfij，如公式1所示，其中，tfij表示特征词ti在文档dj中出现的次数；步骤2.1.2、根据公式2和3计算特征词ti在Ck类中的加权真正率wtpr，其中，N为数据集的文档总数，Nk为类Ck中的文档总数，k表示类别序号，Iposdj，Ck用来判断文档dj是否属于类Ck，当文档dj属于类Ck时Iposdj，Ck为1，反之为0；步骤2.1.3、根据公式4和5计算特征词ti在类中的加权假正率wfpr，其中，用来判断文档dj是否属于非Ck类，当文档dj属于非Ck类时为1，反之为0；所述步骤2.2具体按照以下步骤实施：步骤2.2.1、利用反正切函数对最大最小比率因子进行归一化，得到反正切归一化因子atanfac，如公式6所示，步骤2.2.2、根据公式7计算特征词ti的正类影响因子poski，其中，tp表示在类ck中特征词ti出现的文档数量，fn表示在类ck中特征词ti没有出现的文档数量，fp表示非ck类中特征词ti出现的文档数量，tn表示在非ck类中特征词ti没有出现的文档数量；所述步骤2.3具体为，根据公式8计算特征词ti的全局得分NTWFSti，得到带有权值的特征集合：其中，k表示类别编号，PCk表示属于类Ck的文档数量在整个数据集中所占的比例；当minwtpr，wfpr为0时，atanfac值为1；步骤3、利用步骤2得到的训练集分别对朴素贝叶斯分类器和支持向量机分类器进行训练，使用训练出的分类模型对经步骤2处理后的测试集文档的类别进行预测，完成分类操作；步骤4、利用Macro-F1和Micro-F1评估指标对分类器的分类效果进行评估。

全文数据：

权利要求：

百度查询：不亦乐乎有朋(北京)科技有限公司基于归一化词频权重的特征选择方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种裁床警示镜自动装配机_广东元一科技实业有限公司_202211629661.1

下一篇：数据处理方法、装置、电子设备及存储介质_小红书科技有限公司_202311645889.4

相关技术

一种裁床警示镜自动装配机_广东元一科技实业有限公司_202211629661.1

数据处理方法、装置、电子设备及存储介质_小红书科技有限公司_202311645889.4

基于多模块组合的应用程序越权漏洞检测方法及系统_深圳开源互联网安全技术有限公司_202410023783.9

用于提供更新的机器学习算法的系统和方法_西门子医疗有限公司_202311623232.8

一种油溶性石墨烯的制备方法_重庆烯达科技有限公司_202410279749.8

升降销硬止动件_朗姆研究公司_202280073752.3

一种通过拖拽组件布局页面的方法_深圳市禾望电气股份有限公司_202410181714.0

一种电解水制氢异质结催化剂的制备及其应用_昆明理工大学_202410334678.7

一种自润滑长寿命硬质合金串珠及其制备方法和应用_郑州机械研究所有限公司_202311466192.0

一种高定向度W波段单定向耦合器_苏州伏波电子科技有限公司_202211653060.4

一种硅光器件及制造方法_上海集成电路研发中心有限公司_202211648345.9

对准失真的图像_ASML荷兰有限公司_202280075359.8

词频相关技术

一种基于聚类和词频加权的模糊匹配算法_中国航空工业集团公司西安航空计算技术研究所_202311833817.2

一种基于词频统计的土石坝溃坝风险贝叶斯模型分析方法_水利部交通运输部国家能源局南京水利科学研究院_202311270877.8

一种区块链可验证关键词频次查询方法、装置及存储设备_长沙理工大学_202410025379.5

一种基于词频和逆文档频率的精准匹配硬件日志分类方法_电子科技大学_202311799305.9

一种基于词频矩阵特征向量计算文本中新词的方法及系统_北京工联科技有限公司_202010776142.2

字词频度统计方法及装置_江苏瑞宁信创科技有限公司_202311638509.4

基于词频逆文档频率和最大曲率点的实体解析分块方法_郑州轻工业大学_202311230477.4

字词频度统计方法及装置_江苏瑞宁信创科技有限公司_202311638509.4

一种基于词频统计的土石坝溃坝风险贝叶斯模型分析方法_水利部交通运输部国家能源局南京水利科学研究院_202311270877.8

基于词频与逆文档频率的工控系统异常诊断信息识别方法_中国南方电网有限责任公司超高压输电公司昆明局_202010733364.6

权重相关技术

模拟数字转换器装置与电容权重修正方法_瑞昱半导体股份有限公司_202010066277.X

一种自适应权重的多视图判别方法_仲恺农业工程学院_202111218365.8

基于鉴别性权重自注意力学习的皮损图像分类方法及系统_中南大学湘雅医院_202410393062.7

基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法_绍兴文理学院_202011456347.9

基于归一化词频权重的特征选择方法_不亦乐乎有朋(北京)科技有限公司_202110758265.8

一种基于权重矩阵的干燥机群调度优化算法_东北电力大学_202410155140.X

多语言词权重分析模型的训练方法、装置、设备及介质_北京小米移动软件有限公司_202211643907.0

一种基于硅基光神经网络权重矩阵数据处理方法及系统_西湖大学光电研究院_202410504313.4

一种基于地址的单字权重统计方法_浙江工业大学_202010708537.9

用于帧内预测融合的多参考线的权重推导_腾讯美国有限责任公司_202280073025.7

特征相关技术

一种特征冗余性分析方法、特征选择方法和相关装置_北京京东尚科信息技术有限公司_201810299340.7

带生物特征签名验证的笔_亚尼夫·科恩_202280074870.6

一种基于微分频域特征的浮选过程关联泡沫图像特征选择方法_中南大学_202310526456.0

经由增强现实（AR）传递的地图特征_移动眼视觉科技有限公司_202280075298.5

多维特征融合ISAR质量评估系统及其方法_西安电子科技大学_202410643543.9

基于变换特征的视频融合方法及系统_智慧互通科技股份有限公司_202410055310.7

一种心电图图像特征提取方法_中国人民解放军空军军医大学_202410634217.1

一种特征可视化方法及装置_华为云计算技术有限公司_202211595387.0

用于圆形外科缝合器的组织稳定特征部_西拉格国际有限公司_202280075378.0

一种特征比对方法、装置及系统_浙江大华技术股份有限公司_202110835742.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】基于归一化词频权重的特征选择方法_不亦乐乎有朋(北京)科技有限公司_202110758265.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务