首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于头脑风暴优化算法的中文网页分类方法_陕西师范大学_201910895749.X 

申请/专利权人:陕西师范大学

申请日:2019-09-21

公开(公告)日:2023-04-14

公开(公告)号:CN110597996B

主分类号:G06F16/35

分类号:G06F16/35;G06F16/31

优先权:

专利状态码:有效-授权

法律状态:2023.04.14#授权;2020.01.14#实质审查的生效;2019.12.20#公开

摘要:本发明公开了一种基于头脑风暴优化算法的中文网页分类方法。该方法包括:对中文文档进行分词,并根据词频建立中文文档的单词索引;根据中文文档的单词索引,建立中文文档分词向量;采用头脑风暴优化算法,对中文文档分类算法的性能和参数进行优化;采用头脑风暴优化算法,对中文文档分类算法训练集的样本选择和样本数目进行优化;根据优化后的中文文档分类算法,对中文文档进行分类;并采用头脑风暴优化算法,对中文文档的分类结果和分类效率进行优化。本发明将头脑风暴优化算法和分类算法进行结合,对分类算法和数据训练集的选择进行优化,可以提高分类效率和分类正确率,从而优化了最终推荐结果。

主权项:1.一种基于头脑风暴优化算法的中文网页分类方法,其特征在于,包括:对中文文档进行分词,并根据词频建立中文文档的单词索引;根据中文文档的单词索引,建立中文文档分词向量;采用头脑风暴优化算法,对中文文档分类算法的性能和参数进行优化;采用头脑风暴优化算法,对中文文档分类算法训练集的样本选择和样本数目进行优化;根据优化后的中文文档分类算法,对中文文档进行分类;所述中文文档分类算法包括:k最近邻算法、k加权最近邻算法;所述采用头脑风暴优化算法,对中文文档分类算法的性能和参数进行优化;具体包括:对于k最近邻算法,中文文档分类算法的性能优化如下: 其中,y'为最大预测样本值;v是类别标记;yi是根据最近样本得到的类别,如果分类相同I·为1,否则为0;xi为第i个词组;对于k最近邻算法,中文文档分类算法的参数优化如下:将k作为优化决策变量,设定初步优化目标函数: 将不同的k取值作为解,将分类的错误率作为函数值;所述采用头脑风暴优化算法,对中文文档分类算法训练集的样本选择和样本数目进行优化;具体包括:对于k最近邻算法,中文文档分类算法训练集的样本数目优化如下:将k和每个类别的训练样本数目ni作为优化决策变量,设定初步优化目标函数: 其中,N={n1,...ni,...nm},m为分类的总类别数,ni为类别i的训练样本数目;将不同的k和N的取值作为解,将分类的错误率作为函数值;对于k最近邻算法,中文文档分类算法训练集的样本选择优化如下:将k和每个类别的训练样本Xt作为优化决策变量,设定初步优化目标函数: 其中,m为分类的总类别数,ni为类别i的训练样本数目,Xti,1表示类别i的第一个训练样本;将不同的k和Xt的取值作为解,将分类的错误率作为函数值。

全文数据:

权利要求:

百度查询: 陕西师范大学 一种基于头脑风暴优化算法的中文网页分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。