首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于Kmeans聚类的数据分类方法、装置及电子设备 

申请/专利权人:和美(深圳)信息技术股份有限公司

申请日:2021-09-15

公开(公告)日:2024-05-14

公开(公告)号:CN113869380B

主分类号:G06F18/23213

分类号:G06F18/23213;G06N3/006;G06F18/241

优先权:

专利状态码:有效-授权

法律状态:2024.05.14#授权;2022.01.21#实质审查的生效;2021.12.31#公开

摘要:本申请涉及数据分类技术领域,公开了一种基于Kmeans聚类的数据分类方法、装置及电子设备,该方法包括:基于待分类数据获得初始化的种群;对种群进行遗传进化以获得下一代种群;基于下一代种群进行聚类操作,并基于聚类结果确定每个染色体对应的适应度,进而选出精英染色体;判断是否满足遗传算法终止条件,若是,则基于选出的精英染色体获得待分类数据的分类结果,否则继续对种群进行遗传进化。在遗传进化过程中增加了染色体长度变异,只需要随机选定初始的K值和质心,便能在遗传进化迭代过程中自动学习到最优的K值和K个质心,降低了初始值选择对聚类结果的影响,提高数据分类的准确性。

主权项:1.一种基于Kmeans聚类的数据分类方法,其特征在于,包括:步骤一、基于待分类数据获得初始化的种群S0,所述种群S0包括预设数量个染色体,每个染色体中的K个基因为从所述待分类数据中随机选取的K个数据,每个染色体对应的K等于为每个染色体随机确定的聚类数目;其中,所述待分类数据为文本数据、图像数据和音频数据中的任意一种数据;步骤二、对种群Sn进行遗传变异操作和选择操作,以获得下一代种群Sn+1,其中,n的初始值为0,所述遗传变异操作包括交叉变异、普通变异和染色体长度变异中的至少一种;步骤三、针对所述种群Sn+1中的每个染色体,以染色体中的K个基因为质心进行聚类操作以获得多个簇,基于每个簇的质心更新染色体中对应的基因,并基于所述多个簇确定染色体对应的适应度;步骤四、根据所述种群Sn+1中每个染色体对应的适应度,从所述种群Sn+1中选出精英染色体;步骤五、判断是否满足遗传算法终止条件,若是,则基于从所述种群Sn+1中选出的精英染色体对所述待分类数据进行聚类操作,以获得所述待分类数据的分类结果,否则n的值增加1并返回步骤二;所述染色体长度变异包括:根据所述种群Sn的规模和染色体长度变异率,确定需要进行染色体长度变异的目标数量,其中,染色体长度等于染色体包含的基因数量;根据所述种群Sn中的精英染色体对应的染色体长度,确定经过染色体长度变异后的目标长度;从所述待分类数据中,重新获得所述目标数量个染色体,其中,重新获得的染色体的长度等于所述目标长度;所述染色体长度变异率与遗传进化的世代数负相关;所述普通变异包括:针对染色体中每个基因对应的簇,根据簇内平均距离和簇内样本数,确定染色体中每个基因的基因质量;对于染色体中基因质量小于质量阈值的任一基因,从所述任一基因对应的簇中选择一个新的数据,用所述新的数据替换染色体中的所述任一基因;所述基于所述多个簇确定染色体对应的适应度,包括:基于染色体对应的多个簇,确定染色体对应的簇平均离散度、簇的个数和无效聚集数,其中,所述无效聚集数是指与最近邻簇之间的离散度小于预设阈值的簇的数量;根据染色体对应的簇平均离散度、簇的个数和无效聚集数,确定染色体对应的适应度;所述根据染色体对应的簇平均离散度、簇的个数和无效聚集数,确定染色体对应的适应度,包括:通过如下公式确定染色体对应的适应度f: 其中,DistBtnClusters表示平均簇间距离,DistInClusters表示平均簇内距离,表示簇平均离散度,I2表示簇的个数,I4表示无效聚集数;通过如下方式获得所述无效聚集数:针对通过聚类获得的任一簇,找出与所述任一簇距离最近的最近邻簇,确定所述任一簇的平均半径和所述最近邻簇的平均半径的半径之和,确定所述任一簇和所述最近邻簇的质心距离,根据所述质心距离和所述半径之和的比值确定所述任一簇和所述最近邻簇的离散度,若所述离散度小于预设阈值,则所述无效聚集数的数值增加1。

全文数据:

权利要求:

百度查询: 和美(深圳)信息技术股份有限公司 基于Kmeans聚类的数据分类方法、装置及电子设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。