首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

用于海量数据分类的网格聚类方法、系统及用户推荐方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中南大学

摘要:本发明公开了一种用于海量数据分类的网格聚类方法,包括获取待分类的海量数据并归一化处理构建待分类数据集;计算待分类数据集所对应的数据空间的参数信息并进行网格划分和聚类;再次进行子空间划分并生成对应的空间划分树;对叶子节点和非叶子节点聚类得到聚类结果;根据聚类结果完成对待分类的海量数据的网络聚类。本发明还公开了一种实现所述用于海量数据分类的网格聚类方法的系统,以及包括了所述用于海量数据分类的网格聚类方法的用户推荐方法。本发明通过对数据空间的划分、子空间的划分以及空间化分树的叶子节点和非叶子节点的单独划分策略,不仅能够实现了用于海量数据分类的网格聚类,而且可靠性更高、精确性更好、效率更高。

主权项:1.一种用户推荐方法,其特征在于具体包括如下步骤:A:获取待聚类的社交网络数据;B:采用用于海量数据分类的网格聚类方法,对获取的社交网络数据进行聚类;C:根据步骤B得到的聚类结果,进行社区发现、社团属性挖掘和小世界网络分析;D:根据步骤C得到的结果,完成社交网络的聚类,并进行用户推荐;其中,所述的用于海量数据分类的网格聚类方法,包括如下步骤:S1.将步骤A获取的待聚类的社交网络数据,作为待分类的海量数据;S2.对步骤S1获取的数据进行归一化处理后,构建待分类数据集;S3.计算步骤S2得到的待分类数据集所对应的数据空间的参数信息,并根据计算得到的参数信息对数据空间进行网格划分和聚类;具体包括如下步骤:设定半径阈值,采用如下算式计算得到网格宽度:式中width为网格宽度;d为数据维度;根据得到的网格宽度width,将数据空间的每个维度均平均划分为l等份,得到由个超立方体网格组成的网格空间;l的计算式为,为向上取整函数;将归一化处理后的数据点,根据自身的坐标位置加入到对应的网格中;对于任意一个网格g,用四元组表示;为网格g的坐标;为网格g内各个点的坐标的线性和;为网格g的内部密度,,表示网格g内点的数量;为网格g的外部密度;对于任意两个网格g和网格h,采用如下算式计算网格距离:式中为网格g和网格h之间的网格距离,为网格h的内部密度;为网格g内各个点的坐标在第k维度的线性和;为网格h内各个点的坐标在第k维度的线性和;对于网格h,采用如下算式计算得到网格h对网格g的密度影响:式中为网格h对网格g的密度影响;对于网格g,设定网格g的外部密度为网格g附近范围内的所有邻近网格对网格g的密度影响的和,计算式表示为:式中为网格g附近范围内的所有邻近网格的集合;计算得到网格g的网格密度为;根据计算得到的网格密度信息,设定核心网格和边缘网格的划定规则:核心网格:若一个非空网格的网格密度大于或等于设定阈值minPts,则将该非空网格作为核心网格;边缘网格:若一个非空网格的网格密度小于设定阈值minPts,则将该非空网格作为边缘网格;所有核心网格组成核心网络集,所有边缘网格组成边缘网络集合;根据得到的核心网络和边缘网络以及网络与网络之间的距离,采用如下规则对数据空间进行网格聚类:规则1:一个类中至少包括一个核心网格;规则2:网格距离小于或等于半径阈值的核心网格,归于同一个类;规则3:核心网格具有传导性质:若核心网格与核心网格的网格距离小于或等于半径阈值,且核心网格与核心网格的网格距离小于或等于半径阈值,则核心网格和核心网格归于同一个类;规则4:边缘网格归于距离其半径阈值内的核心网格所在的类;若边缘网格的半径阈值内有至少2个核心网格,则边缘网格归于所有核心网格中网格密度最大的核心网格所在的类;规则5:若边缘网格的半径阈值内没有核心网格,则将该边缘网格作为噪音网格;S4.将步骤S3得到的划分和聚类后的网格空间,再次进行子空间划分,并生成对应的空间划分树;包括如下步骤:定义切面邻居网格:对于网格空间G,用切面F将网格空间G切分为两个子网格空间,表示为第一子网格空间和第二子网格空间;与切面F存在相切面的网格称为切面F的邻居网格;落在第一子网格空间中的邻居网格为的切面邻居网格,落在第二子网格空间中的邻居网格为的切面邻居网格;设定如下划分规则,对网格空间进行子空间划分,并生成对应的空间划分树:规则a:对于任意一个非叶子节点GG所代表的子网格空间,先从该子网格空间中随机挑选若干个维度,并从挑选的维度中选择最长的维度作为被划分维度;从被划分维度的中间位置将该子网格空间划分为更小的两个子网格空间和,并将得到子网络空间作为非叶子节点GG的左孩子节点,将得到的子网格空间作为非叶子节点GG的右孩子节点;规则b:若非叶子节点GG被切面F划分为两个子网格空间和,则记录切面F的所有切面邻居网格:落在子网格空间中的切面邻居网格构成集合,落在子网格空间中的切面邻居网格构成集合;将切面F的位置信息、集合和集合保存在非叶子节点GG中;规则c:对于落在集合中的各个网格,计算各个网络来自集合中的外部密度,并将对应的网格传递到非叶子节点GG的左孩子节点;对于落在集合中的各个网格,计算各个网络来自集合中的外部密度,并将对应的网格传递到非叶子节点GG的右孩子节点;用根节点表示整个网格空间,并根节点递归的对各个非叶子节点,通过规则a~规则c进行非叶子节点的划分,直至满足递归终止条件;此时,整个网格空间中的网格被保存到各个叶子节点中,各个非叶子节点仅保存切面信息和切面邻居网格信息;最终,完成子空间的划分以及空间划分树的生成;所述的递归终止条件,具体包括如下条件:条件1:节点空间中的网格数量小于或等于设定阈值;条件2:节点在空间划分树中的深度达到设定阈值;递归终止条件为:若满足条件1或满足条件2,则递归终止;S5.对步骤S4得到的空间划分树的叶子节点和非叶子节点进行聚类,得到聚类结果;S6.根据步骤S5得到的聚类结果,完成对待分类的海量数据的网络聚类。

全文数据:

权利要求:

百度查询: 中南大学 用于海量数据分类的网格聚类方法、系统及用户推荐方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。