首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

海量数据中基于后缀划分的高效用高占用比项集挖掘算法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:哈尔滨工业大学(威海)

摘要:本发明公开了海量数据中基于后缀划分的高效用高占用比项集挖掘算法,包括预处理阶段、项集挖掘阶段。预处理阶段包括后缀划分及垂直存储;项集挖掘阶段,依次将每个分区从磁盘读入内存,首先对1‑项集和2‑项集进行计算,判断其是否为高效用高占用比项集;对于长度大于2的项集,构建一个基于链表的双向栈结构存储分区中的拓展项集,再利用双向栈中的项构建一棵集合枚举树,在集合枚举树上按照深度优先搜索的顺序对项集进行遍历挖掘;同时根据支持度向下闭合属性、效用占用比向下闭合属性、3‑项集完全剪枝策略对项集进行剪枝,结合项集链接策略和剩余TID交叉计数策略进行挖掘。本发明有效解决了当前算法无法处理大规模数据集的问题。

主权项:1.海量数据中基于后缀划分的高效用高占用比项集挖掘算法,其特征在于,具体包括预处理和项集挖掘两个阶段,所述预处理阶段具体为根据后缀对数据集进行分区,并存储为垂直结构;所述项集挖掘阶段具体过程为:对长度不大于2的项集进行计算,直接计算其效用占用比并判断是否为高效用占用比项集,非高效用占用比项集直接剪枝;对长度大于2的项集,构建一个基于链表的双向栈结构存储分区中的拓展项,利用双向栈中的项构建集合枚举树,在集合枚举树上按照深度优先搜索顺序对项集进行遍历挖掘,根据支持度向下闭合属性、效用占用比向下闭合属性、3-项集完全剪枝策略对项集进行剪枝,并采用项集链接优化策略和剩余TID交叉计数优化策略进行挖掘;所述支持度向下闭合属性具体为:当分区的支持度上界小于预先设定的最小支持度阈值,则该分区无符合支持度阈值的高效用占用比项集,对该分区进行剪枝;当项集的支持度小于预先设定的最小支持度阈值,则该项集及其超集均不满足支持度阈值,对该项集及其超集进行剪枝;所述效用占用比向下闭合属性具体为:效用占用比上界的计算公式为: 其中,t是包含项集X的一个事务,ΓX是项集X的支持事务集,pat_tuX是项集X在分区中的事务效用值,tut是X所在的事务t的效用值,min_sup是预先设定的最小支持度阈值,n是数据集中事务的数量,uoX,t是项集X在事务t中的效用占用比,ruoX,t是项集X在事务t中的剩余效用占用比; 其中,x[j]表示项集X中的第j个项,ux[j],t表示项集X中第j项在事务t中的效用值,losX,t是X中最后一个项对应的下标,tut是X所在的事务t的效用值; 其中,t[j]表示事务t中的第j个项,ut[j],t表示事务t中第j个项的效用值,losX,t+1≤j≤w,losX,t+1是X的最后一个项的下一个项的下标,tut是X所在的事务t的效用值;当效用占用比上界小于预先设定的效用占用比阈值,则X及其超集都不满足效用占用比阈值,对项集X及其超集进行剪枝;当分区中第一项的效用占用比上界小于预先设定的效用占用比阈值,则该分区无符合效用占用比阈值的高效用占用比项集,对该分区进行剪枝;所述基于链表的双向栈结构包括基数序列和操作数序列;所述基于链表的双向栈结构存储过程包括:A、分区中的项按支持度降序排列,且载入内存中的每个项都是频繁的;B、分区中的第一个项被存储到基数序列中,后续其他项按顺序存储到操作数序列中;C、先将操作数序列中的项按降序自下而上放入到双向栈结构中,然后将基数序列中的项放入到双向栈结构中;D、至顶向下提取双向栈结构中的项,从双向栈结构输出的序列用于后续项集挖掘过程及剪枝过程中;所述基于项集链接优化策略具体为:挖掘一个长度大于3的项集时,将该项集链接到其先前分区中的祖先项集和当前分区中的父项集,得到祖先项集和父项集的支持度信息,祖先项集是频繁项集,则对祖先项集和父项集二者的tid列表进行交叉计数,得到该项集的支持度并判断是否生成并计算该项集;祖先项集或父项集非频繁,则可以在集合枚举树中对该项集及其超集进行剪枝;祖先项集:若X是一个长度大于3的项集,X={X[1],X[2],…,X[l]},X[l是项集X中的最后一个项,项集X的祖先项集={X[1],X[2],…,X[l-1]}=X-X[l],其包含项集X的前l-1个项;父项集:若X是存储在集合枚举树中的一个项集,存储在X的父节点上的项集被称为X的父项集;所述基于剩余TID交叉计数优化策略具体处理过程包括:步骤2.1:初始化ind1和ind2分别指向tid_listXa和tid_listXb的第一个元素,其中ind是一个指向项集中某个项位置的索引;步骤2.2:对剩余tid上界ΘXab进行初始化,ΘXab=min{|tid_listXa|,|tid_listXb|}-min_sup×n,其中n是数据集中事务的数量,min_sup是最小支持度阈值,|tid_listXa|表示项集Xa对应的tid列表的长度,|tid_listXb|表示项集Xb对应的tid列表的长度,且|tid_listXa|≥tid_listXb|;步骤2.3:判断ΘXab的大小,ΘXab0,则不需要进行交叉计数操作,直接对Xab及其超集进行剪枝;ΘXab≥0,则进行交叉计数操作;步骤2.4:在进行交叉计数过程中,比较ind1和ind2指向的tid,tidind1表示ind1索引指向的tid,tidind2表示ind2索引指向的tid:1tidind1=tidind2,则说明索引指向的tid是tid_listXa和tid_listXb二者交集中的一个元素,于是将该索引指向的公共tid存入tid_listXab中,ind1和ind2分别向后移动一位;2tidind1tidind2,则ind1向后移动一位;3tidind1tidind2,则ΘXab-1;步骤2.5:重复循环步骤2.4,直到ΘXab0或ind1和ind2二者其一指向了tid_list集合的末尾,则交叉计数过程结束;然后根据tid_listXab集合的大小判断项集Xab的支持度是否满足阈值,若Xab频繁则继续计算其效用占用比,否则直接对Xab及其超集进行剪枝;所述3-项集完全剪枝策略具体为:在以项i为后缀项的分区Pi中,双向栈结构列表Pi={a,b,c,…,m}是一个包含m个项的项列表,通过简单的序列扫描挖掘所有的1-项集和2-项集,由于得到1-项集和2-项集都是频繁的,因此可直接计算其效用占用比并判断是否为高效用占用比项集;通过结合两个2-项集来生成一个3-项集,但在生成3-项集前判断它所有2-子集是否频繁,若不是可直接跳过该候选集;结合深度优先的集合枚举树对运行实例中的长度为3及其以上的项集进行挖掘。

全文数据:

权利要求:

百度查询: 哈尔滨工业大学(威海) 海量数据中基于后缀划分的高效用高占用比项集挖掘算法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术