首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于等价类结构的数据间函数依赖关系挖掘方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:哈尔滨工业大学(威海)

摘要:本发明属于数据处理技术领域,具体涉及一种基于等价类结构的数据间函数依赖关系挖掘方法。该方法包括:步骤1,遍历每列数据,获得等价类结构;对原始数据集进行重构,主要分为去除属性、属性重排序和压缩取值;步骤2,对元组对进行伪随机采样,比较样本,生成非函数依赖,并在满足停止条件时停止,然后在FD‑tree结构上对非函数依赖进行归纳操作,得到候选函数依赖项;步骤3,对FD‑tree结构中的候选函数依赖项进行验证,将候选项进行分组,每个分组对应一个属性的等价类结构,按属性排序的倒序,使用相应等价类结构对分组中的候选项进行验证。本发明的方法能够高效快速地求得给定数据实例的函数依赖关系。

主权项:1.一种基于等价类结构的数据间函数依赖关系挖掘方法,其特征在于,包括:步骤1,遍历每列数据,获得等价类结构;对原始数据集进行重构,主要分为去除属性、属性重排序和压缩取值;所述去除属性具体为:删除等价属性和常量属性两类属性;对于一组等价属性,只保留其中的一个;对于常量属性,全部删除;所述属性重排序具体为:求取剩余属性的基数,将剩余属性按基数从大到小进行排序;所述压缩取值具体为:将原本多类型的数据转化为整数形式;在同一属性下,具有相同取值的元组被映射到同一编号;等价类结构具体为一种针对数据集中的每个属性,依据各个元组的取值对元组进行重排序形成的数据结构;等价类结构通过数据重划分操作得到,一个属性对应一个等价类,一个等价类由多个分区组成,每个分区中的元组在对应属性上取值相等;步骤2,对元组对进行伪随机采样,比较样本,生成非函数依赖,并在满足停止条件时停止;然后在FD-tree结构上对非函数依赖进行归纳操作,得到候选函数依赖项;函数依赖是关系数据库中蕴含数据间语义关系的一种元数据,描述了数据的不同属性之间的相互依赖关系;步骤3,对FD-tree结构中的候选函数依赖项进行验证,将候选项进行分组,每个分组对应一个属性的等价类结构,按属性排序的倒序,使用相应等价类结构对分组中的候选项进行验证;候选项分组的具体方法为:对于一个左部表示为lhs的函数依赖,它位于子树上,位于该子树上的函数依赖被分成一组;候选项验证的具体方法为:对于每个分区,估计哈希验证和元组对验证的计算量,并选取计算量较少的方式进行验证;哈希验证采用哈希映射进行验证,将函数依赖的左部作为哈希键,右部作为哈希值,函数依赖是否成立等价于哈希表中是否存在冲突;元组对验证将一子树看作整体,通过比较分区中的元组对,对子树中的所有候选项同时进行验证。

全文数据:

权利要求:

百度查询: 哈尔滨工业大学(威海) 一种基于等价类结构的数据间函数依赖关系挖掘方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。