首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】面向用户多数据场景的频繁字符串的挖掘方法_中国海洋大学_202111488643.1 

申请/专利权人:中国海洋大学

申请日:2021-12-07

公开(公告)日:2024-06-21

公开(公告)号:CN114153319B

主分类号:G06F3/023

分类号:G06F3/023;G06F40/216;G06F21/62

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2022.03.25#实质审查的生效;2022.03.08#公开

摘要:本发明提供一种面向用户多数据场景的频繁字符串的挖掘方法,包括:1、对用户进行划分:将用户根据截断比划分为两个部分,一部分用于自适应前缀树的构建,另一部分用于加强结点支持值的一致性;2、初始化根节点,自顶向下构建自适应前缀树,应用轮子机制扰动数据并估计值不为‘’的结点对应前缀的频数;3、将所有的值为‘’的叶结点所对应的字符串加入备选集;4、将第二部分未参与前缀树构建的用户数据应用轮子机制,得到备选集中每一个字符串的频数估计;5、通过计算得出更为准确的备选集字符串的频数估计,根据频数估计对字符串进行排序,最终选出最频繁的字符串。

主权项:1.面向用户多数据场景的频繁字符串的挖掘方法,其特征在于,包括以下步骤:1、对用户进行划分:将用户根据截断比划分为两个部分,一部分用于自适应前缀树的构建,另一部分用于加强结点支持值的一致性;再将第一部分用户随机划分为若干个大小相等的组,用于每一轮自适应前缀树的构建;2、初始化根节点,自顶向下构建自适应前缀树,构建前缀树的每一轮过程如下:1用户端:a、设前缀树中所有未被访问的非叶子结点的数量为d,并将这些结点从0开始进行编号;从根结点的子结点到这些结点中的每一结点所经过的路径构成一个前缀,由此上述结点所对应前缀的数量也为d;b、为每一个用户建立一个空数组用于存放其数据;遍历该用户所拥有的所有字符串,若其中某字符串的前缀恰是上述d个前缀之一,则将该前缀对应结点的编号加入为该用户建立的数据数组中;c、利用轮子机制的randomizer对用户的数据进行加噪,randomizer会随机抽取一个或多个样本作为输出;d、用户将randomizer输出结果提交给服务端;2服务端:服务端统计在一组用户的输出中所有元素被抽取作为样本的次数;通过轮子机制的decoder根据统计数据得出对整个数据域的频数估计,即这些前缀的频数分布;若值不为‘’且其对应前缀的频数估计c′v≥θ,其中则标记该结点未被访问且非叶结点,并扩展这些结点;3、循环2中操作,当第一部分所有组用户均参与构建或没有需要扩展的结点之后,前缀树构建结束,将所有的值为‘’的叶结点所对应的字符串加入备选集;4、将第二部分未参与前缀树构建的用户数据应用轮子机制,得到备选集中每一个字符串的频数估计:1用户端:a、设备选集中字符串的数量为d,将其中的字符串从0开始编号;b、为每一个用户建立一个数据数组;遍历该用户拥有的每一个字符串,如果某字符串恰为备选集中的字符串,则将该字符串在备选集中的编号加入该用户的数据中;c、将该用户数据利用轮子机制的randomizer进行加噪,randomizer会随机抽取一个或多个样本作为输出;d、用户将randomizer输出结果提交给服务端;2服务端:服务端统计在这部分用户的输出中所有元素被抽取作为样本的次数;通过轮子机制的decoder根据统计数据得出对整个数据域的频数估计,即对应于备选集中每个字符串的频数分布;5、对于每个字符串的估计频数cv,作如下计算得到最终的备选集字符串的频数估计c′v: 其中λ为用户的截断比;6、根据频数估计对字符串进行排序,最终选出最频繁的前k个字符串。

全文数据:

权利要求:

百度查询: 中国海洋大学 面向用户多数据场景的频繁字符串的挖掘方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。