【发明授权】面向用户多数据场景的频繁字符串的挖掘方法_中国海洋大学_202111488643.1

导航：龙图腾网> 最新专利技术> 面向用户多数据场景的频繁字符串的挖掘方法_中国海洋大学_202111488643.1

申请/专利权人：中国海洋大学

申请日：2021-12-07

公开（公告）日：2024-06-21

公开（公告）号：CN114153319B

主分类号：G06F3/023

分类号：G06F3/023;G06F40/216;G06F21/62

优先权：

专利状态码：有效-授权

法律状态：2024.06.21#授权;2022.03.25#实质审查的生效;2022.03.08#公开

摘要：本发明提供一种面向用户多数据场景的频繁字符串的挖掘方法，包括：1、对用户进行划分：将用户根据截断比划分为两个部分，一部分用于自适应前缀树的构建，另一部分用于加强结点支持值的一致性；2、初始化根节点，自顶向下构建自适应前缀树，应用轮子机制扰动数据并估计值不为‘’的结点对应前缀的频数；3、将所有的值为‘’的叶结点所对应的字符串加入备选集；4、将第二部分未参与前缀树构建的用户数据应用轮子机制，得到备选集中每一个字符串的频数估计；5、通过计算得出更为准确的备选集字符串的频数估计，根据频数估计对字符串进行排序，最终选出最频繁的字符串。

主权项：1.面向用户多数据场景的频繁字符串的挖掘方法，其特征在于，包括以下步骤：1、对用户进行划分：将用户根据截断比划分为两个部分，一部分用于自适应前缀树的构建，另一部分用于加强结点支持值的一致性；再将第一部分用户随机划分为若干个大小相等的组，用于每一轮自适应前缀树的构建；2、初始化根节点，自顶向下构建自适应前缀树，构建前缀树的每一轮过程如下：1用户端：a、设前缀树中所有未被访问的非叶子结点的数量为d，并将这些结点从0开始进行编号；从根结点的子结点到这些结点中的每一结点所经过的路径构成一个前缀，由此上述结点所对应前缀的数量也为d；b、为每一个用户建立一个空数组用于存放其数据；遍历该用户所拥有的所有字符串，若其中某字符串的前缀恰是上述d个前缀之一，则将该前缀对应结点的编号加入为该用户建立的数据数组中；c、利用轮子机制的randomizer对用户的数据进行加噪，randomizer会随机抽取一个或多个样本作为输出；d、用户将randomizer输出结果提交给服务端；2服务端：服务端统计在一组用户的输出中所有元素被抽取作为样本的次数；通过轮子机制的decoder根据统计数据得出对整个数据域的频数估计，即这些前缀的频数分布；若值不为‘’且其对应前缀的频数估计c′v≥θ，其中则标记该结点未被访问且非叶结点，并扩展这些结点；3、循环2中操作，当第一部分所有组用户均参与构建或没有需要扩展的结点之后，前缀树构建结束，将所有的值为‘’的叶结点所对应的字符串加入备选集；4、将第二部分未参与前缀树构建的用户数据应用轮子机制，得到备选集中每一个字符串的频数估计：1用户端：a、设备选集中字符串的数量为d，将其中的字符串从0开始编号；b、为每一个用户建立一个数据数组；遍历该用户拥有的每一个字符串，如果某字符串恰为备选集中的字符串，则将该字符串在备选集中的编号加入该用户的数据中；c、将该用户数据利用轮子机制的randomizer进行加噪，randomizer会随机抽取一个或多个样本作为输出；d、用户将randomizer输出结果提交给服务端；2服务端：服务端统计在这部分用户的输出中所有元素被抽取作为样本的次数；通过轮子机制的decoder根据统计数据得出对整个数据域的频数估计，即对应于备选集中每个字符串的频数分布；5、对于每个字符串的估计频数cv，作如下计算得到最终的备选集字符串的频数估计c′v：其中λ为用户的截断比；6、根据频数估计对字符串进行排序，最终选出最频繁的前k个字符串。

全文数据：

权利要求：

百度查询：中国海洋大学面向用户多数据场景的频繁字符串的挖掘方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种冰醋酸中微量乙酸酐的检测方法_浙江圣兆药物科技股份有限公司_202211266952.9

下一篇：一种搅拌式反应釜_江苏中特特种金属装备有限公司_202410183133.0

相关技术

一种冰醋酸中微量乙酸酐的检测方法_浙江圣兆药物科技股份有限公司_202211266952.9

一种搅拌式反应釜_江苏中特特种金属装备有限公司_202410183133.0

基于学生T过程的微带天线优化方法和优化系统_江苏科技大学_202111415452.2

一种固态电解质包覆的钴酸锂正极材料及其制备方法_英德市科恒新能源科技有限公司_202410408908.X

一种感染科医用防护用具回收设备_丰都县十直镇卫生院(丰都县十直镇计划生育服务站)_202210727764.5

AGV磁寻迹偏移量计算方法、存储介质及AGV_广东嘉腾机器人自动化有限公司_202111406161.7

一种便于安装的制粒切刀系统_创志科技(江苏)股份有限公司_202211619873.1

一种Invar合金焊丝及其制备、焊接方法_西安钢研功能材料股份有限公司_202311708375.9

一种双层保温日光温室_山东同岚农业发展集团有限公司_202410511060.3

一种汽车风窗玻璃试验中AB区的投射设备_中汽研汽车检验中心(武汉)有限公司_202410456408.3

一种低漏电流层积电容器的化成铝箔的处理工艺和层积电容器_肇庆绿宝石电子科技股份有限公司_202210484604.2

一种新能源汽车配件生产定位钻孔装置_西安翔凌汽车零部件有限公司_202210366932.2

频繁相关技术

基于蛋白质工程药物的不确定图数据频繁模式挖掘方法_湖南工程学院_202410427183.9

基于同边共点模式的不确定图数据频繁模式挖掘方法_湖南工程学院_202410427380.0

一种可频繁收放的耐弯折军用电缆_安徽电缆股份有限公司_202322677730.2

一种防止9FA联合循环机组余热锅炉防震梁频繁脱落的装置_福建晋江天然气发电有限公司_202323016914.0

颗粒捕集器频繁再生检测方法、发动机系统及工程设备_湖南道依茨动力有限公司_202210761438.6

一种基于最大频繁模式非相似性的异常网络流量检测方法_江苏大学_202210226905.5

一种基于轨迹聚类的分时段外卖配送频繁路线的挖掘方法、系统及设备_武汉理工大学_202410036417.7

基于频繁序列的路线推荐方法、装置和电子设备_北京金山云网络技术有限公司_201911211733.9

一种基于单关节超声征象预测频繁痛风发作的模型评价方法_青岛大学附属医院_202410096343.6

一种低开销的持续不频繁流精确识别架构及方法_长沙理工大学_202410261997.X

场景相关技术

步进式漫游场景制作方法_扬州市萤火虫网络科技有限公司_202410271696.5

虚拟场景的处理方法、装置、设备及存储介质_网易(杭州)网络有限公司_202011468282.X

一种场景识别方法及设备_深圳银星智能集团股份有限公司_202011293100.X

具有多安装场景的灯具与冰箱灯_厦门普为光电科技有限公司_202322916608.6

三维场景的烘焙方法和装置_网易(杭州)网络有限公司_202110523228.9

一种大场景视频拼接相机装置_杭州创业亿兴企业服务有限公司_202321151261.4

漫游场景下策略协商方法、装置及存储介质_中国联合网络通信集团有限公司_202211057881.1

ICN上HTTP场景中的HTTP响应故障转移_交互数字专利控股公司_202210118383.7

车位转换异常场景检测报警系统_义乌纵匀科技有限公司_202410397594.8

针对近-远场场景的定位增强_上海诺基亚贝尔股份有限公司_202180103880.3

字符串相关技术

电池串返修方法、替换电池串的制备方法及电池串_天合光能股份有限公司_202311577788.8

串扰评价方法以及执行其的串扰评价装置_三星显示有限公司_202311236186.6

一种包装钢印字符检测装置_上海波创电气有限公司_202410649978.4

焊带纠正装置和串焊机_天合光能股份有限公司_202322930030.X

一种串焊机膜带焊接装置_内蒙古晶澳太阳能光伏科技有限公司_202322811922.8

一种牡丹籽手串定位钻孔装置_洛阳万景祥牡丹产业科技有限公司_202323041976.7

一种组串式储能变流器_南京亚派科技股份有限公司_202322914828.5

一种船舶管路串油系统及方法_中船黄埔文冲船舶有限公司_202410270212.5

发光二极管混合灯串_邵树发_202410555415.9

探测器串扰确定方法、装置和设备_赛诺威盛科技(北京)股份有限公司_202410240973.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】面向用户多数据场景的频繁字符串的挖掘方法_中国海洋大学_202111488643.1

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务