买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:东营友信软件有限公司
摘要:本发明公开了一种基于需求分析的互联网数据流自动采集方法及系统,涉及信息获取技术领域。包括:信息获取:获取用户的搜索交互记录,得到交互次数集,交互次数集中至少包含一个交互次数项,并基于交互次数集分别获取交互次数项的浏览时间,得到浏览时间集;范围划分:将交互次数集以及浏览时间集分别至少划分两个范围,并基于归类方式将交互次数集以及浏览时间集对应的数据分别归类至目标范围内。本发明将用户的交互次数范围以及浏览时间范围相结合,根据结果划分的优先级设定搜索交互与浏览时间之间的对照关系,对应采集搜索交互与浏览时间之间的对照关系划分结果相匹配的数据流,从而可实现对用户兴趣的精确分析。
主权项:1.一种基于需求分析的互联网数据流自动采集方法,其特征在于:包括:信息获取:获取用户的搜索交互记录,得到交互次数集,交互次数集中至少包含一个交互次数项,并基于交互次数集分别获取交互次数项的浏览时间,得到浏览时间集;范围划分:将交互次数集以及浏览时间集分别至少划分两个范围,并基于归类方式将交互次数集以及浏览时间集对应的数据分别归类至目标范围内,得到至少两个次数范围集以及至少两个时间范围集;数据提取:基于次数范围集以及时间范围集,通过提取方式对相应的数据进行采集,得到需求数据;所述提取方式包括:步骤一:优先级划分,分别对次数范围集和时间范围集进行优先级划分排序,分别得到次数排序集和时间排序集,次数排序集至少包含两个次数范围集,时间排序集至少包含两个时间范围集,并基于次数排序集和时间排序集分别对次数范围集以及时间范围集进行优先级标号;步骤二:范围结合,将次数排序集与时间排序集结合,得到至少一个结果合并集,结果合并集至少包含两个次数范围集与两个时间范围集的互相组合结果,并基于优先级标号对组合结果进行排序,得到结果排序集;步骤三:结果提取,基于结果排序集,判断互相组合结果中的数据存在方式,当数据只存在于次数排序集内但不存在于时间排序集内时,提取结果排序中的目标阈值数据作为需求数据,当数据同时存在于次数排序集和时间排序集内时,优先提取目标数据作为第一数据,并提取结果排序中余下数据的目标阈值数据作为第二数据,第一数据与第二数据组合为需求数据,当数据只存在于时间排序集内但不存在于此时排序集内时,同样提取结果排序中的目标阈值数据作为需求数据。
全文数据:
权利要求:
百度查询: 东营友信软件有限公司 一种基于需求分析的互联网数据流自动采集方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。