首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

数据处理方法及系统、计算机系统和计算机可读存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司

摘要:本公开提供了一种数据处理方法,包括:获取操作数样本,其中,操作数样本中包含多个用户操作对象而产生的操作数据;根据包含在操作数样本中的操作数据,确定多个用户的属性信息,其中,属性信息用于表征不同用户在交易对象时所表现出来的区别特征;以及根据确定出的多个用户的属性信息,对操作数样本所涉及的多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,其中,每个用户数据样本中包含有对多个用户分流后得到的至少一个用户的用户信息。本公开还提供了一种数据处理系统、计算机系统和计算机可读存储介质。

主权项:1.一种数据处理方法,包括:获取操作数样本,其中,所述操作数样本中包含多个用户操作对象而产生的操作数据;根据包含在所述操作数样本中的所述操作数据,确定所述多个用户的属性信息,其中,所述属性信息用于表征不同用户在交易对象时所表现出来的区别特征;以及根据确定出的所述多个用户的属性信息,对所述操作数样本所涉及的所述多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,其中,每个所述用户数据样本中包含有对所述多个用户分流后得到的至少一个用户的用户信息;其中,所述根据确定出的所述多个用户的属性信息,对所述操作数样本所涉及的所述多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,包括:根据所述多个用户的属性信息将多个用户进行分类,得到N类用户组,N1;从每一类用户组中确定预设数量的用户;以及将每一类用户组中确定出来的用户组合成一个用户数据样本。

全文数据:数据处理方法及系统、计算机系统和计算机可读存储介质技术领域本公开涉及计算机技术领域,更具体地,涉及一种数据处理方法及系统、计算机系统和计算机可读存储介质。背景技术随着计算机技术的快速发展,业界对通过数据处理模型处理数据的有效性要求也越来越高,而对数据处理模型处理数据的有效性进行测试可以了解一个数据处理模型的实际应用或者数据处理能力是否满足有效性要求。为了实现对数据处理模型的有效性进行测试,相关技术中采用随机分配的方式对多个用户进行分流处理,得到多个测试组,并将分流得到的多个测试组用于数据处理模型中测试。例如,对多个用户进行随机分组,得到A组测试组和B组测试组,将A组测试组和B组测试组分别用于测试相同或不同的数据处理模型,可以得到相应的测试结果,通过对A组测试组和B组测试组的测试结果进行比较,可以实现对数据处理模型的有效性进行测试。在实现本公开构思的过程中,发明人发现相关技术中至少存在如下问题:相关技术中基于随机分配的测试分组对比方法容易使得数据处理模型的测试结果出现异常,特别是在流量小且用户较为集中的应用场景,现有的随机分配方案极有可能将大量的优质用户随机指定到一组,从而导致测试结果出现异常。发明内容有鉴于此,本公开提供了一种数据处理方法及系统、计算机系统和计算机可读存储介质。本公开的一个方面提供了一种数据处理方法,包括获取操作数样本,其中,上述操作数样本中包含多个用户操作对象而产生的操作数据;根据包含在上述操作数样本中的上述操作数据,确定上述多个用户的属性信息,其中,上述属性信息用于表征不同用户在交易对象时所表现出来的区别特征;以及根据确定出的上述多个用户的属性信息,对上述操作数样本所涉及的上述多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,其中,每个上述用户数据样本中包含有对上述多个用户分流后得到的至少一个用户的用户信息。根据本公开的实施例,根据包含在上述操作数样本中的上述操作数据,确定上述多个用户的属性信息包括从上述操作数样本中获取上述操作数据;根据上述操作数据,按照第一预设算法计算上述多个用户的活跃度,其中,上述活跃度用于表征用户操作对象的活跃程度;以及根据活跃度计算结果,确定上述多个用户的属性信息。根据本公开的实施例,上述方法还包括根据上述操作数据,按照第二预设算法计算上述多个用户的交易评分,其中,上述交易评分用于表征用户交易对象的能力;以及根据交易评分计算结果和上述活跃度计算结果,确定上述多个用户的属性信息。根据本公开的实施例,根据交易评分计算结果和上述活跃度计算结果,确定上述多个用户的属性信息包括根据上述活跃度计算结果,将上述多个用户按预定数量的类别进行分类,以为上述多个用户中的每个用户标记相应的第一类别标识;根据上述交易评分计算结果,将上述多个用户按上述预定数量的类别进行分类,以为上述多个用户中的每个用户标记相应的第二类别标识;以及根据为上述每个用户标记的相应的第一类别标识和第二类别标识,确定上述每个用户的属性信息。根据本公开的实施例,根据包含在上述操作数样本中的上述操作数据,确定上述多个用户的属性信息包括按照预定规则对上述操作数样本中包含的上述操作数据进行过滤,以得到符合上述预定规则的有效操作数据;以及基于上述有效数据确定上述多个用户的属性信息。本公开的另一个方面提供了一种数据处理系统,包括获取模块、确定模块和处理模块。获取模块用于获取操作数样本,其中,上述操作数样本中包含多个用户操作对象而产生的操作数据;确定模块用于根据包含在上述操作数样本中的上述操作数据,确定上述多个用户的属性信息,其中,上述属性信息用于表征不同用户在交易对象时所表现出来的区别特征;以及处理模块用于根据确定出的上述多个用户的属性信息,对上述操作数样本所涉及的上述多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,其中,每个上述用户数据样本中包含有对上述多个用户分流后得到的至少一个用户的用户信息。根据本公开的实施例,上述确定模块包括获取单元、第一计算单元和第一确定单元。获取单元用于从上述操作数样本中获取上述操作数据;第一计算单元用于根据上述操作数据,按照第一预设算法计算上述多个用户的活跃度,其中,上述活跃度用于表征用户操作对象的活跃程度;以及第一确定单元用于根据活跃度计算结果,确定上述多个用户的属性信息。根据本公开的实施例,上述确定模块还包括第二计算单元和第二确定单元。第二计算单元用于根据上述操作数据,按照第二预设算法计算上述多个用户的交易评分,其中,上述交易评分用于表征用户交易对象的能力;以及第二确定单元用于根据交易评分计算结果和上述活跃度计算结果,确定上述多个用户的属性信息。根据本公开的实施例,上述第二确定单元包括第一分类子单元、第二分类子单元和确定子单元。第一分类子单元用于根据上述活跃度计算结果,将上述多个用户按预定数量的类别进行分类,以为上述多个用户中的每个用户标记相应的第一类别标识;第二分类子单元用于根据上述交易评分计算结果,将上述多个用户按上述预定数量的类别进行分类,以为上述多个用户中的每个用户标记相应的第二类别标识;以及确定子单元用于根据为上述每个用户标记的相应的第一类别标识和第二类别标识,确定上述每个用户的属性信息。根据本公开的实施例,上述确定模块包括过滤单元和第三确定单元。过滤单元用于按照预定规则对上述操作数样本中包含的上述操作数据进行过滤,以得到符合上述预定规则的有效操作数据;以及第三确定单元用于基于上述有效数据确定上述多个用户的属性信息。本公开的另一个方面提供了一种计算机系统,包括一个或多个处理器;存储器,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如上所述的数据处理方法。本公开的另一个方面提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现如上所述的数据处理方法。本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的数据处理方法。根据本公开的实施例,由于根据用户操作对象时产生的操作数据,如浏览、点击、收藏、交易等操作数据,可以确定用于表征不同用户在交易对象时所表现出的区别特征,即用户的属性信息,根据用户的属性信息将多个用户进行分流,将分流后得到的多个用户样本数据用于测试数据处理模型的技术手段,可以有效抑制大量的优质用户随机指定到一组而导致测试结果出现异常的情况,所以至少部分地克服相关技术中随机分流导致模型的测试指标异常的技术问题,避免了因用户本身质量差异而带来的测试偏差,达到了提高测试效率的技术效果。附图说明通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:图1示意性示出了根据本公开实施例的可以应用数据处理方法及其系统的示例性系统架构;图2示意性示出了根据本公开实施例的数据处理方法的流程图;图3示意性示出了根据本公开实施例的确定多个用户的属性信息的流程图;图4示意性示出了根据本公开另一实施例的确定多个用户的属性信息的流程图;图5示意性示出了根据本公开实施例的根据交易评分计算结果和活跃度计算结果,确定多个用户的属性信息的流程图;图6示意性示出了根据本公开另一实施例的确定多个用户的属性信息的流程图;图7示意性示出了根据本公开另一实施例的数据处理方法的流程图;图8示意性示出了根据本公开实施例的数据处理系统的框图;图9示意性示出了根据本公开实施例的确定模块的框图;图10示意性示出了根据本公开另一实施例的确定模块的框图;图11示意性示出了根据本公开实施例的第二确定单元的框图;图12示意性示出了根据本公开另一实施例的确定模块的框图;以及图13示意性示出了根据本公开实施例的适于实现数据处理方法和数据处理系统的计算机系统的框图。具体实施方式以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。在此使用的所有术语包括技术和科学术语具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和或具有A、B、C的系统等。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和或具有A、B、C的系统等。本领域技术人员还应理解,实质上任意表示两个或更多可选项目的转折连词和或短语,无论是在说明书、权利要求书还是附图中,都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如,短语“A或B”应当被理解为包括“A”或“B”、或“A和B”的可能性。本公开的实施例提供了一种数据处理方法及装置,该方法包括获取操作数样本,其中,操作数样本中包含多个用户操作对象而产生的操作数据;根据包含在操作数样本中的操作数据,确定多个用户的属性信息,其中,属性信息用于表征不同用户在交易对象时所表现出来的区别特征;以及根据确定出的多个用户的属性信息,对操作数样本所涉及的多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,其中,每个用户数据样本中包含有对多个用户分流后得到的至少一个用户的用户信息。图1示意性示出了根据本公开实施例的可以应用数据处理方法及其系统的示例性系统架构。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和或无线通信链路等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和或社交平台软件等仅为示例。终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器仅为示例。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果例如根据用户请求获取或生成的网页、信息、或数据等反馈给终端设备。需要说明的是,本公开实施例所提供的数据处理方法一般可以由服务器105执行。相应地,本公开实施例所提供的数据处理系统一般可以设置于服务器105中。本公开实施例所提供的数据处理方法也可以由不同于服务器105且能够与终端设备101、102、103和或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的数据处理系统也可以设置于不同于服务器105且能够与终端设备101、102、103和或服务器105通信的服务器或服务器集群中。或者,本公开实施例所提供的图像处理方法也可以由终端设备101、102、或103执行,或者也可以由不同于终端设备101、102、或103的其他终端设备执行。相应地,本公开实施例所提供的数据处理系统也可以设置于终端设备101、102、或103中,或设置于不同于终端设备101、102、或103的其他终端设备中。例如,操作数样本可以原本存储在终端设备101、102、或103中的任意一个例如,终端设备101,但不限于此之中,或者存储在外部存储设备上并可以导入到终端设备101中。然后,终端设备101可以在本地执行本公开实施例所提供的数据处理方法,或者将操作数样本发送到其他终端设备、服务器、或服务器集群,并由接收该操作数样本的其他终端设备、服务器、或服务器集群来执行本公开实施例所提供的数据处理方法。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。图2示意性示出了根据本公开实施例的数据处理方法的流程图。如图2所示,该方法包括操作S210~S230,其中:在操作S210,获取操作数样本,其中,操作数样本中包含多个用户操作对象而产生的操作数据。根据本公开的实施例,对象包括但不限于各种可交易的产品,例如衣服,鞋子,电子消费品或者虚拟产品。用户操作对象产生的操作数据包括但不限于搜索,浏览,点击,交易,评论等产生的数据,例如,操作数据可以是用户的搜索次数,浏览次数,评论次数等等。在操作数样本中包括多个用户相对应的操作数据。根据本公开的实施例,可以通过获取用户行为日志的方式获取大量用户的操作数据。例如,通过获取用户行为日志的方式获取用户在交易平台上进行产品浏览,产品购买,以及产品评论的行为数据。在操作S220,根据包含在操作数样本中的操作数据,确定多个用户的属性信息,其中,属性信息用于表征不同用户在交易对象时所表现出来的区别特征。根据本公开的实施例,根据与用户相对应的操作数据,以及操作数样本中所有的操作数据,通过分析确定用户的属性信息,其中,用户的属性信息用于表征不同用户在交易对象时所表现出来的区别特征,例如可以将用户分成优质客户,良好用户和一般用户,或者例如可以将用户分成频繁用户,一般用户和稀疏用户等。根据本公开的实施例,例如,当用户A评论电子产品的评论数为100,操作数样本中的用户评论数大部分为20,若将优质客户的评论数定为20以上,则可以将用户A确定为优质客户,将用户评论数小于20的用户确定为良好用户或一般用户。根据本公开的实施例,根据包含在操作数样本中的操作数据,确定多个用户的属性信息的方式并不限于上述方式,本公开不限定确定用户属性的方法。例如,还可以是综合考察用户搜索,评论,浏览的次数占操作数样本中相应操作类型的总次数的比重,然后将所有的比重求和后与预设值进行比较,最后确定用户的属性信息。在操作S230,根据确定出的多个用户的属性信息,对操作数样本所涉及的多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,其中,每个用户数据样本中包含有对多个用户分流后得到的至少一个用户的用户信息。根据本公开的实施例,根据操作数样本中的操作数据,可以确定每个用户的属性信息,根据确定出的用户的属性信息,可以将多个用户进行分流处理,得到多个用户数据样本,每个用户数据样本中包含至少一个用户的用户信息,如用户的账号。当使用某一账号的用户去测试相应的数据处理模型时,可以得到相应的测试结果。根据本公开的实施例,经分流后得到的多个用户数据样本可以用于测试多个不同的数据处理模型,测试多个不同的数据处理模型可以包括新开发的数据处理模型和原先的数据处理模型的测试对比,也可以包括测试多个新开发的数据处理模型的测试对比。根据本公开的实施例,根据确定出的多个用户的属性信息,对操作数样本所涉及的多个用户进行分流处理的方法可以是根据用户的属性信息将用户进行分类,例如分成N类,从而得到N类用户组,当对多个用户进行分流处理时,可以从每一类用户组中确定一定数量的用户,将每一类用户组中确定出来的用户组合成一个用户数据样本。在这种情况下,可以使得避免不同用户数据样本中的用户的属性相差较大,使得对用户分流时更加均匀。根据本公开的实施例,由于根据用户操作对象时产生的操作数据,如浏览、点击、收藏、交易等操作数据,可以确定用于表征不同用户在交易对象时所表现出的区别特征,即用户的属性信息,根据用户的属性信息将多个用户进行分流,将分流后得到的多个用户样本数据用于测试数据处理模型的技术手段,可以有效抑制大量的优质用户随机指定到一组而导致测试结果出现异常的情况,所以至少部分地克服相关技术中随机分流导致模型的测试指标异常的技术问题,避免了因用户本身质量差异而带来的测试偏差,达到了提高测试效率的技术效果。下面参考图3~图7,结合具体实施例对图2所示的方法做进一步说明。图3示意性示出了根据本公开实施例的确定多个用户的属性信息的流程图。如图3所示,根据包含在操作数样本中的操作数据,确定多个用户的属性信息包括操作S221~S223,其中:在操作S221,从操作数样本中获取操作数据。根据本公开的实施例,操作数样本中的用户操作对象时产生的操作数据包括但不限于如浏览次数、点击次数、收藏次数、交易次数等操作数据。在操作S222,根据操作数据,按照第一预设算法计算多个用户的活跃度,其中,活跃度用于表征用户操作对象的活跃程度。根据本公开的实施例,可以根据用户不同的操作行为计算活跃度,该活跃度用于表征用户操作对象的活跃程度。一般情况下,用户的操作行为关键链路可以包括搜索商品-浏览商品-加入购物车-付款下单-评价。对关键链路上不同的阶段,可以单独进行活跃度计算,最后属于用户的活跃度可以是不同阶段的活跃度加权之和。下面以搜索商品这一操作的活跃度计算为例,其他操作类型计算方法相同或类似。第一预设算法公式包括但不限于如下:其中,Actsearch代表用户搜索的活跃度得分,Actsearch_day为用户当天的搜索次数,Acttotal_day为当天所有的用户搜索次数,Actsearch_week为用户最近一周的搜索次数,Actsearch_month为用户最近一个月的搜索次数。根据本公开的实施例,可以采用上述计算公式计算浏览商品、加入购物车、付款下单和评价操作的活跃度得分,最后将关键链路上不同操作类型的活跃度得分加权总和,确定最终的活跃度。或者可以给不同的操作类型设置相应的权重,将权重与相应的活跃度相乘后,计算确定最终的活跃度。例如,搜索商品活跃度为:Actsearch;浏览商品活跃度为:Actbrowse;加入购物车活跃度为Actcart;付款下单活跃度为:Actpay;评价活跃度为:Actcomment;加权计算方式为:Actscore=0.2*Actsearch+0.3*Actbrowse+0.5*Actcart+0.7*Actpay+0.3*Actcomment*0.5需要说明的是,按照第一预设算法计算多个用户的活跃度的方法只是示意性的,本公开不限定确定用户的活跃度的方法。在操作S223,根据活跃度计算结果,确定多个用户的属性信息。根据本公开的实施例,采用第一预设算法计算多个用户的活跃度之后,可以根据每个用户的活跃度的大小,确定每个用户的属性信息。例如,可以预先设定活跃度阈值,根据活跃度阈值与用户的活跃度进行比较,从而确定用户的属性。例如,第一活跃度阈值为100,活跃度大于100的用户确定为优质客户,第二活跃度阈值为70,活跃度大于70且小于100的用户确定为良好客户,活跃度小于70的用户确定为一般客户。根据本公开的实施例,根据用户操作对象产生的操作数据,如浏览次数,搜索次数等,可以确定用户操作对象的活跃程度,根据确定的用户活跃度,可以真实的反映用户本质属性。图4示意性示出了根据本公开另一实施例的确定多个用户的属性信息的流程图。如图4所示,根据包含在操作数样本中的操作数据,确定多个用户的属性信息包括操作S224~S225,其中:在操作S224,根据操作数据,按照第二预设算法计算多个用户的交易评分,其中,交易评分用于表征用户交易对象的能力。根据本公开的实施例,针对不同的对象,表征用户交易对象的能力的标准也不同。例如,在手机壳类目,能交易200块的手机壳可能就算交易能力强的用户,但是在手机类目,交易6000块以上的手机可能才算交易能力强的用户。因此,根据本公开的实施例,可以考虑按类目对计算多个用户的交易评分,其中,类目指产品所属于的体系,如华为手机,小米手机同属于手机这个类目。针对不同的对象,可以对每一个对象进行单独计算交易评分。根据本公开的实施例,操作数据可以是用户交易对象时所支付的金额。第二预设算法公式包括但不限于如下:其中,Buyi_avg为用户在类目i的平均交易价格,Cidi_hiqh为类目i单价最高商品,Cidi_low为类目i单价最低商品。根据本公开的实施例,可以对用户产生过交易的类目进行统一计算,取其平均值为最终交易评分。根据本公开的实施例,为了避免冷门类目的偶然性交易进入计算流程,可以取出用户最近一段时间内有发生过交易且交易次数大于预定数量次数的类目作为确定用户的交易评分的类目,并将不满足上述要求的类型进行过滤。在操作S225,根据交易评分计算结果和活跃度计算结果,确定多个用户的属性信息。根据本公开的实施例,交易评分的高低可以用于表征用户交易产品的价格高低的可能性,如,交易评分高,则用户交易产品价格高的可能性就高。根据本公开的实施例,从用户的活跃度和交易评分综合确定用户的属性信息,可以更加真实的反映用户的本质属性,进而可以防止相关技术中不对用户加以分析,基于完全随机的分流导致的优质用户过度集中的问题。图5示意性示出了根据本公开实施例的根据交易评分计算结果和活跃度计算结果,确定多个用户的属性信息的流程图。如图5所示,根据交易评分计算结果和活跃度计算结果,确定多个用户的属性信息包括操作S2251~S2253,其中:在操作S2251,根据活跃度计算结果,将多个用户按预定数量的类别进行分类,以为多个用户中的每个用户标记相应的第一类别标识。根据本公开的实施例,每个用户都可以确定与用户相对应的活跃度,通过预先确定预定数量的类别,可以将多个用户按相应的类别进行分类。例如,预定数量的类别分为3类,第一类别标识包括第一类别标识A,第一类别标识B和第一类别标识C。其中一种简单的分类方式为将多个用户按照活跃度的高低等分为3类,每个用户可以得到相应的第一类别标识,例如,用户甲被标记为第一类别标识A,用户乙被标记为第一类别标识B,用户丙被标记为第一类别标识C,用户丁被标记为第一类别标识C。在操作S2252,根据交易评分计算结果,将多个用户按预定数量的类别进行分类,以为多个用户中的每个用户标记相应的第二类别标识。根据本公开的实施例,每个用户都可以确定与用户相对应的交易评分,可以将多个用户按预定数量的类别进行分类。例如,预定数量的类别分为3类,第二类别标识包括第二类别标识A,第二类别标识B和第二类别标识C。其中一种简单的分类方式为将多个用户按照交易评分的高低等分为3类,每个用户可以得到相应的第二类别标识,例如,用户甲被标记为第二类别标识A,用户乙被标记为第二类别标识B,用户丙被标记为第二类别标识A,用户丁被标记为第二类别标识B。在操作S2253,根据为每个用户标记的相应的第一类别标识和第二类别标识,确定每个用户的属性信息。根据本公开的实施例,可以将第一类别标识A与第二类别标识A视为相同的类别,因此,将同时具有第一类别标识A和第二类别标识A的用户进行合并并去重。例如,同时具有第一类别标识A和第二类别标识A的用户包括用户甲,则用户甲的标识为A。相对应的,可以将第一类别标识B与第二类别标识B视为相同的类别,因此,将同时具有第一类别标识B和第二类别标识B的用户进行合并并去重,例如,同时具有第一类别标识B和第二类别标识B的用户包括用户乙,则用户乙的标识为B。对于用户丙和用户丁,由于其相应的第一类别标识和第二类别标识不同,可以按照优先级的方式,确定用户丙和用户丁的标识,例如不同标识的优先级顺序为,标识A、标识B和标识C。由于用户丙被标记为第一类别标识C和第二类别标识A,根据优先级的高低,标识A高于标识C,可以将用户丙的标识确定为A。相似地,将用户丁的标识确定为B。根据本公开的实施例,不同的标识可以用于表征用户不同的属性信息。例如标识A用于表征用户为优质客户,标识B用于表征用户为良好客户,标识C用于表征用户为一般客户。根据本公开的实施例,根据用户的活跃度,可以将多个用户按一定数量的类别进行分类;根据用户的交易评分,可以将多个用户按与上述一定数量相同数量的类别进行分类。将两种分类方式中属于同一类别的用户进行合并,不属于同一类别的用户再次进行分类,从而确定用户的属性信息。可以更进一步地合理确定用户的属性。图6示意性示出了根据本公开另一实施例的确定多个用户的属性信息的流程图。如图6所示,根据包含在操作数样本中的操作数据,确定多个用户的属性信息包括操作S226~S227,其中:在操作S226,按照预定规则对操作数样本中包含的操作数据进行过滤,以得到符合预定规则的有效操作数据。根据本公开的实施例,预定规则包括多种,可以包括以下至少之一:去除没有用户ID的数据、去除无法判断来源的数据、去除黑名单IP数据、去除非人为数据、去除当天用户下单超过一定数量的用户此类用户大部分为作弊用户,或者采购用户,数据参考意义不大、去除从第一次查看商品到下单购买商品,耗时时长少于预定时长的用户购买数据大部分为具有明显目标导向的刷单数据、去除同一件商品单月购买次数超过一定次数的用户购买数据避免混入刷单数据。在操作S227,基于有效数据确定多个用户的属性信息。根据本公开的实施例,经过滤非法数据后的数据一般可以认为是有效数据,是用于表征用户的真实行为数据,因此,可以用于确定多个用户的属性信息。图7示意性示出了根据本公开另一实施例的数据处理方法的流程图。如图7所示,根据本公开的实施例,可以将用户行为数据和用户交易数据进行过滤,得到用户合法行为数据和用户合法交易数据,或者称为用户有效行为数据和用户有效交易数据。然后基于用户合法行为数据确定用户的活跃度,基于用户合法交易数据确定用户的交易评分。最后基于用户的活跃度和交易评分确定用户属性,基于用户属性将用户进行分流。根据本公开的实施例,通过过滤样本数据,可以确保数据的真实有效性,根据真实有效数据可以更加合理的确定用户的属性信息。根据本公开的实施例,可以提供一种基于用户真实的活跃度和交易得分进行建模计算,通过将具有相同等级的活跃度和交易得分的用户先进行分组,在不同的组可以用均匀随机的方法将用户均匀的分配到每一个模型,保证流量中优质的用户能均匀的分到不同的模型测试中,使得可以排除用户本身属性差异带来的影响,更加准确,客观的描述算法或者数据更新带来的指标变化。图8示意性示出了根据本公开实施例的数据处理系统的框图。如图8所示,数据处理系统300包括获取模块310、确定模块320和处理模块330。获取模块310用于获取操作数样本,其中,操作数样本中包含多个用户操作对象而产生的操作数据。确定模块320用于根据包含在操作数样本中的操作数据,确定多个用户的属性信息,其中,属性信息用于表征不同用户在交易对象时所表现出来的区别特征。处理模块330用于根据确定出的多个用户的属性信息,对操作数样本所涉及的多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,其中,每个用户数据样本中包含有对多个用户分流后得到的至少一个用户的用户信息。根据本公开的实施例,由于根据用户操作对象时产生的操作数据,如浏览、点击、收藏、交易等操作数据,可以确定用于表征不同用户在交易对象时所表现出的区别特征,即用户的属性信息,根据用户的属性信息将多个用户进行分流,将分流后得到的多个用户样本数据用于测试数据处理模型的技术手段,可以有效抑制大量的优质用户随机指定到一组而导致测试结果出现异常的情况,所以至少部分地克服相关技术中随机分流导致模型的测试指标异常的技术问题,避免了因用户本身质量差异而带来的测试偏差,达到了提高测试效率的技术效果。图9示意性示出了根据本公开实施例的确定模块的框图。如图9所示,根据本公开的实施例,确定模块320包括获取单元321、第一计算单元322和第一确定单元323。获取单元321用于从操作数样本中获取操作数据;第一计算单元322用于根据操作数据,按照第一预设算法计算多个用户的活跃度,其中,活跃度用于表征用户操作对象的活跃程度;第一确定单元323用于根据活跃度计算结果,确定多个用户的属性信息。根据本公开的实施例,根据用户操作对象产生的操作数据,如浏览次数,搜索次数等,可以确定用户操作对象的活跃程度,根据确定的用户活跃度,可以真实的反映用户本质属性。图10示意性示出了根据本公开另一实施例的确定模块的框图。如图10所示,根据本公开的实施例,确定模块320除了包括获取单元321、第一计算单元322和第一确定单元323之外,还包括第二计算单元324和第二确定单元325。第二计算单元324用于根据操作数据,按照第二预设算法计算多个用户的交易评分,其中,交易评分用于表征用户交易对象的能力。第二确定单元325用于根据交易评分计算结果和活跃度计算结果,确定多个用户的属性信息。根据本公开的实施例,交易评分的高低可以用于表征用户交易产品的价格高低的可能性,如,交易评分高,则用户交易产品价格高的可能性就高。根据本公开的实施例,从用户的活跃度和交易评分综合确定用户的属性信息,可以更加真实的反映用户的本质属性,进而可以防止相关技术中不对用户加以分析,基于完全随机的分流导致的优质用户过度集中的问题。图11示意性示出了根据本公开实施例的第二确定单元的框图。如图11所示,根据本公开的实施例,第二确定单元325包括第一分类子单元3251、第二分类子单元3252和确定子单元3253。第一分类子单元3251用于根据活跃度计算结果,将多个用户按预定数量的类别进行分类,以为多个用户中的每个用户标记相应的第一类别标识。第二分类子单元3252用于根据交易评分计算结果,将多个用户按预定数量的类别进行分类,以为多个用户中的每个用户标记相应的第二类别标识。确定子单元3253用于根据为每个用户标记的相应的第一类别标识和第二类别标识,确定每个用户的属性信息。根据本公开的实施例,根据用户的活跃度,可以将多个用户按一定数量的类别进行分类;根据用户的交易评分,可以将多个用户按与上述一定数量相同数量的类别进行分类。将两种分类方式中属于同一类别的用户进行合并,不属于同一类别的用户再次进行分类,从而确定用户的属性信息。可以更进一步地合理确定用户的属性。图12示意性示出了根据本公开另一实施例的确定模块的框图。如图12所示,根据本公开的实施例,确定模块320包括过滤单元326和第三确定单元327。过滤单元326用于按照预定规则对操作数样本中包含的操作数据进行过滤,以得到符合预定规则的有效操作数据。第三确定单元327用于基于有效数据确定多个用户的属性信息。根据本公开的实施例,通过过滤样本数据,可以确保数据的真实有效性,根据真实有效数据可以更加合理的确定用户的属性信息。可以理解的是,获取模块310、确定模块320、处理模块330、获取单元321、第一计算单元322、第一确定单元323、第二计算单元324和第二确定单元325、过滤单元326、第三确定单元327、第一分类子单元3251、第二分类子单元3252和确定子单元3253可以合并在一个模块单元子单元中实现,或者其中的任意一个模块单元子单元可以被拆分成多个模块单元子单元。或者,这些模块单元子单元中的一个或多个模块单元子单元的至少部分功能可以与其他模块单元子单元的至少部分功能相结合,并在一个模块单元子单元中实现。根据本发明的实施例,获取模块310、确定模块320、处理模块330、获取单元321、第一计算单元322、第一确定单元323、第二计算单元324和第二确定单元325、过滤单元326、第三确定单元327、第一分类子单元3251、第二分类子单元3252和确定子单元3253中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列FPGA、可编程逻辑阵列PLA、片上系统、基板上的系统、封装上的系统、专用集成电路ASIC,或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,获取模块310、确定模块320、处理模块330、获取单元321、第一计算单元322、第一确定单元323、第二计算单元324和第二确定单元325、过滤单元326、第三确定单元327、第一分类子单元3251、第二分类子单元3252和确定子单元3253中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。需要说明的是,本公开的实施例中数据处理系统部分与本公开的实施例中数据处理方法部分是相对应的,数据处理系统部分的描述具体参考数据处理方法部分,在此不再赘述。本公开的另一个方面提供了一种计算机系统,包括一个或多个处理器;存储器,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如上所述的数据处理方法。图13示意性示出了根据本公开实施例的适于实现数据处理方法和数据处理系统的计算机系统的框图。图13示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。如图13所示,根据本公开实施例的计算机系统400包括处理器401,其可以根据存储在只读存储器ROM402中的程序或者从存储部分408加载到随机访问存储器RAM403中的程序而执行各种适当的动作和处理。处理器401例如可以包括通用微处理器例如CPU、指令集处理器和或相关芯片组和或专用微处理器例如,专用集成电路ASIC,等等。处理器401还可以包括用于缓存用途的板载存储器。处理器401可以包括用于执行参考图2,图3~图7描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。在RAM403中,存储有系统400操作所需的各种程序和数据。处理器401、ROM402以及RAM403通过总线404彼此相连。处理器401通过执行ROM402和或RAM403中的程序来执行以上参考图2,图3~图7描述的各种操作。需要注意,所述程序也可以存储在除ROM402和RAM403以外的一个或多个存储器中。处理器401也可以通过执行存储在所述一个或多个存储器中的程序来执行以上参考图2,图3~图7描述的各种操作。根据本公开的实施例,系统400还可以包括输入输出IO接口405,输入输出IO接口405也连接至总线404。系统400还可以包括连接至IO接口405的以下部件中的一项或多项:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管CRT、液晶显示器LCD等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至IO接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。根据本公开的实施例,上文参考流程图描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可渎存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和或从可拆卸介质411被安装。在该计算机程序被处理器401执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。需要说明的是,本公开所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器RAM、只读存储器ROM、可擦式可编程只读存储器EPROM或闪存、光纤、便携式紧凑磁盘只读存储器CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM402和或RAM403和或ROM402和RAM403以外的一个或多个存储器。附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。本公开的另一个方面提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现如上所述的数据处理方法。本公开提供的计算机可读存储介质可以是实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。计算机可读存储介质可以存储有可执行指令,该指令被处理器执行时使处理器:获取操作数样本,其中,操作数样本中包含多个用户操作对象而产生的操作数据;根据包含在操作数样本中的操作数据,确定多个用户的属性信息,其中,属性信息用于表征不同用户在交易对象时所表现出来的区别特征;以及根据确定出的多个用户的属性信息,对操作数样本所涉及的多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,其中,每个用户数据样本中包含有对多个用户分流后得到的至少一个用户的用户信息。可选地,根据包含在操作数样本中的操作数据,确定多个用户的属性信息包括从操作数样本中获取操作数据;根据操作数据,按照第一预设算法计算多个用户的活跃度,其中,活跃度用于表征用户操作对象的活跃程度;以及根据活跃度计算结果,确定多个用户的属性信息。可选地,方法还包括根据操作数据,按照第二预设算法计算多个用户的交易评分,其中,交易评分用于表征用户交易对象的能力;以及根据交易评分计算结果和活跃度计算结果,确定多个用户的属性信息。可选地,根据交易评分计算结果和活跃度计算结果,确定多个用户的属性信息包括根据活跃度计算结果,将多个用户按预定数量的类别进行分类,以为多个用户中的每个用户标记相应的第一类别标识;根据交易评分计算结果,将多个用户按预定数量的类别进行分类,以为多个用户中的每个用户标记相应的第二类别标识;以及根据为每个用户标记的相应的第一类别标识和第二类别标识,确定每个用户的属性信息。可选地,根据包含在操作数样本中的操作数据,确定多个用户的属性信息包括按照预定规则对操作数样本中包含的操作数据进行过滤,以得到符合预定规则的有效操作数据;以及基于有效数据确定多个用户的属性信息。以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

权利要求:1.一种数据处理方法,包括:获取操作数样本,其中,所述操作数样本中包含多个用户操作对象而产生的操作数据;根据包含在所述操作数样本中的所述操作数据,确定所述多个用户的属性信息,其中,所述属性信息用于表征不同用户在交易对象时所表现出来的区别特征;以及根据确定出的所述多个用户的属性信息,对所述操作数样本所涉及的所述多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,其中,每个所述用户数据样本中包含有对所述多个用户分流后得到的至少一个用户的用户信息。2.根据权利要求1所述的方法,其中,根据包含在所述操作数样本中的所述操作数据,确定所述多个用户的属性信息包括:从所述操作数样本中获取所述操作数据;根据所述操作数据,按照第一预设算法计算所述多个用户的活跃度,其中,所述活跃度用于表征用户操作对象的活跃程度;以及根据活跃度计算结果,确定所述多个用户的属性信息。3.根据权利要求2所述的方法,其中,所述方法还包括:根据所述操作数据,按照第二预设算法计算所述多个用户的交易评分,其中,所述交易评分用于表征用户交易对象的能力;以及根据交易评分计算结果和所述活跃度计算结果,确定所述多个用户的属性信息。4.根据权利要求3所述的方法,其中,根据交易评分计算结果和所述活跃度计算结果,确定所述多个用户的属性信息包括:根据所述活跃度计算结果,将所述多个用户按预定数量的类别进行分类,以为所述多个用户中的每个用户标记相应的第一类别标识;根据所述交易评分计算结果,将所述多个用户按所述预定数量的类别进行分类,以为所述多个用户中的每个用户标记相应的第二类别标识;以及根据为所述每个用户标记的相应的第一类别标识和第二类别标识,确定所述每个用户的属性信息。5.根据权利要求1所述的方法,其中,根据包含在所述操作数样本中的所述操作数据,确定所述多个用户的属性信息包括:按照预定规则对所述操作数样本中包含的所述操作数据进行过滤,以得到符合所述预定规则的有效操作数据;以及基于所述有效数据确定所述多个用户的属性信息。6.一种数据处理系统,包括:获取模块,用于获取操作数样本,其中,所述操作数样本中包含多个用户操作对象而产生的操作数据;确定模块,用于根据包含在所述操作数样本中的所述操作数据,确定所述多个用户的属性信息,其中,所述属性信息用于表征不同用户在交易对象时所表现出来的区别特征;以及处理模块,用于根据确定出的所述多个用户的属性信息,对所述操作数样本所涉及的所述多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,其中,每个所述用户数据样本中包含有对所述多个用户分流后得到的至少一个用户的用户信息。7.根据权利要求6所述的系统,其中,所述确定模块包括:获取单元,用于从所述操作数样本中获取所述操作数据;第一计算单元,用于根据所述操作数据,按照第一预设算法计算所述多个用户的活跃度,其中,所述活跃度用于表征用户操作对象的活跃程度;以及第一确定单元,用于根据活跃度计算结果,确定所述多个用户的属性信息。8.根据权利要求7所述的系统,其中,所述确定模块还包括:第二计算单元,用于根据所述操作数据,按照第二预设算法计算所述多个用户的交易评分,其中,所述交易评分用于表征用户交易对象的能力;以及第二确定单元,用于根据交易评分计算结果和所述活跃度计算结果,确定所述多个用户的属性信息。9.根据权利要求8所述的系统,其中,所述第二确定单元包括:第一分类子单元,用于根据所述活跃度计算结果,将所述多个用户按预定数量的类别进行分类,以为所述多个用户中的每个用户标记相应的第一类别标识;第二分类子单元,用于根据所述交易评分计算结果,将所述多个用户按所述预定数量的类别进行分类,以为所述多个用户中的每个用户标记相应的第二类别标识;以及确定子单元,用于根据为所述每个用户标记的相应的第一类别标识和第二类别标识,确定所述每个用户的属性信息。10.根据权利要求6所述的系统,其中,所述确定模块包括:过滤单元,用于按照预定规则对所述操作数样本中包含的所述操作数据进行过滤,以得到符合所述预定规则的有效操作数据;以及第三确定单元,用于基于所述有效数据确定所述多个用户的属性信息。11.一种计算机系统,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至5中任一项所述的数据处理方法。12.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1至5中任一项所述的数据处理方法。

百度查询: 北京京东尚科信息技术有限公司 北京京东世纪贸易有限公司 数据处理方法及系统、计算机系统和计算机可读存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术