首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

货品属性填充方法及装置、存储介质及电子终端 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司

摘要:本公开涉及计算机技术领域,具体涉及一种货品属性填充方法、一种货品属性填充装置、一种存储介质以及一种电子终端。所述方法包括:从待填写货品中获取典型货品并获取所述典型货品的属性值作为基础数据;获取所述待填写货品的描述信息并根据所述待填写货品的描述信息生成特征矩阵;利用机器学习算法对所述基础数据进行训练并生成分类器模型;利用所述分类器模型及所述特征矩阵获取所述待填写货品的属性值,并根据所述属性值对所述待填写货品进行属性值自动填写。本公开能够利用部分典型货品的完整货品属性值训练分类器模型,使分类器模型可以适应各货品的不同属性,进而保证货品属性填充的准确率。

主权项:1.一种货品属性填充方法,其特征在于,包括:从待填写货品中获取典型货品并获取所述典型货品的属性值作为基础数据;获取所述待填写货品的描述信息并根据所述待填写货品的描述信息生成特征矩阵;利用机器学习算法对所述基础数据进行训练并生成分类器模型,包括:利用n种机器学习算法分别对所述基础数据进行训练并获取对应的n个分类器模型;其中,n0;通过交叉验证评估各所述分类器模型对所述待填写货品属性的属性值填写的准确率;根据各所述分类器模型对于所述属性值填写的准确率计算各所述分类器模型对所述待填写货品的属性填写的权重;利用所述分类器模型及所述特征矩阵获取所述待填写货品的属性值,并根据所述属性值对所述待填写货品进行属性值自动填写;所述方法还包括:利用一自动字典模型根据所述基础数据及各所述待填写货品的描述信息计算所述基础数据中各属性值与各所述待填写货品之间的关系分数;根据所述自动字典模型计算的所述关系分数及所述n个分类器模型的权重计算所述待填写货品当前属性对应属性值的信心得分S;判断所述待填写货品当前属性的信心得分是否大于一预设准确率;在判断所述信心得分大于所述准确率时输出所述当前属性的属性值。

全文数据:货品属性填充方法及装置、存储介质及电子终端技术领域本公开涉及计算机技术领域,具体涉及一种货品属性填充方法、一种货品属性填充装置、一种存储介质以及一种电子终端。背景技术对电商平台而言,在对商品或货品进行分类、管理,或者用户对商品或货品进行筛选时,都可以根据其属性信息来操作,货品属性信息的管理变得至关重要。举例来说,货品的属性信息可以包括:显示器的尺寸、品牌及产地;衬衫的颜色、款式、尺码及质地等等。除货品的常规属性信息外,当增加新货品时,也有可能会增加新的属性信息。传统方法在对货品进行属性填写时,需要利用人工的方式对货品的各项基本属性进行填写。但这样的方式仅适用于货品数量较少时;当货品达到一定的数量级,则人工填写货品属性的时间成本及人工成本就会变得巨大,并且工作效率较低。虽然现有的方案中存在一些填充算法可以实现对货品属性的自动填充,但仍存在一定的缺陷。例如,现有的填充算法需要根据货品的不同属性分别设计不同的填充规则,不具有普适性,并且填充率并不能得到有效的保证。举例来说,对于“屏幕尺寸”属性,需要提前设定对应的值域,如{4寸、4.5寸、4.8寸、5.2寸……}。当出现新的屏幕尺寸“5.9寸”,若未提前在值域内设置该“5.9寸”,则无法填充该屏幕尺寸值。对于颜色属性,如产品信息为“红辣椒华彩手机,黑色,5寸”,则对于“颜色”属性,由于产品信息中存在多个与“颜色”属性相关的关键词,使得填充算法并不一定能准确获取“黑色”的属性值,可能出现误配的情况。同时,对于经过填充算法自动填充后仍未能填写的货品属性,依然需要人工方式进行填写,使得填充率降低,从而降低了填写效率。需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。发明内容本公开的目的在于提供一种货品属性填充方法、一种货品属性填充装置、一种存储介质以及一种电子终端,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。根据本公开的第一方面,提供一种货品属性填充方法,包括:从待填写货品中获取典型货品并获取所述典型货品的属性值作为基础数据;获取所述待填写货品的描述信息并根据所述待填写货品的描述信息生成特征矩阵;利用机器学习算法对所述基础数据进行训练并生成分类器模型;利用所述分类器模型及所述特征矩阵获取所述待填写货品的属性值,并根据所述属性值对所述待填写货品进行属性值自动填写。在本公开的一种示例性实施例中,所述从待填写货品中获取典型货品包括:获取待填写货品并根据所述待填写货品的描述信息提取特征字段;依据提取的所述特征字段对所述待填写货品进行聚类;在聚类结果的每一类中随机抽取一个或多个所述待填写货品作为典型货品。在本公开的一种示例性实施例中,所述根据所述待填写货品的描述信息提取特征字段包括:对所述待填写货品的描述信息进行分词处理;根据所述分词处理后得到的分词利用word2vec模型提取各所述待填写货品的特征字段。在本公开的一种示例性实施例中,在根据所述待填写货品的描述信息生成特征矩阵时,所述方法还包括:判断是否接收到一填写数量m;在判断接收到所述填写数量m时,将所述待填写货品聚类的类别数量设置为m;其中,m0。在本公开的一种示例性实施例中,所述根据所述待填写货品的描述信息生成特征矩阵包括:对所述待填写货品的描述信息进行分词处理以获取分词;利用预设模型对获取的所述分词进行特征字段提取;对提取的所述特征字段分别进行向量化处理、稀疏化处理以生成特征矩阵。在本公开的一种示例性实施例中,所述利用机器学习算法对所述基础数据进行训练并生成分类器模型包括:利用n种机器学习算法分别对所述基础数据进行训练并获取对应的n个分类器模型;其中,n0;通过交叉验证评估各所述分类器模型对所述待填写货品属性的属性值填写的准确率;根据各所述分类器模型对于所述各属性值填写的准确率计算各所述分类器模型对所述待填写货品的属性填写的权重;其中,其中,wc为分类器模型c的权重;n为分类器模型的数量;accuracycv为经交叉验证获取的准确率。在本公开的一种示例性实施例中,所述利用所述分类器模型及所述特征矩阵获取所述待填写货品的属性值包括:根据各所述分类器模型对所述待填写货品各属性填写的权重选择分类器模型的输出结果作为所述待填写货品的属性值。在本公开的一种示例性实施例中,所述方法还包括:利用一自动字典模型根据所述基础数据及各所述待填写货品的描述信息计算所述基础数据中各属性值与各所述待填写货品之间的关系分数;根据所述自动字典模型计算的所述关系分数及所述n个分类器模型的权重计算所述待填写货品当前属性对应属性值的信心得分S:其中,C为分类器模型的集合;fci∈{0,1},表示该分类器模型c对当前待填写货品是否填写属性值;wc∈[0,1],表示该分类器c当前一次填写属性值的权重;Di∈[0,1],表示所述自动字典模型计算的关系分数;wd∈[0,1],表示所述自动字典模型的权重;判断所述待填写货品当前属性的信心得分是否大于一预设准确率;在判断所述信心得分大于所述准确率时输出所述当前属性的属性值。在本公开的一种示例性实施例中,所述方法还包括:将输出的所述属性值增加至所述基础数据。在本公开的一种示例性实施例中,所述方法还包括:在判断所述待填写货品当前属性的信心得分小于预设准确率时,将该待填写货品保留并等待下一次属性填充。在本公开的一种示例性实施例中,所述利用一自动字典模型根据所述基础数据及各所述待填写货品的描述信息计算所述基础数据中各属性值与各所述待填写货品之间的关系分数包括:根据所述基础数据建立各属性对应的现有属性值域;对所述现有属性值域中的元素利用jieba分词模型进行分词处理以便于获取第一分词集;对所述元素按第一预设规则进行拆分及过滤以便于获取第二分词列表;将所述第一分词集与所述第二分词列表按第二预设规则合并及过滤以便于获取第三分词集;将所述元素与所述第三分词集建立映射关系表;遍历所述属性值域各元素并将各元素建立对应的映射关系添加至所述映射关系表中;根据所述待填写货品描述信息中的特征字段在所述映射关系表中查找并生成预测结果。在本公开的一种示例性实施例中,所述机器学习算法包括:支持向量机算法、多项式朴素贝叶斯算法、多层感知机算法、随机森林算法以及K-最近邻算法中的任意一种或多种。在本公开的一种示例性实施例中,所述货品的单位为商品、单品或SKU。根据本公开的第二方面,提供一种货品属性填充装置,包括:典型数据获取模块,用于从待填写货品中获取典型货品并获取所述典型货品的属性值作为基础数据;特征矩阵生成模块,用于获取所述待填写货品的描述信息并根据所述待填写货品的描述信息生成特征矩阵;分类器模型生成模块,用于利用机器学习算法对所述基础数据进行训练并生成分类器模型;属性填写执行模块,用于利用所述分类器模型及所述特征矩阵获取所述待填写货品的属性值,并根据所述属性值对所述待填写货品进行属性值自动填写。根据本公开的第三方面,提供一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的货品属性填充方法。根据本公开的第四方面,提供一种电子终端,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行以下操作:从待填写货品中获取典型货品并获取所述典型货品的属性值作为基础数据;获取所述待填写货品的描述信息并根据所述待填写货品的描述信息生成特征矩阵;利用机器学习算法对所述基础数据进行训练并生成分类器模型;利用所述分类器模型及所述特征矩阵获取所述待填写货品的属性值,并根据所述属性值对所述待填写货品进行属性值自动填写。本公开的一种实施例所提供的货品属性填充方法,通过首先获取部分已经填写有完整货品属性数据的典型货品并将其作为基础数据,并根据所有货品的基本货品信息生成特征矩阵,利用机器学习算法根据技术数据进行训练并生成分类器,最终可以利用生成的分类器及特征矩阵对各待填写货品进行属性值的自动填写。通过利用部分典型货品的完整货品属性数据训练分类器,使计算机可以自动学习已填充货品的填充规则,使分类器模型可以适应各货品的不同属性,并把学习到的规则复用到类似货品上,从而保证货品属性填充的准确率。并且,可以大幅度的降低工时成本。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示意性示出本公开示例性实施例中一种货品属性填充方法的示意图;图2示意性示出本公开示例性实施例中一种获取典型货品属性数据的方法示意图;图3示意性示出本公开示例性实施例中一种对待填写货品生成特征矩阵的方法示意图;图4示意性示出本公开示例性实施例中一种货品属性填充装置的组成示意图;图5示意性示出本公开示例性实施例中另一种货品属性填充装置的另一种示意图;图6示意性示出本公开示例性实施例中再一种货品属性填充装置的再一种示意图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。本示例实施方式中首先提供了一种货品属性填充方法,可以应用于电商平台、仓储管理等领域对货品、商品属性的自动填写,尤其对于数量较大的货品、商品进行填写。例如:电视机的货品属性可以包括:屏幕尺寸、品牌及产地等;衬衫的货品属性可以包括:颜色、款式及材料等等。参考图1中所示,上述的货品属性填充方法可以包括以下步骤:步骤S1,从待填写货品中获取典型货品并获取所述典型货品的属性值作为基础数据;步骤S2,获取所述待填写货品的描述信息并根据所述待填写货品的描述信息生成特征矩阵;步骤S3,利用机器学习算法根据所述基础数据对所述特征矩阵进行训练并生成分类器模型;步骤S4,利用所述分类器模型及所述特征矩阵获取所述待填写货品的属性值,并根据所述属性值对所述待填写货品进行属性值自动填写。本示例实施方式所提供的所提供的货品属性填充方法,通过利用部分典型货品的货品属性数据训练分类器,使计算机可以自动学习已填充货品的填充规则,使分类器模型可以适应各货品的不同属性,并把学习到的规则复用到类似货品上,从而保证货品属性填充的准确率。并且,可以大幅度的降低工时成本。下面,将结合附图及实施例对本示例实施方式中的货品属性填充方法中各个步骤进行更详细的说明。步骤S1,从待填写货品中获取典型货品并获取所述典型货品的属性值作为基础数据。本示例实施方式中,参考图2所示,从待填写货品中获取典型货品的方法可以包括:步骤S11,获取待填写货品并根据所述待填写货品的描述信息提取特征字段;步骤S12,依据提取的所述特征字段对所述待填写货品进行聚类;步骤S13,在聚类结果的每一类中随机抽取一个或多个所述待填写货品作为典型货品;步骤S14,确定所述典型货品各属性的属性值。本公开实施例中的的待填写货品,是指未进行属性值填写的货品。对于所有的未进行属性值填写的待填写货品,可以对其描述信息提取特征字段并根据提取的特征字段生成一特征矩阵。然后通过聚类算法的方式对其进行分类,并随机挑选各类别中的部分货品作为典型货品。对于典型货品的属性值获取,可以采用人工填写的方式,或者利用算法自动填写及人工辅助填写的方式准确填写各典型货品的各项属性的属性值,将各典型货品属性对应的属性值作为基础数据使用。对于聚类结果而言,可以生成一货品聚类结果列表,并在该货品聚类结果列表的每一类中随机抽取一个货品作为典型货品,以便于在保证后续属性填写准确率的同时尽量减少计算量。或者为保证基础数据的有效性,可以在各类中随机抽取多个货品作为典型货品,例如,在每一类中随机选取2或3个货品作为典型货品。本示例实施方式中,上述的根据所述待填写货品的描述信息提取特征字段可以包括:步骤S111,对所述待填写货品的描述信息进行分词处理;步骤S112,根据所述分词处理后得到的分词利用word2vec模型提取各所述待填写货品的特征字段。word2vec模型是根据文章中每个词的上下关系,把每个词的关系映射到同一坐标系下,构成了一个大矩阵,矩阵下反映了每个词的关系。这些词的关系是通过上下文相关得出来的,它具有前后序列性,而word2vec模型同时采用了哈夫曼的压缩算法,对于一些热门词进行了很好的降权处理。因此对于一些相似词,或者词语的扩展都有很好的效果。因此,通过word2vec模型能够准确的提取货品描述信息中的特征字段。举例来说,一件货品的描述信息包括:25度山茶油食用油一级压榨茶籽油1.1L瓶装,对其提取的特征字段可以包括:茶籽油、1.1L、25度、瓶装及压榨等。基于上述内容,在本示例实施方式中,在根据所述待填写货品的描述信息生成特征矩阵时,所述方法还包括:步骤12-1,判断是否接收到一填写数量m;步骤12-2,在判断接收到所述填写数量m时,将所述待填写货品聚类的类别数量设置为m;其中,m0。在对待填写货品进行聚类处理前,可以判断是否接收到用户输入的要填写的货品数量m,在判断接收用户的该项输入时,便可根据用户需求设置聚类的类别数量为m,便可以同时设置每一次填充的货品行数m,从而实现对属性填写时,对单次填写货品数量的控制。步骤S2,获取所述待填写货品的描述信息并根据所述待填写货品的描述信息生成特征矩阵。本示例实施方式中,参考图3所示,上述的步骤S2具体可以包括:步骤S21,对所述待填写货品的描述信息进行分词处理以获取分词;步骤S22,利用预设模型对获取的所述分词进行特征字段提取;步骤S23,对提取的所述特征字段分别进行向量化处理、稀疏化处理以生成特征矩阵。在确定各典型货品各属性的属性值之后,可以对所有待填写货品的描述信息进行中文分词处理并提取特征字段,以去除货品描述信息中的标点符号、错误字符及特殊符号等等。在进行特征字段提取时,可以利用word2vec模型或其他模型进行特征字段的提取。此外,还可以对特征字段分别进行稀疏化处理、向量化处理,以得到待填写货品的特征矩阵。在本公开的其他示例性实施例中,在获取该特征矩阵时,也可以对包含待填写货品、典型货品以及其他已经具有完整属性值货品的所有货品进行分词集特征字段的提取,从而扩大特征矩阵的容量,进而提升该特征矩阵的有效性。其中,上述的稀疏化处理通过稀疏化模型即可完成,能够有效的去除冗余数据。所述稀疏化模型可以采用稀疏模型、组稀疏模型、树稀疏模或图稀疏模型等。通过对分词进行向量化处理,能够有效的提高数据处理的速度,进而提升工作效率。步骤S3,利用机器学习算法根据所述基础数据对所述特征矩阵进行训练并生成分类器模型。本示例实施方式中,可以利用上述根据待填写货品选取的典型货品的属性数据作为训练集并对其训练生成分类器模型,利用获取的分类器模型对剩余的待填写货品进行属性值自动填写。举例而言,上述的机器学习算法可以采用支持向量机算法、多项式朴素贝叶斯算法、多层感知机算法、随机森林算法或K-最近邻算法等算法模型。进一步,在本公开的其他示例性实施例中,上述的步骤S3还可以包括:步骤S31,利用n种机器学习算法分别对所述基础数据进行训练并获取对应的n个分类器模型;其中,n0;步骤S32,通过交叉验证评估各所述分类器模型对所述待填写货品属性的属性值填写准确率;步骤S33,根据各所述分类器模型对于所述属性值填写的准确率计算各所述分类器模型对所述待填写货品的属性填写的权重;其中,其中,wc为分类器模型c的权重;n为分类器模型的数量;Accuracycv为经交叉验证获取的准确率;上述公式中,TP表示真实值为正,预测值也为正;TN表示真实值为负,预测值为负;FP表示真实值为负,预测值为正;FN表示真实值为正,预测值为负。在本示例性实施例中,在对货品的某一属性进行属性值填写时,为了避免使用单一分类器模型导致的属性值填充准确率较低的情况,可以同时使用多种机器学习算法对所述基础数据进行训练生成多个分类器模型,如利用上述的支持向量机算法、多项式朴素贝叶斯算法、多层感知机算法、随机森林算法或K-最近邻算法等算法。并分别利用各分类器模型对当前属性进行属性值自动填写。例如,可以同时选取3、4或5种机器学习算法进行训练并生成3、4或5个分类器模型。由于不同的分类器模型对同一属性值的填写效果往往并不相同,甚至同一种分类器对单一属性在多次填写中的结果也并不相同。因此,为了获取更准确的属性值填写结果,可以令多个分类器模型对当前属性值进行填写,并利用交叉验证的方式对各分类器模型填写当前属性的属性值的准确率进行评估,选取评估结果中准确率最高的分类器模型对应的结果输出。或者,也可以将评估结果转化为各分类器模型对各属性填充时的权重,便可根据各分类器模型对当前属性的权重值对属性值进行填写。举例而言,对于货品“衬衫”,其需要填写的属性包括:颜色、品牌、材料、产地、价格、领口种类、袖口种类等。在进行属性值自动填写时,可以利用上述的五种机器学习算法分别获取对应的五种分类器模型,并对五种分类器模型对各属性填写的准确率进行评估,选取准确率最高的分类器模型对应的结果作为属性值填充结果输出。或者,根据五种分类器模型对各属性填写的准确率评估结果计算出各分类器模型对当前属性自动填写对应的权重值。随后,对于当前属性,把各分类器的结果按照上述权重加权得到最终的结果。例如,经过计算,对于“领口种类”这一属性,若随机森林算法模型的准确率比多层感知机算法模型的准确率高,且是多层感知机算法模型准确率的两倍。假设对某一个货品衬衫在填充“领口类型”这一属性时,随机森林算法模型算得到的结果是“立领”,多层感知机算法得到的结果是“圆领”,则在最终的权重计算时,属性填充结果“立领”对应得到的权重票数是“圆领”对应得到的权重票数的两倍。或者,在填写“颜色”这个属性时,若支持向量机算法对应的分类器模型的准确率最高,这时支持向量机算法对应的分类器模型C1的权重Wc1最大,这意味着在填写“颜色”这个属性时,支持向量机算法对应的分类器模型对预测结果的贡献最大。若有多个分类器模型对某一属性值填写的权重相同,则该多个分类器模型对最终的输出结果具有相同的影响,相当于各分类器模型对各自的属性填写预测结果给出同等权重的一票。步骤S4,利用所述分类器模型及所述特征矩阵获取所述待填写货品的属性值,并根据所述属性值对所述待填写货品进行属性值自动填写。优选的,基于上述内容,在本示例性实施例中,在利用分类器模型及特征矩阵对货品属性值自动填写时,上述的方法还可以包括:步骤S41,利用一自动字典模型根据所述基础数据及各所述待填写货品的描述信息计算所述基础数据中各属性值与各所述待填写货品之间的关系分数;步骤S42,根据所述自动字典模型计算的所述关系分数及所述n个分类器模型的权重计算所述待填写货品当前属性对应属性值的信心得分S:其中,C为分类器模型的集合;fci∈{0,1},表示该分类器模型c对当前待填写货品是否填写属性值;wc∈[0,1],表示该分类器模型c当前一次填写属性值的权重;Di∈[0,1],表示所述自动字典模型计算的关系分数;wd∈[0,1],表示所述自动字典模型的权重;步骤S43,判断所述待填写货品当前属性的信心得分是否大于一预设准确率;步骤S44,在判断所述信心得分大于所述准确率时输出所述当前属性的属性值。本实施例中,在获取各分类器模型对各属性自动填写的权重值后,还可以根据自动字典模型计算所述基础数据中各属性值与各所述待填写货品之间的关系分数,并利用该关系分数与各分类器模型的权重值判断是否输出分类器模型获取的货品当前属性的属性值。举例来说,当判断当前属性值的信心得分大于预设准确率时,便可以输出该货品的当前属性的属性值;若判断信心得分小于预设准确率,则可以不输出该属性值,并将该货品放回待填写货品的集合,等待下一次的填写。上述的预设准确率可以在用户设置待填写货品聚类数量时设置,也可以单独设置。本公开对此不做特殊限定。在本示例性实施例中,上述的利用一自动字典模型根据所述基础数据及各所述待填写货品的描述信息计算所述基础数据中各属性值与各所述待填写货品之间的关系分数包括:步骤S301,根据所述基础数据建立各属性对应的现有属性值域;步骤S302,对所述现有属性值域中的元素利用jieba分词模型进行分词处理以便于获取第一分词集;步骤S303,对所述元素按第一预设规则进行拆分及过滤以便于获取第二分词列表;步骤S304,将所述第一分词集与所述第二分词列表按第二预设规则合并及过滤以便于获取第三分词集;步骤S305,将所述元素与所述第三分词集建立映射关系表;遍历所述属性值域各元素并将各元素建立对应的映射关系添加至所述映射关系表中;步骤S306,根据所述待填充货品描述信息中的特征字段在所述映射关系表中查找并生成预测结果。举例来说,对于容量这属性,现有的基础数据包括:1.1-3升、0.6-1升、0-0.5升、其它、5升以上、3.1-5升、0.5-1升、1-3升、不限、3-5升。以上数据组成现有的容量属性值域attVals。对于容量属性值域每一个元素,再使用jieba分词模型进行拆分。例如,“1.1-3升”拆分后得到第一分词集attValToks:【1.1、-、3、升】。对“1.1-3升”使用list1.1-3升,拆分后得到singleChars:【1、.、1、-、3、升】。然后,使用正则表达式的方法,把singleChars中以字母和数字开头的str去掉,得到第二分词列表:filteredSingleChars:【.、-、升】。将第一分词集与第二分词列表合并得到新的分词集:【1.1、-、3、升、升】。将该分词集中的中文标点和英文标点去掉获取第三分词集:【1.1、3、升、升】。此时,建立原始元素“1.1-3升”与第三分词集的映射关系列表:attValLookup:{1.1:【1.1-3升】;3:【1.1-3升】;升:【1.1-3升、1.1-3升】}。基于以上方法,遍历容量属性值域中所有的元素,都加入到映射关系列表中,可以得到:{1.1:【1.1-3升】;3:【1.1-3升、1-3升、3-5升】;升:【1.1-3升、1.1-3升、0.6-1升、0.6-1升、0-0.5升、0-0.5升、5升以上、5升以上、3.1-5升、3.1-5升、0.5-1升、0.5-1升、1-3升、1-3升、3-5升、3-5升】;0.6:【0.6-1升】;1:【0.6-1升、0.5-1升、1-3升】;0:【0-0.5升】;0.5:【0-0.5升、0.5-1升】;其它:【其它】;其:【其它】;它:【其它】;5:【5升以上、3.1-5升、3-5升】;以上:【5升以上】;以:【5升以上】;上:【5升以上】;3.1:【3.1-5升】;不:【不限、不限】;限:【不限、不限】}。举例来说,一货品的描述信息中名称包括“25度山茶油食用油一级压榨茶籽油1.1L瓶装”。则依次寻找映射关系列表中的每一个关键字段key。例如,“1”在“25度山茶油食用油一级压榨茶籽油1.1L瓶装”中。则对于“1”对应的值:【0.6-1升、0.5-1升、1-3升】,把他们三个分别加入predictionsForSku的key中,并且令他们的value=1。若他们中的某一个已经在predictionsForSku的key中了,则把对应的value+1。对于“25度山茶油食用油一级压榨茶籽油1.1L瓶装”来说,有“1.1”、“1”、“5”在其中,所以得到的结果为:predictionsForSku:{1.1-3升:1;0.6-1升:1;0.5-1升:1;1-3升:1;5升以上:1;3.1-5升:1;3-5升:1}。对其进行归一化处理:每个valuesumvalue,则得到:{1.1-3升:17;0.6-1升:17;0.5-1升:17;1-3升:17;5升以上:17;3.1-5升:17;3-5升:17}。对于每一个货品,均计算其对应的predictionsForSku,作为自动字典模型的预测结果。上述的自动字典模型的权重wd也可以通过交叉验证的方法来确定。举例来说,以5折交叉验证为例;首先确定wd的选择区间【0.1,0.2,0.3,…,0.9】;将已经填充的行平均5份,其中四份训练分类器和自动词典,另一份拿来作预测,假设各分类器的权重以确定,令wd=0.1,在作预测数据中计算:令wd遍历【0.1,0.2,0.3,…,0.9】,分别获取A1,A2,A3,…,A9。假设经计算最终A5最大,则wd=0.5。在本公开的其他示例性实施例中,上述方法填充货品属性时,其单位也可以采用为商品、单品或SKU。本公开对此不做特殊限定。通过设置自动字典模型与各分类器模型相结合,判断各属性值填写的信心得分是否大于预设准确率,从而满足用户对属性填写准确率的要求。并且,通过将信心得分小于预设准确率的货品添加至待填写货品的集合,等待下一次的自动填写,在通过多次迭代后,填充率能够得到有效的保证,进而在保证正确率的前提下保证货品属性填充的准确率,使上述的货品属性填充方法可以适用于多种类型的货品及货品属性。进一步,参考图4所示,本示例的实施方式中还提供一种货品属性填充装置4,包括:典型数据获取模块41、特征矩阵生成模块42、分类器模型生成模块43以及属性填充执行模块44。其中:所述典型数据获取模块41可以用于从待填写货品中获取典型货品并获取所述典型货品的属性值作为基础数据。所述特征矩阵生成模块42可以用于获取所述待填写货品的描述信息并根据所述待填写货品的描述信息生成特征矩阵。所述分类器模型生成模块43可以用于利用机器学习算法对所述基础数据进行训练并生成分类器模型。所述属性填充执行模块44可以利用所述分类器模型及所述特征矩阵获取所述待填写货品的属性值,并根据所述属性值对所述待填写货品进行属性值自动填写。上述的货品属性填充装置中各模块的具体细节已经在对应的货品属性填充方法中进行了详细的描述,因此此处不再赘述。应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。在本公开的示例性实施例中,还提供了一种能够实现上述数据查询方法的电子设备。所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式包括固件、微代码等,或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。下面参照图5来描述根据本发明的这种实施方式的电子设备600。图5显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图5所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件包括存储单元620和处理单元610的总线630。其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1中所示的S1从待填写货品中获取典型货品并获取所述典型货品的属性值作为基础数据;S2:获取所述待填写货品的描述信息并根据所述待填写货品的描述信息生成特征矩阵;S3:利用机器学习算法对所述基础数据进行训练并生成分类器模型;S4:利用所述分类器模型及所述特征矩阵获取所述待填写货品的属性值,并根据所述属性值对所述待填写货品进行属性值自动填写。存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元RAM6201和或高速缓存存储单元6202,还可以进一步包括只读存储单元ROM6203。存储单元620还可以包括具有一组至少一个程序模块6205的程序实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。电子设备600也可以与一个或多个外部设备700例如键盘、指向设备、蓝牙设备等通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备例如路由器、调制解调器等等通信。这种通信可以通过输入输出IO接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络例如局域网LAN,广域网WAN和或公共网络,例如因特网通信。如图所示,网络适配器660通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质可以是CD-ROM,U盘,移动硬盘等中或网络上,包括若干指令以使得一台计算设备可以是个人计算机、服务器、终端装置、或者网络设备等执行根据本公开实施方式的方法。在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。参考图6所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器CD-ROM并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子非穷举的列表包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器RAM、只读存储器ROM、可擦式可编程只读存储器EPROM或闪存、光纤、便携式紧凑盘只读存储器CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网LAN或广域网WAN,连接到用户计算设备,或者,可以连接到外部计算设备例如利用因特网服务提供商来通过因特网连接。此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

权利要求:1.一种货品属性填充方法,其特征在于,包括:从待填写货品中获取典型货品并获取所述典型货品的属性值作为基础数据;获取所述待填写货品的描述信息并根据所述待填写货品的描述信息生成特征矩阵;利用机器学习算法对所述基础数据进行训练并生成分类器模型;利用所述分类器模型及所述特征矩阵获取所述待填写货品的属性值,并根据所述属性值对所述待填写货品进行属性值自动填写。2.根据权利要求1所述的货品属性填充方法,其特征在于,所述从待填写货品中获取典型货品包括:获取待填写货品并根据所述待填写货品的描述信息提取特征字段;依据提取的所述特征字段对所述待填写货品进行聚类;在聚类结果的每一类中随机抽取一个或多个所述待填写货品作为典型货品。3.根据权利要求2所述的货品属性填充方法,其特征在于,所述根据所述待填写货品的描述信息提取特征字段包括:对所述待填写货品的描述信息进行分词处理;根据所述分词处理后得到的分词利用word2vec模型提取各所述待填写货品的特征字段。4.根据权利要求2所述的货品属性填充方法,其特征在于,在根据所述待填写货品的描述信息生成特征矩阵时,所述方法还包括:判断是否接收到一填写数量m;在判断接收到所述填写数量m时,将所述待填写货品聚类的类别数量设置为m;其中,m0。5.根据权利要求1所述的货品属性填充方法,其特征在于,所述根据所述待填写货品的描述信息生成特征矩阵包括:对所述待填写货品的描述信息进行分词处理以获取分词;利用预设模型对获取的所述分词进行特征字段提取;对提取的所述特征字段分别进行向量化处理、稀疏化处理以生成特征矩阵。6.根据权利要求1所述的货品属性填充方法,其特征在于,所述利用机器学习算法对所述基础数据进行训练并生成分类器模型包括:利用n种机器学习算法分别对所述基础数据进行训练并获取对应的n个分类器模型;其中,n0;通过交叉验证评估各所述分类器模型对所述待填写货品属性的属性值填写的准确率;根据各所述分类器模型对于所述属性值填写的准确率计算各所述分类器模型对所述待填写货品的属性填写的权重;其中,其中,wc为分类器模型c的权重;n为分类器模型的数量;accuracycv为经交叉验证获取的准确率。7.根据权利要求6所述的货品属性填充方法,其特征在于,所述利用所述分类器模型及所述特征矩阵获取所述待填写货品的属性值包括:根据各所述分类器模型对所述待填写货品各属性填写的权重选择分类器模型的输出结果作为所述待填写货品的属性值。8.根据权利要求6所述的货品属性填充方法,其特征在于,所述方法还包括:利用一自动字典模型根据所述基础数据及各所述待填写货品的描述信息计算所述基础数据中各属性值与各所述待填写货品之间的关系分数;根据所述自动字典模型计算的所述关系分数及所述n个分类器模型的权重计算所述待填写货品当前属性对应属性值的信心得分S:其中,C为分类器模型的集合;fci∈{0,1},表示该分类器模型c对当前待填写货品是否填写属性值;wc∈[0,1],表示该分类器c当前一次填写属性值的权重;Di∈[0,1],表示所述自动字典模型计算的关系分数;wd∈[0,1],表示所述自动字典模型的权重;判断所述待填写货品当前属性的信心得分是否大于一预设准确率;在判断所述信心得分大于所述准确率时输出所述当前属性的属性值。9.根据权利要求8所述的货品属性填充方法,其特征在于,所述方法还包括:将输出的所述属性值增加至所述基础数据。10.根据权利要求8所述的货品属性填充方法,其特征在于,所述方法还包括:在判断所述待填写货品当前属性的信心得分小于预设准确率时,将该待填写货品保留并等待下一次属性填充。11.根据权利要求8所述的货品属性填充方法,其特征在于,所述利用一自动字典模型根据所述基础数据及各所述待填写货品的描述信息计算所述基础数据中各属性值与各所述待填写货品之间的关系分数包括:根据所述基础数据建立各属性对应的现有属性值域;对所述现有属性值域中的元素利用jieba分词模型进行分词处理以便于获取第一分词集;对所述元素按预设规则进行拆分及过滤以获取第二分词列表;将所述第一分词集与所述第二分词列表按预设规则合并及过滤以获取第三分词集;将所述元素与所述第三分词集建立映射关系表;遍历所述属性值域各元素并将各元素建立对应的映射关系添加至所述映射关系表中;根据所述待填写货品描述信息中的特征字段在所述映射关系表中查找并生成预测结果。12.根据权利要求6所述的货品属性填充方法,其特征在于,所述机器学习算法包括:支持向量机算法、多项式朴素贝叶斯算法、多层感知机算法、随机森林算法以及K-最近邻算法中的任意一种或多种。13.根据权利要求1所述的货品属性填充方法,其特征在于,所述货品的单位为商品、单品或SKU。14.一种货品属性填充装置,其特征在于,包括:典型数据获取模块,用于从待填写货品中获取典型货品并获取所述典型货品的属性值作为基础数据;特征矩阵生成模块,用于获取所述待填写货品的描述信息并根据所述待填写货品的描述信息生成特征矩阵;分类器模型生成模块,用于利用机器学习算法对所述基础数据进行训练并生成分类器模型;属性填写执行模块,用于利用所述分类器模型及所述特征矩阵获取所述待填写货品的属性值,并根据所述属性值对所述待填写货品进行属性值自动填写。15.一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现根据权利要求1至13中任一项所述的货品属性填充方法。16.一种电子终端,其特征在于,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行以下操作:从待填写货品中获取典型货品并获取所述典型货品的属性值作为基础数据;获取所述待填写货品的描述信息并根据所述待填写货品的描述信息生成特征矩阵;利用机器学习算法对所述基础数据进行训练并生成分类器模型;利用所述分类器模型及所述特征矩阵获取所述待填写货品的属性值,并根据所述属性值对所述待填写货品进行属性值自动填写。

百度查询: 北京京东尚科信息技术有限公司 北京京东世纪贸易有限公司 货品属性填充方法及装置、存储介质及电子终端

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术