买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京道口金科科技有限公司
摘要:本发明公开了一种基于商品名称的多层次商品类别生成式抽取方法及装置,属于计算机数据分析技术领域。为了解决目前自动化分类模型适用性差、可扩展性弱的问题,本发明方法基于编码器‑解码器思想构造端到端学习模型,将商品名称文本作为输入序列,多层次商品类别抽取结果作为目标序列,使用Tree‑LSTM网络将输入序列映射到一个隐含状态向量,再基于该向量使用LSTM网络将目标序列生成出来。本发明装置包含商品名称输入及依存句法分析模块,分布式词向量表示模块,商品类别多层次抽取模型,以及商品类别词表。本发明无需预先构造完整的商品类别层次结构,可自动学习商品类别层次结构,增强了多层次商品类别识别的适用性和可扩展性。
主权项:1.一种基于商品名称的多层次商品类别生成式抽取方法,其特征在于,包括如下步骤:步骤1:获取发票数据中的商品名称,构建一个商品名称数据集;步骤2:对商品名称数据集进行人工标注,标注商品名称对应的多层次商品类别;所述多层次商品类别表示为:一级类别限定TAB二级类别限定TAB三级类别限定END;其中TAB为分隔符,END为结束符;步骤3:获取一个公开的中文预训练语料库,与标注的数据集合并,得到加入商品信息的预训练语料库;对加入商品信息的预训练语料库进行中文分词;步骤4:将分词后的语料库输入预训练模型,获取语料库中所有词的分布式词向量表示;步骤5:构建候选字符串集合和词表,根据词表将多层次商品类别表示为数字序列标签,数字序列标签是由多层次商品类别中每个词在词表中的id按序组合形成;所述候选字符串集合包含多层次商品类别标签集合以及结束符END、分隔符TAB;所述词表的结构为词id,词名称term,词向量vector,将分隔符和结束符均单独作为一个词存入词表,词表中至少还包含已知的多层次商品类别词;步骤6:对商品名称进行依存句法分析,得到相应的句法依存树结构;步骤7:建立商品类别多层次抽取模型,模型的输入为商品名称的句法依存树,输出为多层次商品类别的数字序列标签;所述的商品类别多层次抽取模型由编码器和解码器组成;编码器中,将树状长短期记忆Tree-LSTM网络应用于商品名称的句法依存树,树中节点对应的分词的词向量输入本节点的Tree-LSTM单元,经Tree-LSTM网络编码后,将句法依存树根节点的Tree-LSTM单元编码获得的记忆细胞状态和隐藏状态作为编码器的输出;解码器中,使用长短期记忆LSTM网络对编码器的输出依次解码,输出多层次商品类别的数字序列标签;步骤8:使用训练数据集对商品类别多层次抽取模型进行训练;将每一个商品名称与标注的多层次商品类别组合为一条训练数据,对应的训练样本包含商品名称的句法依存树以及标注的多层次商品类别的数字序列标签;步骤9:使用训练得到的商品类别多层次抽取模型,对当前输入的商品名称进行多层次商品类别自动生成;对当前输入的商品名称进行依存句法分析,得到商品名称的句法依存树,输入训练得到的商品类别多层次抽取模型,模型输出商品名称的预测序列,该序列中每个元素对应为一个n维向量,n为词表中词语数量,其中维度k代表元素对应的词属于词表中第k个词的预测概率;对序列中每个元素取预测概率最大的词作为最终预测词语,输出最终商品类别预测结果。
全文数据:
权利要求:
百度查询: 北京道口金科科技有限公司 基于商品名称的多层次商品类别生成式抽取方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。