买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:广州永哲信息技术有限公司
摘要:本发明公开了一种基于分类网络模型的文本分类方法、装置、终端及可读存储介质,该方法包括:获取多种类型的样本文件,并将每一样本文件均转换为包括正文文本、后缀文本、标题文本和其他信息文本的多源信息文本;调用基于多源信息融合与特征提取分类网络所构建的分类初始模型,并对多源信息文本进行预处理,生成带标签的训练数据传输到分类初始模型,对分类初始模型进行训练,获得分类网络模型;基于分类网络模型对待分类文本进行分类识别,确定待分类文本所归属的文本类别。本发明通过多源信息文本对多源信息融合与特征提取分类网络所构建的分类初始模型进行训练,生成分类网络模型对文本进行分类,实现了文本的准确分类。
主权项:1.一种基于分类网络模型的文本分类方法,其特征在于,所述基于分类网络模型的文本分类方法包括:获取多种类型的样本文件,并将每一所述样本文件均转换为多源信息文本,其中,所述样本文件的类型包括doc、docx、ppt、pptx、xls、xlsx、png、jpg、tiff、dwg、pdf,所述多源信息文本为含有可读文字的文本文件,所述多源信息文本至少包括正文文本、后缀文本、标题文本和其他信息文本;调用基于多源信息融合与特征提取分类网络所构建的分类初始模型,并对所述多源信息文本进行预处理,生成带标签的训练数据传输到所述分类初始模型,对所述分类初始模型进行训练,获得分类网络模型;基于所述分类网络模型对待分类文本进行分类识别,确定所述待分类文本所归属的文本类别;其中,所述预处理包括分词和清洗,所述对所述多源信息文本进行预处理,生成带标签的训练数据传输到所述分类初始模型的步骤包括:对每一所述多源信息文本按照预设分词规则进行分词处理,获得与每一所述多源信息文本对应的分词组,并对每一所述分词组中的分词进行过滤清洗,获得选定分词组;对各所述选定分词组基于预设长度进行编码,生成与每一所述多源信息文本对应的词嵌入向量;构造与预设类别数对应的类别嵌入向量,并在将所述类别嵌入向量的维度设定为所述词嵌入向量的维度后,将所述词嵌入向量和所述类别嵌入向量生成为带标签的训练数据传输到所述分类初始模型;所述生成带标签的训练数据传输到所述分类初始模型,对所述分类初始模型进行训练,获得分类网络模型的步骤包括:在生成带标签的训练数据后,将所述训练数据传输到所述分类初始模型,对所述分类初始模型进行训练,并计算所述分类初始模型的交叉熵分类损失函数值;根据所述交叉熵分类损失函数值,判断所述分类初始模型是否达到收敛条件,若达到收敛条件,则完成对所述分类初始模型的训练,并基于训练获得的目标模型参数,将所述分类初始模型生成为分类网络模型。
全文数据:
权利要求:
百度查询: 广州永哲信息技术有限公司 基于分类网络模型的文本分类方法、装置、终端及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。