买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:哈尔滨理工大学
摘要:本发明公开了一种基于深度学习的文本分类方法及系统,属于自然语言处理技术领域,其中,该方法包括:从互联网获取文本数据集,并划分为训练集和测试集;利用ALBERT技术将训练集转换为词向量;利用改进的深度学习算法对词向量进行特征提取,得到最优特征向量;利用CrossEntropyLoss函数改进Softmax算法的分类函数,以建立文本分类模型,利用数据集文本分类模型进行训练,得到文本分类预测模型;通过参数优化算法Adam对文本分类预测模型进行参数优化,得到最佳文本分类预测模型;将测试集输入最佳文本分类预测模型中得到分类预测结果。该方法解决了文本词向量缺少全局特征的问题,也极大改善了文本分类效果。
主权项:1.一种基于深度学习的文本分类方法,其特征在于,包括以下步骤:步骤S1,获取并预处理文本数据集,并按照预设比例将预处理后的文本数据集划分为训练集和测试集;步骤S2,利用ALBERT技术将所述训练集转换为文本特征词向量;步骤S3,利用改进的深度学习算法对所述文本特征词向量进行特征提取,得到最优特征向量,其中,所述改进的深度学习模型包括注意力机制的卷积神经网络和双向GRU神经网络;步骤S4,利用CrossEntropyLoss函数改进Softmax算法的分类函数,以建立文本分类模型,利用所述数据集所述文本分类模型进行训练,得到文本分类预测模型;步骤S5,通过参数优化算法Adam对所述文本分类预测模型进行参数优化,得到最佳文本分类预测模型;步骤S6,将所述测试集输入所述最佳文本分类预测模型中,得到分类预测结果;所述步骤S3具体包括:步骤S301,利用mini-batch梯度下降法将所述文本特征词向量输入所述改进的深度学习模型中,以分别提取所述文本特征词向量的局部特征和全局特征;步骤S302,采用Attention机制分别计算所述局部特征和全局特征的权重分值,并将各个权重分值进行融合拼接,得到所述最优特征向量;所述步骤S301具体包括:步骤S3011,利用mini-batch梯度下降法将所述文本特征词向量输入卷积神经网络中,卷积层通过大小不同的卷积核提取特征词多种不同特征表达,池化层对卷积层的输出的特征进行压缩降维,得到所述局部特征;步骤S3012,利用mini-batch梯度下降法将所述文本特征词向量输入双向GRU神经网络中,得到所述全局特征。
全文数据:
权利要求:
百度查询: 哈尔滨理工大学 基于深度学习的文本分类方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。