首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于DA_FASTTEXT的文档分类方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京烽火星空通信发展有限公司

摘要:本发明公开了一种基于DA_FASTTEXT的文档分类方法,包括如下步骤:S1、邮件文档预处理;S2、通过DA算法对FASTTEXT进行参数寻优;S3、DA_FASTTEXT分类模型训练;S4、实时邮件分类,对邮件主题、邮件内容、附件标题和附件内容进行解析,并将解析后的内容分别进行jieba分词,按分词后的邮件主题、邮件内容、附件标题、附件内容顺序拼接后输入到DA_FASTTEXT模型中,获取当前邮件对应的类别信息返回给用户。该种基于DA_FASTTEXT的文档分类方法,采用FASTTEXT算法对邮件文档进行分类识别,提高模型识别的准确性和效率;对于FASTTEXT算法参数较多难以快速拟合问题,利用DA算法对参数进行寻优,得到最优的FASTTEXT分类模型。

主权项:1.一种基于DA_FASTTEXT的文档分类方法,其特征在于,包括如下步骤:S1、邮件文档预处理;S2、通过DA算法对FASTTEXT进行参数寻优,具体流程如下:S2-1、初始化DA算法参数:最大迭代次数MAX_EPOCHS,种群数量N;S2-2、初始化搜索空间中蜻蜓的位置向量X,步长向量ΔX,FASTTEXT模型参数:学习因子lr、训练迭代次数epoch和向量维度dim组合形成各只蜻蜓需优化的参数组合,其中X矩阵的第1,2,3行分别存放lr、epoch和dim的值;S2-3、根据DA算法更新当前迭代次数t时蜻蜓的位置向量Xt+1;S2-4、计算适应度值;S2-5、搜寻领域中有无蜻蜓个体存在,以欧式距离作为领域中有无蜻蜓存在的根据,若存在,则取N0情况下的位置向量更新公式,更新位置与步长,若不存在,用N=0情况下的位置向量更新公式对位置进行更新;S2-6、计算蜻蜓5个行为的行为位置向量以及对应的权重s,a,c,f,e的值;S2-7、更新位置向量X和步长向量ΔX;S2-8、判断迭代次数是否到达最大迭代次数,若满足条件,则直接跳出,同时输出最优参数组合,若不满足,则迭代次数+1,跳转执行步骤S2-3;S3、DA_FASTTEXT分类模型训练,具体流程如下:S3-1、设置FASTEXT算法的模型参数,学习因子lr,训练迭代次数epoch和向量维度dim为DA算法得到的最优参数组合;S3-2、采用邮件文档预处理得到的训练数据对FASTTEXT模型进行模型训练,最终得到最优的DA_FASTTEXT邮件分类模型;S4、实时邮件分类,具体流程如下:S4-1、对邮件主题、邮件内容、附件标题和附件内容进行解析;S4-2、将解析后的内容分别进行jieba分词,按分词后的邮件主题、邮件内容、附件标题、附件内容顺序拼接后输入到DA_FASTTEXT模型中,获取当前邮件对应的类别信息返回给用户。

全文数据:

权利要求:

百度查询: 南京烽火星空通信发展有限公司 一种基于DA_FASTTEXT的文档分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。