买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:太原科技大学
摘要:本发明提供了一种基于HD‑MSCNN的层次结构文本自动分类框架,该分类框架主要包括四部分:1局部共享层;2粗粒度分类器C;3细粒度层分类器Fk;4概率平均层;在分类器构建阶段采用基于深度学习的多尺度卷积神经网络MSCNN算法,该算法通过残差网络加空洞卷积的网络结构覆盖完整的全局上下文信息,而不是局部上下文信息,增加了模型的容量和性能,同时利用扩展槽机制增强了模型的可扩展性,当加入新的类别时,可快速完成模型升级而不需要重新训练。基于HD‑MSCNN的多层次分类框架具有分类精度高、可扩展性好、鲁棒性强的特点,其在大规模文本分类领域具有更好的性能。
主权项:1.基于HD-MSCNN的层次结构文本自动分类框架,其特征在于,文本自动分类框架包括下几部分:1局部共享层:采用局部共享信息分类策略,每个分类器都有一个该分类范围内独有的共享层,局部共享信息通过学习兄弟节点间的类别描述信息来促进模型的分类性能,若输入的文本矩阵为n,类别描述信息为f:{1,...,k}→R,则共享层的输出为: 式中,i为兄弟节点的编号,m为兄弟节点的数量,R表示残差网络;通过局部共享层可将兄弟节点间的结构信息融入分类框架中;2粗粒度分类器C;3细粒度层分类器Fk:采用交叉的分类策略,在细粒度分类器Fk中添加更多的类别,使HD-MSCNN更少地依赖于粗类别分类器C,通过建立相似度系数来评价细粒度层类别j被错分到k类的程度,相似度系数具体为: 式中,表示细粒度层类别j的所有样本,表示非交叉分类策略下文本对象i被错分到k类的概率;设置阈值ut,当时,将j类添加到粗粒度类别k类中;4概率平均层:可用如下公式表示:pyi=j|xi=Bikpkyi=j|xi式中,Bik为文本分类信息对象xi被粗粒度分类器分到k类的概率,pkyi=j|xi表示文本分类信息对象xi被细粒度分类器分到j类的概率,pyi=j|xi表示属于j类的概率;设置阈值t,当时,概率平均层仅根据细粒度层的分类结果pkyi=j|xi进行选择;而当时,根据粗粒度分类器预测结果,选择的多个粗粒度类别,进行细粒度层预测,根据pyi=j|xi进行排序综合选择。
全文数据:
权利要求:
百度查询: 太原科技大学 基于HD-MSCNN的层次结构文本自动分类框架
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。