买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京市新技术应用研究所有限公司
摘要:一种基于主题预分类和知识图谱的多维文本分类方法,借助中间信息“文本主题”进行分类的方法,基于主题预分类和知识图谱进行多维文本分类,针对不同的主题,构建相应的分析模式,根据模式提取关键词,附加到文本向量中,由BERT网络训练出合适模型;使用时,对输入热线文本进行文本分词,结合查询知识图谱,由所述BERT网络训练好的模型进行匹配,对热线文本进行及时有效地准确分类处理,向社会职能管理部门进行准确地精细化分配,实现了对热线文本的多维准确分类。
主权项:1.一种基于主题预分类和知识图谱的多维文本分类方法,其特征在于,包括如下步骤:1数据采集:采集第一热线文本数据,进行文本分词,提取出第一关键词;2词分类:对所述第一关键词进行词分类,将所述第一关键词分出地域性词非地域性词,如果是地域性词,则直接获得上、下位关系;3主题预分类:预定义多个事件大类,针对第一关键词对事件文本语义的作用进行初始化并附以对应的权重,得到预定义规则;根据所述预定义规则进行主题预分类,如果是地域性词,则直接生成编码职能信息;4命名实体识别:采用构建同义词林的方式进行命名实体识别;5构建知识图谱:采用三元组实体A,关系R,实体B的形式以所述预定义规则来描述知识图谱,对于非地域性词,查询所述预定义规则,构造实体关系,得到知识图谱;6构建部门矩阵与虚拟职能部门:将涉及的职能部门或机构作为地域信息和职能信息的映射,并根据所述第一热线文本与所述职能部门或机构的相关度建立具体的映射关系;7模型训练:将处理后的诉求文本、抽取的实体关系编码后,作为输入,将编码后的虚拟职能部门信息作为输出,由BERT网络来训练模型,得到可用模型;8模型输出:输出所述可用模型。
全文数据:
权利要求:
百度查询: 北京市新技术应用研究所有限公司 基于主题预分类和知识图谱的多维文本分类方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。