买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:深圳前海微众银行股份有限公司
摘要:本发明涉及金融科技Fintech技术领域。本发明公开了一种基于非文本场景的文本聚类方法、装置、设备及计算机可读存储介质,本发明通过在非文本场景下,先抽取出需要分类的信息内在的逻辑关系,然后再根据该逻辑关系对其进行序列化,使得非文本场景下的待分类信息也能够转化成序列形式,从而具备文本中上下文的结构关系,便于后续的处理过程;通过将序列化后的待分类信息再进行向量化与聚类操作,最终得到非文本场景下待分类信息的所属类别,使得能够将文本聚类思想应用在非文本场景中,从而打破了现有的文本聚类方法应用范围的局限性。
主权项:1.一种基于非文本场景的文本聚类方法,其特征在于,所述基于非文本场景的文本聚类方法包括:获取非文本场景下的待分类信息,并按照所述待分类信息内在的逻辑关系将所述待分类信息进行序列化,得到由若干待分类元素组成的待分类元素序列;将所述待分类元素序列中的各所述待分类元素进行向量化,以将所述待分类元素序列转化为由若干词向量组成的待分类向量序列;利用预设的聚类算法对所述待分类向量序列进行聚类,以将若干所述词向量划分为若干所属不同类别的向量集合;将每一所述向量集合划分为类别含义明确的第一向量子集以及类别含义不明的第二向量子集;获取每一所述第一向量子集的类别含义,将所述类别含义作为同一所述向量集合中所述第一向量子集与所述第二向量子集共有的所属类别并输出;其中,所述逻辑关系包括时间顺序,所述获取非文本场景下的待分类信息,并按照所述待分类信息内在的逻辑关系将所述待分类信息进行序列化,得到由若干待分类元素组成的待分类元素序列的步骤包括:接收分类指令,并基于所述分类指令获取非文本场景下的多个待分类单词以及各所述待分类单词对应的时间信息,以作为所述待分类信息;按照基于所述时间信息所确定的时间顺序对多个所述待分类单词进行排序,并将各排序后的待分类单词作为各所述待分类元素,得到初始元素序列;结合所述非文本场景与所述初始元素序列确定间隔时长阈值,并获取每相邻的两个所述待分类元素之间的间隔时长;基于所述间隔时长阈值与所述间隔时长确定出所述初始元素序列中的无效待分类元素,将所述无效待分类元素从所述初始元素序列中删除,以形成所述待分类元素序列,其中,所述无效待分类元素为间隔时长超过所述间隔时长阈值的两个所述待分类元素中的前一个待分类元素,所述无效待分类元素与后一个待分类元素之间不具备文本中的上下文关系;其中,所述基于所述间隔时长阈值与所述间隔时长确定出所述初始元素序列中的无效待分类元素,将所述无效待分类元素从所述初始元素序列中删除,以形成所述待分类元素序列的步骤包括:逐一判断每一所述间隔时长是否超出所述间隔时长阈值;若是,则将所述间隔时长对应的相邻两个所述待分类元素中的前一待分类元素从所述初始元素序列中删除;直至遍历全部所述间隔时长,得到所述待分类元素序列。
全文数据:
权利要求:
百度查询: 深圳前海微众银行股份有限公司 基于非文本场景的文本聚类方法、装置、设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。