买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:山东大学
摘要:本发明涉及一种支持可扩展类别的文本语义哈希方法、装置、设备及存储介质,属于自然语言处理和信息检索技术领域。本发明采用文档的词频逆文档词频来表征文档内容,采用类别标签和关键词序列来表征层次化类别信息。采用文本特征自编码器对文档内容表征进行编码,最大程度的在哈希码中保留文本原始语义。采用对比学习优化文档编码器,将类别信息嵌入哈希码。采用基于预训练语言模型的自编码器编码类别信息和关键词序列,支持对原始类别和扩展类别标签序列在统一空间进行语义编码,从而支持可扩展的动态层次化类别信息。在使用阶段,将文档内容和类别标签序列的组合编码作为文档语义编码,从而支持用户自由定义类别和关键词的文本语义哈希检索。
主权项:1.一种支持可扩展类别的文本语义哈希方法,其特征在于,该方法包括以下步骤:S1、获取文本的表层特征;S2、构建可扩展层次化类别信息表征序列;所述可扩展层次化类别信息表征序列为由依次设置的多个类别标签和多个关键词构成的文本序列;S3、构建文本语义哈希模型,所述文本语义哈希模型包括文档内容哈希模块和标签序列哈希模块;利用文档内容哈希模块将表层特征编码为文档的嵌入表示,利用标签序列哈希模块将可扩展层次化类别信息表征序列编码为序列的嵌入表示,将和进行阈值转换成对应的哈希码和,拼接和得到支持可扩展类别的文档语义哈希码;所述步骤S3中,构建文本语义哈希模型,所述文本语义哈希模型包括文档内容哈希模块和标签序列哈希模块;利用文档内容哈希模块将表层特征编码为文档的嵌入表示,利用标签序列哈希模块将可扩展层次化类别信息表征序列编码为序列的嵌入表示,将和进行阈值转换成对应的哈希码和,拼接和得到支持可扩展类别的文档语义哈希码,包括:S31、构建融合层次化类别信息的文档内容哈希模块,利用文档内容哈希模块将表层特征编码为文档的嵌入表示,并对文档的嵌入表示施加层次化类别相似性约束、正则约束以及叶子类别相似性约束,重构表层特征和叶子类别向量,在重构过程中对文档内容哈希模块进行优化;S32、构建类别语义空间的标签序列哈希模块,利用标签序列哈希模块将可扩展层次化类别信息表征序列编码为序列的嵌入表示,并对序列的嵌入表示施加正则化约束,重构可扩展层次化类别信息表征序列,在重构过程中对标签序列哈希模块进行优化;S33、将文档内容哈希模块和标签序列哈希模块编码得到的和分别进行阈值转换,得到对应的哈希码和,拼接和得到支持可扩展类别的文档语义哈希码。
全文数据:
权利要求:
百度查询: 山东大学 一种支持可扩展类别的文本语义哈希方法、装置、设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。