恭喜浙江工商大学;衢州光明电力投资集团有限公司赋腾科技分公司孙杰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜浙江工商大学;衢州光明电力投资集团有限公司赋腾科技分公司申请的专利基于图数据库和向量数据库的数据处理和存储方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118964514B 。
龙图腾网通过国家知识产权局官网在2025-05-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411421476.2,技术领域涉及:G06F16/31;该发明授权基于图数据库和向量数据库的数据处理和存储方法及装置是由孙杰;祁亮;华璟;王勋;李晓宇;顾志伟;郑俊设计研发完成,并于2024-10-12向国家知识产权局提交的专利申请。
本基于图数据库和向量数据库的数据处理和存储方法及装置在说明书摘要公布了:本发明公开了一种基于图数据库和向量数据库的数据处理和存储方法及装置。基于图数据库和向量数据库,结合LayoutLMv3模型、Transformer模型与OCR技术,旨在高效地解析、存储和检索非结构化文档。本发明首先将文档转换为图像,使用布局分析模型LayoutLMv3模型识别图像中的文本、图像、表格几类区域,然后使用三类解析器分析包含数据的区域,特别的,由于表格数据结构的复杂性,使用表格分析模型将表格转为文本表示,最后,将所得到的所有数据进行结构化分割,分别保存在图数据库和向量数据库中,以实现对数据检索的高准确性和高效率性,为大数据分析和大语言模型应用提供了强大的支持。
本发明授权基于图数据库和向量数据库的数据处理和存储方法及装置在权利要求书中公布了:1.一种基于图数据库和向量数据库的数据处理和存储方法,其特征在于,该方法包括以下步骤:步骤1:基于LayoutLMv3模型识别文档布局以及基于Transformer模型进行表格格式转换,将识别后的内容转换成Markdown格式并存储;通过构建布局检测模型,分析文档布局,构建步骤如下:1)获取模型训练的数据集,包括Publaynet数据集和手动收集标注的自建数据集,并划分为训练集和测试集;2)设计布局检测模型架构,基于LayoutLMv3架构利用文档图像来识别文档的结构,将文档转换为文档图像后,使用布局检测模型分析文档图像的内容布局,将文档图像划分出文本、图像、表格3类区域,并用不同的颜色进行表示;布局检测模型输出所有区域框的四个边界值,表示区域在图像中的位置,每个检测到的区域会被分配一个类别标签;提取文本、图像和表格区域的内容,将提取的数据保存为Markdown格式;所述布局检测模型使用文本-图像多模态transformer来学习跨模态特征,通过使用掩码语言建模MLM、掩码图像建模MIM和词块对齐WPA三个模块实现对文本信息和图像信息的捕捉;其中掩码语言建模随机遮盖一部分的文本词向量,但保留对应的二维位置信息,任务目标是根据未被遮盖的图文和布局信息还原文本中被遮盖的词;掩码图像建模随机遮盖一部分的图像块,任务目标是根据未被遮盖的文本和图像的信息还原被遮盖的图像块经过离散化的ID;词块对齐通过显式地预测一个文本词的对应图像块是否被掩盖来学习语言和视觉模态之间的细粒度对齐关系;3)训练布局检测模型,设定学习率,通过交叉熵损失函数来衡量模型预测与实际标签之间的差异,并通过Adam优化器对模型参数进行更新;步骤2:基于大语言模型提取Markdown格式文件中文档的主题、参考文件和附录关键信息;步骤3:将Markdown格式文件转换为结构化数据,进行数据块划分存入向量数据库,基于文档的关键信息,构建文档间的关系类型集合,生成可视化知识图谱;具体为:将转换后的Markdown格式的文档进行结构化划分,保存在图数据库neo4j和向量数据库elasticsearch中,具体步骤如下:1)针对Markdown文档进行结构化划分;对于文本数据,以标题作为段落的划分依据,对于段落内的文本,采用滑动窗口技术进行划分数据块;对于表格和图像数据,以每个实体为单位,将每个表格或图像视为一个独立的数据块;2)定义实体类型集合和关系类型集合,其中实体类型集合文档名和文档类型;关系类型集合基于文档的主题、参考文件、附录关键信息,生成文档之间的联系;将得到的实体关系二元组导入neo4j数据库,构建一个以“主题”为核心的图数据库,形成一个互联的信息网络,在这个网络中,“主题”节点占据中心地位,与多个“文件”节点相连,每个“文件”节点均是一个丰富的信息集合,包含“参考文件”、“es索引”、“附件”子节点;所有节点通过参考文件、附录的关系类型与其他节点相连,形成一个复杂的语义网络,得到可视化文档关系知识图谱;3)在elasticsearch中创建一个关联类型的索引,该索引存储了文档的具体数据,索引的结构由属性信息组成,属性包括索引的唯一id,文档的唯一的file_id,文档的theme,content,embedding,type和level;4)依据划分的数据块,使用BGE-embedding向量化模型将所有数据块拓展后保存在elasticsearch向量数据库中;具体的,将数据块以向量化表示,对于图像数据,在转为向量表示后,单独在elasticsearch中存储,使用BGE-embedding向量化模型,向量化划分的数据块,在elasticsearch数据库中以文件作为索引,每个文件包括多个数据块,每个数据块有着独自的数据类型;同时在elasticsearch数据库保存文件数据块的原始版本,即未经过向量化的版本,以实现混合检索。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江工商大学;衢州光明电力投资集团有限公司赋腾科技分公司,其通讯地址为:310012 浙江省杭州市西湖区教工路149号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。