买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:广东烟草梅州市有限公司
摘要:本发明涉及深度学习技术领域,尤其涉及基于深度学习的档案数据协同分析方法,包括通过按照属性或特征对数据进行划分,形成各个学习区域;通过对每个学习子区域的数据进行特征提取,为后续数据处理和分析提供基础信息;通过将获取的文本、图像和视频数据的特征向量进行汇总和整合,形成综合特征向量;通过第一深度学习集合和第二深度学习集合进行协同分析,得到协同分析偏离量,并对其进行进一步的处理和分析,以获得更深层次的洞察和理解,提供更全面、更准确的分析结果和决策支持。本发明用于解决现有方案中没有对档案数据进行深度学习和协同分析,导致档案数据分析效果不佳的的技术问题。
主权项:1.基于深度学习的档案数据协同分析方法,其特征在于:步骤一、获取目标档案数据,划分数据全域得到不同属性学习区域,进而得到对应的学习子区域;步骤二、针对学习子区域构建档案节点树,所述档案节点树包括根节点、父节点以及子节点;步骤三、结合节点树的层次结构和排列组合对档案节点树的根节点、父节点以及子节点建立关系;步骤四、对每个学习子区域的数据进行特征提取,并统计所有学习子区域的子节点数量;步骤五、引入矩阵向量,汇集获取的文本特征向量、图像特征向量以及视频特征向量,并联合三种特征向量形成该学习子区域的综合特征向量;步骤六、采用聚类分析算法获取标识值,对标识值处理分析得到第一深度学习集合;步骤七、根据档案数据的查询信息和操作记录将文本信息、图像信息以及视频信息进行实体识别和抽取,获取实体区段,并对实体区段处理分析得到第二深度学习集合;步骤八、根据第一深度学习集合和第二深度学习集合协同分析,获取协同分析偏离量,并对协同分析偏离量进一步处理分析;其中所述步骤一,获取目标档案数据,划分数据全域得到不同属性学习区域,进而得到对应的学习子区域的过程包括:获取目标档案数据,并进行数据全域划分;其中,数据全域包括第一属性学习区域,第二属性学习区域,第三属性学习区域,……,第m属性学习区域;m表示划分的属性学习区域的数量;将所有属性学习区域标记为SXQ;其中,各种不同属性学习区域表示不同属性类别的目标档案数据,每个属性类别对应一个学习区域;每个属性学习区域包括至少一个学习子区域;将所述学习子区域按照存储的文件格式细分;其中,w、p以及v分别表示文本学习子区域、图像学习子区域以及视频学习子区域;其中所述步骤二,针对学习子区域构建档案节点树的过程包括:按照学习子区域的不同存储格式创建对应的根节点;针对所述根节点创建若干父节点;基于若干父节点创建对应的子节点;其中所述步骤三,结合节点树的层次结构和排列组合对档案节点树的根节点、父节点以及子节点建立关系的过程包括:若学习子区域,则该学习子区域为文本学习子区域,将所述文本学习子区域的文本数据作为根节点,并将文本数据的文本参数记为父节点,同时将文本参数的文本类型、关键词、索引描述、页码范围、日期以及文本大小记作子节点;若学习子区域,则该学习子区域为图像学习子区域,将所述图像学习子区域的图像数据作为根节点,并将图像数据的图像参数记为父节点,同时将图像参数的项目类型、日期以及图像大小记作子节点;若学习子区域,则该学习子区域为视频学习子区域,将所述视频学习子区域的视频数据作为根节点,并将视频数据的视频参数记为父节点,同时将视频参数的项目类型、日期以及视频大小记作子节点;其中所述步骤四,对每个学习子区域的数据进行特征提取,并统计所有学习子区域的子节点数量的过程包括:将不同学习子区域的子节点进行提取特征分别得到文本特征、图像特征以及视频特征;获取相应文本特征的子节点数量包、图像特征的子节点数据包以及视频特征的子节点数据包;其中,d表示文本特征的子节点数量包的编号,且d=1,2,……,n;n表示文本特征的子节点数量包的总数;f表示图像特征的子节点数据包的编号,且f=1,2,……,k;k表示图像特征的子节点数据包的总数;g表示视频特征的子节点数据包的编号,且g=1,2,……,j;j表示视频特征的子节点数据包的总数;其中所述步骤五,引入矩阵向量,汇集获取的文本特征向量、图像特征向量以及视频特征向量,并联合三种特征向量形成该学习子区域的综合特征向量的过程包括:基于数据特征提取和子节点数量统计结果引入矩阵向量记号: ,,,利用公式计算得到学习子区域的综合特征向量X;其中,;式中,a为发展系数,bi为支撑系数,D为支撑项,r为支撑项D的支撑指数,R为不同特征向量的预设比例系数;i=1,2,……,u;且0<u<1,r为大于0的实数;其中所述步骤六,采用聚类分析算法获取标识值,对标识值处理分析得到第一深度学习集合的过程包括:利用聚类分析算法L将获取的综合特征向量X映射为一个标识值SY:SY=L(X);其中,聚类分析算法选择K-Means算法;通过将时间戳附加到标识值SY上,形成该学习子区域的唯一标识值SY0;获取各个学习子区域的唯一标识值集合,并合并成第一深度学习集合;其中所述步骤七,根据档案数据的查询信息和操作记录将文本信息、图像信息以及视频信息进行实体识别和抽取,获取实体区段,并对实体区段处理分析得到第二深度学习集合的过程包括:从文本、图像以及视频信息中抽取实体和关系信息,获取单个或任意多个三元组;将抽取的实体和关系信息存入学习三元组集合Trip;其中的元素是形式为(c,h,t)的三元组;其中,c、h以及t分别表示文本元素、图像元素以及视频元素;统计数据库中档案数据的查询次数xs和操作频次zp;根据学习三元组集合中的数据生成实体区段;使用生成的实体区块构建三元学习关系得到三元学习指数;其中,三元学习指数的表达式为:;式中,ℇ表示实体区段的标准变化参数,分别为不同的三元权重比例系数;通过三元学习关系表达式设置各实体区段的唯一基准值,并合并获取第二深度学习集合;其中所述步骤八,根据第一深度学习集合和第二深度学习集合协同分析,获取协同分析偏离量,并对协同分析偏离量进一步处理分析的过程包括:获取第一深度学习集合H1和第二深度学习集合H2;对第一深度学习集合H1和第二深度学习集合H2进行积分,计算得到协同分析偏离量PL;其中,协同分析偏离量的公式为:;式中,和分别代表第一深度学习集合和第二深度学习集合中的实体区段或学习子区域,函数是衡量两个实体区段之间关系的指标或度量方法,积分符号∫表示对所有实体区段或学习子区域进行积分;设置协同分析偏离量的临界阈值;将获取的各个协同分析偏离量与预设的临界阈值进行比较;筛选出小于预设的临界阈值的协同分析偏离量,并统计筛选出的协同分析偏离量的数量G;若G小于等于1,则将筛选出的协同分析偏离量对应的第一深度学习集合作为协同分析最佳方案;若G大于1,则将第一深度学习集合清除,并自动生成清除信号,同时重新获取第一深度学习集合,重复以上操作。
全文数据:
权利要求:
百度查询: 广东烟草梅州市有限公司 基于深度学习的档案数据协同分析方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。