首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种用于整合多源异构数据集的集成方法及系统_成都数据集团股份有限公司_202410643283.5 

申请/专利权人:成都数据集团股份有限公司

申请日:2024-05-23

公开(公告)日:2024-06-21

公开(公告)号:CN118228036A

主分类号:G06F18/213

分类号:G06F18/213;G06F18/241;G06F21/60;G06F21/62;G06N3/0464;G06N3/08

优先权:

专利状态码:在审-公开

法律状态:2024.06.21#公开

摘要:本发明公开了一种用于整合多源异构数据集的集成方法及系统,涉及数据处理技术领域。包括数据集获取:建立临时数据库和与临时数据库相关联的临时资源库。本发明能够根据用户需求和它的多个目标特征建立一个较大的搜索范围,并基于这个搜索范围对多源异构数据进行有目标的特征提取,从而能够更加细化多源异构数据便于应对用户需求,便于用户快速地、精确地查找到所需要的数据,特征提取模型训练中对训练数据的需求量较大,现有技术中收集的原始数据难以支撑特征提取模型的训练,依靠生成对抗网络对原始数据进行数据衍生生成训练数据集,保证特征提取模型的训练和建立,避免需要大量人工对数据进行手动标注,利于降低资源的占用。

主权项:1.一种用于整合多源异构数据集的集成方法,其特征在于:所述方法包括:数据集获取:建立临时数据库和与临时数据库相关联的临时资源库,获取多源异构数据集,将多源异构数据集拆分成多条基本数据再依据排序方法对多条基本数据进行排序后导入临时数据库和临时资源库中;需求获取:获取目标需求,目标需求包括反馈基本信息、特征方向和至少一个目标特征;特征提取:对被拆分的多条基本数据进行数据清洗,基于清洗后的基本数据依靠特征提取模型进行特征方向的专项提取得到多条基本数据的特征集;数据获取:选取特征集中与目标特征对应的基本数据形成至少一个目标数据子集;集成输出:将目标数据子集合并成为单个数据集并依据反馈基本信息进行输出;特征提取模型的建立方法包括:步骤一:数据收集:获取含有特征标注的数据,对数据进行去重、处理缺失值以及处理异常值得到原始数据,通过数据衍生方法,对原始数据进行衍生得到训练数据集;步骤二:模型选择:选取训练模型作为模型基体;步骤三:模型训练:将原始数据和训练数据集导入模型中,供模型进行训练后得到原始模型;步骤四:模型调整:获取测试数据,使用原始模型对测试数据中的特征进行提取,对模型进行测试,测试完毕后根据测试结果对模型进行相应的参数调整和优化后得到特征提取模型。

全文数据:

权利要求:

百度查询: 成都数据集团股份有限公司 一种用于整合多源异构数据集的集成方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。