首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种统一社会信用代码从业人数数据补全方法与系统 

申请/专利权人:云南省标准化研究院;西南科技大学

申请日:2024-05-13

公开(公告)日:2024-06-14

公开(公告)号:CN118193515A

主分类号:G06F16/215

分类号:G06F16/215;G06F16/28;G06F16/29;G06F18/2113;G06F18/213;G06F18/23213;G06F18/27

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.07.02#实质审查的生效;2024.06.14#公开

摘要:本发明公开了一种统一社会信用代码从业人数数据补全方法与系统,涉及文件系统管理及自然语言处理领域,用以高效、准确补全统一社会信用代码从业人数数据。本发明采集统一社会信用代码数据,经预处理后,基于注册地址进行数据的聚类。将每一簇类的机构数据集进行特征提取和特征编码等操作,再根据夏普利值模型进行特征筛选,得到每一簇类特定的机构数据特征集。再分别利用XGBoost算法训练出对应不同地理空间的目标从业人数预测模型,组合构建出复合从业人数预测模型,以自适应地对不同地理空间的机构进行从业人数预测。最后将预测的从业人数信息进行后处理操作。本发明可以提高模型的性能、降低特征维度,并增强模型的可解释性。

主权项:1.一种统一社会信用代码从业人数数据补全方法,其特征在于,包括如下步骤:S1、采集机构的统一社会信用代码数据,该统一社会信用代码数据包含多种特征的数据,其中包含机构成立时间特征、从业人数特征和注册地址特征;S2、对采集的统一社会信用代码数据进行预处理,得到第一数据集;S3、基于注册地址特征对所述第一数据集进行地理空间聚类,将相似位置机构的经预处理后的统一社会信用代码数据划分到同一机构数据集中;S4、对于每个簇类,分别对机构数据集中每种特征的数据进行特征提取和数据编码操作,得到每种特征的特征值;S5、分别在每一簇类中,基于每种特征的特征值,利用夏普利值模型计算每种特征的夏普利值并以此进行特征筛选,得到每个簇类对应的机构数据特征集;S6、基于每个簇类的机构数据特征集,利用XGBoost算法训练出对应不同地理空间的目标从业人数预测模型;然后将所有目标从业人数预测模型组合构建出复合从业人数预测模型;S7、利用已训练的复合从业人数预测模型预测待补全机构的从业人数数据,并对预测结果进行后处理。

全文数据:

权利要求:

百度查询: 云南省标准化研究院;西南科技大学 一种统一社会信用代码从业人数数据补全方法与系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。