首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】大气污染数据高维回归建模的秩序类别变量冗余去除方法_四川国蓝中天环境科技集团有限公司_202410028682.0 

申请/专利权人:四川国蓝中天环境科技集团有限公司

申请日:2024-01-09

公开(公告)日:2024-03-19

公开(公告)号:CN117540346B

主分类号:G06F18/27

分类号:G06F18/27;G06F18/2113

优先权:

专利状态码:有效-授权

法律状态:2024.03.19#授权;2024.03.01#实质审查的生效;2024.02.09#公开

摘要:本发明公开了一种大气污染数据高维回归建模的秩序类别变量冗余去除方法,将类似于运渣车作业情况一样的OM特征变量转换为若干个哑变量;针对需要预测的大气污染指标是否连续建立一个最初的回归模型;根据提出的TD‑LASSO方案来探测并去除OM特征变量中的冗余类,同时达到筛选其余特征变量的目的;最后将筛选出的特征变量作为新的特征变量重新建立回归模型来预测大气污染指标。该方案简单易行,只需要对大气监控数据集中的秩序类别特征变量进行哑变量线性变换,则可将冗余类探测问题转换成回归模型的变量选择问题,可直接应用到有众多秩序类别特征变量的数据中,且能够大大降低过拟合的程度,进而能够很大程度的提高大气污染指标的预测准确性。

主权项:1.一种大气污染数据高维回归建模的秩序类别变量冗余去除方法,其特征在于,包括如下步骤:S1、获取运渣车作业情况,将运渣车作业情况的OM特征变量转换为多个哑变量;S2、根据待预测大气污染指标是否连续建立回归模型,若响应变量连续则建立线性回归模型,表示为: 若响应变量不连续则建立逻辑回归模型,表示为: 其中,N为样本量,为大气污染指标,为第个哑变量的第n个分量,为当其余特征变量为0时在特征变量为第一类别的影响下大气污染指标的期望,为当其余特征变量固定时,特征变量的第k个类别相对于第一个类别对大气污染指标期望的影响之差,为第q个自变量的第n个分量,为第q个自变量的回归系数,iid表示残差项之间相互独立且分布相同,表示均值为0方差为的正态分布,为响应变量取值为1的概率,表示服从概率为的二项分布;S3、利用TD-LASSO算法消除OM特征变量中的冗余类同时筛选得到新的OM特征变量,同时对其余特征变量进行筛选,具体方式为:S31、定义第j个哑变量和第个哑变量的系数之差,为哑变量总数,根据系数差分的定义,当其余特征变量固定时,特征变量的第个类别相对于第一个类别对大气污染指标期望的影响之差,利用所定义的系数差分对步骤S2中含有特征变量的回归模型进行改写,改写后的回归模型表示为: S32、定义线性变换,为第个哑变量的第个分量,对S31改写的模型中同系数差的哑变量进行合并,同时将S31中的模型改写得到新模型,表示为: ;;S33、令待估参数总体,其中,为当其余特征变量为0时在特征变量为第一类别的影响下大气污染指标的期望,为第个自变量的回归系数,利用LASSO惩罚回归在高维特征变量情形下对S32得到的模型进行特征变量选择;S34、根据交叉验证选择最优惩罚系数并代入LASSO惩罚回归计算待估参数的所有估计值,利用LASSO惩罚回归对所有估计值进行压缩,消除冗余类;S4、根据筛选出的新的特征变量重新建立回归模型并利用重新建立的回归模型预测大气污染指标。

全文数据:

权利要求:

百度查询: 四川国蓝中天环境科技集团有限公司 大气污染数据高维回归建模的秩序类别变量冗余去除方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。