首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于最大相关最小冗余判据的用户用电特征选择方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:国家电网有限公司;河海大学;国网江苏省电力有限公司

摘要:本发明公开了一种基于最大相关最小冗余判据的电力用户用电特征选择方法,包括以下步骤:将智能量测终端采集的用户用电数据进行预处理,包括缺失数据与失真数据的填补与剔除;给出聚类类别数k值的选取方法,通过构造聚合回报指标,兼具集聚度与分离度,得到最优k值并完成聚类;给出综合考虑特征的有效性与精简性的特征选取方法,采用最大相关最小冗余准则为判据,通过遍历法求解得到最优特征集。相比现有技术,本发明的方法可为优选出兼顾有效性与精简性的最优特征集,面对大数据环境下用电数据快速增长的情况,所选取的优质用电特征集,不仅能大大减少分析时所需计算的数据,降低计算量,同时能有效地提高分析性能。

主权项:1.一种基于最大相关最小冗余判据的电力用户用电特征选择方法,其包括以下步骤:步骤A、对负荷数据进行预处理,预处理包括缺失数据与失真数据的填补与剔除以及用电数据归一化处理;步骤B、综合计算预处理后的负荷数据的簇内集聚度、类间离散度,构造聚合回报指标,选取合适k值,并在此基础上完成k-means聚类;步骤C、结合有效性与冗余性指标,基于最大相关最小冗余判据,采用遍历法提取优质用电特征集;步骤A所述对负荷数据进行预处理,具体按照以下方法:步骤A1、滤除样本集中的不合理数据,包括有部分缺失、数据过大以及日用电均为零的用户数据;步骤A2、将滤除后得到的样本数据进行归一化处理,其表达式如下: 式中:为第个用户第时刻的归一化值;为第个用户第时刻的用电量;和分别为第个用户日用电的最大值和最小值;步骤B所述综合计算簇内集聚度、类间离散度,构造聚合回报指标,选取合适k值,并在此基础上完成k-means聚类,具体按照以下方法:步骤B1、误差平方和sumofsquarederror,SSE的定义如下: 式中,为第个类别;为中的样本点;为的质心,即所有样本的均值;当值小于最佳聚类数时,值的增加会大幅增加每个簇的集聚程度,故SSE值的下降幅度会陡增,而当值达到最佳聚类数时,再增加值所得到的集聚程度回报会迅速变小,SSE值下降幅度会骤减;步骤B2、为量化集聚程度回报大小,定义误差降低系数为: 步骤B3、针对样本点,假设其被聚类到簇A,则其轮廓系数如下: 式中,为样本到簇A其他样本点的平均欧式距离;对于簇B而言,令:为样本与簇B中所有样本的平均欧氏距离,则,即为样本到其他簇的平均距离的最小值;求出所有样本的轮廓系数后取平均值即可得到样本集的平均轮廓系数: 式中,为平均轮廓系数;为总样本集;为总样本数;步骤B4、误差降低系数反映的是簇内集聚度,平均轮廓系数则体现了簇间分离度,因此,综合两个系数定义了聚合回报指标: 给定一个最大聚类数,取的范围内每个整数作为聚类数,分别进行一次聚类,当聚合回报指标值最大时,聚类结果最优,通过定义聚合回报指标,实现最佳聚类数值的自动确定;确定最佳值后,采用k-means算法对样本进行聚类分析;步骤C所述结合有效性与冗余性指标,基于最大相关最小冗余判据,采用遍历法提取优质用电特征集的步骤中,具体按照以下方法:步骤C1、构建初始特征集;采用源于用电曲线的用电特征来表征用户用电行为;用电特征分为两大类:一类是直观描述型,包括日用电量,日最大负荷、日最小负荷、日平均负荷,日峰谷差;另一类是比值描述型,包括谷电系数,日负荷率、日峰谷差率,峰时耗电率,平时段用电百分比;原始特征集由上述两大类特征组合构成,记为;步骤C2、对用电特征进行变量域离散化处理;把各用电特征的数值序列转化为概率分布区间,对特征集进行归一化处理,将用电特征数值序列区间均匀离散,得到用电特征数值序列的概率分布,继而完成对各个用电特征与用户类别的互信息计算;步骤C3、以互信息为基础构建最大相关性指标;第个用电特征的熵的计算公式为: 式中,为用电特征的区间数量;为用电特征落在第个区间的样本个数;为总样本数;底数取2;用户类别的信息熵为: 式中,为用户总类别数;为属于第个类别的样本个数;底数取2;第个用电特征与用户类别的联合信息熵为: 式中,为落在第个区间且用户类别恰好为的样本个数;底数取2;第个用电特征与用户类别的互信息定义为: 根据上式分别求出每个用电特征与用户类别间的互信息;最大相关性指标为: 式中,与为最优特征集及其所包含用电特征的个数;为中第个用电特征和用户类别之间的互信息值;步骤C4、以相关系数为基础构建最小冗余性指标;两个用电特征间信息的冗余性用相关系数指标来衡量,其公式如下: 式中,和分别为最优特征集中第和第个用电特征;为两个用电特征的协方差;和分别为用电特征和的标准差;为两个用电特征的相关系数,取值范围为[-1,1],绝对值越接近于1,相关性越大,越接近0,相关性越小;最小冗余性指标为: 步骤C5、综合两个指标得到最大相关最小冗余准则;相应的公式如下: 求解满足最大相关最小冗余准则的特征集即为最优特征集;步骤C6、采用遍历法求解最大相关最小冗余准则,得到最优特征集;令为用电特征的集合隶属度指示函数,对其进行0-1编码,表示该用电特征存在于中,则表示在中不存在标签;为简化公式表达,将互信息与相关系数分别用与表示,即: 将上式代入后得到: 遍历至得到使mRMR最大的向量,解码后得到最优特征集。

全文数据:

权利要求:

百度查询: 国家电网有限公司 河海大学 国网江苏省电力有限公司 一种基于最大相关最小冗余判据的用户用电特征选择方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。