恭喜北京工业大学乔俊飞获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜北京工业大学申请的专利基于强化学习的污水处理过程多设备神经网络最优控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118011821B 。
龙图腾网通过国家知识产权局官网在2025-03-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410175159.0,技术领域涉及:G05B13/04;该发明授权基于强化学习的污水处理过程多设备神经网络最优控制方法是由乔俊飞;陈鼎元;杨翠丽;李大鹏设计研发完成,并于2024-02-07向国家知识产权局提交的专利申请。
本基于强化学习的污水处理过程多设备神经网络最优控制方法在说明书摘要公布了:基于强化学习的污水处理过程多设备神经网络最优控制方法涉及人工智能领域。由鼓风机控制的溶解氧浓度和由回流泵控制的硝态氮浓度是影响出水水质的主要指标,因此如何实现鼓风机和回流泵的稳定跟踪控制对污水处理过程至关重要。针对这一问题,提出了基于强化学习的多设备神经网络最优控制方法。首先,将评判‑执行网络学习结构纳入控制设计。利用评判网络最小化由控制误差和控制变量组成的代价函数,并基于梯度下降算法更新网络参数。随后,考虑到污水处理过程中的未知动态特性,利用执行网络逼近未知动态,从而为控制器提供准确的信息。最后,根据网络提供的数据信息设计最优控制器,在保证控制精度的同时,降低能源消耗。
本发明授权基于强化学习的污水处理过程多设备神经网络最优控制方法在权利要求书中公布了:1.一种基于强化学习的污水处理过程多设备神经网络最优控制方法,其特征在于,步骤如下:1确定溶解氧和硝态氮浓度的动力学模型: 其中k1=0.33和k2=0.12是两个常数,并且:β1t=Q1tSNO,1t-Q2tSNO,2t2β2t=Q4tSO,4t-Q5tSO,5t3SOt=SO,S-SO,5t4其中其中SO,mt,m=4,5是生化反应池的第m区域溶解氧浓度,SNO,nt,n=1,2,5是生化反应池的第n区域的硝态氮浓度,XB,Ht为异养生物量浓度,YH=0.67代表异养生物量产率系数,μt为生长呼吸系数,KLa5t为氧传递系数,Qct为内回流量,Qqt,q=1,2,4,5为第i个池子的流速,V5=1333m3为第五区生化反应池的容积,V2=1333m3为第二区生化反应池的容积,SO,S=8mgL为溶解氧浓度饱和值,μH=4为异养细菌的最大特定生长速率,ηg=0.8为异养生长校正因子,kO=0.2为异养菌有氧呼吸饱和系数,kNO=0.5为异养菌硝态氮饱和系数;2确定模糊神经网络:网络由输入层、RBF层、归一化层和输出层组成;其网络输出结果Qt定义如下: 其中xit=[et△et],et是传感器得到的溶解氧浓度或硝态氮浓度的误差值,△et是当前误差值与上一时刻误差值的差,cijt和σijt分别是RBF层的中心和宽度值,在-11中随机产生,Θt是归一化层和输出层之间的权重值,Nt表示归一化层的输出值,k=2表示输入层中的神经元数,l=6表示RBF层或归一化层中的神经元数;3设计鼓风机控制器:①定义鼓风机控制器的跟踪误差:eOt=SO,5t-SO,sett7其中SO,5t是溶解氧的实际浓度,SO,sett为溶解氧浓度的设定值,设定值设定范围推荐在[1.82.2]中选取;②溶解氧控制器跟踪误差的导数定义为: 其中是溶解氧浓度的设定值的导数;③设计评判网络:在迭代学习阶段,通过向评判网络提供奖励或惩罚,当前的控制策略可以根据期望和实际成本函数之间的误差进行调整;长期成本函数应用如下: 其中ζ10是计算未来损失函数的常数,η1是积分项,取值范围在[t∞;瞬时代价函数则表示为: 此时,选择模糊神经网络用于逼近长期成本函数: 其中为最优输出权值,Nc1t为归一化层的输出,εc1t为网络逼近近似误差;评判网络的当前输出为:其中为当前评判网络的权值;则函数估计误差定义为: 随着时间的积累,t从0→∞,则未来损失函数的常数ζ1将从0→∞;因此在t时刻上述公式近似为: 其中为eOt的梯度;则评判网络的代价函数定义为: 基于梯度更新规律,设计为: 其中0lc11为学习率;④设计基于执行网络辨识不确定动态的自适应最优控制器:李雅普诺夫函数: 定义李雅普诺夫函数的导数为: 由于污水处理过程存在未知的动态信息,引入公式6的模糊神经网络组成的执行网络来逼近系统的不确定性; 其中为最优网络权重,Na1t为网络归一化层的输出,εa1t为鼓风机控制器的执行网络逼近近似误差;然后将期望的控制器输入设计为 其中λ1为控制系数,权重的变化为当前输出权重;因此,实际控制器输入设计为: 当前网络估计误差定义为: 然后,定义执行网络的误差为: 所以执行网络的损失函数为: 设计执行网络的自适应律为: 其中0la11为学习率;将式23代入式24进一步得到: 4设计回流泵控制器:①定义回流泵控制器的跟踪误差:eNOt=SNO,2t-SNO,sett26其中SNO,2t是硝态氮的实际浓度,SNO,sett为硝态氮浓度的设定值,设定值设定范围推荐在[0.81.2]中选取;②控制器跟踪误差的导数为: 其中是硝态氮浓度的设定值的导数;③设计评判网络:长期成本函数定义如下: 其中ζ20是计算未来损失函数的常数,η2是积分项,取值范围在[t∞;瞬时代价函数表示为: 长期成本函数被模糊神经网络逼近: 其中为最优输出权值,Nc2t为网络归一化层的输出,εc2t为网络逼近近似误差;评判网络的当前输出为:其中为当前评判网络的权值;则函数估计误差定义为: 其中随着时间的积累,t从0→∞,则未来损失函数的常数ζ2将从0→∞;为eNOt的梯度;因此在t时刻评判网络的权值更新律是: 其中0lc21为学习率;④设计基于执行网络辨识不确定动态的自适应最优控制器:考虑如下李雅普诺夫函数: 定义李雅普诺夫函数的导数为: 基于执行网络逼近系统的不确定性,期望的控制器输入是: 其中λ2为控制系数,为网络最优权值,Na2t为网络归一化层的输出,εa2t为回流泵控制器的网络逼近近似误差,为权值变化,为当前模糊神经网络权值;因此,实际控制器输入设计为: 执行网络的误差定义为: 其中为当前估计误差;执行网络的损失函数为: 则设计执行网络的自适应律为: 其中0la21为学习率;参数设定1鼓风机控制器参数设定:评判网络的参数值被设定为:学习率lc1=0.1,权值初始值宽度值σ=[4.23.15.34.36.54.2;-9.4-5.6-7.4-3.6-4.0-8.0],中心值c=[-0.1-0.2-0.3-0.4-0.6-0.7;-0.6-0.4-0.3-0.2-0.5-0.4];执行网络的参数值被设定为:学习率la1=0.1,权值初始值宽度值σ=[4.23.15.34.36.54.2;-9.4-5.6-7.4-3.6-4.0-8.0],中心值c=[-0.1-0.2-0.3-0.4-0.6-0.7;-0.6-0.4-0.3-0.2-0.5-0.4];控制器参数被设定为:λ1=325;2回流泵控制器参数设定:评判网络的参数值被设定为:学习率lc2=0.1,权值初始值宽度值σ=[-4.6-5.6-8.7-4.9-5.6-4.6;7.64.53.14.58.19.2],中心值c=[-0.4-0.6-0.7-0.4-0.9-0.5;-0.4-0.8-0.6-0.7-0.4-0.9];执行网络的参数值被设定为:学习率la2=0.1,权值初始值宽度值σ=[-4.6-5.6-8.7-4.9-5.6-4.6;7.64.53.14.58.19.2],中心值c=[-0.4-0.6-0.7-0.4-0.9-0.5;-0.4-0.8-0.6-0.7-0.4-0.9];控制器参数被设定为:λ2=274。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京工业大学,其通讯地址为:100124 北京市朝阳区平乐园100号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。