首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于模糊Q-learning的能量收集无线传感器占空比自适应调节方法_宁夏大学_202210663594.9 

申请/专利权人:宁夏大学

申请日:2022-06-10

公开(公告)日:2024-06-14

公开(公告)号:CN115086903B

主分类号:H04W4/38

分类号:H04W4/38;H04W52/02

优先权:

专利状态码:有效-授权

法律状态:2024.06.14#授权;2022.10.11#实质审查的生效;2022.09.20#公开

摘要:本发明提供基于模糊Q‑learning的能量收集无线传感器占空比自适应调节方法,属于无线传感器技术领域。包括:建立无线传感器能量管理模型S,A,Psa,R;建立Q表,Q表中的值记为qski,aj;获取节点在t时刻的状态空间St,St=[Eht,Svt];利用模糊推理系统计算St触发模糊规则k的触发强度ωki;通过ε‑greedy策略根据,从A中选择模糊规则k对应激活的动作aj;基于奖励函数R,计算出St执行动作aj的环境奖励Rsi,aj,并进一步根据环境奖励Rsi,aj更新Q表中的qski,aj;基于aj和触发强度ωki计算出节点在t时刻的占空比更替值dct;修改节点的占空比为dct并进入t+1时刻,得出新的状态空间St+1;根据新的状态空间St+1作为输入执行占空比调节操作,重复前述步骤,直至学习时间到达学习时长Ttotal。

主权项:1.一种基于模糊Q-learning的能量收集无线传感器占空比自适应调节方法,其特征在于,包括:步骤S1,建立无线传感器能量管理模型S,A,Psa,R,其中,S为状态空间集合,A为节点睡眠动作空间集合,Psa为所述S中各状态si经过动作aj转移到下一状态s′i的概率分布集,R为奖励函数,si∈S,s′i∈S,i∈[1,I],aj∈A,j∈[1,M];步骤S2,建立Q表,所述Q表中的值记为qski,aj,并初始化所述Q表,其中,规定Q-learning学习时长为Ttotal,单回合时长为Tepisode,更新间隔时长为△t,ski为所述si输入模糊推理系统后采用模糊规则k;步骤S3,获取节点在t时刻的状态空间St,St=[Eht,Svt],St∈S,St=si,其中,所述Eht表示t时刻所述节点的能量收集单元收集的能量,Svt表示t时刻无线传感器的超级电容电压;步骤S4,利用所述模糊推理系统计算所述St触发所述模糊规则k的触发强度ωki,k∈[1,N];步骤S5,通过ε-greedy策略根据,从所述A中选择所述模糊规则k对应激活的动作aj;步骤S6,基于所述奖励函数R,计算出所述St执行所述动作aj的环境奖励Rsi,aj,并进一步根据所述环境奖励Rsi,aj更新所述Q表中的所述qski,aj;步骤S7,基于所述aj和所述触发强度ωki计算出所述节点在t时刻的占空比更替值dct;步骤S8,修改所述节点的占空比为所述dct并进入t+1时刻,得出新的状态空间St+1,St+1=[Eht+1,Svt+1],St+1∈S,St+1=s′i;步骤S9,返回执行步骤S4,根据所述新的状态空间St+1作为输入执行占空比调节操作,通过重复执行步骤S4-S8,直至学习时间到达所述学习时长Ttotal;所述步骤S4利用所述模糊推理系统计算所述St触发所述模糊规则k的触发强度ωki包括:步骤S41,制定N个所述模糊规则和隶属度函数,定义所述状态空间St中的所述Eht为三角形隶属函数,定义所述状态空间St中的所述Svt为梯形隶属函数,所述模糊规则k∈[1,N];步骤S42,在所述S中找到与所述状态空间St相同的所述si,si=[Ehsi,Svsi],将所述si作为输入变量输入所述模糊推理系统,计算所述模糊规则k的触发强度ωki: 其中,代表所述模糊规则k下输入变量所述si中所述Ehsi通过隶属度函数计算得到的隶属度值,代表所述模糊规则k下输入变量所述si中所述Svsi通过隶属度函数计算得到的隶属度值;所述步骤S6基于所述奖励函数R,计算出所述St执行所述动作aj的环境奖励Rsi,aj,并进一步根据所述环境奖励Rsi,aj更新所述Q表中的所述qski,aj包括:步骤S61,通过阈值分类的方法,将所述超级电容电压分为low、medium、high三个状态;步骤S62,根据所述Svt所处的状态进行实时环境奖励,当所述Svt处于所述low状态时, 当所述Svt处于所述medium状态时, 当所述Svt处于所述high状态时, 其中,符号β、符号θ是计算参数,所述ENOc为能量中性阈值,所述ENOs为所述节点的能量中性状态,ENOs、ENOc的迭代公式为:ENOst+1=ENOst+EneutENOct+1=ENOct+μ×ENOavet-ENOctEneut=Eht–Ect其中,所述Ect表示t时刻所述节点的能量消耗单元消耗的能量,ENOavet为上一回合时间段的能量中性值平均值,μ为能量中性阈值更新参数;步骤S63,根据所述环境奖励Rsi,aj更新所述Q表中的所述qski,aj:qski,aj←qski,aj+α·Δqski,aj 其中,所述Qski,aj是所述si基于所述模糊规则k执行动作aj的Q值计算值,所述Qs′ki,aj是所述下一状态s′i动作的Q值计算值,所述为所述下一状态s′i的最优动作,α是参数学习率,γ是折扣因子;所述步骤S7中所述占空比更替值dct的计算式为:

全文数据:

权利要求:

百度查询: 宁夏大学 基于模糊Q-learning的能量收集无线传感器占空比自适应调节方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。