强化学习模型中折扣因子的安全漏洞检测方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：辽宁大学

摘要：强化学习模型中折扣因子的安全漏洞检测方法，步骤为：1在强化学习模型中利用Eigen库的C++库更新策略矩阵，在矩阵运算上采用Flush+Reload技术的缓存侧信道方法，获取强化学习模型中策略矩阵的状态空间维数m和动作空间维数k后，获得完整的策略矩阵；2在Q‑learning和Sarsa这两种强化学习方法中，利用完整的策略矩阵中的数据和奖励函数的大小，获取折扣因子γ的大小；在PolicyGradient算法中，利用完整的策略矩阵中的数据和奖励函数的大小，获取折扣因子γ的大小，并判断最终漏洞情况。本发明通过上述方法，为系统的稳定运行提供保障，从而极大提高了强化学习应用的整体安全水平。

主权项：1.强化学习模型中折扣因子的安全漏洞检测方法，其特征在于：1获得完整的策略矩阵；2在Q-learning和Sarsa这两种强化学习方法中，利用完整的策略矩阵中的数据和奖励函数的大小，获取折扣因子γ的大小：在Q-learning和Sarsa这两种强化学习方法中，进行学习更新的控制策略矩阵的公式如下所示：Qs，a＝r+γ*maxQs′，a′1其中Qs，a是状态s和行动a的Q值，是在状态s时采取行动a的即时奖励，γ是折扣因子，maxQs′，a′是状态s′下对应的最大Q值；利用获得的策略矩阵中的数据推断出与特定的状态和动作相关联的Qs，a和maxQs′，a′的值，稀疏奖励函数仅在学习过程中的关键状态处提供反馈，当下一个状态是最终状态时，即时奖励r被量化为1，否则为0；在这种情况下，折扣因子γ作为唯一的未知数出现，γ＝Qs，a-rmaxQs′，a′23在PolicyGradient算法中，利用完整的策略矩阵中的数据和奖励函数的大小，获取折扣因子γ的大小，并判断最终漏洞情况：在PolicyGradient算法中，更新策略参数θs，a的过程如下：pl＝Sigmoidθs，al3pr＝Sigmoidθs，ar4其中，变量pl表示在当前状态s下向左执行动作al的概率，pr表示向右执行动作ar的概率，Sigmoid函数便于将输入数据转换为概率值；δ＝r+γ*maxpl，pr-Sigmoidθs，a5其中，变量δ用于表示当智能体处于特定的当前状态s时，选择执行特定动作a所带来的潜在优势；θs，a+＝α*δ*Sigmoidθs，a*1-Sigmoidθs，a6其中，参数α被称为学习率；如果策略矩阵已知，则确定策略参数θs，a的取值，利用求得pl和pr的公式，pl和pr成为已知变量，接着，通过应用求得θs，a的公式，推导出δ的值，δ＝Δθs，aα*Sigmoidθs，a*1-Sigmoidθs，a7其中，变量Δθs，a用于表示在更新过程之前和之后策略参数之间的差异，差异体现了策略在学习过程中的变化程度，接着，利用这个求得的δ的值，并结合稀疏奖励函数所具有的属性和特征，进一步运用数学推导或逻辑分析来得出变量γ的具体值；γ＝δ-r+Sigmoidθs，amaxpl，pr8Δm≤g9最后，如果提取的γ的值与实际中γ的值之差Δm低于一个阈值g，则强化学习模型中的折扣因子方面存在安全漏洞，相反，无安全漏洞存在。

全文数据：

权利要求：

百度查询：辽宁大学强化学习模型中折扣因子的安全漏洞检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于比载与负荷计算的输电线路风偏角计算方法及系统

下一篇：基于车群的混合交通流信号控制方法及装置

相关技术

一种基于比载与负荷计算的输电线路风偏角计算方法及系统

基于车群的混合交通流信号控制方法及装置

一种梯级水电站以电定水控制方法、系统、介质及处理器

一种船用LNG供气装置性能联调测试系统及测试方法

一种防止绝缘层破损漏电的防火分支电缆

一种堆积斜坡考虑雪崩作用物理模型试验装置及方法

一种高强高韧钢筋混凝土复合构件及其制备方法

一种火灾监测预警系统及其相关预警装置

一种车辆气压泄露预警方法、装置、电子设备及存储介质

一种多功能可折叠收纳式画架

一种基于无人机航摄数据的乔木提取方法、系统和介质

包层掺稀土增益泵浦的光纤激光器及光纤制备方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

强化学习模型中折扣因子的安全漏洞检测方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务