面向无人船路径规划的深度强化学习奖励函数优化方法

导航：龙图腾网> 最新专利技术> 面向无人船路径规划的深度强化学习奖励函数优化方法

申请/专利权人：大连海事大学

申请日：2020-09-14

公开（公告）日：2024-06-04

公开（公告）号：CN111880549B

主分类号：G05D1/43

分类号：G05D1/43;G06N3/092;G05D109/10

优先权：

专利状态码：有效-授权

法律状态：2024.06.04#授权;2020.11.20#实质审查的生效;2020.11.03#公开

摘要：本发明提供一种面向无人船路径规划的深度强化学习奖励函数优化方法，包括：S1、获取环境信息；S2、获取无人船与障碍物之间的距离以及无人船与目标点之间的距离；S3、根据船舶到达目标点的次数，给予相对应的奖励值；S4、判断船舶是否在奖励域内，根据奖励域奖励原则给予相应的奖励；S5、判断无人船是否与障碍物碰撞，给予相对应的惩罚值；S6、判断船舶是否在危险域内，根据危险域惩罚原则给予相应的惩罚，否则根据一般情况奖励原则给予奖励。本发明通过在船舶航行的目标点附近增加奖励域、在障碍物附近增加危险域，并引入计数原则，来增大或者减少获得的奖励或惩罚，加快深度强化学习算法的收敛速度，引导船舶更快地避开障碍物到达目标点。

主权项：1.一种面向无人船路径规划的深度强化学习奖励函数优化方法，其特征在于，包括：S1、获取环境信息，并对所述环境信息进行预处理，将获取的环境信息转变为实验环境中的信息；S2、获取无人船与障碍物之间的距离以及无人船与目标点之间的距离，根据所述无人船与目标点之间的距离判断无人船是否到达目标点，若到达则执行S3，否则执行S4；S3、根据船舶到达目标点的次数，给予与所述船舶到达目标点的次数相对应的奖励值，包括：若船舶到达目标点，则目标计数器加一，碰撞计数器归零，判断目标计数器是否大于阈值，如果大于直接给最大奖励，否则根据以下公式计算奖励值：其中ceil为取整函数，goal_counter为目标计数器，reward_standard_goal为到达目标点的标准奖励；S4、判断船舶是否在奖励域内，所述奖励域指的是船舶在目标点附近，还没有到达目标点，如果在奖励域内，则根据奖励域奖励原则给予相应的奖励，执行S2，否则执行S5，奖励域奖励根据以下公式计算：其中，l和D为奖励域范围阈值，d_goal为目标点的距离；S5、判断无人船是否与障碍物碰撞，根据船舶与障碍物碰撞的次数，给予与所述船舶与障碍物碰撞的次数相对应的惩罚值，执行步骤S2，否则执行S6，包括：判断船舶是否与障碍物碰撞，如果碰撞，则碰撞计数器加一，目标计数器归零，判断碰撞计数器是否大于阈值，如果大于直接给予最大惩罚，如果没有达到阈值，则根据以下公式计算惩罚值：其中，obs_counter为碰撞计数器，reward_standard_obs为碰撞障碍物的标准惩罚；S6、判断船舶是否在危险域内，所述危险域指的是船舶在某个障碍物附近，但是还没有碰撞到障碍物，如果在危险域内，则根据危险域惩罚原则给予相应的惩罚，并执行S2；否则根据一般情况奖励原则给予奖励，并执行S2，危险阈惩罚根据以下公式计算：其中，mind_obs为船舶距离障碍物的最小值，α、β和δ为危险域范围的阈值。

全文数据：

权利要求：

百度查询：大连海事大学面向无人船路径规划的深度强化学习奖励函数优化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种模具加工用定位装置

下一篇：一种锂电池外壳冲压设备

相关技术

一种模具加工用定位装置

一种锂电池外壳冲压设备

一种刀片可调节的修边机

铠甲式轮胎保护链

一种用于消毒的泵芯组装机

一种用于储水桶的多重密封结构

一种无纺布绑袋

一种具有分级过滤功能的纳滤膜元件

一种散热机箱

一种船舶舷外机通风型保护罩

一种移动式自填充胶枪

用于车辆顶板的显示装置和车辆

学习相关技术

一种面向情境学习的机器学习模型训练的方法及系统_广东电网有限责任公司_202410368726.4

基于儿童学习偏好和智能教练的自适应学习方法和系统_昫爸教育科技(北京)有限公司_202310980805.6

节气门开度传感器的学习装置及学习方法_株式会社三国_202311446617.1

存储器优化的对比学习_谷歌有限责任公司_202280076446.5

机器学习辅助的图像预测_苹果公司_201980070345.5

用于持续学习的方法和装置_罗伯特·博世有限公司_202180103671.9

一种在线视频学习中学习者注意状态智能检测系统及方法_陕西师范大学_202110305497.8

管理使用机器学习过程训练的模型_皇家飞利浦有限公司_202280073390.8

深度学习加速器系统及其方法_阿里巴巴集团控股有限公司_201980009631.0

一种挂脖式学习机_佛山市生命树文化传播有限公司_202322058516.9

深度相关技术

水环境监测用深度取水装置_邢台市南宫生态环境监控中心_202410408040.3

一种轻合金熔体深度取样装置_内蒙古蒙泰集团有限公司_202321954443.5

一种路面构造深度检测装置_湖北交投智能检测股份有限公司_202323123083.7

一种深度测量装置以及方法_山东工业陶瓷研究设计院有限公司_202111543962.8

深度学习加速器系统及其方法_阿里巴巴集团控股有限公司_201980009631.0

一种伸入深度可调的畜牧灌药器_张西伟_202420207339.8

确定地层中材料的存在和深度_特拉塞技术有限责任公司_202280055373.1

一种间甲酚深度脱硫系统及工艺_安徽海华科技集团有限公司_202210287015.5

一种船舶用深度探测仪_武汉交发船舶设计有限公司_202323177425.3

一种深度可调节的果树栽种机_坤元(巍山)农业发展有限公司_202321679390.0

强化相关技术

用于软组织增强和强化的支架_斯玛特费姆医疗技术私人有限公司_202280058474.4

基于中心区域强化的乳腺肿块检测装置_中南民族大学_202410379358.3

强化方法、不等厚柔性玻璃和电子设备_深圳市锐尔觅移动通信有限公司_202211701495.1

一种超声强化研磨装置_广州大学_202410516187.4

一种行星轮式钢球强化研磨装置_无锡金牛钢球有限公司_202410670889.8

一种锁扣式强化地板_安徽扬子地板股份有限公司_202322730769.6

一种强化烟气循环烧结的方法_武汉钢铁有限公司_202410375407.6

环氧树脂组合物、含有强化纤维的环氧树脂组合物、预浸料及使用它们的纤维强化塑料_日铁化学材料株式会社_202311791034.2

一种基于强化学习的分层式区域协调信号控制方法_东南大学_202410354348.4

基于深度强化学习的分布式计算卸载方法及装置_湖南大学_202210120047.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

面向无人船路径规划的深度强化学习奖励函数优化方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务