基于约束型TD3的动态探索噪声改进算法

分享到

【作者】陈春甫，穆煜，韩凯涛
【刊名】现代信息科技
【作者单位】¹太原师范学院计算机科学与技术学院；²太原工业学院
【年份】2025
【卷号】第9卷
【期号】第7期
【页码】103-108
【ISSN】2096-4706
【关键词】安全强化学习约束马尔科夫决策过程轨迹规划 TD3算法
【摘要】本研究针对无约束探索可能致使移动小车受损的问题，提出一种融合自适应噪声探索与拉格朗日乘子约束的强化学习方法，旨在优化小车到达目标点的轨迹规划。此方法通过动态调节噪声来提升探索效率，运用TD3算法应对连续动作空间，借助拉格朗日乘子法处理约束条件，这与直接在马尔科夫决策过程中添加非期望行为惩罚的方式有所不同。仿真实验表明，该方法能够有效地引导小车避开障碍物，减少违反约束的情形，同时保障任务的安全性与可靠性，呈现出良好的训练收敛特性。
【文献类型】期刊