基于逆强化学习的奇异摄动系统最优控制算法研究
DOI:
CSTR:
作者:
作者单位:

江南大学轻工过程先进控制教育部重点实验室

作者简介:

通讯作者:

中图分类号:

基金项目:


Inverse Reinforcement Learning Based Optimal Control of Singular Perturbation Systems
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    针对具有双时间尺度特性的奇异摄动系统最优控制,给出一种基于全阶模型直接求解的逆强化学习算法,对比传统的将原始奇异摄动系统经时间尺度分离为快慢两个时间尺度的复合控制方法,降低了问题求解的复杂度。首先设计了一种基于模型的策略迭代逆强化学习算法,利用系统动力学和最优控制策略增益来重构未知成本函数;在此基础上,采用无模型off-policy 逆强化学习算法,仅依赖于系统显示的最优行为数据,无需系统动力学模型和最优控制策略增益的先验知识,即可准确重构成本函数,使系统能够跟踪学习最优行为,同时在存在探测噪声的情况下也能实现无偏估计,仿真算例实验验证了方法的有效性。

    Abstract:

    In this paper, a new inverse reinforcement learning algorithm is presented, which uses a full-order model to directly solve the optimal control problem of singular perturbation systems with two time scale characteristics. Compared with the traditional composite control method, which divides the original singular perturbation systems into fast time-scale systems and slow time-scale systems, the complexity of solving the problem is reduced. Firstly, a model-based strategy iterative inverse reinforcement learning algorithm is designed to reconstruct the unknown cost function using system dynamics and optimal control strategy gain. On this basis, the model-free off-policy inverse reinforcement learning algorithm is adopted, which only relies on the optimal behavior data displayed by the system and can accurately reconstruct the cost function without the prior knowledge of the system dynamics model and the gain of the optimal control strategy, so that the system can imitate the optimal behavior and realize unbiase

    参考文献
    相似文献
    引证文献
引用本文

沈敏胤,刘飞.基于逆强化学习的奇异摄动系统最优控制算法研究计算机测量与控制[J].,2025,33(12):96-104.

复制
分享
相关视频

文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2024-11-15
  • 最后修改日期:2024-12-24
  • 录用日期:2025-01-02
  • 在线发布日期: 2025-12-24
  • 出版日期:
文章二维码