资 源 简 介
值迭代基于近似适应动态规划 (ADP) 按 infinitehorizon 与确定性的动力学方程和连续状态与动作空间的最优控制问题的近似解进行了研究。学习迭代被分解成一个外循环和内循环。收敛到最优解的外循环迭代的一个相对简单的证明被提供一些新的特点与使用一个新奇的主意。它提出了在迭代期间的价值功能和固定决赛时间最优控制问题的价值函数之间的类比。内部循环利用,避免求解一组非线性方程需要或一个非线性优化问题进行了数值,在每次迭代的 ADP 的策略更新。得到政策更新方程解的唯一性和内循环迭代解的收敛的充分条件。之后,这些结果被形成作为一种学习算法训练神经网络控制器或创建一个查找表来用于具有不同初始条件下的非线性系统的最优控制。最后,一些调查方法的特点进行了数值分析。