更新时间:11-10 上传会员:狂奔的小猪
分类:工业大学 论文字数:12148 需要金币:2000个
摘要:强化学习可以算作是这几年来在人工智能和机器学习研究领域内非常热门的项目,而在强化学习与监督学习中有着许多不同之处。强化学习不需要教师信号,但是它也不等同于只能够完成有限功能的无监督学习,而这种无监督学习在学习过程中无法得到提示。强化学习强调能够获得评价性反馈信号,并且使用评价信息来达到行为决策上的优化。显而易见,强化学习具有广阔的前景。
复杂系统控制中有许多经典的问题,倒立摆就是其中之一。倒立摆系统是一种绝对不稳定的,具有非线性、多变量等多种性质的系统。而在控制过程中,倒立摆系统也是一个验证各种控制理论的很理想的模型之一。它可以反映例如可镇定性、鲁棒性和随动性等等问题。近代以来,倒立摆系统广泛应用于我们的生活当中。卫星的运行、机器人的行走等都是运用了类似倒立摆系统稳定控制的例子。显而易见倒立摆的研究具有其深刻的理论意义和重要的工程意义。
在本次的课题中,我们会以大学四年相关的学习内容作为基础,把强化学习作为研究对象,将倒立摆系统作为实验模型,进行系统科学的实验研究。我们会通过对一级单臂倒立摆的平衡控制进行研究,使系统具备学习能力,并且可以在运行的过程中获得新的内容和信息,具有类似生物的运动控制技能。本课题在强化学习和Python语言的基础上,提出了基于Q学习的的强化学习系统。我们用Pycharm进行实验仿真,证明提出的强化学习系统具有认知倒立摆系统的平衡控制技能的能力。
关键词 强化学习,Q学习算法,倒立摆系统
目录
摘要
Abstract
第一章 绪论-1
1.1 引言-1
1.2 关于强化学习-1
1.2.1 强化学习的介绍-2
1.2.2 强化学习的发展历史及研究现状-2
1.3 关于倒立摆系统-3
1.3.1 我国研究倒立摆的发展历史和现状-3
1.4 本论文主要工作及论文安排-3
第二章 强化学习理论及其算法-4
2.1 强化学习原理与模型-4
2.2 强化学习系统的组成要素-5
2.3 强化学习的主要算法-5
2.4 强化学习的主要算法-6
2.4.1 SARSA算法-6
2.4.2 Q-学习-6
2.5 强化学习的应用-7
2.6 小结-8
第三章 倒立摆系统-9
3.1 引言-9
3.2 环形倒立摆-9
3.3 直线一级倒立摆-9
3.3.1 直线一级倒立摆系统建模-10
3.4 小结-13
第四章 基于强化学习的倒立摆控制-14
4.1 引言-14
4.2 表格型强化学习算法-14
4.2.1 SARSA算法-14
4.2.2 Q学习算法-15
4.3 程序运行结果-16
4.4 仿真结果分析与结论-17
4.4.1 不同初始角度的控制效果-19
4.4.2 不同初始位置的控制效果-20
4.4.3 有外界扰动的控制效果-21
4.4.4 变换参数的控制效果-22
4.5 小结-24
第五章 总结与展望-25
参考文献-26
致 谢-28
