RL Chapter14 Psychology Report
强化学习-14章-学习报告 • 11 June 2017
本章旨在讨论强化学习与心理学动物与人类学习实验研究之间的对应关系。
-
在强化学习中,探索不必局限于“盲目摸索“;只要有一些探索,可以通过使用先天和先前学习的知识的复杂方法来产生试验。
-
本书中提出的强化学习算法包括两个解决延迟加固问题的基本机制:资格跟踪和通过TD算法学习的价值函数。这两种机制都有动物学习理论的前提。
- 资格痕迹类似于早期理论的刺激痕迹,
- 价值函数对应于次级强化在提供几乎立即的评估反馈中的作用。
- 强化学习的环境模型和心理学家所说的认知图之间的对应关系。
- 强化学习在无模型和基于模型的算法之间的区别对应于习惯性和目标导向行为之间心理学的区别。
- 结果贬值实验提供关于动物的行为是习惯性的还是在目标导向控制下的信息。加强学习理论有助于澄清对这些问题的思考。