![深度强化学习核心算法与应用](https://wfqqreader-1252317822.image.myqcloud.com/cover/223/40795223/b_40795223.jpg)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.1 马尔可夫性
一个系统满足马尔可夫性[26],是指系统的下一个状态只与当前状态信息有关,而与更早之前的状态无关。从数学上来说,当且仅当以下式子成立的时候,一个状态才是满足马尔可夫性的:
![](https://epubservercos.yuewen.com/C90FAD/21190709108534506/epubprivate/OEBPS/Images/txt002_1.jpg?sign=1738822125-bOjBG3DMrwaXY0EVgQJZvkUpANFl0JUP-0-23d0a609a061b8cb07706859ca610ad6)
那么一个随机过程满足马尔可夫过程的条件是,在这个过程中的所有状态都是符合马尔可夫性的,即对于状态集合S中的任意两个状态s和s′,其状态转移概率都满足:
![](https://epubservercos.yuewen.com/C90FAD/21190709108534506/epubprivate/OEBPS/Images/txt002_2.jpg?sign=1738822125-X8bXxj8Nh6mCwUEajCCCW7YyCupu956k-0-b0ece6a720ba2398ba3e1851bc952378)
更进一步,在马尔可夫过程基础上,引入动作,即状态的转移与动作的影响有关,则成为马尔可夫决策过程,上式就转成
![](https://epubservercos.yuewen.com/C90FAD/21190709108534506/epubprivate/OEBPS/Images/txt002_3.jpg?sign=1738822125-GDCLUoqeM6uDAbcSBOWLqTrNOAHUG69W-0-6b2043d94887013dd94f20cb8b6437a4)
简单来说,马尔可夫链是定义[32],而马尔可夫决策过程中状态的转移是要通过动作来执行的。当状态不是完全可观测的时候,马尔可夫过程和马尔可夫决策过程就分别转化为隐马尔可夫模型(Hidden Markov Model)和部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP)。在本书中,我们讨论的主要是状态完全可观测的情况,有隐藏状态的决策过程通常会更加复杂。