强化学习笔记(一): 概括与基础

1. 基本概念

术语	概念
environment	需要解决的问题的整体环境
agent	与环境交互的智能体
reward	标量反馈信号,反馈 agent 在指定状态的行为评分
Full observability	agent 可以观测到环境的所有状态(MDP)
Partial observability	agent 仅可观测到部分环境(形如 POMDP)
MDP	马尔可夫决策过程,Markov Decision Process
POMDP	部分可观测马尔科夫决策过程,Partially Observed Markov Decision Process

Agent 可以由Policy,Value Function,Model中的一个或者多个组成(不同种类的 Agent)

Policy(策略),即在不同情况下 Agent 行动的准测
通常是一个把状态映射为行为的函数,例如

$\pi (a|s) = P[A_t=a|S_t=s]$

$a^* = argmax _{a}[\pi(a|s)]$

Value function(价值函数),即按照指定的策略和固定的衰减系数,未来 Reward 的加合期望
衰减系数决定行动的短期 Reward 和未来 Reward 之间的权衡

$\begin{aligned} v_{\pi} &\doteq E_{\pi}[G_t|S_t=s] \\ &= E_{\pi}[\sum_{k=0}^{\infty}\gamma ^k R_{t+k+1}|S_t=s],for all s \in S \end{aligned}$

$\begin{aligned} q_{\pi}(s,a) &\doteq E_{\pi}[G_t|S_t=s,A_t=a] \\ &= E_{\pi}[\sum_{k=0}^{\infty}\gamma ^k R_{t+k+1}|S_t=s,A_t=a] \end{aligned}$

Model(模型),即 Agent 内部对于环境的表示
有模型的 Agent 可以用模型得到下一个 state(不同 state 的概率) 和 reward

$\begin{aligned} &P_{ss}^{p} = P[S_{t+1}=s'|S_t=s,A_t=a] \\ &P_s^a = R[R|S_t=s,A_t=a] \end{aligned}$

序列决策任务即在一个任务中需要决策多次,每个决策会影响接下来的状态

首先对于序列决策任务(SequentialDecision Making)有两种分类:Planning和Reinforcement learning

探索(Exploration)和利用(Exploitation)是 agent 在决策时需要权衡(trade-off)的两个方面
(就像是去已知的还不错的理发店还是去未知的理发店理发)