#机器学习17--增强学习——拟合的值迭代法(fitted value iterator) 本章不是很理解,只是把笔记摘录了一些。 首先讲到了离散化。 ## Learn a Model 1. 对于如下序列 我们定义Model或者Simulator为: \[S_{t+1}=AS_t+Ba_t\] 2. 然后,我们通过最小化下面的误差就可以得到参数:
拟合的值迭代法(fitted value iterator)
随机的Simulator
通过随机采样,求取平均值,来模拟当前状态s的值函数;然后,最小化误差函数,来估计参数。 1. 取样 取样{\(s^{1},...,s^{m}\)} 包含于\(S\) randomly 2. 初始化 初始化θ:=0 3. 重复迭代 > 大致思路:公有m个状态。通过随机采样k个状态s,求平均值获得\(q(a)\);通过不同的行为获得\(y^{(i)}\),求得值函数的最大值;对每一个状态,通过最小化误差函数求取参数θ。
确定的Simulator
模型确定,即我们知道了\(S_{t+1}=AS_t+Ba_t\),或者\(S_{t+1}=f(s ~ a)\);从而可以确定下一个状态。我们只需要对每一个状态,通过最小化误差函数求取参数θ。对于上面的步骤,设\(k=1\)。
不确定的Simulator
采用如下方式: > 其中,${}_{t} $为误差,服从高斯分布。
#NG老师的详细过程