强化学习读书笔记,南京师范大学博士生导师高

2019-09-18 08:03栏目:科技产品中心
TAG:

十二月四日,应数学与音讯科学高校特邀,南师博导高洪俊教授在数学大学南楼s103会议场面作了题为“Stochastic strong solutions for stochastic transport equations”的学术报告。高校相关专门的职业的良师、本科生、大学生等40余名聆听了本次报告。

深化学习读书笔记 - 09 - on-policy预测的临近方法

告知中,高洪俊介绍了一类乘法噪声驱动的妄动输运方程的强解的相干内容。对于在上空$L^q(0,T;{ mathcal C}^alpha_b({ mathbb R}^d))$ ($阿尔法>2/q$)中的漂移周到及在空间$W^{1,r}({ mathbb 福睿斯}^d)$中的初值,高洪俊给出了随意强解的留存独一性的认证。同期,高洪俊提出与在同等条件下的天下闻名的状态反而的是,那类乘法的任性Brown型运动扰动足以促使方程的解适定。对于$阿尔法+1<2/q$且空间维数高于1的情形,可挑选妥帖的初值条件及漂移全面得到强解的一纸空文性。别的,若漂移周全属于$L^q(0,T;W^{1,p}({ mathbb CR-V}^d))$可获取随机强解的完整可积性,此结果答复了Fedrizzi 和Flandoli提议的漂浮周密在$L^q(0,T;L^p({ mathbb 奥迪TT RS}^d))$空间中的难题,因此一些地加大了她们最先的结果。

参照

  • Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016
  • 加重学习读书笔记 - 00 - 术语和数学符号
  • 深化学习读书笔记 - 01 - 强化学习的标题
  • 火上加油学习读书笔记 - 02 - 多臂老O虎O机难点
  • 强化学习读书笔记 - 03 - 有限Marco夫决策进度
  • 加重学习读书笔记 - 04 - 动态规划
  • 深化学习读书笔记 - 05 - 蒙特Carlo方法(Monte CarloMethods)
  • 火上加油学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning)
  • 深化学习读书笔记 - 08 - 规划式方法和学习式方法

亟待领会强化学习的数学符号,先看看这里:

  • 强化学习读书笔记 - 00 - 术语和数学符号

这一章开头了第二机构 - 看似技术方案

讲座甘休后,部分老师与学生构成讲座内容与高洪俊进行了刚强的交换。

就好像方法的严重性

作者们先看看守旧艺术中留存的难题:

  • 不适用复杂的情状。主因是情景和走路太多,攻略必要多量空中来纪念攻略价值。
  • 条件恐怕是不安定的,过去的阅历不能够适用于现在的情事。必要贰个通用性的主意来更新战术价值。
  • 战术价值是多少个数值,缺少通用性。期望有三个通用的艺术来总括计谋价值。

所以对近似预测方法的明亮是,找到二个通用的办法(hat{v}(s, theta))。
数学表示
[ hat{v}(s, theta) approx v_{pi}(s) \ where \ theta text{ - a weight vector} \ theta doteq (theta_1, theta_2, ..., theta_n)^T ]

解释
看似预测方法是指求战术的事态价值的近似值。
求战术的行路情状价值的近似值叫做近似调控措施(Control Methods)(下一章的源委)。

特地家简要介绍:

好像预测方法的对象

先是,大家需求找到八个判定近似预测方法品质的总结公式。

市场总值均方相对误差(Mean Squared Value Error)
[ MSVE(theta) = sum_{s in mathcal{S}} d(s) [v_{pi} - hat{v}(s, theta)]^2 \ where \ d(s) text{ - on-policy distribution, the fraction of time spent in s under the target policy } pi \ ]

  • 在剧情性任务中
    [ eta(s) = h(s) + sum_{bar{s}} eta(bar{s}) sum_{a} pi(a|bar{s})p(s|bar{s}, a), forall s in mathcal{S} \ d(s) = frac{eta(s)}{sum_{s'} eta(s')} \ where \ eta(s) text{ - the number of time steps spent in state s in a single episode} \ h(s) text{ - time spent in a state s if episodes start in it} ]

  • 在延续性职分中
    [ d(s) = text{ the stationary distribution under } pi \ ]

解释:
(eta(s) = h(s) + sum_{bar{s}} eta(bar{s}) sum_{a} pi(a|bar{s})p(s|bar{s}, a), forall s in mathcal{S})
状态s的发生时间(次数) = 在剧情中状态s发生在始发的岁月(次数) + 状态s发生在别的的小时(次数)

高洪俊,南师教师、博导,科学技术随处长。United States数学批评批评员,Stochastics and Dynamics编辑委员会委员,南师学报自然科学版副主编,湖北省工业与应用数学学会副监护人长,广东省大学“大范围复杂系统数值模拟”重视实验室副总管,辽宁省“青绿工程”中国青少年年学术带头人,安徽省“333”工程第三等级次序培训人选,国防科工作委员会科学和技术提高奖一等奖获得者.如今讨论兴趣为非线性发展方程和无穷维重力系统,物理、力学和地学(吉优science)中的随机偏微分方程和无穷维随机重力学。已刊登包罗Adv. Math.、SIAM J. Math. Anal.、J.Differential Equations和中国科学在内的本国外主要期刊诗歌160多篇。多次主办国家基金项目,参预973项目,前段时间主持国家自然科学基金重视项目,广东省自然科学基一项,广西省浅紫工程调查探讨基金一项。

自由梯度递减方法(Stochastic gradient descend method)

那正是说怎么着求(theta)呢?一个广大的法子是通过梯度递减的法子,迭代的求解(theta)。

(数学与新闻科学大学 范丽丽 苗山根)

随机梯度递减算法

Stochastic gradient descend
[ begin{align} theta_{t+1} & doteq theta_{t} - frac{1}{2} alpha nabla [v_{pi}(S_t) - hat{v}(S_t, theta_t)]^2 \ & = theta_{t} + alpha [v_{pi}(S_t) - hat{v}(S_t, theta_t)] nabla hat{v}(S_t, theta_t) \ end{align} \ where \ nabla f(theta) doteq left ( frac{partial f(theta)}{partial theta_1}, frac{partial f(theta)}{partial theta_2}, cdots, frac{partial f(theta)}{partial theta_n} right )^T \ alpha text{ - the step size, learning rate} ]

解释
本条主意能够在频繁迭代后,让(theta)最优。
(v_{pi}(S_t))是实际值。
(hat{v}(S_t, theta_t))是现阶段计算值。
随便梯度递减方法通过抽样误差(实际值 - 当前总括值)临近最优值的章程。
比较麻烦的是:怎样求(nabla hat{v}(S_t, theta_t))。
观念的情势是求(v_{pi}(s), q_{pi}(s, a)),在接近方法中变为了求(theta, hat{v}(s, theta), hat{q}(s, a,theta))。

蒙特Carlo

  • 算法描述

    Input: the policy (pi) to be evaluated
    Input: a differentiable function class="math inline">(hat{v} : mathcal{S} times mathbb{R^n} to mathbb{R})

    Initialize value-function weights class="math inline">(theta) arbitrarily (e.g. class="math inline">(theta = 0))
    Repeat (for each episode):
      Generate an episode (S_0, A_0, R_1 ,S_1 ,A_1, cdots ,R_t ,S_t) using class="math inline">(pi)
      For (t = 0, 1, cdots, T - 1)
       (theta gets theta + alpha [G_t -hat{v}(S_t, theta)] nabla hat{v}(S_t, theta))

半梯度递减方法(Semi-gradient method)

为此叫半梯度递减的缘故是TD(0)和n-steps TD计算价值的公式不是准确的(而蒙特卡罗格局是标准的)。

半梯度下跌(Semi-gradient TD(0))

  • 算法描述

    Input: the policy (pi) to be evaluated
    Input: a differentiable function class="math inline">(hat{v} : S^+ times mathbb{R^n} to mathbb{R}) such that class="math inline">(hat{v}(terminal, dot ) = 0)

    Initialize value-function weights class="math inline">(theta) arbitrarily (e.g. class="math inline">(theta = 0))
    Repeat (for each episode):
      Initialize (mathcal{S})
      Repeat (for each step of episode):
       Choose $A sim pi(dot  |S) $
       Take action (A), observe (R, S')
       (theta gets theta + alpha [R + gamma hat{v}(S', theta) -hat{v}(S', theta)] nabla hat{v}(S, theta))
       (S gets S')
      Until (S') is terminal

n-steps TD

请看原书,不做拗述。

特征采纳

线性方程的定义

[ phi(s) doteq (phi_1(s), phi_2(s), dots, phi_n(s))^T \ hat{v} doteq theta^T phi(s) doteq sum_{i=1}^n theta_i 银河国际网址手机版,phi_i(s) ]
(phi(s)) 为特征函数
此间研究特征函数的通用化定义方法。

多项式基(polynomials basis)

(s)的每一个维度都能够作为三个特征。多项式基的法子是使用(s)的高维多项式作为新的特色。
比如:二维的(s = (s_1, s_2)),能够挑选多项式为((1, s_1, s_2, s_1s_2))或者((1, s_1, s_2, s_1s_2, s_1^2, s_2^2, s_1s_2^2, s_1^2s_2, s_1^2s_2^2))

多项式基方法的通用数学表达:
[ phi_i(s) = prod_{j=1}^d s_j^{C_{i,j}} \ where \ s = (s_1,s_2,cdots,s_d)^T \ phi_i(s) text{ - polynomials basis function} ]

傅里叶基(Fourier basis)

傅里叶基方法的通用数学表达:
[ phi_i(s) = cos(pi c^i dot s), s in [0,1)] \ where \ c^i = (x_1^i, c_2^i, cdots, c_d^i)^T, with c_j^i in {0, cdots, N} for j = 1, cdots, d and i = 0, cdots, (N + 1)^d ]

径向基(Radial Basis)

径向基方法的通用数学表达:
[ phi_i(s) doteq exp left ( - frac{lVert s-c_i rVert ^2 }{2 sigma_i^2} right ) ]

小小的二乘法TD(Least-Squares TD)

Input: feature representation (phi(s) in mathbb{R}^n, forall s in mathcal{S}, phi(terminal) doteq 0)

$hat{A^{-1}} gets epsilon^{-1} I qquad text{An } n times n  matrix $
(hat{b} gets 0)
Repeat (for each episode):
  Initialize S; obtain corresponding class="math inline">(phi)
  Repeat (for each step of episode):
   Choose (A sim pi(dot | S))
   Take action (A), observer (R, S'); obtain corresponding (phi')
   (v gets hat{A^{-1}}^T (phi - gamma phi'))
   (hat{A^{-1}} gets hat{A^{-1}} - (hat{A^{-1}}phi) v^T / (1+v^Tphi))
   (hat{b} gets hat{b} + R phi)
   (theta gets hat{A^{-1}} hat{b})
   (S gets S'; phi gets phi')
  until S' is terminal

版权声明:本文由9992019银河国际点击部发布于科技产品中心,转载请注明出处:强化学习读书笔记,南京师范大学博士生导师高