用于策略部署的风险量化的制作方法_3

文档序号:9866421阅读:来源:国知局
采用是因为其没有意义来 讨论叩r(F(目)> fmJ "或叩r(f (目)> fminiD)",因为"f (目)"和"fmm"都不是随机的。
[0067] 假设"麵k/g"表示给出数据"D"的安全策略参数的集合。首先,确定什么分析将 可能被用于考虑可用数据"D"(即,部署数据210)生成最大如果"窃0", 则算法返回"没有找到解"。如果"帝0 ",则W下是被配置为返回新策略参数的算法 "r e ",其被评估为"最好的":
?.
[0068] (I)
[006引其中沒镇巧£疲"基于提供的数据"D"指定"Θ,,如何"好"(即,新策略参数)。 典型地,"g"将是"f ( Θ )"的评估值,但是允许针对任何"g"进行。"g"的另一实例是类似 于"f"的函数,但是其考虑返回值的变化。注意,即使等式(1)使用"g",但安全保证是坚定 的,因为其使用真实(未知,并且总是未知)期望返回值"?·(θ)"。
[0070] 最初,描述了考虑一些数据叩",并且产生策略参数的单个新集合"Θ '",因此从 多个策略中选择新策略的批量技术。运种批量方法可W扩展到迭代方法,如W下进一步描 述的,其进行多个策略改进,然后自动和立即进行部署。
[0071] 牛成f ( Θ )的无偏估计估
[0072] W下技术利用从使用行为策略"Θ 1"生成的每个轨迹"τ e D"生成无偏估计值 "f ( Θ )的f ( Θ,τ,Θ 1)"的能力。重要的采样被用于如下生成运些无偏估计值:
[0073]
(2)
[0074] 注意,在似中没有出现除W 0,因为如果"η (st,at,θ 1) = 0"则在轨迹中不选择 "a/'。然而,为了实施将被应用的重要采样,要求对于所有"S"和"a"来说"31(3,日,Θ),, 为0,其中"η (s,a,Θ 1) = 0"。如果不是运种情况,则来自"Θ 1"的数据可W不被用于评估 "Θ "。直观地,当评估策略在"S"中执行"a"时,如果行为策略在状态"S"中从不执行动作 "曰",则不存在关于输出的信息。
[007引对于每个Θ 1,/汾?;、瑪)是通过使用"Θ 1"采样"τ "然后使用等式似计算的随 机变量。由于重要采样是无偏的,因此对于所有"i",
[0076]
[0077] 因为最小的可能返回值为0且重要权重是非负的,所W重要权重返回值约束到0 W下。然而,当"Θ "导致在动作不可能在"Θ i" W下的状态中可能的动作时,重要权重返 回值可W较大。因此,"/(狹了>爲)"是约束到0 W下的随机变量,具有[0:1]间隔中的期望 值,并且就有较大的上限。运意味着/(蘇?.·.,玲y可W具有相对较长的尾部,如图3B的示例性 示图350所示。
[007引 曲线352是关于简化且"T = 20"的登山-汽车领域的"巧致;:.為)"的概率密度 函数(PDF)的经验估计。垂直轴对应于概率密度。稍后在W下讨论中描述曲线304。行为 策略参数"Θ i"产生次优策略并且沿着从"Θ i"开始的自然策略梯度选择评估策略参数 "Θ "。在该实例中通过生成100, 000个轨迹、计算对应的重要权重返回值、然后将它们传输 至密度函数来评估概率密度函数(PDF)。关于重要权重返回值的最紧上限近似为109'4,尽 管最大观察重要权重返回值近似为316。采样平均接近0.2 >10 注意,水平轴被算法 地缩放,例如十进制。
[0079] 集中不等式
[0080] 为了确保安全性,如上所述采用集中不等式126。集中不等式126被用作置信值的 约束,并由此用于提供性能的统计保证,例如至少对应于限定值的策略的性能测量的估计 值。集中不等式126可W采用各种不同的形式,诸如化ernoff-Hoeffding不等式。该不等 式用于计算每个策略被约束的每条轨迹上的采样平均(平均/(致T,钱)),例如与真实平均 "?·(θ)"偏离的不太远。
[0081] 每个集中不等式都在W下表示为应用于"η"和独立和相同分布的随机变量 "Xi,···,Χ。",其中对于所有"i"来说"XiG [0,b]"且"Ε技1] = μ"。在运些技术的情况 下,运些'%"对应于使用相同行为策略和"μ = f (目)"的"η"个不同轨迹的"/(线Τ,瑪) "。集中不等式的第一实例是化e;rnoff-Hoeffding(CH)不等式:
[0082] (3)
[0083] 在第二实例中,表示Maurer和化ntil的经验伯恩斯坦(MPeB)不等式,其用如下 采样变量替换伯恩斯坦不等式中的真实(该设置为未知)变量:
[0084]
[0085] 在第Ξ实例中,安德森(AM)不等式在W下被示为使用Dvoretzky-Kiefer-Wolfow itz不等式,其如下通过Massart找到最优常数:
[0086]
[0087] 其中,'%、Z2,…,Zn"是'%,X2,…,V,的顺序统计且"z〇= 0"。良P,'<Zi"是随 机变量"Xl,X2,…,X。"的采样,它们进行排序使得Z 2《···Ζ。"且"Zd= 0"。
[0088] 注意,等式(3)仅考虑随机变量的采样平均,而等式(4)考虑采样平均和采样变 量。运使得等式(4)减少了范围"b"的英系那个,即,在等式(4)中,范围除W"n-r',而在 等式(3)中,其除巧?'"。等式(4)仅考虑采样平均和采样变量,等式(5)考虑整个采样 累计分布函数。运使得等式(5)仅依赖于最大观察采样而不依赖叩"。运在一些情况下可 W是显著的改进,诸如图3所示的示例性情况,其中最大观察采样近似为316同时"b"近似 为 1〇9'4。
[0089] 在另一实例中,上面将MPeB不等式示为扩展为与随机变量的范围无关。运导致新 不等式,其将MPeB不等式的期望特性(例如,没有相同分布的随机变量的一般紧密型和适 应性)与AM不等式的期望特性(例如不直接依赖于随机变量的范围)进行组合。还移除 了确定关于最大可能重要权重返回值的紧密上限的需求,运可W包括域专用特性的专业考 虑。
[0090] MPeB不等式的扩展利用两种方式。第一种方式是移除分布的上尾部降低其期望 值。第二种方式是如果同时专用于具有相同平均值的随机变量则MPeB不等式可W被概括 为处理具有不同范围的随机变量。因此,随机变量分布的尾部塌陷,并且在该实例中标准化 随机变量,使得可W应用MPeB不等式。然后,MPeB不等式用于生成下限,从中提取原始随 机变量的均匀平均值的下限。在W下定理1中提供所得到的集中不等式。
[0091] 用于塌陷分布的尾部然后约束新分布的平均值的方法类似于约束截顶或缩尾均 值估计量。然而,在截顶均值丢弃一些阔值W上的每个采样的情况下,本技术中的采样从阔 值上方移动到精确位于阔值,运类似于计算缩尾均值,除了阔值不依赖于数据。
[009引在定理1中,假设"X=狂1,…X。)"是独立随机变量的矢量,其中且所 有"Xi"都具有相同的期望值"μ"。假设对于所有"i"来说,"δ >0"并选择任何"Ci> 0"。然后,具有至少为"1-δ"的概率:
[0093]
[0094] 其中,"Yi= min 找 i,Ci}"。
[0095] 为了应用定理1,对于每个"ci"(阔值超过其)选择值,塌陷"Xi"的分布。为了 简化该任务,选择单个E戮'"并且对于所有"i"来说设置"Ci=c"。当"C"太大时,其 放松约束,就像大范围"b" -样。当"C"太小时,其降低"Yi"的真实期望值,运也放松了约 束。因此,最佳"C"平衡了 "Yi"的范围与"Yi"的真实平均之间的折中。所提供的随机变量 被划分为两组"Dpf。"和"DpMt"。"Dpf。"用于估计最佳标量阔值,作为(该等式中的最大函数 是具有标量"C"的等式化)的右侧):
[0096]
[0097] 回忆叩二min找1,Ci}",使得等式(7)中;个项目的中每一项都依赖于"C"。一 旦从"Dpf。"中形成最佳"C"的估计值,则使用"DpMt"中的采样和优化"C"值应用定理1。在 一个或多个实施方式中,发现使用"Dpf。"中采样的1/3和"DpMt"中的剩余2/3在已知真实 平均值在[1,0]中、"C > 1"的情况下执行得很好。当一些随机变量被相同分布时,可W确 保变量^ 1/^3在"0。,。"且2/3在"0。。,/'中进行划分。在一个或多个实施方式中,运种用于 确定多少点包括在Dpf。中的自组方案被改善W针对每个随机变量选择不同的"C 1 "。
[009引图3B中的曲线354示出了当选择"C"时的折中。其对于平均值"f( Θ )"给出95% 的置信下限,对于值"C"的(垂直轴)通过水平轴来指定。一个或多个实施方式中的最佳 "C"值在102左右。曲线304继续在水平轴下方。在运种情况下,当"c = l09·4"时,不等式 退化成MPeB不等式,其对-129703的平均值产生95%的置信下限。
[0099] 使用用于创建图3B的100000个采样,利用1/3、2/3数据划分使用定理1 W及CH、 MpeB和AM不等式计算平均值的95%置信下限。还得到和测试塌陷-AM不等式,其是AM不 等式的扩展W使用本文描述的方案,其中塌陷"V成为"Yi"且从数据的1/3中优化"C"值。 在图4所示图表400中提供的结果。类似于通过重要采用所生成的,比较示出了用于长尾分 布的集中不等式的功率。还示出了 AM不等式不从应用于MpeB不等式的塌陷方案中获益。 0] 确保策略巧索中的安仓忡
[0101] 为了确定策略参数"Θ "对于给定的提供数据"D"是否安全,来自部分4的集中不 等式被应用于重要的权重返回值。为了简化,如图5的实例500所示,当使用"D"中的轨迹 和提供的阔值"C"来估计"Θ "时,假设值,Θ,C,δ )"为通过定理1生成的"f ( Θ )"的 置信下限"1-δ ",其中,"η"是"D"中的轨迹的数量。如图6的实例600所示,在算法1中 提供确定"Θ "对于"D"是否安全的伪码。 引 化acle鉤巧策略巧索
[0103] 上面描述了确定策略参数是否安全的技术,然后选择适当的对象函数"g"并且使 用该函数找到最大化"g"的安全参数。任何策略脱离评估技术可用于"g",诸如对风险敏感 的"g",其喜欢具有较大期望返回值的"Θ "但也具有返回值的较小变化。为了简化,W下用 于"g"的权重重要采样:
[
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1