用于策略部署的风险量化的制作方法_5

文档序号:9866421阅读:来源:国知局
时间)等 等。因此,在该实例中,策略管理模块122的策略生成模块224迭代地调整运些参数,并且 W各种组合来形成新策略。继续图11的实例,运些调整可用于进一步细化策略空间的安全 区域,使得调整参数进一步朝向该安全区域偏置新策略,即,使得表示策略的高维矢量更接 近地与安全区域对齐。
[0132] 使用具有调整后的一个或多个参数的新策略对描述一个或多个部署策略的部署 的部署数据应用强化学习和集中不等式,来估计所述新策略的性能的测量的值并计算所估 计值的一个或多个统计保证(框1208)。运种应用被用于确定新策略将增加新策略相对于 部署策略的性能测量的置信等级。
[0133] 响应于确定所述一个或多个统计保证表示至少性能测量的估计值对应于至少部 分地基于一个或多个部署策略的性能测量的阔值的置信等级,使得所述新策略中的一个或 多个新策略进行部署(框1210)。例如,策略生成模块224被配置为迭代地调用策略改进模 块218,并且在置信度的限定等级内识别改进的阔值等级的情况下引起新策略的部署。
[0134] 在一个或多个实施方式中,如果发现新策略的部署具有较低性能,则策略管理模 块122终止新策略的部署并部署不同的新策略、返回到先前部署的策略等。因此,在该实例 中,策略生成模块224自动捜索新的安全策略来部署。此外,不同于参照图11所描述的实 例,通过自动地调整参数来递增地执行该实例并且不需要用户交互。 阳1对 示例忡信胤研究
[0136] W下描述Ξ种情况研究。第一情况研究表示针对第一情况研究选择简单栅格世界 的结果。第二情况研究表明第Ξ算法对于部分可观察性来说是稳健的。第Ξ情况研究使用 系统识别技术W近似真实的世界数字市场应用。
[0137] 4 X 4栅格巧·界
[013引该实例开始于具有确定转换的4X4栅格世界。每个状态都导致-0. 1的奖励,除 了最右下的状态(其导致0的奖励并且为末端)。如果终端状态还没有准备达到并且"丫 = 1",则在"T"个步骤之后终止插曲巧pisode)。最佳策略的期望返回值为-0.5。当"T =10"时,最差策略具有"-1"的期望返回值,当"T = 20"时,最差策略具有"-2"的期望返 回值,W及当"T = 30"时,最差策略具有"-3"的期望返回值。选择手工制造的初始策略, 其执行得很好但留有改进的余地,并且"fmi。"被设置为该策略的期望返回值的估计(注意, "fmi。"随着"T"变化)。最后,"k = 50"且"δ = 0.055"。
[0139] 图13示出了关于该问题的执行该策略改进技术和算法3的结果1300。两种情况 下的所有报告期望返回值都通过使用每个策略生成1〇5个轨迹并计算蒙特卡洛返回值来 计算。示出了当"τ = 20"时由批量策略改进技术生成的策略的期望返回值。初始策略具 有-1. 06的期望返回值,并且最佳策略具有-0. 5的期望返回值。在顶部实例中还示出了来 自Ξ个试验的标准错误条。在底部实例中,利用各种"Τ"示出了由算法3和NAC W及相对 于1000个插曲所生成的策略的期望返回值(NAC曲线用于"Τ = 20")。每条曲线相对于十 个试验求平均,并且最大的标准错误为0. 067。曲线将lOOO/k-20个调用扩展到策略改进技 术。
[0140] 算法3与使用LSTD的偏置自然评估决策(NAC)相比,在每个插曲之后被修改为清 楚的合格轨迹。尽管NAC不是安全的,但其提供了基线来示出算法3可W添加其安全保证 而不牺牲显著量的学习速度。结果是尤其印象深刻的,因为为NAC示出的性能使用手动调 整的步长和策略更新频率,而对于算法3没有调整超参数。注意,由于集中不等式的选择, 性能不会随着最大轨迹长度的增加而劣化。
[0141] 注意,与利用几千个轨迹中的几百个实现的策略改进技术的批量应用相比,算法3 使用几百个轨迹实现较大的期望返回值。运突出了算法3的显著特性,其中轨迹趋于从策 略空间的越来越好的趋于中进行采样。与使用初始策略生成所有轨迹相比,运种探索提供 了关于更好策略的值的更多信息。 阳14引 撒辛市场TOMDP
[0143] 第二情况研究包括产品的个别化广告的公司优化。在每个周期(时间步),公司具 有Ξ种选择:推销、售卖和NULL。推销动作表示产品的推销而不具有生成中间销售(例如, 提供关于产品的信息)的直接意图,运导致市场损失。售卖动作表示具有生成中间销售的 直接意图的产品推销(例如,提供关于产品的销售)。NULL动作表示不推销产品。
[0144] 用户行为的底层模型基于新近和频率方案。新近"r"是指用户进行购买需要多长 时间,而频率"f"是指用户进行了多少次购买。为了更好地建模用户行为,向模型添加真实 值项,用户统计(CS)。该项依赖于用户与公司的整体交互并且不可观察,即,公司没有方式 来对其进行测量。运种隐藏状态变量允许更多感兴趣的动力研究。例如,如果公司试图在 用户购买产品之后的一周期中向用户售卖产品,则"CS"可W降低(购买产品的用户可能不 喜欢在几个月之后看到更低价格的广告,但是可能喜欢不基于打折的促销)。
[0145] 所得到的P0MDP具有36种状态和一个真实值隐藏状态、3个动作/'T = 36"且"丫 = 0.95"。选择"k = 50"、" δ =0.05"的值,并且初始策略执行得很好但具有改进的余地。 其期望返回值近似为0. 2,而最佳策略的期望返回值近似为1. 9且最差策略的期望返回值 近似为-0. 4。选择0. 18"的值,运表示不多于10%的收益劣化是可接受的。
[0146] 图14表示示例性结果1400,其再次与具有手动优化的超参数的NAC的性能进行 比较。为了强度NAC不是安全算法,当步长是手动优化值的两倍时也示出NAC的性能。该 实例示出了算法3相对于传统化算法的优势,尤其对于高风险应用来说。再次,对于算法 3来说不调整超参数。尽管NAC W优化的超参数执行得很好,但运些参数通常未知,并且在 针对良好超参数的捜索期间可W执行不安全的超参数。此外,即使利用优化的超参数,NAC 也不提供安全性保证(尽管经验上说是安全的)。 阳147] 伸用真连巧·界撒据的撒辛市场
[014引 Adobe⑥市场云是强有力的工具集合,其允许公司完全使用自动和手动解决方 案来利用数字市场。Adobe⑩目标工具的一个部件允许广告和活动的用户专用目标。当 用户请求包含广告的网页时,基于包含用户的所有已知特性的矢量来计算示出哪个广告的 判定。
[0149] 该问题趋向于视为±匪问题,其中代理人处理每个广告作为可能动作并且其试图 最大化用户点击广告的概率。尽管该方法是成功的,但其不是必须也使每个用户在他或她 的寿命期间点击的总数最大化。已经表明,该问题的更有远见的强化学习方法可W显著改 进目光短浅的±匪解决方案。
[0150] 产生真实值特征的矢量31,其提供关于用户的所有可用信息的压缩表示。广告被 分为两个高级组,代理人从中进行选择。在代理人选择广告之后,用户点击(+1的奖励)或 者不点击(0的奖励),并且描述描述的特征矢量被更新,选择"T = 10"。
[0151] 在该实例中,奖励信号是稀疏的,使得如果总是W 0. 5的概率选择每个动作,则奖 励大约0.48%的转换,因为用户总是不点击广告。运意味着大多数轨迹不提供反馈。此外, 用户是否点击接近随机,使得返回值具有相对较高的变化。运导致梯度和自然梯度估计的 大变化。
[0152] 使用具有Ξ阶解禪傅里叶基础的Softmax动作选择,算法3被应用于该领域。进 行"δ =0.05"的选择,其中0.48"并且初始策略被使用得稍好于随机。仅基于其 中没有优化超参数的先验运行时间考虑来选择"k = 100000"的值。在图15中提供了结果 1500。在五个试验上平均点,并且提供标准错误条。在500000先验(即,用户交互)上,算 法3能够安全地增加点击概率,从0. 49%到0. 61% -a 24%改进。该使得研究表明如何将 算法3用于实际世界应用的详细模拟。不仅可W由于其安全保证而负责地部署,而且其实 现对实践时间标度可进行安全学习的显著的数据效率。 阳1閲 示例忡系统巧巧备
[0154]图16示出了 W 1600表示的示例性系统,其包括代表可实施本文描述的各种技术 的一个或多个计算系统和/设备的示例性计算设备1602。运通过包括策略管理模块122来 示出。例如,计算设备1602可W是服务提供器的服务器、与客户(例如,客户设备)相关联 的设备、忍片上系统和/或任何其他适当的计算设备或计算系统。
[01巧]如图所示,示例性计算设备1602包括处理系统1604、一个或多个计算机可读介质 1606 W及一个或多个I/O接口 1608,它们相互通信禪合。尽管未示出,但计算设备1602可 W进一步包括系统总线或其他数据和命令传送系统,它们将各个部件相互禪合。系统总线 可W包括不同总线结构的任何一种或组合,诸如存储总线或存储控制器、外围总线、通用串 行总线和/或利用各种总线架构中的任何一种的处理器或本地总线。还预期各种其他实 例,诸如控制和数据线。
[0156] 处理系统1604表示使用硬件执行一个或多个操作的功能。因此,处理系统1604 被示为包括硬件元件1610,其可W被配置为处理器、功能块等。运可W包括硬件的实施方式 作为使用一个或多个半导体形成的专用集成电路或其他逻辑设备。硬件元件1610不被形 成它们的材料或其中使用的处理机制所限制。例如,处理器可W由半导体和/或晶体管组 成(例如,电子集成电路(1C))。在运种情况下,处理器可执行指令可W是电可执行指令。
[0157] 计算机可读存储介质1606被示为包括存储器/存储1612。存储器/存储1612表 示与一个或多个计算机可读介质相关联的存储器/存储能力。存储器/存储1612可W包括 易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、 闪存、光盘、磁盘等)。存储器/存储1612可W包括固定介质(例如,RAM、R0M、固定硬盘驱 动等)W及可移除介质(例如,闪存、可移除硬盘驱动、光盘等)。计算机可读介质1606可 W下面进一步描述的各种其他方式来配置。
[015引输入/输出接口 1608表示允许用户向计算设备1602输入命令和信息的功能,并 且还允许使用各种输入/输出设备将信息呈现给用户和/或其他部件或设备。输入设备的 实例包括键盘、光标控制设备(例如,鼠标)、麦克风、扫描仪、触摸功能(例如,被配置为检 测物理触摸的电容或其他传感
当前第5页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1