用于策略部署的风险量化的制作方法_5

文档序号：9866421阅读：来源：国知局

时间）等等。因此，在该实例中，策略管理模块122的策略生成模块224迭代地调整运些参数，并且 W各种组合来形成新策略。继续图11的实例，运些调整可用于进一步细化策略空间的安全区域，使得调整参数进一步朝向该安全区域偏置新策略，即，使得表示策略的高维矢量更接近地与安全区域对齐。
[0132] 使用具有调整后的一个或多个参数的新策略对描述一个或多个部署策略的部署的部署数据应用强化学习和集中不等式，来估计所述新策略的性能的测量的值并计算所估计值的一个或多个统计保证（框1208)。运种应用被用于确定新策略将增加新策略相对于部署策略的性能测量的置信等级。
[0133] 响应于确定所述一个或多个统计保证表示至少性能测量的估计值对应于至少部分地基于一个或多个部署策略的性能测量的阔值的置信等级，使得所述新策略中的一个或多个新策略进行部署（框1210)。例如，策略生成模块224被配置为迭代地调用策略改进模块218,并且在置信度的限定等级内识别改进的阔值等级的情况下引起新策略的部署。
[0134] 在一个或多个实施方式中，如果发现新策略的部署具有较低性能，则策略管理模块122终止新策略的部署并部署不同的新策略、返回到先前部署的策略等。因此，在该实例中，策略生成模块224自动捜索新的安全策略来部署。此外，不同于参照图11所描述的实例，通过自动地调整参数来递增地执行该实例并且不需要用户交互。阳1对示例忡信胤研究
[0136] W下描述Ξ种情况研究。第一情况研究表示针对第一情况研究选择简单栅格世界的结果。第二情况研究表明第Ξ算法对于部分可观察性来说是稳健的。第Ξ情况研究使用系统识别技术W近似真实的世界数字市场应用。
[0137] 4 X 4栅格巧·界
[013引该实例开始于具有确定转换的4X4栅格世界。每个状态都导致-0. 1的奖励，除了最右下的状态（其导致0的奖励并且为末端）。如果终端状态还没有准备达到并且"丫 = 1"，则在"T"个步骤之后终止插曲巧pisode)。最佳策略的期望返回值为-0.5。当"T =10"时，最差策略具有"-1"的期望返回值，当"T = 20"时，最差策略具有"-2"的期望返回值，W及当"T = 30"时，最差策略具有"-3"的期望返回值。选择手工制造的初始策略，其执行得很好但留有改进的余地，并且"fmi。"被设置为该策略的期望返回值的估计（注意， "fmi。"随着"T"变化）。最后，"k = 50"且"δ = 0.055"。
[0139] 图13示出了关于该问题的执行该策略改进技术和算法3的结果1300。两种情况下的所有报告期望返回值都通过使用每个策略生成1〇5个轨迹并计算蒙特卡洛返回值来计算。示出了当"τ = 20"时由批量策略改进技术生成的策略的期望返回值。初始策略具有-1. 06的期望返回值，并且最佳策略具有-0. 5的期望返回值。在顶部实例中还示出了来自Ξ个试验的标准错误条。在底部实例中，利用各种"Τ"示出了由算法3和NAC W及相对于1000个插曲所生成的策略的期望返回值（NAC曲线用于"Τ = 20")。每条曲线相对于十个试验求平均，并且最大的标准错误为0. 067。曲线将lOOO/k-20个调用扩展到策略改进技术。
[0140] 算法3与使用LSTD的偏置自然评估决策（NAC)相比，在每个插曲之后被修改为清楚的合格轨迹。尽管NAC不是安全的，但其提供了基线来示出算法3可W添加其安全保证而不牺牲显著量的学习速度。结果是尤其印象深刻的，因为为NAC示出的性能使用手动调整的步长和策略更新频率，而对于算法3没有调整超参数。注意，由于集中不等式的选择，性能不会随着最大轨迹长度的增加而劣化。
[0141] 注意，与利用几千个轨迹中的几百个实现的策略改进技术的批量应用相比，算法3 使用几百个轨迹实现较大的期望返回值。运突出了算法3的显著特性，其中轨迹趋于从策略空间的越来越好的趋于中进行采样。与使用初始策略生成所有轨迹相比，运种探索提供了关于更好策略的值的更多信息。阳14引撒辛市场TOMDP
[0143] 第二情况研究包括产品的个别化广告的公司优化。在每个周期（时间步），公司具有Ξ种选择：推销、售卖和NULL。推销动作表示产品的推销而不具有生成中间销售（例如，提供关于产品的信息）的直接意图，运导致市场损失。售卖动作表示具有生成中间销售的直接意图的产品推销（例如，提供关于产品的销售）。NULL动作表示不推销产品。
[0144] 用户行为的底层模型基于新近和频率方案。新近"r"是指用户进行购买需要多长时间，而频率"f"是指用户进行了多少次购买。为了更好地建模用户行为，向模型添加真实值项，用户统计（CS)。该项依赖于用户与公司的整体交互并且不可观察，即，公司没有方式来对其进行测量。运种隐藏状态变量允许更多感兴趣的动力研究。例如，如果公司试图在用户购买产品之后的一周期中向用户售卖产品，则"CS"可W降低（购买产品的用户可能不喜欢在几个月之后看到更低价格的广告，但是可能喜欢不基于打折的促销）。
[0145] 所得到的P0MDP具有36种状态和一个真实值隐藏状态、3个动作/'T = 36"且"丫 = 0.95"。选择"k = 50"、" δ =0.05"的值，并且初始策略执行得很好但具有改进的余地。其期望返回值近似为0. 2,而最佳策略的期望返回值近似为1. 9且最差策略的期望返回值近似为-0. 4。选择0. 18"的值，运表示不多于10%的收益劣化是可接受的。
[0146] 图14表示示例性结果1400,其再次与具有手动优化的超参数的NAC的性能进行比较。为了强度NAC不是安全算法，当步长是手动优化值的两倍时也示出NAC的性能。该实例示出了算法3相对于传统化算法的优势，尤其对于高风险应用来说。再次，对于算法 3来说不调整超参数。尽管NAC W优化的超参数执行得很好，但运些参数通常未知，并且在针对良好超参数的捜索期间可W执行不安全的超参数。此外，即使利用优化的超参数，NAC 也不提供安全性保证（尽管经验上说是安全的）。阳147] 伸用真连巧·界撒据的撒辛市场
[014引 Adobe⑥市场云是强有力的工具集合，其允许公司完全使用自动和手动解决方案来利用数字市场。Adobe⑩目标工具的一个部件允许广告和活动的用户专用目标。当用户请求包含广告的网页时，基于包含用户的所有已知特性的矢量来计算示出哪个广告的判定。
[0149] 该问题趋向于视为±匪问题，其中代理人处理每个广告作为可能动作并且其试图最大化用户点击广告的概率。尽管该方法是成功的，但其不是必须也使每个用户在他或她的寿命期间点击的总数最大化。已经表明，该问题的更有远见的强化学习方法可W显著改进目光短浅的±匪解决方案。
[0150] 产生真实值特征的矢量31，其提供关于用户的所有可用信息的压缩表示。广告被分为两个高级组，代理人从中进行选择。在代理人选择广告之后，用户点击（+1的奖励）或者不点击（0的奖励），并且描述描述的特征矢量被更新，选择"T = 10"。
[0151] 在该实例中，奖励信号是稀疏的，使得如果总是W 0. 5的概率选择每个动作，则奖励大约0.48%的转换，因为用户总是不点击广告。运意味着大多数轨迹不提供反馈。此外，用户是否点击接近随机，使得返回值具有相对较高的变化。运导致梯度和自然梯度估计的大变化。
[0152] 使用具有Ξ阶解禪傅里叶基础的Softmax动作选择，算法3被应用于该领域。进行"δ =0.05"的选择，其中0.48"并且初始策略被使用得稍好于随机。仅基于其中没有优化超参数的先验运行时间考虑来选择"k = 100000"的值。在图15中提供了结果 1500。在五个试验上平均点，并且提供标准错误条。在500000先验（即，用户交互）上，算法3能够安全地增加点击概率，从0. 49%到0. 61% -a 24%改进。该使得研究表明如何将算法3用于实际世界应用的详细模拟。不仅可W由于其安全保证而负责地部署，而且其实现对实践时间标度可进行安全学习的显著的数据效率。阳1閲示例忡系统巧巧备
[0154]图16示出了 W 1600表示的示例性系统，其包括代表可实施本文描述的各种技术的一个或多个计算系统和/设备的示例性计算设备1602。运通过包括策略管理模块122来示出。例如，计算设备1602可W是服务提供器的服务器、与客户（例如，客户设备）相关联的设备、忍片上系统和/或任何其他适当的计算设备或计算系统。
[01巧]如图所示，示例性计算设备1602包括处理系统1604、一个或多个计算机可读介质 1606 W及一个或多个I/O接口 1608,它们相互通信禪合。尽管未示出，但计算设备1602可 W进一步包括系统总线或其他数据和命令传送系统，它们将各个部件相互禪合。系统总线可W包括不同总线结构的任何一种或组合，诸如存储总线或存储控制器、外围总线、通用串行总线和/或利用各种总线架构中的任何一种的处理器或本地总线。还预期各种其他实例，诸如控制和数据线。
[0156] 处理系统1604表示使用硬件执行一个或多个操作的功能。因此，处理系统1604 被示为包括硬件元件1610,其可W被配置为处理器、功能块等。运可W包括硬件的实施方式作为使用一个或多个半导体形成的专用集成电路或其他逻辑设备。硬件元件1610不被形成它们的材料或其中使用的处理机制所限制。例如，处理器可W由半导体和/或晶体管组成（例如，电子集成电路（1C))。在运种情况下，处理器可执行指令可W是电可执行指令。
[0157] 计算机可读存储介质1606被示为包括存储器/存储1612。存储器/存储1612表示与一个或多个计算机可读介质相关联的存储器/存储能力。存储器/存储1612可W包括易失性介质（诸如随机存取存储器（RAM))和/或非易失性介质（诸如只读存储器（ROM)、闪存、光盘、磁盘等）。存储器/存储1612可W包括固定介质（例如，RAM、R0M、固定硬盘驱动等）W及可移除介质（例如，闪存、可移除硬盘驱动、光盘等）。计算机可读介质1606可 W下面进一步描述的各种其他方式来配置。
[015引输入/输出接口 1608表示允许用户向计算设备1602输入命令和信息的功能，并且还允许使用各种输入/输出设备将信息呈现给用户和/或其他部件或设备。输入设备的实例包括键盘、光标控制设备（例如，鼠标）、麦克风、扫描仪、触摸功能（例如，被配置为检测物理触摸的电容或其他传感

完整全部详细技术资料下载

当前第5页1 2 3 4 5 6