用于策略部署的风险量化的制作方法_4

文档序号：9866421阅读：来源：国知局

0104]
[0105] 根据等式（1)选择"Θ 是约束优化问题的形式，因为用于的采样分析表示不可用。此外，会员oracle可用，利用其使用算法1来确定"Θ "是否为当 "ne"较小时，使用栅格捜索或对于每个可能"Θ "的随机捜索，该约束优化问题被暴力破解。然而，随着"η e "的增长，该技术变得棘手。
[0106] 为了克服该问题，自然策略梯度算法用于将捜索减少到多个约束线捜索。直观地，代替捜索每一个"ITS"，从期望与策略空间的安全区域相交的每个行为策略"Θ "中选择单个方向赛/(持)，并且执行运些方向上的捜索。从每个行为策略中选择的方向是广义的自然策略梯度。尽管不保证广义自然策略梯度指向安全区域，但其是合理的方向选择，因为该方向上的点使得期望返回值更快速地增加。尽管可W使用用于计算广义自然策略梯度的任何算法，但在该实例中使用具有LSTD的偏置自然评估决策。通过强力解决约束线捜索问题。
[0107] 在算法2中提供了用于该算法的伪码，在图7中示出了其实例700,其中如果"A" 为真则指示函数"Ια"为1，否则为0。。…引《策略放讲
[0109] 策略改进技术使用上面讨论中的批量方法，其被应用与现有数据集合"D"。然而，可W通过提取新安全策略参数来W递增方式使用技术。用户可W在每次迭代时选择改变 "fmi。"，例如反映至今找到的最好策略或最近提出的策略的性能的估计。然而，在本文描述的伪码中，假设用户不改变"fmm "。
[0110] 假设"Θ。"表示用户的初始策略参数。如果"fmm= f(0。)"，则可W说明具有提出的每个策略将至少与用户持续使用初始策略一样好的高置信度。如果"fmi。"是"f( Θ。）" 的评估值，则可W说明具有提出的每个策略将至少与用户策略的观察性能一样好的高置信度。用户还可W选择"fmm"低于"f ( Θ。)"，运对算法给出更大的自由度来探索同时保证性能不劣化到低于指定等级。
[0111] 算法保持策略参数的列表"C"，其被确认为安全。如参照图2所描述的，当生成新轨迹时，算法使用"C"中的策略参数，其被期望执行得最好W生成新策略226。在算法 3中表示用于该在线安全学习算法的伪码，在图8中示出其实例800,其也在图中表示为 Daedalus。关于W下程序描述运些和其他实例的进一步讨论。。…]示例忡括序
[0113] W下讨论描述了使用先前描述的系统和设备实施的技术。每个程序的方面都可W W硬件、固件或软件或它们的组合来实施。程序被示为框的集合，它们执行由一个或多个设备执行的操作并且不是必须限于用于由各个框执行操作所示的顺序。在W下讨论的部分中，将参照图1至图8。
[0114] 图9示出了描述用于策略改进的风险量化的技术的示例性实施方式。接收策略，其被配置用于被内容提供器部署W选择广告（框902)。在一种情况下，技术员通过与内容管理器模块116的交互（诸如通过针对策略的特性参数的用户接口）创建策略。在另一种情况下，自动地创建策略而不使用用户干设，诸如通过内容管理器模块116自动调整参数来创建新策略，其具有显示出性能测量的改进的潜力，诸如交互（例如Λ点击"）的数量、转换率等等。
[0115] 与内容提供器的部署策略相反，至少部分地基于接收策略的部署所可能设及的风险的量化来控制内容提供器接收部署（框904)。如前所述，内容提供器102使用策略不是静止的，其中策略被频繁改变，新策略更好利用关于接收通过使用策略选择的广告的用户的已知信息。在该实例中，通过使用统计保证来控制部署，其中新策略将增加性能的测量 (例如，交互或转换的寿命值）并且降低新策略将引起性能和对应收益的降低的风险。
[0116] 控制基于通过内容提供器对描述部署策略的部署的部署数据应用强化学习和集中不等式W估计所接收策略的性能测量的值并且通过计算估计值的一个或多个统计保证来量化风险（框906)。控制还包括响应于确定一个或多个统计保证表示至少性能测量的估计值至少对应于至少部分地基于内容提供器的部署策略的性能测量的阔值的置信等级，使得接收策略进行部署（框908)。换句话说，当基于统计保证将策略确定为安全时，W上述方式部署策略。
[0117] 例如，内容管理器模块116管理用于部署策略的部署数据，然后使用该数据作为用于评估接收策略的部署的风险的基础，因此在没有实际部署新策略的情况下进行。在另一实例中，如果接收策略已经被部署，则策略管理模块利用来自先前策略的数据和从部署新策略累计的数据。
[0118] 不同于仅估计策略的性能而不具有关于估计精度的任何保证的现有技术，策略管理模块122通过使用强化学习和集中不等式提供了性能的估计W及估计不是过估计的统计保证。目Ρ，策略管理模块122通过统计保证提供策略将执行得与估计一样好的概率并由此用于量化策略部署中的风险。
[0119] 如关于定理1和算法1所描述的，策略管理模块122应用的定理1使用描述任何数量的先前或当前部署的策略的部署的数据和阔值等级fmi。，并产生所接收的策略的真实性能至少为fmm，即性能测量的阔值等级的概率。
[0120] 对于算法1，用户可W指定置信等级（例如，如上所述的1- δ )和性能测量的阔值 fmi。。如果可W至少利用设置的置信等级（例如，1- δ)进行其真实性能至少为fmi。的保证，策略被确认为安全的。因此，算法1可W使用定理1来确定策略是否是安全的，作为策略管理模块122的处理的部分，通过使用强化学习和集中不等式，其中将接收策略（例如，写为上述Θ )、部署数据D W及性能测量的阔值fmi。和置信等级（例如，1- S )作为输入并返回真或假来表示策略是否安全。
[0121] 因此，在该实例中，首先使用强化学习模块124和集成不等式126由策略管理模块 122处理接收策略W量化与其部署相关联的风险。风险的量化及其用于控制策略的部署提供了显著的优点，其中危险或风险策略可W在部署之前被标记。注意，运不仅帮助避免坏 (即，表现不佳）策略的部署，运提供了生成新策略和选择技术的自由度，而不害怕坏策略的部署，w下描述并在对应附图中示出进一步讨论。
[0122] 图10示出了描述设及策略捜索的一个或多个部署策略的替换控制的示例性实施方式中的程序1000。控制利用多个策略中的至少一个策略替换用于选择广告的内容提供器的一个或多个部署策略（框1002)。如上所述，强化学习和集中不等式可用于确定部署新策略是否是安全的。在该实例中，运些技术被应用于从策略中进行选择W确定哪些策略（如果有的话）将被部署。
[0123] 控制包括捜索多个策略W定位被确认安全替换一个或多个部署策略的至少一个策略，如果至少一个策略的性能测量大于性能的阔值测量并且在如通过使用强化学习和集中不等式对一个或多个部署策略生成的部署数据计算的一个或多个统计保证所表示的置信度的限定等级内，则至少一个策略被确认为安全（框1004)。例如，策略管理模块122使用描述任何数量的先前或当前部署的策略的部署的数据W及阔值性能等级fmi。，并产生所接收策略的真实性能至少为fmm，即性能测量的阔值等级的概率。在该实例中，该技术被应用于多个策略W确定哪些策略满足该要求，如果是运样的话，确定哪些策略可能显示出最好的性能，例如由交互或转换的数量所限定的寿命值。
[0124] 响应于被确认安全替换一个或多个其他策略的至少一个所述策略的定位，使得用至少一个所述策略替换一个或多个其他策略（框1006)。例如，策略服务104可W向内容提供器102传输指示来从部署策略切换至所选策略。在另一实例中，作为内容提供器102本身的一部分来实施该功能。还可W采用技术来改进运种选择的计算的效率，在W下描述并在对应附图中示出其实例。
[0125] 图11示出了通过利用策略空间执行策略的选择来替换部署策略W提高效率的示例性实施方式的程序1100。选择多个策略中的至少一个策略来替换用于选择与内容一起包括的广告的内容提供器的一个或多个部署策略（框1102)。在该实例中，通过利用描述策略的策略空间来执行选择。
[0126] 例如，选择包括访问表示多个策略中的对应策略的多个高维矢量（框1104)。例如，多个高维矢量描述被策略基于请求的特性进行广告选择W访问包括广告的内容中所使用的参数。
[0127] 在多个策略的策略空间中计算期望指向期望安全的区域的方向，其中所述区域包括具有大于性能的阔值测量且在置信度的限定等级内的性能测量的策略（框1106)。选择多个策略中的至少一个策略，其具有对应于该方向的高维矢量并显示出性能测量的最高等级（框1108)。被期望为指向安全区域的方向是广义的自然策略梯度（GeNGA)，其是使得性能W相对于策略空间中的其他区域W最快方式增加的策略空间中的方向的估计值。执行被该方向约束的捜索，使得对于与方向相对应的高维矢量来执行线捜索。运些线捜索是低维度的，并且可W被强力破解，由此提高运些策略的定位中的效率。
[0128] 根据对应于方向的策略，如图9所述，基于性能测量和置信等级从运些策略中定位策略。策略管理模块122使用强化学习和集中不等式来基于性能的阔值测量和由统计保证表示的置信度的限定等级确定哪些策略对于部署来说是最安全的。W运种方式，策略管理模块122自动捜索新策略来通过使用安全区域进行部署，因此降低了数据处理量，并且安全区域中的策略可显示出比当前部署的策略显著更好的性能等级。运些技术还可W用于自动地生成新策略而不需要用户交互，在W下描述并在对应附图中示出其实例。
[0129] 图12示出了迭代地生成新策略并用于替换部署策略的示例性实施方式的程序 1200。控制利用多个策略中的至少一个策略替换用于选择广告的内容提供器的一个或多个部署策略（框1202)。在该实例中，替换包括使用迭代技术生成用于替换部署策略的新策略。作为该处理的一部分包括统计保证技术来确保运种部署的安全性。
[0130] 迭代地收集描述一个或多个部署策略的部署的部署数据（框1204)。如前所述，部署数据210描述部署策略208的部署，其可W包括或不包括描述新策略的部署的数据。
[0131] 迭代地调整一个或多个参数来生成可用于选择广告的新策略（框1206)。例如，参数作为策略的一部分而包括并且表示策略如何基于与请求相关联的特性选择广告。特性可用于描述请求的起源（例如，用户和/或客户设备106)、请求本身的特性（例如，

完整全部详细技术资料下载

当前第4页1 2 3 4 5 6