一种广告投放方法及装置的制造方法_3

文档序号:9866434阅读:来源:国知局
Boosting Decision Tree,梯度增强决策树模 型)、W及两者的结合模型。
[0062] 其中,逻辑回归模型是一个应用十分普遍的模型,它在整个向量空间中计算每一 个特征维度的权重,对每一条记录,都计算运些权重与对应特征值的加权和,再把结果应用 一个逻辑回归函数得到点击率预测概率值。
[0063] G抓T:运是一个树模型,使用指定N颗树对数据进行训练,最初使用一棵树对数据 进行训练,然后逐渐加入新树对模型进行增强,在实验中使用树数目N= 10,每颗树深度 D巧th = 4取得了良好的效果。
[0064] Logistic Regression结合GBDT:先使用GBDT对广告点击日记W及广告展开日志 中的每条记录进行分区,如果使用N= 10,Depth = 4的GBDT,则运10颗树一共有310个节点分 区。每条记录经过GBDT模型都会落到运310个节点分区里的某10个分区,那么运10个分区的 值就为1,其他为0,运样就得到了所有记录的310个维度的特征集合。把运样一个新的特征 集合数据交给Logistic Regression即可得到点击率预测概率值。
[0065] xgboost是GBDT算法的具体实现,在本是实施例中,可W使用该工具来进行模型训 练,将格式化后的数据W3:1:1的比例进行分割为训练数据、验证数据与测试数据。分别交 给xgboost进行加载,设定几个重要优化参数如最大树深度max_depth = 4,树数目num_ round=10,最大更讀f步长max_delta_step=l,目标函数objective = binary:lo邑istic,设 定好运些参数并加载数据,xgboost就可W进行数据训练并输出模型结果了。
[0066] 模型验证:
[0067] 通过数据训练得到的模型需要经过测试数据的验证来判断模型的好坏,在本实施 例中,可W使用第一天的大部分广告浏览历史数据进模型的训练得到预测广告点击率的模 型,使用小部分数据进行模型的验证,进行点击率预估,然后通过验证数据集可W找到一个 最佳点击率阔值,该阔值的意义在于:对每一个广告请求,通过广告点击率预预测模型即可 预估运支广告可能会被点击的概率,如果运个概率超过了最佳点击率阔值,则进行投放,否 则另作处理。然后使用第二天全天的广告浏览历史数据作为测试数据,应用广告点击率预 测模型进行点击率预估,点击率大于阔值则进行广告投放,运样来验证最终的点击率优化 效果。使用精确率、召回率、F值与按该模型投放的新点击率四项指标来描述模型的好坏,下 表1是验证结果。
[0068] 表 1
[0069]
[0070] 从上表中可看出,使用GBDT或GBDT+Logistic Regression都能取得很好的效果, 结合模型效果更优。
[0071] 优选的,本实施例使用视频网站里一天的广告点击日志、广告展示日志、广告素材 信息库W及用户信息库进行数据整合与清洗后对特征进行抽取与格式化。一共如下可W提 取35项特征:包括上下文特征:时间、城市、设备类型等;广告素材特征:素材行业、子行业、 品类;用户信息特征:性别、年龄、广告偏好、频道偏好;组合特征:时间与设备类型组合、性 别与广告行业组合等。抽取后的运些特征要经过化e-hot encoding编码进行离散化,因此 运35项特征一共映射到5369维特征空间中。每个样本将表示为5369维的向量和自身是正样 本或负样本标识的记录。由于5369维是一个很大的特征空间,而且整个数据矩阵是非常稀 疏的,所W只存储有值的特征维度。图3是本发明实施2中提取到的特征值向量示意图,如图 3所示,第一列是正负样本的标识,1表示正样本,0表示负样本,后面的每列是W维度为key, 该维度特征值为value的组合key: value数据。
[0072] 实施例3
[0073] 本是实施例提供例提供了一种广告点击率的预测装置,该装置用于实现上述实施 例及实施例2提供的方法,图4为本发明实施例3提供的广告投放装置的结构框图,如图4 所示,该装置包括如下组成部分:
[0074] 确定模块41,用于根据广告的历史访问数据确定用户对广告的偏好信息;
[0075] 提取模块42,用于对偏好信息进行特征提取;
[0076] 训练模块43,用于W提取到的特征数据为训练数据,按照预设的算法模型进行训 练得到训练模型;
[0077] 预测模块44,使用训练模型对广告测试数据进行预测,得到广告的预测点击率;
[0078] 投放模块45,用于根据广告的预测点击率投放广告。
[0079] 其中,该投放模块45具体可W包括:
[0080] 确定单元,用于在得到广告的预测点击率之后,使用广告的验证数据确定广告的 最佳点击率阔值;
[0081] 投放单元,用于如果广告的预测点击率大于所述最佳点击率阔值,则投放该广告, 否则放弃投放该广告。
[0082] 其中,上述提取模块42具体用于:提取偏好信息中的发生点击W及展示广告时的 上下文环境信息、广告的描述信息、点击W及展示广告的用户属性信息W及偏好信息。 [008引其中,上述训练模块44具体用于:
[0084]使用逻辑回归模型和/或树模型算法对训练数据进行训练,得到训练模型。
[00化]上述训练模块44具体可W包括如下组成部分:
[0086] 第一训练单元,用于在仅使用逻辑回归模型的情况下,使用逻辑回归模型在所述 训练数据的向量空间中计算每一个特征维度的权重值,针对广告的点击日志或展示日志中 的每一条记录计算所述权重值与对应特征值的加权和,再将所述加权和代入逻辑回归函 数,得到所述训练模型;
[0087] 第二训练单元,用于在仅使用树模型的情况下,使用一个树对所述训练数据进行 训练,逐渐加入新的树对上一次训练得到的模型进行增强,得到所述训练模型,得到所述训 练模型;
[0088] 第Ξ训练单元,用于在同时使用逻辑回归模型W及树模型的情况下,使用树模型 对广告的点击日志或展示日志中的每条记录进行分区,得到新的特征集合,使用逻辑回归 模型对所述新的特征集合进行训练,得到所述训练模型。
[0089] 上述确定模块41具体可W包括:第一整合单元,用于对广告的点击日志或展示日 志通过储存在用户本地终端上的数据、会话标识ID、广告ID进行整合;第二整合单元,用于 通过广告的点击日志或展示日志中的广告素材ID与广告素材信息库进行整合得到广告素 材的行业描述信息;第Ξ整合单元,用于通过日志里的储存在用户本地终端上的数据与用 户信息进行连接整合得到该用户的属性信息与偏好信息;清洗单元,用于对经过整合的数 据进行清洗去掉不合法的cookie。
[0090] 进一步的,上述装置40还可W包括:离散模块,用于在对偏好信息进行特征提取之 后,如果偏好信息中的特征为具有有限类别的离散型特征,对离散型特征进行离散化编码; 如果偏好数据中的特征为连续型特征,则根据预设模型算法的类型确定是否对连续型特征 进行离散化编码。
[0091] 本发明实施例提供的方案,能够充分利用视频网站中被挖掘出的大量用户信息, 包括
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1