一种缺失数据预测方法及装置与流程

文档序号：11133988阅读：来源：国知局

技术特征：

1.一种缺失数据预测方法，其特征在于，包括：

构建待填充数据集的决策树分类器；

基于预设改进遗传算法对所述决策树分类器进行剪枝处理，获取最优决策树分类器；

根据所述最优决策树分类器预测所述待填充数据集中的缺失数据。

2.根据权利要求1所述的方法，其特征在于，所述构建待填充数据集的决策树分类器，包括：

划分所述待填充数据集作为第一预设组数数据，并取所述第一预设组数中的第一设定组数数据作为训练数据集；

将所述训练数据集作为当前决策树分类器的根节点，并确定所述根节点为当前分割节点；

根据预设分割属性集合中的各个分割属性，分别对所述当前分割节点进行分割，并计算各个所述分割属性对应的信息增益值；

当各个所述信息增益值全为0时，确定所述当前分割节点作为所述当前决策树分类器的叶子节点，并确定所述当前决策树分类器为决策树分类器；

当各个所述信息增益值不全为0时，比较各个所述信息增益值，选取信息增益值最大的分割属性作为所述当前分割节点的测试属性；

基于所述测试属性对所述分割节点进行分割，得到第一分割子集和第二分割子集；

将所述第一分割子集和所述第二分割子集分别确定为所述当前分割节点，并返回执行所述根据预设分割属性集合中的各个分割属性，分别对所述当前分割节点进行分割，并计算各个所述分割属性对应的信息增益值，这一步骤。

3.根据权利要求1所述的方法，其特征在于，所述基于预设改进遗传算法对所述决策树分类器进行剪枝处理，获取最优决策树分类器，包括：

划分所述待填充数据集为第二预设组数数据，并取所述第二预设组数数据中的第二设定组数数据作为测试数据集；

对所述决策树分类器的边进行二进制编码处理，并确定当前迭代次数k为0；

随机生成设定数量的第一决策树分类器并存储于第一种群中；

根据预设适应度函数，计算各个所述第一决策树分类器的适应度其中，N_Mi为所述第一决策树分类器H_n正确分类所述测试数据集的实例总数，N为所述测试数据集中实例总数；

比较各个所述第一决策树分类器的适应度，确定适应度最大的第一决策树分类器作为第一较优决策树分类器并存储于第二种群中；

基于预设自适应度遗传算法，对所述第一种群中剩余的各个第一决策树分类器进行染色交叉和变异处理，得到各个第二决策树分类器并存储于第三种群中；

根据所述预设适应度函数，计算各个所述第二决策树分类器的适应度其中，N′_Mi为所述第二决策树分类器H_n正确分类所述测试数据集的实例总数，N′为所述测试数据集中实例总数；

比较各个所述第二决策树分类器的适应度并淘汰适应度最小的第二决策树分类器；

确定剩余的第二决策树分类器作为第二最优决策树分类器并存储于所述第二种群中；

判断所述当前迭代次数k是否为预设最大迭代次数；

若是，比较所述第二种群中所述第一较优决策树分类器和各个所述第二较优决策树分类的适应度，并确定适应度最大的决策树分类器作为最优决策树分类器；

若否，将当前迭代次数k加1，并返回执行所述随机生成设定数量的第一决策树分类器并存储于第一种群中，这一步骤。

4.根据权利要求1所述的方法，其特征在于，所述根据所述最优决策树分类器预测所述待填充数据集中的缺失数据，包括：

基于所述最优决策树分类器对所述待填充数据集进行分类，得到各个分类集合；

将缺少数据的分类集合确定为参考分类集，并将各个所述参考分类集中的所有数据作为填充参考样本X＝{X₁，X₂，…，X_m}；

基于预设排列顺序对所述填充参考样本进行排序，获取观察数据集合X_obs＝{X₁，X₂，…，X_p}和缺失数据集合X_miss＝{X_p+1，X_p+2，…，X_m}，其中，p为所述观察数据集合中的预设数据量；

确定当前迭代次数l为0，计算缺失数据的初始评价参量初始最大期望值E(X_fill|X_obs,θ⁽⁰⁾)＝θ⁽⁰⁾和初始预测值X_fill＝E(X_fill|X_obs,θ⁽⁰⁾)＝θ⁽⁰⁾；

将当前迭代次数l加1，计算当前最大期望值E(X_fill|X_obs,θ^(l))＝θ^(l-1)，其中，θ^(l)当前迭代次数l对应的评价参量、θ^(l-1)为迭代次数l-1对应的评价参量；

计算当前评价参量

判断当前迭代次数l对应的所述当前最大期望值和上一迭代次数l-1对应的最大期望值差的绝对值是否小于预设收敛值；

若是，计算最终预测值X_fill＝E(X_fill|X_obs,θ^(l))，并将所述最终预测值确定为所述缺失数据；

若否，返回执行所述将当前迭代次数l加1，计算当前最大期望值E(X_fill|X_obs,θ^(l))＝θ^(l-1)，这一步骤。

5.根据权利要求4所述的方法，其特征在于，所述预设排列顺序为时间顺序。

6.根据权利要求4所述的方法，其特征在于，所述预设收敛值为5。

7.一种缺失数据预测装置，其特征在于，包括：构建模块、最优决策器获取模块和缺失数据预测模块；

所述构建模块，用于构建待填充数据集的决策树分类器；

所述最优决策器获取模块，用于基于预设改进遗传算法对所述决策树分类器进行剪枝处理，获取最优决策树分类器；

所述缺失数据预测模块，用于根据所述最优决策树分类器预测所述待填充数据集中的缺失数据。

8.根据权利要求7所述的装置，其特征在于，所述构建模块包括：训练数据集获取单元、第一获取单元、分割计算单元、第一确定单元、测试属性获取单元、分割单元和第二确定单元；

所述训练数据集获取单元，用于划分所述待填充数据集作为第一预设组数数据，并取所述第一预设组数中的第一设定组数数据作为训练数据集；

所述第一获取单元，用于将所述训练数据集作为当前决策树分类器的根节点，并确定所述根节点为当前分割节点；

所述分割计算单元，用于根据预设分割属性集合中的各个分割属性，分别对所述当前分割节点进行分割，并计算各个所述分割属性对应的信息增益值；

所述第一确定单元，用于当各个所述信息增益值全为0时，确定所述当前分割节点作为所述当前决策树分类器的叶子节点，并确定所述当前决策树分类器为决策树分类器；

所述测试属性获取单元，用于当各个所述信息增益值不全为0时，比较各个所述信息增益值，选取信息增益值最大的分割属性作为所述当前分割节点的测试属性；

所述分割单元，用于基于所述测试属性对所述分割节点进行分割，得到第一分割子集和第二分割子集；

所述第二确定单元，用于将所述第一分割子集和所述第二分割子集分别确定为所述当前分割节点，并触发所述分割计算单元。

9.根据权利要求7所述的装置，其特征在于，所述最优决策器获取模块包括：测试数据集获取单元、编码处理单元、生成单元、第一计算单元、第一比较确定单元、交叉变异处理单元、第二计算单元、比较淘汰单元、第三确定单元、第一判断单元、第二比较确定单元和迭代单元；

所述测试数据集获取单元，用于划分所述待填充数据集为第二预设组数数据，并取所述第二预设组数数据中的第二设定组数数据作为测试数据集；

所述编码处理单元，用于对所述决策树分类器的边进行二进制编码处理，并确定当前迭代次数k为0；

所述生成单元，用于随机生成设定数量的第一决策树分类器并存储于第一种群中；

所述第一计算单元，用于根据预设适应度函数，计算各个所述第一决策树分类器的适应度其中，N_Mi为所述第一决策树分类器H_n正确分类所述测试数据集的实例总数，N为所述测试数据集中实例总数；

所述第一比较确定单元，用于比较各个所述第一决策树分类器的适应度，确定适应度最大的第一决策树分类器作为第一较优决策树分类器并存储于第二种群中；

所述交叉变异处理单元，用于基于预设自适应度遗传算法，对所述第一种群中剩余的各个第一决策树分类器进行染色交叉和变异处理，得到各个第二决策树分类器并存储于第三种群中；

所述第二计算单元，用于根据所述预设适应度函数，计算各个所述第二决策树分类器的适应度其中，N′_Mi为所述第二决策树分类器H_n正确分类所述测试数据集的实例总数，N′为所述测试数据集中实例总数；

所述比较淘汰单元，用于比较各个所述第二决策树分类器的适应度并淘汰适应度最小的第二决策树分类器；

所述第三确定单元，用于确定剩余的第二决策树分类器作为第二最优决策树分类器并存储于所述第二种群中；

所述第一判断单元，用于判断所述当前迭代次数k是否为预设最大迭代次数；若是，触发所述第二比较确定单元；若否，触发所述迭代单元；

所述第二比较确定单元，用于比较所述第二种群中所述第一较优决策树分类器和各个所述第二较优决策树分类的适应度，并确定适应度最大的决策树分类器作为最优决策树分类器；

所述迭代单元，用于将当前迭代次数k加1，并触发所述生成单元。

10.根据权利要求7所述的装置，其特征在于，所述缺失数据预测模块包括：分类单元、参考样本获取单元、排序单元、确定计算单元、迭代计算单元、第三计算单元、第二判断单元和第四计算单元；

所述分类单元，用于基于所述最优决策树分类器对所述待填充数据集进行分类，得到各个分类集合；

所述参考样本获取单元，用于将缺少数据的分类集合确定为参考分类集，并将各个所述参考分类集中的所有数据作为填充参考样本X＝{X₁，X₂，…，X_m}；

所述排序单元，用于基于预设排列顺序对所述填充参考样本进行排序，获取观察数据集合X_obs＝{X₁，X₂，…，X_p}和缺失数据集合X_miss＝{X_p+1，X_p+2，…，X_m}，其中，p为所述观察数据集合中的预设数据量；

所述确定计算单元，用于确定当前迭代次数l为0，计算缺失数据的初始评价参量初始最大期望值E(X_fill|X_obs,θ⁽⁰⁾)＝θ⁽⁰⁾和初始预测值X_fill＝E(X_fill|X_obs,θ⁽⁰⁾)＝θ⁽⁰⁾；

所述迭代计算单元，用于将当前迭代次数l加1，计算当前最大期望值E(X_fill|X_obs,θ^(l))＝θ^(l-1)，其中，θ^(l)当前迭代次数l对应的评价参量、θ^(l-1)为迭代次数l-1对应的评价参量；

所述第三计算单元，用于计算当前评价参量

所述第二判断单元，用于判断当前迭代次数l对应的所述当前最大期望值和上一迭代次数l-1对应的最大期望值差的绝对值是否小于预设收敛值；若是，触发所述第四计算单元；若否，触发所述迭代计算单元；

所述第四计算单元，用于计算最终预测值X_fill＝E(X_fill|X_obs,θ^(l))，并将所述最终预测值确定为所述缺失数据。

完整全部详细技术资料下载

当前第2页1 2 3