一种基于规则的交互式中文垃圾邮件过滤方法_3

文档序号:9567142阅读:来源:国知局
互 式系统的73% ;
[0081] 再次,对于垃圾邮件的误判率,采用本发明的交互式系统为5. 3%低于非交互式系 统的6.6% ;
[0082] 最后,对于垃圾邮件的漏判率,采用本发明的交互式系统与非交互式系统基本持 平,都是27% ;
[0083] 同时,从图5中可W看出,在增加用户与服务器之间的交互并及时处理反馈信息 之后,系统整体性能不会受影响。
[0084] 实验证明,增加交互对于过滤垃圾邮件是有意义的,它能够在保证过滤效率的前 提下,一方面减少错判的发生,一方面降低重新训练的频度,提高规则权重更新的速度。因 此本发明对中文垃圾邮件过滤具有很好的应用价值。
【主权项】
1. 一种基于规则的交互式中文垃圾邮件过滤方法,其特征在于,包括W下步骤: 步骤(1),从垃圾邮件样本中提取中文垃圾邮件过滤规则,通过训练得到垃圾邮件过滤 规则权重;具体执行W下步骤: 步骤(1.1),分词; 步骤(1.2),统计词频; 步骤(1. 3),选出词频最高的一组关键字; 步骤(1. 4),生成关键字过滤规则; 步骤(1. 5),通过训练得到规则权重; 步骤(2),用改进遗传算法训练得到规则的最佳权重分布; 生成中文垃圾邮件过滤规则后,需要用寻优算法为生成的中文过滤规则寻找最好的权 重分布,本发明采用改进的遗传算法训练得到最优权重分布,改进遗传算法采用实数编码 方案,更便于进行数值优化,由于初始种群对遗传算法效能的发挥影响很大,所W采用小群 体竞争法来确定初始种群,同时,为了保证捜索到的最佳个体不被各种遗传操作破坏,并保 留父代群体的优良特性,允许父代群体与交叉变异后产生的新个体一起参与竞争,即两代 竞争法;具体的遗传操作中,交叉算子采用优选父代自适应交叉算子,变异算子采用非一致 自适应变异算子,而在产生子代群体个体时,采用最优保留策略和两两竞争选择策略,W保 证算法的收敛性;最后,在算法的终止条件上,待群体进化稳定或者达到事先规定的进化 代数时,终止遗传算法, 具体执行W下步骤: 步骤(2. 1),利用小群体竞争法生产初始群体,并进行实数编码; 步骤(2. 2),进行适应值评价,判断是否适合终止条件,如果满足,输出最佳结果,转步 骤(3);否则,转步骤化如; 步骤(2. 3),完整保留上代群体的一个备份; 步骤(2. 4),对上代群体进行优选杂交,产生自适应非一致变异; 步骤(2. 5),将上代群体的备份及步骤化4)所产生的自适应非一致变异进行匹配,生 成匹配池; 步骤(2. 6),保留最优个体,其它个体采用两两竞争的方式优胜劣汰; 步骤(2. 7),通过最优个体与两两竞争的结果生成子代群体,转步骤(2.2); 步骤(3),加强用户和服务器之间的交互,收集并分析用户反馈的漏判和误判信息,供 步骤(4)进一步处理; 本发明所提出的一种基于规则的交互式中文垃圾邮件过滤方法中,服务器在判别邮件 的同时,还提供了供用户反馈判别是否准确的接口,W便有效降低邮件误判率,具体执行W 下步骤: 步骤(3. 1),用户收到经邮件服务器判别的邮件时,如果运封邮件是被误判的正常邮 件,用户通过误判反馈接口将此误判信息反馈给服务器,服务器会将此邮件的标签从垃圾 邮件改为正常邮件,再将误判信息放入误判信息集,等待进一步处理; 步骤(3. 2),如果运封邮件是被漏判的垃圾邮件,用户通过漏判反馈接口将此漏判信息 反馈给服务器,服务器会将此邮件的标签从正常邮件改为垃圾邮件,再将漏判信息放入漏 判信息集,等待进一步处理; 步骤(4),用增量学习的方法及时调整敏感规则的权重; 用户反馈的误判和漏判信息,需要进一步的处理,W便有效降低误判率; 一般的做法是选择将误判样本和漏判样本重新加入最初用来训练规则权重的训练样 本集中,然后重新训练规则权重,运样做虽然也可W减少错判,但是在邮件样本集非常大的 时候,重新训练的周期可能长达几个星期,频繁的重新训练费时又费力,势必会降低规则权 重更新的速度,影响过滤系统的实时性能,所W必须降低重新训练的频度; 本发明选择在两次重新训练之间,用增量学习法来处理用户的反馈信息,在不影响过 滤精度的前提下,提高规则更新的速度和效率,具体执行W下步骤: 步骤(4. 1),处理误判邮件;具体执行W下步骤: 步骤(4. 1. 1),邮件服务器收集误判样本,待误判信息集中的样本数目达到一定规模 (假设为)时,对运些误判邮件样本所触发的过滤规则进行统计,给出其中每条规则被 触发的次数,设触发规则i的邮件数目为ni; 步骤(4. 1. 2),按照规则i被触发的次数η对运些规则进行排序,从大到小地挑选出若 干条规则,将其权重作为待修改的规则权重; 步骤(4. 1. 3),适当降低待修改规则的权重,设规则i修改前的权重为《1,修改后的权 重为《1',触发规则i的邮件数为ni,误判邮件样本总数为,则权重调整公式为: ω/ =ω;-Δω;,其中:其中r为[0,1]间取值的随机数,b为系统参数,取值可W在实验过程中选择,可W看出 上述公式中,A?1与ω1本身的大小成正比,运是因为权重越大的规则,在被触发时,造成 误判的可能性也越大,所W权重调整量应该越大,同时,规则i触发的邮件数目越大时, Δω1也越大,运是因为触发规则i的误判邮件数目越多,说明运条规则对误判的影响越大, 相应的需要作较大的调整; 步骤(4. 2),处理误判邮件;具体执行W下步骤: 步骤(4. 2. 1),邮件服务器收集漏判样本,待漏判信息集中的样本数目达到一定规模N时,对运些漏判邮件样本所触发的过滤规则进行统计,给出其中每条规则被触发的次数, 记触发规则i的邮件数目为 步骤(4. 2. 2),按照规则i被触发的次数对运些规则进行排序,从大到小地挑选出若 干条规则,将它们的权重作为待修改的规则权重; 步骤(4. 2. 3),适当提高待修改规则的权重,设规则i修改前的权重为ω1,修改后的权 重为《1',触发规则i的邮件数为ni,漏判邮件样本总数为,则权重调整公式为: ω/ =ω;+Δω;,其中,其中r为[0,1]间取值的随机数,b为系统参数,取值可W在实验过程中选择,可W看 出上述公式中,A?1与ω1本身的大小成反比,运是因为权重越小的规则,在被触发时,造 成漏判的可能性也越大,所W权重调整量应该越大,同时,规则i触发的邮件数目越大时, Δω1也越大,运是因为触发规则i的漏判邮件数目越多,说明运条规则对误判的影响越大, 相应的需要作较大的调整; 步骤(4. 3),整体上调整判定阔值; 将误判样本和漏判样本加入到最初用来训练规则权重的样本集中,用新的样本集和所 有规则(包括调整过权重的和未调整过权重的)对垃圾邮件判定阔值进行调整,如果在阔 值为某个值W时,邮件判定的正确率最高,则将运个值作为新的判定阔值。
【专利摘要】一种基于规则的交互式中文垃圾邮件过滤方法。包括步骤:(1)从中文垃圾邮件样本中提取中文垃圾邮件过滤规则;(2)用改进遗传算法训练得到规则的最佳权重分布;(3)加强用户和服务器之间的交互,收集并分析用户反馈的漏判和误判信息(4)用增量学习的方法及时调整敏感规则的权重。本发明提出的算法使用改进遗传算法训练规则权重分布,通过用户与服务器之间的交互收集误判和漏判信息,依分析结果用增量学习的方法修正规则权重,从而降低误判率和漏判率,提高过滤的自适应性。这种交互式的过滤方法在保证垃圾邮件识别率不受影响的前提下,减少了错判的发生,过滤效果更好;增量学习方法降低了重新训练的频度,提高了权重更新的速度,使过滤系统的整体性能得到提高。
【IPC分类】H04L29/06, H04L12/58
【公开号】CN105323248
【申请号】CN201510724294
【发明人】刘武, 唐再良, 文永革, 赵永驰
【申请人】绵阳师范学院
【公开日】2016年2月10日
【申请日】2015年10月23日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1