Document
检索banner
高级检索 在检索结果中检索
全部字段 题名 作者 关键词 摘要

基于全网站爬虫的URL去重策略优化

  • 【作者】赵鹏,王鹏
  • 【刊名】数字化用户
  • 【作者单位】太原师范学院
  • 【年份】2018
  • 【卷号】24卷
  • 【期号】 第34期
  • 【页码】247
  • 【ISSN】1009-0843
  • 【关键词】URL去重 全网站爬虫 MD5加密 信息安全 
  • 【摘要】 在如今这个信息化时代,信息安全已经变成了一个越来越重要的问题.针对于企业信息安全这个问题,市场了出现了各种各样的网站漏洞扫描器.漏洞扫描工具的效率,很大程度上取决于如何去除重复的URL链接.常见的URL去重策略主要有数据库去重、set去重、布隆过滤器去重、MD5加密去重等等.本文在MD5加密去重策略的基础上,添加了Rabin指纹算法,优化了去重策略的查找效率,使得优化后的网站爬虫性能有了较为显著地提升,具有一定的现实意义.
  • 【文献类型】 期刊
进入发现系统查看更多信息
页脚