布隆过滤器了解一下,轻松过滤100亿个网页,总大小仅30G

搬瓦工机场JMS

如果一个黑名单包含100亿个黑名单网页,每个网页最多占64B,设计一个系统,判断当前的URL是否在这个黑名单当中,要求额外空间不超过30GB,允许误差率为万分之一。那就要用到布隆过滤器了。

布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量(位图)和一系列随机映射函数(哈希函数)。
布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。
江西网友:比我还能吹~
青海网友:做爬虫的时候还是很好用的
云南网友:布隆过滤器,相当优秀的去重算法,在大数据集经常要用到。
山东网友:用途还是很广的,爬虫去重用得到。作为数据库的缓冲也可以。

未经允许不得转载:美国VPS_搬瓦工CN2 GIA VPS » 布隆过滤器了解一下,轻松过滤100亿个网页,总大小仅30G

赞 (0) 打赏

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏