布隆过滤器

参考文档:

https://github.com/hugh2632/bloomfilter

https://github.com/haming123/gods

https://segmentfault.com/a/1190000041814095

布隆过滤器介绍

判断目标值是否在一个集合中是比较常见的业务场景。在Go语言中通常使用map来实现给功能。但是当集合比较大时,使用map会消耗大量的内存。 这种情况下可使用BitMap来代替map。BitMap虽然能够在一定情况下减少的内存的消耗,但是BitMap也存在以下局限性:

  • 当样本分布极度不均匀的时候,BitMap会造成很大空间上的浪费。 若数据的类型Int64,并且数据分布的跨度比较大,则也无法满足对内存的要求。
  • 当元素不是整型的时候,BitMap就不适用了。 BitMap只能保存整形数据,对于字符串类型的数据则不合适使用。

BitMap只能处理整形数据,对于字符串则不能说适用。若能够把字符串映射为整形,就可以使用BitMap来存储字符串的状态了。 hash函数可以将字符串映射为整形数据,但是hash函数映射为整形是存在hash冲突。为了减少hash冲突,可以使用多个hash函数来将一个字符串映射为多个整数,并将映射后的整数存在BitMap中。在查询字符串时,使用同样的hash函数来计算hash值,并使用同样的hash值来查询BitMap,若其中有一个hash值没有命中,则该url不存在。

上述思路就是布隆过滤器的核心思路。布隆过滤器是由布隆(Burton Howard Bloom)在1970年提出的,它实际上是由一个很长的二进制向量和一系列随机映射函数组成,布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率:即布隆过滤器报告某个值存在于BitMap中中,但是实际上该值可能并不在集合中。但是布隆过滤器若报告某个值不在BitMap中,则该值肯定不在集合中。

减少布隆过滤器误识别率的方法

布隆过滤器误识别的原因在于hash冲突,因此减少hash冲突可以降低布隆过滤器误识别率。hash冲突和BitMap数组的大小以及hash函数的个数以及每个hash函数本身的好坏有关。可以采用以下方法降低hash冲突的概率:

  • 多个hash,增大随机性,减少hash碰撞的概率。
  • 扩大数组范围,使hash值均匀分布,进一步减少hash碰撞的概率。

BitMap介绍

BitMap可以理解为通过一个bit数组来存储特定数据的一种数据结构。BitMap常用于对大量整形数据做去重和查询。 在这类查找中,我们可以通过map数据结构进行查找。但如果数据量比较大map数据结构将会大量占用内存。 BitMap用一个比特位来映射某个元素的状态,所以这种数据结构是非常节省存储空间的。

BitMap用途

  • BitMap用于数据去重 BitMap可用于数据的快速查找,判重。
  • BitMap用于快速排序 BitMap由于其本身的有序性和唯一性,可以实现快速排序:将其加入bitmap中,然后再遍历获取出来,从而得到排序的结果。

如何判断数字在bit数组的位置

在后面的代码中,我们使用[]byte来存储bit数据,由于一个byte有8个二进制位。因此:

  • 数字/8=数字在字节数组中的位置。
  • 数字%8=数字在当前字节中的位置。

例如:数字10,

  • 10/8=1,即数字10对应的字节数组的位置为:1
  • 10%8=2,即数字10对应的当前字节的位置为:2

设置数据到bit数组

  • num/8得到数字在字节数组中的位置 => row
  • num%8得到数字在当前字节中的位置 => col
  • 将1左移col位,然后和以前的数据做|运算,这样就可以将col位置的bit替换成1了。

从bit数组中清除数据

  • num/8得到数字在字节数组中的位置 => row
  • num%8得到数字在当前字节中的位置 => col
  • 将1左移col位,然后对取反,再与当前值做&,这样就可以将col位置的bit替换成0了。

数字是否在bit数组中

  • num/8得到数字在字节数组中的位置 => row
  • num%8得到数字在当前字节中的位置 => col
  • 将1左移col位,然后和以前的数据做&运算,若该字节的值!=0,则说明该位置是1,则数据在bit数组中,否则数据不在bit数组中。

Go语言位运算

在Go语言中支持以下几种操作位的方式:

  • & 按位与:两者全为1结果为1,否则结果为0
  • | 按位或:两者有一个为1结果为1,否则结果为0
  • ^ 按位异或:两者不同结果为1,否则结果为0
  • &^ 按位与非:是"与"和"非"操作符的简写形式
  • « 按位左移:
  • >> 按位右移:

左移

将二进制向左移动,右边空出的位用0填补,高位左移溢出则舍弃该高位。 由于每次移位数值会翻倍,所以通常用代替乘2操作。当然这是建立在移位没有溢出的情况。 例如:1«3 相当于1×8=8,3«4 相当于3×16=48

右移

将整数二进制向右移动,左边空出的位用0或者1填补。正数用0填补,负数用1填补。 负数在内存中的二进制最高位为符号位——使用1表示,所以为了保证移位之后符号位的正确性,所以需要在高位补1。 相对于左移来说,右移通常用来代替除2操作。 例如:24»3 相当于24÷8=3

使用&^和位移运算来给某一位置0

这个操作符通常用于清空对应的标志位,例如 a = 0011 1010,如果想清空第二位,则可以这样操作: a &^ 0000 0010 = 0011 1000

布隆过滤器的Go语言实现

接下来我们给出布隆过滤器的Go语言实现,目前代码已经上传到github中,下载地址

定义

首先给出BitMap结构的定义:

type BitMap struct {
	bits []byte
	vmax uint
}

创建BitMap结构

func NewBitMap(max_val ...uint) *BitMap {
	var max uint = 8192
	if len(max_val) > 0 && max_val[0] > 0 {
		max = max_val[0]
	}

	bm := &BitMap{}
	bm.vmax = max
	sz := (max + 7) / 8
	bm.bits = make([]byte, sz, sz)
	return bm
}

将数据添加到BitMap

func (bm *BitMap)Set(num uint) {
	if num > bm.vmax {
		bm.vmax += 1024
		if bm.vmax < num {
			bm.vmax = num
		}

		dd := int(num+7)/8 - len(bm.bits)
		if dd > 0 {
			tmp_arr := make([]byte, dd, dd)
			bm.bits = append(bm.bits, tmp_arr...)
		}
	}

	//将1左移num%8后,然后和以前的数据做|,这样就替换成1了
	bm.bits[num/8] |= 1 << (num%8)
}

从BitMap中删除数据

func (bm *BitMap)UnSet(num uint) {
	if num > bm.vmax {
		return
	}
	//&^:将1左移num%8后,然后进行与非运算,将运算符左边数据相异的位保留,相同位清零
	bm.bits[num/8] &^= 1 << (num%8)
}

判断BitMap中是否存在指定的数据

func (bm *BitMap)Check(num uint) bool {
	if num > bm.vmax {
		return false
	}
	//&:与运算符,两个都是1,结果为1
	return bm.bits[num/8] & (1 << (num%8)) != 0
}