请问 1000 万级别的 md5 条目（16 字节）需要能够尽可能快判断 exists，同时最好能够节省存储资源，应该怎么做比较好呢

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 579 天前的主题，其中的信息可能已经有所发展或是发生改变。

目前是直接灌的 sqlite ，不知道有没更好的做法

20 条回复 • 2023-08-10 18:25:59 +08:00

xmh51

2023-08-09 22:07:04 +08:00

使用嵌入式的磁盘 key value 数据库即可
https://github.com/jankotek/mapdb
https://github.com/berkeleydb/je

xmh51

2023-08-09 22:08:12 +08:00

推荐 berkeleydb

qwerthhusn

2023-08-09 22:09:13 +08:00

看下布隆过滤器能不能满足需求

kokutou

2023-08-09 22:17:08 +08:00 via Android

按开头首字母数字分成 32 个库扔固态上，分 32 个地址去查询，会比直接一个数据库查快吗？
或者 32^32 个库呢？

leonshaw

2023-08-09 22:17:45 +08:00

数据也就 100 多 M 而已

dode

2023-08-09 22:23:12 +08:00 via Android

树结构，分层，分区，可以优化命中次数

Vegetable

2023-08-09 22:26:16 +08:00

别想了，数据库就是最好的办法。其他方法都快不了多少，但是多费不少事儿。

很久以前做过一个手机号 md5 的反查的工具，穷举国内手机号大概是 40 多亿个，基于二分法在硬盘上反查，普通固态上一秒我记得能处理大概四五千个吧。我估摸着数据库应该不会比这慢，不过数据塞到数据库里很烦，当时能用的数据库还是个机械硬盘，直接给我劝退了

virusdefender

2023-08-09 22:27:27 +08:00

我这有个 1400w 的 sha256 存 boltdb 才 600 多 M

aikdong

2023-08-09 22:28:21 +08:00

1000 万直接放内存里面，单线程 1000 万次比较 0.36s：
```python
import string
import random
# initializing size of string
N = 16
data = set()
for i in range(10000*1000):
data.add(''.join(random.choices(string.ascii_letters, k=N)))

start=time.time()
sample = ''.join(random.choices(string.ascii_letters, k=N))
for _ in range(10000*1000):
if sample in data:
pass
end=time.time()
print("set:", end-start)
```