V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  makdon  ›  全部回复第 4 页 / 共 6 页
回复总数  102
1  2  3  4  5  6  
2020-12-19 12:20:15 +08:00
回复了 huangzhiyia 创建的主题 问与答 求一个数据库或者正则大佬帮忙解决一个字符匹配的问题.
但是你这样写,每次查 DB 都要扫全表做正则匹配吧...数据量大一点性能应该很捉鸡
用布隆过滤器应该可以搞得比较快。
新增一个用户-布隆的 bitmap 表,主键用户 id,另一列一个大 bitmap
然后
select *
from 问题表
where
!( 取布隆 bit 结果(问题 id) & 用户 bitmap)
# 假定 id 连续单调递增
order by 问题 id
offset 页数*页大小

没有具体 benchmark,不过我想这大概能用,线性遍历问题表够了就可以返回的算法

不过其实算一下,9,000,000 条问题,一条算 1KB,内存占用也就 9GB 这个数量级,如果业务允许(例如增删改不不频繁),我会搞两台内存大的服务器,直接在内存里面玩上面的解法;
如果“用户回答超过 10w”指的是一个用户的话,那就改成随机从问题库里面挑然后位与康康有没有回答过,分页按钮改成“换一批问题”(不然每次都要遍历 10w 个问题)
一定要分页的话,可以给用户记录一个“上一次回答的最后一个问题的 id”,下次找的时候从那个 id 开始找。
2020-11-30 20:40:13 +08:00
回复了 hehe12980 创建的主题 程序员 技术求助帖,关于 redis 大 value 存储的问题
可以了解下 Apache 的 druid,这种场景很适合
2020-10-27 21:35:01 +08:00
回复了 haicoderibai 创建的主题 推广 小白自学 Python (五) -- Python 运算符
@Livid spam ?
2020-10-06 11:28:53 +08:00
回复了 threebr 创建的主题 问与答 Python 如何避免线程间的全局锁 GIL 进行并行计算?
如果 func_A 或 B 内涉及外部 IO 例如网络等,这俩并行的话还是可以提高那么一丢丢性能的,不过在这个 case 里面个人更倾向于优化 func_A 和 func_B 的性能为主,可以先做下 benchmark 看看瓶颈在哪
2020-07-22 12:30:03 +08:00
回复了 makdon 创建的主题 宽带症候群 有没有觉得深圳联通的 4G 信号很差基本上没办法用了?
@Macuilxochitl 对我就是深大南头这边,没有 wifi 基本就与世隔绝
2020-07-05 22:53:20 +08:00
回复了 felix021 创建的主题 程序员 写简单的容易被喷,写难的没热度
啊这
一眼就认出是发穿山甲招聘的那位
起码目的达到了,不是吗
牛逼吹得比谁都大
预算给得比谁都少
就差程序员
2020-06-29 22:56:02 +08:00
回复了 Te11UA 创建的主题 Python 请问静态资源取走后删除怎么做性能最高,代码最简洁呢
要不换成 SSD ?如果是自己的物理服务器,可以搞 nvme 的,或者组个 raid,应该会更快
等等首先现在你的瓶颈在哪里...是定位到了线程池里面大部分线程都在等 os.remove 吗(个人感觉应该是读文件的成本远远高于删文件吧)
如果不是的话...不要提前优化

我想到的这些:
1. 如果业务上面可以实现的话,在请求到的时候再生成文件,不落硬盘直接发送
2. 按照文件名之类的唯一键,hash 到多台服务器上面处理
3. 只能单机的话,可以调研一下有没有适合这个场景的文件系统...
2020-06-04 21:46:57 +08:00
回复了 HolmLoh 创建的主题 程序员 想请教一下如何高效地甄别用户上传数据的唯一性
感觉好像用布隆过滤器可以搞定?
2020-05-29 12:55:55 +08:00
回复了 FONG2 创建的主题 数据库 单表近 7 亿条数据,现在要优化结构,进行去重,求个方案
@makdon 建一个新库表,从旧表读所有数据,用 map reduce 去重,写去新表。需要考虑去重期间新写入的数据的临时存放。
2020-05-29 12:54:47 +08:00
回复了 FONG2 创建的主题 数据库 单表近 7 亿条数据,现在要优化结构,进行去重,求个方案
感觉这个需求用 map reduce 还是很好做的
2020-04-10 19:11:01 +08:00
回复了 GrapeCityChina 创建的主题 推广 为什么我建议每个开发人员都需要学 Python ?
看见第一点就知道不是培训班就是公众号,直接拉到最底果然
Python 的官方中文文档是由社区维护的,由大家自发参与贡献自己业余时间翻译的,不是由中文水平不知道高到哪里去专业翻译人员参与,因此不能强求每个人都有很高的水平,翻译都可以做到信达雅;而且若要翻译质量高的话,花在遣词造句的时间更多,同样时间投入产出条数更少,因此极高质量翻译占比不高也是正常的。
其次,目前应该是还没有复核员对词条的翻译进行审核的,只是靠社区发现问题并修正。
不过用机翻贡献词条可能并不是一个值得提倡的做法,如果你发现某个词条有误,可以在 python/python-docs-zh-cn 这个仓库提 issue,或者直接申请成为翻译组一员修改错误的翻译。

附 git repo:
https://github.com/python/python-docs-zh-cn
2020-02-05 14:45:56 +08:00
回复了 zorksylar 创建的主题 程序员 开工后如何选择交通工具
步行上班,,,
2019-11-17 17:13:50 +08:00
回复了 zhshch 创建的主题 程序员 服务器自动拉取 Git 一般是怎么做的?
静态的项目使用 gitlab pineline 就可以了 8 ?
2019-11-11 00:38:37 +08:00
回复了 cengjz11271 创建的主题 职场话题 应届本科生的 offer 纠结:究竟要不要去北漂??
如果想了解微保的话,也可以找我
1  2  3  4  5  6  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2666 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 37ms · UTC 10:00 · PVG 18:00 · LAX 02:00 · JFK 05:00
Developed with CodeLauncher
♥ Do have faith in what you're doing.