V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  sky101001  ›  全部回复第 3 页 / 共 5 页
回复总数  84
1  2  3  4  5  
2018-10-30 09:13:01 +08:00
回复了 iblislsy 创建的主题 程序员 求一个可行方案:计算新用户和老用户通讯录的最高匹配度
@Xs0ul 是的,这个不是 bloomfilter 的标准用法,在取或操作后摘要不再稀疏。 个人是觉得在文本长度不定的情况下,用局部敏感哈希按照(相同号码数量 /新用户的号码数量)计算相似度会比较麻烦,所以提了这个方法。本质上是就给号码归类以降低计算量。

最终要的就是这个不稀疏的结果,假设有三个签名,分别为 11000110,11000100,01100111,可以很容易地看出前两个数据集重合的可能性更大,这样就可以筛除海量数据中不相似的那部分。

当然,这是有误判的概率的,这个概率是和 hash 函数以及签名的长度有关的。这种 hash 函数,很好取,提一个不太好的函数--比如我希望 hash 函数要在 256bit 的空间里至多有 2 个 1,我可以把 md5 的最后 16 位分成两段 8 位的摘出来,决定这两个 1 的位置。
2018-10-29 20:24:24 +08:00
回复了 iblislsy 创建的主题 程序员 求一个可行方案:计算新用户和老用户通讯录的最高匹配度
个人觉得数据量较大时,利用 Bloom Filter 是最佳解决方案:
1. 首先设计几个不同的 hash 函数,这些 hash 函数可以把手机号映射到 256bit 的空间里,并具有“稀疏”的特点(就是说 1 的数量很少,几乎全是 0 )比如手机号 A 可以在 hash 后得到 00100010,手机号 B 得到 00100001。
2. 然后对用户通讯录里的每个手机号进行 hash 操作,并将所得的结果按位相加,得到一个签名。比如手机号 AB 相加,得到 00100011。不同的 hash 算法可以得到不同的签名。记录这些签名。
3. 每当有新用户注册,对其通讯录进行以上处理,得到其签名(如 00100001 )。将新用户的签名和老用户的签名进行与操作,记录 1 的个数,1 的个数最多的,就可能是最相似的。
这样初筛时间复杂度是 O(N),之后再进行处理就快多了。
2018-09-13 22:35:41 +08:00
回复了 xoxo419 创建的主题 问与答 docker 如何让 Nginx 获取到访问者 IP?
同 X-Forwarded-For,可以正确获取真实 ip
2018-09-08 09:51:21 +08:00
回复了 alvin666 创建的主题 问与答 有一个私活?求报价
这个的报价会随具体需求上下浮动很大的。比如说:用户系统是怎样的?是对接学校的账户,还是另行设计一套;讲座的报名需要抢吗,估计多少人使用,支持多少的并发?
2018-09-07 23:17:37 +08:00
回复了 alvin666 创建的主题 问与答 有一个私活?求报价
去年给学校做了一个预约系统,功能类似楼主说的那样(当然,是免费做的😂)
楼主如果有兴趣,我们可以聊聊(你的 qq 不知为什么加不上,囧)
2018-08-31 11:37:06 +08:00
回复了 YiweiHangzhi 创建的主题 程序员 不使用 redis,关于邮箱验证码过期实现,请教一下?
如果楼主的题干是指接收数字验证码,而不是链接
那么我真的很想知道楼主的那个数字验证码是存在哪里的
2018-08-29 20:58:09 +08:00
回复了 sillinger 创建的主题 Linux 网站用户放外链图片,如何让其不显示
1 楼正解
另外如果图片是懒加载的,可以直接 js 代码里加个一行判断,如果是跨域图片则替换为 404.jpg ,这样兼容性可能稍微好一些,不用踩一众国内浏览器的坑。
2018-08-19 22:27:16 +08:00
回复了 waffur 创建的主题 Python 有搞微信开发的吗?请教一个问题
@asd123456cxz
如果是在客户端用 localstorage 存储请求,那就不需要 openid,只要将每次请求的内容记录在本地即可。比如 localstorage 中已经记录的数据是 1 (当然 post 出去的数据不仅仅是 1 ),目前想要发送的数据是 2,那就生成一段用于 post 的数据{'previous':1,'current':2},然后刷新 localstorage。
2018-08-19 08:01:29 +08:00
回复了 waffur 创建的主题 Python 有搞微信开发的吗?请教一个问题
如果需要找到第一次请求的信息,那就得用上 openid 之类的标识符,每次请求都需要有读写操作,可能效率不是很高。
虽然不清楚具体需求,但仅对微信而言,其实可以把每次请求的内容存在 localstorage 里,处理后一并发出。避免服务器端消耗资源去找该用户上一次的请求内容
2018-03-30 22:50:11 +08:00
回复了 xiamuguizhi 创建的主题 Blogger 各位大佬能发下你们的博客吗?仅供参考!
flask 小博客
https://skyin.win
我有时也会遇到类似的需求,只有几个表,单表 3w 条数据。 都是偷懒直接导进数据库,然后干活的,不管是查空值还是干别的什么,一条 sql 的事。 操作结束后导出为 excel 也挺方便。
如果你的表是 300*3w,那可能还是用 vba 遍历目录文件快一些了。但既然你能用 vba 把表合并起来,我猜应该没有 900w 那么多吧。
2018-03-06 19:55:34 +08:00
回复了 madNeal 创建的主题 全球工单系统 CSDN 算是恶心到我了
最恶心人的还是明文密码事件,怎么想都是 csdn 故意的吧
2017-12-05 12:08:38 +08:00
回复了 zjfy286 创建的主题 问与答 白底黑字还是黑底白字
深灰色底+浅色字
2017-12-04 19:33:37 +08:00
回复了 sky101001 创建的主题 分享发现 用 flask 撸了一个类似 4chan 的匿名版
@Nothentai 2chan 没挂
中国的匿名版主岛挂了,但备胎岛还活着
2017-12-04 17:04:00 +08:00
回复了 sky101001 创建的主题 分享发现 用 flask 撸了一个类似 4chan 的匿名版
@art2cat 我是智障。。。
已修复
2017-12-04 16:24:11 +08:00
回复了 sky101001 创建的主题 分享发现 用 flask 撸了一个类似 4chan 的匿名版
@mclxly
是的,就是做着玩玩。
其实我觉得只需要有 10 个以上的人用,就可以达到匿名效果,分辨不出发串的究竟是谁了。
2017-12-04 16:22:09 +08:00
回复了 sky101001 创建的主题 分享发现 用 flask 撸了一个类似 4chan 的匿名版
@app13
确实没有,是我没看仔细。
之前用芦苇 app 没能成功发串,以为备胎岛也实名了。刚才在网页版发了个串,才发现预实名的是主岛。
不知道会不会引起岛争,作为老岛民,我有些不满主岛的包容策略。去年基本转投 ku 岛怀抱了。
然而 ku 岛现在也被一群 zz 厨占领了。
2017-11-29 22:30:20 +08:00
回复了 sky101001 创建的主题 问与答 如果不对论坛进行实名,网站运营者会有什么处罚?
@msg7086
感谢回复,但现在查网站负责人是谁简直太容易了,通过 whois 信息也能顺藤摸瓜吧。
另外突然意识到 v2 似乎还没有实名?这是什么情况
2017-10-02 19:53:48 +08:00
回复了 bmcjxhgwy 创建的主题 问与答 请教个 cookie 和 session 的问题
可以啊,但是一般 session 存在服务器上,所以比起存在浏览器上的 cookie,用户更难修改。如果有方法弄到别人的 session_id,服务端不验 ip 的话确实就伪造成功了嘛~
session 的作用就是防修改伪造,只要能达到这个目的就行了。当然你也可以用 cookie 实现。flask 的 session 就是加了密的 cookie
1  2  3  4  5  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3042 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 37ms · UTC 13:04 · PVG 21:04 · LAX 05:04 · JFK 08:04
Developed with CodeLauncher
♥ Do have faith in what you're doing.