V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  sunchen  ›  全部回复第 3 页 / 共 12 页
回复总数  235
1  2  3  4  5  6  7  8  9  10 ... 12  
出口 IP 应该爬过美团,被封了
2017-11-21 21:47:32 +08:00
回复了 cstj0505 创建的主题 数据库 用了 mysql 的同事遇到 pg 都相逢恨晚
@est 生产环境 postgres + vertica + s3 + kafka 一套看上去很简单的组件, 但是干啥都是美滋滋
2017-11-21 14:40:18 +08:00
回复了 cstj0505 创建的主题 数据库 用了 mysql 的同事遇到 pg 都相逢恨晚
不了解 postgres 的人可以看看这个博客 https://github.com/digoal/blog, 你就会对 postgres 有相见恨晚的感觉了
2017-11-18 19:29:11 +08:00
回复了 wuyuchenshishabi 创建的主题 职场话题 爬虫还得招专门的工程师?
@gouchaoer 不用微博,马化腾 MjQ0MTkzMjkw
2017-11-18 16:26:54 +08:00
回复了 defclass 创建的主题 奇思妙想 非中介租房平台一点想法
只招对公的租,比如各种品牌公寓,自如合租之类的
2017-11-18 16:25:42 +08:00
回复了 golmic 创建的主题 分享创造 全员接单时代! IP 代理池项目完善中!
爬的买的代理 IP 都是垃圾,ADSL 才是王道
2017-11-18 15:26:00 +08:00
回复了 wuyuchenshishabi 创建的主题 职场话题 爬虫还得招专门的工程师?
日常 30%时间写爬虫的路过。
想知道楼主破解过 APP 吗,写过分布式 Xposed hook 手机集群吗?自定义过爬虫专用的 android rom 吗?搭过代理集群吗?搞定过多少验证码?
其实我想说 sql 写的溜一般是爬虫工程师的基本素养。
2017-11-18 08:56:18 +08:00
回复了 liv11d 创建的主题 程序员 请问平安银行信用卡怎么样啊?
天天给你打电话卖保险
2017-11-02 09:48:32 +08:00
回复了 radiolover 创建的主题 程序员 程序员都在偷偷玩比特币和其他虚拟货币?
玩过,小赚
2017-10-23 19:01:24 +08:00
回复了 turan12 创建的主题 MySQL 求一个 MySQL 数据比对的思路
几百万级表自己 join 一下没什么压力吧,提前再过滤下频率为 1 的联系人,应该没多少数据了

假设表 contacts 结构:
user_id 用户 ID,
phone 联系人电话



with (
select user_id
, phone
, count(distinct user_id) over (partition by phone) as total_distinct_user
from contacts
) as t

select a_user_id, b_user_id, count(*) over (partition by a_user_id, b_user_id)
from
(
select a.user_id as a_user_id, b.user_id as b_user_id, phone
from t as a,
t as b
where a.phone = b.phone
and a.user_id > b.user_id
and a.total_distinct_user > 1
);

上边计算可以算出不同的用户相同联系人数量,因为 mysql 没有 window function,上述过程在 mysql 里可以多分几步计算模拟下
能,不过具体效果取决于这一列的数据分布的离散情况,以及和数据主键的的分布的相关性。如果 222 的数据在 1 亿数据里分布很广,IO 依然很多
@saximi 建议分开,如果因为某些原因必须同时持有同一个 connection 对象的话,用 spider 对象持有,pipeline 和 middleware 都已访问到,pipelines 和 middleware 中的方法不会冲突的
写库过程写到 pipeline 里, pipeline 实现 close_spider 方法
pipeline 实现 close_spider 方法
2017-10-11 18:01:11 +08:00
回复了 zonga 创建的主题 程序员 回复 TD 退订怎么实现
if (received("TD")) {
markUserActiveUser();
sendMoreMessage();
}
2017-09-26 19:55:30 +08:00
回复了 kindlepaper 创建的主题 Android 过来人推荐一个 经济实惠的 Android 开发测试机
二手一加 3t
2017-09-23 11:35:22 +08:00
回复了 linuxchild 创建的主题 Python 使用 Python 处理大文件有什么推荐的方式么?
@linuxchild multiprocessing 啊
1  2  3  4  5  6  7  8  9  10 ... 12  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1423 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 34ms · UTC 17:30 · PVG 01:30 · LAX 10:30 · JFK 13:30
Developed with CodeLauncher
♥ Do have faith in what you're doing.