目前在搞电商爬虫,
京东还行,还是能爬取的,一台机使用 scrapy 开个四个假的分布式窗口(配置差,不敢开太多,怕一觉起来电脑卡死),ip 被 ban 也不是很严重,除了一些页面需要使用 selenium 抓取之外(图书页面要下滑加载 js),其他的页面都可以直接抓取,不过如果中间掺杂需要 selenium 的页面会很慢,12 小时总共能爬 8w 页面(因为 scrapy 回调函数),一台机器能爬 3w 数据算多的了..
但是淘宝就恶心到我了........ 反爬很严重,用 selenium 爬几下就 gg, cookies 之后也用不了,除非用新的,再说我也没有那么多账号弄 cookies
根据用户行为来判断是否爬虫的吗?
还是查找原始 ip 来 ban 掉 ip?高匿 ip 不行吗?
那么能使用 app 加 mitmdump 拦截抓取数据保存,还是通过 pc 端加自制脚本(非 selenium)模拟用户点击+mitmweb 拦截数据?
1
VDimos 2019-06-22 13:24:16 +08:00 via Android 2
为啥说的不让你爬错了一样,于情于理不让你爬都没问题
|
2
shanlan 2019-06-22 13:26:15 +08:00
未经同意,擅自爬取数据违法。
|
3
o00o 2019-06-22 13:27:41 +08:00 via Android
PC 端连正常用户都受影响了,更何况爬虫了
|
4
z1421012325 OP @VDimos 我也知道啊,但是学习不商用,而且也不是要全部爬取,只要能运行成功一天就好了
|
5
z1421012325 OP @o00o app 端有没有试过?,我这边弄不了,机器开虚拟机配置不行,淘宝都打不开...
|
6
daquandiao2 2019-06-22 13:29:56 +08:00
你最后不都想到两种办法了 怎么不试试
|
7
z1421012325 OP 而且我不一定全站爬取,只要热门商品前面的就行,大概是每个商品爬个 5 60 页就爬下一个
|
8
z1421012325 OP @shanlan 学习不商用,试试爬爬,加强技能
|
9
q397064399 2019-06-22 13:32:47 +08:00 3
@shanlan #2 敞开大门做生意,换个姿势就不让插了? 真的是搞笑,哪天说不定我浏览器打开一下淘宝,就被定义为爬虫把我给抓走了,口袋罪何患无辞
|
10
z1421012325 OP @daquandiao2 都算是构想,第一种我机器配置不行,在模拟器中开淘宝直接卡死,第二种还在想怎么弄,这不来 v2 上看看大家有什么思路不?
|
11
Baboonowen 2019-06-22 13:33:33 +08:00 1
虽然我也写爬虫,但我不会觉得人家不让你爬错了……
|
12
z1421012325 OP @Baboonowen 也对,但是爬虫就是要反反爬吧
|
13
sobigfish 2019-06-22 13:57:53 +08:00
讨厌这些害的我正常浏览都要登录的 爬虫,但同时觉得,电商网站就应该明码实价,提供 API 给出价格都是应该的
|
14
zxcslove 2019-06-22 14:04:15 +08:00
@q397064399 根子就是不想公开竞争,弄羊毛忽悠用户,不好忽悠的用户都去死
|
16
Jirajine 2019-06-22 14:17:08 +08:00 via Android
mitm 可以试试吧,用大量客户端+自动操作脚本。我就是用这玩意配合自动操作脚本爬取一些 flash 内容(逆向 ActionScript 太痛苦)
|
17
cabing 2019-06-22 14:48:20 +08:00
我以前觉得还行吧~~,分析页面 js,ip 可以买个代理啥的。
以前公司有个店铺卖书的,买个工具需要花钱,为了省钱,就爬过自己店铺的数据,然后再整理和分析。。 |
18
vzev 2019-06-22 15:22:54 +08:00
"但是淘宝就恶心到我了" 淘宝肯定也在想你恶心到它了,哈哈!
|
19
kppwp 2019-06-22 15:22:55 +08:00 via iPhone
是通过用户行为分析的,一般还是用大量 ip 代理去解决问题。
|
20
mrcn 2019-06-22 16:10:25 +08:00 via Android
淘宝天猫…我正常用户都用不了…
|
21
akira 2019-06-22 16:34:22 +08:00
有海量 ip/账号 肯定可以爬
|
22
z1421012325 OP @akira ip 倒是没啥问题,问题是账号,再说了如果被发现是爬虫,那么这个账号短时间内不能使用了,还有貌似每天都会让你登陆一次获取 cookies..
|
23
www6688w 2019-06-22 17:35:08 +08:00
用谷歌插件模拟真实用户采集试试呢?
|
24
compiler 2019-06-22 17:37:12 +08:00
我理解淘宝有反爬团队,干不过就加入,哈哈哈
|
25
turi 2019-06-22 18:24:29 +08:00
淘宝有自动拨号 vps,每次 连上都是不同 ip.
|
29
z1421012325 OP @www6688w 真实模式也没用啊,根据用户习惯分析就能轻松反爬,毕竟一个人不可能一天之内浏览这么多页面的
|
31
UFc8704I4Bv63gy2 2019-06-22 20:00:08 +08:00 via Android 1
你们要爬什么我帮你们爬,一分钱一个商品可好?
|
32
minami 2019-06-22 20:25:18 +08:00 1
淘宝那个反爬策略,我一正常用户都觉得恶心,多开几个商品页面就开始弹东西了
|
33
jiejiss 2019-06-22 20:30:46 +08:00
把下滑、点击之类的,自己先实际操作七八遍,让程序 100%记录,然后重放出来
包括等待页面加载的时候鼠标的移动,或者是拖动浏览器的右侧滚动条,也要录 每两次操作之间的间隔建议也是基数+随机数 |
34
jiejiss 2019-06-22 20:31:09 +08:00
或者干脆接入打码平台
|
35
zdb1115 2019-06-22 21:24:51 +08:00 via Android
31 楼的可以爬一个品类的吗?
|
36
opengps 2019-06-22 21:44:54 +08:00 via Android
爬虫本不应该是被提倡的,毕竟原创成分太少,影响真原创方的负载能力。
|
37
DaWWW 2019-06-22 22:34:15 +08:00
动态 ip,控制访问速度,淘宝反爬很正常啊
|
38
dewi 2019-06-22 23:54:45 +08:00 via iPhone
TB 的话可以试试淘客的 api,或者直接爬大淘客上的,但是这个方法仅适用于有返利的宝贝,无返利的宝贝目前无解。。。
|
39
lovesky 2019-06-23 00:00:35 +08:00 via Android
selenium 是能被检测到的,你们要爬什么我帮你们爬,一分钱一个商品可好?
|
41
bigbigeggs 2019-06-23 00:22:26 +08:00
这个爬取好像市场价,两毛一条。
selenium 好像不行,会有下拉框。 可以试试 ip,那种有真实用户下单的 ip 段 |
42
kingfalse 2019-06-23 04:08:13 +08:00 via Android
周瑜打黄盖,常威咬来福。
|
43
zzy578 2019-06-23 04:47:42 +08:00
我爬过一个店铺的,在 network 里找对数据的请求,分析 json 拿数据
这个 url 没有反爬,把 cookie 加上就可以 |
44
z1421012325 OP @zzy578 详情页没啥反爬,只是列表页不好弄
|
45
UFc8704I4Bv63gy2 2019-06-23 23:11:08 +08:00 via Android
@zdb1115 当然可以
|
46
Jaho 2019-06-24 09:05:03 +08:00
要付费爬算我一个[手动狗头]
|
47
yebo777 2019-06-24 09:16:16 +08:00
淘宝现在都不能正常使用,动不动就要验证
|
48
fank99 2019-06-24 10:45:26 +08:00
淘宝大众点评都是出了名的难爬。。没发现百度都说"由于该网站的 robots.txt 文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面的内容描述"
|
49
gxlonline 2020-07-10 12:02:28 +08:00
需要挂上代理 IP,推荐:酷鱼代理 IP
|