最近也想做个爬虫爬一爬企业信息,但是国家企业信息公示系统反爬好像很严重,企查查这些公司的数据是爬的吗?还是买的?如果是买的是从哪里买的呢?
1
Maipol 2022-06-07 10:04:26 +08:00
介入官方的吧
|
2
hyperbin 2022-06-07 10:06:52 +08:00 via Android
从工商局官网爬的
|
3
zmal 2022-06-07 10:11:51 +08:00
爬的,有后台。
|
4
Saxton 2022-06-07 10:12:22 +08:00
直接找官方要啊 还爬什么爬
|
5
WOLFRAZOR 2022-06-07 10:14:46 +08:00 via Android
找官方买(那些是从工商局的数据库里扒下来的)
|
6
kidult 2022-06-07 10:15:29 +08:00
这是企业核心竞争力,别研究了
|
7
y051313 2022-06-07 10:15:52 +08:00
从不同渠道直接买,然后整合的。
工商数据是有渠道可以买的。 |
8
totoro625 2022-06-07 10:16:20 +08:00 2
网站底部有写的:
企查查数据来源:全国企业信用信息公示系统|中国裁判文书网|中国执行信息公开网|国家知识产权局|国家版权局 天眼查数据来源:全国企业信用信息公示系统|中国裁判文书网|中国执行信息公开网|国家知识产权局|商标局|版权局 爱企查数据来源:国家企业信用信息公示系统|信用中国|中国裁判文书网|中国执行信息公开网|国家知识产权局|商标局|版权局|民政部 |
9
dinghmcn 2022-06-07 10:18:19 +08:00
工商数据是公开的,就像上面说的应该是可以合法买的,至于渠道和金额一般人就别想了吧
|
10
acthtml 2022-06-07 10:19:46 +08:00
以前爬的,现在买的。
|
11
zhongjidalao 2022-06-07 10:35:37 +08:00
都是公开信息
|
12
dudubaba 2022-06-07 10:39:59 +08:00 5
人家爬合法,你爬盒饭
|
13
laqow 2022-06-07 10:40:27 +08:00
是不是爬多了能转正,流氓多了能转正,用户数据黑多了能转正,别管资本是哪里来的。
|
14
kaf 2022-06-07 10:40:29 +08:00 1
工商信息公开的,国务院下面的一个网站可以查,只是官方的查询速度太慢,而且很多数据都分开去很多站点查
|
15
snw 2022-06-07 10:45:12 +08:00 via Android
早期是爬的,现在是被官方允许购买的,你可不一定有资格买,你可以瞅瞅这几家的背景合作单位。能随便卖给你的渠道大多是非法的。
|
16
snw 2022-06-07 10:48:24 +08:00 via Android
顺带一提,用得最多的“全国企业信用信息公示系统”,即使是人工正常查询都有经常遇到反爬,似乎护盾不是针对来源访问次数,而是基于目标服务器的被访问次数。
|
17
yufeng0681 2022-06-07 10:57:31 +08:00
可以和企查查等公司正常商务合作,买他们的部分企业信息, 半年更新或者一年更新四次。 看行业数据量决定价格;
也可以淘宝买,据说是企业内部不严谨,把数据盗出来的,价格相对便宜一点。验证方法也简单,你选取一个细分行业的企业信息, 要求他导出 500 条, 他如果能半小时内给到你,而且是正确的,说明数据靠谱。 如果你也用于商业,那最好还是买正规的,有服务保证。 如果你不着急,那就慢慢爬数据。百度也有企查查这样的数据,以前不怎么反爬(隐藏了电话关键信息),现在不知道了 |
18
lakehylia 2022-06-07 10:58:37 +08:00
合资 /合作啊
|
19
nash 2022-06-07 11:18:27 +08:00
爬?面向牢底编程。。。
|
20
Threeinchtime 2022-06-07 11:23:29 +08:00 2
现在就是官方给你发个征信牌照,就可以合法爬。经常有用户抱怨数据不准的时候,还是要走修复数据的爬取流程。
|
21
Threeinchtime 2022-06-07 11:25:39 +08:00
看下这些网站左上角,你就会看到征信牌照,有这个就是官方背书了。
|
22
la9998372 2022-06-07 11:44:16 +08:00
都是关系。。。就像专利一样,本来都应该是公开的,结果养活了多少专利搜索网站?
|
23
nothingistrue 2022-06-07 12:22:20 +08:00
猜测:商务、资质等上面是买的,技术上是爬的。技术上超过买的部分不会超过一半,因为如果超过了,数据来源方完全可以踢开这些查查自己搞。
搞技术的人,最应该懂得,技术才是最容易的,难得是合规。 |
24
fireecho 2022-06-07 13:42:13 +08:00
ZmlyZTEyNTkzNzc=
|
25
lfish 2022-06-07 13:47:32 +08:00
他们有资格爬的,但是你如果爬有可能进去喝茶
|
26
27149 2022-06-07 13:49:11 +08:00
爬的。核心难点是准聚融。
|
27
cxtrinityy 2022-06-07 14:08:12 +08:00
虽然我不知道他是哪里买的, 但是我知道保护企业信息就是个幌子, 早上你去注册个公司, 出了行政服务大楼门口 5 分钟就有无数个代理记账报税公司的广告电话开始轰炸, 又快又准, 能连打一两个星期不带重的, 每天稳定一个小时至少一个, 还是 995 的
关键是啥, 关键是国家企业信息公示系统里还不显示法人联系方式 |
28
ouqihang 2022-06-07 16:20:20 +08:00 via Android
@la9998372 就国家专利公开的查询系统,那体验,其他系统类似。外面的服务也不全是收费,免费版也足够基础使用,增值服务收费也合理,毕竟创造了价值。而且能减轻官方网站自身的压力。
|
29
kaiger 2022-06-07 17:55:42 +08:00
反爬严重直接截图 + OCR
|
30
taobibi 2022-06-07 22:05:13 +08:00
估计和国政通的方式差不多。
|
31
focuxin 2022-06-08 09:07:15 +08:00
@cxtrinityy 我看了企查查的接口文档,里面的法人信息来源是企业年报里面的,你去公示系统是可以查到的
|
32
cxtrinityy 2022-06-08 11:50:42 +08:00 via Android
@focuxin 竟让还有这种操作?!我上次查一家企业法人联系方式在公示系统里翻了半天没找到,下次试试。
不过依然没法解释为啥出门五分钟个人信息被泄露的问题,我看年报里的信息是随年报一起提交的,然而刚注册是并没有什么年报提交 |
33
gumupaier 2022-06-08 15:47:03 +08:00
爬的
|