最近的 5G 技术,炒的是非常火热,大家都在畅想着,5G 的到来会对什么行业有影响,会在哪个地方有爆发?
我是写爬虫的,所以就联想到 5G 的到来,会对爬虫有质的提升吗?又会改变爬虫哪些地方呢? 经常写爬虫的朋友应该知道,爬虫的速度慢,关键在于爬虫是 I/O 密集型的。也就是当我们发出一个请求以后,需要等待响应的回归。所以对于 CPU 的利用不是太好,我指的是用 Python 来编写爬虫。由于 Python 的 GIL 全局解释器锁。所以,我们为了提高效率,可以采用多进程的方式,也可以采用多线程的方式,甚至采用协程的方式来实现爬虫。 听说 5G 的到来。网速有相当大的改善,据说一秒钟可以下载一个电影。
那么这么快的速度,对于爬虫来说以后是不是意味着我们不需要编写“太好的”,异步代码或者是多线程代码。对于代码的要求,是不是就降低了呢。
以后我们写的爬虫,问题是不是又集中在了 CPU 密集型了呢?以及验证码,IP 这些反爬措施上。
1
slanternsw 2019-06-09 20:51:23 +08:00 via Android
有的没的。
“爬虫的速度慢,关键在于爬虫是 I/O 密集型的。也就是当我们发出一个请求以后,需要等待响应的回归” “听说 5G 的到来。网速有相当大的改善,据说一秒钟可以下载一个电影。” 来说说 5G 在价格延迟网速上哪一个可以打得过万兆有线? |
2
chinvo 2019-06-09 20:52:58 +08:00 via iPhone 7
@slanternsw #1 别问,问就低延迟高带宽,有线不存在的,光速轻易突破,是未来,是历史的车轮,你们这些螳螂是要被……
|
3
wateryessence 2019-06-09 20:53:40 +08:00 1
你真的写过爬虫?
|
4
1OF7G 2019-06-09 20:54:49 +08:00 16
吃瓜群众被无良媒体带节奏也就罢了,互联网从业人员对 5G 这样的认知也太不到位了吧!
|
5
strcmp 2019-06-09 20:55:44 +08:00 4
既不懂爬虫也不懂 5G
|
8
Abbeyok 2019-06-09 21:05:13 +08:00
骗金币失败的例子
|
10
WaJueJiPrince OP @wateryessence 写过 并且还写过框架!!为什么木有速度的提升呢??
|
11
WaJueJiPrince OP @Abbeyok 我只想知道原因 至于喷子就不要说话了 求解答疑问!!!!!!!!
|
12
WaJueJiPrince OP @1OF7G 求解答原因 别过说其他没用的啊 一个个评论都是浅尝辄止 也给不出原因 就说没啥用??我想要的是结果 不是媒体带不带偏????没一个给出具体答案的啊???
|
13
Ley 2019-06-09 21:21:45 +08:00 via Android
看了你的描述,不过感觉爬虫和移动网络没有太大关系吧,比较好奇你为什么会认为爬虫依赖移动网络?
另外一个个人的小建议是慎用超过三个感叹号,可能会影响阅读效率… |
14
WaJueJiPrince OP @slanternsw 您的意思是 5G 其实还是基于我们目前的有限网络吧?? 所以速度并不会提升
|
15
Cheons 2019-06-09 21:23:54 +08:00 via Android
???你服务器用的移动设备
|
16
WaJueJiPrince OP @Ley 我的了解目前 5G 速度较快 所以觉得目前可能这个速度会对爬虫比较有利 那是不是 5G 还是基于现有的有限技术?那么如果目前什么都不考虑,网站速度完全无延迟会不会对爬虫速度有提升呢?会不会降低协程 线程编程技术呢?
|
17
Cheons 2019-06-09 21:27:05 +08:00 via Android
2g 换 3g 3g 换 4g 和我
打魔兽有关系嘛? |
18
WaJueJiPrince OP @Cheons 我的意思只是网速的增加会不会对爬虫编写代码要求有所降低呢?
|
19
WaJueJiPrince OP 看了一个消息就是 5G 的速度是要快于电信的 100M 光纤宽带的
|
20
HuLiY 2019-06-09 21:32:15 +08:00 via Android
不如把标题改成[高带宽低延迟下,爬虫将如何发展]因为 5g 再快也不如有线网络快。
另,个人觉得网络再快也会使用多线程+分布式+代理。所以网络只能加快爬虫的速度,对爬虫的方式没有太多改变。 |
21
WaJueJiPrince OP @HuLiY 是的 我的意思就是 [高带宽低延迟] ,可能有些描述不清吧 有些人就断章取义了 目前的方式绝对是线程 协程 分布式 反爬 验证码 IP 。。。。 其实爬虫要解决的问题还有很多呢
|
22
lanternxx 2019-06-09 21:38:01 +08:00
先不说 5G 到底能不能实现比有线延迟低速度快 然后再假设你的电脑也使用 5G 来上网 但是你要爬的服务器不还是有线接入?
|
23
wc951 2019-06-09 21:38:32 +08:00 via Android
5g 只是影响端到端,你服务器不走光纤走 5g ?
|
24
WaJueJiPrince OP |
25
good1uck 2019-06-09 22:16:28 +08:00 via Android
5g 的到来会提高人的学习速度吗
一定程度上吧 |
26
mumbler 2019-06-09 22:22:45 +08:00 via Android
除非对方服务器无限带宽,爬虫才用得上 5G
|
27
lang1pal 2019-06-09 22:24:16 +08:00
万兆网线也带不起硬盘的 io 吧 硬盘的 4k 性能有限
|
28
boom7 2019-06-09 22:31:43 +08:00 via Android
你的爬虫部署在服务器上的话,是走的有线网络,与 5G 无关。再之,一般来讲爬虫应用单次请求的响应体都不大[视频爬虫之类的除外],你的爬虫的 io 等待时间主要取决于对方服务器的响应时间,相比之下带宽就显得不那么重要。
|
31
kera0a 2019-06-09 22:49:32 +08:00 via iPhone 1
5g 再快也快不过有线啊,咋回事啊
|
32
luozic 2019-06-09 23:08:25 +08:00 via iPhone
无线 和你有线的云主机有关系? 有线的 100GE 网卡便宜了?!
|
33
botian 2019-06-09 23:09:45 +08:00 via Android
怎么不问问,爬虫技术什么时候被法律约束?
|
34
changz 2019-06-09 23:11:22 +08:00
要明白 5G 只是一种接入网技术而已。
|
35
changz 2019-06-09 23:12:55 +08:00
5G 的低延迟目前来说只是个伪命题,你并不能忽略网路中间节点的影响。
|
36
pxw2002 2019-06-09 23:15:21 +08:00 via Android
我感觉我的智商受到了侮辱
|
37
gunjianpan 2019-06-09 23:50:12 +08:00
hhh 你爬虫 不就是对人家带宽上限吗 对方服务器还是 1M 带宽你有什么办法
|
38
thua 2019-06-09 23:59:01 +08:00
5g 的网络,对于百度云的下载速度限制是不起作用的,爬虫也是,都是看服务端响应时间,而不是在互联网上的传输时间。
|
39
WaJueJiPrince OP @gunjianpan 对方的宽带就 1M 确实没办法 不知道长远的未来会不会还是 1M
|
40
WaJueJiPrince OP @thua 。。。黑的好!!!!!!!
|
41
WaJueJiPrince OP @botian 爬虫触犯法律目前已经有一个案例了 盗取别人家的视频获刑 似乎是中国首例 还有一个什么公司 靠采集别人的简历 好像融资 1.5 亿 最后被一锅端 30 多人坐牢了
|
42
cz5424 2019-06-10 00:20:13 +08:00 via iPhone
越快越容易被 block
|
44
Northxw 2019-06-10 01:02:30 +08:00
(简单论述) IO 密集,多线程,5G,岂不是更加利用 CPU 资源,更加美滋滋?
|
45
Caan07 2019-06-10 01:09:03 +08:00 1
家族群我堂弟说:哇,5G 快来了。5G 速度好快啊。
我二姑爷说:5G 不用钱么? 全群安静。 |
46
masker 2019-06-10 01:11:10 +08:00 via Android
???网速影响实现代码?
|
47
lostberryzz 2019-06-10 01:26:15 +08:00
别问,问就是速度是 5G 最无聊的应用
|
48
binux 2019-06-10 03:05:46 +08:00
@WaJueJiPrince #10 你写的爬虫框架连 IO 都解决不了?
|
49
zwh2698 2019-06-10 06:27:21 +08:00 via Android
科普,通信网络是由核心网,接入网,用户设备, 简单说明。接入分有线和无线,核心网 10 多年没有变化了,变化比较多是接入网中的无线部分
|
50
zwh2698 2019-06-10 06:30:58 +08:00 via Android
所以大家觉得 5G 是通信网络中那部分呢??
|
51
zwh2698 2019-06-10 06:39:15 +08:00 via Android 2
1.5g 说会出现大量网联设备,这说明没有 5G 的情况也有物联,不是大量对吧?
2.大量会不会是伪需求?比如汽车连接电饭锅,你在路上的时候可以煮饭?请问锅里米谁洗?水谁放?电谁插?保姆呀,都有保姆,还要这个有用吗? 3 让子弹飞一会儿。 |
52
wunonglin 2019-06-10 07:56:19 +08:00
|
53
locoz 2019-06-10 08:06:13 +08:00 via Android
这个问题挺有意思的,不过我认为对速度的影响并不大,等下到公司细说一下。
|
54
alamaya 2019-06-10 09:07:43 +08:00
写爬虫不是该跟人家反扒策略斗智斗勇?就现在的带宽你能跑满?
|
55
icharm 2019-06-10 09:11:02 +08:00
异步爬虫了解哈?
|
56
zwh2698 2019-06-10 09:17:44 +08:00 via Android
@wunonglin 其实我不是嘲笑 5G,我只是客观说明,这东西被包装过度,无非有人想要摸鱼,华为的任老大不是也说内部没有外面那么夸大,这是华为任老大说的,有视频的,都不要找我哈。我引用。 回到题主,题主这是有线接入,和 5G 一毛关系都没有。通讯延迟减小只是说明以前无线设备和无线接入这块有改善。和核心网速度一点关系都没,大油管如果很小,分支油管还能上天? 核心网将近 20 年都没变了,什么光纤改善,CPU 提升,内存速度快,理论上只是运营商节约了一点成本,其实也没节省。就像现在运营商都是 nfv,结构,nfv 的目的是为了省钱,但是现在其实比原来黑盒子更多 10-30%, 移动或者电信的朋友出来说说看。
|
57
abcbuzhiming 2019-06-10 09:19:32 +08:00 2
楼主,你说你是写爬虫的?你难道没有被别人家的反爬虫措施整的欲仙欲死的经历?你居然认为阻碍爬虫的问题是网速和响应时间?你真的是写爬虫的?你不是在逗我?
|
58
lihongjie0209 2019-06-10 09:23:25 +08:00
哪怕没有网速的限制, 你觉得对方的服务器资源可以让你随意占用?
|
59
whwq2012 2019-06-10 09:25:38 +08:00 via Android
你说 ipv6 能提升爬虫的效率都比说 5g 好
|
60
kisshere 2019-06-10 09:26:27 +08:00
好多写爬虫的还主动降频,就是为了怕对方发现,你这思路清奇,即使对方毫无反爬措施,爬虫的进程数、解析 DOM 速度才是最大瓶颈,网速高有毛用
|
61
lupo 2019-06-10 09:40:12 +08:00
@zwh2698 目前有很多项目可能受限于当前的网速发展不起来,如果 5G 发展起来了。这些项目就能搞起来了。这个潜能是无限的,谁也不能承担忽视 5G 而导致的后果,所以美国疯狂打压华为。。。微软很早之前就做智能手机,做平板,但一直没有发展起来,感觉和网络速度有一定的关系。。
|
62
shuizhengqi 2019-06-10 09:42:10 +08:00
程序员的门槛真是越来越低了
|
63
rootww21 2019-06-10 09:51:11 +08:00
所以程序员并不是技术相关的都懂
就和不是所有的程序员都会修电脑一样 过分嘲笑就没意思了 |
64
402124773 2019-06-10 09:59:07 +08:00
|
65
zephyru 2019-06-10 10:01:28 +08:00
到现在,该回答的都有人回答了.我也不重复了...
我看到题目的第一反应是在钓鱼...往后面看发现居然是认真的.. 还真别怪一开始几个人冷嘲热讽.不回答问题.也不是你想的太完美了.. 而是你书读太少了..但凡对网络组成有一丝丝的了解也不会问出这种问题... |
66
soulmine 2019-06-10 10:02:25 +08:00
对速度没有 对数据量有质的改变
|
67
karllynn 2019-06-10 10:03:19 +08:00
楼主你这技术底子也太薄了吧,讨论个啥=。=
|
68
676529483 2019-06-10 10:04:15 +08:00
lz 是爬虫新人吧,爬虫难点不在于 IO,写异步的或者线程池都可以缓解,瓶颈在于反爬,甚至需要主动降低爬取频率;再说一般中小企业网站都 4M 带宽出口,你最高也就这速度了
|
69
skSK09 2019-06-10 10:04:56 +08:00
"由于 Python 的 GIL 全局解释器锁。所以,我们为了提高效率,可以采用多进程的方式,也可以采用多线程的方式,甚至采用协程的方式来实现爬虫。"
IO 密集型的操作你可以认为和 GIL 没关系。 |
70
zjyl1994 2019-06-10 10:05:18 +08:00
等等,你的爬虫服务器不是放在机房里通过万兆光纤接入的吧?
难道说你们现在的瓶颈在爬虫手机 4G 速度不够?所以期待 5G 带来质变? 那这边建议你买个 G 口的 VPS 体验一下,绝对比手机上跑爬虫烧 4G 流量便宜,而且还快 |
71
zephyru 2019-06-10 10:05:52 +08:00
|
73
pkoukk 2019-06-10 10:11:27 +08:00
你不会在用 4G 流了来爬数据吧???
5G 再快,最终也得汇到光纤主网上面去 |
75
unco020511 2019-06-10 10:23:28 +08:00
为什么 5G 会影响服务器?
|
76
dobelee 2019-06-10 10:26:26 +08:00 via Android
现在服务器千兆的大把,加钱也有万兆。
哦不对,楼主用的是移动网络。 |
77
itskingname 2019-06-10 10:30:02 +08:00 via iPhone
速度从来都不是爬虫最关键的地方。
|
78
jseed 2019-06-10 10:30:24 +08:00
5G 到来,会影响我单手开保时捷吗!#手动滑稽
|
80
crawl3r 2019-06-10 10:53:37 +08:00
现在的爬虫瓶颈不就是在反爬对抗么?
|
82
zwh2698 2019-06-10 11:38:20 +08:00 via Android
@lupo 第一我没说忽略 5G 发展,千万不能曲解,千万!我只是想说 5G 能干啥,估计炒作的人都没想清楚,所以让子弹飞一会儿。第二微软的失败不是因为网络吧。你去找找吴军的分析。
|
83
glfpes 2019-06-10 11:47:10 +08:00
LZ 就像个真信了亩产万斤的农民。
|
84
WaJueJiPrince OP @676529483 仔细看看我之前的回复就知道了 我的意思是低延迟 而且你们可能认为有线技术一直是在服务器那端 这辈子都不会改变 我认为的任何事情都会改变
|
85
zwh2698 2019-06-10 11:56:45 +08:00 via Android
再次强调,5G 网络延迟改善,带宽增加和有线毛关系都没,这个只能提升无线接入到设备之间网络质量。如果要主干网路,除非有什么比光纤更快的。但是目前物理定律是不可能有超过光速的。那么就是光纤优化,让光子在内部尽量减少反射次数,最好做到直接到,这样应该就是理论上的光速了。现在光纤的传输速度小于光速。
|
86
killerv 2019-06-10 13:17:37 +08:00 1
我怀疑楼主根本没写过爬虫
|
87
jeasonzuo 2019-06-10 13:31:12 +08:00 1
我怀疑楼主根本不懂网络
|
88
sobigfish 2019-06-10 14:01:12 +08:00 1
我怀疑楼主根本不懂木桶
|
89
msg7086 2019-06-10 14:40:35 +08:00
一秒钟就能下一部电影的移动网络价格,你拿去买固定有线网络,可以买到一秒钟就能下十部电影的。
我们假设你跑出了 5G 应有的带宽的十分之一,也就是 100mbps,一个月下来跑了 32.4TB ,那 32.4TB 的手机流量是多少钱呢?好像有点超出我的知识量了。如果我们按照现在一元一 GB 的价格来算的话,是 32400 元。 那么每月 32400 元能申请到什么样的有线网络呢? 我陷入了沉思。 |
90
gscoder 2019-06-10 18:15:06 +08:00
5G 是移动网络,和固定网络木有关系,除非你的爬虫是跑在手机上
|
91
locoz 2019-06-11 23:53:26 +08:00
|