请问爬虫可以转什么方向？转岗所需要的工作经验如何获得？

反爬

爬虫

终究

转岗

42 条回复 • 2023-12-18 18:04:03 +08:00

1

4BVL25L90W260T9U

2023-12-16 15:35:45 +08:00

LLM 风口来了，你倒要跑了

2

aozhou

OP

2023-12-16 15:41:56 +08:00

@ospider 主要是总觉得不算什么正当技术，搞得太狠风险挺高

3

evil0harry

2023-12-16 15:50:00 +08:00

->反爬虫
->web 安全
->全栈开发

4

NoOneNoBody

2023-12-16 15:57:21 +08:00

爬虫确实风险很大，但爬虫技术则是一个长久技能
爬虫包含获取和分析，后者可以用到各种大数据方面(数据分析前置就是数据获取)，举例子 X 也要分析自家的所有推文
前者则可以走向网络方面，当然需要分布式方面技能，如果仅仅是单机爬虫爬取，就算做得很好也会被淹没，因为懂的人太多

5

aozhou

OP

2023-12-16 15:58:03 +08:00

@evil0harry 日常不做这些工作的话，影响转岗的时候面试么？还是说自己业余做一些也行

6

aozhou

OP

2023-12-16 15:59:51 +08:00

@NoOneNoBody 感觉数据分析和爬虫还是不太相关的，最多算一般缺数据的公司的前置工作

7

yifangtongxing28

2023-12-16 16:33:48 +08:00

爬虫不是都在往模拟人点击行为在走吗，这种还挺有意思的，纯接口的反扒机制已经限制死了

8

NoOneNoBody

2023-12-16 17:02:39 +08:00

3

@aozhou #6
如果看到“数据分析”，你只想到“分析”、计算这些，那确实没什么关系
但数据分析首先要有数据，不能凭空创造，这个获取过程称为采样，采样是有专门《采样学》的，就是一大堆数据，哪些是包含有效信息的，哪些是只有无效信息的，要做筛选，说俗一点就是数据海选，试想一下，扔一堆 html 给分析人员会不会被骂死？当然是前置工作，没数据也无法分析
采样有多种途径，目前来说，网络采样是成本较低的一种

你要扩大思维，数据海选不一定就是“爬”外网，例如有个目录里面上亿个富文本，如何通过海选提取“有效数据”，如去掉广告，去掉无关的一些内容，保留主要的文章、对话、图片、表格……这些都是爬虫“爬后”的工作，总不会爬虫爬取结束后，一个字节都不动照搬显示吧？
再用上述例子，一亿个 html ，但分析部门要求只用五千万，至于为什么就不用纠结了，可能因为硬件所限，可能因为时间所限等等，一亿筛走一半，要说出个所以然，为什么那去掉的五千万是“没用的”，根据什么理论筛掉，随机么？这就是采样学要做的工作。分析部门中需要有人做这种粗活，分析师是不管这些的，如果分析过程发现样本“不合格”，是需要打回头重新采样的

9

freshgoose

2023-12-16 17:11:35 +08:00

爬虫接外包都挺贵的，而且活比较轻松

10

auh

2023-12-16 19:23:13 +08:00

爬虫最贵了。学好了，将来灰产的干活。

11

aozhou

OP

2023-12-16 20:41:10 +08:00

@NoOneNoBody 受教了，非常感谢~

12

aozhou

OP

2023-12-16 20:41:52 +08:00

@auh 呃~就是因为不想这么灰

13

levelworm

2023-12-16 22:31:05 +08:00 via Android

@auh 感觉破解这块还是太难了

14

bequt

2023-12-16 23:14:41 +08:00

爬虫总是在刀尖上舔血。

15

dearmymy

2023-12-16 23:14:52 +08:00

爬虫技术栈挺尴尬的。逆向安全里也是鄙视链底端，那点 js 水平前端也看不上。

16

Dart

2023-12-17 00:29:38 +08:00

遵守 robots.txt 就行了啊

17

levelworm

2023-12-17 02:08:58 +08:00 via Android

@dearmymy 软件逆向里最高端的是啥？估计是工业上的玩意？还是病毒木马这些。

18

fox0001

2023-12-17 07:41:55 +08:00 via Android

深度学习，考虑下

19

dayeye2006199

2023-12-17 11:38:49 +08:00 via iPhone

大模型的数据团队

20

dearmymy

2023-12-17 12:02:56 +08:00

@levelworm 二进制逆向里，觉得 vmp ，驱动保护之类，现在移动端反调试，llvm 混淆之类。主要网页爬虫，天花板太低了。

21

lasuar

2023-12-17 15:13:36 +08:00

可以转后端，比如学习 Go 语言。我早年就是干爬虫的，深知这行深入极难，所以也转了。

22

chi1st

2023-12-17 22:00:27 +08:00

如果把 JS 逆向和 APP 逆向玩的比较深的话，应该也挺不错的吧，不会有什么年龄的顾虑，就是风险大

23

aozhou

OP

2023-12-18 09:16:16 +08:00

@levelworm 是啊，就是学到精深会涉及多个方向，就感觉与其费这么大劲还是灰色的，还不如直接光明正大换个其他方向

24

aozhou

OP

2023-12-18 09:17:21 +08:00

@dearmymy 是的，因为涉及的面太宽了，不太可能没个方向都搞通。搞通了也就没必要搞爬虫了

25

aozhou

OP

2023-12-18 09:18:15 +08:00

@dayeye2006199 那这样的话还是做爬虫的吧？

26

aozhou

OP

2023-12-18 09:19:21 +08:00

@lasuar 请问你是怎么转的？日产工作内容都是爬虫，感觉也没什么机会做后端。自己做些项目的话，去面试不知道对方会不会认，工资应该也会断崖吧？

27

yangzhezjgs

2023-12-18 10:47:29 +08:00

可以先学学日志采集的技术栈，这个方向与爬虫相近，找相关工作经验不会白费，再找机会慢慢过度到后端

28

triangle111

2023-12-18 12:11:36 +08:00

先学一些采集框架的思路，各种中间件学着使用，然后慢慢写后端 code ，推荐转 go 后端

29

aozhou

OP

2023-12-18 14:19:49 +08:00

@yangzhezjgs 日志采集的相关岗位名称叫什么

30

aozhou

OP

2023-12-18 14:20:52 +08:00

@triangle111 之前也听人说过转 go ，请问为什么爬虫转 go 比较好？还是因为 go 比较新，大家都差不多，所以想转的话转 go 比较好？

31

yangzhezjgs

2023-12-18 14:32:07 +08:00

@aozhou 一般这种岗位偏向于运维开发或者数据平台，可参考这个 https://www.zhipin.com/job_detail/47eed5f0a56e5ba81XJy3dq1FlFW.html

32

aozhou

OP

2023-12-18 14:54:19 +08:00

@yangzhezjgs 好的，谢谢

33

la2la

2023-12-18 15:42:11 +08:00

我是 18 年毕业入行做的爬虫后来跟你的感觉一样加上当年有一家爬虫公司连程序员到老板一起进去了所以决定转方向，可以分享一下我的转行路线，爬虫->学习 python 处理清洗数据转到数据分析->学习 Hadoop 相关组件转到大数据分析->学习实时处理现在在做实时数据处理方向

34

aozhou

OP

2023-12-18 15:50:43 +08:00

@la2la 请问你当初是怎么换的工作，没有数据分析的工作经历的话？

35

lasuar

2023-12-18 16:18:10 +08:00

@aozhou #26 直接从 web 项目开始练手，根据学习偏好决定看视频还是文字教程，完整写几个后端项目；再系统学习以下 TCP/UDP/Websocket/HTTP 这些协议知识就基本可以了。

36

aozhou

OP

2023-12-18 16:21:24 +08:00

@lasuar 去面试会不会因为没有实际工作经验，被嫌弃~

37

lasuar

2023-12-18 16:30:09 +08:00

@aozhou #36 会，投十家可能会遇到三四家，剩下的应该都是认为你基础不行的。所以，别说那些有的没的，下来多花时间。走过这条路的人太多，不用担心白费功夫。

38

la2la

2023-12-18 16:43:38 +08:00

@aozhou 不一定要换工作啊，比如你爬完数据肯定是要清洗分析的吧，你可以在本公司做这些事情啊

39

aozhou

OP

2023-12-18 16:48:10 +08:00

@la2la 换岗么？

40

aozhou

OP

2023-12-18 16:48:47 +08:00

@lasuar 嗯嗯谢谢

41

triangle111

2023-12-18 17:40:30 +08:00

@aozhou 爬虫不是都会要求并发和调度那些，go 对这些有优势。如果参与一些爬虫框架设计这样方便转后端，而且 go 前景也还可以的，趁现在学校没教还好转一些

42

aozhou

OP

2023-12-18 18:04:03 +08:00

@triangle111 好的，谢谢指点