1
ospider 2023-12-16 15:35:45 +08:00
LLM 风口来了,你倒要跑了
|
3
evil0harry 2023-12-16 15:50:00 +08:00
->反爬虫
->web 安全 ->全栈开发 |
4
NoOneNoBody 2023-12-16 15:57:21 +08:00
爬虫确实风险很大,但爬虫技术则是一个长久技能
爬虫包含获取和分析,后者可以用到各种大数据方面(数据分析前置就是数据获取),举例子 X 也要分析自家的所有推文 前者则可以走向网络方面,当然需要分布式方面技能,如果仅仅是单机爬虫爬取,就算做得很好也会被淹没,因为懂的人太多 |
5
aozhou OP @evil0harry 日常不做这些工作的话,影响转岗的时候面试么?还是说自己业余做一些也行
|
6
aozhou OP @NoOneNoBody 感觉数据分析和爬虫还是不太相关的,最多算一般缺数据的公司的前置工作
|
7
yifangtongxing28 2023-12-16 16:33:48 +08:00
爬虫不是都在往模拟人点击行为在走吗,这种还挺有意思的,纯接口的反扒机制已经限制死了
|
8
NoOneNoBody 2023-12-16 17:02:39 +08:00 3
@aozhou #6
如果看到“数据分析”,你只想到“分析”、计算这些,那确实没什么关系 但数据分析首先要有数据,不能凭空创造,这个获取过程称为采样,采样是有专门《采样学》的,就是一大堆数据,哪些是包含有效信息的,哪些是只有无效信息的,要做筛选,说俗一点就是数据海选,试想一下,扔一堆 html 给分析人员会不会被骂死?当然是前置工作,没数据也无法分析 采样有多种途径,目前来说,网络采样是成本较低的一种 你要扩大思维,数据海选不一定就是“爬”外网,例如有个目录里面上亿个富文本,如何通过海选提取“有效数据”,如去掉广告,去掉无关的一些内容,保留主要的文章、对话、图片、表格……这些都是爬虫“爬后”的工作,总不会爬虫爬取结束后,一个字节都不动照搬显示吧? 再用上述例子,一亿个 html ,但分析部门要求只用五千万,至于为什么就不用纠结了,可能因为硬件所限,可能因为时间所限等等,一亿筛走一半,要说出个所以然,为什么那去掉的五千万是“没用的”,根据什么理论筛掉,随机么?这就是采样学要做的工作。分析部门中需要有人做这种粗活,分析师是不管这些的,如果分析过程发现样本“不合格”,是需要打回头重新采样的 |
9
freshgoose 2023-12-16 17:11:35 +08:00
爬虫接外包都挺贵的,而且活比较轻松
|
10
auh 2023-12-16 19:23:13 +08:00
爬虫最贵了。学好了,将来灰产的干活。
|
11
aozhou OP @NoOneNoBody 受教了,非常感谢~
|
14
bequt 2023-12-16 23:14:41 +08:00
爬虫总是在刀尖上舔血。
|
15
dearmymy 2023-12-16 23:14:52 +08:00
爬虫技术栈挺尴尬的。逆向安全里也是鄙视链底端,那点 js 水平前端也看不上。
|
16
Dart 2023-12-17 00:29:38 +08:00
遵守 robots.txt 就行了啊
|
18
fox0001 2023-12-17 07:41:55 +08:00 via Android
深度学习,考虑下
|
19
dayeye2006199 2023-12-17 11:38:49 +08:00 via iPhone
大模型的数据团队
|
20
dearmymy 2023-12-17 12:02:56 +08:00
@levelworm 二进制逆向里,觉得 vmp ,驱动保护之类,现在移动端反调试,llvm 混淆之类。主要网页爬虫,天花板太低了。
|
21
lasuar 2023-12-17 15:13:36 +08:00
可以转后端,比如学习 Go 语言。我早年就是干爬虫的,深知这行深入极难,所以也转了。
|
22
chi1st 2023-12-17 22:00:27 +08:00
如果把 JS 逆向和 APP 逆向玩的比较深的话,应该也挺不错的吧,不会有什么年龄的顾虑,就是风险大
|
25
aozhou OP @dayeye2006199 那这样的话还是做爬虫的吧?
|
26
aozhou OP @lasuar 请问你是怎么转的?日产工作内容都是爬虫,感觉也没什么机会做后端。自己做些项目的话,去面试不知道对方会不会认,工资应该也会断崖吧?
|
27
yangzhezjgs 2023-12-18 10:47:29 +08:00
可以先学学日志采集的技术栈,这个方向与爬虫相近,找相关工作经验不会白费,再找机会慢慢过度到后端
|
28
triangle111 2023-12-18 12:11:36 +08:00
先学一些采集框架的思路,各种中间件学着使用,然后慢慢写后端 code ,推荐转 go 后端
|
29
aozhou OP @yangzhezjgs 日志采集的相关岗位名称叫什么
|
30
aozhou OP @triangle111 之前也听人说过转 go ,请问为什么爬虫转 go 比较好?还是因为 go 比较新,大家都差不多,所以想转的话转 go 比较好?
|
31
yangzhezjgs 2023-12-18 14:32:07 +08:00
@aozhou 一般这种岗位偏向于运维开发或者数据平台,可参考这个 https://www.zhipin.com/job_detail/47eed5f0a56e5ba81XJy3dq1FlFW.html
|
32
aozhou OP @yangzhezjgs 好的,谢谢
|
33
la2la 2023-12-18 15:42:11 +08:00
我是 18 年毕业入行做的爬虫后来跟你的感觉一样加上当年有一家爬虫公司连程序员到老板一起进去了所以决定转方向,可以分享一下我的转行路线,爬虫->学习 python 处理清洗数据转到数据分析->学习 Hadoop 相关组件转到大数据分析->学习实时处理现在在做实时数据处理方向
|
35
lasuar 2023-12-18 16:18:10 +08:00
@aozhou #26 直接从 web 项目开始练手,根据学习偏好决定看视频还是文字教程,完整写几个后端项目;再系统学习以下 TCP/UDP/Websocket/HTTP 这些协议知识就基本可以了。
|
37
lasuar 2023-12-18 16:30:09 +08:00
@aozhou #36 会,投十家可能会遇到三四家,剩下的应该都是认为你基础不行的。所以,别说那些有的没的,下来多花时间。走过这条路的人太多,不用担心白费功夫。
|
41
triangle111 2023-12-18 17:40:30 +08:00
@aozhou 爬虫不是都会要求并发和调度那些,go 对这些有优势。如果参与一些爬虫框架设计这样方便转后端,而且 go 前景也还可以的,趁现在学校没教还好转一些
|
42
aozhou OP @triangle111 好的,谢谢指点
|