Maerd's recent timeline updates
Maerd

Maerd

V2EX member #633209, joined on 2023-06-09 11:25:45 +08:00
Per Maerd's settings, the topics list is hidden
Deals info, including closed deals, is not hidden
Maerd's recent replies
lz 私一下?
不用 vscode 的? copilot 都集成两年了,现在都支持 mcp agent 了
Feb 8, 2025
Replied to a topic by bwijn Python scrapy 的 item 队列把内存挤爆
pipeline 处理 item 比抓取还慢?那要考虑你的储存架构设计方式了,自己存东西怎么会比爬慢

如果暂时无法解决,将 item 队列从内存队列换为磁盘队列即可,这样会 spider 在 yield item 的时候,item 会被先序列化到磁盘上,就不占用内存了

还有楼上说的 io 和计算没分离纯属没怎么用过 scrapy
这种大文件,就不适合在内存中操作,正确的方法是使用虚拟内存
import mmap
可以将直接将一个硬盘文件变为虚拟内存
这样的进行写入的好处不只是省内存,还减少了一次用户态和内核态之间的切换
@feiniu 只要 app ,之前是爬阿里的也可以,现在还在招聘
@AFOX 是电商数据吗?可以加个微信聊聊?
@HenryHe613 我们这边领导没那么多条条框框,招的人能解决问题就行
Oct 15, 2024
Replied to a topic by Chrisz2zz 程序员 国内开发者会为什么产品买单呢
copilot
Oct 15, 2024
Replied to a topic by godFree Android 求助使用一加手机并 Root 的大佬现身说法
APatch 自身是有这个功能的
爬虫必备的逆向技术就是指纹伪造,反混淆,指令去花,虚拟机反编译,还有汇编和脱壳,动态调试,沙盒、安卓系统二次开发,反验证码等等,这些需要你对网络协议、编译原理、操作系统、以及安全方面有深刻的理解
此外的话还需要框架开发能力,如何设计好一个高可用,支持弹性扩容和高并发的爬虫框架,并支持海量数据存储
从严格意义上来说,爬虫的逆向部分属于网络安全的属于一个子集,而框架开发技术属于后端概念
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   931 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms · UTC 19:37 · PVG 03:37 · LAX 12:37 · JFK 15:37
♥ Do have faith in what you're doing.