V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  cdwyd  ›  全部回复第 37 页 / 共 95 页
回复总数  1893
1 ... 33  34  35  36  37  38  39  40  41  42 ... 95  
@xpresslink
这种毫无逻辑的讨论就没意思了,我说东你扯西。
2018-12-17 19:08:48 +08:00
回复了 toma77 创建的主题 问与答 lg 电视上门安装收费?
@sudoz 可拉倒吧
2018-12-17 18:08:46 +08:00
回复了 toma77 创建的主题 问与答 lg 电视上门安装收费?
@sudoz 确实不是,买低端大法的那种才是
@xpresslink
这个真的是班门弄斧了
@luosuosile
单篇的漫画肯定给用户看全,但是没有必要把全部的内容到从列表页显示出来。
@luosuosile
通过搜索引擎只能获取到很有限的一部分链接,所以基本上抓取到的也就很有限。

楼上好几个人在那不断强调“只要人看到的,就能抓到”,“只要有链接就能抓到”,却不明白混淆 ID 就是为了不让你获取全部链接。抓取内容的第一步就是先获取到链接,链接都没拿到还爬个毛线啊。

如果还有人要杠,那再举两个例子:
1. 淘宝的绝大多数商品人都能看到,你能把淘宝的绝大多数商品都抓到吗?
2. 搜索引擎那里有海量的链接,你能抓到总量的 0.000000001 吗?
@xpresslink 你赢了
@soulmine
你这三年的爬虫经验算是白瞎了,这种理解能力怎么能 get 用户的真实需求
@soulmine 你没看明白我在说什么。
打个比方,v2ex 的列表页只显示最新的 100 条记录,同时 V2EX 的 id 进行了混淆处理。这个时候你就不容易获取到全部内容。
那些不显示的并不是删除了,用户也能看得到,可以从链接从搜索引擎来访问,而你却抓取不到那些有价值的内容。
@soulmine 这样你最多也就只能抓取到从你开始抓那天开始发布的新内容。
@soulmine 并不是,混淆了 id 然后列表只显示最新的部分,你就很难抓了,就算抓了心里也会嘀咕到底抓全了没有。反爬不用想的那么多
@lockiee 这个不做存储也没关系啊,浪费点 cpu 进行解码编码而已
@ylsc633 我都是动态的生成和验证并不入库
2018-12-15 17:30:13 +08:00
回复了 liuxyon 创建的主题 问与答 招行有没有免年费的信用卡
好像最简单的办法是支付宝捐赠 6 次每次一分。。。手动汗("▔㉨▔)
2018-12-13 17:07:20 +08:00
回复了 BonusCloud 创建的主题 推广 吃灰开发板、树莓派、NanoPi 躺赚宽带钱
@WizardMeow ddos 多 low
人工智能控制全天候全球多节点网站可用性毫秒级实时测试服务
2018-12-13 16:58:22 +08:00
回复了 xlsepiphone 创建的主题 职场话题 关于 TODO 类应用使用体验,不知道大家有没有同感?
微软 todo 直接停靠在桌面一侧不就行了
2018-12-13 13:30:47 +08:00
回复了 iccfish 创建的主题 全球工单系统 阿里云还真是不经夸啊。
@jindaodama 301 没用,因为 301 前是 http 会被拦截
一个认真做产品的公司应该把各种规定写的明确清晰,比如限制账号分享数等。
一个认真招聘的帖子应该把薪资福利,上下班时间等写清楚。
1 ... 33  34  35  36  37  38  39  40  41  42 ... 95  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1070 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 29ms · UTC 18:26 · PVG 02:26 · LAX 11:26 · JFK 14:26
Developed with CodeLauncher
♥ Do have faith in what you're doing.