V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  benjiam  ›  全部回复第 14 页 / 共 20 页
回复总数  381
1 ... 6  7  8  9  10  11  12  13  14  15 ... 20  
2014-11-23 22:19:19 +08:00
回复了 binux 创建的主题 分享创造 再次分享 pyspider 爬虫框架
@binux 我的意思 网站上的url 你认为1亿以下可以存数据库。这样是可以的,但是这样任何url是否已经存在需要靠一次db io.这样的效率很低,如果存在内存用map,这样的结构。内存消耗又非常大。bloomfliter 又有可能丢失某些url. hbase 貌似是google 的解决方案,但是没实践过
2014-11-23 00:29:11 +08:00
回复了 binux 创建的主题 分享创造 再次分享 pyspider 爬虫框架
@binux 仔细看了下你的URL是存数据库的,.....太过了,靠数据库主机键来区别啊
2014-11-20 18:57:03 +08:00
回复了 YORYOR 创建的主题 程序员 求一个关于 protobuffer 项目的解决方案
proto的传输格式是什么样子的?转成string 再加个长度 type然后传吗
2014-11-18 20:18:52 +08:00
回复了 benjiam 创建的主题 问与答 惠惠购物助手 这个插件原理有人懂?
@GhostFlying 抓取的难度在于被屏蔽,足够多的IP加上变化策略是能抓取的。
2014-11-18 19:19:15 +08:00
回复了 benjiam 创建的主题 问与答 惠惠购物助手 这个插件原理有人懂?
@qazzaqqazzaq 谢谢 我主要疑惑的就是淘宝的价格抓取。如果抓取过程不被限制,其他的事情就是慢工细活了。3年前我抓了京东 15分钟可以把主流商品抓完。但是现在再跑已经会被屏蔽了
2014-11-18 18:58:03 +08:00
回复了 benjiam 创建的主题 问与答 惠惠购物助手 这个插件原理有人懂?
@mkeith 百度这么有节操了?有了百度导流量,没人买广告,直通车,没人去开天猫。你这是要马云的命。

我不太清楚慧慧对淘宝有无比价能力,如果有那多半考方案3 方案1 应该很快被屏蔽。方案2的问题是实现很麻烦,网站一变化,就得改。如果网站多个版本并存,那么靠js分析基本不可能
2014-11-18 18:46:10 +08:00
回复了 benjiam 创建的主题 问与答 惠惠购物助手 这个插件原理有人懂?
@wlh js分析网页内容再回吐不太现实。也就是我说的方案2 估计还是整个网页吐回去。服务器分析的 方案3。 如果插件安装量很大的话,每天回吐数据也会很高
2014-11-18 18:34:16 +08:00
回复了 benjiam 创建的主题 问与答 惠惠购物助手 这个插件原理有人懂?
我的意思各类网站jd z 淘宝 打折不打折,优惠,各种情况,他如何区分并插入的
2014-11-18 18:17:03 +08:00
回复了 benjiam 创建的主题 问与答 惠惠购物助手 这个插件原理有人懂?
jd还能爬,淘宝没机会。不信你让百度去爬爬淘宝。如果百度把价格爬下来做推荐,阿里的市值立刻腰斩
2014-11-18 16:42:30 +08:00
回复了 fengchang 创建的主题 分享发现 被盛大震惊了,在云中书城买的电子书被删掉了
作死, 但是在盛大内部看来很正常,考核业绩的又不是你们。 都是些只要这个季度业绩好看,拿管下个季度洪水滔天的高管。
2014-11-18 14:43:24 +08:00
回复了 JamesRuan 创建的主题 程序员 跨专业如何入行做开发?
系统就是让你有机会设计10万30万 50万 100万 200万 1000万负载的系统。业务就是 完成这个架构下登录的过程,完成这个架构下的登录过程。前者不断有新的挑战,不断成长,后者是反复的重复。类似将军和士兵。
2014-11-18 07:30:17 +08:00
回复了 initialdp 创建的主题 分享创造 基于 webRTC 的软电话
Web RT c按照demo写了一个 有回声。还无法去除
2014-11-17 18:52:20 +08:00
回复了 JamesRuan 创建的主题 程序员 跨专业如何入行做开发?
越老越发,改为越老越废
2014-11-17 18:51:04 +08:00
回复了 JamesRuan 创建的主题 程序员 跨专业如何入行做开发?
可以做医生,不要做程序员。程序员分业务和系统2种。业务越老越发,系统的越老越值钱。可惜系统很难,机遇和努力。还有数学。天赋不够是没什么用的
默默地问 盛大云呢
1 ... 6  7  8  9  10  11  12  13  14  15 ... 20  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5372 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 34ms · UTC 08:30 · PVG 16:30 · LAX 00:30 · JFK 03:30
Developed with CodeLauncher
♥ Do have faith in what you're doing.