V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  timliu22322266  ›  全部回复第 1 页 / 共 1 页
回复总数  6
2018-11-08 12:24:38 +08:00
回复了 timliu22322266 创建的主题 Java PornHub 爬蟲心得
Pornhub 用页面的 javascript 计算出下一次请求的 cookie 值,
所以无法单纯使用请求拿到这组键
目前用 java 读取该页面的公式及参数运算,再放进 cookie 中
429 的错误已解决,目前稳定爬资料一晚.
2018-11-08 09:48:28 +08:00
回复了 timliu22322266 创建的主题 程序员 PornHub 爬蟲
Pornhub 用页面的 javascript 计算出下一次请求的 cookie 值,
所以无法单纯使用请求拿到这组键
目前用 java 读取该页面的公式及参数运算,再放进 cookie 中
429 的错误已解决,目前稳定爬资料一晚。
2018-11-08 00:00:34 +08:00
回复了 timliu22322266 创建的主题 程序员 PornHub 爬蟲
@shenxgan 老司机~ 够专业 XD.
2018-11-03 20:47:04 +08:00
回复了 timliu22322266 创建的主题 Java PornHub 爬蟲心得
增加了 spring boot - H2 DB 增加了 config 讓使用者可選擇是否下載(僅蒐集已爬過的資料)

啟動 jar 後 在瀏覽器打 http://localhost:8000/h2-console/ 會出現 DB 管理頁面
2018-11-02 21:26:15 +08:00
回复了 timliu22322266 创建的主题 Java PornHub 爬蟲心得
@Tink
@dream10201

感謝回覆, 還有其他意見歡迎在提供 我會視情況增加至我的專案
2018-11-02 21:22:56 +08:00
回复了 timliu22322266 创建的主题 Java PornHub 爬蟲心得
今日在公司有了新想法,
1.预计会增加 h2xSpirngDB 纪录已攀过的网站
2.增加 config.properties 可选择不进行下载
3.增加搜寻页面可查看数据库资料
4.Java Deep 对一些资料做出分析整理(这里完全没有概念...预计要 2~3 周时间才能做到了)


喜欢的朋友可帮点星代表对我的支持:)
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1490 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 17:21 · PVG 01:21 · LAX 09:21 · JFK 12:21
Developed with CodeLauncher
♥ Do have faith in what you're doing.