最近在做房产拍卖的爬虫,京东的很好爬,很容易就爬到需要的几千条记录(包括图片,附件,自动生成海报),自动生成数据库需要的数据 (node.js + puppeteer),在小程序显示:
但要爬淘宝的就难多了,时不时要求登陆或者验证(如果请求频繁),也会让你休息,看网上也有很多普通用户抱怨这个 关键是滑滚过去还会失败:
https://sf.taobao.com/item_list.htm
正在摸索,阿里主要是根据 cookie 来判别请求是否过于频繁,网上也说了每个请求最好相隔几秒
更可恶的是,在阿里自己的阿里云服务器根本就请求不到(无论是什么 cookie ),我要本地定时爬然后发到远程服务器~~ 😡
请问该如何道高一尺魔高一丈?🎃
101
yedanten 2022-02-24 10:26:58 +08:00 via Android
想想如果阿里起诉你,你和客户分别承担多少责任,在想想客户给你多少钱,自己权衡。
|
102
tLbf2p3UC4BM3H1N 2022-02-24 10:32:13 +08:00
证据明确,目标清晰,非法破坏计算机系统罪就差一步。
|
103
gongquanlin 2022-02-24 10:43:32 +08:00
@RickyC 我估计他只是把触发的阈值做的很低;他肯定是做很多个特征,然后计算阈值
|
104
mytsing520 2022-02-24 10:55:56 +08:00
和什么行业无关,既然人家做了反爬虫,楼主你就不要去爬。除非对方书面确认授权你爬取。
如果是个人行为,大概率你自己单独被抓,你供出客户,客户自己不承认就完事了,除非你有明确的书面证据。这样你和客户一起吃牢饭。 如果是公司行为,程序猿、公司法人、客户一起吃牢饭。 另外,行业里一般不会招吃过牢饭的人。 |
105
HiCoder 2022-02-24 10:56:54 +08:00
刑啊,这日子也越来越有判头了
|
106
byte10 2022-02-24 10:58:49 +08:00
哈哈,你去给我的视频点赞,我就给你方案嘿嘿。https://www.bilibili.com/video/BV1FS4y1o7QB ,我教你 nodejs 的 高级 浏览器,性能也满足。
|
107
jingslunt 2022-02-24 11:06:32 +08:00
爬虫已经入刑不知道吗
|
108
lakehylia 2022-02-24 11:18:54 +08:00 1
都劝了一页纸了,楼主还不回头,别劝了。。。
|
109
puzzle9 2022-02-24 11:37:14 +08:00
给上 上不听 卡
|
110
yundun2021 2022-02-24 11:44:41 +08:00
爬虫爬的好,牢饭吃到饱
|
111
chenmobuys 2022-02-24 11:44:53 +08:00
@SoulClinic 客户当然说没事了,你要问律师
|
112
mxT52CRuqR6o5 2022-02-24 11:51:36 +08:00 via Android
多雇点人,人肉爬,法律上很安全
|
113
lolizeppelin 2022-02-24 11:55:52 +08:00
楼主你就别搜知乎来证明不危险了
你觉得法官会看知乎来决定判不判你? 犯罪不犯罪是看告你的人怎么告,法官怎么判 天天有那么多人爬京东淘宝...很多还是出于学习目的测试的...淘宝京东也没兴趣每个都告 你值得不值得告的判断标准在别人手上... 被告了是不是犯罪...那得看法官律师,你觉得真要告你了,京东淘宝的律师水平怎么样? 你不怕就继续爬呗...反正一时半会肯定是不会出事的..出事了你也没心情这里发帖了 |
114
ctro15547 2022-02-24 12:37:59 +08:00
尽量国外服务器做这事
尽量不要在墙内留下你个人信息 国内有做爬虫被抓的案例 很刑的 |
115
SoulClinic OP 细思极恐,尤其是爬的时候又要登陆自己的淘宝账号,知道是谁在爬。。。
@zjddp 咱当然有收手的意思啊,至少我会问下客户,其实就是自己的好友,也不会有多少报酬(除非他因此赚到了),咱还疑惑这么多,主要是 Stay hungry, stay foolish. 好奇心和求知欲作怪 @lolizeppelin 在爬虫这一方面俺是新手,没看到多少这么可怕的案例新闻,很多都不知道。。 谢谢大家的忠言让咱悬崖勒马了,咱原本是想享受破解的过程,就像数学难题考试 听君一席言胜读十天书 |
116
faustina2018 2022-02-24 13:20:19 +08:00
建议你想办法联系管理员把帖子删掉
你可能不知道,v2ex 的所有帖子都是不能自主删除的 这个帖子会给你带来多严重的后果你看起来毫无概念 |
117
Nightmares13 2022-02-24 13:53:57 +08:00
直接跳脸京东,老哥,你有点东西啊。法律已经限制不住你了吗?
|
118
bzsh 2022-02-24 13:57:44 +08:00
@SoulClinic 单开服务,定期去生成 cookie ,放队列或者直接临时生成,话说你不怕吗,哈哈哈哈
|
119
SoulClinic OP @Nightmares13 冤枉啊,无知者无罪啊,咱以为这是合法的才敢这样光明正大啊😹
|
120
figlu 2022-02-24 14:38:05 +08:00
反爬虫就是不做爬虫
|
123
lingo 2022-02-24 15:14:57 +08:00
听听楼上的。他不反爬,还能说是公开的,有点争议。。他反爬了你还爬,那就一点争议都没了。
|
124
SoulClinic OP @figlu 咱主要是冲着技术学习上去的,闹着玩,没有利益化
|
125
SoulClinic OP 如果咱把爬到的数据只是内部用,不公开出去,这算是合法吗?也不会有很大量的请求(可能一个普通用户的请求都比不上,因为只会搜取关键的几个请求,不用图片等信息)
|
126
Nightmares13 2022-02-24 15:52:20 +08:00
@SoulClinic 这话你和网安说吧
|
127
dingyx99 2022-02-24 16:21:42 +08:00
@SoulClinic 你不会真觉得 技术学习 四个字是万能的吧
|
128
SoulClinic OP @dingyx99 没有技术是万万不能的啊
|
129
collen 2022-02-24 19:22:22 +08:00
昨天到今天一天了,实在看不下去了 。 善意劝人如杀人父母,直接给京东发邮件让他进去好好学习一下,自用,公开,不商用,学习无止境好了.
|
130
collen 2022-02-24 19:25:53 +08:00
https://kknews.cc/zh-my/story/nxgn5r3.html 借用一下 第四种人当自己病魔侵身,四大离散,如风前残烛的时候,才悔恨当初没有及时努力,在世上空走了一回。好比第四等驽马,受到彻骨彻髓的剧痛,才知道奔跑。然而,一切都为时过晚了。 祝技术越来越好,国家饭越吃越饱.
|
131
SoulClinic OP @collen 没有“善意劝人如杀人父母”吧,咱感谢了大家提醒,自己细思极恐啊
只是自己的好奇心还是会作怪把不理解或者没有经历过的疑问提出来,看来是应该跟 Google 提 总得来说动机不坏,原本是想挑战技术难题,没有考虑利益冲突,现在意识到了会改邪归正的 |
132
hallDrawnel 2022-02-24 20:28:33 +08:00
兄弟,这么多人说法律问题我就不多说了,违不违法如果你不确定,可以问问身边的律师朋友,或者看看各个地方法院的判例。你要锻炼技术也好做什么也罢,但你至少要确定一点,爬到的数据你有没有最终的控制权,以及失控后(比如说被其他团队商用了而你不知情)如果有一天淘宝京东法务过来告你们公司,你会不会是那个被推出来背锅的人。
|
133
2MO 2022-02-24 20:30:26 +08:00
一个技术交流贴这么多人不聊技术只聊法律,v2 直接改法律工作者论坛好了。
|
134
SoulClinic OP @hallDrawnel 今天就把这里的讨论跟客户说了,他也是会改变策略的,会去确认一下是否合法或者是否可以内部使用的了
@2MO 是有点超乎咱想象的,发帖时以为大家会冲着爬虫 /破解技术兴趣讨论,没想到是超乎想象的好心提醒,磕头感谢大伙免了咱的牢狱之灾 |
135
2MO 2022-02-24 20:53:12 +08:00
@SoulClinic 还是去 52pojie 交流技术吧,V2 已经变味了。来这里摸鱼扯淡就好。
|
136
SoulClinic OP 咱初中就是数学拿满分 /第一,政治、历史不及格那种,对法律就是文盲
|
137
2MO 2022-02-24 21:14:34 +08:00
@icy37785 我都不怕要你怕?是不是太把自己当回事了。这个帖子是来交流技术还是交流法律的,自己先长不长眼,还我不懂法,爬取资料不破坏其服务器正常服务并不将爬取数据进行商用,对方公司干嘛找我?以为大产法务都很闲吗?你这么懂看来是法律专业的吧,那请你告诉我,爬取他人网站并唆使他人一起犯罪的判几年,你那么爱管事建议马上去把 B 站那些教爬虫的 UP 和那些打着爬虫技术培训班通通去举报掉,然后再开个贴弘扬一下你的战绩。
|
138
2MO 2022-02-24 21:31:07 +08:00
@xxfye 那些进去的前提是对方公司发现你侵犯他权益并且照成损失了的,我也说明了自己爬爬交流学习的能刑到哪去,B 站那些做统计的 UP 数据不也都是爬来的。况且帖子本来就是交流技术问题的,一群人只聊法律不聊技术,真的是看的无语了,来 V2 是为了看这些的吗。
|
139
icy37785 2022-02-24 22:01:28 +08:00 via iPhone
@2MO #137 前面还以为你是单纯的不懂法,不知道事情的严重性,所以在那里大放厥词。
看你这条回复算是明白了,原来是脑子不好在这里秀下限,那没事了。希望你小学毕业之后还这样想。 block 了,再见。 |
140
2MO 2022-02-24 22:11:15 +08:00
@icy37785 怎么,不长眼睛看我说的是自己爬爬么,非要跟我扯违法,我就不信你这辈子清清白白一点没触碰法律。来秀智商下线的分明是你,跑到技术贴下面来秀自己的法律知识,这个是小学有毕业的人干的事?
|
141
SoulClinic OP |
142
2MO 2022-02-25 00:07:22 +08:00
@SoulClinic 见人说人话,见鬼就学鬼话咯。另外一个哥们回我帖我也是好声好气的。但看到他的,我脾气就不待见这些自以为是的人,拉黑还要跟对方说拉黑了,简直无语她妈夸无语——好无语,搞的好像我在意他拉黑一样。这么遵纪守法的人都不知道他们翻墙来干嘛的。不好好交流技术回答问题只会阴阳怪气『教别人做人』,先把自己舌头捋直再说吧。
|
143
lizhenda 2022-02-25 09:46:34 +08:00
有意思
|
144
hejw19970413 2022-02-25 10:21:01 +08:00
我劝你改一下你的文字,一定要遵守爬虫协议,以及人家网站的信息不要用于商用,否则会收到律师函的~
|
145
hejw19970413 2022-02-25 10:22:47 +08:00
@SoulClinic 个人用是可以的,只要是在公司就不行,贩卖也不行。不是危言耸听,是真的。
|
146
ww940521 2022-02-25 10:26:03 +08:00
爬虫这种技术不学也罢,通过损害他人利益牟利于情于理于法都不容。
|
147
ffw5b7 2022-02-25 11:28:55 +08:00 via Android
最近想做一个社区买菜比价,使用于学习。
也在看爬虫的法律问题。 现在有一个案例 电商比价应用:购物党 它的数据来源应该是爬虫的,为什么还存在。 有诱有过诉讼:http://lawyers.66law.cn/s2106025344063_i210080.aspx 更多的案例和涉及到的法律法规: https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China |
148
SoulClinic OP @ww940521 就是因为经常看到爬虫相关的文章,觉得自己好像一点都不懂就有点过时了一样。。。
咱们爬到主要是为人民服务,会有标签“京东”or“阿里”表面出处的 前面提了,看到已经有这类公开的 app (海豚选房法拍版),所以才以为这是“理所当然”的公开信息,想开发一个海豚的加强版 |
149
qq1340691923 2022-02-25 15:09:03 +08:00
你还是人吗
|
150
qq1340691923 2022-02-25 15:13:15 +08:00
我给京东发邮件了
|
151
golden0125 2022-02-25 15:45:50 +08:00
笑死,一群翻墙出来的居然大言不惭开始动之以情晓之以理讲法律了,还玩起 “这很刑 那很刑” 的梗,你们先把用什么软件翻墙出来的,有没有经过有关部门审批,除了这个论坛还去过哪些网站,说过哪些话都交代清楚吧,我看你们才是太刑了
|
152
WWwwMMmmMMmmWWww 2022-02-25 16:40:12 +08:00
爬虫真的有罪 企查查和天眼查应该早就关闭了。
|
153
wildplant 2022-02-25 19:57:40 +08:00
楼主的“咱”=“我”,这是哪个地方的方言?
|
154
SoulClinic OP @wildplant 心中无我,请忘了“我”吧
|
155
colinlp 2022-02-26 00:07:01 +08:00
造枪是技术,种罂粟是技术,造纸币是技术,技术本来就存在各个角落,你能看得到的东西都有科学原理技术支持,既想犯罪又想拿技术当挡箭牌,这么别扭你觉得你能搜到正确的东西吗?你想犯罪就直接搜怎么犯罪,不用搜怎么学技术。
|
156
SoulClinic OP @colinlp 这是搜索整理一下数据让用户更方便搜寻,没有涉及什么利益或者过量请求让对方服务器负担啊
按照你的看法,谷歌早就犯罪得下十八层地狱了吧? |
157
mmg114514 2022-02-28 00:24:08 +08:00 via Android
我的话会用 selenium 尽量仿真人操作 自动换 cookie 也可以用其他库实现
|
158
SoulClinic OP @mmg114514 这里用的 puppeteer 不更强吗?
|