V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Xianmua
V2EX  ›  程序员

v2ex plus 用户们,你们知道你们的浏览器被用来跑分布式爬虫了吗

  Xianmua · 2023-05-12 13:50:20 +08:00 · 40555 次点击
这是一个创建于 574 天前的主题,其中的信息可能已经有所发展或是发生改变。
首先承认标题夸张了点,但是事实确实如此。
看到有个 V2EX plus 插件,很多人都装了的,准备也安装来用用。插件功能不少,这个没错,有些方便的小功能。
进设置页面的时候,发现有个 vdaily 默认开启,比较有意思的是这句话“同时接受等量的爬取任务”。有点好奇接受任务这件事,于是看了看怎么回事。哦只要安装了插件,会不断地从服务器获取爬虫任务。
vdaily 作者的网站,有非常详细的请求统计和快速滚动的爬虫任务日志分析,想看的自己去看吧,都是公开的(在请求统计和日志那里)。这里有一堆截图,可以看看。
当然可以说作者做的一点毛病也没有,毕竟在插件设置内都写明了,开启 vdaily 会接受爬取的任务,至于爬取的数据,那就是 vdaily 的资产了对吧。分布式爬虫人家也没什么遮遮掩掩的,都是正大光明的,本篇帖子也没有有技术含量的分析。只是说我是不太喜欢这个 feature ,删了。提醒一下大家,不知道的或者是介意的,都知道知道。
图片合辑: https://imgur.com/a/shPfy8I













https://i.imgur.com/N4TK3FG.mp4
第 1 条附言  ·  2023-05-12 15:04:28 +08:00
https://github.com/sciooga/v2ex-plus
还是开源的,想看的可以去看看,再补两张图
链接: https://imgur.com/a/SFkYcHZ


第 2 条附言  ·  2023-05-12 16:47:04 +08:00
作者像是已经处理过了,数据统计控制面板,只有 60 万次请求了(只显示 4.23 的数据),之前显示 4.23-5.12 的总请求次数可是 1300 多万次的,想用的接着麻痹自己吧哈哈
这是之前截的图,有 4.23-5.12 最新的数据:

这是刚截的图,注意看右上角日期,只有 4 月 23 日一天的数据了
185 条回复    2023-06-04 11:06:16 +08:00
1  2  
lambdaq
    1
lambdaq  
   2023-05-12 13:51:51 +08:00   ❤️ 1
这思路不错。。。
coolair
    2
coolair  
   2023-05-12 13:55:51 +08:00   ❤️ 3
没用这个插件,用的“V2EX 增强”这个油猴脚本。
cuixiao603
    3
cuixiao603  
   2023-05-12 13:59:09 +08:00   ❤️ 1
谢谢提醒 已关闭
xloger
    4
xloger  
   2023-05-12 14:00:36 +08:00
在用,且知道。不过不知道这个是不是默认开启的
AoEiuV020JP
    5
AoEiuV020JP  
   2023-05-12 14:10:53 +08:00   ❤️ 1
这种东西居然默认开启,恶心到了,删除+举报,
kamal
    6
kamal  
   2023-05-12 14:16:10 +08:00
谢谢提醒,关掉这个功能了,不过插件其他功能还是挺不错的,目前还没找到替代,我就继续用不卸载了。
Greatshu
    7
Greatshu  
   2023-05-12 14:17:18 +08:00
找到了 https://vdaily.huguotao.com/report.html
这个面板挺好看的,有没有大佬知道名字
gaobh
    8
gaobh  
   2023-05-12 14:20:04 +08:00
恶心到了,自动更新就开启了
1120101929
    9
1120101929  
   2023-05-12 14:22:25 +08:00   ❤️ 3
@Greatshu 看左下角,GoAccess
raycool
    10
raycool  
   2023-05-12 14:28:59 +08:00
原来我也装了这个插件,谢谢, 已删除。
Drumming
    11
Drumming  
   2023-05-12 14:29:40 +08:00
好思路....但是很恶心
Excepti0n
    12
Excepti0n  
   2023-05-12 14:30:42 +08:00
谢谢提醒 已关闭
glaucus
    13
glaucus  
   2023-05-12 14:32:17 +08:00
shinession
    14
shinession  
   2023-05-12 14:36:30 +08:00
用的 V2 Polish, 没发现这个功能
fg990
    15
fg990  
   2023-05-12 14:39:11 +08:00
谢谢,已经卸载了。

作者也要吃饭,能理解,但不喜欢。
hxzhouh1
    16
hxzhouh1  
   2023-05-12 14:40:12 +08:00
感谢,已经卸载+举报
mht
    17
mht  
   2023-05-12 14:41:32 +08:00
@Greatshu 好像是 goaccess 生成的模板
pota
    18
pota  
   2023-05-12 14:43:36 +08:00
感谢 已卸载
HFX3389
    19
HFX3389  
   2023-05-12 14:53:47 +08:00
@sciooga 呼唤作者
shyrock
    20
shyrock  
   2023-05-12 14:54:10 +08:00
这个分布式爬虫是用于生成 vdaily 这个功能的数据吗?还是爬取其他用途的数据?

这个插件的作者似乎也在 v2 呢,要不出来领一下工单?
ZeroDu
    21
ZeroDu  
   2023-05-12 15:01:50 +08:00   ❤️ 1
开启 vdaily 会造成 v2 帖子翻页报错或者 502 。还好我关了
pota
    22
pota  
   2023-05-12 15:05:13 +08:00
之前看右侧底部突然出现最热还以为是 v2 更新了呢 一直没注意
blinue
    23
blinue  
   2023-05-12 15:06:56 +08:00   ❤️ 9
这种东西只要搞一次就再也不能信任了
C47CH
    24
C47CH  
   2023-05-12 15:07:05 +08:00   ❤️ 4
fengxianqi
    25
fengxianqi  
   2023-05-12 15:09:59 +08:00
为什么图都裂了呀
shakoon
    26
shakoon  
   2023-05-12 15:40:46 +08:00
这个功能我记得前段时间刚推出时弹出了提示的,用户可以选择是否关闭
azuginnen
    27
azuginnen  
   2023-05-12 15:50:52 +08:00
@shakoon 这个我搜索了一下,貌似没找到之前有提示过被当成分布式爬虫。当然也有可能哪里漏了。

site:v2ex.com/t "v2ex plus" 爬虫
site:v2ex.com/t "v2ex plus" 爬取任务
Xianmua
    28
Xianmua  
OP
   2023-05-12 16:03:22 +08:00   ❤️ 1
vdaily 爬虫功能刚推出时,‘最近查看过的主题’会出现没有看过的帖子记录。就不追加了,贴在这儿:
https://github.com/sciooga/v2ex-plus/issues/192
https://www.v2ex.com/t/919083?p=2#r_12827825
janus77
    29
janus77  
   2023-05-12 16:04:10 +08:00
用的油猴脚本
karatsuba
    30
karatsuba  
   2023-05-12 16:06:17 +08:00
感谢提醒,卸载了
Stoney
    31
Stoney  
   2023-05-12 16:08:46 +08:00 via iPhone
爬的什么东西呢?爬下来会传到哪里?
noobMing
    32
noobMing  
   2023-05-12 16:32:38 +08:00
怪不得我最近活跃度动不动就能到前一百,估计也是这个功能搞的鬼
wangnimabenma
    33
wangnimabenma  
   2023-05-12 16:33:58 +08:00   ❤️ 1
删除+举报
bellx
    34
bellx  
   2023-05-12 16:47:26 +08:00
感谢 已卸载
xloger
    35
xloger  
   2023-05-12 16:50:16 +08:00
@ZeroDu #21 原来 502 是这个导致的啊......我还以为是我代理的问题
Xianmua
    36
Xianmua  
OP
   2023-05-12 16:50:22 +08:00
看我最新附言,作者已经后台改动过了,和之前截图的数据展示的完全不一样,请求统计那里 不显示最新数据了
brust
    37
brust  
   2023-05-12 16:56:54 +08:00
已经卸载
v2eb
    38
v2eb  
   2023-05-12 16:57:06 +08:00
卸载了一批插件💁
liansishen
    39
liansishen  
   2023-05-12 17:01:46 +08:00   ❤️ 2
在用 V2EX polish
HeyWeGo
    40
HeyWeGo  
   2023-05-12 17:06:52 +08:00
开启这个后,最近访问就没了,所以我关了。
我自己弄了个显示最近主题的油猴脚本,需要的 v 友可以取了看看。

https://greasyfork.org/zh-CN/scripts/448472-v2%E6%96%B0%E5%B8%96%E6%8C%82%E4%BB%B6
Aloento
    41
Aloento  
   2023-05-12 17:07:51 +08:00   ❤️ 1
你们啊,就喜欢把这些东西拿出来批判一番,到头来搞的自己也啥没得用了,卸载就卸载吧,还举报,作者做错了什么?
zyronon
    42
zyronon  
   2023-05-12 17:09:53 +08:00   ❤️ 19
大家可以试试我开发的 油猴脚本: https://greasyfork.org/zh-CN/scripts/458024 ,目前已经有 2000 多的安装量,如果您未安装可以尝试一下,绝对不会让您失望

代码完全开源: https://github.com/zyronon/v2ex-script
zyronon
    43
zyronon  
   2023-05-12 17:10:46 +08:00
才注意到仓库里没写脚本安装地址...
israinbow
    44
israinbow  
   2023-05-12 17:15:54 +08:00   ❤️ 2
@Aloento #40 作者做错了没有弹窗提示必须同意 ToS 才能使用💋
liuidetmks
    45
liuidetmks  
   2023-05-12 17:18:16 +08:00
我想知道,他是只能爬 v2ex.com 的数据,其他域名,qq ,zhihu 有权限爬吗? 不太懂扩展工作原理

看他好像只是做了个 v 站精选。算不上罪大恶极
estk
    46
estk  
   2023-05-12 17:21:00 +08:00 via iPhone
据说 chrome 崩溃和 bug 很多也是插件造成的
my3157
    47
my3157  
   2023-05-12 17:26:29 +08:00
早就关闭了, 不过没注意到还有爬虫

已卸载
zyronon
    48
zyronon  
   2023-05-12 17:31:40 +08:00   ❤️ 2
@liuidetmks #45 事不太,问题是默认启用。今天敢 xx 明天就敢 xxx
Aloento
    49
Aloento  
   2023-05-12 17:35:35 +08:00
@israinbow 哈?😓
shzbkzo
    50
shzbkzo  
   2023-05-12 17:38:49 +08:00
感谢,已经卸载+举报
CloudnuY
    51
CloudnuY  
   2023-05-12 17:39:59 +08:00
是这个插件造成我最近偶尔访问 v2 就报 403 吗……
GoRoad
    52
GoRoad  
   2023-05-12 17:44:14 +08:00
作者在站内,出来说一句吧 @sciooga
my3157
    53
my3157  
   2023-05-12 17:44:19 +08:00
换了 V2EX Polish

先用一段时间, 再看网络日志里面有没有乱七八糟的东西
wangnimabenma
    54
wangnimabenma  
   2023-05-12 17:53:10 +08:00   ❤️ 15
@Aloento 这个观点是根据谷歌浏览器开发者政策中关于自动化程序、脚本或机器人的规定得出的。该政策指出,插件不得通过任何自动化程序、脚本或机器人访问网站或服务。这样的规定可以理解为禁止扩展插件进行爬虫或者数据采集行为,因为这些行为通常需要使用自动化程序或脚本。

具体可参考谷歌浏览器开发者政策中的以下内容(引用自 2021 年 9 月的政策版本):

"Your item may not promote or be capable of facilitating illegal activity, such as phishing, spam, invasions of privacy, identity theft, hacking, or cracking. Your item also may not engage in or facilitate the processing of payments for goods or services in a manner that is excessively aggressive, or that otherwise is in violation of applicable laws or industry regulations.

Your item must not violate any applicable laws or industry regulations regarding the content it accesses or the way in which it accesses such content (e.g. scraping). Your item also must not engage in activity that harms or interferes with any networks, equipment, or servers used by any website or service, or that is otherwise disruptive or abusive to such websites or services."

同时,谷歌浏览器开发者指南中也提到了相关的规定和限制,强调扩展插件不能进行违法或者欺诈等行为,也不得对用户进行欺骗或者误导,更不能通过扩展插件获取敏感信息或者隐私数据。

具体可参考谷歌浏览器开发者指南中的以下内容(引用自 2021 年 9 月的政策版本):

"Don't use your extension to deceive or confuse users, such as by using misleading or inaccurate representations in your extension's title, description, or icon. Your extension should not use any form of malicious activity to gain or access sensitive user data, such as passwords, email addresses, or other personal information."
Rache1
    55
Rache1  
   2023-05-12 17:55:34 +08:00
@estk 前两天才遇到的,我在测试一个东西,跨域了,因为是请求第三方的网站,想着临时解决一下,就从 chrome 商店下载了个 CORS 解除的插件,用着还好好的。结果今天中午打开 B 站的时候,发现我的登录掉了,然后从新登录,发现获取验证码居然没有响应,打开控制台一看,满屏的 CORS 错误,还以为是 B 站出 BUG 了,好家伙案例来说,装了这个插件就可以不限制跨域的,结果他这一下反倒把别人支持跨域的搞的有问题,大致看了一下,他给原本支持跨域的接口的 allow origin 给改成了 * ,导致有用到 Cookie 的 allow Credentials 全部 G 掉,居然还有 40,000+ 用户

Cross Domain - CORS - Chrome 应用商店
https://chrome.google.com/webstore/detail/cross-domain-cors/mjhpgnbimicffchbodmgfnemoghjakai
kiko12324
    56
kiko12324  
   2023-05-12 17:59:06 +08:00
谢谢,已删除更新其它脚本
slipkinem
    57
slipkinem  
   2023-05-12 18:01:35 +08:00 via Android
@zyronon 电脑浏览器手机模式脚本不起作用么
zyronon
    58
zyronon  
   2023-05-12 18:07:57 +08:00
@slipkinem #57 不起作用。手机模式网页结构不同,暂时还不支持手机模式
oldshensheep
    59
oldshensheep  
   2023-05-12 18:10:50 +08:00   ❤️ 1
@Rache1 有没有想过是你不会用,默认的正则表达式.*是应用到全部域名上的……你改一下不就行了
Serif
    60
Serif  
   2023-05-12 18:19:44 +08:00
感谢提醒
ZeroDu
    61
ZeroDu  
   2023-05-12 18:24:03 +08:00
@zyronon #58 目前里面没有贴主高亮,查看对话的功能吧,这个还挺好用
gzlock
    62
gzlock  
   2023-05-12 18:35:50 +08:00   ❤️ 4
我也开发过浏览器扩展,这种功能默认启用,超出了底线,删除+举报滥用
zyronon
    63
zyronon  
   2023-05-12 18:37:26 +08:00
@ZeroDu #61 回复已经是楼中楼了,不再需要查看对话这种功能了。贴主有个 OP 的小标签,原站就有的功能,所以高亮就没啥必要了,
wolfie
    64
wolfie  
   2023-05-12 18:56:35 +08:00
@zyronon
试用了一下,当前主题渲染不出来。😂😂
随便打开几个 其他主题 没事。
wolfie
    65
wolfie  
   2023-05-12 18:59:00 +08:00
@zyronon
回复本主题后,又能渲染了。
herozzm
    66
herozzm  
   2023-05-12 19:12:01 +08:00
这种功能是作恶,已经不是简单的一个功能,爬虫会显著导致用户网速变慢
想起一个免费网游加速器,它直接不提醒,偷偷的跑分布式爬虫
sechi
    67
sechi  
   2023-05-12 19:43:47 +08:00
已经在谷歌插件商店举报了。没有主动告知用户就进行爬虫纯属恶心人,已经触碰到底线了吧
Livid
    68
Livid  
MOD
   2023-05-12 19:51:16 +08:00   ❤️ 24
而且,这样的功能:

1. 会显著增加 V2EX 的服务器负担
2. 增加用户遇到 403 rate limit 的概率,最后是我们会经常收到这样的用户询问:为什么又把我的 IP 403 了?

哎……
storyxc
    69
storyxc  
   2023-05-12 19:58:38 +08:00   ❤️ 1
之前还在作者的帖子下面提过 issue ,因为这个 vdaily 功能会导致最近查看的主题异常,当时还真没往爬虫这方面想,而且感觉这个功能很鸡肋,反而污染版面,后面就把这个功能关了。不知道作者采集这些数据有什么用,单纯的搞个看板自嗨? 如果默认关闭&开启的时候提醒倒也算了,直接默认启用这功能性质是挺恶劣的。
lchkid
    70
lchkid  
   2023-05-12 20:02:23 +08:00
@zyronon #42 脚本不错,就是样式没有 polish 好看(审美很主观,不用管我
ljsh093
    71
ljsh093  
   2023-05-12 20:03:27 +08:00
@Livid #68 为什么又把我的 IP 403 了?哈哈哈
0914xc
    72
0914xc  
   2023-05-12 20:15:34 +08:00
哈哈,找了半天设置,最后才发现,我用的 V2EX Polish
wonderfulcxm
    73
wonderfulcxm  
   2023-05-12 20:15:42 +08:00 via iPhone
@wangnimabenma 那插件自动签到功能也是违规的了?
Rache1
    74
Rache1  
   2023-05-12 20:17:57 +08:00
@oldshensheep 我知道你的意思,但是我想说,这种情况,在修改 response header 的时候,显然是可以判断一下,在 allow Credentials 的时候,allow origin 是不允许为 * 的,改为当前的 origin 就行了,而且直接修改 allow origin 为当前 origin 明显是更合适的情况,而不是简单的替换为 *

这种是很常见的情况,而且当我在使用这类插件的时候,自然是希望他默认情况下全局就可以用的
ClericPy
    75
ClericPy  
   2023-05-12 20:20:29 +08:00
谢谢提醒, 已提前一年卸载...
garipan
    76
garipan  
   2023-05-12 20:23:36 +08:00
谢谢提醒,这个确实不太地道。哪怕弹个提醒呢,应该提前说明白。
icy37785
    77
icy37785  
   2023-05-12 20:28:37 +08:00 via iPhone   ❤️ 1
@Aloento #49 没有明确告知就默认开启甚至是违法行为。你竟然还在问作者做错了什么?
vtoexname
    78
vtoexname  
   2023-05-12 20:28:57 +08:00 via iPhone
firefox 上好像没有这个选项。
supertan
    79
supertan  
   2023-05-12 20:43:47 +08:00
@lchkid #70 polish 配色看着就不舒服
locoz
    80
locoz  
   2023-05-12 20:51:54 +08:00
默认开启属实是...卸载了
BridgeCham
    81
BridgeCham  
   2023-05-12 20:52:16 +08:00
安装了用着还不错,但是默认开启爬虫未告知不太能接受。安装了 24 楼的超级增强脚本也不错。
ravecn2014
    82
ravecn2014  
   2023-05-12 21:18:14 +08:00
卸载了
echo1937
    83
echo1937  
   2023-05-12 21:36:49 +08:00
真难受,最近 v2 浏览经常报错,我还以为是梯子的问题,凎。
jsion
    84
jsion  
   2023-05-12 21:40:32 +08:00
看图全裂开,都是报的 403 ,不知道是不是这个问题把我 ip 给干了
Caan07
    85
Caan07  
   2023-05-12 21:40:35 +08:00
开发者要吃饭我体谅。但这样的操作真的是......

应该很多人举报了,已卸载。
jsion
    86
jsion  
   2023-05-12 21:45:29 +08:00   ❤️ 1
@jsion 打错了 429,imgur 估计把我的节点当爬虫服务器封禁了,一直看到不图,换了之后就好了
MXMIS
    87
MXMIS  
   2023-05-12 21:50:33 +08:00
感谢提醒,已卸载
MXMIS
    88
MXMIS  
   2023-05-12 21:54:43 +08:00
@lchkid #70 可以加一个自定义 CSS
ttyhtg
    89
ttyhtg  
   2023-05-12 22:04:32 +08:00
我没装
723X
    90
723X  
   2023-05-12 22:27:53 +08:00 via Android
@Livid #68 又是你背锅...

一点建议,可以考虑在`站务反馈板块`增加类似说明:

在发表主题前请确认你已禁用你浏览器上有关 V2EX 的插件和脚本

从而尽量排除站点本身的问题,减小维护工作量。目前帖子翻页报 502 、最近查看主题无故多出没看过的主题等问题似乎都是这个插件导致的...
daiv
    91
daiv  
   2023-05-12 22:44:24 +08:00
@0914xc V2EX Polish 的确不错
x86
    92
x86  
   2023-05-12 22:57:46 +08:00
前些天 403 还以为是机场的问题,切了个节点又好了
dasbn
    93
dasbn  
   2023-05-12 23:07:05 +08:00   ❤️ 2
作者我以为是多年的程序员,原来是多年公司的老板了,如果早知道是这么个背景,就不敢去安装这个应用,除非万不得已。
kylix
    94
kylix  
   2023-05-12 23:50:26 +08:00
当初吹的挺厉害的。。。 还好当初留了个心眼,没有马上安装~~哎
XiaoBaiYa
    95
XiaoBaiYa  
   2023-05-12 23:56:24 +08:00
用了好久,已拉黑
chirsgod
    96
chirsgod  
   2023-05-13 00:06:03 +08:00   ❤️ 4
目前改用 V2EX Polish 这个插件了,感觉挺好用的
humpy
    97
humpy  
   2023-05-13 00:09:16 +08:00 via iPhone   ❤️ 24
@Livid 有没有想过为什么这么多用户要装这个插件
stephen2009
    98
stephen2009  
   2023-05-13 00:43:24 +08:00 via Android
谢谢,已卸载
Ericcccccccc
    99
Ericcccccccc  
   2023-05-13 00:46:54 +08:00   ❤️ 3
@Livid 官方逼死同人呀, 实现一下脚本里的功能. 就和早年贴吧需要各种第三方管理扩展一样, 还是贴吧官方功能太缺了.
xabcstack
    100
xabcstack  
   2023-05-13 01:02:04 +08:00
@Livid 请求解封账号 @ywgx 纯属你误删..
1  2  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2844 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 34ms · UTC 11:40 · PVG 19:40 · LAX 03:40 · JFK 06:40
Developed with CodeLauncher
♥ Do have faith in what you're doing.