看到不少帖子在需要进一步交流的时候会提供通过 base64 加密的手机/微信/QQ/email/...我在顺手解码后得到的就是上述联系方式的完整字符串,极少数会加盐后编码。这就导致你的 base64 编码并没有起到增强隐私的作用,而通过真实联系方式加密后直接就能搜索出回复过该编码的帖子。
在仅仅是防止爬虫骚扰的情况下,对一些只爬手机号、email 的可能有效。现在大多留的是微信,我不清楚微信有没有加好友的 api ,即使有在调用之前尝试解码也不费事,手机、邮箱也可以在不需要额外人工的情况下尝试解码后进一步骚扰,和明文区别已经不大了。
而如果加盐后再编码就能很大程度解决这个问题,比如: v2ex 微信号 ABCD => djJleOW+ruS/oeWPt0FCQ0Q=
+括号内微信( ABCD) => K+aLrOWPt+WGheW+ruS/oe+8iEFCQ0Qp
两个编码都能用于指向同一个微信,也能加大其他个人信息和这次编码产生联系的成本。但是这么做的人不多。
1
cmdOptionKana 59 天前
其实都泄漏得差不多了,我觉得没必要整复杂,直接暴露原文就行。
|
2
leaveeel OP @cmdOptionKana 现在普遍是原文加密的字符串,尤其是技术论坛。个人觉得这种粗暴的加密多此一举,没法保证隐私也给其他人增加操作,防君子不防小人了。
|
3
cmdOptionKana 59 天前
@leaveeel 我觉得就是赶时髦而已,形式主义大于实际意义。
|
4
llxvs 59 天前 via iPhone
1. 爬虫可以区分邮箱、手机号、普通文本的 base64 吗?退一步讲,爬虫可以区分 base64 与其他文本吗?
2. base64 可以防止搜索引擎收录,防止根据邮箱/手机号等搜索到你的帖子,尤其是对于不能删帖的本论坛来说。 |
5
leaveeel OP @llxvs 不知道但实际不需要知道,只要爬到的格式非手机邮箱的字母数字符号组合就可以尝试 decode 。
而第二点我在正文提到过,搜索引擎同样会收录 base64 码,不经过处理的号码和编码是一一对应的,想查依然能查到。 |
6
oneisall8955 59 天前
我习惯 pastebin
|
7
NoOneNoBody 59 天前
@cmdOptionKana #3
并不是,你找个熟人的 email 或微信号去搜索引擎搜一下,看看他的足迹都到过什么地方? 然后想想编程随想 只想到有意收集,思维局限了,其实存在更多的情况是“无意”收集 |
8
NoOneNoBody 59 天前
@leaveeel #5
问个问题: 爬了一千万个网页 1.用正则能直接匹配出 email ,确认是 email(是否真实另算),能占 90%以上 2.那么,base64 呢,不会整个网页都是 base64 吧,先匹配出 base64 的部分,解码,再判断是否 email ,效率应该低于 50%,成本大效率低,且这些爱用 base64 的人,警觉性也略高于前面 1 的 假如你做黑产的话,这两种人都一视同仁么?就算明知会拉高成本也把 2 列为目标? 当绝大部分人都放弃 1 ,采用 2 ,这样两者拉平,成本才会拉平 当然有反向操作的情况,就是专找敌对份子的人,他们会找那些见不得光都爱“加密”的 |
9
cmdOptionKana 59 天前
@NoOneNoBody 用 base64 骗自己,还不如用明文提高警觉性,涉黄就隔离身份换个邮箱,涉政那要做的措施就多了。
|
10
NoOneNoBody 59 天前
@cmdOptionKana #9
首先,隔离身份是正确的,但跟这个不是一个方向的话题 假如我有三个电话号码,或者邮箱,给不同圈子的人,确实那个圈子的人只会联系其中之一,他们极可能并不会知晓另外两个圈子的身份 但是如果三个圈子都是会在网上公开,且被搜集的,那这三个电话号码都会收到跟这三个圈子毫无关系的广告骚扰,或者诈骗,但如果都用“密文”,就会少很多,所以我说这是两个方向的话题 稍微处理[可以但不是重点]保护真实身份,重点是减少那些漫无目的、无差别的收集行为 |
11
NoOneNoBody 59 天前
@cmdOptionKana #9
我再透点隐私帮你扩宽一下思维: 我有个圈子,里面几乎没有会编程的,绝大多数是文字工作者,他们中应该只有少数几个知道 base64 他们用的是什么方式对联络信息遮罩呢? 答案是非常原始的方法 —— 繁体汉字写数字、emoji 、贴图…… 其实对于爬虫来说,程序员用 base64 反而是最弱的,越原始的方案工作量越大,哈哈 不是说采集者不能采集、不能“解密”,而是他们要面对很多不同情形做不同的对策,情形越多成本越大 |
12
lloovve 59 天前 via iPhone
可以做继续短链接的临时名片
|
13
yvkino 59 天前
手机号里随机加个字母就好了
|
14
julyclyde 54 天前
没什么用
只是一种文化现象而已 |