V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
peterjxl
V2EX  ›  程序员

腾讯云最近是在用 AI 爬虫抓取博客数据吗?把我博客搞崩好几天了

  •  
  •   peterjxl · 50 天前 · 2698 次点击
    这是一个创建于 50 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我博客 2022 年就上线了,个人技术博客,访问量一直不大。

    但为了以防万一,我还是加了点防护措施,例如流量封顶,带宽封顶等,超过阈值一段时间会暂时下线博客,然后可以自动或手动上线博客

    但最近几天,博客访问量突然大了,一天到晚都在崩...

    实在忍不住了,就去查了下日志,发现访问最频繁的 IP 都是 175.24.248.xx 开头的,然后查到是腾讯云的 IP

    封禁了其中几个,但第二天博客又崩了,然后发现换了 IP ,当还是上面的 IP 段

    而且是一天到晚都在访问。现在我已经封了这些 60 多个 IP (请求会返回 403 ),但日志里还是一直在刷请求...

    IP 这么多,不太像是个别人的恶意攻击,这是官方在搞什么活动吗? 想起之前看过的新闻:

    想请教下是否还有什么法子... 虽然这种 CC 攻击好像是无解的,又不太想上 CloudFlare (有点慢)

    以下是截取的 IP:

    
    175.24.248.4
    175.24.248.6
    175.24.248.15
    175.24.248.19
    175.24.248.22
    175.24.248.29
    175.24.248.37
    175.24.248.40
    175.24.248.53
    175.24.248.80
    175.24.248.83
    175.24.248.84
    175.24.248.85
    175.24.248.94
    ......
    
    22 条回复    2025-07-18 09:34:03 +08:00
    liu731
        1
    liu731  
    PRO
       50 天前   ❤️ 1
    套 CF ,然后开 Block AI training bots
    iv8d
        2
    iv8d  
       50 天前 via Android
    确定不是刷你流量
    overstar
        3
    overstar  
       50 天前
    iptables + ipset 直接把 AS45090 干掉完事
    Shatyuka
        4
    Shatyuka  
       50 天前
    @tencentcloud 直接摇人
    WorseIsBetter
        5
    WorseIsBetter  
       50 天前
    现在的 AI 爬虫都不讲武德的,UA 模仿正常用户,很难用简单的规则去过滤。
    目前比较有效的无非是接入 Anubis 或者 go-away 这种基于计算量证明的对抗手段。

    当然对正常用户的影响还是有的,首先它比较吃性能,我的 pixel7 访问几个这样的网站就开始发烫了。
    还有很多用户根本不想在自己的浏览器上运行 JavaScript 。

    另外,最近流行一种「浏览器插件把用户设备当肉鸡来驱动 AI 爬虫」的操作(关键词:Mellowtel )。
    如果这种行为不能及时得到遏制,那反制的成本无疑会进一步提高……
    macaodoll
        6
    macaodoll  
       50 天前
    开 cdn 了?更像是刷流量
    peterjxl
        7
    peterjxl  
    OP
       50 天前
    @overstar 我用的是 CDN😂 对方也是访问的 CDN ,没法用 iptables
    peterjxl
        8
    peterjxl  
    OP
       50 天前
    @macaodoll 嗯,CDN ,很像是刷流量的
    ysicing
        9
    ysicing  
       50 天前
    @Shatyuka 这时候他们就会装死😂。

    字节的 bot 也是,完全不遵循 robots.txt
    cnrting
        10
    cnrting  
       50 天前
    难道你还指望人家付费爬吗
    12tall
        11
    12tall  
       49 天前
    EndlessMemory
        12
    EndlessMemory  
       49 天前
    直接上 cf 比较简单吧
    tencentcloud
        13
    tencentcloud  
       49 天前
    您好,已关注到您的反馈,关于您列举的这些 IP 信息,我们已按相关举报处理流程对使用方进行了转达通知,可关注后续访问情况;同时建议您使用相关安全产品或安全软件对可疑 IP 或 IP 段进行访问限制处理。若后续还有相关异常网络访问行为可通过腾讯云举报平台提单反馈,我们协助您评估处理,感谢您的支持和理解。
    peterjxl
        14
    peterjxl  
    OP
       49 天前
    @12tall 我查了下,Zip 炸弹的话效果有限,其实可以通过文件头信息判断大小的
    moyaya
        15
    moyaya  
       49 天前
    从去年就开始了,各种 AI 爬虫屡禁不止。
    peterjxl
        16
    peterjxl  
    OP
       49 天前
    @tencentcloud 好的,今天的话这些 IP 消停了点,谢谢。
    s1n1an
        17
    s1n1an  
       49 天前
    估计是爬虫,我去年就遇到了,47.128.xx.xx 的 IP 段一个劲抓取我博客页面,后来遇到阿里云的,UCloud 的,每次我都去手动屏蔽,然后去填单子举报。
    上 CF 会影响国内访问的体验,非必要还是不太推荐的。
    peterjxl
        18
    peterjxl  
    OP
       49 天前
    @s1n1an 嗯,目前的话消停了,果然还是得靠举报
    aladd
        19
    aladd  
       49 天前
    我一般都是 https://bgp.he.net/ip/175.24.248.4 查询后封整段。
    liuhai233
        20
    liuhai233  
       48 天前
    对我自己的博客场景来说
    1. 博客不需要 cdn 吧
    2. 其实大部分博客都可以用静态站点,托管在 cf ,Vercel ,GitHub Pages 是不是就可以了
    peterjxl
        21
    peterjxl  
    OP
       48 天前   ❤️ 1
    @liuhai233

    1. 不上 CDN 速度会很慢,我都是免费 + 收费 CDN 混合着用
    2. 确实挂在那些上面会方便点,而且省去了服务器的费用,就是我之前续费服务器比较久,到期后看看迁过去
    cozof
        22
    cozof  
       46 天前
    也有这个问题,最近看日志一大堆腾讯云的,今天看还是频繁爬取没有消停,这些爬虫吧也不知道干嘛的,UserAgent 也没有,host 也查不到。
    比如
    host 175.24.248.37
    Host 37.248.24.175.in-addr.arpa. not found: 3(NXDOMAIN)

    nginx 直接整段 deny 了。
    deny 175.24.248.0/24;
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   904 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 21:29 · PVG 05:29 · LAX 14:29 · JFK 17:29
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.