首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  程序员

独立博客被各种聚合网站爬,好心累。

  •  
  •   gzdaijie · 52 天前 · 13159 次点击
    这是一个创建于 52 天前的主题,其中的信息可能已经有所发展或是发生改变。

    博客没权重,本来都放弃治疗了,今年 6 月份一个同事提起我原来的博客,心有不甘,又开始操作了。

    删了 20+原来辛辛苦苦敲出来的文章,因为已经被 CSDN 等各种网站转载得面目全非了,谷歌搜索在一万页以后了。原来没经验,第一时间将网址分享到头条、掘金,segmentfault 等地方,完全没想到,这些网站都是全文爬取的。这些站推到首页后,更多的站也转了,然后,权重拼不过,反而是我被认定为抄袭了。

    百度就不说了,前 10 页,不是 CSDN 就是 cnblogs,小站基本不收录,也没索引。

    最近又写几篇,想安安静静地把两年前没写完的主题继续完成,也不往外分享链接了。10 篇文章左右,声明了禁止转载,平均每天 2、3 百流量,有一天到了 800,算是有点安慰,还有人看。

    但是,但是,但是。

    最近 2 周疯狂被各种聚合站爬,包括码农网、数据之路,闪念基因,等等。。。

    甚至 bigdataway 经常在我发表文章后 10 分钟 就爬走了 !!!而且指向我站点的链接全删,谷歌搜索关键字,聚合站居然还排在第一页第一个,心好累。有几个网站还算有点良心,联系了后删了文。也有不理我的,还有不留联系方式的。

    无奈,只能通过 Google Spam Report 举报这种无良转载,连续举报了一周,关键字搜索,有几篇又慢慢回到了谷歌首页。但是有些 10 分钟就爬走的,真心很难举报。与各个技术站长共勉吧。

    如果后期维权有成果,搜索流量、阅读量等上来了,到时候写一篇 “维权之路” 吧。先立一个 flag,估计撑不到那个时候,就心累得永远放弃了。

    https://geektutu.com

    第 1 条附言  ·  49 天前
    主题 Github 地址: [geektutu 极速加载的 hexo 主题]( https://github.com/geektutu/hexo-theme-geektutu)
    156 回复  |  直到 2019-07-02 11:39:18 +08:00
    1  2  
        101
    1981   51 天前
    想打赏,但是图片不显示....
        102
    1981   51 天前
    另外评论模块我
    Google Chrome 已是最新版本
    版本 75.0.3770.100 (正式版本) ( 64 位)
    点击无效,,头大
        103
    gzdaijie   51 天前
    @1981 #102 我的浏览器也是 75.0.3770.100 (正式版本)( 64 位),估计是网络问题,有东西没加载完,你可以微信扫一扫,在微信里试一试?微信里能评论,长按二维码能打赏。兼容性的问题,当时考虑了 IE11, Chrome,Safari 和 Firefox。
        104
    gzdaijie   51 天前
    @GTim #99 哈哈,我原来也不写心得,现在也开始写感悟了,博客折腾记。有时觉得比技术文章更有价值,总结后自己也学到了不少。
        105
    mfu   51 天前
    被采说明干货多质量高啊,挺不错的。像我的博客,全是湿货水货,每天访问量:0。:(
        106
    RadishWind   51 天前
    我一般在 github 的 issue 里面写 blog 还不错 没人爬 就自己和 g 友看
        107
    gzdaijie   51 天前
    @RadishWind #106 其实满建议用 github 的 pages 的,issue 搜索不够友好,然后展示也受限。随便找个 静态框架,markdown 扔进去,一把生成了往主干一推了事~
        108
    gzdaijie   51 天前   ♥ 1
    @mfu #105 我觉得你的博客也蛮有意思的~ 我觉得只要是原创的,肯定能吸引兴趣相似的人来看,至少真实呀,背后是一个真实在思考问题,在做总结的人。
        109
    1981   51 天前
    @gzdaijie ae01.alicdn.com/kf/HTB1d.7leCSD3KVjSZFK76210VXaG.png
    f*q 出去了还是不行,可以试试把图片托管到第三方,,GitHub 我这里 10kb 的加载速度 着实让人着急
        110
    storypanda   51 天前 via Android
    这么看幸好我的博客很乱,生活日记、设计分享、技术笔记等,我都不关心是否有人转载..
        111
    JamesMackerel   50 天前 via iPhone
    照这个思路,是不是也可以举报一把那些机翻 stackoverflow 的网站。
        112
    BFDZ   50 天前
    如果你博客在国外的话,可以时不时写些违禁内容,盗版、擦边色情、非法信息,他们采集了然后就去工信部举报
        113
    opengps   50 天前
    @BFDZ 666
        114
    RiESA   50 天前
    这边负责的网站也时常被这种聚合网站爬,而且爬过去的内容各种水印乱加,这倒是其次,我心疼 https 请求数钱
        115
    t2win   50 天前
    支持原创!
    大神们加油!
    有您们付出世界才会文明起来😉
    那怕一丁点~
    但一人一丁点就是大海了

    祈祷 DDT 的出现🛐
        116
    exceloo   50 天前
    都是干货啊, 楼主不考虑搞个公众号嘛
        117
    liuzhiyong   50 天前 via Android
    @BFDZ 这个办法不错,哈哈。
        118
    LZSZ   50 天前
    @gzdaijie 快版权维权服务你了解一下看看,我今天浏览网页的时候发现别人文章最后有这么一段话:“本文章作者已签约快版权维权服务,转载请经过授权,侵权必究。”。
        119
    jorneyr   50 天前   ♥ 1
    有点矫情了,总共才 14 篇文章呢,不过大家现在知道你的博客了,推广效果不错。
        120
    rudyyuan   50 天前 via Android
    怕被爬,还在各种网站上留自己的博客鸭,这是…
        121
    skiy   50 天前 via Android
    @gzdaijie 加 google map
        122
    gzdaijie   50 天前
    @jorneyr #119 我说了,我写了两年了,之前被爬走几十篇全删了,这个月又才写了几篇。大家探讨,可以少走弯路。比如反爬,水印,sitemap,spam report,全文爬的头条平台,等等。两年前知道这些,也不至于现在才从头开始摸索。我分享了我的经历,大家能够从中看到自己能用上的方法,目的就达到了。
        123
    gzdaijie   50 天前
    @rudyyuan #120 觉得爬不好针对的是采集的人,留自己的博客是给觉得文章有用的人看,我觉得没什么矛盾的。

    谴责、沟通、举报,我没有说半个怕字,我说的是我维权的经历和效果,大家觉得对自己建站有用,那就可以用。而且大部分评论都分享了很多自己的方法。这个帖子收藏量是评论量的 5 倍左右,大部分博主是有共鸣的。
        124
    gzdaijie   50 天前
    @RiESA #114 哈哈,心疼请求数钱,估计你的图片和视频比较多,我的基本是文字,对象存储,一个月还花不了几个 G。
        125
    gzdaijie   50 天前
    @JamesMackerel #111 允许翻译的内容,怎么翻译都是不侵权的。主要是机翻的内容,还被各种采集,就蛋疼了。真正好好翻译的内容,估计就沉了。机翻数量大,也成体系。
        126
    gzdaijie   50 天前
    @exceloo #116 感谢你的认可~ 暂时就不分心了。先琢磨着怎么把原创内容搞起来,让谷歌对我友好一点。
        127
    gzdaijie   50 天前
    @LZSZ #118 我注册了,杭州的一家公司提供的服务,不过用不用再考察下,因为被爬对利益倒是没啥损失,主要是心累。推荐给全职写文的童鞋试一试~
        128
    gzdaijie   50 天前
    @skiy #121 你说的应该是 sitemap 吧,我现在发了后,第一时间到 Google Search Console 刷新,有一次十分钟就被爬了,冒了点冷汗。
        129
    gzdaijie   50 天前
    @1981 #109,谢谢你的建议,刚刚花时间优化了这一部分,二维码不放图片了,传入链接动态生成。这样一个页面又少了 40Kb 的大小。Git 评论 js 插件,放到七牛云上去了,原来 unpkg 确实慢了点,不过评论调用 Github 的接口,这个速度不太可控,偶尔快,偶尔慢的,自己电脑也是。
        130
    JamesMackerel   50 天前
    @gzdaijie 主要是这些网站机翻的质量实在太差,我还不如读英语,而且最蠢的是他机翻之后还不给原文的链接。我感觉非常的难受。
        131
    zkqiang   50 天前
    他们这些聚合网站都是一些通用爬虫,你多做一些反爬和 Ajax 就可以恶心死他们
        132
    ggicci   50 天前
    robots.txt 管用不。。。
        133
    HangoX   50 天前
    @BFDZ 你这个操作很骚
        134
    HangoX   50 天前
    我现在搜索都是加上-csdn 的,不然东西没法看
        135
    ylsc633   50 天前
    可以用 js 渲染的前端页面!

    这样 不过 国内搜索引擎可能收录不到!

    不过不影响谷歌等收录!
        136
    myhot21   50 天前
    网上有原创内容版权交易平台,找一下他们,看下能不能帮忙维权。
        137
    gzdaijie   50 天前
    @ggicci #132 robots.txt 是爬虫的君子协定,约束搜索引擎的行为的。爬虫站长不会管这些的。
        138
    gzdaijie   50 天前
    @ylsc633 #135 嗯,这个暂时是谷歌的私有协议,还没被广泛使用,估计也没有直接渲染的效果好。不然大家也不用想尽办法,做 Server Sider Render 了。React/Vue 这些框架对 SSR 都支持得挺好的。
        139
    gzdaijie   50 天前
    @BFDZ #112 我默默背起了社会主义核心价值观。
        140
    gzdaijie   50 天前
    @HangoX #134 我最近发现 bing 也是提交后,也是即时收录的。不过 bing 的份额太小了,估计注册的站长也少。CSDN 实在是没法看了。权重再高,给个五条显示不就好了,非要占据 10 页 10 页 10 页。
        141
    gzdaijie   50 天前
    @myhot21 #136 写博客不指望有啥收益,目前主要是心累,站点之前被谷歌认定为抄袭站了。所以只要保证我的搜索结果在前面,就 OK 了。不过以后写得多了,可以考虑下版权平台,毕竟没有那么多精力天天举报。
        142
    tt67wq   50 天前
    我的垃圾博客都没人爬
        143
    kokdemo   50 天前
    申请加你友链了
        144
    Youngxj   50 天前
    我的辣鸡博客被某些教学网盗版的干干净净的
        145
    ylsc633   50 天前
    我有突然想到一条, 可以试试 针对爬虫,走正常渲染页面! 如果普通用户进来, 加个密码访问,密码就放在页面!

    除非这些乱爬的网站是人工的,不然我感觉应该没有这么智能吧!

    虽然有点复杂!

    这样别人一样能搜索到,就是访问的时候 需要填个密码而已!
        146
    ggicci   50 天前
    @gzdaijie 主要还是版权维护不够狠,作恶成本低,我从来不看中文博客就是从 csdn 这种垃圾平台开始的。
        147
    gzdaijie   50 天前
    @tt67wq #142 你写的文章也蛮多的,github issue 的方式天生反爬虫了。整理成一篇文章,多蛋疼。
        148
    gzdaijie   50 天前
    @kokdemo #143,好哒,看到了,晚上回家链上,到时给你回复~
        149
    gzdaijie   50 天前
    @Youngxj #144 看了你的站点,大佬谦虚了,质量都很高,肯定投入了很大精力的。
        150
    gzdaijie   50 天前
    @ylsc633 #145,这个自损 800 了,这个月迁移到静态博客+对象存储了,原来折腾服务器,维护起来太累,所以后端能做的比较少。
        151
    rudyyuan   49 天前 via Android
    @gzdaijie 我的博客快七年了,早就被抄袭得不成样子了,理解你的感受的
        152
    gzdaijie   49 天前
    @rudyyuan #151 看到了你一直维护的网站,佩服你的坚持。另外,vimjc 这个域名很赞。
        153
    ahaxzh   49 天前
    好奇的问一下:
    1,可否像 BBS 一样加一些隐藏字符呢?就是背景色文字,很多论坛都有这种处理,感觉乱码占了大概 20% - 40%
    2,配图,是否可以设定好不能外链只能本站使用呢?

    以上,突然冒出来的想法,但是我觉得可能都有点洁癖,有这些设置(包括我看到你图片伤的 logo )实在会让自己有点不舒服。
        154
    gzdaijie   49 天前
    @ahaxzh #153 是这样的,加隐藏字符和背景色文字无效的,因为爬取的是 html 内容,样式是可以设定的。如果内容直接乱码的话,技术文章,估计就没法看了。不太好联想。第二个问题,爬虫爬取,连图片都爬的,上载到他自己的服务器了,链接不会指向原站的。

    图片加可见 logo,是最后能看到我域名的地方了。可能我的 logo 位置不太统一,颜色上也比较突兀,下次我会注意一点,尽量风格统一,不影响视觉。

    非常感谢你的提醒了~
        155
    wednesdayco   49 天前
    字体映射了解一下,不用全部映射,只需要做个别字符的映射即可,这样它爬到到东西就是:“王八坨子前端工程师”。实际显示文字:“我是一名前端工程师”
        156
    pflhm2005   49 天前
    我的垃圾博客都有人爬,csdn 的杂种。。。
    1  2  
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   3358 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 26ms · UTC 05:30 · PVG 13:30 · LAX 22:30 · JFK 01:30
    ♥ Do have faith in what you're doing.