V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
jerrry
V2EX  ›  问与答

爬 gov cn 网站上的公开数据然后交给大模型向量化处理,是否有风险

  •  
  •   jerrry · 157 天前 · 2998 次点击
    这是一个创建于 157 天前的主题,其中的信息可能已经有所发展或是发生改变。

    个人感觉有两个风险

    • 第一个是爬虫 gov cn 网站本身就有风险
    • 第二个是爬到的数据交给大模型处理会有数据泄漏的风险(虽然都是公开的数据),特别是如果使用的是境外的大模型接口

    所以有点犹豫。如果只是参与这个项目的其他部分,不涉及爬虫这块,是否有风险呢?

    29 条回复
    povsister
        1
    povsister  
       157 天前   ❤️ 3
    你这个想法很刑,还主动传出境外,那还能更刑
    wbrobot
        2
    wbrobot  
       157 天前   ❤️ 1
    直接说结果:无期
    ospider
        3
    ospider  
       157 天前   ❤️ 1
    刑与不刑,即和法律没有关系,也和爬虫没有关系。人在境内,最安全的就是搞国外的数据;想搞国内的数据,最安全的方法就是肉身润。

    理论上来说,公开的数据当然随便爬了,但是至于实际执行,懂的都懂吧。就技术角度而言,你用国外的服务器爬,其实也很难追溯,但是技术总是有漏洞,代码总是有 bug 的,也说不准。

    实际情况来说,如果是你自己爬了少量数据用,放心搞就好了,没人 care 。真正会被盯上,一定是经济或者政治上产生了一定的影响,比如承德的程序员。
    1145148964
        4
    1145148964  
       157 天前
    其实很多网站在境外打不开的。或者网速奇慢无比。墙是双向的。
    yyzh
        5
    yyzh  
       157 天前 via Android
    深圳的话这里有不用爬
    https://opendata.sz.gov.cn/
    另外爬虫是犯法的
    wonderfulcxm
        6
    wonderfulcxm  
       157 天前 via iPhone
    不被发现就没有问题
    jerrry
        7
    jerrry  
    OP
       157 天前
    @ospider 是一个兼职项目,所以我在想有没有必要承担风险
    duanxianze
        8
    duanxianze  
       157 天前
    这东西抓不住你就没事,抓住了你必进去
    AnonymousUser
        9
    AnonymousUser  
       157 天前
    第一点,数据类型和量级吧。你要是爬一些统计数据,比如财政、产业数据应该还好。如果是法院判例、税务之类可能敏感点?因为涉及到具体个人/公司。
    第二点,太敏感了,建议好好考量风险和收益
    signin
        10
    signin  
       157 天前   ❤️ 1
    公开数据,随便拿,不要听楼上胡说,但要把握一个度,就是尽量不要把网站爬挂了
    Features
        11
    Features  
       157 天前
    就怕是披着羊皮的狼
    表面包装成大模型,实则是间谍项目。。。
    ivvei
        12
    ivvei  
       157 天前
    有的是汇总了公开数据被当间谍处理的。
    YDCHYD
        13
    YDCHYD  
       157 天前 via iPhone
    只要你肉身在国内,哪天被地方网警翻到这个帖子,你就是业绩。
    国内即便是公开的数据也不允许合订本出现,更遑论你爬数据给境外。
    jerrry
        14
    jerrry  
    OP
       157 天前
    谢谢大家,看来感觉还是有风险的
    nx6Ta67v2A43frV2
        15
    nx6Ta67v2A43frV2  
       157 天前
    ZF 网站一般会脆弱,访问量稍大就会挂。
    如果爬的过程中挂了,可能会导致蹲苦窑。

    国内有先例,有公司爬深圳的 ZW 网站上的公开数据。
    但是程序写有 bug ,出现死循环,导致以近 100qps 的频率访问这网站。
    最终把网站打挂了,事情发生在周末,无人恢复,网站挂了一整个周末。
    引起了很多市民的投诉,最终,技术总监和程序员都进去了。
    27
        16
    27  
       157 天前
    xie8fei
        17
    xie8fei  
       157 天前
    事小罪大
    且不说盈利多少,行为犯没收益都会可能判。
    当然也可以赌,赌输了就刑事
    amon
        18
    amon  
       157 天前
    咨询律师,不管是全职还是兼职,有些底线不要碰。

    我真的见过写程序(灰产)进去的,关到过年才放出来。
    aminobody
        19
    aminobody  
       157 天前
    @yyzh #5 403 403 Forbidden
    Request forbidden by administrative rules.
    yyzh
        20
    yyzh  
       157 天前 via Android
    @aminobody 你在外国?
    belin520
        21
    belin520  
       157 天前
    @yyzh #5 我靠,深圳真的是太太太太先进了。。。
    sneezry
        22
    sneezry  
       157 天前
    政府的东西别碰
    yangliudi123
        23
    yangliudi123  
       156 天前 via iPhone
    还记得宋朝的莫须有吗,也许有吧
    wbrobot
        24
    wbrobot  
       156 天前
    @signin 公开数据你也不能拿,比如公安的治安处罚信息,是拒绝转载的,阅读过网站说明吗?
    不是你能看到的数据就可以随便抓的,最简单的判断标准,.gov.cn 的,略过。
    dingyaguang117
        25
    dingyaguang117  
       156 天前 via iPhone
    生在中国 龙非盘着 虎非缩着, 何况你是个程序员 P 民
    yvkino
        26
    yvkino  
       156 天前
    这还用想,不抓别人不代表不抓你
    hahasong
        27
    hahasong  
       156 天前
    破坏计算机系统罪 一抓一个准
    EndlessMemory
        28
    EndlessMemory  
       156 天前
    爬虫抓进去的不少,关键就在于又没有人找你
    abersheeran
        29
    abersheeran  
       156 天前
    有价值,那就可以,比如企查查之类的,工信部挂了号的,数据随便他抓。做着玩,别把人打崩了也可以。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2582 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 11:19 · PVG 19:19 · LAX 03:19 · JFK 06:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.