V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
fromMars1130
1D

分享一下自己身上出现过哪些重大线上事故

  •  3
     
  •   fromMars1130 · 16 小时 40 分钟前 · 4241 次点击
    78 条回复    2026-04-17 07:05:24 +08:00
    falsemask
        1
    falsemask  
       16 小时 31 分钟前
    调对方接口,一次性拿了几百万条数据,把对方内存打爆了。不过我觉得责任不在我,对方没有评估数据量。
    chen11
        2
    chen11  
       16 小时 26 分钟前
    现网操作数据库,我把表的数据给删了
    tf2
        3
    tf2  
       16 小时 25 分钟前   ❤️ 13
    发帖没正文算不算 重大线上事故
    tina2998
        4
    tina2998  
       16 小时 5 分钟前 via iPhone
    一般都在数据库上
    ycao24813
        5
    ycao24813  
       15 小时 55 分钟前
    发通知消息,判断没做好,重复循环发了十多条给用户
    rocmax
        6
    rocmax  
       15 小时 51 分钟前 via Android
    前前司离职最后一天,一个销售来说要改单子的负责人,需要操作生产环境数据库(我知道不对,小公司这是常规操作)。我的 sql 里少写了个 where 条件差点把上万个单子的负责人都改成同一个人。sql 跑了几秒钟没结束,果断 ctrl+c 救回来了。虽然不是啥大事故,但是如果离职之前出事就非常尴尬。
    ChovyChu
        7
    ChovyChu  
       15 小时 48 分钟前
    挖矿发币,由于 xrp 协议上有小数和没小数的单位不一样,导致发多了,好像是 10000 倍
    junkk
        8
    junkk  
       15 小时 47 分钟前   ❤️ 3
    幂等颗粒度不够细,本来也没啥事的,碰上了几个巧合撞在一起。导致奖励重复发放,一晚上发了几百万出去

    还好之前这部分其他同事也动过,他又正巧被裁了,就把锅给他背了
    Flowing
        9
    Flowing  
       15 小时 44 分钟前   ❤️ 1
    身上最大的事故就是甲状腺结节
    zgsi
        10
    zgsi  
       15 小时 44 分钟前
    项目上线当天收款金额少了 50,然后中午没吃饭写了补缴功能,2 天内补齐了
    evan1
        11
    evan1  
    PRO
       15 小时 42 分钟前
    项目上线后做生产环境验证,验证后忘记删数据了,后面运行了一小段时间才发现,然后让我删数据。

    删数据的时候忘记加 where 条件了,把全部数据都删除了。

    当时发现这个问题的一瞬间真的感觉后背到后脑勺凉了一下。后面我花了一个晚上把所有数据恢复了。
    yiiouo
        12
    yiiouo  
       15 小时 40 分钟前
    前同事,同步用户信息的时候,将公司 500 多个人搞成离职,包含了多位领导。
    300
        13
    300  
       15 小时 35 分钟前
    公司代码混乱,本地测试必须注释一大堆代码

    好几次没注意提交了一些测试代码,导致服务器有挂一小时的,有挂一夜的,有挂三天的。。

    不过我觉得责任不在我,所有人都出过这个问题,老板自己不上测试服,也不给数据库之类的接口,导致本地只能删代码来启动

    另外挂三天也是小事,过年设备故障挂了一星期+ 他自己也不知道。用户不知道跑多少了
    GlobalNPC
        14
    GlobalNPC  
       15 小时 26 分钟前
    线上排查问题,把 redis 的公共前缀给改了,DB 直接被打爆,业务中断了两小时四十五分钟。
    XuHuan1025
        15
    XuHuan1025  
       15 小时 23 分钟前   ❤️ 1
    不是我干的 之前公司有个私募两点四十买了 2288 万基金没买上,发现的时候来不及了 第二天涨了 4.6%
    668866
        16
    668866  
       15 小时 21 分钟前
    rm -rf *
    Satoshl
        17
    Satoshl  
       15 小时 18 分钟前
    @300 什么公司这么松弛
    lyxxxh2
        18
    lyxxxh2  
       15 小时 16 分钟前
    刚毕业的时候做的多店铺活动,很简单,单纯付款记录。
    我分库了,然后技术又差。
    给客户设置 cookie,代表那个店铺。
    微信支付,没有 cookie,找了好久的 bug 。
    最后... 傻傻的手写原生 sql 修复。
    还有其他的...
    三头两天的出 bug,项目被我搞废了,客户不愿意用了。
    vegeta2ex
        19
    vegeta2ex  
       15 小时 11 分钟前
    楼上有些看到都觉得恐怖
    swananan
        20
    swananan  
       15 小时 10 分钟前
    我好多年前的一个内存写飞(这是我现在喜欢 rust 的原因),当时后果蛮严重,上了微博热搜
    kevan
        21
    kevan  
       15 小时 9 分钟前
    rm /*
    hitrip
        22
    hitrip  
       15 小时 8 分钟前
    企业大数据应用,预聚合把一个 org 的数据算到别的 org 去了。
    pigspy
        23
    pigspy  
       15 小时 5 分钟前 via Android
    - rabbitmq 要删除队列,给运维的操作单里面写错了队列,所有设备上线的消息都漏掉了,还好是周末,影响不大
    - kafka 的消息序列化器
    pigspy
        24
    pigspy  
       15 小时 4 分钟前 via Android
    @pigspy kafka 的消息序列化器写错,所有用于审计的消息全部发送失败
    wu67
        25
    wu67  
       14 小时 56 分钟前
    通知推送没有测试环境, 也没有文档和提醒, 然后给全网正式用户推送 test test test...
    villivateur
        26
    villivateur  
       14 小时 46 分钟前
    昨天帮老婆解压一个 7z 压缩包,我直接在命令行解压的,狗日的 7z 命令行工具,为什么 7z d 是删除压缩包,还没有二次确认!把老婆 80 个 G 的备份给删了。
    明明 gzip -d 是解压的啊,我脑子坏了……
    czita
        27
    czita  
       14 小时 44 分钟前
    @kevan #21 +1
    coldmonkeybit
        28
    coldmonkeybit  
       14 小时 40 分钟前
    对接一个硬件项目,代码问题导致设备在客户测试现场坏掉了
    murmur
        29
    murmur  
       14 小时 40 分钟前   ❤️ 1
    楼主为什么不先分享,这是钓鱼整理好自己当自媒体发独食么
    iOCZS
        30
    iOCZS  
       14 小时 34 分钟前
    因为少传了一个参数,导致老板找投资人演示的时候,功能异常,被投资人说“你的想法不错,可是叫我怎么信任你们的技术”(老板口头转述)。
    loryyang
        31
    loryyang  
       14 小时 29 分钟前
    我好像只有实习的时候,把 db 的数据全部回滚了一次。我觉得我是个杀伐果断的人,看到不顺眼的都直接删,很幸运一直没出过啥大事
    我印象最深刻的还是我之前一同事,把 hdfs 的数据直接从我们项目的根目录 delete ,删了 2 个 p 的数据。当时还很早,hdfs 能力不完善,内部搞了个垃圾回收,2 个 P 直接塞爆了垃圾箱,就被自动清理了。晚上直接拉起了几十号人进行数据恢复
    youknowsomething
        32
    youknowsomething  
       14 小时 22 分钟前
    上传照片没做照片名字的处理,导致很多人上传后名字都一样,根本分不清是谁的
    eijuziew
        33
    eijuziew  
       14 小时 20 分钟前
    忘记取消注释测试代码,大奖被多抽出去十几个,损失几万块
    Smileh
        34
    Smileh  
       14 小时 15 分钟前
    @falsemask #1 莫名想笑
    我没责任 责任都是别人的
    pyyalt
        35
    pyyalt  
       14 小时 9 分钟前
    添加服务器上访问人员时候,禁用了 root 用户。导致所有人都登录不上了。后来服务器直接还原了。。。。
    frankilla
        36
    frankilla  
       13 小时 50 分钟前
    评论有些说是数据库要么删了要么就是多条目错误变更,想问你们的是操作之前不备份的吗?数据库备份是麻烦还是时间太长?如果操作前备份一下是不是应该没什么担心的?(外行问)
    lg487
        37
    lg487  
       13 小时 40 分钟前
    前前司,一个给客户分账功能,我这边是调支付模块的分账接口,然后接口一直给我返回分账失败,但是实际他那边是分账成功了的,我这边又做了重试机制,然后一笔账分了 15 次,后面把公司那个账户的钱都分完了,不过我觉得责任不在我,明明分账成功,他那边给我回复失败,导致我这边一直以为分账失败走重新分账逻辑。
    javalaw2010
        38
    javalaw2010  
       13 小时 36 分钟前
    定时任务发积分,运维没跟我讲每个机器上都在跑定时任务,导致发了两倍的积分
    TheGreatSage
        39
    TheGreatSage  
       13 小时 32 分钟前
    涉密电脑接了非密的外设,这个算嘛
    wxm
        40
    wxm  
       13 小时 30 分钟前
    不是我 旁边组重复出款 1300 万最后只追回 700w
    helloworldgo
        41
    helloworldgo  
       13 小时 27 分钟前
    drop 掉了系统的用户表,1 分钟之后发现了,搞回来了
    JiZhiDeboy
        42
    JiZhiDeboy  
       13 小时 27 分钟前
    @wxm 只追回 700w 为啥?
    zhangyoucaiyo
        43
    zhangyoucaiyo  
       13 小时 24 分钟前
    商场收银系统允许部分商户收现金入账,有个憨憨店员把顾客手机号输成金额了,没做金额校验限制,当天全店营收十几个亿。晚上十一点还自动化当日报表推送给了 boss 。
    skyflower
        44
    skyflower  
       13 小时 20 分钟前
    之前在安全公司上班,本来发拦截特定流满软件的规则,结果发成了拦截*.exe 的程序,还是直接发的全网,发完我就去吃饭去了。

    还好后台有防误报程序,很快这个规则就被防误报拦截,强制转人工二次审核。

    吃完饭回来,我默默修改了规则,然后重新发了出去(至今无人发现)
    duanxianze
        45
    duanxianze  
       13 小时 12 分钟前
    某次都下班到家了突然找我改需求,没办法在家搞了,但是忘记上传 git 了,第二天发版发的还是旧版本
    TAFMT
        46
    TAFMT  
       13 小时 0 分钟前 via Android
    if else 搞错了,导致奖品没有库存校验了

    超发几千上万单
    TimG
        47
    TimG  
       12 小时 53 分钟前 via Android
    在生产库批量补数据,写了个 py 脚本,写的时候习惯性以为是本地库优化速度 commit 写循环外面了,一下更新了半张表把业务库跑死锁了。运维紧急重启,结果赶上系统盘本来就快满了,直接被这次日志填满,机器起不来了。最后重装了系统盘。数据没丢,但是业务停了 3 小时。
    fan123199
        48
    fan123199  
       12 小时 47 分钟前
    发了一个 app ,只要是更新安装的 100% crash 。
    xiebaota
        49
    xiebaota  
       12 小时 33 分钟前
    21 年,小程序,依赖微信云开发的服务,因为
    1.他们套餐变更没通知;
    2. 加上某天活动冲量,瞬时流量打爆。
    3.接入方案失败重试滚雪球导致雪崩。
    结果:午高峰崩了 1 小时,损失 1kw ,直接 P0 。庆幸三方有锅,不然就祭天了。
    karmaisbitch
        50
    karmaisbitch  
       12 小时 24 分钟前
    给省局 xx 科的甲方 发了 1600 条短信
    edisonwong
        51
    edisonwong  
       12 小时 17 分钟前
    在前司,用 python 调 shell 重启 xx-* 机器,一个 list[str] 传成 str ,然后就把测试环境所有机器都同时重启了,还好不是线上
    duhbbx1119
        52
    duhbbx1119  
       12 小时 12 分钟前
    @Smileh 没毛病啊,自己的接口自己负责,只要能调通就要做判断;玩一个给个 getById 只传 id 字段,结果返回 100w 条数据,你说这算谁的?
    duhbbx1119
        53
    duhbbx1119  
       12 小时 12 分钟前
    我把技术支持配了两天的库给删了
    duhbbx1119
        54
    duhbbx1119  
       12 小时 11 分钟前
    @zhangyoucaiyo boss 高兴坏了吧
    lpe234
        55
    lpe234  
       12 小时 9 分钟前
    推广短信,本地多线程发送,忘记加" [] "
    ifoto
        56
    ifoto  
       12 小时 9 分钟前
    @chen11 +1 后面从 binglog 恢复
    Ansen
        57
    Ansen  
       12 小时 2 分钟前
    手滑把线上游戏全关了。。
    loopinfor
        58
    loopinfor  
       11 小时 59 分钟前
    不算线上事故,但是 Excel 公式计算时漏检查某两列的一致性,导致重大活动对外发布的数据跟真实情况不一致。后来受影响的用户发现之后紧急撤回,修正后重新发布。
    qwerthhusn
        59
    qwerthhusn  
       11 小时 45 分钟前
    我是做工业上位机控制的,写出个 BUG ,直接把生产机器给撞坏了,宕机好几个小时
    客户是按分钟罚钱的。具体罚多少,商务讨价还价谈下多少就不知道了
    xFrank
        60
    xFrank  
       11 小时 21 分钟前
    @loryyang 看到“杀伐果断”喷了,哈哈哈
    micolore
        61
    micolore  
       11 小时 8 分钟前
    8 年前吧,有个打款逻辑的问题,多发了不少钱给阿三。
    Rnreck
        62
    Rnreck  
       10 小时 57 分钟前
    @swananan 有点好奇是哪件事
    simo
        63
    simo  
       10 小时 39 分钟前
    08 年左右,把一天内所有商家传的库存全给删了,不记得具体量了,应该是不到 100 家,不到 100w 条的库存数据。
    然后挨个打电话,要库存,恢复数据,不知道弄了多少天,反正差点累死。
    xubeiyou
        64
    xubeiyou  
       10 小时 33 分钟前
    刚出社会删过生产环境数据库
    dode
        65
    dode  
       10 小时 29 分钟前
    改进一个老函数,nodejs 0.xx ,处理 IP 地址时有 bug ,特定 IP 结果不正确。
    macscsbf
        66
    macscsbf  
       9 小时 56 分钟前
    还真没有
    DayDayUpDreamer
        67
    DayDayUpDreamer  
       9 小时 52 分钟前
    实习的时候,直接操作线上数据库,select * from table; 直接把数据库干死机了,直接 P0.
    SoulSleep
        68
    SoulSleep  
       8 小时 39 分钟前
    重复结算,最后损失 2 个亿
    treo
        69
    treo  
       8 小时 33 分钟前
    @SoulSleep 目前为止本贴损失最大的
    zhoudaiyu
        70
    zhoudaiyu  
    PRO
       8 小时 32 分钟前 via iPhone
    crontab -e 想改定时任务,敲成了-r ,crontab 真是逆天的设计,键盘 ER 连着的
    zhoudaiyu
        71
    zhoudaiyu  
    PRO
       8 小时 32 分钟前 via iPhone
    @zhoudaiyu 不过没事,都是没什么卵用的定时任务
    catazshadow
        72
    catazshadow  
       7 小时 36 分钟前 via Android
    都应该反思以上事故如果没有 996 是不是能避免
    fromMars1130
        73
    fromMars1130  
    OP
       7 小时 10 分钟前
    @SoulSleep 厉害了,想听最终结果
    mrochcnnnnn
        74
    mrochcnnnnn  
       7 小时 8 分钟前
    支付,一个亿退款卡了三天
    RedisMasterNode
        75
    RedisMasterNode  
       7 小时 5 分钟前
    哎 头大 还是经典的 DELETE 忘记加 WHERE 还是 LIMIT 不记得是哪个了 orz
    nickxudotme
        76
    nickxudotme  
       5 小时 26 分钟前
    @evan1 我实习时 mentor 让我写 SQL 先写 where 条件
    kkwa56188
        77
    kkwa56188  
       1 小时 58 分钟前
    每一次这种生产上的篓子, 背后都有各种论坛里的大聪明洋洋得意的说, 世界果然是个大草台班子
    ming7435
        78
    ming7435  
       几秒前
    @SoulSleep 不会是友商吧
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1140 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 255ms · UTC 23:06 · PVG 07:06 · LAX 16:06 · JFK 19:06
    ♥ Do have faith in what you're doing.