1
falsemask 16 小时 31 分钟前
调对方接口,一次性拿了几百万条数据,把对方内存打爆了。不过我觉得责任不在我,对方没有评估数据量。
|
2
chen11 16 小时 26 分钟前
现网操作数据库,我把表的数据给删了
|
3
tf2 16 小时 25 分钟前 发帖没正文算不算 重大线上事故
|
4
tina2998 16 小时 5 分钟前 via iPhone
一般都在数据库上
|
5
ycao24813 15 小时 55 分钟前
发通知消息,判断没做好,重复循环发了十多条给用户
|
6
rocmax 15 小时 51 分钟前 via Android
前前司离职最后一天,一个销售来说要改单子的负责人,需要操作生产环境数据库(我知道不对,小公司这是常规操作)。我的 sql 里少写了个 where 条件差点把上万个单子的负责人都改成同一个人。sql 跑了几秒钟没结束,果断 ctrl+c 救回来了。虽然不是啥大事故,但是如果离职之前出事就非常尴尬。
|
7
ChovyChu 15 小时 48 分钟前
挖矿发币,由于 xrp 协议上有小数和没小数的单位不一样,导致发多了,好像是 10000 倍
|
8
junkk 15 小时 47 分钟前 幂等颗粒度不够细,本来也没啥事的,碰上了几个巧合撞在一起。导致奖励重复发放,一晚上发了几百万出去
还好之前这部分其他同事也动过,他又正巧被裁了,就把锅给他背了 |
9
Flowing 15 小时 44 分钟前 身上最大的事故就是甲状腺结节
|
10
zgsi 15 小时 44 分钟前
项目上线当天收款金额少了 50,然后中午没吃饭写了补缴功能,2 天内补齐了
|
11
evan1 PRO 项目上线后做生产环境验证,验证后忘记删数据了,后面运行了一小段时间才发现,然后让我删数据。
删数据的时候忘记加 where 条件了,把全部数据都删除了。 当时发现这个问题的一瞬间真的感觉后背到后脑勺凉了一下。后面我花了一个晚上把所有数据恢复了。 |
12
yiiouo 15 小时 40 分钟前
前同事,同步用户信息的时候,将公司 500 多个人搞成离职,包含了多位领导。
|
13
300 15 小时 35 分钟前
公司代码混乱,本地测试必须注释一大堆代码
好几次没注意提交了一些测试代码,导致服务器有挂一小时的,有挂一夜的,有挂三天的。。 不过我觉得责任不在我,所有人都出过这个问题,老板自己不上测试服,也不给数据库之类的接口,导致本地只能删代码来启动 另外挂三天也是小事,过年设备故障挂了一星期+ 他自己也不知道。用户不知道跑多少了 |
14
GlobalNPC 15 小时 26 分钟前
线上排查问题,把 redis 的公共前缀给改了,DB 直接被打爆,业务中断了两小时四十五分钟。
|
15
XuHuan1025 15 小时 23 分钟前 |
16
668866 15 小时 21 分钟前
rm -rf *
|
18
lyxxxh2 15 小时 16 分钟前
刚毕业的时候做的多店铺活动,很简单,单纯付款记录。
我分库了,然后技术又差。 给客户设置 cookie,代表那个店铺。 微信支付,没有 cookie,找了好久的 bug 。 最后... 傻傻的手写原生 sql 修复。 还有其他的... 三头两天的出 bug,项目被我搞废了,客户不愿意用了。 |
19
vegeta2ex 15 小时 11 分钟前
楼上有些看到都觉得恐怖
|
20
swananan 15 小时 10 分钟前
我好多年前的一个内存写飞(这是我现在喜欢 rust 的原因),当时后果蛮严重,上了微博热搜
|
21
kevan 15 小时 9 分钟前
rm /*
|
22
hitrip 15 小时 8 分钟前
企业大数据应用,预聚合把一个 org 的数据算到别的 org 去了。
|
23
pigspy 15 小时 5 分钟前 via Android
- rabbitmq 要删除队列,给运维的操作单里面写错了队列,所有设备上线的消息都漏掉了,还好是周末,影响不大
- kafka 的消息序列化器 |
25
wu67 14 小时 56 分钟前
通知推送没有测试环境, 也没有文档和提醒, 然后给全网正式用户推送 test test test...
|
26
villivateur 14 小时 46 分钟前
昨天帮老婆解压一个 7z 压缩包,我直接在命令行解压的,狗日的 7z 命令行工具,为什么 7z d 是删除压缩包,还没有二次确认!把老婆 80 个 G 的备份给删了。
明明 gzip -d 是解压的啊,我脑子坏了…… |
28
coldmonkeybit 14 小时 40 分钟前
对接一个硬件项目,代码问题导致设备在客户测试现场坏掉了
|
29
murmur 14 小时 40 分钟前 楼主为什么不先分享,这是钓鱼整理好自己当自媒体发独食么
|
30
iOCZS 14 小时 34 分钟前
因为少传了一个参数,导致老板找投资人演示的时候,功能异常,被投资人说“你的想法不错,可是叫我怎么信任你们的技术”(老板口头转述)。
|
31
loryyang 14 小时 29 分钟前
我好像只有实习的时候,把 db 的数据全部回滚了一次。我觉得我是个杀伐果断的人,看到不顺眼的都直接删,很幸运一直没出过啥大事
我印象最深刻的还是我之前一同事,把 hdfs 的数据直接从我们项目的根目录 delete ,删了 2 个 p 的数据。当时还很早,hdfs 能力不完善,内部搞了个垃圾回收,2 个 P 直接塞爆了垃圾箱,就被自动清理了。晚上直接拉起了几十号人进行数据恢复 |
32
youknowsomething 14 小时 22 分钟前
|
33
eijuziew 14 小时 20 分钟前
忘记取消注释测试代码,大奖被多抽出去十几个,损失几万块
|
35
pyyalt 14 小时 9 分钟前
添加服务器上访问人员时候,禁用了 root 用户。导致所有人都登录不上了。后来服务器直接还原了。。。。
|
36
frankilla 13 小时 50 分钟前
评论有些说是数据库要么删了要么就是多条目错误变更,想问你们的是操作之前不备份的吗?数据库备份是麻烦还是时间太长?如果操作前备份一下是不是应该没什么担心的?(外行问)
|
37
lg487 13 小时 40 分钟前
前前司,一个给客户分账功能,我这边是调支付模块的分账接口,然后接口一直给我返回分账失败,但是实际他那边是分账成功了的,我这边又做了重试机制,然后一笔账分了 15 次,后面把公司那个账户的钱都分完了,不过我觉得责任不在我,明明分账成功,他那边给我回复失败,导致我这边一直以为分账失败走重新分账逻辑。
|
38
javalaw2010 13 小时 36 分钟前
定时任务发积分,运维没跟我讲每个机器上都在跑定时任务,导致发了两倍的积分
|
39
TheGreatSage 13 小时 32 分钟前
涉密电脑接了非密的外设,这个算嘛
|
40
wxm 13 小时 30 分钟前
不是我 旁边组重复出款 1300 万最后只追回 700w
|
41
helloworldgo 13 小时 27 分钟前
drop 掉了系统的用户表,1 分钟之后发现了,搞回来了
|
42
JiZhiDeboy 13 小时 27 分钟前
@wxm 只追回 700w 为啥?
|
43
zhangyoucaiyo 13 小时 24 分钟前
商场收银系统允许部分商户收现金入账,有个憨憨店员把顾客手机号输成金额了,没做金额校验限制,当天全店营收十几个亿。晚上十一点还自动化当日报表推送给了 boss 。
|
44
skyflower 13 小时 20 分钟前
之前在安全公司上班,本来发拦截特定流满软件的规则,结果发成了拦截*.exe 的程序,还是直接发的全网,发完我就去吃饭去了。
还好后台有防误报程序,很快这个规则就被防误报拦截,强制转人工二次审核。 吃完饭回来,我默默修改了规则,然后重新发了出去(至今无人发现) |
45
duanxianze 13 小时 12 分钟前
某次都下班到家了突然找我改需求,没办法在家搞了,但是忘记上传 git 了,第二天发版发的还是旧版本
|
46
TAFMT 13 小时 0 分钟前 via Android
if else 搞错了,导致奖品没有库存校验了
超发几千上万单 |
47
TimG 12 小时 53 分钟前 via Android
在生产库批量补数据,写了个 py 脚本,写的时候习惯性以为是本地库优化速度 commit 写循环外面了,一下更新了半张表把业务库跑死锁了。运维紧急重启,结果赶上系统盘本来就快满了,直接被这次日志填满,机器起不来了。最后重装了系统盘。数据没丢,但是业务停了 3 小时。
|
48
fan123199 12 小时 47 分钟前
发了一个 app ,只要是更新安装的 100% crash 。
|
49
xiebaota 12 小时 33 分钟前
21 年,小程序,依赖微信云开发的服务,因为
1.他们套餐变更没通知; 2. 加上某天活动冲量,瞬时流量打爆。 3.接入方案失败重试滚雪球导致雪崩。 结果:午高峰崩了 1 小时,损失 1kw ,直接 P0 。庆幸三方有锅,不然就祭天了。 |
50
karmaisbitch 12 小时 24 分钟前
给省局 xx 科的甲方 发了 1600 条短信
|
51
edisonwong 12 小时 17 分钟前
在前司,用 python 调 shell 重启 xx-* 机器,一个 list[str] 传成 str ,然后就把测试环境所有机器都同时重启了,还好不是线上
|
52
duhbbx1119 12 小时 12 分钟前
@Smileh 没毛病啊,自己的接口自己负责,只要能调通就要做判断;玩一个给个 getById 只传 id 字段,结果返回 100w 条数据,你说这算谁的?
![]() |
53
duhbbx1119 12 小时 12 分钟前
我把技术支持配了两天的库给删了
|
54
duhbbx1119 12 小时 11 分钟前
@zhangyoucaiyo boss 高兴坏了吧
|
55
lpe234 12 小时 9 分钟前
推广短信,本地多线程发送,忘记加" [] "
|
57
Ansen 12 小时 2 分钟前
手滑把线上游戏全关了。。
|
58
loopinfor 11 小时 59 分钟前
不算线上事故,但是 Excel 公式计算时漏检查某两列的一致性,导致重大活动对外发布的数据跟真实情况不一致。后来受影响的用户发现之后紧急撤回,修正后重新发布。
|
59
qwerthhusn 11 小时 45 分钟前
我是做工业上位机控制的,写出个 BUG ,直接把生产机器给撞坏了,宕机好几个小时
客户是按分钟罚钱的。具体罚多少,商务讨价还价谈下多少就不知道了 |
61
micolore 11 小时 8 分钟前
8 年前吧,有个打款逻辑的问题,多发了不少钱给阿三。
|
63
simo 10 小时 39 分钟前
08 年左右,把一天内所有商家传的库存全给删了,不记得具体量了,应该是不到 100 家,不到 100w 条的库存数据。
然后挨个打电话,要库存,恢复数据,不知道弄了多少天,反正差点累死。 |
64
xubeiyou 10 小时 33 分钟前
刚出社会删过生产环境数据库
|
65
dode 10 小时 29 分钟前
改进一个老函数,nodejs 0.xx ,处理 IP 地址时有 bug ,特定 IP 结果不正确。
|
66
macscsbf 9 小时 56 分钟前
还真没有
|
67
DayDayUpDreamer 9 小时 52 分钟前
实习的时候,直接操作线上数据库,select * from table; 直接把数据库干死机了,直接 P0.
|
68
SoulSleep 8 小时 39 分钟前
重复结算,最后损失 2 个亿
|
70
zhoudaiyu PRO crontab -e 想改定时任务,敲成了-r ,crontab 真是逆天的设计,键盘 ER 连着的
|
72
catazshadow 7 小时 36 分钟前 via Android
都应该反思以上事故如果没有 996 是不是能避免
|
73
fromMars1130 OP @SoulSleep 厉害了,想听最终结果
|
74
mrochcnnnnn 7 小时 8 分钟前
支付,一个亿退款卡了三天
|
75
RedisMasterNode 7 小时 5 分钟前
哎 头大 还是经典的 DELETE 忘记加 WHERE 还是 LIMIT 不记得是哪个了 orz
|
76
nickxudotme 5 小时 26 分钟前
@evan1 我实习时 mentor 让我写 SQL 先写 where 条件
![]() |
77
kkwa56188 1 小时 58 分钟前
每一次这种生产上的篓子, 背后都有各种论坛里的大聪明洋洋得意的说, 世界果然是个大草台班子
|