在 SRE 的世界里,有个概念叫做“事后无过失”( blameless postmortem ),这是一种回顾过去所犯错误的方式,但不会将责任归咎于任何人。在谷歌工作了近 5 年的隐私工程师塔里克·尤素福(Tariq Yusuf)表示:“这是谷歌文化的一个基本组成部分,也是让人能够大胆剖析出问题的能力。但报复消除了能够安全提出问题的核心阻碍,整个过程因此而崩溃。”
———— https://www.cnbeta.com/articles/tech/859031.htm 谷歌"内战":高管要利润,员工要价值观,谁是灵魂?
大部分公司应该都会追责吧 即使没有相关处罚 各种潜在影响(绩效 KPI...)也是避免不了吧 想听听大佬们的意见 也想了解下大厂的处理方式
1
JunoNin 2019-06-20 14:27:01 +08:00 16
没在大厂不好多说,但是我在的公司基本事故之后,第一时间是考虑如何解决问题,而不是考虑如何去处罚
|
2
Raymon111111 2019-06-20 14:27:18 +08:00 1
真正的追责肯定不会, 不小心赔了几百万难道员工出?
绩效不会好那是肯定的 |
4
Sothoth OP 目前的想法是 只有在稳定性 可靠性都做的很好 可以避免大部分人肉操作出问题 即使出了问题也可以很快恢复的情况下 不追责才是有可能的吧
|
5
oneonesv 2019-06-20 14:30:32 +08:00
这应该是默认的规则把,工作过的几家公司都是这样处理的
留下不好印象那肯定会的 |
6
Sothoth OP @Raymon111111 造成经济损失需要员工承担的公司应该还比较少 这里追责主要想说的还是对于工作的影响
|
7
troywinter 2019-06-20 14:33:39 +08:00
不追责,绩效很有可能也不会影响太大,亲身经历,之前一个同事负责优化的服务每周五必宕机,每次几百万的损失,后来人家的绩效比我好,(关系硬)。
|
8
ytpfxnj 2019-06-20 14:39:36 +08:00
不解决问题,只解决发现制度 bug 的人?这种公司吸引不到人才
|
9
ulyssesfeng 2019-06-20 14:41:10 +08:00
有个 bug 上线了灰度,没有经济影响,只有用户体验影响,第一时间解决问题,解决完灰度之后各种批斗大会。。层层批斗,噩梦。。。
|
10
colors 2019-06-20 14:43:55 +08:00
恩, 出了问题肯定第一时间都是先解决问题, 事后会做一个故障报告, 然后给故障定级, 一定程度会影响绩效, 罚款的话好像法律规定最高是月薪的 20%?
|
11
tigerstudent 2019-06-20 14:47:50 +08:00 9
如果有规定公司会分享一定比例的盈利的话,我是可以接受这种生产故障追责的。
|
12
auser 2019-06-20 15:21:54 +08:00 6
通常是
非技术线管理者意见:罚 技术线管理者意见:不罚 剩下就看哪方气场强大了。 |
13
maichael 2019-06-20 15:27:59 +08:00
该解决问题的时候解决问题,但不表示解决完问题就不追责了。
事后该怎么追责还是怎么追责。 |
15
loveour 2019-06-20 15:35:07 +08:00
我觉得得看情况吧。比如说违反规章制度那种的事故,那肯定要追责。如果是技术故障,BUG,那就可能是绩效算一下的问题了。而且,追责也要考虑公平。谷歌的做法是处于自身的考虑,不同的企业肯定会有不同的做法。但是,无脑追责和无脑免责大概率有问题。
|
16
Sornets 2019-06-20 15:36:40 +08:00
通常是
非技术线管理者意见:罚 技术线管理者意见:找个底下人背锅 |
17
Keyes 2019-06-20 15:47:32 +08:00
@ulyssesfeng hhhhh 难道是华为派的
|
18
luckyrayyy 2019-06-20 15:52:36 +08:00
一般事故罚绩效吧,非常严重的会下一年降薪
|
19
wmc18064028066 2019-06-20 16:10:32 +08:00 via Android 1
取决于该员工的价值和公司想不想留住他。
|
20
kaedea 2019-06-20 16:25:25 +08:00 via Android
权力越大,责任越大
|
21
tyrealgray 2019-06-20 16:27:40 +08:00 via Android 2
赚钱的时候老板占大头,亏钱的时候让员工出大头?
|
22
TobiahShaw 2019-06-20 16:31:45 +08:00
我们大学学过,去我们那边厂里(金刚石合成)实际的话,机器放炮,可能造成损失 9000+ * 6,但是只是罚工人 50 的
|
23
hurrytospring 2019-06-20 17:09:18 +08:00
看到过几千万损失的,没有对当事人有特别处罚,对整个部门从上到下有统一处罚。
|
24
Greendays 2019-06-20 17:20:33 +08:00
小问题肯定要追责的吧,大问题追责好像也没啥意义,反正赔不起
|
25
jacketma 2019-06-20 17:24:42 +08:00 via Android
谷歌里的一些员工已经到了科学家的层面,确实是利润之上的精神追求,不为五斗米折腰。
|
26
shfanzie 2019-06-20 17:27:52 +08:00
取决于该员工的价值和公司想不想留住他。
|
27
mooncakejs 2019-06-20 17:35:11 +08:00
追责肯定也不止追责 bug 员工。
每一个参与 review 的员工,直系领导,测试都是有责任的。 |
28
KNOX 2019-06-20 17:46:22 +08:00 via Android
我的理解是生产环境出问题通常是流程出问题,流程没做好就是整个团队的问题,追究个人不能根治问题。
|
29
xiangyuecn 2019-06-20 17:47:18 +08:00
小朋友。你叫什么命子。。。有没有后台。。。good。那这件事情就由你扛下来。好不好😁😁😁
|
30
wenzhoou 2019-06-20 17:58:39 +08:00 via Android
自己公司的追什么责,都是外包给别人的才追责。
公司内部善意的反省和改善可以接受,恶意的责任扩大化不能接受。 都是拿着白面的钱操着白粉的心。 |
31
xpfd 2019-06-20 18:17:00 +08:00
不求无功 但求无过 这样谁还敢干活
|
32
reus 2019-06-20 18:25:13 +08:00 1
你能怎样追责?
罚款是违法的,公司不能克扣员工工资。你可以不计算绩效,可以辞退,但工资是一定要发的。 劳动合同和外包合同是不一样的,外包合同可以约定违约金,双方自愿接受,但劳动合同不能写出 bug 就罚款,这是违法行为。 我看这里法盲不少嘛。 |
33
Flobit 2019-06-20 18:26:18 +08:00 via Android
先解决问题,然后再追责,
|
35
wr410 2019-06-20 18:44:13 +08:00
本周我们的某邮件 [请技术部查明最近两次代码原因导致生产故障的直接责任人,记入本季度考核。]
|
36
pkookp8 2019-06-20 18:45:05 +08:00 via Android
上家沙雕公司就罚我绩效
我从某个组调走。正好那个组发布了个产品,但有个问题。缺人让我 support 一下,我问领导,领导说那边紧急,让我先 support,手上的活可以缓缓。我过去告诉我有一个问题,解决,回来。 最后还是出了问题,原因是有第二个问题没解决。然后追责,罚我。我 cnmd QA,罚 nm 呢罚,倒是告诉我有第二个问题啊,我又不是测试 |
37
changdy 2019-06-20 18:58:16 +08:00 1
事故发生 最重要的是先处理,其次是总结,最后才是 追责.
并且追责要从上到下 , 什么样的工资 负责什么样的 义务 你给了一个工资 5K 的人 数据库管理员的权限 ,然后他不小心删了库 你觉得应该罚款多少呢? |
38
stevenhawking 2019-06-20 19:24:26 +08:00
不应该. 因为干得漂亮时候没有人给你奖赏, 权责不等.
换一个人, 也许损失更大. |
39
opengps 2019-06-20 20:09:01 +08:00
犯错性质是什么?故意的显然得追责,过失则需要酌情引起重视,一般来讲不至于到了扣光绩效的地步
这得看追责目的是什么?为了逼迫员工离职的话,还不如主动倒闭 |
40
Myprincess 2019-06-20 20:21:56 +08:00
经历过的事
一职员个人犯错,造成生产产品出错,损失 20 万。 在公司争论过,这 20 万是否由这个职员承担。 A 方案:应该由职员承担 B 方案:应该由公司承担。 C 方案:应该由职员所在部门承担,职员应该承担所有费用的 30%,剩下 70%由部门分担。 D 方案:应该由职员承担 10%,剩下的由整个公司所有员工平均分担。老板要负责 30% E 方案:应该由职员承担 5%,由部门承担 25%,剩下 公司 承担 70%.扣除责任部门一年所有绩效奖金. 我们最终选择 D 方案. |
41
FrankHB 2019-06-20 20:29:18 +08:00
先追事前没有想起约定导致居然会要在事后扯皮的问题的法务和监管部门的责。
|
42
fxxkgw 2019-06-20 20:46:59 +08:00
我所在也算大厂了。。一般会开故障分析会,确定责任所属部门和整改措施,并有专人跟踪整改情况。
至于会不会影响个人,明确说会的,上个季度就有组里同事因为故障,绩效给 1 以下。( 1 是正常) 我这个月因为自己系统 bug (纯代码 bug,复现概率十万分之一,大并发压测才会出现),造成了实际公司资损。 会不会影响绩效就看 Q3 结果了。 |
44
DAPTX4869 2019-06-20 21:00:59 +08:00
@Myprincess #40 10%也是两万了...那员工接受了?
|
45
Myprincess 2019-06-20 21:46:35 +08:00
@DAPTX4869
方案 A 与 B 与 C 都无法执行,因为一旦执行,管理会出现巨大的抵制行为.更多的扯皮.D 与 E,因为不选择 E 是因为综合考虑,如果老板承担了大头,而后期扣除一年的绩效,这个决定对那些没有犯错的人来说是非常不公平的.选择 D 是因数没有扣除后期的绩效.但是那个员工肯定是要担责的,因为是正式员工,而为什么剩下的 30%由老板承担是因为老板是有承受能力的.老板说这是一个公司就是一个团队,一人犯错其他部门都必须一起承担. 那 10%员工是接受的.因为是他个人原因造成的.部门管理也有责任.那公司高层肯定也有责任.所以统统要为这个事件埋单. |
46
Myprincess 2019-06-20 21:50:23 +08:00
@DAPTX4869 补充一下:我们之前是用 OA 来管理的,在线审批的.这个事件后,我们选择关联部门负责人都要签字确认后才放行流程.不然所有的生产任务无法安排.必须见到相关人员的签字.而不是之前的点击同意就 OK 了.
|
47
huson 2019-06-20 22:03:54 +08:00
之前再阿里系得公司。。。因为人为故障 电商官网 生产环境注册 挂了 1 小时
重点分析了故障原因 为什么会产生 那些人得该做得没做 或者是选择错了 开会一起分享 吸取教训 然后主要相关领导都扣了钱 责任员工 吸取教训 一分钱没有要扣- - |
48
luckylo 2019-06-20 22:05:07 +08:00 via Android
对于你们这些追责的,我司前两天被客户恶意搞了,但那个功能是前面的人做的。那些人均已离职。在发现被搞之前,那安全问题一直存在,出现问题后,我定位查出问题了,如果要追责,这锅我背?还是所有人的包括测试?测试也换成新人了😂
|
49
lplusk 2019-06-20 22:05:13 +08:00
大厂 SRE 路过。
没有合理的流程和工具把错误变更的影响面成功限制住小范围,是流程和工具的问题。 有这样流程和工具你却不用(别奇怪,真的有不少人这么干),线上变更一把梭,背锅的就是你了。 |
51
Takamine 2019-06-20 23:36:14 +08:00 via Android
影响绩效评级算不算。_(:з」∠)_
|
52
lijbgo 2019-06-20 23:40:46 +08:00
出错当然要罚,要不不长记性。但是有个前提是要先实现多劳多得。而且罚多少、以什么方式罚都是有讲究的。
|
53
leishi1313 2019-06-21 01:52:15 +08:00 3
Google 内部确实这样的,我自己看来原因主要有几点:
0.追责不了,动不动几个 M 的损失怎么担。。 1.公司钱多,可以不计成本鼓励员工试错,创新,所有事故都要追责那大家都会保守了。 2.公司大,几乎每天都有事故。内部有个追踪生产事故的网站,所有人都可以登录查看解决的进度,粗略看了下光今年( 2019 )损失超过$5M 的事故就有 16 个,都要追责的话人心惶惶,毕竟一行代码影响的都是百万千万甚至几亿人。 3.说是 blameless,但是每个事故都很透明,基本都能追踪到具体哪个 commit 出了错,公司所有人都能知道谁是代码作者,谁是 reviewer,犯了错大家以后再小心点咯,出了错长记性就好了。 所以其实不必盲目地向大公司看齐,很多文化固然有值得学习的地方,但是各个公司情况都不一样。 从我自己角度也有相关的小故事,曾经在一个比特币交易所的矿池部门带过,由于 github 密码弱,矿池代码被我泄露出去了,被黑客索要几百万,最后公司对我保护很好,除了安全部门和主管没什么人知道,最后也没对我追责:)。然后因为是加密货币领域,公司对安全的重视度特别高,你想想公司托管的币没了整个公司就没了,这种事故还没发生过,但是一旦发生,追责又有什么用呢 |
54
testeststs 2019-06-21 06:07:32 +08:00 2
这个世界上最愚蠢的问题就是尝试寻找一种银弹的方式解决现实中的所有问题。
你说,杀人要不要偿命? 自卫杀人?被胁迫杀人?报仇雪恨? 现实世界可比理想世界复杂的多,要是杀人该不该偿命,仅仅用一两句话就可以概括,也就不需要那么厚的律法了。 给你一个忠告,不要尝试用程序员的眼光去看待现实世界。 |
55
Yvette 2019-06-21 07:23:59 +08:00
blameless postmortem 翻译成「免追责事故分析」是不是更合理,「事后无过失」这个翻译实在是莫名其妙
|
56
kerassss 2019-06-21 08:27:16 +08:00 via Android
@ulyssesfeng 同感,回溯到头皮发麻。
|
57
vanityfairn 2019-06-21 09:00:07 +08:00
先解决生产问题,然后开小复盘,再开大复盘(整个技术部),给事故定级,P3 以上的,事后直接不让干了
|
58
jorneyr 2019-06-21 09:12:29 +08:00
难道第一时间不是搅浑水,找背锅的?
|
59
star00 2019-06-21 09:17:39 +08:00
不应该处分发现问题的人吗 txtx
|
60
Youngxj 2019-06-21 09:30:49 +08:00
我新到一家公司任职,不懂整个框架的运行,拆东墙补西墙的修改了一个参数,第二天被反馈造成了一定损失,需要赔偿,但是我们老板并没有责怪我什么,我立马恢复了之前的修改。可能是造成的损失不大吧,要不然肯定把我开了,如果公司要求赔偿我觉得应该签署有效合同才能追责赔偿,要不然员工大不了走人就行了
|
61
SimonOne 2019-06-21 09:54:25 +08:00
@troywinter #7 一年 52 周啊,那就是一年要造成几百万*52,五千万-五亿损失 /年,这关系也太硬了吧。
|
62
zhttty 2019-06-21 10:00:07 +08:00
不按流程规范、执行要求做事,自己犯得低级错误当然要追责到人,譬如强调严禁直接操作生产环境数据库,你还这么搞,出了问题当然要。
|
63
CantSee 2019-06-21 10:01:22 +08:00
有的技术领导一出问题先拉出去个挨子弹的,之前我们公司就有,某银行,给签约商户结算多结算了几百万,最后负责这个地方的同事被开除了;还说什么引咎辞职,最后是公司框架的故障!渍渍
|
64
Ritr 2019-06-21 10:05:48 +08:00
@tigerstudent 风险共担,利益共享
|
65
Dex7er 2019-06-21 10:15:30 +08:00 1
看你是要解决问题,还是要解决无意之中制造出问题的人了。
解决问题么就事论事,谁拿的最多谁担最大的责任。 解决人,最后无非就是从团队里面找一个倒霉的背锅侠罢了。 然后,大家就一起战战兢兢地保守下去呗。少干少错,多干多错。 再然后,你就发现大家的工作积极性怎么搞都提不高,为什么呢? 小到几行代码,大到航空航天原子能, 哪个行业有不犯错的人?有不犯错的工作? 不遵守既定规则,那不叫犯错,那叫犯规。。。 |
66
chmlai 2019-06-21 10:29:39 +08:00
大部分公司本身就是有限责任的, 再说公司就是用来共担风险的
|
67
yiyi11 2019-06-21 10:40:50 +08:00
参照日本瑞穗证券因为系统 bug 导致 400 亿损失的事件。证券公司告 it 公司,本案核心点之一:什么样的 bug 才算是“重大过失”?法院给出了判断的标准——这个 bug 是不是很容易被发现。
如果员工尽了责任去做,但是由于复杂度的问题,依然有难以预见的风险发生,这也是没办法的事情。 |
69
lazyfighter 2019-06-21 11:30:35 +08:00
恢复、定级、影响 kpi
|
70
blackboom 2019-06-21 11:57:31 +08:00
不考虑故障场景的情况下,优先找领导。
|
71
troywinter 2019-06-21 12:09:48 +08:00
@SimonOne 嗯,他工作经验多,又曾经是淘宝资深员工,领导比较信任他,好在后来那个服务越来越好了,没有继续烂下去。
|
72
realpg 2019-06-21 12:15:08 +08:00
写代码写出 bug 之类应该是不算过失的
不遵守规程操作之类导致后果 是一定要追责的 |
73
yy77 2019-06-21 12:18:44 +08:00
程序正义啊。按既有规章制度流程走了,就不该追责;不按规章制度流程走导致损失的,那就要罚。但是肯定不能把所有关联损失都罚进去。
|
74
lucifer9 2019-06-21 12:39:07 +08:00
大公司不一定是要具体员工承担责任,但是肯定要打到某个部门头上
话说当年我们写故障报告很重要的一点就是要猜对这次领导想让哪个部门背锅 否则写一万次都得打回重写 |
75
iyaozhen 2019-06-21 12:42:40 +08:00 via Android
当然先解决问题,事后肯定要复盘,大事故就得追责了。
一般是当事人到一层层经理到总监都得罚款。听说我们总监有个月罚了小几万, 人为因素还会辞退 |
76
wxl1380610 2019-06-21 12:54:08 +08:00
@Myprincess 20 万 随时 赔两万块 我就想说 那个员工现在还在吗 ?
|
77
loryyang 2019-06-21 12:58:03 +08:00
看当时操作是否违规了,如果违规,那基本是完蛋了。如果没有违规,那么问题还行,短期绩效肯定会受影响,但是长时间看,还行
|
78
qiumaoyuan 2019-06-21 12:58:31 +08:00
所有类似的事情都一样:领导责任最大。
|
79
LokiSharp 2019-06-21 12:59:52 +08:00
指定公司 ISO 质量体系啊啊
|
80
tourist2018 2019-06-21 13:52:31 +08:00
个人怎么负责 百度微信这种宕机了 损失不是个人能赔得起的
|
81
randyo 2019-06-21 14:03:42 +08:00
加班导致的结果应该发提出加班的人~~
|
82
liuxu 2019-06-21 14:33:49 +08:00
怎么能是程序员的锅,明明就是测试没测试好 /dog
|
83
memorycancel 2019-06-21 16:20:42 +08:00 via iPhone
看公司好不好过,公司赚钱,故障也是对的。公司赔钱,什么都是错的。
|
86
18ac0877 2019-06-21 17:42:19 +08:00 1
1、看关系,上线一上午,损失至少 50 万, 关系硬象征性的罚款 200 元;
2、关系不硬的,当年绩效清零,潜规则至少 2 年没有晋升机会; 3、小问题,被客户抓住把柄,将事情搞大,当年整个部门都没奖金,大部分辞职,到处找其他部门协调人。 |
88
tt0411 2019-06-22 09:37:18 +08:00
能这样做的公司, 一般是文化(创始人有硅谷背景)和收入(短期变现压力不大)都还不错的公司. 我知道百度是这样的, 百度内部创新氛围还是不错的, 只可惜对外产品化能力太差.
|
89
luozic 2019-06-22 12:52:57 +08:00 1
決策修改的不承擔責任,具體幹活的背鍋? 牛逼牛逼,這腦子是不是在中世紀封建時代?
|
90
mzdblsw8 2019-06-22 16:32:21 +08:00 1
我是运维。好比打了败仗。不反思问题。反而拿底下的员工开刀。有人会跟你混吗?
反正我上班这么多年。故障是肯定有的。没被扣过绩效。 |