最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

5whys分析法在美团工程师中的实践

[复制链接]
跳转到指定楼层
楼主
发表于 2015-3-9 14:27:24 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
前言
网站的质量和稳定性对于用户和公司来说至关重要,但是在网站的快速发展过程中,由于各种原因导致事故不可避免的发生,这些大大小小的事故对公司难免会造成一些负面的影响,为了避免同类事故的再次发生,美团的工程师们从事故中不断学习,对每次事故进行深入分析和总结,形成了一种Casestudy文化,并结合一套科学的分析方法-5whys分析法,深入分析事故背后的根本原因和流程漏洞,使得事故发生的频率大大降低。
在本文中,首先对5whys分析法的进行简单介绍,然后再结合美团工程师Casestudy的案例去分享这套分析法的在美团的实践。
5whys分析法
5whys分析法,又名why-why分析法,它是根本原因分析(Root Cause Analysis) 的一种具体方法,适用于去分析一些简单和难度适中的问题。简单的说,就是针对问题持续的问5个为什么(通常需要至少5个“为什么”,但5个why不是说一定就是5个,可能是1个,也可能是10都没有抓到根原),通过这样一种分析思路,能很快找到问题深层次的根本原因以及工作流程上的漏洞,并据此再制定预防措施,防止问题重新出现或再次发生,大大降低解决问题的成本。
在美团,5whys分析法作为每个工程师需要掌握的一种工作方法,已经广泛应用到Casestudy的原因分析中去。
利用5why分析法来进行Casestudy原因分析的几个步骤Step 1:对事故进行详细描述
“If I had an hour to save the world,I would spend 59 minutes defining the problem and one minute finding solutions.”
– Albert Einstein
对于事故进行定义和描述比较重要,这一步不可省略。在描述事故时,我们基于5W2H(What,Who,Where,When,Why,How,How much)分析法来对事故进行描述,说清楚事故发生的时间,地点,发现人,怎样解决的,解决的时间等等。
  • What:描述下发生了什么问题。
  • Who:描述下责任人是谁,谁发现的问题,谁解决的问题。
  • Where:描述下在哪里发现的事故。
  • When:描述下事故的时间因素,什么时候发现的事故,什么时间解决的事故。
  • Why:描述下为什么是个事故,强调事故的影响。
  • How:描述下事故是怎样被解决的。
  • How much:描述下事故的可量化的影响范围和造成的损失,影响了多少用户,造成了多少损失等等。
Step 2:提问:为什么这问题会发生?
识别并确认导致当前问题发生的直接原因。如果原因是可见的,验证它。如果原因是不可见的,考虑潜在原因并核实最可能的原因。
Step 3:检验上一步中发现的原因是否是根本原因?
检查上一步中的回答的原因是否是导致事故的根本原因,如果不是,则重复Step2和Step3,直至找到事故发生的根本原因为止,最终通过这样一个过程建立一个通向根本原因的原因/效果关系链。这个过程一般需要持续5次为什么(可能少于或多于5个),这也是5whys分析法名字的由来。
Step 4:找到问题发生的根本原因,制定执行计划并修复
找到问题发生的根本原因后,采取明确的措施和手段去处理问题,预防和避免类似问题的再次发生。对于采取的纠正措施和手段,需要问问“采取后能否避免问题的再次发生”,如果不能,再找到其他的解决之道。
案例分析
2014年某月某日,某内部App ios版应用相关负责人小美接到大量用户投诉,ios的App启动时出现闪退现象,导致大量用户不能进入应用,虽说接到反馈后及时修复,但还是造成了一些不良的影响,针对此次事故,领导要求对事故进行总结,要求深入分析事故的原因。
小美基于5W2H分析法先对事故进行描述:
事故起止时间:2014年某月某日 10时30分-2014年某月某日 10时40分
责任人:小美
事故详情:小美对此次事故进行了详细描述,包含整个事故经过的时间、事件,在什么时间节点什么人做了什么事,谁发现的问题,谁解决的问题,怎样解决的问题。
影响范围:此次事故造成的影响和损失。
然后小美再结合5whys分析法中的原因分析实践深刻总结造成此次事故的所有原因:
1)为什么会发生此次事故?
事故的直接原因是由于某个服务端API的返回值新增加了一个字段导致此次事故的发生。
2)为什么服务端API的返回值变更会影响ios版app的崩溃而android版正常?
主要还是由于ios版代码兼容性问题,服务端api的变更导致了类似空指针异常的发生。
3)为什么事故发生前未能发现程序代码的兼容性问题而导致质量低的代码到线上?
一方面是由于小美是新人;另一方面组内缺少对代码进行质量控制的手段。
4)为什么组内没有对代码进行质量控制的手段呢?
一方面由于组内人手不足;另一方面缺少一个比较好的代码review流程去推动质量控制。
5)为什么不尽早推动这套代码review流程去预防类似事故的发生?
组内人员对代码质量的重视程度不够,存在侥幸心理。
结合5whys分析法的实践,从以下3个层面分析了此次事故的原因:
1、为什么会发生?
2、为什么没有提早发现?
3、为什么没有从系统或流程上预防事故?
表面上看因为服务端API的变动造成了此次事故,次级原因是由于IOS程序的兼容性导致,但其发生的根本原因还是在于开发人员对于代码质量存在侥幸心理并且上线流程上有漏洞,未能建立一套合理的代码reivew和审核机制,只有制度或流程上的改进才能尽量避免类似问题的再次发生。
找到根本原因后,小美所在团队针对此次事故做了一个Casestudy总结,强调代码质量的重要性,并将代码Review的流程提上日程,利用公司Git平台提供的fork和pull request机制建立起一套合理的代码review流程,并要求组内人员遵守这套规则,使得代码质量大大提升,降低了事故的风险。
总结
Casestudy作为美团工程师的必修课之一,如果不去结合5whys分析法去实践,只顾解决表面原因而不管根本原因,可能事故发生后采取临时措施改进后就忘了,问题免不了要复发;但通过5whys分析法这样一种分析过程,工程师们学会分析问题由表入里,直指问题要害,大大降低了解决问题的成本,从而间接提高了工作效率。
对于工程师的成长,技术能力至关重要,但是职业技能和通用素质的提高对于工程师的长期成长来说也是很重要的。在美团的工作中,工程师们不光在技术能力得到提高,并且还能掌握很多科学的工作方法,5whys分析法仅仅是其中之一,后续再分享其他方法给大家。
参考

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-5 00:43

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表