高考考试网
当前位置: 首页 高考资讯

互联网故障跟踪(互联网人故障复盘流程)

时间:2023-07-15 作者: 小编 阅读量: 4 栏目名: 高考资讯

故障级别和损单量的关系与公司业务量级以及对故障的容忍度有关。例如:20210401-小程序金刚位页面跳转异常-复盘总结-张三。

编辑导语:我们在日常工作中很多时候都需要复盘,特别是在完成一个项目或者遇到技术问题时,复盘可以更好的解决问题,避免后续再次发生,也能得到很多经验;本文作者分享了关于互联网人在遇到故障时的复盘流程,我们一起来了解一下。

一、为什么要做故障复盘

互联网产品的更新迭代是非常快的,很多公司推崇敏捷开发,固定每周一个小版本,2周一个大版本的节奏,紧急线上问题、政策限制、实时热点(如新疆棉事件)还需要加急发布。

频繁的变更过程就难以避免不出故障,“常在河边走,哪能不湿鞋”。

规范的流程和高超的技术只是减少故障的发生频次,故障难以避免;出了故障后,为什么要做故障总结呢?

  1. 复盘成长,这是最主要的价值。吃一堑长一智,通过复盘总结教训,后期工作中规避问题再发生;
  2. 组织过程资产沉淀,故障总结文档可以作为部门的组织过程资产为他人提供前车之鉴,新人入职或新接手项目后可以快速了解之前发生过什么,自己如何重蹈覆辙;
  3. 给老板交代,出了问题后,尤其是线上生产问题,影响大的时候要逐层汇报,有故障复盘,过程清晰明了,沟通效率更好;
  4. 给业务交代,产品Bug、系统故障往往会造成业务损失,要摆好姿态,厘清权责,给业务一个态度和交代。
二、什么情况下做复盘

很多人不愿意做复盘,出来问题修复后,想着是能不让别人发现尽量不让别人发现;否则背着Bug后绩效C、D没跑了,或者是“懒”,“好了伤疤忘了疼”。

故障和绩效各家公司的标准不一样,有的公司推崇的文化是鼓励员工主动复盘,但对个人而言,复盘更多的是自己的事情。

以下情况都可以做复盘:

  • 产品变更发布后,产生Bug;
  • 未做变更但产品或服务突然不可用(系统攻击、或机房故障);
  • 操作故障,如产品、运营、研发在使用产品时的操作引发的隐在问题;
  • 产品或服务遭到舆论导向的客诉;
  • 误操作,由于未按照流程、没看清楚、没确认好等无心操作,带来的人为故障;
  • 复盘时间要求:1个工作日以内(24小时),趁热打铁,凉了就没那么“刻骨铭心”了。
三、故障复盘形式

按照故障影响范围和对业务造成的损失,每个公司都会对故障进行定级,以电商公司为例,可能会用损单量指标作为故障分级的标准。

计算公示:

损单量=故障持续时长*昨日(或上周同期或近七日日均)同时段平均订单,到小时或者分钟级别。

故障级别和损单量的关系与公司业务量级以及对故障的容忍度有关。示例如下,P0为最高级故障。

1. 会议复盘

P0、P1级故障,典型故障、业务比较关注呼声较高的,可以组织会议复盘,当面沟通效率更高、能快速平息故障,解决问题。

参会人员:当事人及其leader 必须参加,产品经理、开发、产品&开发负责人、业务同事及其Leader,关心故障问题的老板们。

会议纪要:复盘会议结束后,要形成会议纪要邮件发送参会人及其他周边干系人,会议内容参考复盘总结模板部分。

2. 邮件复盘

P2~P3故障,影响范围小,业务关注度低的可以采用邮件复盘的方式,把复盘过程邮件抄送相关方,如当事人leader 必须参加,产品经理、开发、产品&开发负责人、业务同事及其Leader,关心故障问题的老板们。

3. 文档复盘

P4及以下故障,业务影响很小,团队内做好复盘文档沉淀,作为组织过程资产存档。

四、复盘总结模板

1. 故障标题

【故障级别】 日期 业务描述 故障简介 复盘总结 责任人,方便信息同步,如很多新闻用XX事件,七一五事件等。

例如:【P0故障】20210401-小程序金刚位页面跳转异常-复盘总结-张三。

2. 故障影响

为什么把故障影响放到最前面?故障复盘内容一般会比长,尤其是老板们每天看的邮件、汇报很多,没时间把所有内容全部读一遍的,把故障影响提前告诉他们,他们自己心里有杆秤,要不要继续关注和跟进下去。

故障影响,一般是描述故障带来的业务损失、产品、用户体验损失等多维度的影响分析。

3. 事件回顾

从故障开始、发现、修复、修复完成的详细过程,需要包含When、Who、Where、What,即什么时间,谁,做了什么事情,目的是;通过详细的过程描述,方便发现故障和处理故障过程中暴露出的问题,作为后续改进的依据。

例如:

  • yyyy-M-dd hh:mm 故障因xx开始
  • yyyy-M-dd hh:mm 运营张三发现故障 (或收到监控报警)
  • yyyy-M-dd hh:mm 张三把问题反馈给开发李四
  • yyyy-M-dd hh:mm 李四验证发现问题确实存在,企业微信拉群,并通知上级领导报备故障
  • yyyy-M-dd hh:mm 李四通过代码、监控日志找到问题所在,确认影响范围及故障发生时间点
  • yyyy-M-dd hh:mm 李四定位问题后,通知上级领导及运营张三准备做回滚(代码修复),预计XX时间完成
  • yyyy-M-dd hh:mm 李四确认问题已修复,群内同步
  • yyyy-M-dd hh:mm 张三确认问题已修复,故障处理已结束
  • 故障从XXX-XXX持续时长:XX小时XX分

4. 故障原因

分析总结故障发生的原因,以上述案例为例,

1)故障发生前导致故障的原因

首先是为什么出现这个线上Bug,代码质量,开发自测、QA测试、产品验收为什么没发现?是没有自测还是测试用例执行不充分?

2)故障发生后运营上报的原因

上线流程是不是不合理,监控是不是没覆盖?

3)故障处理过程耗时

定位问题慢的原因?

5. 故障总结

  • 故障发生暴露的问题;
  • 责任认定,目的主要是厘清故障产生各相关者的权责关系,方便后期跟进改进。

6. 改进计划

根据故障复盘发现的问题,制定出可实施的改进计划。日后同类型的错误自己及相关的同事都去避免发生改进计划包括todolist、跟进人、deadline。

改进计划可以包含但不限于:

  • 经验总结、知识分享;
  • 监控覆盖;
  • 系统或工具设计改造类;
  • 流程类的、规则/规范类的、机制完善类;
  • 系统、业务需求改造类的。
五、小结

出问题不可怕,可怕的出问题不复盘,同样的问题重复犯。

不管公司怎么要求,复盘和成长是自己的事情,成长的过程犯错误交学费在正常不过。

作者:千冰仪,微信号公众号:数据干饭人,主要从事数据中台产品体系建设,包括:开发套件、数据资产、BI应用、精准营销平台、机器学习平台等。

本文由@数据干饭人 原创发布于人人都是产品经理,未经作者许可,禁止转载。

题图来自Unsplash,基于CC0协议

    推荐阅读
  • 无限经验修补弓指令(怎么经验修补呢)

    我们一起去了解并探讨一下这个问题吧!无限经验修补弓指令经验修补弓箭指令:经验修补是利用玩家自己的经验球自动修复弓磨损的耐久性。它的主要优点是弓和箭可以长时间使用。当玩家有足够的箭,为弓箭附魔经验修补无疑是最正确的选择了。这样也是非常不错的。无限和经验修补两个附魔合在一起:虽然当前版本的附魔机制不允许玩家在同一弓和箭上附魔。

  • 北京现代朗动和朗逸哪个好(现代与朗逸哪个好)

    无论是大灯、进气格栅还是引擎盖的设计,还是整体的车身曲线感,都与帕萨特高度相似。大灯方面,新款朗逸的大灯没有特殊功能,但前雾灯集成在车头。朗东车型的大灯与朗逸相似,也是卤素大灯和雾灯的组合,可以算是妥妥的选择。朗东是现代汽车在海外上市的首款全球车型。朗东搭载1.6Lγ发动机和1.8LNu发动机,发动机技术得到提升。

  • 天和核心舱有实验室吗(专家解读问天实验舱的)

    资源舱承担多重使命问天实验舱全长17.9米,发射质量23吨,由工作舱、气闸舱及资源舱三部分组成。由中国航天科技集团八院抓总研制的问天实验舱太阳翼,是目前国内研制的最大面积可展收柔性太阳翼,单翼全展开状态下长达27米,面积138平方米。问天实验舱入轨后,与空间站组合体实施轴向交会对接。在问天实验舱发射后独立飞行阶段,柔性太阳翼将首先展开一部分电池板,以满足实验舱能量需求。

  • 剪下来的玫瑰花怎么养(如何养护剪下来的玫瑰花)

    剪下后要将枝条下端的叶片给处理掉,只留保留顶端的就行。还要将底部剪成斜口,并放在生根溶液里浸泡5个小时左右。玫瑰准备基质,种植的基质要松软,透气且排水能力强。调制好后要消毒处理,可放在强光下暴晒消毒,避免有虫卵或病菌。种植入土,枝条处理好,基质准备好后就可种植入土。后期养护,玫瑰枝条种下后不可着急晒太阳,最好等生根后在慢慢增加光照。等它的根系稳定后要及时移栽。

  • 无印良品被套质量咋样(水星家纺等上质量黑榜)

    日前,第四届中国家居品牌大会发布了“中国家居十大质量黑榜”品牌名单,联邦家私、林氏木业、无印良品、水星家纺、小米卫浴等品牌登上黑榜,还有品牌连续多次质量抽检不合格。对此,小米集团发表公开声明称,上榜的“小米卫浴公司”与其完全无关,系商标侵权,此前小米卫浴公司使用的相关商标已被法院宣判无效。

  • 六胜肽原液使用方法(六胜肽原液怎么用)

    也可以添加爽肤水之类的里面使用,甚至做面膜的时候,也可以配合使用。但是不建议直接将原液混进面霜或其他化妆品瓶子里,因为这样可能会造成化妆品本身的分层之类。六胜肽原液具有效舒缓和抑制皱纹的形成,对抚平细纹有很好的效果,所以非常适合深受皱纹、表情纹、抬头纹、鱼尾纹等人群使用,尤其是多皱纹老化的肌肤。

  • 行政复议决定下达多少日内完成 行政复议决定几日内作出

    行政复议法没有作出具体的下达日期规定,但是《行政复议法》在保障公民权利的时候要求,复议决定文书必须送达当事人,且当事人自接到行政复议决定书十五日起对绝对不服的有权向人民法院提起诉讼。《行政复议法》第五条公民、法人或者其他组织对行政复议决定不服的,可以依照行政诉讼法的规定向人民法院提起行政诉讼,但是法律规定行政复议决定为最终裁决的除外。行政复议决定书一经送达,即发生法律效力。

  • 济宁人社综合服务中心节假日预约服务制度

    第二条预约服务是指法定节假日和公休日内,服务对象因工作急需而与窗口单位事先约定时间办理的审批服务。第五条预约服务采取现场预约和电话预约两种形式。(二)引导台与相关窗口科室对预约服务时间进行确认,填写《济宁市政务服务中心节假日预约服务登记表》,该表一式两份,一份交预约申请人,一份交相关窗口科室。预约成功后未按时履约超过两次的、或者申请取消预约的次数超过三次的,预约申请人的信息纳入预约服务“黑名单”。

  • 草莓会感染病毒吗(居然害宝宝感染这种病毒)

    从去年冬天到目前为止,因为“诺如病毒”,全国多地医院接诊的发热、呕吐、腹痛、腹泻等不适的老人和孩子并不在少数,有些学校甚至因此停课或者封校。诺如病毒是除轮状病毒以外,最主要引起急性肠胃炎的肠道病毒。如果滥用抗生素,还可能伤害肠道的正常菌群,从而加重腹泻。脱水是诺如病毒感染引起的最大危害,严重脱水会导致体内电解质紊乱,甚至危及生命。

  • 交通违章多久来短信(交通违章多久发短信)

    违章记分周期记分周期为一年度,总分12分,从机动车驾驶员初次领取机动车驾驶证之日起累加计算。一个记分周期期满后,记分分值累加未达到12分的,该周期内的记分分值予以消除,不转入下一个记分周期。但同时被处以吊扣机动车驾驶证处罚期限未到的,应当在吊扣期满后发还。驾驶员被记满12分,经公安机关交巡警部门通知后,无正当理由逾期三个月不参加考试的,撤销其机动车驾驶证。