一天损失百万,微盟公司重大故障,又是运维的锅?

近期,微盟公司发布公告称,其业务数据遭到人为破坏,经查证系微盟研发中心运维部核心运维人员造成的恶意破坏,目前生产环境和数据修复正在有序进行。

听到这消息后做运维的都惊呆了。身边的朋友都在讨论这事,据说损失要好几百万。

一天损失百万,微盟公司重大故障,又是运维的锅?
一天损失百万,微盟公司重大故障,又是运维的锅?
一天损失百万,微盟公司重大故障,又是运维的锅?
一天损失百万,微盟公司重大故障,又是运维的锅?
一天损失百万,微盟公司重大故障,又是运维的锅?

事件回溯

2 月 25 日一早,微盟集团发布公告称,SAAS 业务数据遭到一名员工“人为破坏”,已向上海警方报案,该员工已被刑事拘留。

微盟在公告中称,2 月 23 日 19:00 ,微盟公司收到系统监控报警,随后微盟公司立即召集相关技术人员进行排查,并与腾讯云技术团队一起研究制定修复方案。

经微盟公司技术调查后,确认线上生产环境业务和数据遭到集团研发中心运维部一位核心运维员工人为破坏,公司已于 2020 年 2 月 24 日向中国上海市宝山区公安局(“宝山区公安局”)报案,目前该员工已经被宝山区公安局进行刑事拘留,据微盟集团所知,该员工是因个人精神和生活原因做出了上述不当行为。

一天损失百万,微盟公司重大故障,又是运维的锅?

处理结果

根据公告,截止到 2 月 25 日 7 点,微盟的生产环境和数据修复都在有序的进行,预计 2 月 25 日晚上 24 点前生产环境将全部修复完成,微盟所有新用户将可恢复服务,老用户由于数据修复时间问题,微盟将提供临时过渡方案,预计老用户数据修复将可在 2 月 28 日晚上 24 点前完成。

如何合理防范此类事件?

看到网上有人说是被降薪,有人说是在家憋坏了,有人说生活压力太大,对于这种人为因素造成的影响,企业如果提前做好风险预案,可以将损失降到最低。

在技术层面,有几个建议:

1、完善数据备份恢复体系,核心数据库不仅要做本地备份还要做异地的备份,异地备份可以放到云存储或者专门的备份服务器上,如果用到mysql,那么binlog日志也要备份,并做好基于 binlog 的闪回技术的演练。

2、如果用了云数据库一定要开启自动备份和跨地域备份,发生故障或者被删库,最快的时间根据时间点恢复备份。

3、生产环境业务保存好文档和自动部署的脚本,部署应用做好回滚的功能,当发生故障时可以快速回滚,或者环境没了,可以快速部署新环境。

4、如果用云服务器,可以将核心的管理机和核心的集群做好快照备份,这样出问题可以最快时间用快照恢复集群。

5、在发布流程方面,线上发布做好审核发布,业务负责人审核通过后才能正常发布。

6、做好权限管理,危险操作双因子验证,例如删除数据库,自动化工具删除线上服务器文件时候,业务负责人或者部门负责人需要短信邮件验证。

7、推动K8S新型技术的升级应用,容器化发布部署,应用出现故障快速利用镜像回滚,K8s环境出现故障,快速搭建环境,并利用线上业务镜像快速上线应用,这次微盟的故障,提供新用户服务访问就需要将近48小时,可能就是业务多,环境复杂,部署不够自动化。

8、不断学习新技术,当故障发生才能快速恢复。

好啦!今天的分享到这里就结束了,希望大家持续关注马哥教育官网,每天都会有大量优质内容与大家分享!

文章来源于网络,侵删!

相关新闻