复盘“前沿数控”数据丢失全程,腾讯云:我们不甩锅

近日,受"前沿数控"数据丢失事件影响,腾讯云一度成为云计算领域"关注的焦点"。

在经过2天的发酵之后,8月7日晚,腾讯云终于再次发布声明,并复盘了"前沿数控"数据丢失的全过程。

此前,腾讯云表示,因受所在物理硬盘固件版本Bug导致的静默错误(写入数据和读取出来的不一致)影响,文件系统元数据损坏。

本次的复盘,腾讯云强调了事故的原因,声明显示:该故障缘起于因磁盘静默错误导致的单副本数据错误,再加上数据迁移过程中的两次不规范的操作,导致云盘的三副本安全机制失效,并最终导致客户数据完整性受损。

复盘“前沿数控”数据丢失全程,腾讯云:我们不甩锅

从腾讯云发布的复盘内容可见,出现事故的主要原因是磁盘静默错误。而此前众多人关注的"三副本存储"问题,腾讯云在福盘中也给出了答案。

首先,正常数据搬迁流程默认开启数据校验,开启之后可以有效发现并规避源端数据异常,保障搬迁数据正确性,但是运维人员为了加速完成搬迁任务,违规关闭了数据校验;

其次,正常数据搬迁完成之后,源仓库数据应保留24小时,用于搬迁异常情况下的数据恢复,但是运维人员为了尽快降低仓库使用率,违规对源仓库进行了数据回收。

总的来说,数据完全丢失,因迁移过程没有开启数据校验,导致数据出错;搬迁完成之后,没有保留原数据,导致不能恢复。

除了复盘了"数据丢失"的全程,腾讯云还针对数据安全性的问题,发布了相应的改进措施。

复盘“前沿数控”数据丢失全程,腾讯云:我们不甩锅

根据腾讯云发布的内容显示,未来腾讯云存储,涉及数据安全的流程自动化闭环,进一步提升我们常规运维自动化和流程化,降低人工干预。同时,此前"数据丢失"事件人工干预的校验数据功能,未来将不允许被关闭。

另外,腾讯云还将优化巡检机制,通过优先巡检主副本数据块、跳过近期用户访问过的正确数据块等方法,加速发现该类错误,进行数据修复。

最后,腾讯云还强调:"未来,本着对客户数据最大的敬畏,腾讯云将继续探索更科学的机制,避免类似事件再次发生。"

至此,前沿数控数据丢失事故的全程已经全部明晰。

抛开数据丢失的问题,从这件事情整个处理的过程,不难看出腾讯云作为国内云计算大厂的态度。从及时发现问题,到超出行业37倍的赔偿方案,再到最后声明,腾讯云没有"甩锅",尽显了其作为大厂的风范。

目前,双方究竟如何解决问题还没有具体的方案,不过相信腾讯云应该能给出让所有人满意的答案。


分享到:


相關文章: