运维祭天?No!

——为了保障客户业务的连续性我们做了很多努力

观点丨宁宇 策划丨云征 撰稿丨云玲

运维祭天?No!

一个程序员无论多么牛,多么清醒,都有可能在写代码时不小心敲错一个字符,自己没发现,然后一个回车下去,追悔莫及……

亚马逊、微软、Salesforce等国际巨头近年来不时爆出大规模宕机和云服务中断事件,导致自身及客户业务连续性失去保障,后果较为严重,这类错误很多发生在执行变更操作时,上周某云厂商发生了严重的宕机事故,也是因为程序员在执行变更验证操作时触发了一个未知代码Bug,导致部分产品访问链路不通。

近几年,云计算产品发展迅猛,企业上云已成为常态,但是IT系统宕机和云服务中断的风险不仅没变小,貌似愈演愈烈。一个不断演进的系统,出问题不可避免,所以云计算服务厂商把保护用户数据、保障用户云平台业务连续性奉为天职。

1

云平台可能出现的几方面问题

保障云上业务不发生中断,首先要有一个高可用、高可靠的云平台,以及一支强大、专业的云运维团队,其次要增强发布流程验证,完善应急预案和预警机制,并不断提升突发问题的处理能力。

先来看看,云平台最容易出现哪几方面的问题。

计算层面的问题

一方面因为硬件损坏造成,比如CPU、内存出了问题;另一个方面来自软件,操作系统及虚拟化层面的Bug。

存储层面的问题

在集群异常自恢复情况下,运维人员在执行存储集群的数据平衡、数据校验等额外任务时,如果操作不慎,虽然不会影响到数据的可靠性造成数据丢失,但大概率将影响到其可用性,导致业务虚拟机大面积慢响应,甚至自动挂起或者卡死。

网络层面的问题

链路协议和通路复杂,且由于外部网络不稳定导致的问题难以排查和修复,很大程度依赖于运营商。局域网内部网络从硬件到配置,各个私有云环境都有自己的规划,包括VLAN划分、链路聚合、网关配置、静态路由等,一旦网络发生规划变更和调整,很容易引发全局性的故障。

无论哪个层面出现问题,都必然影响上面所支撑的业务,让业务连续性失去保障。同方有云对如何去避免和应对这些问题,有绝对的信心和把握。

2

专业的团队和严格的流程,确保客户云平台不发生中断

在保障客户云平台持续、稳定运行和升级变更平滑、无感方面,同方有云始终持有专业又专注、细致且深入的态度,努力为每一个客户提供最好的云方案与服务,不辜负客户的信任和一次次托付。

同方有云拥有一支业内领先的技术团队,在大家共同的努力下,同方有云成为中国第一家当选为OpenStack基金会黄金会员的创业公司,为OpenStack社区贡献了许多代码,提升了中国企业在OpenStack社区整体的活跃度和贡献度,同时让业内感受到中国云服务厂商的技术水平和综合实力已并肩国际领先企业。

同方有云技术团队深入分析了各行业客户云平台在计算、存储、网络层面可能出现的问题,为客户提供了完善的预警方案,并制订了危机管理和灾难恢复等业务连续性管理流程,确保在系统发生故障等导致业务中断之时,能在最短时间内、保证数据零丢失的情况下进行快速恢复;还帮助客户把核心业务系统建设于主备高可用架构或负载均衡高可用架构,避免单点故障。

同方有云还推出了一些列符合行业发展特性的云产品与服务,例如针对银行业两地三中心的灾备架构和分布式存储方案,得到了恒丰银行、中信银行等用户的好评。

上海银行云平台负责人高度赞扬同方有云软件定义存储产品UDS,表示此产品提高了银行数据安全可靠性,降低了云平台运维管理复杂度和成本。

同方有云目前已深耕多个行业,业务场景覆盖教育、电信、金融、政府、医疗、制造等领域;陆续获得了工信部ISO多项管理体系认证、可信云解决方案、公安部颁发的行业软件测评、CMMI3、等保三级等多项国际、国内权威机构认证。

同方有云闪闪发亮的技术团队在为客户提供服务时,积极认真的态度,以及无比严格的流程制度,让很多客户深深信服。

下面以为客户提供变更服务为例,让大家了解同方有云技术团队的工作方式,欢迎围观。

很多云厂商在为客户提供变更或升级服务时,仅在控制平面做支持、改善,同方有云的技术团队可为客户提供云平台各类变更解决方案和服务,包含扩缩容、配置变更、网络变更、架构变更、升级变更等多种专业技术支持。

在帮助客户做升级、变更时,同方有云技术人员不仅对云平台本身进行升级,还包括中间件、基础组建、内核等,并帮助客户规避各种安全漏洞问题,及安全隐患导致的合规性问题。

那么,同方有云如何有效地保障客户云平台在计算、存储、网络的变更方面均不发生中断呢?主要依靠专业的技术,以及严格的流程和管理制度——帮助客户平滑、无感的执行各类变更,让客户更安心和放心。

运维祭天?No!

同方有云在为客户执行变更前,技术人员需要填写“生产变更单”并提交审查,由变更经理进行第一遍审查,变更委员会进行第二遍审查。

审查全部通过后进行测试。得益于同方有云高效的部署编排工具和历史版本管理,服务团队能够在几个小时内重构一套和客户环境类似的测试环境做变更验证。在涉及到网络、存储可能触发的全局性故障时,需要做两遍或以上验证,并保证做变更的技术人员熟悉整个流程、过程,然后由他执行最后一遍验证。

执行变更时,每一步做什么,每一个节点怎么操作,都严格按照变更单的内容执行,绝不做变更单以外的任何操作。

正是如此严格的管理流程,保障了同方有云在为众多客户提供变更服务时几乎做到无失误、零风险,大大减少了客户因云平台故障业务发生中断的可能性。

3

更可靠的保障客户业务连续性,同方有云已通过ISO22301认证

同方有云于2018年6月顺利通过国际标准ISO22301认证,获得业务连续性管理体系认证证书。

业务连续性管理体系(Business Continuity Management Systems,BCMS)是组织整体管理体系的一个部分,用于建立、实施、运行、监视、评审、保持和改进组织自身业务连续性,是识别对组织的潜在威胁以及这些威胁一旦发生可能对业务运行带来的影响的一整套管理过程。

该认证的实施是基于国际标准GB/T30146/ISO22301,这标志着同方有云在业务连续性方面已达到国际标准,具备为客户持续提供高质量云服务和业务连续性体系建设的能力。

业务连续性管理经过不断的发展,已成为政府机关、企事业单位、社会团队等公共安全建设的重要工作和考核内容,它能帮助企业减少数据的丢失、收入的损失、客户的流失,使企业的业务中断和损失最小化,增强企业应对灾难的能力。

同方有云将持续为客户提供高可靠、高可用的云计算解决方案,不断升级对客户业务连续性的保障,助力客户提升云时代的竞争力。


分享到:


相關文章: