如何才能优化企业级大数据架构?以数据为驱动的合理布局才是首选

如何才能优化企业级大数据架构?以数据为驱动的合理布局才是首选

如何才能优化企业级大数据架构?以数据为驱动的合理布局才是首选

在前面的文章中有介绍过,未来大数据平台的核心演进方向,主要是从“硬实力”+”软能力”。所谓“硬实力”,就是可以通过钱、通过实践、通过技术手段等一系列主观动作所干预的方法,是可以通过“手段”的方式解决的问题;而“软实力”,就是必须通过咨询调研、组织管理、能力评估的方式,旁敲侧击的去用一种客观态度对待的方法,这种方法很难量化,但是确实是未来大数据平台发展的核心方向。


在软能力的表现范畴里,下述几个指标可能是作为实际考量的依据,我们以此为例去圈定大数据平台的实际效能。

大数据平台的实际应用水平:

这个水平什么是好?什么是差?难不成评估的方法只能靠感觉?在实际平台运维的管理过程中,不得不说很难量化。比如大数据平台有15个技术工程师,负责架构和规划的有2人,面向业务部门的开发人员有6人,平台运营维护的管理人员有3人,开源社区的贡献者2人,功能测试优化的2人。这样一个技术团队如果每天的工作顺手,能力出众,任何需求及时响应,每天的例行工作就像工厂里流水线作业一样不需要思考就手到擒来,那么我们似乎就可以认为大家的工作非常顺手没有障碍,即:平台的实际应用水平不错,反之亦然。

大数据平台的整体服务能力:

大数据平台是服务于业务的,平台上有各种技术组件和相关监控程序。面向服务的体系架构可能是传统的SOA架构,也有可能是今天火爆的微服务架构,但只要能很好地服务于系统内外,即整体服务能力就是出色的。服务于系统内部的理解就是大数据系统的各个组件能紧密协调、互促互进、没有Bug;服务于系统外部就是指大数据系统能很好的面向业务和应用提供有效的技术支撑。

大数据平台为用户解决了哪些问题:

报表、KPI、查询、取数、访问……这些“齿轮”说是服务于业务,但它们的有效运转少不了平台运维管理人员的操作,这足以说明大数据平台的用户不仅是业务部门,要包括平台自己的管理人员,两类用户都拍手称赞才是真的好。比如支持服务能力的自助操作;有人性化的可视化报表;及时有效的满足用户各类需求。这些才是硬道理。

大数据平台为用户扫清了哪些障碍和效率提升:

运用大数据系统,可以帮助管理人员提供各类企业报表、可以帮助业务人员分析运营数据、可以帮助运维人员提供及时有效的监控报表…这些能力就是帮助用户扫清了自身领域的相关障碍,这些能力尤为可贵。

大数据平台附加了哪些增值收益:

大数据系统往往是企业的投资耗资业务,投入一个平台需要花钱,而长期运营这个平台更需要持续不断的资金投入。我们在评估大数据系统的耗资过程中,千万不要忘记它为企业带来了多少增值收益,这些才是合理考量TCO的有效参考。比如减少了30%的人员投入、比如提高了20%的业务效率、比如满足了企业系统建设的5年需要……这些能力都属于附加的增值收益。


说了这么多,有没有发现上述这些能力都很难被量化、很难被评估?而实际的软性能力运用往往是靠经验、靠感观。而今天所介绍的内容,恰恰是一个以数据为驱动,去评估大数据系统运营情况,从而理性的优化大数据架构并提升系统“软实力”的一个例子。

如左图所示,企业大数据系统可能是多元化系统所承载的,IT建设服务于业务,系统中的全量库表是每天按需、例行任务的服务原子。比如有些应用它需要大数据系统具备一定的作业复杂度能力,有些应用需要具备任务高可用能力,有些应用需要底层支持查询的并发访问,还有些应用需要任务具备一定的执行效率。

根据应用的实际需求,我们发现可能有些表需要频繁访问、有些需要多表关联复杂计算、有些只需要单表展现、有些表不怎么被访问甚至被遗忘……无论哪种情景,这种事实需要被我们发现,从系统最底层洞察表的变化。

而这个能力的捕获,就需要获取到各个系统的元数据信息,采集全量系统的元数据,构建元模型去洞察这一切,目的只有一个:即优化企业级大数据系统架构。右图所示,架构优化谈何容易?需要先确定方法,然后根据方法去获取信息,再进行分析…整个过程少不了又重新搭建了一套“大数据环境”。整个架构优化的筛选可以通过数据和任务两个维度分别提取。

数据维度:

  • 表的使用频度、热度?
  • 血缘关系复杂度?
  • 是否存长期不用或单表展现的?
  • ……

任务维度:

  • 任务间的依赖关系、当前查询的复杂度?
  • 当前作业所需的系统资源负载?(CPU/内存)
  • 任务对系统I/O的开销?
  • ……

通过这个手段,就可以有效地洞察到当前大数据系统的实际访问情况、获取到库表的实际使用热度、包括数据血缘情况和IT系统的资源开销。如何才能优化企业级大数据架构?以数据为驱动的合理布局才是首选。

所以,根据大数据生态系统的总体演进思路,需要分析当前系统的总体情况,迁移“鸡肋”的系统和数据以达到优化架构的目的。当然,在这个过程中首先需要结合对数据、任务和应用的理解,识别迁移的可行性,然后再有针对性的进行POC,最终得出可迁移的理论和实践依据。

如何才能优化企业级大数据架构?以数据为驱动的合理布局才是首选


分析世界讲方案,为您带来精彩的一页;


分享到:


相關文章: