Kubernetes, Alluxio 以及解耦的数据分析技术栈_技术 _ 頭條網

摘要：首先是要闻——Alluxio现在支持K8s Helm charts啦！K8s是Alluxio的一种经过认证的运行环境了。现在，重点是——Alluxio为K8s中的解耦式的数据分析技术栈带回了数据本地性。怎么做到的？继续读下去吧：）

在过去几年中，容器在实际部署中的兴起是毫无争议的。容器使得在任意环境中运行应用变得简单，而Kubernetes进一步改变了软件和应用程序的部署及扩展方式，而不用关心具体的环境。实际上，Kubernetes越来越被视为一项关键技术，它不仅让数据中心中的资源编排变得简单，并且在混合环境和多云环境中也是如此。尽管容器和Kubernetes在无状态应用程序（例如Web服务器）甚至完全独立的数据库（例如mongoDB，Couchbase等）上都表现出色，但在高级数据分析和AI的世界中，技术体系看起来有些不同。

现代的数据分析技术栈采用的是高度解耦的架构。与传统的数据库或数据仓库不同的是，新式的技术栈是分开的。

选择一个数据湖（或者两个、三个）用来存储数据（S3, GCS, HDFS等）选择一个计算框架用来分析数据（Apache Spark,Presto, Hive, TensorFlow等）确保其他所有的依赖项（如目录服务）均可用（Hive Metastore，AWS Glue，KMS等）

在K8s中运行解耦数据分析栈的挑战

Kubernetes极大地降低了将多个分布式系统一起部署的复杂性。并且，在K8s集群上运行高级数据分析将成为常态。但是，要使这种现代的分析技术栈有效，仍然存在一些关键的差距需要弥补。

挑战#1——K8s集群中没有共享的数据访问/缓存层

K8s是一种出色的容器编排技术，借助Helm图表、算子等工具，可以大大简化部署。但是，对于诸如高级分析之类的数据密集型工作负载，我们通常需要有效地共享作业之间的数据，这样一个job中的数据才能被下一个job轻松地访问到。如果没有数据访问/缓存层，那我们就需要将数据写回到数据湖，然后又需要读回到K8s集群，这大大降低了数据流水线的效率。

挑战#2——缺少数据本地性

由于数据被存储在S3中，或其他云对象存储中，或Hadoop的本地存储中，为了在K8s集群中执行分析任务，用户只有两种选择。数据要么被远程访问（意味着性能不佳），要么被手动复制到K8s集群中（意味着每个工作负载的承担者会面临大量额外的DevOps和管理开销）。通常，管理这些副本之间的差异将带来沉重的负担。理想的解决方案是，在这种解构式的技术栈之中重新创造出数据局部性。

挑战#3——没有可用于弹性计算的数据弹性

K8s的优点在于，即使在最复杂的计算工作负载上，它也可以根据需要和需求灵活地扩展：缩小、升级、重新启动等。但是，对于数据密集型的工作负载而言，对于可获取的数据的依赖性依然存在。在对计算进行横向、纵向或者扩大、缩小的扩展时，K8s中的数据也必须能够完成同样的操作，这样才能利用K8s所带来的灵活性。

数据编排可以通过将数据同步到K8s集群中，并允许无缝的内存数据访问和灵活的跨作业数据共享，以及根据需要进行缩小或扩展，来解决这些挑战。

上手指南

要了解更多关于如何用Helm Charts部署Alluxio，可阅读相关文档（见参考链接1）。

您可以通过我们的docker sandbox教程（见参考链接2）来上手使用Alluxio！

参考链接：

链接1：https://docs.alluxio.io/ee/user/stable/en/deploy/Running-Alluxio-On-Kubernetes.html#deploy-using-helm

链接2：https://www.alluxio.io/products/aws/alluxio-presto-sandbox-aws/

在K8s中运行解耦数据分析栈的挑战

最新消息

上手指南

相關文章:

【技术】一个由于时间问题引发的血案

2019 年十大 Web Hacking 技术

HDR imaging(3)----split/sub pixel 技术

如何理解思科SP CCIE大网中的网络服务质量QOS 技术

[技术]Java 面试中常用的八种排序算法与代码实现！

「技术」为什么单片机C语言编程时某一变量有时被修改乱码

01.17 技术」某大佬的BypassWAF新思路（附脚本）

​XMLHttpRequest VS. Fetch, 谁才是 2019 最适合的 AJAX 技术？

12.27 ​XMLHttpRequest VS. Fetch, 谁才是 2019 最适合的 AJAX 技术？

为什么 CPU 技术进步慢于 GPU 技术？

支撑百万并发的“零拷贝”技术，你了解吗？

驼子的学习笔记——利用TIA创建WinCC画面，监视电机的正反转

《就业、利息和货币通论》三有效需求原则：有效需求和充分就业

学姐教你学VUE.JS系列之第二课：vue数据双向绑定

数控宏程序车椭圆，每年数控技能大赛必考的题目，你会了吗？

同步模块synchronize——自动化运维工具Ansible的模块实例

PLC基础知识系列：PLC梯形图怎样编程？看这里！

小程序内嵌网页能力开放

散光——怎么矫最舒服？

单片机常用指令

区块链知识分享——虚拟机（1）

MAX 的另类用法！强制负数变为0

一图让你秒懂——中国数据库的40年江湖

Spring之Junit单元测试

抽象函数关系式求奇偶性+解不等式（必修一必考压轴题）

「特刊」这5年，科技创新成就杠杠的！丨迎接十九大

判别式法｜终结二次分式函数的值域~90%的学生不知道还有这种方法

区块链知识分享——Ripple

刘朵朵图集赏析

知识点-SSM表单参数绑定及自定义

电脑无法启动多操作系统故障解决方法

电脑开机报错故障原因及解决办法详解

无师自通之经典PLC自学实例—3

C++——深入简出之Stack

Handler与多线程

C 标准库-<math.h>

干货——.net封装http访问类 便捷实用

在Centos7上面搭建三个节点的kafka集群

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

30种不同的编程语言怎么写“Hello, World”

percona QAN 介绍

面试官：你可以用纯CSS判断鼠标进入的方向吗？

网络工程师职业生涯中，哪两点是最重要的？

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

Hive分桶表

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

第一章 Spring Framework概述

opencv人工智能深度学习这样实现人脸的年龄检测

XMLHttpRequest VS. Fetch, 谁才是 2019 最适合的 AJAX 技术？

12.27 XMLHttpRequest VS. Fetch, 谁才是 2019 最适合的 AJAX 技术？

干货——.net封装http访问类便捷实用

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪