助力存储成本优化TalkingData、京东、陌陌共同探讨Alluxio的应用

许多大型企业都有结构化大数据,围绕大数据,大型互联网企业和初创企业“百家争鸣”,各家同质应用竞争日益激烈,服务范围涵盖大数据应用、硬件、技术等,随着数据爆炸性增长,为了帮助企业将数据能力与业务结合,提升效率、降低成本乃至最终提升盈利能力,业务部门亟需利用线上实时反馈数据辅助决策支持以提高服务水平,大数据的统一正成为使用传统方法管理的难题。而Alluxio在大数据系统性能提升以及生态系统多组件整合的进程中扮演着重要角色。

8月11日,京东大数据联合京东大学举办的“数说科技”第三期,以《Alluxio: 超大规模分布式存储的变革》为主题,邀请到了TalkingData、陌陌,与京东大数据团队展开了针对Alluxio技术在三家的应用进行了分享探讨,此次技术沙龙为“数说科技”活动首次全部面向外部开放报名名额,旨在让技术无公司界限,所有相关人员都能得到技术分享并共同进步。

助力存储成本优化TalkingData、京东、陌陌共同探讨Alluxio的应用

Alluxio大数据存储系统源自于UC Berkeley AMPLab,目前由Alluxio公司在开源社区主导开发,它是世界上第一个以内存为中心的虚拟的分布式存储系统,并将多样化的上层计算框架和底层存储系统连接起来,统一数据访问方式,为用户提供了多级数据存储策略,支持内存、SSD、机械盘在内的多种存储介质。它能够针对不同的计算框架与任务特点,分别配置数据源和存储资源,将多样化的上层计算框架和底层存储系统进行连接,应用程序只需要连接到Alluxio就可以访问存储在任何底层存储系统中的数据,实现在不同的计算框架间高速有效地实现数据共享和管理。此外,Alluxio提供的层次化存储、统一命名空间、世系关系、灵活的文件API、网页UI以及命令行工具等特性也方便了用户在不同实际应用场景下的使用。

助力存储成本优化TalkingData、京东、陌陌共同探讨Alluxio的应用

TalkingData ,不同用途达成多场景解决方案

助力存储成本优化TalkingData、京东、陌陌共同探讨Alluxio的应用

TalkingData研发副总裁 阎志涛

TalkingData从2014年开始构建自己的大数据平台,公司数据进行统一管理以方便进行数据探索,开发数据产品,目前每天处理新增数据超过20T。

初期TalkingData采用了更有发展前景、速度更快的Spark而非主流的Hive和MapReduce作为计算框架,但是,随着数据的增加,Spark从磁盘去读取最近期的数据进行计算再将结果写回到磁盘的过程开始不能满足实际情况,于是便引进了Alluxio。

Alluxio在TalkingData的最初使用场景是作为分布式的缓存,在存放热数据的过程中,解决了异构存储问题,统一了文件存储接口。这不仅开发简单,让数据更便于管理和维护,方便了未来存储的扩充,还满足了多个应用服务器可以通过Alluxio访问HDFS,隔离了异构存储的区别,使对外接口统一,解决并提升了数据计算性能问题,实现灵活的访问控制。

京东,提升10倍查询性能助力10亿消费者

助力存储成本优化TalkingData、京东、陌陌共同探讨Alluxio的应用

京东大数据平台分布式存储负责人 毛宝龙

京东大数据平台是一个开放、安全、智能的平台。HDFS作为分布式存储,是大数据平台的基础,此外,京东大数据平台提供了可视化管理和监控系统,可以方便、快捷地定位集群问题。目前,平台上拥有超过4万台服务器,每天处理超过100万任务,数据总量超过450个PB,而且以每天800TB+的规模进行增长。这些强大的数据、数据处理内容,帮助我们在丰富的场景下实现了诸多相关的智能应用。

目前,Alluxio 作为容错可插拔的优化组件,应用于京东体系内诸多计算框架,利用Alluxio优秀的缓存能力为ADHOC和实时流计算框架提供很好的支撑,降低集群对于网络消耗的依赖,同时,JDPresto on Alluxio已经在京东生产环境上线100台节点,覆盖从商城APP到微信手Q,到离线数据分析平台,使查询性能提升10倍以上,帮助京东千万商家和10亿消费者提供更加精准的营销和用户体验,帮助大家多快好省。

另外,京东也为Alluxio社区做出了许多贡献,京东大数据团队深度参与了RBF 开源版本的开发,为DBMS、Quota、挂载点处理逻辑方面贡献了很多补丁,完成了一些重要Bug的修复和测试。

陌陌,优化开销 3~5 倍解决大规模输入场景

助力存储成本优化TalkingData、京东、陌陌共同探讨Alluxio的应用

陌陌数据基础架构总监 金晓烨

Alluxio在陌陌大数据架构中作为缓存层存储, 服务于 Spark, Tez, MR(Hive)全部计算引擎的 Ad-hoc 查询加速, 并计划在解决好数据安全与权限管理后, 推广服务于核心 ETL 数据生产任务, 目前部署节点 879 台, 单节点内存配置 72G, 总计提供 60T 的内存文件存储服务。

使用 Alluxio 后相比线上综合环境优化开销 3~5 倍, 相较独立 Spark 有1.5~3倍时间开销优化。纯RAM带来提升和 HDD 没有量级上提升, 可考虑用 Alluxio HDD 减少集群搭建成本。在某些小规模输入场景下,Spark模式和Alluixo模式取得了相近甚至优于Alluxio模式的时间开销, 这主要由于Spark具有自身的内存缓存管理机制。但是一旦缓存数据量超过了JVM的内存,Spark就不能保持相应的性能效果了,而Alluxio由于使用了堆外内存技术所以不受相应限制。

助力存储成本优化TalkingData、京东、陌陌共同探讨Alluxio的应用

综上所述,Alluxio是第一个将大数据统一起来的存储虚拟化技术,它的独特之处在于底层存储的集成是通过配置完成而不是通过ETL进行,并且数据驻留在它的源系统中,有效地消除了陈旧的数据。

在大数据时代,使用数据核心依赖的技术就是计算和存储。Alluxio将更多的数据迁移到低成本的存储中,并且提供快速本地访问重要且频繁使用的数据,从而允许企业优化存储成本。所有的这些都是在可扩展的、安全和容错的分布式系统中实现的。作为领先的开源存储相关的开源项目,相信Alluxio能够在越来越多的公司的不同的场景中产生价值真正解决业务相关的问题。


分享到:


相關文章: