Hadoop实现了一个分布式文件系统简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求,可以以流的形式访问文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
Hadoop的核心组件
1、海量存储——HDFS
- 分布式易扩展
- 廉价易得
- 高吞吐量
- 高可靠性
2、分布式并行计算——资源调度+编程模型
- 大容量高并发
- 封装分布式实现细节
- 大大提高分析效率
Hadoop的优点
- 扩展性:Hadoop可以扩展至数千个节点,对数据持续增长,数据量特别巨大的需求很合适。
- 低成本:Hadoop对硬件要求不高,从软件上节约成本。
- 生态群活跃:其周边开源项目丰富,HBase, Hive,Impala等等基础开源项目众多。
Hadoop 正失去市场?
然而令人惊讶的是,最近行业里开始传出一种声音:Hadoop 的市场占有率已经出现了明显的停滞不前。甚至 IBM 的大数据宣传人员 James Kobielus 还公开表示:“Hadoop 在大数据领域的颓势比我预期的还要严重。”
调查显示:在没有投资的人中,有 49% 的人正在努力学习怎样行之有效地利用 Hadoop 为企业创造更多价值,其次还有将近 57% 的人表示并非他们不想,但是存在技能差距是主要障碍,而且这种差距是无法在短期内缩小的。
以上结论与另一项关于 Hadoop 的调查相一致:在2014年中期,大约有 0.061% 的招聘广告中出现了“Hadoop Testing”这个关键词,然后该数字在 2016 年末又上升到 0.087%,在 18 个月内增长了大约 43%。
其实单纯从 Hadoop 的市场占有率来推断其发展态势似乎有些片面了,因为还有许多公司并非不想采用 Hadoop,只是他们发现很难利用现有的技术团队充分挖掘 Hadoop 的应用价值,实际上,他们只是需要更多的专业知识。
閱讀更多 咱小二 的文章