大数据平台的软件有哪些?

真实的我4L


1、 数据库,大数据平台类:

星环,做Hadoop生态系列的大数据底层平台公司。Hadoop是开源的,星环主要做的是把Hadoop不稳定的部分优化,功能细化,为企业提供Hadoop大数据引擎及数据库工具。

2、 云计算,云端大数据类,

阿里巴巴,明星产品-阿里云,与亚马逊AWS抗衡,做公有云、私有云、混合云。实力不差,符合阿里巴巴的气质,很有野心。

3、 大数据决策平台:

帆软。帆软是商业智能和数据分析平台提供商,从报表工具到商业智能BI,有十多年的数据应用的底子,在这个领域很成熟,但是很低调。旗下的报表产品FineReport和商业智能FineBI值得推荐。

Finereport:各方面都很成熟的一款大数据软件,适用于对海量数据的处理与分析。比较符合中国人数据分析的习惯和逻辑,用不惯国外软件的数据分析师建议使用。

这是一个商用报表软件,企业级应用,一定程度上可替代Excel,如业务系统报表,数据分析报表,财务报表。可与OA,ERP,CRM集成。主要两大核心是填报和数据展示。懂点java的话可以做开发,比如我同事用这个开发了一个公司内部的考试系统。

FineBI

个人最常用的BI分析工具,用习惯了觉得这个工具很简单很傻瓜。操作类似Tableau,拖拽分析字段即可生成图表,图表是自动推荐的,精确智能。基本不需要写函数,内置各种计算功能,数据过滤筛选条件等。内置一些基本的回归、预测数据挖掘功能,制作可视化仪表板很方便。个人使用免费。

可以看我之前写的一篇文章:李启方:这可能是今年最值得推荐的数据分析工具
4、 大数据存储硬件类:

浪潮,很老牌的IT公司,国资委控股,研究大数据方面的存储,在国内比较领先。


帆软软件


首推鉴:Hadoop,私有云最佳方案。hadoop下面还会涉及hbase,hive,spark,zookeeper,mapreduce等等。开源,免费,稳定,很多大公司都在用。


如果小公司自己用,那就去用各家的云服务。像阿里云,腾讯云,华为云之类的,都有相关大数据服务。


1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。


2、Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。

Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。

Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。

Hadoop 还是可伸缩的,能够处理 PB 级数据。
此外,Hadoop 依赖于社区服务,因此它的成本比较低,任何人都可以使用。


3、Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:

高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

4、Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。

5、hadoop大数据处理的意义Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。


Adair品科技


这个要分好几块来讲,首先我要说明的是大数据项目也是要有很多依赖的模块的。每个模块的软件不一样,下面分别聊一下。

一、大数据处理

这个是所谓大数据项目中最先想到的模块。主要有spark,hadoop,es,kafka,hbase,hive等。

当然像是flume,sqoop也都很常用。

这些软件主要是为了解决海量数据处理的问题。软件很多,我只列几个经典的,具体可以自行百度。

二、机器学习相关

大部分大数据项目都和机器学习相关。因此会考虑到机器学习的一些软件,比如说sklearn,spark的ml,当然还有自己实现的代码。

三、web相关技术

大部分项目也都跑不了一个web的展示,因此web就很重要的,java的ssh,python的django都可以,这个看具体的项目组习惯了。

四、其它

还有一些很常用的东西,个人感觉不完全算是大数据特定使用范围。反正我在做大数据项目的时候也都用到了。

比如说数据存储:redis,mysql。

数据可视化:echart,d3js。

图数据库:neo4j。

再来说说大数据平台的软件或者工具:

1、 数据库,大数据平台类,星环,做Hadoop生态系列的大数据平台公司。Hadoop是开源的,星环主要做的是把Hadoop不稳定的部分优化,功能细化,为企业提供Hadoop大数据引擎及数据库工具。

2、 大数据存储硬件类,浪潮,很老牌的IT公司,国资委控股,研究大数据方面的存储,在国内比较领先。

3、 云计算,云端大数据类,阿里巴巴,明星产品-阿里云,与亚马逊AWS抗衡,做公有云、私有云、混合云。实力不差,符合阿里巴巴的气质,很有野心。

4、 数据应用方面这个有很多,比如帆软旗下的FineReport报表系统和FineBI大数据分析平台等。

帆软是商业智能和数据分析平台提供商,从报表工具到商业智能,有十多年的数据应用的底子,在这个领域很成熟,目前处于快速成长期,但是很低调,是一家有技术有实力而且对客户很真诚的公司。


分享到:


相關文章: