5個大數據處理

0.Hadoop

Hadoop是一個開源框架,它允許在整個集群使用簡單編程模型計算機的分佈式環境存儲並處理大數據。它的目的是從單一的服務器到上千臺機器的擴展,每一個臺機都可以提供本地計算和存儲。

5個大數據處理/數據分析/分佈式工具

1.Druid

Druid是實時數據分析存儲系統,Java語言中最好的數據庫連接池。Druid能夠提供強大的監控和擴展功能。

Druid是一個分佈式的、面向列的、實時的分析數據存儲庫,通常用於為多租戶環境中的探索性儀表板供電。

Druid作為一種數據倉庫解決方案,擅長於對petabyte大小的數據集進行快速聚合查詢。Druid支持各種靈活的過濾器、精確計算、近似算法和其他有用的計算。

Druid可以同時加載流數據和批處理數據,並與Samza、Kafka、Storm、SPark和Hadoop集成。

5個大數據處理/數據分析/分佈式工具

2.Ambari

大數據平臺搭建、監控利器;類似的還有CDH

Ambari能夠:

提供Hadoop集群

  • Ambari為在任意數量的主機上安裝Hadoop服務提供了一個逐步向導。
  • Ambari處理集群Hadoop服務的配置。

管理Hadoop集群

  • Ambari為整個集群提供啟動、停止和重新配置Hadoop服務的中央管理。

監視Hadoop集群

  • Ambari為監視Hadoop集群的健康狀況和狀態提供了一個儀表板。
  • 安巴里槓桿Ambari度量系統用於度量集合。
  • 安巴里槓桿Ambari警報框架用於系統警報,並在需要注意時通知您(例如,節點下降,剩餘磁盤空間較低等)。
5個大數據處理/數據分析/分佈式工具

3.Spark

一個快速通用的集群計算系統.它在Java、Scala、Python和R中提供了高級API,並提供了支持通用執行圖的優化引擎。大規模數據處理框架(可以應付企業中常見的三種數據處理場景:複雜的批量數據處理(batch data processing);基於歷史數據的交互式查詢;基於實時數據流的數據處理,Ceph:Linux分佈式文件系統。

5個大數據處理/數據分析/分佈式工具

4.Storm

Storm是一個免費開源、分佈式、高容錯的實時計算系統。Storm令持續不斷的流計算變得容易,彌補了Hadoop批處理所不能滿足的實時要求。Storm經常用於在實時分析、在線機器學習、持續計算、分佈式遠程調用和ETL等領域。Storm的部署管理非常簡單,而且,在同類的流式計算工具,Storm的性能也是非常出眾的。

5個大數據處理/數據分析/分佈式工具

最後

為幫助那些往想互聯網方向轉行想學習,卻因為時間不夠,資源不足而放棄的人。我搜集整理了一套完整的IT學習資料,包括運營技巧、SEO優化等,比自己在網上零散收集的結構性和連貫性更強,只為幫助那些想學習的人!需要的同學可私信!私信!回覆“資料”

5個大數據處理/數據分析/分佈式工具

☟☟☟☟戳


分享到:


相關文章: