今天的市場充斥著一系列大數據工具。它們將成本效率,更好的時間管理帶入數據分析任務。以下是一些重要的大數據工具及其主要功能和下載鏈接。
1)Hadoop:
在Apache的Hadoop的軟件庫是一個大數據框架。它允許跨計算機集群分佈式處理大型數據集。它旨在從單個服務器擴展到數千臺計算機。
特徵:
- 使用HTTP代理服務器時的身份驗證改進
- Hadoop兼容文件系統工作規範
- 支持POSIX樣式的文件系統擴展屬性
- 它提供了強大的生態系統,非常適合滿足開發人員的分析需求
- 它帶來了數據處理的靈活性
- 它允許更快的數據處理
下載鏈接: https ://hadoop.apache.org/releases.html
2)HPCC:
HPCC是LexisNexis Risk Solution開發的大數據工具。它提供單一平臺,單一架構和單一編程語言,用於數據處理。
特徵:
- 使用更少的代碼高效地完成大數據任務。
- 提供高冗餘和可用性
- 它既可以用於Thor集群上的複雜數據處理
- 圖形化IDE,用於簡化開發,測試和調試
- 它自動優化並行處理的代碼
- 提供增強的可擴展性和性能
- ECL代碼編譯成優化的C ++,它也可以使用C ++庫進行擴展
下載鏈接: https ://hpccsystems.com/try-now
3)Storm:
Storm是一個免費的開源大數據計算系統。它提供分佈式實時,容錯處理系統。具有實時計算功能。
特徵:
- 它基準測試為每個節點每秒處理100萬個100字節消息
- 它使用跨機器集群運行的並行計算
- 如果節點死亡,它將自動重啟。該工作程序將在另一個節點上重新啟動
- Storm保證每個數據單元至少處理一次或完全一次
- 一旦部署,Storm肯定是Bigdata分析最簡單的工具
下載鏈接: http ://storm.apache.org/downloads.html
4)Qubole:
Qubole Data是自主大數據管理平臺。它是一種自我管理的自我優化工具,允許數據團隊專注於業務成果。
特徵:
- 適用於每個用例的單一平臺
- 開源引擎,針對雲進行了優化
- 全面的安全性,治理和合規性
- 提供可操作的警報,見解和建議,以優化可靠性,性能和成本
- 自動制定策略以避免執行重複的手動操作
下載鏈接:https ://www.qubole.com/
5)Cassandra:
在Apache的Cassandra數據庫今天廣泛地用於提供大量數據的有效管理。
特徵:
- 通過為用戶提供更低的延遲,支持跨多個數據中心進行復制
- 數據會自動複製到多個節點以實現容錯
- 它最適合不能丟失數據的應用程序,即使整個數據中心停機也是如此
- Cassandra提供支持合同和服務,可從第三方獲得
下載鏈接: http ://cassandra.apache.org/download/
6)Statwing:
Statwing是一種易於使用的統計工具。它是由大數據分析師構建的。其現代界面自動選擇統計測試。
特徵:
- 在幾秒鐘內探索任何數據
- Statwing有助於在幾分鐘內清理數據,探索關係並創建圖表
- 它允許創建導出到Excel或PowerPoint的直方圖,散點圖,熱圖和條形圖
- 它還將結果翻譯成普通英語,因此分析師不熟悉統計分析
下載鏈接: https ://www.statwing.com/
7)CouchDB:
CouchDB將數據存儲在JSON文檔中,可以使用JavaScript訪問Web或查詢。它提供具有容錯存儲的分佈式擴展。它允許通過定義Couch複製協議來訪問數據。
特徵:
- CouchDB是一個單節點數據庫,可以像任何其他數據庫一樣工作
- 它允許在任意數量的服務器上運行單個邏輯數據庫服務器
- 它利用了無處不在的HTTP協議和JSON數據格式
- 跨多個服務器實例輕鬆複製數據庫
- 簡單的文檔插入,更新,檢索和刪除界面
- 基於JSON的文檔格式可以跨不同語言進行翻譯
下載鏈接: http ://couchdb.apache.org/
8)Pentaho:
Pentaho提供大數據工具來提取,準備和混合數據。它提供可視化和分析,可以改變運營任何業務的方式。這個大數據工具可以將大數據轉化為重要的見解。
特徵:
- 數據訪問和集成,實現有效的數據可視化
- 它使用戶能夠在源頭構建大數據並將其流式傳輸以進行準確分析
- 無縫切換或組合數據處理與集群內執行,以獲得最大程度的處理
- 允許通過輕鬆訪問分析來檢查數據,包括圖表,可視化和報告
- 通過提供獨特的功能支持各種大數據源
下載鏈接: http ://www.pentaho.com/download
9)Flink:
Apache Flink是一個開源流處理大數據工具。它是分佈式,高性能,始終可用且準確的數據流應用程序。
特徵:
- 提供準確的結果,即使對於無序或遲到的數據也是如此
- 它具有狀態和容錯能力,可以從故障中恢復
- 它可以在大規模上運行,在數千個節點上運行
- 具有良好的吞吐量和延遲特性
- 這個大數據工具支持使用事件時間語義的流處理和窗口化
- 它支持基於數據驅動窗口的時間,計數或會話的靈活窗口
- 它支持各種用於數據源和接收器的第三方系統連接器
下載鏈接: https ://flink.apache.org/
10)Cloudera:
Cloudera是最快,最簡單,最安全的現代大數據平臺。它允許任何人在單個可擴展平臺內的任何環境中獲取任何數據。
特徵:
- 高性能分析
- 它提供多雲服務
- 跨AWS,Microsoft Azure和Google Cloud Platform部署和管理Cloudera Enterprise
- 啟動和終止群集,只需在需要時支付所需費用
- 開發和培訓數據模型
- 報告,探索和自助服務商業智能
- 提供監控和檢測的實時洞察
- 進行準確的模型評分和服務
下載鏈接: https ://www.cloudera.com/
11)Openrefine:
Open Refine是一款功能強大的大數據工具。它有助於處理凌亂的數據,清理數據並將其從一種格式轉換為另一種格式。它還允許使用Web服務和外部數據擴展它。
特徵:
- OpenRefine工具可幫助您輕鬆瀏覽大型數據集
- 它可用於鏈接和擴展您的數據集與各種Web服務
- 以各種格式導入數據
- 在幾秒鐘內探索數據集
- 應用基本和高級單元格轉換
- 允許處理包含多個值的單元格
- 在數據集之間創建即時鏈接
- 在文本字段上使用命名實體提取來自動識別主題
- 藉助優化表達式語言執行高級數據操作
下載鏈接: http ://openrefine.org/download.html
12)Rapidminer:
RapidMiner是一個開源的大數據工具。它用於數據準備,機器學習和模型部署。它提供了一套產品來構建新的數據挖掘流程和設置預測分析。
特徵:
- 允許多種數據管理方法
- GUI或批處理
- 與內部數據庫集成
- 交互式,可共享的儀表板
- 大數據預測分析
- 遠程分析處理
- 數據過濾,合併,加入和聚合
- 構建,培訓和驗證預測模型
- 將流數據存儲到眾多數據庫中
- 報告和觸發的通知
下載鏈接: https ://my.rapidminer.com/nexus/account/index.html#downloads
13)DataCleaner:
DataCleaner是一個數據質量分析應用程序和解決方案平臺。它具有強大的數據分析引擎。它是可擴展的,從而增加了數據清理,轉換,匹配和合並。
特徵:
- 交互式和探索性數據分析
- 模糊重複記錄檢測
- 數據轉換和標準化
- 數據驗證和報告
- 使用參考數據清理數據
- 掌握Hadoop數據湖中的數據提取管道
- 在用戶花費在處理上的時間之前,確保有關數據的規則是正確的
- 查找異常值和其他惡魔細節,以排除或修復不正確的數據
下載鏈接: http ://datacleaner.org/
14)Kaggle:
Kaggle是世界上最大的大數據社區。它幫助組織和研究人員發佈他們的數據和統計數據。它是無縫分析數據的最佳位置。
特徵:
- 發現和無縫分析開放數據的最佳位置
- 搜索框以查找打開的數據集
- 有助於開放數據移動並與其他數據愛好者聯繫
下載鏈接:https ://www.kaggle.com/
15)Hive:
Hive也是一個開源軟件大數據。它允許程序員在Hadoop上分析大型數據集。它有助於快速查詢和管理大型數據集。
特徵:
- 它支持SQL,如用於交互和數據建模的查詢語言
- 它使用兩個主要任務map和reducer編譯語言
- 它允許使用Java或Python定義這些任務
- Hive專為管理和查詢結構化數據而設計
- Hive的SQL語言將用戶與Map Reduce編程的複雜性區分開來
- 它提供Java數據庫連接(JDBC)接口
下載鏈接: https ://hive.apache.org/downloads.html
閱讀更多 飛禹德蒙 的文章