企業在大數據部署前必須提出的六個問題

企業在大數據部署前必須提出的六個問題

大數據在商業價值方面承諾很多,但企業很難確定如何部署利用該體系結構和工具所需的架構和工具。從描述性統計到預測建模到人工智能的所有內容都由大數據提供支持。而一個組織想要用大數據完成的事情將決定它需要推出的工具。在這個領域開始之前,每個企業都必須提出六個問題:

1.購買與構建?

第一個問題是你的組織是想要購買一個大數據系統還是從頭開始構建一個大的數據系統。來自Teradata,SAS,SAP和Splunk的熱門產品可以購買並簡單實施,而Hortonworks,Cloudera,Databricks和Apache Flink可用於構建大型數據系統。

購買提供了更短的時間價值,以及商品用例的簡單性和良好價值。然而,這種簡單性通常伴隨著更高的價格,而這些工具通常在低多樣性數據方面效果好。如果您的組織與供應商建立了現有關係,則可以更輕鬆地分階段使用新產品並嘗試使用大數據工具。

許多用於構建大數據系統的流行工具都很便宜或免費使用,並且更易於利用獨特的價值流。建設路徑提供了大規模和多樣化的機會,但這些工具可能非常複雜。互操作性往往是走這條路線的管理員面臨的最大問題之一。

2.批量與流媒體數據?

由Oracle,Hadoop MapReduce和Apache Spark等產品提供的批量數據是描述性的,可以處理大量數據。它們也可以按計劃進行安排,並且經常被用來為數據科學家建立實驗室。

像Apache Kafka,Splunk和Flink這樣的產品提供了流數據的功能,可以捕獲這些數據以創建潛在的預測模型。憑藉流媒體數據,速度勝過數據保真度,但它也提供了大規模和多樣化。

3. Kappa與lambda架構?

Twitter是lambda體系結構的一個例子。數據被分成兩條路徑,其中一條被送入速度層以便快速分析,而另一條路徑則導向批處理層和服務層。該模型使組織可以訪問批處理和流媒體洞察,並且很好地平衡有損流。這裡的挑戰是你必須管理兩個代碼和應用程​​序庫。

Kappa體系結構將所有內容都視為流,但它是旨在實時保持數據保真度和流程的流。所有的數據都被寫入一個不可變的日誌中,這些日誌的變化將被檢查。它硬件高效,代碼更少,而且這是建議為一個新的大數據組織開發的模型。

4.公共還是私有云?

大數據的公有云和私有云需要很多相同的考慮因素。對於初學者來說,組織必須考慮他們的人才最適合工作的環境。此外,還應該考慮數據來源,安全和合規需求以及彈性消費模型。

5.虛擬還是物理?

多年前,關於虛擬與物理基礎設施的爭論更為激烈。但是,虛擬化已經成長為與物理硬件相比具有競爭力,因為它們在大數據部署方面變得相似。這歸結於您的管理員對您的現有基礎架構更適合並且適用於您的現有基礎架構。

6. DAS與NAS?

直連存儲(DAS)曾經是部署Hadoop集群的唯一方式。但是,現在IP網絡增加了帶寬,網絡附加存儲(NAS)選項對於大數據更加可行。

有了DAS,上手很容易,模型可以很好地與軟件定義的概念一起使用。它被驅動來處理性能和存儲的線性增長,並且在流媒體數據方面表現良好。NAS可以很好地處理多協議需求,提供大規模的效率,並且還可以解決安全性和合規性需求。


分享到:


相關文章: