美國數據科學家公認的大數據分析工具10個必備功能

大數據分析涉及一個複雜的流程,可以跨越業務管理、數據科學家、開發人員和生產團隊。制定新的數據分析模型只是這個複雜過程的一部分。

美國數據科學家公認的大數據分析工具10個必備功能

以下是大數據分析工具中的10個必備功能,可幫助減少數據科學家改善業務成果所需的工作量。

1.可嵌入的結果

當從數據模型中收集的信息有助於如何使用其他應用程序時時,大數據分析可以獲得價值。

“能夠將這些見解納入實時決策過程至關重要,”內存數據庫提供商VoltDB的首席技術專家Dheeraj Remella說。

這些功能應該包括以易於嵌入決策平臺的方式創建洞察的能力,該平臺應該能夠將這些見解應用於實時事件的數據流中,以制定即時決策。

2.數據爭論

數據科學家傾向於花費大量時間來清理、標記和組織數據以進行數據分析。這涉及跨不同數據源和類型、應用程序和API的無縫集成、清理數據以及提供數據的精細、基於角色的安全訪問。

數據庫提供商InterSystems數據平臺營銷總監Joe Lichtenberg表示,大數據分析工具必須支持全方位的數據類型、協議和集成場景,以加快和簡化這些步驟。

3.數據探索

數據分析經常涉及底層數據的臨時發現和探索。此探索可幫助組織瞭解問題的業務環境並制定更好的分析問題策略。有助於簡化此過程的功能可以減少測試有關數據的新假設所需的工作量,從而更快地清除壞數據,並簡化發現數據中隱藏的有用連接。

強大的可視化功能還可以幫助進行數據探索。

4.支持不同的分析

將數據分析結果投入生產的方法有很多種,包括商業智能,預測分析,實時分析和機器學習。每種方法都為業務提供了不同的價值。良好的大數據分析工具應該具有足夠的功能和靈活性,以最小的努力支持這些不同的用例,或者採用不同的工具時可能涉及的再培訓。

5.可擴展性

數據科學家通常可以長時間在小數據集上開發和測試不同的數據模型。但由此產生的分析模型需要經濟地運行,並且通常必須快速提供結果。這要求這些模型支持高水平的規模,用於攝取數據和在生產中使用大型數據集,而無需過多的硬件或雲服務成本。

預測分析公司Descartes Labs的數據科學負責人Eduardo Franco說:“一種將算法從小型數據集擴展到大型數據集的工具也很重要。”“為實現這一轉變要花費了大量的時間和精力,因此自動化是一個巨大的幫助。”

6.版本控制

在大型數據分析項目中,可能有幾個人參與調整數據分析模型參數。其中一些變化可能最初看起來很有希望,但是當它們投入生產時會產生意想不到的問題。

大數據分析工具中內置的版本控制可以提高跟蹤這些更改的能力。如果以後出現問題,它還可以更輕鬆地將分析模型回滾到先前版本。

數據運營平臺提供商Devo USA的數據科學副總裁查爾斯·阿米克說:“如果沒有版本控制,單個開發人員進行的一次更改可能會導致已經創建的所有內容發生故障。”

7.簡單集成

數據科學家和開發人員花在定製集成以處理數據源和連接應用程序上的時間越少,他們花在改進數據分析模型和應用程序上的時間就越多。

簡單的集成還可以更輕鬆地與其他開發人員和數據科學家共享結果。數據分析工具應支持與現有企業和雲應用程序以及數據倉庫的輕鬆集成。

8.數據管理

大數據分析工具需要一個強大而高效的數據管理平臺,以確保所有可交付成果的連續性和標準化,數據分析諮詢公司Velocity Group Development的分析主管Tim Lafferty說。隨著數據量的增加,可變性也隨之增加。

強大的數據管理平臺可以幫助企業維護單一的事實來源,這對於成功的數據計劃至關重要。

9.數據治理

數據治理功能對於大數據分析工具非常重要,可幫助企業保持合規性和安全性。這包括能夠跟蹤用於構建分析模型的數據集的來源和特徵,以及幫助保護和管理數據科學家和工程師使用的數據。用於構建模型的數據集可能會引入隱藏的偏差,從而產生歧視問題。

數據治理對於敏感數據尤為重要,例如受保護的健康信息和需要遵守隱私法規的個人身份信息。現在,一些工具包括偽造數據的能力,允許數據科學家根據GDPR等法規建立基於個人信息的模型。

10.數據處理框架

許多大數據分析工具都專注於分析或數據處理。一些框架,如Apache Spark,都支持這兩種框架。這使得開發人員和數據科學家能夠使用相同的工具進行實時處理; 複雜的提取,轉換和加載任務; 機器學習; 報告; 和SQL。這很重要,因為數據科學是一個高度迭代的過程。數據科學家在到達投入生產的模型之前可能會創建100個模型。這種迭代過程通常涉及豐富數據以改進模型的結果。

“統一分析工具幫助企業在眾多孤立的數據存儲系統中構建數據管道,同時以迭代的方式對其解決方案進行培訓和建模,”數據分析平臺提供商Databricks的首席執行官兼聯合創始人Ali Ghodsi說。

(techtarget,George Lawton)


分享到:


相關文章: