雲計算將如何影響數據倉庫技術？頭條網

2021-04-08 15:47:13 佚名

近年來，數據生成水平激增，其特點是工業領域中很多企業進行了巨大的數字化轉型。全球範圍內生成的數據量正在快速增長。實際上，行業媒體Gigabit Magazine的研究表明，全球2020年生成的數據量將比10年前增長25倍以上。此外，據估計，到2025年，生成的累積數據將增加三倍，達到近175ZB。

目前，業務決策者對實時數據訪問的需求也在以前所未有的速度增長，以便於進行明智的業務決策。

為了使數據對他們的業務有用、可行和可擴展，企業需要一種有效且經濟高效的方式來存儲、標記和解釋這些數據。實現這種目的最有利可圖的方法之一就是採用數據倉庫。

這一概念可以追溯到上世紀70年代，當計算機科學家Bill Inmon首次提出“數據倉庫”一詞時，就出現了數據倉庫市場。早期的數據倉庫創建為本地服務器，其構建能力僅為千兆字節。從那時起，它們經歷了重大的變革，現代化的倉庫可容納更大的容量。

數據倉庫，也稱為決策支持數據庫，是指一箇中央存儲庫，用於保存從一個或多個數據源（例如事務系統和關係數據庫）衍生的信息。系統中收集的數據可以採用非結構化、半結構化或結構化數據的形式。然後對這些數據進行處理、轉換和使用，以使用戶可以更輕鬆地通過SQL客戶端，電子表格和商業智能工具對其進行訪問。

數據倉庫還促進了更輕鬆的數據挖掘，這是對數據中的模式進行標識，然後可以用來推動更高的利潤和銷售量。數據倉庫行業的應用範圍跨越了與分析乃至雲計算相關的多個領域，在某些情況下，其中包括醫療保健、製造業、電信與IT、零售和政府等。

在技術領域，有幾家公司在推進數據倉庫技術方面取得了長足的進步。最著名的公司之一是Teradata公司，這是一家行業領先的數據倉庫公司，在該領域擁有30多年的經驗。Teradata軟件被廣泛用於許多行業的各種數據倉庫活動，尤其是在銀行業。該公司一直致力於通過創新的新技術（包括基於Hadoop的服務）來增強其商業智能解決方案。

大數據和數據倉庫

在現代時代，大數據和數據科學正在極大地顛覆企業開展業務以及決策流程的方式。跨行業擁有如此大量的數據，對高效大數據分析的需求變得至關重要。大數據最早是在上世紀90年代出現的，但是這個概念可以追溯到術語創造之前，直到計算機時代的曙光，那時企業將使用大型電子表格分析數字和研究趨勢。

隨著1990年代末和2000年代初出現新的數據源，它們開始推動了海量數據的產生。隨著移動設備和搜索引擎的興起，這種趨勢尤其激增，搜索引擎比以往任何時候都可以輸出更多的數據。表徵大數據出現的另一個因素是速度。數據生成速度越快，所需的處理就越多。因此，在2005年，Gartner公司將大數據的概念描述為數據的3V，也就是數量，速度和種類。

隨著數據量持續快速增長，傳統的關係數據庫和數據倉庫無法處理這些數據。為了規避此問題並確保更高效的大數據分析系統，雅虎等公司的工程師於2006年創建了Hadoop，這是一個Apache開放源項目，它具有分佈式處理框架，即使在集群平臺上也可以運行大數據應用程序。