兩款新的數據服務在AWS寧夏區域上線

AWS今天宣佈,兩個新的數據服務Amazon Athena和AWS Glue,在由西雲數據運營的AWS中國 (寧夏) 區域正式上線。

Amazon Athena是一種交互式查詢服務,它讓客戶可以使用標準SQL語言、輕鬆分析Amazon Simple Storage Service (Amazon S3) 中的數據。由於Athena是一種無服務器服務,因此客戶不需要管理基礎設施,而且只為他們運行的查詢付費。Athena可以自動擴展,並行執行查詢,所以即便是大型數據集和複雜的查詢,也能很快獲得查詢結果。

AWS Glue是一種全託管的數據提取、轉換和加載 (ETL) 服務及元數據目錄。它讓客戶更容易準備數據,加載數據到數據庫、數據倉庫和數據湖,用於數據分析。使用AWS Glue,在幾分鐘之內便可以準備好數據用於分析。由於AWS Glue是無服務器服務,客戶在執行ETL任務時,只需要為他們所消耗的計算資源付費。


兩款新的數據服務在AWS寧夏區域上線

AWS提供了諸如Amazon Redshift和Amazon Elastic MapReduce (Amazon EMR) 等分析服務,讓各種規模的公司都可以實現PB級數據的分析。通過Amazon Redshift,客戶可以對大規模的結構化數據執行復雜的查詢,並獲得超高速的性能。對於非結構化數據,Amazon EMR使用流行的分佈式框架,例如Apache Spark、Presto、Hive和Pig,橫跨多個可動態伸縮的集群,處理和分析大量數據,快速又經濟。雖然這些服務是可伸縮的,而且足夠強大到可以處理大且複雜的大數據應用,但是,許多客戶也希望能夠很快地查詢Amazon S3上的數據,例如web日誌、點擊流、原始日誌文件等,而無需開啟、配置和管理Hadoop集群或數據倉庫。現在,使用Athena分析Amazon S3中的數據就像編寫SQL查詢一樣簡單。Athena使用完整支持標準SQL的Presto,可以處理各種標準數據格式,包括CSV、JSON、ORC和Parquet。因為Athena使用多個可用區的計算資源執行查詢,而且使用Amazon S3作為底層數據存儲,所以它具有高可用性和持久性,數據冗餘存儲在多處基礎設施中,並且是每處基礎設施上的多個設備上。

客戶在使用數據湖架構實現數據分析解決方案時,通常有75%的時間花在數據集成任務上,需要從各種數據源提取數據,對其進行規範化,並將其加載到數據存儲中。AWS Glue消除了ETL作業基礎設施方面的所有重複勞動,讓Amazon S3數據湖中的數據集可以被發現、可用於查詢和分析,極大地縮短分析項目中做ETL和數據編目階段的時間,讓ETL變得很容易。

AWS Glue在從客戶選擇的數據源把數據爬取出來之後,會自動識別數據格式和模式(schema),構建統一的數據目錄,併為客戶提供所選數據的中央視圖。這使得客戶很容易跨越各種數據存儲,檢索和管理所有數據,而不必手動搬運它們。當客戶從數據目錄中標識出數據源(例如一個數據庫表) 和數據目標 (例如一個數據倉庫) 時,AWS Glue將匹配相應的模式,生成可定製、可重用、可移植、可共享的數據轉換代碼。開發人員可以調度任意數量的ETL作業,AWS Glue則會管理其餘的工作,根據客戶ETL工作負載自動啟用或關閉計算資源。通過簡化創建ETL作業的過程,AWS Glue讓客戶可以構建可伸縮、可靠的數據準備平臺。這些平臺可以跨越數千個ETL作業,具有內置的依賴性解析、調度、資源管理和監控功能。


分享到:


相關文章: