Spark SQL簡介_技术 _ 頭條網

Spark為結構化數據處理引入了一個稱為Spark SQL的編程模塊。它提供了一個稱為DataFrame的編程抽象，並且可以充當分佈式SQL查詢引擎。

Spark SQL的特性

以下是Spark SQL的功能

集成

無縫地將SQL查詢與Spark程序混合。 Spark SQL允許您將結構化數據作為Spark中的分佈式數據集(RDD)進行查詢，在Python，Scala和Java中集成了API。這種緊密的集成使得可以輕鬆地運行SQL查詢以及複雜的分析算法。

統一數據訪問

加載和查詢來自各種來源的數據。 Schema-RDDs提供了一個有效處理結構化數據的單一接口，包括Apache Hive表，鑲木地板文件和JSON文件。

Hive兼容性

在現有倉庫上運行未修改的Hive查詢。 Spark SQL重用了Hive前端和MetaStore，為您提供與現有Hive數據，查詢和UDF的完全兼容性。只需將其與Hive一起安裝即可。

標準連接

通過JDBC或ODBC連接。 Spark SQL包括具有行業標準JDBC和ODBC連接的服務器模式。

可擴展性

對於交互式查詢和長查詢使用相同的引擎。 Spark SQL利用RDD模型來支持中查詢容錯，使其能夠擴展到大型作業。不要擔心為歷史數據使用不同的引擎。

Spark SQL架構

下圖說明了Spark SQL的體系結構

此架構包含三個層，即Language API，Schema RDD和數據源。

語言API

Spark與不同的語言和Spark SQL兼容。它也是由這些語言支持的API（python，scala，java，HiveQL）。

模式RDD

Spark Core是使用稱為RDD的特殊數據結構設計的。通常，Spark SQL適用於模式，表和記錄。因此，我們可以使用Schema RDD作為臨時表。我們可以將此Schema RDD稱為數據幀。

數據源

通常spark-core的數據源是文本文件，Avro文件等。但是，Spark SQL的數據源不同。這些是Parquet文件，JSON文檔，HIVE表和Cassandra數據庫。

我們將在隨後的章節中更多地討論這些。

相關文章:

Spark-local本地環境搭建

Spark SQL

Spark 網頁式 開發 （五）

Spark SQL 使用反射推斷模式

Spark 安裝教程

Spark RDD介紹

Spark 簡介與特徵

Spark 網頁式 開發 （二）

Spark 網頁式開發（一）

spark-submit之後，spark集群內發生了什麼？讓我們一探究竟

03.02 Spark+Zookeeper搭建高可用Spark集群

Spark SQL常見4種數據源詳解

Spark 機器學習四大類算法

Spark for Java: SparkCore RDD Value類型方法案例

Spark SQL概述

12.21 Spark RDD 概念以及核心原理

Spark Troubleshooting（故障排除）

Spark 數據傾斜解決方案

Spark JVM調優

Spark Shuffle調優

Spark 算子調優

Spark 常規性能調優

Spark BlockManager解析

Spark 內存管理

Spark-Core：調度

大數據乾貨分享：Spark Streaming 數據清理機制

Spark 核心概念

Spark Streaming狀態管理函數的選擇比較

hive on spark,spark sql 對比測試結果相差很大

Spark，從入門到精通

Hello Spark!

Spark Standalone集群模式部署（Window）及其Python開發環境搭建

11.14 Spark——診斷內存消耗

Spark-關於Shuffle

Spark 處理大數據的異常解決方案彙總

Spark Streaming VS Flink

Spark Graphx的API操作

Spark SQL與DataFrame詳解以及使用

Spark 彈性分佈式數據集（RDD）

Spark SQL支持的功能測試

Spark Shuffle 過程

spark-sql對多層級parquet支持

spark hadoop數據傾斜問題

Spark Runtime概述

Spark Streaming的容錯

Spark 讀取單個文本文件速度很慢解決方法

大數據實戰：spark DataFrame的union函數使用時的坑

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spark 網頁式開發（五）

Spark 網頁式開發（二）

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪