Spark SQL 使用反射推斷模式_技术 _ 頭條網

此方法使用反射來生成包含特定類型的對象的RDD的模式。 Spark SQL的Scala接口支持將包含案例類的RDD自動轉換為DataFrame。 case類定義了表的模式。 case類的參數的名稱使用反射讀取，它們成為列的名稱。

案例類也可以嵌套或包含複雜類型，如序列或數組。此RDD可以隱式地轉換為DataFrame，然後註冊為表。表可以在後續的SQL語句中使用。

例

讓我們考慮一個名為employeeee.txt的文本文件中的員工記錄示例。通過從文本文件讀取數據並使用默認SQL函數將其轉換為DataFrame來創建RDD。

給定數據 - 查看在運行spark shell點的當前相應目錄中名為employees.txt的文件的以下數據。

以下示例說明如何使用“反射”生成模式。

啟動Spark Shell

使用以下命令啟動Spark Shell。

創建SQLContext

使用以下命令生成SQLContext。這裡，scmeans是SparkContext對象。

導入SQL函數

使用以下命令導入用於將RDD隱式轉換為DataFrame的所有SQL函數。

創建Case Class

接下來，我們必須使用案例類定義員工記錄數據的模式。以下命令用於根據給定數據（id，name，age）聲明Case Class。

創建RDD和應用轉換

使用以下命令生成RDD namedemplby，從中讀取數據fromemployee.txt並使用Map函數將其轉換為DataFrame。這裡，定義了兩個映射函數。一個是將文本記錄分割成字段（.map（_。split（“，”）））和第二個映射函數用於將單個字段（id，name，age）轉換為一個case類對象 0）.trim.toInt，e（1），e（2）.trim.toInt））。最後，toDF（）方法用於將具有模式的案例類對象轉換為DataFrame。

輸出：

將DataFrame數據存儲在表中

使用以下命令將DataFrame數據存儲到名為employeeee的表中。在這個命令之後，我們可以應用所有類型的SQL語句。

員工表已準備就緒。讓我們現在使用SQLContext.sql（）方法在表上傳遞一些sql查詢。
選擇DataFrame上的查詢

使用以下命令從theemployableable中選擇所有記錄。這裡，我們使用變量allrecords來捕獲所有記錄數據。要顯示這些記錄，請調用show（）方法。

要查看allrecords DataFrame的結果數據，請使用以下命令。

輸出：

子句SQL查詢數據幀

使用以下命令在表中應用where語句。這裡，變量agefilter存儲年齡在20和35之間的僱員的記錄。

要查看agefilter數據幀的結果數據，請使用以下命令。

輸出：

前兩個查詢是針對整個表DataFrame傳遞的。現在讓我們嘗試通過對其應用Transform來從結果DataFrame獲取數據。

使用列索引從agefilter 數據幀獲取ID值以下語句用於從agefilter RDD結果中獲取ID值，使用字段索引。

輸出

這種基於反射的方法可以獲得更加簡潔的代碼，並且在編寫Spark應用程序時更好地瞭解其概要。

相關文章:

Spark-local本地環境搭建

Spark SQL

Spark 網頁式 開發 （五）

Spark SQL簡介

Spark 安裝教程

Spark RDD介紹

Spark 簡介與特徵

Spark 網頁式 開發 （二）

Spark 網頁式開發（一）

spark-submit之後，spark集群內發生了什麼？讓我們一探究竟

03.02 Spark+Zookeeper搭建高可用Spark集群

Spark SQL常見4種數據源詳解

Spark 機器學習四大類算法

Spark for Java: SparkCore RDD Value類型方法案例

Spark SQL概述

12.21 Spark RDD 概念以及核心原理

Spark Troubleshooting（故障排除）

Spark 數據傾斜解決方案

Spark JVM調優

Spark Shuffle調優

Spark 算子調優

Spark 常規性能調優

Spark BlockManager解析

Spark 內存管理

Spark-Core：調度

大數據乾貨分享：Spark Streaming 數據清理機制

Spark 核心概念

Spark Streaming狀態管理函數的選擇比較

hive on spark,spark sql 對比測試結果相差很大

Spark，從入門到精通

Hello Spark!

Spark Standalone集群模式部署（Window）及其Python開發環境搭建

11.14 Spark——診斷內存消耗

Spark-關於Shuffle

Spark 處理大數據的異常解決方案彙總

Spark Streaming VS Flink

Spark Graphx的API操作

Spark SQL與DataFrame詳解以及使用

Spark 彈性分佈式數據集（RDD）

Spark SQL支持的功能測試

Spark Shuffle 過程

spark-sql對多層級parquet支持

spark hadoop數據傾斜問題

Spark Runtime概述

Spark Streaming的容錯

Spark 讀取單個文本文件速度很慢解決方法

大數據實戰：spark DataFrame的union函數使用時的坑

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spark 網頁式開發（五）

Spark 網頁式開發（二）

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪