提供的腳本用於Spark會話，具有8個內核，4個執行程序，4Gb主內存和4Gb工作內存。

用Haversine計算地理距離

Haversine是一個公式，它採用兩個座標點（緯度和經度）並在一個對象上生成第三個座標點，以計算兩個原始點之間的表面距離，同時考慮對象的曲率。它假定物體的形狀（在我們的例子中是地球）是一個球體。我們知道地球實際上並不是一個完美的球體，但半徑是一個常數可以給出相當準確的結果。

在本例中，我們將生成包含新西蘭所有電臺的haversine距離的元數據。我們將選擇新西蘭。

首先，我們需要導入必須的Python庫。

from pyspark import SparkContext
 
from pyspark.sql import SparkSession
 
from pyspark.sql.types import *
 
from pyspark.sql import functions as F
 
from pyspark.sql import DataFrameWriter as W
 
from math import radians, cos, sin, asin, sqrt
 
spark = （SparkSession.builder
 .appName(‘’HDFS_Haversine_Fun”)
 .getOrCreate()）

接下來，我們需要加載所需的數據。對於此示例，您只需要站點元數據。但是稍後當您想要進行自己的分析時，您可能希望使用所有GHCN文件。Python代碼如下：

input_stations = (spark.read.format(“text”)
 .load(“hdfs:///data/ghcnd/stations”))
 
stations_df = input_stations.select(
 
F.trim(F.substring(F.col(“value”), 1 , 11–1 + 1 )).alias(“STATION_ID”).cast(StringType()),
 
F.trim(F.substring(F.col(“value”), 13, 20–13 + 1)).alias(“LATITUDE”).cast(DoubleType()),
 
F.trim(F.substring(F.col(“value”), 22, 30–22 + 1)).alias(“LONGITUDE”).cast(DoubleType()),
 
F.trim(F.substring(F.col(“value”), 32, 37–32 + 1)).alias(“ELEVATION”).cast(DoubleType()),
 
F.trim(F.substring(F.col(“value”), 39, 40–39 + 1)).alias(“STATE_CODE”).cast(StringType()),
 
F.trim(F.substring(F.col(“value”), 42, 71–42 + 1)).alias(“STATION_NAME”).cast(StringType()),
 
F.trim(F.substring(F.col(“value”), 73, 75–73 + 1)).alias(“GSNFLAG”).cast(StringType()),
 
F.trim(F.substring(F.col(“value”), 77, 79–77 + 1)).alias(“HCNFLAG_CRNFLAG”).cast(StringType()),
 
F.trim(F.substring(F.col(“value”), 81, 85–81 + 1)).alias(“WMOID”).cast(StringType())
 
)

請注意，您不需要定義Schema，然後將其傳遞到單獨的load語句中，因為您可以使用pyspark.sql.functions將數據解析為具有所需類型的新列。實際上，這比在文本文件中首先定義StructFields要快得多。

讓我們來看看stations_df的前五個觀察結果。

stations_df.show(5)

接下來，我們將添加一個名為COUNTRY_CODE的列，以便我們稍後可以過濾以僅訪問我們最喜歡的國家/地區中的電臺。我們應該總是將udf傳遞給實現結果所需的最少量信息，因為udfs在大型數據集上的計算成本往往很高。

我們可以看到STATION_ID的前兩個字符是國家代碼。所以我們只需要取兩個前兩個字符並將其添加為新列COUNTRY_CODE。

stations_df = stations_df.withColumn(‘COUNTRY_CODE’, stations_df.STATION_ID.substr(1, 2))

完成後，我們可以過濾並選擇所需的列。

nz_stations = （stations_df
.filter(stations_df.COUNTRY_CODE==”NZ”)
.select(“STATION_ID”,“STATION_NAME”,“LATITUDE”, “LONGITUDE”））

現在我們可以開始Haversine函數了!為此，我們創建了一個標準的python函數，其中我們使用地球的半徑為6371km，並返回distance rounded的絕對值為2dp。Python代碼如下：

def get_distance(longit_a, latit_b, longit_b, latit_b):
 
# Transform to radians
 
longit_a, latit_b, longit_b, latit_b = map(radians, [longit_a, latit_b, longit_b, latit_b])
 
dist_longit = longit_b — longit_a
 
dist_latit = latit_b — latit_a
 
# Calculate area 

 
area = sin(dist_latit/2)**2 + cos(latit_a) * sin(dist_longit/2)**2
 
# Calculate the central angle
 
central_angle = 2 * asin(sqrt(area))
 
radius = 6371
 
# Calculate Distance
 
distance = central_angle * radius
 
return abs(round(distance, 2))

現在我們已經將它定義為python函數，我們可以創建一個用戶定義的函數來在Spark DataFrame上使用它。用戶定義函數允許我們在python或SQL中創建自定義函數，然後使用它們來操作Spark DataFrame中的列。

轉換為UDF：

udf_get_distance = F.udf(get_distance)

現在，我們需要獲取原始的nz_stations元數據，並將其與自身交叉連接，以支持列操作，並在過程中重命名列。

nz_station_pairs = (nz_stations.crossJoin(nz_stations).toDF(
“STATION_ID_A”, “STATION_NAME_A”, “LATITUDE_A”, “LONGITUDE_A”,
 
“STATION_ID_B”, “STATION_NAME_A”, “LATITUDE_B”, “LONGITUDE_B”))

然後通過刪除重複的行來清理它。

nz_station_pairs = （nz_station_pairs.filter(
nz_station_pairs.STATION_ID_A != nz_station_pairs.STATION_ID_B)）

現在我們可以將我們的udf_get_distance函數應用於nz_station_pairs以添加新列ABS_DISTANCE。

nz_pairs_distance = (nz_station_pairs.withColumn(“ABS_DISTANCE”, udf_get_distance(
 
nz_station_pairs.LONGITUDE_A, nz_station_pairs.LATITUDE_A,
 
nz_station_pairs.LONGITUDE_B, nz_station_pairs.LATITUDE_B)
))

注意：在這種情況下，udf不會將輸出作為float返回，而是創建一個新的列，distances 為字符串。我想這是因為withColumn恢復了Spark的默認值，這是一個字符串。

如果您遇到此問題，則可以通過添加新列來修改此值，該列是前一個的複製，但將新列強制轉換為Double Type。您無法更改上一列，因為Spark DataFrames是不可變的。

nz_pairs_distance = nz_pairs_distance.withColumn(“DISTANCE_FLOAT”, nz_pairs_distance.ABS_DISTANCE.cast(DoubleType()))

現在您的分析中包含了haversine距離元數據!

nz_pairs_distance.show(7)

您現在可以將其寫入本地hfs目錄，以用於R或Python中的可視化。

W(nz_pairs_distance).csv(path=”hdfs:///YOUR_DIRECTORY”, mode=’ignore’, header=’true’)

建議

確保在使用UDF時始終使用實現結果所需的最小數據。這是因為如果UDF包含多個列操作，則作業將包含許多任務。
始終檢查原始函數返回的所需對象數據類型是否與UDF的對象數據類型一致。您可以通過將新變量插入終端來輕鬆地在Spark中進行檢查。
您可以使用Spark的DataFrameWriter將特定元數據保存到HDFS目錄，然後用於使用其他工具（例如R，Python等）進行分析。這可以通過以下方式複製到local director ：

hdfs dfs -copyToLocal hdfs:///user/YOUR_DIRECTORY/YOUR_FILE.csv

分享到:

閱讀更多 不靠譜的貓 的文章

關鍵字: HDFS SQL 計算

在PySpark中使用自定義UDF來計算Haversine距離

用Haversine計算地理距離

建議

相關文章:

在PySpark中使用自定義UDF來計算Haversine距離

用Haversine計算地理距離

建議

相關文章:

Spark for Mac(個人郵件客戶端)

實時離線一體化助力渠道分析系統

02.28 實時離線一體化助力渠道分析系統

型號相同的兩款耐高溫軟管的，價格為什麼差這麼多？

Facebook Spark AR Studio大更新，並支持Windows、macOS

印度人去體驗新幹線，中國高鐵卻無辜躺槍，被黑！！

記一個熟詞生義：spark

1/72 MATV+SPARK反伏擊滾掃雷滾輪

TIOBE編程語言11月排行榜出爐，瞭解一下

獨家｜一文讀懂Apache Flink技術

我爲什麼鼓勵你讀計算機博士

揭祕21世紀最性感的職業：數學、編程、溝通和商業技能都不能少！

大數據有哪些較爲實際的作用？這些你需要get

爲什麼你跟高手有差距？因爲他們會在假期里讀這5本書

獨家放送：2018易觀算法大賽通關祕籍重磅來襲

30PB數據1年內遷移到Spark，eBay的經驗有何可借鑑之處？

機器學習入門科普：監督學習和無監督學習都是什麼？都能幹什麼？

經驗教訓帖：探尋Reddit廣告服務系統的構建！

獨家｜一文讀懂PySpark數據框（附實例）

Spark Summit North America 201806 全部PPT下載「共147個」

血友病需要終生治療？基因療法正在改寫答案

速賣通發布商標添加延遲同步相關通知

「AT」全都是機房的數據中心建築，不僅可以好看，還可以變身大型暖氣，打造智慧能源城市！

Digital Catapult發布VR

分享Spark2任務劃分以及執行流程的操作

06.20 分享Spark2任務劃分以及執行流程的操作

機械加工英語詞彙大全，搞機械英文又不太好的同學，可以收藏看看

Cisco整合視訊會議系統 Webex Team服務，未來將會這樣

1分鐘知識錦囊｜開源軟件的盈利模式是什麼？

2018 年數據科學和機器學習工具調查

RNA-Seq能替代WES完成外顯子的變異檢測嗎？｜交流圈精華第2期

05.25 這5款App讓你輕易把瞬間動態變美

哥本哈哥車輪獲1650萬美元

使用Alluxio加速基於Ceph對象存儲的數據分析

如何系統規劃大數據學習之路？

05.19 你問我答｜可以根據美國海關Ruling確定點火針歸類嗎？

520求愛攻略：閒豬爲你準備了兩款神器，你還在等什麼？

五年java開發生涯中一次吐血的項目救火（程序員何苦難為程序員）

05.04 五年java開發生涯中一次吐血的項目救火（程序員何苦難為程序員）

技術專欄丨Carbondata研究與階段性壓測

04.12 Moss：亞馬遜留評政策驚天鉅變大解析及應對方案詳解

正版圖免費用，多重好禮送不停

R｜數據分析常用R包介紹

Spark基於用戶的協同過濾算法

金霸王是如何在 YouTube Bumper Ads 榜單中脫穎而出的？

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

上有老下有小，我們真的跳不出這個人生循環了嗎？

如果外面正在下小雨，你會突然想起了誰？

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？