從大數據到微服務：如何通過AWS lambda服務於Spark訓練的模型？

2018-08-22 13:47:03 AI中國

點擊上方關注，All in AI中國

作者：Jacopo Tagliabue

介紹

“我們選擇它是因為我們要處理大量數據。此外，這聽起來真的很酷。” ——Larry Page

恭喜！你用Spark訓練決策樹遍歷大量的數據點，並從中獲得了一個很好的模型。

你希望利用你的模型進行實時預測，但Spark內部沒有簡單的方法可以獲得網站或應用程序所需的交互性：如果你正構建欺詐檢測，那麼在每個用戶操作時想要實時觸發預測並採取相應的行動的時候——時間至關重要！

我們需要的是一種快速而簡便的方法，把我們的大數據模型轉變為一個每次只根據需要提供一個預測的微服務。

當然，可能有更好地滿足你的需求和口味的選擇：你可能事先知道測試集（在這種情況下，請參見此處的示例：https://databricks.com/blog/2016/10/11/using-aws-lambda-with-databricks-for-etl-automation-and-ml-model-serving.html）;你可能會對處理傳入的流數據並定期點擊緩存進行近實時預測感到滿意（例如此處詳述：https://vimeo.com/217723073）;最後，你可能喜歡JVM，並尋找一些經過優化和準備就緒的東西（在這種情況下，你應該完全瞭解Mleap：https://github.com/combust/mleap）。

我們在這裡要做的是共享一個純粹的Pythonic端到端的工作流程，這將使你在幾分鐘內從Spark訓練的模型到服務於預測的公共端點。

我們的工作流程基於以下“原則”：

它是你所熟悉和喜愛的Python，從頭到尾（加上一個非常小的yml文件）；
涉及一些語言解析（在Tooso：https://tooso.ai/）；
不會涉及部署服務器甚至是明確地編寫端點（對於適度的工作負載，它也是免費的）；
我們將使用決策樹演示工作流程，但同樣的想法可以很容易地擴展到其他Spark ML算法中。

它不僅僅是部署Spark模型的一種方式，我們還將有機會看到工作中真正的數據工程挑戰。

這是前一篇poston系列“being-lazy-at-devOps”的概念續集，其中包括AWS Lambdas和Tensorflow模型。（https://medium.com/tooso/serving-tensorflow-predictions-with-python-and-aws-lambda-facb4ab87ddd）

先決條件

在深入瞭解代碼之前，請確保：

可以訪問Spark集群：為方便起見，我們使用了Microsoft Azure提供的Linux Spark 2.2，但當然我們所說的任何內容都可以輕鬆應用於其他設置。（https://docs.microsoft.com/en-us/azure/hdinsight/spark/apache-spark-jupyter-spark-sql）
設置AWS賬戶，用於將我們的代碼部署到AWS Lambda。（https://aws.amazon.com/lambda/）
setup Serverless，可以按照這裡的說明輕鬆安裝。（https://serverless.com/framework/docs/providers/aws/guide/installation/）

你可以在GitHub repo中找到所有代碼：讓我們開始。（https://github.com/jacopotagliabue/spark_tree2lambda）

前傳：在Spark中訓練機器學習模型

Spark機器學習庫的內部工作原理不是這篇文章的重點：如果你看到這裡，你很可能已經知道如何訓練你的模型——如果你跳過這一節，我們唯一要做的事情是訓練模型的序列化版本到一個文本文件中。我們決定在Spark中加入一小部分來分享一個端到端的、獨立的用例，所以我們只是做了最低限度的工作，讓模型經過訓練並準備好使用。

給SPARK初學者的注意事項：如果你已為群集使用了Azure部署，則可以按照Microsoft的指南開始查詢某些示例數據，或者花些時間使用隨群集提供的示例筆記本。

Azure Jupyter中的PySpark文件夾包含幾個現成的筆記本，可以幫助你入門。

repo中包含的decision_tree_training筆記本僅包含加載某些數據和獲取訓練模型的基本步驟。我們使用的數據集是鈔票認證數據集的csv版本（也可在此處獲得：https://drive.google.com/file/d/1BLNKLEbrLBYUaT6yJdRgRzFJmR-x3H4L/view?usp=sharing），其中四個連續變量作為預測變量和兩個目標類，在數據集中用1/0標識：多虧了Spark，我們可以很快理解使用簡單的SQL語法分配：

通過筆記本，你可以使用表格和簡單圖表輕鬆顯示數據集的基本統計信息。

為了訓練我們的決策樹模型，我們只需要將數據轉換為標籤點，並將生成的RDD提供給機器學習庫。

經過快速計算後，模型終於可以使用了！請記住，我們的目標是將我們在Spark上學到的東西轉換為一個即用型的無服務器端點，因此我們需要一種方法來提取我們在訓練期間學到的數據的知識，以便它可以在我們的堆棧中的其他位置運行。對我們來說幸運的是，決策樹可以只用一行導出：

serialized_model包含了在訓練期間推斷的決策規則列表，例如：

作為一個簡單的python字符串，可以使用標準Spark方法或通過簡單的複製+粘貼將其導出到文本文件（可以在repo中找到通過數據集訓練生成的模型的副本）。

解決方案概述

我們的快速Pythonic解決方案詳述如下。

解決方案概述：從CSV到基於lambda的端點。

從左到右：

我們從Spark讀取CSV文件開始（當然，在這裡可以替換你擁有的任何數據管道）;
我們訓練我們的ML模型（決策樹）並使用Spark序列化選項來實現它;
我們編寫一個Python函數（詳見下文），它將讀取序列化模型並生成模型的Python可運行版本;
我們在AWS中部署了一個基本的lambda函數，該函數將加載Python可運行模型，並利用API網關向外界公開其預測。

顯然，所有的神奇之處都在於將模型從Spark表示形式“移植”到Python可運行的代碼中。在下一節中，我們將看到我們如何以有原則和優雅的方式實現這一目標：進入DSL解析。

模型轉換作為形式語義的練習

“這些是我的原則。如果你不喜歡它們，那麼，我還有其他的。” - Groucho Marx

這種實用主義方法的主要觀點（以及Tooso的大部分樂趣）是將問題視為語義挑戰：我們有一種形式語言（Spark序列化語言）在模型理論意義上提供解釋，即我們需要找到一種系統的方法來將Spark模型的句法組件與Python數據結構配對，這樣我們就可以通過這些結構運行預測，同時保留原始模型中的信息。聽起來很難？讓我們先從一個例子開始。

讓我們以正式的玩具語言L為例，從而定義：

字母表由整數1,2 ... 10和運算符'+'組成
格式良好的公式（wff）是A + B形式的任何符號序列，其中A和B是整數或wff。

要生成有效的L語句，我們只需要應用（一次或多次）語言規則。例如，我們可以這樣做：

得到wff'2 + 9'，或者我們可以做到：

我們將第二步中的B擴展為新的'A + C'，然後用整數填充公式得到'2 + 9 + 7'。顯然，L中並非所有公式都可以接受的。例如，以下都是無效的：

L是一種非常簡單的語言，沒有內在意義：雖然人類不可避免地認為'2 + 9 + 7'是基於L的算術運算2 + 9 + 7（18歲），到目前為止L中沒有任何指定證明了這個結論。為了給L句子提供“自然”的算術意義，我們需要用語義學家稱之為模型的東西（不要與機器學習模型混淆），即我們需要以原則性的方式指定我們如何將“意義”附加到L句子中。由於“意義”是一個相當抽象的概念，我們將為教程找到一些更謙遜且有用的東西：我們將使用另一種形式語言Python來解釋L。

因此，我們的語義將是從L句子到Python指令的映射，它具有可操作的非次要好處（因此我們可以用L句子進行算術運算）

我們的（粗略定義的）模型M可以如下所示：

整數1,2 ... 10映射到Python int 1,2 ... 10
運算符'+'映射到Python lambda lambda x，y：x + y
像A + B這樣的wff映射到Python函數映射（+，[A]，[B]）），即wff是在'+'操作中用實際值“填充槽”的結果。

有了M，我們現在可以將我們無意義的L句子翻譯成熟悉的Python命令，這樣'2 + 9'就可以看作是表達以下代碼的L方式：

將更復雜的東西按預期翻譯，所以'2 + 9 + 7'將成為：

關於我們的建模語言Python的一個很酷的事情是，表達式可以運行，因此現在它們具有意義，L語句可以看作是簡潔的Python指令來進行算術運算：對於所有L表達式，我們可以關聯相應的、唯一的Python代碼來運行該表達式。

現在我們已經瞭解了模型構建的含義，我們可以回到Spark序列化模型的原始語言，即產生“wff”的語言，例如：

我們的目標是以一種原則方式為這些字符串分配“Python含義”，以便每個字符串都有一個相應的、唯一的Python代碼來運行該決策樹。

我們通過利用lark來構建我們的spark2python服務，這是一個很棒的工具，在給定語法規範和目標字符串的情況下，它將生成一個“解析樹”，即組成字符串的句法片段的嵌套表示。如果你想象一下我們如何構建'2 + 9 + 7'句子，你會很容易看到結構：首先2和9相加，然後結果相加為7。

當lark解析Spark模型時，結果是一個帶有嵌套if / else塊的樹（如預期的那樣）：一旦我們有了解析樹，我們就可以逐個節點地導航它並替換（非常類似於上面的L）Spark具有等效Python片段的標記，我們還可以針對目標值的特性向量運行。

如果你查看處理程序中的預測函數（AWS lambda入口點，請參閱下文），你可以輕鬆地瞭解運行時發生的情況：客戶端在調用服務時將特性向量作為查詢參數傳遞; 在啟動時初始化的Spark2Python類加載了lark語法並解析了序列化的模型字符串。

當客戶端提供的特性向量到達映射服務時，run_instruction將開始遍歷所有if / else塊：對於每個節點，組成相等性測試的標記將映射到相應的Python對象。舉個例子，這個Spark節點：

將等同於Python表達式：

結果表達式將根據客戶端提供的向量中的特性0進行計算。到達預測節點時，例如：

在給定特性向量和存儲的模型的情況下，程序將停止並向客戶端返回預測值。

雖然run_instruction可能看起來令人生畏，但是它實際上是一個相當簡單的概念：程序將遞歸地遍歷if / else樹結構的分支，並在每次遇到合適的節點時運行等效的Python代碼。這就是服務執行的“自動”轉換！

輸入特性與模型決策規則的運行時比較：在每個節點處做出決策並且探索相應的分支，直到達到預測。

理解我們的語義到底有多普遍是很容易遇到的。由於我們為Spark模型構建了一個正式的語法，然後定義了樹的遞歸Python解釋，我們“保證”所有未來的模型，無論花費多長時間或如何嵌套，都將被系統正確執行，我們保證所有現在和將來的L句都可以通過Python進行評估。

使用AWS Lambda提供模型

我們的承諾是在幾分鐘內為你提供一個微服務，以便在沒有服務器的情況下進行原型設計。實現這一目標的方法是使用AWS Lambda來包裝我們經過訓練的模型，並使用無服務器框架在一個命令中發佈我們的服務，供全世界查看！

關於Lambda函數的解剖結構在網絡上並不缺乏教程和解釋（可以參考：https://medium.com/tooso/serving-tensorflow-predictions-with-python-and-aws-lambda-facb4ab87ddd）。對於那些在過去三年裡用frozen in graphite的人來說，要點如下：

無服務器計算是一種雲計算範式，允許你部署特定的函數/服務，而不需要考慮任何關於底層硬件，操作系統甚至容器的問題：計算是在需要做的基礎上進行的，你只需要在函數實際運行時收取費用。
無服務器功能可根據雲提供商的需要進行水平管理、運行和擴展，使開發人員可以自由地專注於業務邏輯而不是部署/管理應用層。

AWS Lambdas可以在chron上調用，也可以通過幾個“觸發器”（隊列中的新消息，s3中的對象創建，http請求通過API網關等）調用，允許複雜的轉換鏈和基於事件的管道。雖然可以使用AWS控制檯來手動部署和管理lambda函數，但我們發現使用部署框架可以使你的項目保持整潔，自包含並自動進行版本控制。

在這個項目中，所需的基礎設施非常簡單，並且它可以在serverless.yml文件中捕獲（env變量具有合理的默認值，但你可以隨意使用你的名稱/資源）。函數的名稱是predict，函數在handler.py文件中定義; 最後，“觸發器”是一個http GET請求，因此對/ predict路由的調用將被路由到我們的函數。如果你對命名約定、AWS的目標區域和分段感到滿意，那麼我們離工作端點只有兩個簡單命令。首先，我們需要確保項目中的vendored文件夾（或者你想要使用的任何名稱：確保文件夾在那裡！）包含該項目的依賴項（列在包含的requirements.txt中）; 打開終端，進入項目文件夾並輸入：

（請注意，在我們的例子中，依賴是純Python，所以不必擔心Linux兼容的二進制文件;但是，作為使用lambdas時的一般做法，你應該有一個系統，比如這個：https://github.com/UnitedIncome/serverless-python-requirements ，以確保你上傳AWS容器的正確依賴項！）

最後，（安裝了Serveless），只需在終端輸入：

無服務器將我們的函數部署到我們選擇的AWS數據中心，並自動為我們設置API網關，以便新的公共URL可用，並且該URL將所有/預測調用路由到該函數中。完成後（由於需要創建所有資源，第一次部署會花費更多時間），你將得到類似於此的輸出：

要確保一切正常，請打開瀏覽器並測試示例GET調用，例如：

其中YOUR-LAMBDA-URL是在上面的部署中創建的URL。你應該收到如下響應：

直接使用來自瀏覽器的GET調用測試運行時預測。

恭喜：你的大數據模型現在可通過你的微服務獲得！通過交換模型文件（或者甚至使用更多處理程序/代碼切換同時部署多個模型），你現在可以使用此模板並在不到一分鐘的時間內部署任何決策樹。

分享到:

閱讀更多 AI中國 的文章

關鍵字: 實時 Spark 模型

AWS 創建EC2服務器

aws ec2的cpu積分制度你瞭解嗎？

python匿名函數(lambda)

可序列化的Java Lambda

AWS S3存儲類型費用解析

AWS EC2+Docker+JMeter構建分佈式負載測試基礎架構

03.06 「GP上雲」基於 AWS 的 Greenplum 6：針對雲進行了優化

C# 委託(delegate)、泛型委託和Lambda表達式

移動應用後端應該使用 AWS 還是 Firebase？

03.02 移動應用後端應該使用 AWS 還是 Firebase？

03.01 編譯器說 Lambda 表達式中的變量必須是 final 的，我偏不信

「Java 進階」--Lambda & 函數式編程

02.20 由光環新網運營的 AWS 中國（北京）區域已開放Amazon Aurora服務

由光環新網運營的 AWS 中國（北京）區域已開放Amazon Aurora服務

AWS CloudFormation StackSets 跨帳戶跨地區部署堆疊更簡單

java: -source 7 中不支持 lambda 表達式

AWS DynamoDB 最佳實踐

Lambda 表達式

面試與實戰：什麼是 Lambda？該如何使用？

AWS EC2開啟bbr加速

牛逼哄哄的 Lambda 表達式，簡潔優雅就是生產力

11.30 貫穿 C++ 11 與 C++ 17 的 Lambda 到底是個什麼？

亞馬遜aws-shell：AWS CLI的交互式shell

Java 8：一文掌握 Lambda 表達式

aws 基本環境安裝

Java8：當 Lambda 遇上受檢異常

Lambda 表達式有何用處？

08.06 牛逼哄哄的 Lambda 表達式

開發基礎之牛逼哄哄的 Lambda 表達式，簡潔優雅就是生產力

集群架構選擇最佳容器工具：AWS ECS與Docker Swarm與Kubernetes

Hyperledger Fabric1.4實例開發調試—運行第一個區塊鏈程序

不要在Python中編寫 lambda 表達式了

深入理解 Java 中的 Lambda

06.17 Python Lambda 表達式

Python Lambda 表達式

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"