ProcessFunction：Flink最底層API使用案例詳解_技术 _ 頭條網

之前提到的一些算子和函數能夠進行一些時間上的操作，但是不能獲取算子當前的Processing Time或者是Watermark時間戳，調用起來簡單但功能相對受限。如果想獲取數據流中Watermark的時間戳，或者在時間上前後穿梭，需要使用ProcessFunction系列函數，它們是Flink體系中最底層的API，提供了對數據流更細粒度的操作權限。Flink SQL是基於這些函數實現的，一些需要高度個性化的業務場景也需要使用這些函數。

目前，這個系列函數主要包括KeyedProcessFunction、ProcessFunction、CoProcessFunction、KeyedCoProcessFunction、ProcessJoinFunction和ProcessWindowFunction等多種函數，這些函數各有側重，但核心功能比較相似，主要包括兩點：

狀態：我們可以在這些函數中訪問和更新Keyed State 。定時器（Timer）：像定鬧鐘一樣設置定時器，我們可以在時間維度上設計更復雜的業務邏輯。

狀態的介紹可以參考我的文章：，這裡我們重點講解一下的使用ProcessFunction其他幾個特色功能。本文所有代碼都上傳到了我的github：https://github.com/luweizheng/flink-tutorials

Timer的使用方法

我們可以把Timer理解成一個鬧鐘，使用前先在Timer中註冊一個未來的時間，當這個時間到達，鬧鐘會“響起”，程序會執行一個回調函數，回調函數中執行一定的業務邏輯。這裡以KeyedProcessFunction為例，來介紹Timer的註冊和使用。

ProcessFunction有兩個重要的接口processElement和onTimer，其中processElement函數在源碼中的Java簽名如下：

<code>// 處理數據流中的一條元素public abstract void processElement(I value, Context ctx, Collector out)/<code>

processElement方法處理數據流中的一條元素，並通過Collector輸出出來。Context是它的區別於FlatMapFunction等普通函數的特色，開發者可以通過Context來獲取時間戳，訪問TimerService，設置Timer。

另外一個接口是onTimer：

<code>// 時間到達後的回調函數public void onTimer(long timestamp, OnTimerContext ctx, Collector out)/<code>

這是一個回調函數，當到了“鬧鐘”時間，Flink會調用onTimer，並執行一些業務邏輯。這裡也有一個參數OnTimerContext，它實際上是繼承了前面的Context，與Context幾乎相同。

使用Timer的方法主要邏輯為：

在processElement方法中通過Context註冊一個未來的時間戳t。這個時間戳的語義可以是Processing Time，也可以是Event Time，根據業務需求來選擇。在onTimer方法中實現一些邏輯，到達t時刻，onTimer方法被自動調用。

從Context中，我們可以獲取一個TimerService，這是一個訪問時間戳和Timer的接口。我們可以通過Context.timerService.registerProcessingTimeTimer或`Context.timerService.registerEventTimeTimer這兩個方法來註冊Timer，只需要傳入一個時間戳即可。我們可以通過Context.timerService.deleteProcessingTimeTimer和Context.timerService.deleteEventTimeTimer來刪除之前註冊的Timer。此外，還可以從中獲取當前的時間戳：Context.timerService.currentProcessingTime和Context.timerService.currentWatermark。從函數名看出，這裡都是兩兩出現的函數，兩個方法分別對應兩種時間語義。

注意，我們只能在KeyedStream上註冊Timer。每個Key下可以使用不同的時間戳註冊不同的Timer，但是每個Key的每個時間戳只能註冊一個Timer。如果想在一個DataStream上應用Timer，可以將所有數據映射到一個偽造的Key上，但這樣所有數據會流入一個算子子任務。

我們再次以股票股票交易場景來解釋如何使用Timer。一次股票交易包括：股票代號、時間戳、股票價格、成交量。我們現在想看一支股票10秒內是否一直連續上漲，如果一直上漲，則發送出一個提示。

<code>case class StockPrice(symbol: String, ts: Long, price: Double, volume: Int)class IncreaseAlertFunction(intervalMills: Long)extends KeyedProcessFunction[String, StockPrice, String] { // 狀態：保存某支股票上次交易價格 lazy val lastPrice: ValueState[Double] = getRuntimeContext.getState( new ValueStateDescriptor[Double]("lastPrice", Types.of[Double]) ) // 狀態：保存某支股票的定時器時間戳 lazy val currentTimer: ValueState[Long] = getRuntimeContext.getState( new ValueStateDescriptor[Long]("timer", Types.of[Long]) ) override def processElement(stock: StockPrice, context: KeyedProcessFunction[String, StockPrice, String]#Context, out: Collector[String]): Unit = { // 獲取lastPrice狀態中的數據，第一次使用時會被初始化為0 val prevPrice = lastPrice.value() // 更新lastPrice lastPrice.update(stock.price) val curTimerTimestamp = currentTimer.value() if (prevPrice == 0.0) { // 第一次使用，不做任何處理 } else if (stock.price < prevPrice) { // 如果新流入的股票價格降低，刪除Timer，否則該Timer一直保留 context.timerService().deleteEventTimeTimer(curTimerTimestamp) currentTimer.clear() } else if (stock.price >= prevPrice && curTimerTimestamp == 0) { // 如果新流入的股票價格升高 // curTimerTimestamp為0表示currentTimer狀態中是空的，還沒有對應的Timer // 新Timer = 當前時間 + interval val timerTs = context.timestamp() + intervalMills val formatter = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss.SSS") context.timerService().registerEventTimeTimer(timerTs) // 更新currentTimer狀態，後續數據會讀取currentTimer，做相關判斷 currentTimer.update(timerTs) } } override def onTimer(ts: Long, ctx: KeyedProcessFunction[String, StockPrice, String]#OnTimerContext, out: Collector[String]): Unit = { val formatter = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss.SSS") out.collect("time: " + formatter.format(ts) + ", symbol: '" + ctx.getCurrentKey + " monotonically increased for " + intervalMills + " millisecond.") // 清空currentTimer狀態 currentTimer.clear() }}/<code>

在主邏輯裡，通過下面的process算子調用KeyedProcessFunction：

<code>val inputStream: DataStream[StockPrice] = ...val warnings = inputStream .keyBy(stock => stock.symbol) // 調用process函數 .process(new IncreaseAlertFunction(10000))/<code>

Checkpoint時，Timer也會隨其他狀態數據一起保存起來。如果使用Processing Time語義設置一些Timer，重啟時這個時間戳已經過期，那些回調函數會立刻被調用執行。

側輸出SideOutput

ProcessFunction的另一大特色功能是可以將一部分數據發送到另外一個流中，而且輸出到的兩個流數據類型可以不一樣，我們通過OutputTag[T]來標記另外一個數據流。在ProcessFunction中這樣將某類數據過濾出來：

<code>class IncreaseAlertFunction(intervalMills: Long) extends KeyedProcessFunction[String, Stock, String] { override def processElement(stock: Stock, context: KeyedProcessFunction[String, Stock, String]#Context, out: Collector[String]): Unit = { // 其他業務邏輯... // 定義一個OutputTag，Stock為這個SideOutput流的數據類型 val highVolumeOutput: OutputTag[Stock] = new OutputTag[Stock]("high-volume-trade") if (stock.volume > 1000) { // 將Stock篩選出來發送到該OutputTag下 context.output(highVolumeOutput, stock) } }}/<code>

在主邏輯中，通過下面的方法獲取側輸出：

<code>// 收集SideOutputval outputTag: OutputTag[Stock] = OutputTag[Stock]("high-volume-trade")val sideOutputStream: DataStream[Stock] = mainStream.getSideOutput(outputTag)/<code>

從這個例子中可以看到，KeyedProcessFunction的輸出類型是String，而SideOutput的輸出類型是Stock，兩者可以不同。

使用ProcessFunction實現Join

如果想從更細的粒度上實現兩個數據流的Join，可以使用CoProcessFunction或KeyedCoProcessFunction。這兩個函數都有processElement1和processElement2方法，分別對第一個數據流和第二個數據流的每個元素進行處理。兩個數據流的數據類型以及輸出類型可以互不相同。儘管數據來自兩個不同的流，但是他們可以共享同樣的狀態，所以可以參考下面的邏輯來實現Join：

創建一到多個狀態，兩個數據流都能訪問到這些狀態，這裡以狀態a為例。processElement1方法處理第一個數據流，更新狀態a。processElement2方法處理第二個數據流，根據狀態a中的數據，生成相應的輸出。

我們這次將股票價格結合媒體評價兩個數據流一起討論，假設對於某支股票有一個媒體評價數據流，這個數據流包含了對該支股票的正負評價。兩支數據流一起流入KeyedCoProcessFunction，processElement2方法處理流入的媒體數據，將媒體評價更新到狀態mediaState上，processElement1方法處理流入的股票交易數據，獲取mediaState`狀態，生成到新的數據流。兩個方法分別處理兩個數據流，共享一個狀態，通過狀態來通信。

在主邏輯中，我們將兩個數據流connect，然後按照股票代號進行keyBy，進而使用process算子：

<code>val stockPriceRawStream: DataStream[StockPrice] = ...val mediaStatusStream: DataStream[Media] = ...val warnings = stockStream.connect(mediaStream) .keyBy(0, 0) // 調用process函數 .process(new AlertProcessFunction())/<code>

KeyedCoProcessFunction的具體實現：

<code>class JoinStockMediaProcessFunction extends KeyedCoProcessFunction[String, StockPrice, Media, StockPrice] { // mediaState private var mediaState: ValueState[String] = _ override def open(parameters: Configuration): Unit = { // 從RuntimeContext中獲取狀態 mediaState = getRuntimeContext.getState( new ValueStateDescriptor[String]("mediaStatusState", classOf[String])) } override def processElement1(stock: StockPrice, context: KeyedCoProcessFunction[String, StockPrice, Media, StockPrice]#Context, collector: Collector[StockPrice]): Unit = { val mediaStatus = mediaState.value() if (null != mediaStatus) { val newStock = stock.copy(mediaStatus = mediaStatus) collector.collect(newStock) } } override def processElement2(media: Media, context: KeyedCoProcessFunction[String, StockPrice, Media, StockPrice]#Context, collector: Collector[StockPrice]): Unit = { // 第二個流更新mediaState mediaState.update(media.status) }}/<code>

這個例子比較簡單，沒有使用Timer，實際的業務場景中狀態一般用到Timer將過期的狀態清除。很多互聯網APP的機器學習樣本拼接都可能依賴這個函數來實現：服務端的機器學習特徵是實時生成的，用戶在APP上的行為是交互後產生的，兩者屬於兩個不同的數據流，可以按照這個邏輯來將兩個數據流拼接起來，通過拼接更快得到下一輪機器學習的樣本數據。兩個數據流的中間數據放在狀態中，為避免狀態的無限增長，需要使用Timer將過期的狀態清除。

注意，使用Event Time時，兩個數據流必須都設置好Watermark，只設置一個流的Event Time和Watermark，無法在CoProcessFunction和KeyedCoProcessFunction中使用Timer功能，因為process算子無法確定自己應該以怎樣的時間來處理數據。

Timer的使用方法

側輸出SideOutput

使用ProcessFunction實現Join

相關文章:

allure定製化輸出測試報告-詳解

Python中基本數據類型的連接組合和互相轉換13種方式！詳解

console對象--詳解

CMDB 詳解

03.06 CMDB 詳解

03.06 「詳解」三層交換機與路由器，區別在哪裡？

「詳解」網絡地址轉換-NAT

03.04 「詳解」網絡地址轉換-NAT

金三銀四網絡面經之 DNS 詳解

詳解 TypyScript 的一個怪異行為

垃圾回收器 G1 詳解

12.15 垃圾回收器 G1 詳解

有意思的B+ 詳解

詳解 CSS 選擇器優先級

詳解 Redis 內存管理機制和實現

詳解：90％以上python初學者的共同難題（

算法複雜度O(logn)詳解

EfficientNet 詳解

10.09 黑客必學知識點--”什麼是內網穿透“詳解

詳解：用Python+AutoIt實現界面工具開發過程

詳解 GAN 生成對抗網絡

詳解 C++ 的隱式類型轉換與函數重載

Dockerfile 詳解，看這一篇就夠了

詳解：Linux網絡虛擬化技術

詳解【SQL練習】-- 第一部分

7.自己寫中斷方式按鍵驅動程序(詳解)

WebSocket 詳解

詳解 Docker 埠映射｜5種常見的埠映射方式

Docker Machine 詳解

詳解 Tomcat 的連接數與線程池（深度好文推薦）

詳解 oracle 索引

IPFS的底層數據模型IPLD 詳解

詳解 Nginx反向代理｜附參數介紹

詳解 oracle 五大約束｜附設計案例學習

詳解 oracle表空間管理和數據文件｜案例分享

詳解 Nginx配置靜態內容伺服器｜附案例說明

詳解 Nginx如何配置Web服務器｜附配置文件

詳解 js 閉包（圖文版）

C語言格式輸入函數scanf()詳解

Mybatis入門配置 詳解

2小時30分鐘｜阿里Java一面真題+詳解

詳解：在Ubuntu上安裝並配置LAMP

詳解：Nginx反代實現Kibana登錄認證功能

06.14 詳解 Java NIO

詳解 Java NIO

尚學堂百戰程序員之Dockerfile 詳解

02.24 Java9 新特性 詳解

「詳解」從0開始構建一個屬於你自己的PHP框架（上）

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

Mybatis入門配置詳解

02.24 Java9 新特性詳解

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪