深入瞭解ProcessFunction的狀態操作(Flink-1.10)_技术 _ 頭條網

學習Flink的ProcessFunction過程中，官方文檔中涉及狀態處理的時候，不止一次提到只適用於keyed stream的元素，如下圖紅框所示：

之前寫過一些flink應用，keyed stream常用但不是必須用的，所以產生了疑問：

為何只有keyed stream的元素能讀寫狀態？每個key對應的狀態是如何操作的？

Flink的"狀態"

先去回顧Flink"狀態"的知識點；官方文檔說就兩種狀態：keyed state和operator state：

如上圖，keyed stream的元素是具有key的特徵，與ProcessFunction的操作狀態時要求匹配，其他steam的元素由於沒有key的特徵，所以也就沒有"狀態"一說了；另一種狀態是Operator State，如下圖，這是和多並行度計算時的算子實例綁定的，例如當前算子消費kafka的某個分區的最新offset，而ProcessFunction是用來處理stream元素的，不會涉及到Operator State：

官方demo

為了學習ProcessFunction就去看官方demo，地址是：https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/stream/operators/process_function.html ，簡單說說這個demo的功能：

數據源在不間斷的產生單詞，每個單詞對應一個Tuple2<string>的實例；/<string>數據源被keyBy方法轉成KeyedStream，key是Tuple2實例的f0字段；一個KeyedProcessFunction的子類CountWithTimeoutFunction，被用來處理KeyedStream的每個元素，處理的邏輯：為每個key維護一個狀態，狀態的內容是這個key的出現次數和最後一次出現時間；如果那個key連續一分鐘沒有出現，KeyedProcessFunction就向下遊發送這個元素；

以上就是官方demo的功能，本來是想通過demo來加深認識，結果看完不但沒有明白，反而更暈了，下圖是我對demo代碼的疑惑：

從上圖可見我的疑惑，這裡再複述一下：

入參value是Tuple2類型，假設其f0字段等於aaa，那麼processElement方法的作用，就是取出aaa的狀態，更新後保存；從代碼上看，state.value()返回了aaa的狀態，這個value方法並沒有將aaa作為入參，那怎麼做到返回aaa的狀態呢？如果下一個入參value的f0字段等於bbb了，這個state.value()能返回bbb的狀態嗎？對更新狀態的代碼state.update(current)也是同樣的疑惑；然後又產生了新的疑惑：成員變量state難道是一直在變？每執行一次processElement，都會變成該key對應的state實例？

先反思為何會有上述疑惑

上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value()方法沒有用key做入參就不習慣了要消除這種不適應，要做的第一件事就是提醒自己：processElement是在框架內運行的，很多數據在之前已經由框架準備好了；接下來要做的，就是把框架準備數據

的邏輯看一遍，除了弄明白自己的問題，由於ProcessFunction屬於最低階抽象(如下圖的最下方位置)，看懂了這些，其實也是在瞭解DataStream/DataSet API的設計思路：

跟蹤源碼

如下圖，讓我們從一個斷點的堆棧開始吧，這是在執行上面demo中的processElement方法之前的一個斷點，可見根源是個線程的run方法，也就是KeyedProcessFunction對應的算子執行任務的線程：

上面的堆棧不必每一層都細看，只關注重要的部分，下圖這段很重要：StreamTask.run方法中，有個無限循環（猜測是每次執行processInput方法都處理KeyedStream的一個元素）：

如下圖，StreamOneInputProcessor.processInput方法取出KeyedStream的一個元素，調用processElement方法，並將此元素作為入參，再結合上一幅圖可以看出：在編寫KeyedProcessFunction子類的時候，KeyedStream的每個元素都會作為入參，在調用你重寫的processElement方法時傳進去；這一點，在做ProcessFunction和KeyedProcessFunction開發時都是要格外注意的：

接下來到了最關鍵的地方了，下圖紅框中的streamOperator.setKeyContextElement1(record)會解答我前面的疑惑，一定要進去看個清楚，(後面的黃線上的代碼，您應該猜到了，裡面其實就是調用demo中的processElement方法)

下圖中，AbstractStreamOperator.setKeyContextElement給出了答案：對於KeyedStream的每個元素，都會在這裡算出key，再調用setCurrentKey保存這個key：

展開setCurrentKey，如下圖，發現key的保存和當前狀態的存儲策略(StateBackend)有關，我這裡是默認策略HeapKeyedStateBackend：

最終，根據當前元素得到的key會在StateBackend的keyContext對象中找地方保存，StateBackend的具體實現和Flink設置有關，我這裡是保存到了InternalKeyContextImpl實例的currentKey變量中：

代碼讀到這裡，對我前面的疑惑，您應該能推測出答案了：state.value()裡面會通過StateBackend的keyContext取出剛才保存的key，接下來就能像HashMap那樣根據key查出該key的狀態了，接下來是愉快的印證我們推測的過程；在state.value()代碼位置打斷點一次看個明白，如下圖，果然，state裡面有StateBackend的keyContext對象的引用，訪問剛才保存的key就不成問題了：

展開state.value()方法如下，簡單明瞭，直接拿keyContext保存的key作為入參去取對應的狀態：

再展開上面的get方法，可見最終是從stateMap中取得的，而這個stateMap的具體實現是CopyOnWriteStateMap類型的實例：

代碼讀到這裡，只剩最後一處需要印證了：更新狀態的state.update(current)方法，應該也是以StateBackend的keyContext中的key作為自己的key，再將入參的current作為value，更新到stateMap中，來吧，一起印證這個推測；展開方法，看到的是stateTable.put方法（前面剛看過stateTable的get方法，穩了）：

stateTable.put方法裡面和前面的get方法一樣，直接拿keyContext保存的key作為自己的key：

最終是調用了stateMap.put方法，將數據保存在CopyOnWriteStateMap實例中：

得益於Flink代碼自身規範、清晰的設計和實現，再加上IDEA強大的debug功能，整個閱讀和分析過程十分順利，這其中的收穫會逐漸在今後深入學習DataStreamAPI的過程中見效；

最後，根據上面的分析過程繪製了一幅簡陋的流程圖，希望能幫助您加快理解：

Flink的"狀態"

官方demo

先反思為何會有上述疑惑

跟蹤源碼

相關文章:

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

第一章 Spring Framework概述

opencv人工智能深度學習這樣實現人臉的年齡檢測

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

Redis內存分析工具--rdr安裝與使用

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪