epoll 原理（一）實現基礎

2019-11-03 22:10:30 架構師的修煉之路

本序列涉及的 Linux 源碼都是基於 linux-4.14.143 。

1. 文件抽象與 poll 操作

1.1 文件抽象

在 Linux 內核裡，文件是一個抽象，設備是個文件，網絡套接字也是個文件。

文件抽象必須支持的能力定義在 file_operations 結構體裡。

在 Linux 裡，一個打開的文件對應一個文件描述符 file descriptor/FD，FD 其實是一個整數，內核把進程打開的文件維護在一個數組裡，FD 對應的是數組的下標。

文件抽象的能力定義：

// 源碼位置：include/linux/fs.h
struct file_operations {
 struct module *owner;
 loff_t (*llseek) (struct file *, loff_t, int);
 ssize_t (*read) (struct file *, char __user *, size_t, loff_t *);
 ssize_t (*write) (struct file *, const char __user *, size_t, loff_t *);
 ssize_t (*read_iter) (struct kiocb *, struct iov_iter *);
 ssize_t (*write_iter) (struct kiocb *, struct iov_iter *);
 int (*iterate) (struct file *, struct dir_context *);
 int (*iterate_shared) (struct file *, struct dir_context *);
 // 對於 select/poll/epoll 最重要的實現基礎
 // 非阻塞的輪詢文件狀態的函數
 unsigned int (*poll) (struct file *, struct poll_table_struct *);
 // 省略其他函數指針
} __randomize_layout;
// 源碼位置：include/linux/poll.h
typedef struct poll_table_struct {
 // 文件的 file_operations.poll 實現一定會調用的隊列處理函數 

 poll_queue_proc _qproc;
 // poll 操作敢興趣的事件
 unsigned long _key;
} poll_table;
// poll 隊列處理函數
typedef void (*poll_queue_proc)(struct file *, wait_queue_head_t *, struct poll_table_struct *);

1.2 文件 poll 操作

poll 函數的原型：

unsigned int (*poll) (struct file *, poll_table *);
/**
 * 如果 poll_table 有回調函數，則回調它。
 * 
 * @filp 要監聽的目標文件
 * @wait_address 要監聽事件的等待隊列頭
 * @p select/poll/epoll 調用裡傳入裡的等待節點
 */
static inline void poll_wait(struct file * filp, wait_queue_head_t * wait_address, poll_table *p)
{
 if (p && p->_qproc && wait_address)
 p->_qproc(filp, wait_address, p);
}

文件抽象 poll 函數的具體實現必須完成兩件事（這兩點算是規範了）：

1. 在 poll 函數敢興趣的等待隊列上調用 poll_wait 函數，以接收到喚醒；具體的實現必須把 poll_table 類型的參數作為透明對象來使用，不需要知道它的具體結構。

2. 返回比特掩碼，表示當前可立即執行而不會阻塞的操作。

下面是某個驅動的 poll 實現示例，來自：https://www.oreilly.com/library/view/linux-device-drivers/0596000081/ch05s03.html：

unsigned int scull_p_poll(struct file *filp, poll_table *wait)
{
 Scull_Pipe *dev = filp->private_data;
 unsigned int mask = 0;
 /*
 * The buffer is circular; it is considered full
 * if "wp" is right behind "rp". "left" is 0 if the
 * buffer is empty, and it is "1" if it is completely full.
 */
 int left = (dev->rp + dev->buffersize - dev->wp) % dev->buffersize;
 // 在不同的等待隊列上調用 poll_wait 函數
 poll_wait(filp, &dev->inq, wait);
 poll_wait(filp, &dev->outq, wait);
 /* readable */
 if (dev->rp != dev->wp) mask |= POLLIN | POLLRDNORM;
 /* writable */
 if (left != 1) mask |= POLLOUT | POLLWRNORM;
 return mask;
}

2. poll 的等待與喚醒

poll 函數接收的 poll_table 只有一個隊列處理函數 _qproc 和感興趣的事件屬性 _key。

文件抽象的具體實現在構建時會初始化一個或多個 wait_queue_head_t 類型的事件等待隊列。

poll 等待的過程：

poll 函數被調用時，其實現肯定會調用 poll_wait，進而調用到 _qproc 函數。
_qproc 負責構建包含 wait_queue_entry 結構體的等待節點（比如 select 操作是 poll_table_entry 結構體），並把 wait_queue_entry 添加到要監聽文件的等待隊列 wait_address 上（wait_queue_entry 結構體指定了事件發生時的喚醒函數，比如 select 操作裡指定的是 pollwake 函數）。
poll 函數返回文件當前可立即執行而不阻塞的操作表示碼。

事件發生時的喚醒過程：

當事件發生時，文件的具體實現遍歷等待隊列，調用其喚醒函數，由喚醒函數進行具體的喚醒操作，喚醒函數的類型為 typedef int (*wait_queue_func_t)(struct wait_queue_entry *wq_entry, unsigned mode, int flags, void *key)。
具體的喚醒函數實現根據 wait_queue_entry 找到 _qproc 函數里構建的等待節點，利用其數據判斷是否需要喚醒，是則喚醒等待進程。

一個小困惑：

喚醒函數是如何根據 wait_queue_entry 找到真實的等待節點呢？？

這是藉助內核的一個宏 container_of 實現的，container_of 是指針的一個靈活應用，作用是通過結構體變量中某個成員的首地址進而獲得整個結構體變量的首地址。

分享到:

閱讀更多 架構師的修煉之路 的文章

關鍵字: 原理 Linux 序列

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"

epoll 原理（一）實現基礎

1. 文件抽象 與 poll 操作

2. poll 的等待與喚醒

相關文章:

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

第一章 Spring Framework概述

opencv人工智能深度學習這樣實現人臉的年齡檢測

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

Redis內存分析工具--rdr安裝與使用

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

一行代碼提升遷移性能

利用相似幾何信息，做可泛化3D形狀分割模型

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

分佈式緩存，真香

特徵工程的力量

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

SpringBoot如何優雅的使用RocketMQ

css代碼規範工具stylelint

高速堵車幾十公里遠，為什麼還要收費？

汽車不裝ETC會怎麼樣？

零基礎非師範生如何備戰教師資格筆試？

一些領導不上課卻有一大沓子評高級職稱的硬件證書，你怎麼看？

小學老師上課不教重點，週六日一個小時5塊補課，你怎麼看？

想參與競選小區業委會，需要具備哪些條件和前期的準備工作呢？

對於在公交車假睡或低頭玩手機，故意不讓座給老年人或孕婦的人，你怎麼看？

在高鐵上一男子霸佔了我的座位，我屢勸他，他就不讓，我可否痛打他一頓？

高鐵再現霸座女，佔座還理直氣壯，說座位上沒寫名字，到底是沒文化還是素質低下？

物業在大門口，裝上很嚴實的門禁，你認為合理嗎？

尊師重教是中國的傳統美德，你覺得現在的老師受人尊重嗎？

公交地鐵上，你會主動給老弱病殘讓座嗎？為什麼？

當你在坐高鐵時，發現你的座位被一位買了無座票的孕婦坐了，你會怎麼做？

業主眾籌給小區裝電梯，沒出錢業主蹭電梯還說別因為電梯傷感情，你家出錢了你會怎麼辦？

有哪些歷史真相讓人吃驚？

報停或停止用熱的用戶，向供熱單位交納供熱設施運行基礎費、包燒費、餘熱費你怎麼看？

如果交了取暖費，但是家裡溫度只有16、17度。如何解決？

地暖供水溫度應該是多少，為何不宜太高？

你覺得2020年呼和浩特的房價將會怎樣？為什麼？

暖氣報停交一半暖氣費，理由是蹭了別家暖氣，要是水管凍了應當誰負責？為什麼？

小區暖氣不熱，找到供熱公司說是等到最冷的時候測溫，溫度達不到退一部分取暖費，這合理嗎？

地暖可以和掛暖混用嗎？怎麼樣？

山西大同御東的房價未來會上漲嗎？有何依據？

供熱公司每年提前一兩個月（一次性）收取六個月供暖費合理嗎？公平嗎？

供熱公司收取餘熱費合理嗎？要求交餘熱費必須左鄰右舍簽字同意，不得住人，你怎麼看？

借用小區換熱站供熱應不應該出房屋租金？

1. 文件抽象與 poll 操作

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪