09.18 打破砂鍋問到底之Python同步和異步IO

Python同步和異步IO一直都是新手心目中比較難搞懂的問題,那麼現在就一起來追根究底探究一下。先說個容易懂得事情,同步呢,就是你去麥當勞訂個漢堡,你一直在服務檯等著漢堡好了交到你手上。異步就是,你去麥當勞訂漢堡,然後你不等漢堡好了沒有就去隔壁商城逛街了,直到麥當勞的服務員喊你過去拿漢堡為止。總之1句話,

同步有等待,異步沒有等待

Linux操作系統基礎知識

打破砂鍋問到底之Python同步和異步IO

用戶空間和內核空間

操作系統的核心是內核,獨立於普通的應用程序,可以訪問受保護的內存空間,也有訪問底層硬件設備的所有權限。為了保證用戶進程不能直接操作內核保證內核的安全,操心繫統將虛擬空間劃分為兩部分,一部分為內核空間,一部分為用戶空間。

對32位操作系統而言,它的尋址空間(虛擬存儲空間)為4G)。針對linux操作系統而言,將最高的1G字節(從虛擬地址0xC0000000到0xFFFFFFFF),供內核使用,稱為內核空間,而將較低的3G字節(從虛擬地址0x00000000到0xBFFFFFFF),供各個進程使用,稱為用戶空間。

文件描述符

File descriptor用於表述只想文件的引用的抽象概念。文件描述符在形式上是一個非負整數。實際上,它是一個索引值,指向內核為每一個進程所維護的該進程打開文件的記錄表。當程序打開一個現有文件或者創建一個新文件時,內核向進程返回一個文件描述符。在程序設計中,一些涉及底層的程序編寫往往會圍繞著文件描述符展開。但是文件描述符這一概念往往只適用於UNIX、Linux這樣的操作系統。

進程阻塞

正在執行的進程,由於期待的某些事件未發生,如請求系統資源失敗、等待某種操作的完成、新數據尚未到達或無新工作做等,則由系統自動執行阻塞原語(Block),使自己由運行狀態變為阻塞狀態。

可見,進程的阻塞是進程自身的一種主動行為,也因此只有處於運行態的進程(獲得CPU),才可能將其轉為阻塞狀態。當進程進入阻塞狀態,是不佔用CPU資源的。

進程切換

為了控制進程的執行,內核必須有能力掛起正在CPU上運行的進程,並恢復以前掛起的某個進程的執行。這種行為被稱為進程切換。因此可以說,任何進程都是在操作系統內核的支持下運行的,是與內核緊密相關的。

從一個進程的運行轉到另一個進程上運行,這個過程中經過下面這些變化:

1. 保存處理機上下文,包括程序計數器和其他寄存器。

上下文就是內核再次喚醒當前進程時所需要的狀態,由一些對象(程序計數器、狀態寄存器、用戶棧等各種內核數據結構)的值組成。

這些值包括描繪地址空間的頁表、包含進程相關信息的進程表、文件表等。

2. 更新PCB信息。

3. 把進程的PCB移入相應的隊列,如就緒、在某事件阻塞等隊列。

4. 選擇另一個進程執行,並更新其PCB。

5. 更新內存管理的數據結構。

6. 恢復處理機上下文。

總而言之就是很耗資源,具體的可以參考這篇文章:進程切換

直接IO和緩存IO

緩存 I/O 又被稱作標準 I/O,大多數文件系統的默認 I/O 操作都是緩存 I/O。在 Linux 的緩存 I/O 機制中,操作系統會將 I/O 的數據緩存在文件系統的頁緩存( page cache )中,也就是說,數據會先被拷貝到操作系統內核的緩衝區中,然後才會從操作系統內核的緩衝區拷貝到應用程序的地址空間。

以write為例,數據會先被拷貝進程緩衝區,在拷貝到操作系統內核的緩衝區中,然後才會寫到存儲設備中。

打破砂鍋問到底之Python同步和異步IO

直接I/O的write:(少了拷貝到進程緩衝區這一步)

打破砂鍋問到底之Python同步和異步IO

緩存 I/O 的缺點:

數據在傳輸過程中需要在應用程序地址空間和內核進行多次數據拷貝操作,這些數據拷貝操作所帶來的 CPU 以及內存開銷是非常大的。

IO 模式

對於一次IO訪問(以read舉例),數據會先被拷貝到操作系統內核的緩衝區中,然後才會從操作系統內核的緩衝區拷貝到應用程序的地址空間。所以說,當一個read操作發生時,它會經歷兩個階段:

1. 等待數據準備 (Waiting for the data to be ready)

2. 將數據從內核拷貝到進程中 (Copying the data from the kernel to the process)

正式因為這兩個階段,linux系統產生了下面五種網絡模式的方案。

- 阻塞 I/O(blocking IO)

- 非阻塞 I/O(nonblocking IO)

- I/O 多路複用( IO multiplexing)

- 信號驅動 I/O( signal driven IO)實際中並不常用

- 異步 I/O(asynchronous IO)

阻塞IO

在linux中,默認情況下所有的socket都是blocking,一個典型的讀操作流程大概是這樣:

打破砂鍋問到底之Python同步和異步IO

read為例:

  1. 進程發起read,進行recvfrom系統調用;
  2. 內核開始第一階段,準備數據(從磁盤拷貝到內核緩衝區),進程請求的數據並不是一下就能準備好;準備數據是要消耗時間的;
  3. 在這個過程中,整個用戶進程將會被阻塞(進程自己選擇的阻塞),等待數據;
  4. 直到數據從內核拷貝到了用戶空間,內核返回結果,進程解除阻塞,重新運行起來。

因此,內核準備數據和數據從內核拷貝到進程內存地址這兩個過程都是阻塞的。

非阻塞IO模型

可以通過設置socket使其變為non-blocking。當對一個non-blocking socket執行讀操作時,流程是這個樣子:

打破砂鍋問到底之Python同步和異步IO

  1. 當用戶進程發出read操作時,如果kernel中的數據還沒有準備好;
  2. 那麼它並不會block用戶進程,而是立刻返回一個error,從用戶進程角度講 ,它發起一個read操作後,並不需要等待,而是馬上就得到了一個結果;
  3. 用戶進程判斷結果是一個error時,它就知道數據還沒有準備好,於是它可以再次發送read操作。一旦kernel中的數據準備好了,並且又再次收到了用戶進程的system call;
  4. 那麼它馬上就將數據拷貝到了用戶內存,然後返回。

所以,nonblocking IO的特點是用戶進程在內核準備數據的階段需要不斷的主動詢問數據好了沒有。

IO多路複用

I/O多路複用使用select, poll, epoll監聽多個io對象,當io對象有變化(有數據)的時候就通知用戶進程。好處就是單個進程可以處理多個socket。當然具體區別我們後面再討論,現在先來看下I/O多路複用的流程:

打破砂鍋問到底之Python同步和異步IO

  1. 當用戶進程調用了select,那麼整個進程會被block;
  2. 而同時,kernel會“監視”所有select負責的socket;
  3. 當任何一個socket中的數據準備好了,select就會返回;
  4. 這個時候用戶進程再調用read操作,將數據從kernel拷貝到用戶進程。

所以,I/O 多路複用的特點是通過一種機制一個進程能同時等待多個文件描述符,而這些文件描述符(套接字描述符)其中的任意一個進入讀就緒狀態,select()函數就可以返回。

和阻塞IO相比,這裡需要使用兩個system call (select 和 recvfrom),而blocking IO只調用了一個system call (recvfrom)。但是,用select的優勢在於它可以同時處理多個connection。

所以,如果處理的連接數不是很高的話,使用select/epoll的web server不一定比使用多線程 + 阻塞 IO的web server性能更好,可能延遲還更大。

select/epoll的優勢並不是對於單個連接能處理得更快,而是在於能處理更多的連接。

在IO multiplexing Model中,實際中,對於每一個socket,一般都設置成為non-blocking,但是,如上圖所示,整個用戶的process其實是一直被block的。只不過process是被select這個函數block,而不是被socket IO給block。

異步 IO

打破砂鍋問到底之Python同步和異步IO

  1. 用戶進程發起read操作之後,立刻就可以開始去做其它的事。
  2. 而另一方面,從kernel的角度,當它受到一個asynchronous read之後,首先它會立刻返回,所以不會對用戶進程產生任何block。
  3. 然後,kernel會等待數據準備完成,然後將數據拷貝到用戶內存,當這一切都完成之後,kernel會給用戶進程發送一個signal,告訴它read操作完成了。

小結

  1. 在non-blocking IO中,雖然進程大部分時間都不會被block,但是它仍然要求進程去主動的check,並且當數據準備完成以後,也需要進程主動的再次調用recvfrom來將數據拷貝到用戶內存。
  2. 而asynchronous IO則完全不同。它就像是用戶進程將整個IO操作交給了他人(kernel)完成,然後他人做完後發信號通知。在此期間,用戶進程不需要去檢查IO操作的狀態,也不需要主動的去拷貝數據。


分享到:


相關文章: