Linux 系統進程、線程之間的愛恨糾葛

當一個程序開始執行後,在開始執行到執行完畢退出這段時間內,它在內存中的部分就叫稱作一個進程。

Linux 是一個多任務的操作系統,也就是說,在同一時間內,可以有多個進程同時執行。我們大家常用的單CPU計算機實際上在一個時間片段內只能執行一條指令。

那麼Linux是如何實現多進程的同時執行的呢?原來Linux使用了一種稱為” 進程調度 “的手段,首先,為每個進程指派一定的運行時間,這個時間通常很短,短到以毫秒為單位,然後依照某種規則,從眾多的進程中挑選一個投入運行,其他進程暫時等待,當正在運行的那個進程時間耗盡,或者執行完畢退出,或因某種原因暫停,Linux就會重新調度,挑選一個進程投入運行,因為每個進程佔用的時間片段都很短,從使用者的角度來看,就好像多個進程同時運行一樣。

在Linux中,每個進程在創建的時都會被分配一個數據結構,稱為進程控制塊(PCB)。PCB中包含了很多重要的信息,供系統調度和進程本事執行使用,其中最重要的莫過於進程的ID,進程的ID也被稱為進程標示符,是一個非負的整數,在Linux操作性系統中的標誌一個進程。在最常使用的I386架構上,一個非負的整數的取值是0~32767,這也是我們所可能取到的進程ID,它就是進程的身份證號碼。

殭屍進程的產生

殭屍進程就是已經結束的進程,但是還沒有從進程表中刪除。殭屍進程太多會導致進程表裡麵條目滿了,進而導致系統崩潰,倒是不佔用系統資源。

在進程的狀態中,殭屍進程是非常特殊的一種,它已經放棄了幾乎所有的內存空間,沒有任何可執行代碼,也不能被調度,僅僅在進程列表中保留一個為位置,記載該進程的退出狀態等信息供其他進程收集,除此之外,殭屍進程不再佔用任何內存空間,它需要它的父進程來給它收屍,如果父進程沒安裝SIGCHLD信號處理函數調用wait或waitpid()等待子進程結束,又沒有顯示的忽略該信號,那麼它就一直處於殭屍狀態。如果父進程結束了,那麼init進程會自動接手這個子進程,為它收屍,他還是能夠被清除的。但是如果父進程是一個循環,不會結束,那麼子進程就一直處於殭屍狀態。

殭屍進程產生的原因:

每個Linux進程在進程表中都有一個進入點(Entry),核心程序在執行該進程時使用到的一切信息都存儲在進入點。當使用ps命令查看系統中的進程信息時,看到的就是進程表中的相關數據。

當fork系統調用建立一個新的進程以後,核心進程就會在進程表中給這個新進程分配一個進入點,然後將相關信息存儲在該進入點所對應的進程表中,這些信息中有一項是父進程的識別碼。

當這個進程走完了自己的生命週期後,它會執行exit()系統調用,此時原來進程表中的數據會被該進程的退出碼、執行時所用的CPU時間等數據所取代,這些數據會一直保留到系統將它傳遞給它的父進程為止。由此可見,殭屍進程的出現時間實在子程序終止後,但是父進程尚未讀取這些數據之前。

如何避免殭屍進程

1、父進程通過wait和waitpid等函數等待子進程結束,這會導致父進程掛起

2、如果父進程很忙,那麼可以用signal函數為SIGCHLD安裝handler,因為子進程結束後,父進程會收到該信號,可以在handler中調用wait回收。

3、如果父進程不關心子進程什麼時候結束,那麼可以用“singal(SIGCHLD),SIG_IGN”通知內核,自己對子進程的結束不感興趣,那麼子進程結束後,內核會回收,並不再給父進程發送信號。

4、還有一些技巧,就是fork()兩次,父進程fork一個子進程,然後繼續工作,子進程fork一個孫進程後退出,那麼孫進程被init接管,孫進程結束後,init會回收,不過子進程回收還要自己做。

進程 PK 線程

我們先打個比方,多線程是十字路口多線程是平面交通系統,造價低,但是紅綠燈多,老堵車,而多進程是則是立交橋,雖然造價高,上下坡多耗油,但是不堵車。這是一個抽象的概念。相信大家看完會有這種感覺。

進程和線程是兩個相對的概念,通常來說,一個進程可以定義程序的一個實例(Instance)。在Win32中,進程並不執行什麼,它只是佔據應用程序所使用的地址空間。為了讓進程完成一定的工作,進程必須至少佔有一個線程,正是這個線程負責包含進程地址空間中的代碼。

實際上,一個進程可以包含幾個線程,它們可以同時執行進程地址空間中的代碼。為了做到這一點,每個線程有自己的一組CPU寄存器和堆棧。每個進程中至少有 一個線程在執行其地址空間中的代碼。如果沒有線程執行進程地址空間中的代碼,進程也就沒有繼續存在的理由,系統將自動清除進程及其地址空間。

多線程的實現原理

創建一個進程時,它的第一個線程稱為主線程(Primary thread),由系統自動生成。然後可以由這個主線程生成額外的線程,而這些線程,又可以生成更多的線程。在運行一個多線程的程序時,從表面上看,這些線程似乎在同時運行。而實際情況並非如此,為了運行所有的這些線程,操作系統為每個獨立線程安排一些CPU時間。

單CPU操作系統以時間片輪轉方式向線程提供時間片(Quantum),每個線程在使用完時間片後交出控制,系統再將CPU時間片分配給下一個線程。由於每個時間片足夠的短,這樣就給人一種假象,好像這些線程在同時運行。創建額外線程的目的就是儘可能地利用CPU時間。

多線程的問題

使用多線程編程可以給程序員帶來很大的靈活性,同時也使原來需要複雜技巧才能解決的問題變得容易起來。但是,不應該人為地將編寫的程序分成一些碎片,讓這些碎片按各自的線程執行,這不是開發應用程序的正確方法。

線程很有用,但當使用線程時,可能會在解決老問題的同時產生新問題。例如要開發一個字處理程序,並想讓打印功能作為單獨的線程自己執行。這聽起來是很好的主意,因為在打印時,用戶可立即返回,開始編輯文檔。

但這樣一來,在該文檔被打印時文檔中的數據就有可能被修改,打印的結果就不再是所期望的內容。也許較好不要把打印功能放在單獨的線程中,不過如果一定要用多線程的話,也可以考慮用下面的方法解決:第一種方法是鎖定正在打印的文檔,讓用戶編輯其他的文檔,這樣在結束打印之前,該文檔不會作任何修改;另一個方法可能更有效一些,即可以把該文檔拷貝到一個臨時文件中,打印這個臨時文件的內容,同時允許用戶對原來的文檔進行修改。

當包含文檔的臨時文件打印完成時,再刪去這個臨時文件。通過上面的分析可以看出,多線程在幫助解決問題的同時也可能帶來新問題。因此有必要弄清楚,什麼時候需要創建多線程,什麼時候不需要多線程。總的來說,多線程往往用於在前臺操作的同時還需要進行後臺的計算或邏輯判斷的情況。

線程的分類

在MFC中,線程被分為兩類,即工作線程和用戶界面線程。如果一個線程只完成後臺計算,不需要和用戶交互,那麼可以使用工作線程;如果需要創建一個處理用戶界面的線程,則應使用用戶界面線程。這兩者的主要區別在於,MFC框架會給用戶界面線程增加一個消息循環,這樣用戶界面線程就可以處理自己消息隊列中的消息。

這樣看來,如果需要在後臺作一些簡單的計算(如對電子表格的重算),則首先應考慮使用工作線程,而當 後臺線程需要處理比較複雜的任務,確切地說,當後臺線程的執行過程會隨著實際情況的不同而改變時,就應該使用用戶界面線程,以便能對不同的消息作出響應。

線程的優先級

當系統需要同時執行多個進程或多個線程時,有時會需要指定線程的優先級。線程的優先級一般是指這個線程的基優先級,即線程相對於本進程的相對優先級和包含此線程的進程的優先級的結合。

操作系統以優先級為基礎安排所有的活動線程,系統的每一個線程都被分配了一個優先級,優先級的範圍從0到31。運行時,系統簡單地給第一個優先級為31的線程分配CPU時間,在該線程的時間片結束後,系統給下一個優先級為31的線程分配CPU時間。當沒有優先級為31的線程時,系統將開始給優先級為30的線程分配CPU時間,以此類推。

除了程序員在程序中改變線程的優先級外,有時程序在執行過程中系統也會自動地動態改變線程的優先級,這是為了保證系統對終端用戶的高度響應性。比如用戶按了鍵盤上的某個鍵時,系統就會臨時將處理WM_KEYDOWN消息的線程的優先級提高2到3。CPU按一個完整的時間片執行線程,當時間片執行完畢後,系統將該線程的優先級減1。

線程的同步

在使用多線程編程時,還有一個非常重要的問題就是線程同步。所謂線程同步是指線程之間在相互通信時避免破壞各自數據的能力。同步問題是由前面說到的Win32系統的CPU時間片分配方式引起的。

雖然在某一時刻,只有一個線程佔用CPU(單CPU時)時間,但是沒有辦法知道在什麼時候,在什麼地方線程被打斷,這樣如何保證線程之間不破壞彼此的數據就顯得格外重要。在MFC中,可以使用4個同步對象來保證多線程同時運行。它們分別是臨界區對象(CCriticalSection)、互斥量對象(CMutex)、信號量對象(CS emaphore)和事件對象(CEvent)。

在這些對象中,臨界區對象使用起來最簡單,它的缺點是隻能同步同一個進程中的線程。另外,還有一種基本的方法,本文稱為線性化方法,即在編程過程中對一定數據的寫操作都在一個線程中完成。這樣,由於同一線程中的代碼總是按順序執行的,就不可能出現同時改寫數據的情況。

總結:

在線程中(相對與進程而言),線程是一個更加接近執行體的概念,它可以與同進程的其他線程共享數據,但擁有自己的棧空間,擁有獨立的執行序列。這兩者都可以提高程序的併發度,提高程序運行的效率和響應的時間。

線程和進程在使用上各有優缺點:線程執行開銷小,但不利於資源管理和保護;而進程正好相反。根本的區別就一點:用多進程每個進程有自己的地址空間,線程則共享地址空間,在速度方面:線程產生的速度快,線程間的通訊快,切換快等,因為他們在同一地址空間內。

在資源利用率方面:線程的資源率比較好也是因為他們在同一地址空間內。 在同步方面:線程使用公共變量/內存時需要使用同步機制,因為他們在同一地址空間內進程中:子進程是父進程的複製品,子進程獲得父進程數據空間、堆和棧的複製品。


分享到:


相關文章: