01.04 線上CPU飈高(死循環,死鎖……)?幫你迅速定位代碼位置

線上CPU飈高(死循環,死鎖……)?幫你迅速定位代碼位置

top基本使用:

top命令參考本篇文章

top 命令運行圖:

線上CPU飈高(死循環,死鎖……)?幫你迅速定位代碼位置

第一行:基本信息


線上CPU飈高(死循環,死鎖……)?幫你迅速定位代碼位置


第二行:任務信息


線上CPU飈高(死循環,死鎖……)?幫你迅速定位代碼位置


第三行:CPU使用情況


線上CPU飈高(死循環,死鎖……)?幫你迅速定位代碼位置


第四行:物理內存使用情況


線上CPU飈高(死循環,死鎖……)?幫你迅速定位代碼位置


buff/cache:

buffers 和 cache 都是內存中存放的數據,不同的是,buffers 存放的是準備寫入磁盤的數據,而 cache 存放的是從磁盤中讀取的數據

在Linux系統中,有一個守護進程(daemon)會定期把buffers中的數據寫入的磁盤,也可以使用 sync 命令手動把buffers中的數據寫入磁盤。使用buffers可以把分散的 I/O 操作集中起來,減少了磁盤尋道的時間和磁盤碎片。

cache是Linux把讀取頻率高的數據,放到內存中,減少I/O。Linux中cache沒有固定大小,根據使用情況自動增加或刪除。

第五行:交換區使用情況


線上CPU飈高(死循環,死鎖……)?幫你迅速定位代碼位置


Swap(內存交換區):

是硬盤上的一塊空間。在內存不足的情況下,操作系統把內存中不用的數據存到硬盤的交換區,騰出內存來讓別的程序運行。因此,開啟swap會一定程度的引起 I/O 性能下降(阿里服務器默認不開)

第六行:進程詳細信息

線上CPU飈高(死循環,死鎖……)?幫你迅速定位代碼位置


死循環

構造的代碼如下:

@RestController
@RequestMapping("top")
public class ShowTopController {

private Object lock1 = new Object();
private Object lock2 = new Object();

@RequestMapping("test")
public String test() {
return "success";
}

@RequestMapping("loop")
public String loop() {
System.out.println("start");
while (true) {}
}

@RequestMapping("deadlock")
public String deadlock() {
new Thread(() -> {
synchronized (lock1) {
try{
TimeUnit.SECONDS.sleep(1);
} catch (Exception e) {}
synchronized (lock2) {
System.out.println("thread1 over");
}
}
}).start();

new Thread(() -> {
synchronized (lock2) {
try{
TimeUnit.SECONDS.sleep(1);
} catch (Exception e) {}
synchronized (lock1) {
System.out.println("thread2 over");

}
}
}).start();

return "success";
}

}

這裡只介紹一下用到的top參數

參數選項名稱

含義

p

通過指定進程ID(PID)來僅僅監控某個進程的狀態。可以指定多個,-pN1 -pN2 … (-p N1 -p N2…也可)或者 -pN1,N2,N3 …(-p N1,N2…也可)

H

顯示所有線程的運行狀態指標。如果沒有該參數,會顯示一個進程中所有線程的總和。在運行過程中,可以通過H命令進行交互控制

先手動製造CPU飆高的場景,多執行幾次,小編這裡執行3次

curl localhost:8080/top/loop


執行top

線上CPU飈高(死循環,死鎖……)?幫你迅速定位代碼位置


jstack命令工具可以得到線程堆棧信息,根據這些線程堆棧信息,我們可以去檢查Java程序出現的問題

看到pid為23757的進程CPU佔用較高,執行如下命令

jstack 23757 > loop.txt


看看pid為23757的進程中線程的具體情況

top -p 23757 -H


線上CPU飈高(死循環,死鎖……)?幫你迅速定位代碼位置


當然你也可以使用交互命令

top -p 23757


然後再輸入H,效果和上面一樣

可以看到PID為23772,23773和23774的線程佔用CPU較高

這裡可能有人有疑惑,為什麼線程也有PID啊?其實線程進程都會有自己的ID,這個ID就叫做PID,PID是不特指進程ID,線程ID也可以叫做PID

將10進制的23772轉為16進制,因為jstack中PID用的是16進制

printf "%x" 23772
輸出5cdc


打開loop.txt文件,搜5cdc

線上CPU飈高(死循環,死鎖……)?幫你迅速定位代碼位置


可以看到線程一直在執行ShowTopController中的第23行,即

while (true) {}


好了定位到代碼中的位置了,當然生產環境中肯定不會寫一個死循環的,有可能在特殊場景下出現死循環,或執行一個方法特別慢,用這種方法很快就能找到代碼位置。

死鎖

接著訪問

curl localhost:8080/top/loop

執行

jstack 23757 > loop.txt

打開loop.txt文件到最後

線上CPU飈高(死循環,死鎖……)?幫你迅速定位代碼位置


看到發現一個死鎖,死鎖代碼的位置描述的很清楚,生產環境發生的死鎖當然沒有這麼簡單,所有學會用這些命令排查還是很有必要的


分享到:


相關文章: