用systemtap對sysbench IO測試結果的分析-愛可生

2020-12-29 00:40:20 佚名

測試環境準備

運行前，通過echo 1 > /proc/sys/vm/drop_caches清理IO cache
運行前，通過iostat -x -p {dev} 1確認沒有其它IO影響結果
sysbench參數

<code>sysbench --test=fileio --num-threads=$SYSBENCH_NUM_THREADS --file-num=$SYSBENCH_FILE_NUM --file-block-size=$SYSBENCH_BLOCK_SIZE --file-total-size=$SYSBENCH_FILE_TOTAL_SIZE --file-test-mode=$1 --file-io-mode=sync --file-extra-flags=$DIRECT --file-fsync-all=$FSYNC --file-fsync-mode=fsync --file-fsync-freq=0 --file-merged-requests=0 --max-time=$SYSBENCH_TIME --max-requests=0/<code>

其中的變量參數

<code>binlog 異常暴漲分析SYSBENCH_FILE_TOTAL_SIZE=16G
SYSBENCH_FILE_NUM=16
SYSBENCH_NUM_THREADS=16
DIRECT=
FSYNC=off
SYSBENCH_BLOCK_SIZE=4096
SYSBENCH_TIME=60/<code>

附件中的run_sysbench.sh是運行sysbench的腳本，每個實驗的輸出都附在附件中，樣例輸出：

現象1

步驟1

1.非Direct I/O模式，測試順序寫

<code>./run_sysbench.sh seqrewr run | tee 1_sysbench_seqrewr/<code>

2.非Direct I/O模式測試隨機寫

<code>./run_sysbench.sh rndwr run | tee 2_sysbench_rndwr/<code>

3.Direct I/O模式，測試順序寫(seqrewr)

<code>DIRECT=1 ./run_sysbench.sh seqrewr run | tee 3_sysbench_direct_seqrewr/<code>

4.Direct I/O模式，測試隨機寫(rndwr)

<code>DIRECT=1 ./run_sysbench.sh rndwr run | tee 4_sysbench_direct_rndwr/<code>

結果1

對於磁盤的I/O測試，直覺上順序寫比隨機寫要快很多。從測試結果可以看到：

在Direct I/O模式下，與直覺結果相符
在非Direct I/O模式下，隨機寫比順序寫IOPS快4倍, 吞吐與IOPS成正比。這一點是違反直覺的

對結果的分析將集中在非Direct I/O模式下。

分析1

我們一時間對上述結果沒有任何頭緒，也不大可能是意外發明瞭隨機寫更快的磁盤. 先嚐試觀察對磁盤的IO壓力分佈：

<code>iostat -x -p /dev/sdb 1/<code>

觀察到在sysbench結束後，順序寫的I/O壓力為0，但隨機寫的I/O壓力仍將持續一些時間。隨即懷疑sysbench在順序寫時用fsync進行刷盤，並等待刷盤結束。在等待期間沒有sysbench不發出新的IO請求，自然IOPS會降低。但sysbench參數中已經設置了--file-fsync-all=off，與現象衝突。

用strace確認這一結論：

<code>strace -e trace=fsync -f ./run_sysbench.sh seqrewr run 2>&1 | tee 5_strace_sysbench_seqrewr/<code>

可以看到顯式的fsync調用。

在sysbench源碼中可以找到與FILE_OP_TYPE_FSYNC相關的一段代碼：

<code>    if (file_fsync_end && file_req->operation == FILE_OP_TYPE_WRITE &&
        fsynced_file2 < num_files)
    {
      file_req->file_id = fsynced_file2;
      file_req->pos = 0;
      file_req->size = 0;
      file_req->operation = FILE_OP_TYPE_FSYNC;
      fsynced_file2++;
    }/<code>

意味著這個fsync與sysbench參數file-fsync-end相關。解決方案：1. 設置--file-fsync-end=no2. 在測試中sysbench順序寫寫完所有文件的時間--max-time, 避免多出的fsync

之後的測試中, 將置--file-fsync-end=no, 並將--max-time設為30, 避免fsync, 且減少測試時間成本。

插曲1

在分析的過程中，實際過程要比上述描述艱辛一些。

觀測工具使用不當帶來測試偏差。

用strace確定是否有fsync調用時，最初用的命令是：

<code>strace -f ./run_sysbench.sh seqrewr run 2>&1 | tee 5_strace_sysbench_seqrewr/<code>

由於缺少了-e trace=fsync參數，strace的成本上升，導致sysbench的性能下降，使得寫完所有文件的時間>--max-time，就沒有發現fsync調用。

這一結果與預期不符，一時陷入僵局。繞了一圈後懷疑和觀測工具相關，雖沒有定位到是因為觀測工具引起的性能下降，但可以嘗試用另一個觀測工具來校準偏差。在此選定的工具是systemtap。

使用另一觀測工具用於校準 — systemtap

Systemtap 提供了極低成本的內核檢測能力，類似於Dtrace，詳細的介紹請找官方文檔。

以檢測fsync調用為例演示systemtap的用法：

環境準備請找官方文檔
編輯systemtap腳本 6_systemtap_fsync_summary.stp

<code>!/usr/bin/env stap
global r
probe syscall.fsync {
        r[pid()] < 1
}

probe end {
        foreach ([pid-] in r) {
                printf ("pid=%d, fsync=%d times\n", pid, @count(r[pid]))
        }
}/<code>

3.編譯

<code>stap -v -r $(uname -r) -DMAXSKIPPED=100000 -DSTP_NO_OVERLOAD 6_systemtap_fsync_summary.stp -m 6_systemtap_fsync_summary.ko/<code>

systemtap在觀測負荷會顯式影響系統性能時，會”跳過”一些觀測點，這樣不會影響系統性能，可以安全地使用，但會造成結果不準確。-DMAXSKIPPED=100000 -DSTP_NO_OVERLOAD 這兩個參數能systemtap儘量”不計成本”地觀測，但需要警惕其帶來的開銷。後續編譯中默認會使用這兩個參數，但所有結果需要和不使用參數的情況進行對比，來發現並規避其影響。本文不記述對比的過程。

4.使用

<code>staprun -v fsync_summary.ko | tee 6_systemtap_fsync_summary/<code>

輸出如下：

<code>pid=34888, fsync=16 times/<code>

可以看到16個fsync調用，與sysbench配置的線程數一致。即證明之前不當使用strace造成了觀測結果的偏差。

5.說明systemtap可以一鍵運行腳本，但我們用了編譯+運行兩個步驟，原因是systemtap的編譯環境配置比較繁複，因此我們將編譯環境隔離到了一個容器中，而將編譯好的.ko文件放到目標機上運行，目標機只需安裝簡單的依賴就可以運行。避免環境汙染。

覆盤1

回頭重看現象1的分析過程, 有幾點教訓：1.其實sysbench的標準輸出已經給出了問題原因：

<code>...
Extra file open flags: 0
16 files, 1Gb each
16Gb total file size
Block size 4Kb
Calling fsync() at the end of test, Enabled.
Using synchronous I/O mode
.../<code>

Calling fsync() at the end of test, Enabled.，藏在一堆數字中信息容易被忽略

2.對觀測工具要進行校準

現象2

步驟2

根據現象1的分析，調整sysbench參數：置--file-fsync-end=no，並將--max-time設為30。重新運行非Direct IO模式的順序寫和隨機寫的測試。

1.測試順序寫

<code>SYSBENCH_TIME=30 FIX_FSYNC_END=1 ./run_sysbench.sh seqrewr run | tee 7_sysbench_seqrewr/<code>

2.測試隨機寫

<code>SYSBENCH_TIME=30 FIX_FSYNC_END=1 ./run_sysbench.sh rndwr run | tee 8_sysbench_rndwr/<code>

結果2

比之前的結果好一些，但觀察仍到兩個異常現象：

1. 現象2的隨機寫效率高於現象1。猜測是因為縮短了--max-time，導致文件系統緩存仍然在預熱過程中，不需等待回刷。之後的分析中將略過這一點，並不影響分析結果。2. 順序寫的效率仍然低於隨機寫。對這個現象完全沒有想法。

分析2.1 – 端到端的延遲分佈

如果對Linux I/O棧比較陌生，可以查看Linux Storage Stack Diagram 做初步瞭解。

由於對”順序寫的效率低於隨機寫”這一現象沒有任何想法，就先測量一下端到端的延遲分佈，即站在vfs層的角度看延遲分佈。

期望是能判斷延遲是否平均，是否由於個別I/O的異常拖慢了整體水平。

還是用到了systemtap腳本，此處略去編譯過程，直接給出腳本和結果。

systemtap腳本2.1

vfs_write_latency.stp

<code>global input_devname="sdb"
global io_latency

probe vfs.write.return {
        if (bytes_to_write > 0 && input_devname == devname) {
                time = gettimeofday_ns() - @entry(gettimeofday_ns())
                io_latency < time
        }
}

probe end {
        print (@hist_log(io_latency))
}/<code>

運行2.1

1.測試順序寫

<code>1> staprun -v vfs_write_latency.ko 2>&1 | tee 9_systemtap_vfs_write_latency_seqrewr
2> SYSBENCH_TIME=30 FIX_FSYNC_END=1 ./run_sysbench.sh seqrewr run/<code>

2.測試隨機寫

<code>1> staprun -v vfs_write_latency.ko 2>&1 | tee 10_systemtap_vfs_write_latency_rndwr
2> SYSBENCH_TIME=30 FIX_FSYNC_END=1 ./run_sysbench.sh rndwr run/<code>

結果2.1

1.順序寫

2.隨機寫

可以看到：1. 存在skipped probes. systemtap認為有一個觀測點影響太大，因此跳過。2. 存在一個非常離譜的異常點：1152921504606846976ns，以至對平均值產生了很大影響。這可能是由於skipped probes引起的。之後的分析將這個異常點去掉。3. 存在兩段峰值：2048~524288ns，2097152~1073741824ns。第二段的命中次數遠低於第一段，但延遲佔有一定比例。由於一時沒有頭緒，先忽略這一現象，留待之後解決。4. 隨機寫比順序寫的低延遲段(4096ns附近)的分佈要多一些。

目前為止沒有進展。下一步試試研究設備層的I/O請求特徵，期望是設備層的I/O請求特徵正常，從而確認問題出在文件系統和IO調度上。

分析2.2 – 設備層的I/O請求特徵

systemtap腳本2.2

運行2.2

1.測試順序寫

<code>1> staprun -v ioblock_request_summary.ko 2>&1 | tee 11_systemtap_ioblock_write_latency_seqrewr
2> SYSBENCH_TIME=30 FIX_FSYNC_END=1 ./run_sysbench.sh seqrewr run/<code>

2.測試隨機寫

<code>1> staprun -v ioblock_request_summary.ko 2>&1 | tee 12_systemtap_ioblock_write_latency_rndwr
2> SYSBENCH_TIME=30 FIX_FSYNC_END=1 ./run_sysbench.sh rndwr run/<code>

結果2.2

測試順序寫 (結果經過縮減)
測試隨機寫 (結果經過縮減)rw是讀寫模式，io_size是設備I/O的大小，count是次數，avg_latency是平均延遲。

可以看到:

順序寫的設備I/O的大小集中在大於4k的區域，即在之前經過了合併。隨機寫的設備I/O的大小几種在4k，即沒有經過合併. 符合預期
從延遲上沒有發現明顯的差異

可以得到的結論是：順序寫和隨機寫的反常的性能差異很大程度來自於文件系統和IO調度。

分析2.3 – 文件系統的緩存命中率

想到問題可能在文件系統，那可能性比較大的是緩存系統的命中率。順序寫的緩存命中率較低，隨機寫的緩存命中率較高，即幾個發往文件系統的隨機寫請求可能寫的是同一個數據塊。猜測隨機寫在文件系統緩存的代價較小，因此性能較好。

下面驗證文件系統的緩存命中率。可以參考Brendan Gregg神的cachestat。不過此處由於只需要對比趨勢而不需要保證絕對值正確，所以可以簡化實現。

systemtap腳本2.3.1

運行2.3.1

1.測試順序寫

<code>1> staprun -v io_cache_hit_ratio.ko 2>&1 | tee 13_systemtap_io_cache_hit_ratio_seqrewr
2> SYSBENCH_TIME=30 FIX_FSYNC_END=1 ./run_sysbench.sh seqrewr run/<code>

2.測試隨機寫

<code>1> staprun -v io_cache_hit_ratio.ko 2>&1 | tee 14_systemtap_io_cache_hit_ratio_rndwr
2> SYSBENCH_TIME=30 FIX_FSYNC_END=1 ./run_sysbench.sh rndwr run/<code>

結果2.3.1

可以看到, 隨機寫的緩存命中率(1-add_to_page_cache_lru/pagecache_get_page)比順序寫要高。之後的測試，我們增大sysbench文件的總大小到64G，來降低隨機寫的緩存命中率。

運行2.3.2

1.測試順序寫

<code>1> staprun -v io_cache_hit_ratio.ko 2>&1 | tee 15_systemtap_io_cache_hit_ratio_64G_seqrewr
2> SYSBENCH_FILE_TOTAL_SIZE=64G SYSBENCH_TIME=30 FIX_FSYNC_END=1 ./run_sysbench.sh seqrewr run/<code>

2.測試隨機寫

<code>1> staprun -v io_cache_hit_ratio.ko 2>&1 | tee 16_systemtap_io_cache_hit_ratio_64G_rndwr
2> SYSBENCH_FILE_TOTAL_SIZE=64G SYSBENCH_TIME=30 FIX_FSYNC_END=1 ./run_sysbench.sh rndwr run/<code>

結果2.3.2

可以看到，隨著測試文件增大，隨機寫的緩存命中率下降，性能也隨之下降。寫緩存的命中率是隨機寫和順序寫性能差異的影響因素之一。

分析2.4 – 文件系統的緩存延遲分析

分析2.3的結果是隨機寫和順序寫的性能差不多，但我們仍可以進一步分析緩存的延時：找一個使用緩存的堆棧，逐層做延遲分析，這是個笨拙但有效的方法。

Systemtap本身提供了大量腳本，其中就有一些成熟的函數入口可以直接借用，而不用自己讀Linux源碼分析backtrace，比如對於緩存，找到/usr/share/systemtap/tapset/linux/vfs.stp文件，搜一下cache，就可以找到以下入口點：

<code>probe vfs.add_to_page_cache =
        kernel.function("add_to_page_cache_locked") !,
        kernel.function("add_to_page_cache")
{
...
}/<code>

之後可以通過systemtap打印出add_to_page_cache的調用棧 (在3.19內核中, 實際使用了add_to_page_cache_lru，這個需要查看源碼才能知道此處的變更)，此處不詳述，結果如下：

然後觀測這個堆棧中每個函數的延遲，這個過程中需要特別注意如果觀測點過多，那麼對性能結果會有較大影響，以致影響分析的結論。因此每一次觀測後需要對比觀測前後的性能差別，如果差異過大，應調整觀測手段或減小觀測的範圍。

在此我們就假設運氣很好，一次觀測就能命中要害。

systemtap腳本2.4.1

ext4_write_latency.stp

<code>global input_devname="sdb"

global latency_ext4_file_write_iter
probe kernel.function("ext4_file_write_iter").return {
        dev = __file_dev($iocb->ki_filp)
        devname = __find_bdevname(dev, __file_bdev($iocb->ki_filp))
        if (devname == input_devname) {
                latency_ext4_file_write_iter < gettimeofday_ns()-@entry(gettimeofday_ns())
        }
}

global latency___generic_file_write_iter
probe kernel.function("__generic_file_write_iter").return {
        dev = __file_dev($iocb->ki_filp)
        devname = __find_bdevname(dev, __file_bdev($iocb->ki_filp))
        if (devname == input_devname) {
                latency___generic_file_write_iter < gettimeofday_ns()-@entry(gettimeofday_ns())
        }
}

probe end {
        printf ("ext4_file_write_iter latency: %d\n", @avg(latency_ext4_file_write_iter))
        printf ("__generic_file_write_iter latency: %d\n", @avg(latency___generic_file_write_iter))
}/<code>

運行2.4.1

1.測試順序寫

<code>1> staprun -v ext4_write_latency.ko 2>&1 | tee 17_systemtap_ext4_write_latency_seqrewr
2> SYSBENCH_FILE_TOTAL_SIZE=64G SYSBENCH_TIME=30 FIX_FSYNC_END=1 ./run_sysbench.sh seqrewr run/<code>

2.測試隨機寫

<code>1> staprun -v ext4_write_latency.ko 2>&1 | tee 18_systemtap_ext4_write_latency_rndwr
2> SYSBENCH_FILE_TOTAL_SIZE=64G SYSBENCH_TIME=30 FIX_FSYNC_END=1 ./run_sysbench.sh rndwr run/<code>

結果2.4.1

可以看到：1. 順序寫與隨機寫相比，__generic_file_write_iter的開銷明顯減小，符合常識2. 順序寫與隨機寫相比，ext4_file_write_iter在其他方面的開銷佔比明顯增加

分析2.4.1

從結果1得到結論：ext4_file_write_iter在其他方面的開銷佔比明顯增加。至於哪個方面的開銷增加了，得粗看一下源碼(源碼已將不重要的部分略去)：

<code>static ssize_t
ext4_file_write_iter(struct kiocb *iocb, struct iov_iter *from)
{
       ...

        /*
         * Unaligned direct AIO must be serialized; see comment above
         * In the case of O_APPEND, assume that we must always serialize
         */
        if (o_direct && ...) {
            ...
        }

        mutex_lock(&inode->i_mutex);
        if (file->f_flags & O_APPEND) ...;

        /*
         * If we have encountered a bitmap-format file, the size limit
         * is smaller than s_maxbytes, which is for extent-mapped files.
         */
        if (!(ext4_test_inode_flag(inode, EXT4_INODE_EXTENTS))) {
                ...
        }

        ...
        if (o_direct) {
                ...
        }

        ret = __generic_file_write_iter(iocb, from);
        mutex_unlock(&inode->i_mutex);

        if (ret > 0) {
                ...
        }
        if (o_direct) ...;

errout:
        if (aio_mutex) ...;
        return ret;
}/<code>

源碼已將分支內的部分略去，只留下主幹。可以看到：1. 代碼特別處理了一些情況(比如, Direct I/O，append模式等)2. 主幹上的操作主要是__generic_file_write_iter和鎖inode->i_mutex

因此可以懷疑鎖inode->i_mutex的代價是否過高

systemtap腳本2.4.2

腳本generic_file_write_iter_concurrency.stp用於觀測__generic_file_write_iter的並行度，以此來估算鎖inode->i_mutex的代價。

<code>global input_devname="sdb"

global concurrency, max_concurrency
probe kernel.function("__generic_file_write_iter") {
        dev = __file_dev($iocb->ki_filp)
        devname = __find_bdevname(dev,
                                  __file_bdev($iocb->ki_filp))
        if (devname == input_devname) {
                concurrency += 1
                max_concurrency < concurrency
        }
}

probe kernel.function("__generic_file_write_iter").return {
        dev = __file_dev($iocb->ki_filp)
        devname = __find_bdevname(dev,
                                  __file_bdev($iocb->ki_filp))
        if (devname == input_devname) {
                concurrency -= 1
        }
}

probe end {
        printf ("concurrency=%d\n", @max(max_concurrency))
}/<code>

運行2.4.2

1.測試順序寫

<code>1> staprun -v generic_file_write_iter_concurrency.ko 2>&1 | tee 19_systemtap_generic_file_write_iter_concurrency_seqrewr
2> SYSBENCH_FILE_TOTAL_SIZE=64G SYSBENCH_TIME=30 FIX_FSYNC_END=1 ./run_sysbench.sh seqrewr run/<code>

2.測試隨機寫

<code>1> staprun -v generic_file_write_iter_concurrency.ko 2>&1 | tee 20_systemtap_generic_file_write_iter_concurrency_rndwr
2> SYSBENCH_FILE_TOTAL_SIZE=64G SYSBENCH_TIME=30 FIX_FSYNC_END=1 ./run_sysbench.sh rndwr run/<code>

結果2.4.2

可以看到，鎖inode->i_mutex限制了__generic_file_write_iter的併發度。由常識得知，一個文件一般對應一個inode結構 (也可以通過systemtap打印inode地址來確認)，也就是說：

順序寫的壓力集中在寫一個文件，因此在inode的鎖上產生了競爭
隨機寫的壓力比較分散, 因此__generic_file_write_iter的併發度高
順序寫的最大併發度為2，而不是1，可能是發生在已寫滿某一文件並要寫下一個文件的瞬間

之後，我們將調整sysbench併發數為1，來拉平順序寫和隨機寫的__generic_file_write_iter併發度，創造公平的測試環境。

步驟2.4.3

根據現象2的分析，本次的測試將調整sysbench併發數為1。此處也可以隨手驗證一下現象2中的generic_file_write_iter的併發度，在兩種情況下都相等，在此不詳述。

1.測試順序寫

<code>SYSBENCH_NUM_THREADS=1 SYSBENCH_FILE_TOTAL_SIZE=64G SYSBENCH_TIME=30 FIX_FSYNC_END=1 ./run_sysbench.sh seqrewr run | tee 21_sysbench_1thread_seqrewr/<code>

2.測試隨機寫

<code>SYSBENCH_NUM_THREADS=1 SYSBENCH_FILE_TOTAL_SIZE=64G SYSBENCH_TIME=30 FIX_FSYNC_END=1 ./run_sysbench.sh rndwr run | tee 22_sysbench_1thread_rndwr/<code>

結果2.4.3

可以看到，在相對公平的測試條件下，順序寫比隨機寫的性能更好一些。

現象3

在結果2.1中還遺留了一個問題：在研究延遲分佈時出現了兩個峰。在之前的試驗中，如果將一些函數的延遲分佈打印出來，也能觀察到兩個峰。這些函數並不集中在某一個邏輯路徑上，比較分散。因此可能是一個共有的機制導致第二個峰的出現，而不是某個邏輯分支導致。

另外可以嘗試用systemtap腳本進行分析，但幾經嘗試，第二個峰的出現並不規律。

偶爾想到這是否由於發生了OS的進程切換而導致的，有了想法就可以快速驗證一下。

systemtap腳本3

vfs_write_latency_and_context_switch.ko

<code>global input_devname="sdb"
global vfs_write_latency

global fire
probe vfs.write {
        if (bytes_to_write > 0 && input_devname == devname) {
                fire[tid()] = 1
        }
}

probe vfs.write.return {
        if (fire[tid()] == 1) {
                delete fire[tid()]
                vfs_write_latency < gettimeofday_ns() - @entry(gettimeofday_ns())
        }
}

global t_switchout, switch_latency
probe scheduler.ctxswitch {
        if (fire[prev_tid] == 1) {
                t_switchout[prev_tid] = gettimeofday_ns()
        }
        if (fire[next_tid] == 1) {
                switch_latency < gettimeofday_ns() - t_switchout[next_tid]
        }
}

probe end {
        printf ("vfs write latency:\n")
        print (@hist_log(vfs_write_latency))
        printf ("switch latency:\n")
        print (@hist_log(switch_latency))
}/<code>

運行3

<code>1> staprun -v vfs_write_latency_and_context_switch.ko 2>&1 | tee 23_systemtap_vfs_write_latency_and_context_switch
2> SYSBENCH_FILE_TOTAL_SIZE=64G SYSBENCH_TIME=30 FIX_FSYNC_END=1 ./run_sysbench.sh seqrewr run/<code>

結果3

可以看到：I/O延遲的第二峰值和OS進程切換相關。

覆盤

現在覆盤整個過程：

1.Direct模式的順序寫性能大於隨機寫，但非Direct模式的順序寫性能小於隨機寫

* 分析：查找fsync系統調用* 結果：調整sysbench參數--file-fsync-end=no2. 順序寫性能仍小於隨機寫* 分析2.1：是否有部分異常I/O延遲拖慢了平均值* 結果2.1：沒有進展。延遲存在兩個峰* 分析2.2：設備層的I/O請求特徵* 結果2.2：設備層的I/O請求特徵無異常，確定問題來自文件系統或IO調度* 分析2.3：文件系統的緩存命中率* 結果2.3：緩存命中率影響了性能，通過調大測試文件大小可降低命中率差異，順序寫性能大於隨機寫* 分析2.4：文件系統的緩存延遲分析* 結果2.4：Ext4的鎖inode->i_mutex的影響, 順序寫受到的影響高於隨機寫3. 對延遲分佈的第二個峰與OS進程切換有關

性能分析經驗

性能觀測工具的準確性需要校準，要懷疑其正確性
注意其他程序對觀測目標的影響
systemtap 是強大的觀測工具, 其性能開銷低, 有許多現成的腳本供參考
有一些結論的得出，比如現象3，不是依靠於邏輯分析，而是猜測-驗證得來，這就要求對相關的技術有所瞭解
之所以現象3不通過邏輯分析，是因為沒有找到恰當的觀測手段和分析方法

IO測試經驗

IO測試時，如果要對兩個場景做性能對比，要關注一下幾個維度

fsync的調用
文件系統的緩存命中率
文件系統的併發度
OS上下文切換的頻度

這幾個維度偏差不大, 才能進行性能對比.

比較順序寫和隨機寫的性能，要確定比較目的，常識中”順序寫性能優於隨機寫”的結論，可能適用於設備I/O，但在文件系統上的某些場景下結論並不適用。

注意

所有的測試結果不能用於生產環境，因為測試時間較短，導致一些因素與生產環境不同，比如文件系統緩存是預熱狀態而並不飽和。得出的結論會有所偏頗，此次試驗只是展示一些分析方法。

分享到:

關鍵字: fsync 附件 SYSBENCH

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

記者從河北省公安廳獲悉，日前公安部通緝的13名A級通緝犯中的2號通緝犯魯某某近日向河北邯鄲警方投案自首，這是公安部A級通緝令後又一通緝犯主動投案。

當我們在談 SaaS 的時候，在談什麼？

當我們在談SaaS 的時候，在談什麼？什麼是 SaaSSaaS 優缺點SaaS 銷售模式SaaS 產品指標SaaS 業務指標SaaS 收入計算一、什麼是 SaaS這個模式讓軟件變得和水電氣很相似，只需要每月繳納固定的費用即可享受服務。

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

現階段，隨著國家供給側結構性改革的不斷深入，人們在市場中的互易行為日益頻繁，合同在經濟活動發揮的作用也日漸凸顯。

5月西安招聘會時間安排來了！找工作的別錯過

乘車路線:西安市內乘坐12路、14路、14路區間、26路、215路、215路區間、216路、224路、229路、239路、31路、36路、321路、323路、521路、600路、603路、616路、701路、704路、709路、教育專線、K605路、K616路、遊6路、遊8路61

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

剛剛:剛剛工作的畢業生，一個月只有2000多，是不是太少了？根據你城市消費水平來看啊，還有你從事的工作，假如你在二三線城市做一份事業單位或者是編制類的工作，薪資水平是隨著你工作年限逐年增長的，而且在年終也有很多福利補貼待遇等等，算下來收入也是可觀的，再舉一個例:-畢業生 2000

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

基於以太坊區塊鏈的主要穩定幣包括：Tether、TrueUSD、GeminiDollar、Paxos Standard、Binance USD、USD Coin、Huobi USD和MakerDAO等。

“幫助當地居民解決用水難題”-今日頭條-手機光明網

晨曦初露，9歲的米格爾和弟弟妹妹們抱著水罐，穿過一片田野，到達安哥拉首都羅安達郊區的指定取水點。葛洲壩安哥拉有限公司市場部負責人劉世軒介紹說，公司每天派出送水車兩次，一次3車，將潔淨水從羅安達水廠直接運往指定取水點。

灌籃高手無水印壁紙，每一張都是回憶

那些年，我們追過的灌籃高手，你更喜歡誰呢？流川楓櫻木花道赤木剛憲宮城良田三井壽你喜歡哪個球員呢？歡迎評論區留言。

通遼藍天救援隊成功解救遼河公園水上被困群眾

2020年5月1日，通遼藍天救援隊假期例行在遼河公園水域進行安全巡邏任務，下午15時10分，巡邏隊員發現遼河水面有被困群眾向巡邏船隻求救，接到求救信號後，巡邏隊員緊急前往事故現場展開研判、救援準備工作。

5月6日·武漢要聞及抗擊肺炎快報

今天零時起高速公路恢復收費了，這些車輛還能免費5月6日零時起全國高速公路恢復收費在武漢北收費站ETC和人工車道全部可通行零時左右通過收費站的車輛並不多以大貨車為主有工作人員在一旁引導貨車進入高速收費站前要通過入口稱重檢測車道進入沒有超重超限便可順利通過現場沒有出現排隊的現象全省聯

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

2020年4月29日下午，肖副省長等省市領導來到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作，肖副省長等省市領導在學校領導陪同下，重點對校門口出入、保健室、教室、學生心理輔導室、洗手池等進行了非常細緻的檢查，對孝感市楚澴中學的復學和疫情防控工作給予充分的肯定。

相聲界的顏值擔當張雲雷稱號大揭祕

這個播放量就連師傅身為相聲演員的張雲雷卻有著堪比娛樂圈小鮮肉的顏值，一個相聲演員長成這樣，張雲雷不火誰能火。

美國百年薅羊毛攻略

當德國向法軍陣地傾洩400多萬發炮彈，揚言要讓凡爾登成為「碾碎法軍的絞肉機」時，遠在大西洋的美國人。

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

近日，由楊洋、江疏影主演的劇版《全職高手》在騰訊視頻正式開播了，該劇改編自蝴蝶藍同名小說，先前還被改編成動畫版。

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

前言：IG這隻老牌戰隊在我們LPL賽區以來都擁有著非常高的人氣，特別是在2018年之後，他們幫助我們LPL賽區奪得了第一個寶貴的S賽世界冠軍，而IG戰隊的打法一直以來也是非常有觀賞性的。

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

Doinb表示："可以的話我不想參加，首先這場比賽沒有任何意義，獲得勝利既不會有獎金也不會有榮譽，但萬一輸掉比賽FPX就會成為大家吐槽的焦點"。

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

大家都知道天后王菲和前夫李亞鵬他們育有一個女兒，名叫李嫣。於是李嫣因為偷偷的開了直播從而也導致了她被大家所發現，但李嫣的樂觀和開朗卻也讓李亞鵬放下心來，決定放飛女兒，讓她自由的去探索她想要的世界。

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

天王郭富城近日參加活動，首度承認妻子方媛懷有二胎的消息。從去年2017年兩人結婚，低調的愛情讓媒體都捕捉不到邊際，天王嫂31歲兩人相差了20歲的愛戀，始終不少人不看好啊。

那些拼命的演員：王寶強喝了一大桶牛奶，孫儷吃10斤瓜子

演員在我們眼中一直都是光鮮亮麗、收入頗高的職業，並且現在有很多靠流量躋身一線，卻毫無演技以及實力的演員。

賈乃亮用上了“一米陽光”這個詞，他依然渴望擁有美麗的愛情！

曾經賈乃亮是“陽光”的代名詞，大家看到他都覺得很暖，只不過後來就不是了。今天早上，他發了一條微博“人生的美好就是每天醒來都能看到上帝賜予我的那一米陽光”，這句話當中，賈乃亮用到了“一米陽光”這個詞。

搞笑GIF開心一刻：我的老家農村，有妹子願意嫁給我嗎？

當一名理髮師也不容易這是一隻有航天夢想的老鼠寶寶！什麼？這麼貴！把我賣了得了。小朋友，你贏了，我甘拜下風！

為什麼只有edg賺錢？

電競行業作為一個新興產業，這幾年發展勢頭越來越好，IG戰隊，FPX戰隊先後奪得了s8-s9世界賽的冠軍，據俱樂部知情人士透露，除了國內的幾家豪門俱樂部之外，其他俱樂部基本都是虧錢在做的，當然EDG也是:-edg 賺錢:為什麼只有edg賺錢？

程瀟身材多好？雙腿劈叉才明白，這才是“腿精”

程瀟可謂是才女，她是中韓宇宙少女的成員之一，今年她只有20歲。不要看程瀟年紀比較小，但是她身材還是挺好的，身材也是典型S型曲線，魅力不小。

張柏芝承認三胎產子，否認小夥的老爸是孫東海，看來她選擇保密

張柏芝是許多80後90後心目中的女神，除了顏值高有演技外，她和謝霆鋒的婚姻和戀情也曾是吃瓜群眾津津樂道的事。

T1戰隊搶注Faker商標，“囊括多個領域產品，商業潛力媲美喬丹”

前言：目前各大賽區的春季賽都已經結束了，T1戰隊在重組之後再度拿下了lck賽區的冠軍，這讓很多的玩家非常意外，這也從側面反映出來了，核心選手和主教練的個人能力，同時faker的實力再度被玩家們認可，最近一段時間他也是一直在直播，很多的人都在詢問，今年李哥的目標是什麼？

雲頂之弈“最不平衡的版本”誕生，全員搶一費卡，運氣成吃雞關鍵

上線之後迅速引發了大量玩家的好評，就在最近，官方也是迎來了10.9版本，可是在目前的版本中再度出現了太多的畸形玩法了，應該是有史以來最不平衡的版本，因為一費卡的爆率大大提升，導致遊戲成為了三星的天下，全員搶一費卡，運氣成為吃雞的關鍵。

LPL春季賽"6宗最"：Uzi最遺憾，阿水最驚喜，V5最離譜

在本期節目中會評選出一位最美麗LPL女解說，其中瞳夕、Rita、餘霜等都在名單之中，最有趣的是管澤元居然也出現在了“女解說”名單中，全因餘霜一張P過的照片，論梗的話，管澤元第一，若是輪顏值，估計這也排不上名次。

雷佳音被問：跟佟麗婭拍那麼多親熱戲是啥感受？他的回答笑翻眾人

不過要是像唐嫣和羅晉那樣用公費談戀愛的故事不多，大多數還是和不是心愛的人拍得多，但要是遇上岳雲鵬和佟麗婭拍親熱戲的話，那個畫面或許大家想象不出來吧。

JDG成最“慘”冠軍戰隊？拿到LPL冠軍人氣依舊低迷，TES成贏家！

LPL賽區的春季賽結束也有一段時間了，作為冠軍戰隊JDG，並沒有因為拿到冠軍而出現“人氣”的高漲，依舊平平淡淡，熟悉LPL賽區的玩家都知道，在LPL賽區中，一直以來都是由RNG、IG、EDG三家從“遠古”時期就開始統治LPL賽區，期間也有OMG和LGD、WE幾個戰隊打破了這個規律

#戰疫必勝#“症和狀”都有了，我與新冠擦肩而過

學習結束，回到家後，在武大短暫學習的那段時光時常讓我懷念，並曾立下誓言，抽個暑假一定要帶著老婆孩子一起去“逛”武大。機會就這麼悄然而至！2019年第28屆世界腦力錦標賽全球總決賽的舉辦地就是武漢，比賽的日期是12月6日到8日，三天的時間。其實，我也沒有想到第一次參加這樣比賽的女兒

T1提議中韓友誼賽，但LPL隊伍都不想參加？理由其實很簡單

這不今天就有網友在論壇中聊起了這個話題，有網友表示“LPL隊伍其實都不想參加中韓友誼賽，LPL隊伍才剛結束春季賽，18天之後就要打夏季賽了，像IG可能會有人員變動FPX TES 應該也會利用這段時間來檢討分析，也許只有JDG 比較願意參加，doinb只是第一表態的選手，可能還有很

網友投稿：光山縣潑陂河鎮至白雀園鎮的X015縣道德兩座壞橋經過5個月的等待終於開修啦#光山 #信陽

網友投稿：光山縣潑陂河鎮至白雀園鎮的X015縣道德兩座壞橋經過5個月的等待終於開修啦#光山 #信陽，於2020年04月28日上線，由信陽本地聯盟上傳。西瓜視頻為您提供高清視頻，畫面清晰、播放流暢，看豐富、高質量視頻就上西瓜視頻。

2020最佳韓劇追起來~《愛的迫降》僅排名第二，TOP 1絕對實至名歸

TOP20 - 「優雅的家」這部由林秀香、李章宇、裴宗玉等人所主演的《優雅的家》，當時一播出就引起不少話題，雖然劇情有點浮誇，但卻莫名好看，而當時該劇還刷新了MBN電視臺的記錄呢~《優雅的家》主要講述一位擁有完美外貌和身材的MC集團獨生女毛碩熙，為了查明15年母親去世的真相，因此

搞笑GIF開心一刻：我正在睡覺，誰敢打擾我

我這暴脾氣，等你剝完我能吃五個你帶著你家貓去做演員吧！這貓太有前途了！這是我見過最牛的啦啦隊！自從有了弟弟，老大就和家務結緣了狼狗：要不是主人在，我非吃了你兩個小子！

備考消防的幾大錯覺，你有這個情況嗎？

講真，很多時候我們會把事情想當然，並因為這些錯覺而採取錯誤的舉動，一消備考是一場毅力和心智的戰鬥，大家難免會產生一些錯覺，從而影響自己的備考效率，甚至導致備考失敗。

“頂流”李敏鎬啞火，渣男出軌劇出圈，韓劇觀眾也長大了？

豆瓣開分8.3，漸漸跌到7.7分，熱門短評寫道：“同樣是金編，差距怎麼這麼大”、“看了四集節奏真的是一團糟，比起隔壁《夫妻的世界》真的差一大截”。

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

20000:網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？天貓旗艦店，或者淘寶旗艦店，或者京東旗艦店肯定包真，質量好，再說可以官方驗證啊，不能圖那十塊五塊的便宜，畢竟一個充電寶要用好久呢，一兩年沒問題的。:-羅馬仕馬仕毫安

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患

隨著“五一”期間氣溫大幅回升全國大部分地區已經進入初夏在享受小長假春日美景的同時森林火險等級也隨之明顯提升新疆森林消防提示您春季氣溫回升快野外草木乾燥你的一個失當用火行為就有可能引發森林大火勿念蔥林繁似海一星燃盡只塵埃

搞笑GIF開心一刻：拍照啦，趕緊看鏡頭

弟弟：姐姐你能利索點嗎家裡有個熊孩子，說實話心很累同學感覺你好可伶，一個人跳舞多尷尬啊！看我病好了怎麼收拾你們！真的是以迅雷不及掩耳之勢啊。姑涼，你……掉毛啊！小姐姐你是想找男朋友嗎用這樣的方式，結局很意外此處注意安全！

工程發承包、工程造價條款，或迎來大調整

第二章建設規劃與設計第一節建設規劃第八條建設規劃的體系第九條建設規劃的編制與審批第十條建設規劃的內容第十一條建設規劃的實施與評估第二節城市設計第十二條城市設計的基本要求第十三條城市設計的編制和審批第十四條城市設計的實施和管理第三節建築設計第十五條建築設計的基

新增四省！關於2019年一級建造師考試證書、複核發佈公告

快來看看吧~青海關於恢復專業技術人員職業資格證書的發放、補辦工作的通知各位考生：隨著疫情防控進入常態化，青海省新冠疫情得到有效控制，專業技術人員職業資格證書的印製、發放工作正在逐步恢復，為方便廣大考生辦理證書業務，4月28日起青海省人力資源和社會保障服務中心一樓大廳65、66號辦

學霸也會復讀？朱廣權這個圈粉無數的國民段子手是如何煉成的！

“煙籠寒水月籠沙，不止東湖與櫻花，門前風景雨來佳，蓮藕魚糕玉露茶，鳳爪藕帶熱乾麵，米酒香菇小龍蝦，守住金蓮不自誇，趕緊下單買回家，買它買它就買它，熱乾麵和小龍蝦。”

幸福的人，總會忘記舊愛

幸福從來不可能是有個人幫你搞定所有的一切，而你只需要坐享其成。她喜歡喝銀耳蓮子羹而且必須是上好的銀耳，用小火慢慢燉到砧稠那一日，他去看她，她冷冷地從屋裡走出來，丟給他一本書.對他說:"廚房裡小鍋燉著東西，你幫我去看看。”他真真地守了一個多小時，端到她面前。

真人芭比：一直說自己“沒整容”最後晒出舊照，打臉的卻是自己

俗話說的好“愛美之心人人都有”而讓自己快速變美的方法無疑就是“整容”如今的社會整容看起來似乎很平常。

驚了！這件事沒有做，一消證書等於白考！

不要慌，同學們，遇到問題不要怕，拿到證書不去註冊，相當於證書無效，今天就為大家一一解答註冊證書的相關問題。

8年後，有哪些人會留在農村生活？以下4類人群或將留下，有你嗎

從九十年代末開始，在我國農村地區就興起了一股“進城潮”，記得那個時候，農村的經濟發展相對滯後，村民生活條件艱苦，鄉親們為了擺脫貧困，只能告別親人，遠離家鄉去外面打拼賺錢。

唯一回絕張藝謀力捧的女生，被報送上清華，25歲有上百億身家

25歲有上百億身家文/娛樂深扒爆姐圖/網絡張藝謀是一位非常有實力的導演，同時非常出名，而且他拍攝的作品中有不少獲獎無數的經典影片，同時也捧紅過不少藝人。

疫情下的悲劇：買不起手機上網課，那個女孩決定吞藥自殺

有人為了生計不顧自身安危，有人躲在家中安然度日，還有人僅僅因為一個手機，就要放棄自己的生命...這個女孩，今年上初三，因為疫情的原因，全國各地都展開了網課線上教育，女孩的學校也不例外。

李棟旭劉仁娜新劇開拍，互對臺詞歡樂多，終於要開始撒狗糧了嗎？

這部劇是2016年年底播出的，熱度一直持續到了2017年，相關的周邊和景點都相當熱門，像是池恩卓跟鬼怪大叔相遇的海邊、劇中出現的鬼怪玩偶、還有鬼怪大叔的拔劍特效等等。

高考延期：七月的高考，最熱的天，做最難的題！

後來，由於7月份氣候較差，極端天氣頻發，尤其是南方地區，要麼極端高溫，要麼就是颱風，對於高考來說非常不友好，不僅考生的考試質量會下降，而且閱卷老師、高考工作者也不方便，因此，從2003年開始，高考日期都固定在了每年的6月7日、8日。

用systemtap對sysbench IO測試結果的分析-愛可生

測試環境準備

現象1

步驟1

觀測工具使用不當帶來測試偏差。

使用另一觀測工具用於校準 — systemtap

現象2

systemtap腳本2.1

結果2.1

systemtap腳本2.2

運行2.2

結果2.2

systemtap腳本2.3.1

運行2.3.1

結果2.3.1

可以看到, 隨機寫的緩存命中率(1-add_to_page_cache_lru/pagecache_get_page)比順序寫要高。之後的測試，我們增大sysbench文件的總大小到64G，來降低隨機寫的緩存命中率。

運行2.3.2

結果2.3.2

systemtap腳本2.4.1

運行2.4.1

結果2.4.1

systemtap腳本2.4.2

現象3

覆盤

性能分析經驗

IO測試經驗

注意

相關文章:

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

當我們在談 SaaS 的時候，在談什麼？

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

5月西安招聘會時間安排來了！找工作的別錯過

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

“幫助當地居民解決用水難題”-今日頭條-手機光明網

灌籃高手無水印壁紙，每一張都是回憶

通遼藍天救援隊成功解救遼河公園水上被困群眾

5月6日·武漢要聞及抗擊肺炎快報

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

相聲界的顏值擔當張雲雷稱號大揭祕

美國百年薅羊毛攻略

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

那些拼命的演員：王寶強喝了一大桶牛奶，孫儷吃10斤瓜子

賈乃亮用上了“一米陽光”這個詞，他依然渴望擁有美麗的愛情！

搞笑GIF開心一刻：我的老家農村，有妹子願意嫁給我嗎？

為什麼只有edg賺錢？

程瀟身材多好？雙腿劈叉才明白，這才是“腿精”

張柏芝承認三胎產子，否認小夥的老爸是孫東海，看來她選擇保密

T1戰隊搶注Faker商標，“囊括多個領域產品，商業潛力媲美喬丹”

雲頂之弈“最不平衡的版本”誕生，全員搶一費卡，運氣成吃雞關鍵

LPL春季賽"6宗最"：Uzi最遺憾，阿水最驚喜，V5最離譜

雷佳音被問：跟佟麗婭拍那麼多親熱戲是啥感受？他的回答笑翻眾人

JDG成最“慘”冠軍戰隊？拿到LPL冠軍人氣依舊低迷，TES成贏家！

#戰疫必勝#“症和狀”都有了，我與新冠擦肩而過

T1提議中韓友誼賽，但LPL隊伍都不想參加？理由其實很簡單

網友投稿：光山縣潑陂河鎮至白雀園鎮的X015縣道德兩座壞橋經過5個月的等待終於開修啦#光山 #信陽

2020最佳韓劇追起來~《愛的迫降》僅排名第二，TOP 1絕對實至名歸

搞笑GIF開心一刻：我正在睡覺，誰敢打擾我

備考消防的幾大錯覺，你有這個情況嗎？

“頂流”李敏鎬啞火，渣男出軌劇出圈，韓劇觀眾也長大了？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

應急科普丨“五一” 期間氣溫回升 謹防森林火災隱患

搞笑GIF開心一刻：拍照啦，趕緊看鏡頭

工程發承包、工程造價條款，或迎來大調整

新增四省！關於2019年一級建造師考試證書、複核發佈公告

學霸也會復讀？朱廣權這個圈粉無數的國民段子手是如何煉成的！

幸福的人，總會忘記舊愛

真人芭比：一直說自己“沒整容”最後晒出舊照，打臉的卻是自己

驚了！這件事沒有做，一消證書等於白考！

8年後，有哪些人會留在農村生活？以下4類人群或將留下，有你嗎

唯一回絕張藝謀力捧的女生，被報送上清華，25歲有上百億身家

疫情下的悲劇：買不起手機上網課，那個女孩決定吞藥自殺

李棟旭劉仁娜新劇開拍，互對臺詞歡樂多，終於要開始撒狗糧了嗎？

高考延期：七月的高考，最熱的天，做最難的題！

如果你正經歷生活中“餘歡水”式的悲劇，各種不順會怎麼想、怎麼做？-比奇堡的槓把子丶的回答-悟空問答

美國可以不斷印美元，但它為什麼不這麼做呢？-宋思考的回答-悟空問答

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患