Linux 下 cut 命令的 4 個基礎實用的示例

2018-08-04 21:57:56 Linux中國

編譯自： https://linuxhandbook.com/cut-command/
作者： Sylvain Leroux

cut 命令是用來從文本文件中移除“某些列”的經典工具。在本文中的“一列”可以被定義為按照一行中位置區分的一系列字符串或者字節，或者是以某個分隔符為間隔的某些域。

先前我已經介紹了如何使用 AWK 命令。在本文中，我將解釋 linux 下 cut 命令的 4 個本質且實用的例子，有時這些例子將幫你節省很多時間。

Linux 下 cut 命令的 4 個實用示例

假如你想，你可以觀看下面的視頻，視頻中解釋了本文中我列舉的 cut 命令的使用例子。

https://www.youtube.com/PhE_cFLzVFw

1、作用在一系列字符上

當啟用 -c 命令行選項時，cut 命令將移除一系列字符。

和其他的過濾器類似， cut 命令不會直接改變輸入的文件，它將複製已修改的數據到它的標準輸出裡去。你可以通過重定向命令的結果到一個文件中來保存修改後的結果，或者使用管道將結果送到另一個命令的輸入中，這些都由你來負責。

假如你已經下載了上面視頻中的示例測試文件，你將看到一個名為 BALANCE.txt 的數據文件，這些數據是直接從我妻子在她工作中使用的某款會計軟件中導出的：

sh$ head BALANCE.txt
ACCDOC ACCDOCDATE ACCOUNTNUM ACCOUNTLIB ACCDOCLIB DEBIT CREDIT
4 1012017 623477 TIDE SCHEDULE ALNEENRE-4701-LOC 00000001615,00
4 1012017 445452 VAT BS/ENC ALNEENRE-4701-LOC 00000000323,00
4 1012017 4356 PAYABLES ALNEENRE-4701-LOC 00000001938,00
5 1012017 623372 ACCOMODATION GUIDE ALNEENRE-4771-LOC 00000001333,00
5 1012017 445452 VAT BS/ENC ALNEENRE-4771-LOC 00000000266,60
5 1012017 4356 PAYABLES ALNEENRE-4771-LOC 00000001599,60
6 1012017 4356 PAYABLES FACT FA00006253 - BIT QUIROBEN 00000001837,20
6 1012017 445452 VAT BS/ENC FACT FA00006253 - BIT QUIROBEN 00000000306,20
6 1012017 623795 TOURIST GUIDE BOOK FACT FA00006253 - BIT QUIROBEN 00000001531,00

上述文件是一個固定寬度的文本文件，因為對於每一項數據，都使用了不定長的空格做填充，使得它看起來是一個對齊的列表。

這樣一來，每一列數據開始和結束的位置都是一致的。從 cut 命令的字面意思去理解會給我們帶來一個小陷阱：cut 命令實際上需要你指出你想保留的數據範圍，而不是你想移除的範圍。所以，假如我只需要上面文件中的 ACCOUNTNUM 和 ACCOUNTLIB 列，我需要這麼做：

sh$ cut -c 25-59 BALANCE.txt | head
ACCOUNTNUM ACCOUNTLIB
623477 TIDE SCHEDULE
445452 VAT BS/ENC
4356 /accountPAYABLES
623372 ACCOMODATION GUIDE
445452 VAT BS/ENC
4356 PAYABLES
4356 PAYABLES
445452 VAT BS/ENC
623795 TOURIST GUIDE BOOK

範圍如何定義？

正如我們上面看到的那樣， cut 命令需要我們特別指定需要保留的數據的範圍。所以，下面我將更正式地介紹如何定義範圍：對於 cut 命令來說，範圍是由連字符(-)分隔的起始和結束位置組成，範圍是基於 1 計數的，即每行的第一項是從 1 開始計數的，而不是從 0 開始。範圍是一個閉區間，開始和結束位置都將包含在結果之中，正如它們之間的所有字符那樣。如果範圍中的結束位置比起始位置小，則這種表達式是錯誤的。作為快捷方式，你可以省略起始或結束值，正如下面的表格所示：

範圍含義a-ba 和 b 之間的範圍（閉區間）a與範圍 a-a 等價-b與範圍 1-a 等價b-與範圍 b-∞ 等價

cut 命令允許你通過逗號分隔多個範圍，下面是一些示例：

# 保留 1 到 24 之間（閉區間）的字符
cut -c -24 BALANCE.txt
# 保留 1 到 24（閉區間）以及 36 到 59（閉區間）之間的字符
cut -c -24,36-59 BALANCE.txt
# 保留 1 到 24（閉區間）、36 到 59（閉區間）和 93 到該行末尾之間的字符
cut -c -24,36-59,93- BALANCE.txt

cut 命令的一個限制（或者是特性，取決於你如何看待它）是它將不會對數據進行重排。所以下面的命令和先前的命令將產生相同的結果，儘管範圍的順序做了改變：

cut -c 93-,-24,36-59 BALANCE.txt

你可以輕易地使用 diff 命令來驗證：

diff -s

Files /dev/fd/63 and /dev/fd/62 are identical

類似的，cut 命令不會重複數據：

# 某人或許期待這可以第一列三次，但並不會……
cut -c -10,-10,-10 BALANCE.txt | head -5
ACCDOC
4
4
4
5

值得提及的是，曾經有一個提議，建議使用 -o 選項來去除上面提到的兩個限制，使得 cut 工具可以重排或者重複數據。但這個提議被 POSIX 委員會拒絕了，“因為這類增強不屬於 IEEE P1003.2b 草案標準的範圍”。

據我所知，我還沒有見過哪個版本的 cut 程序實現了上面的提議，以此來作為擴展，假如你知道某些例外，請使用下面的評論框分享給大家！

2、作用在一系列字節上

當使用 -b 命令行選項時，cut 命令將移除字節範圍。

咋一看，使用字符範圍和使用字節沒有什麼明顯的不同：

sh$ diff -s

Files /dev/fd/63 and /dev/fd/62 are identical

這是因為我們的示例數據文件使用的是 US-ASCII 編碼（字符集），使用 file -i 便可以正確地猜出來：

sh$ file -i BALANCE.txt
BALANCE.txt: text/plain; charset=us-ascii

在 US-ASCII 編碼中，字符和字節是一一對應的。理論上，你只需要使用一個字節就可以表示 256 個不同的字符（數字、字母、標點符號和某些符號等）。實際上，你能表達的字符數比 256 要更少一些，因為字符編碼中為某些特定值做了規定（例如 32 或 65 就是控制字符）。即便我們能夠使用上述所有的字節範圍，但對於存儲種類繁多的人類手寫符號來說，256 是遠遠不夠的。所以如今字符和字節間的一一對應更像是某種例外，並且幾乎總是被無處不在的 UTF-8 多字節編碼所取代。下面讓我們看看如何來處理多字節編碼的情形。

作用在多字節編碼的字符上

正如我前面提到的那樣，示例數據文件來源於我妻子使用的某款會計軟件。最近好像她升級了那個軟件，然後呢，導出的文本就完全不同了，你可以試試和上面的數據文件相比，找找它們之間的區別：

sh$ head BALANCE-V2.txt
ACCDOC ACCDOCDATE ACCOUNTNUM ACCOUNTLIB ACCDOCLIB DEBIT CREDIT
4 1012017 623477 TIDE SCHEDULE ALNÉENRE-4701-LOC 00000001615,00
4 1012017 445452 VAT BS/ENC ALNÉENRE-4701-LOC 00000000323,00
4 1012017 4356 PAYABLES ALNÉENRE-4701-LOC 00000001938,00
5 1012017 623372 ACCOMODATION GUIDE ALNÉENRE-4771-LOC 00000001333,00
5 1012017 445452 VAT BS/ENC ALNÉENRE-4771-LOC 00000000266,60
5 1012017 4356 PAYABLES ALNÉENRE-4771-LOC 00000001599,60
6 1012017 4356 PAYABLES FACT FA00006253 - BIT QUIROBEN 00000001837,20
6 1012017 445452 VAT BS/ENC FACT FA00006253 - BIT QUIROBEN 00000000306,20
6 1012017 623795 TOURIST GUIDE BOOK FACT FA00006253 - BIT QUIROBEN 00000001531,00

上面的標題欄或許能夠幫助你找到什麼被改變了，但無論你找到與否，現在讓我們看看上面的更改過後的結果：

sh$ cut -c 93-,-24,36-59 BALANCE-V2.txt
ACCDOC ACCDOCDATE ACCOUNTLIB DEBIT CREDIT
4 1012017 TIDE SCHEDULE 00000001615,00
4 1012017 VAT BS/ENC 00000000323,00
4 1012017 PAYABLES 00000001938,00
5 1012017 ACCOMODATION GUIDE 00000001333,00
5 1012017 VAT BS/ENC 00000000266,60
5 1012017 PAYABLES 00000001599,60
6 1012017 PAYABLES 00000001837,20

6 1012017 VAT BS/ENC 00000000306,20
6 1012017 TOURIST GUIDE BOOK 00000001531,00
19 1012017 SEMINAR FEES 00000000080,00
19 1012017 PAYABLES 00000000080,00
28 1012017 MAINTENANCE 00000000746,58
28 1012017 VAT BS/ENC 00000000149,32
28 1012017 PAYABLES 00000000895,90
31 1012017 PAYABLES 00000000240,00
31 1012017 VAT BS/DEBIT 00000000040,00
31 1012017 ADVERTISEMENTS 00000000200,00
32 1012017 WATER 00000000202,20
32 1012017 VAT BS/DEBIT 00000000020,22
32 1012017 WATER 00000000170,24
32 1012017 VAT BS/DEBIT 00000000009,37
32 1012017 PAYABLES 00000000402,03
34 1012017 RENTAL COSTS 00000000018,00
34 1012017 PAYABLES 00000000018,00
35 1012017 MISCELLANEOUS CHARGES 00000000015,00
35 1012017 VAT BS/DEBIT 00000000003,00
35 1012017 PAYABLES 00000000018,00
36 1012017 LANDLINE TELEPHONE 00000000069,14
36 1012017 VAT BS/ENC 00000000013,83

我毫無刪減地複製了上面命令的輸出。所以可以很明顯地看出列對齊那裡有些問題。

對此我的解釋是原來的數據文件只包含 US-ASCII 編碼的字符（符號、標點符號、數字和沒有發音符號的拉丁字母）。

但假如你仔細地查看經軟件升級後產生的文件，你可以看到新導出的數據文件保留了帶發音符號的字母。例如現在合理地記錄了名為 “ALNÉENRE” 的公司，而不是先前的 “ALNEENRE”（沒有發音符號）。

file -i 正確地識別出了改變，因為它報告道現在這個文件是 UTF-8 編碼的。

sh$ file -i BALANCE-V2.txt
BALANCE-V2.txt: text/plain; charset=utf-8

如果想看看 UTF-8 文件中那些帶發音符號的字母是如何編碼的，我們可以使用 [hexdump][12]，它可以讓我們直接以字節形式查看文件：

# 為了減少輸出，讓我們只關注文件的第 2 行
sh$ sed '2!d' BALANCE-V2.txt
4 1012017 623477 TIDE SCHEDULE ALNÉENRE-4701-LOC 00000001615,00
sh$ sed '2!d' BALANCE-V2.txt | hexdump -C
00000000 34 20 20 20 20 20 20 20 20 20 31 30 31 32 30 31 |4 101201|
00000010 37 20 20 20 20 20 20 20 36 32 33 34 37 37 20 20 |7 623477 |
00000020 20 20 20 54 49 44 45 20 53 43 48 45 44 55 4c 45 | TIDE SCHEDULE|
00000030 20 20 20 20 20 20 20 20 20 20 20 41 4c 4e c3 89 | ALN..|
00000040 45 4e 52 45 2d 34 37 30 31 2d 4c 4f 43 20 20 20 |ENRE-4701-LOC |
00000050 20 20 20 20 20 20 20 20 20 20 20 20 20 30 30 30 | 000|
00000060 30 30 30 30 31 36 31 35 2c 30 30 20 20 20 20 20 |00001615,00 |
00000070 20 20 20 20 20 20 20 20 20 20 20 0a | .|
0000007c

在 hexdump 輸出的 00000030 那行，在一系列的空格（字節 20）之後，你可以看到：

字母 A 被編碼為 41，
字母 L 被編碼為 4c，
字母 N 被編碼為 4e。

但對於大寫的帶有注音的拉丁大寫字母 E （這是它在 Unicode 標準中字母 É 的官方名稱），則是使用 2 個字節 c3 89 來編碼的。

這樣便出現問題了：對於使用固定寬度編碼的文件，使用字節位置來表示範圍的 cut 命令工作良好，但這並不適用於使用變長編碼的 UTF-8 或者 Shift JIS 編碼。這種情況在下面的 POSIX 標準的非規範性摘錄中被明確地解釋過：

先前版本的 cut 程序將字節和字符視作等同的環境下運作（正如在某些實現下對退格鍵
和製表鍵的處理）。在針對多字節字符的情況下，特別增加了 -b 選項。

嘿，等一下！我並沒有在上面“有錯誤”的例子中使用 '-b' 選項，而是 -c 選項呀！所以，難道不應該能夠成功處理了嗎！？

是的，確實應該：但是很不幸，即便我們現在已身處 2018 年，GNU Coreutils 的版本為 8.30 了，cut 程序的 GNU 版本實現仍然不能很好地處理多字節字符。引用 GNU 文檔的話說，-c 選項“現在和 -b 選項是相同的，但對於國際化的情形將有所不同[...]”。需要提及的是，這個問題距今已有 10 年之久了！

另一方面， OpenBSD 的實現版本和 POSIX 相吻合，這將歸功於當前的本地化（locale）設定來合理地處理多字節字符：

# 確保隨後的命令知曉我們現在處理的是 UTF-8 編碼的文本文件
openbsd-6.3$ export LC_CTYPE=en_US.UTF-8
# 使用 `-c` 選項， `cut` 能夠合理地處理多字節字符
openbsd-6.3$ cut -c -24,36-59,93- BALANCE-V2.txt
ACCDOC ACCDOCDATE ACCOUNTLIB DEBIT CREDIT

4 1012017 TIDE SCHEDULE 00000001615,00
4 1012017 VAT BS/ENC 00000000323,00
4 1012017 PAYABLES 00000001938,00
5 1012017 ACCOMODATION GUIDE 00000001333,00
5 1012017 VAT BS/ENC 00000000266,60
5 1012017 PAYABLES 00000001599,60
6 1012017 PAYABLES 00000001837,20
6 1012017 VAT BS/ENC 00000000306,20
6 1012017 TOURIST GUIDE BOOK 00000001531,00
19 1012017 SEMINAR FEES 00000000080,00
19 1012017 PAYABLES 00000000080,00
28 1012017 MAINTENANCE 00000000746,58
28 1012017 VAT BS/ENC 00000000149,32
28 1012017 PAYABLES 00000000895,90
31 1012017 PAYABLES 00000000240,00
31 1012017 VAT BS/DEBIT 00000000040,00
31 1012017 ADVERTISEMENTS 00000000200,00
32 1012017 WATER 00000000202,20
32 1012017 VAT BS/DEBIT 00000000020,22
32 1012017 WATER 00000000170,24
32 1012017 VAT BS/DEBIT 00000000009,37
32 1012017 PAYABLES 00000000402,03
34 1012017 RENTAL COSTS 00000000018,00
34 1012017 PAYABLES 00000000018,00
35 1012017 MISCELLANEOUS CHARGES 00000000015,00

35 1012017 VAT BS/DEBIT 00000000003,00
35 1012017 PAYABLES 00000000018,00
36 1012017 LANDLINE TELEPHONE 00000000069,14
36 1012017 VAT BS/ENC 00000000013,83

正如期望的那樣，當使用 -b 選項而不是 -c 選項後， OpenBSD 版本的 cut 實現和傳統的 cut 表現是類似的：

openbsd-6.3$ cut -b -24,36-59,93- BALANCE-V2.txt
ACCDOC ACCDOCDATE ACCOUNTLIB DEBIT CREDIT
4 1012017 TIDE SCHEDULE 00000001615,00
4 1012017 VAT BS/ENC 00000000323,00
4 1012017 PAYABLES 00000001938,00
5 1012017 ACCOMODATION GUIDE 00000001333,00
5 1012017 VAT BS/ENC 00000000266,60
5 1012017 PAYABLES 00000001599,60
6 1012017 PAYABLES 00000001837,20
6 1012017 VAT BS/ENC 00000000306,20
6 1012017 TOURIST GUIDE BOOK 00000001531,00
19 1012017 SEMINAR FEES 00000000080,00
19 1012017 PAYABLES 00000000080,00
28 1012017 MAINTENANCE 00000000746,58
28 1012017 VAT BS/ENC 00000000149,32
28 1012017 PAYABLES 00000000895,90
31 1012017 PAYABLES 00000000240,00
31 1012017 VAT BS/DEBIT 00000000040,00
31 1012017 ADVERTISEMENTS 00000000200,00
32 1012017 WATER 00000000202,20
32 1012017 VAT BS/DEBIT 00000000020,22
32 1012017 WATER 00000000170,24
32 1012017 VAT BS/DEBIT 00000000009,37
32 1012017 PAYABLES 00000000402,03
34 1012017 RENTAL COSTS 00000000018,00
34 1012017 PAYABLES 00000000018,00
35 1012017 MISCELLANEOUS CHARGES 00000000015,00
35 1012017 VAT BS/DEBIT 00000000003,00
35 1012017 PAYABLES 00000000018,00
36 1012017 LANDLINE TELEPHONE 00000000069,14
36 1012017 VAT BS/ENC 00000000013,83

3、作用在域上

從某種意義上說，使用 cut 來處理用特定分隔符隔開的文本文件要更加容易一些，因為只需要確定好每行中域之間的分隔符，然後複製域的內容到輸出就可以了，而不需要煩惱任何與編碼相關的問題。

下面是一個用分隔符隔開的示例文本文件：

sh$ head BALANCE.csv
ACCDOC;ACCDOCDATE;ACCOUNTNUM;ACCOUNTLIB;ACCDOCLIB;DEBIT;CREDIT

4;1012017;623477;TIDE SCHEDULE;ALNEENRE-4701-LOC;00000001615,00;
4;1012017;445452;VAT BS/ENC;ALNEENRE-4701-LOC;00000000323,00;
4;1012017;4356;PAYABLES;ALNEENRE-4701-LOC;;00000001938,00
5;1012017;623372;ACCOMODATION GUIDE;ALNEENRE-4771-LOC;00000001333,00;
5;1012017;445452;VAT BS/ENC;ALNEENRE-4771-LOC;00000000266,60;
5;1012017;4356;PAYABLES;ALNEENRE-4771-LOC;;00000001599,60
6;1012017;4356;PAYABLES;FACT FA00006253 - BIT QUIROBEN;;00000001837,20
6;1012017;445452;VAT BS/ENC;FACT FA00006253 - BIT QUIROBEN;00000000306,20;
6;1012017;623795;TOURIST GUIDE BOOK;FACT FA00006253 - BIT QUIROBEN;00000001531,00;

你可能知道上面文件是一個 CSV 格式的文件（它以逗號來分隔），即便有時候域分隔符不是逗號。例如分號（;）也常被用來作為分隔符，並且對於那些總使用逗號作為十進制分隔符的國家（例如法國，所以上面我的示例文件中選用了他們國家的字符），當導出數據為 “CSV” 格式時，默認將使用分號來分隔數據。另一種常見的情況是使用 tab 鍵來作為分隔符，從而生成叫做 tab 分隔的值的文件。最後，在 Unix 和 Linux 領域，冒號 (:) 是另一種你能找到的常見分隔符號，例如在標準的 /etc/passwd 和 /etc/group 這兩個文件裡。

當處理使用分隔符隔開的文本文件格式時，你可以向帶有 -f 選項的 cut 命令提供需要保留的域的範圍，並且你也可以使用 -d 選項來指定分隔符（當沒有使用 -d 選項時，默認以 tab 字符來作為分隔符）：

sh$ cut -f 5- -d';' BALANCE.csv | head
ACCDOCLIB;DEBIT;CREDIT
ALNEENRE-4701-LOC;00000001615,00;
ALNEENRE-4701-LOC;00000000323,00;
ALNEENRE-4701-LOC;;00000001938,00
ALNEENRE-4771-LOC;00000001333,00;
ALNEENRE-4771-LOC;00000000266,60;
ALNEENRE-4771-LOC;;00000001599,60
FACT FA00006253 - BIT QUIROBEN;;00000001837,20
FACT FA00006253 - BIT QUIROBEN;00000000306,20;
FACT FA00006253 - BIT QUIROBEN;00000001531,00;

處理不包含分隔符的行

但要是輸入文件中的某些行沒有分隔符又該怎麼辦呢？很容易地認為可以將這樣的行視為只包含第一個域。但 cut 程序並不是這樣做的。

默認情況下，當使用 -f 選項時，cut 將總是原樣輸出不包含分隔符的那一行（可能假設它是非數據行，就像表頭或註釋等）：

sh$ (echo "# 2018-03 BALANCE"; cat BALANCE.csv) > BALANCE-WITH-HEADER.csv
sh$ cut -f 6,7 -d';' BALANCE-WITH-HEADER.csv | head -5
# 2018-03 BALANCE

DEBIT;CREDIT
00000001615,00;
00000000323,00;
;00000001938,00

使用 -s 選項，你可以做出相反的行為，這樣 cut 將總是忽略這些行：

sh$ cut -s -f 6,7 -d';' BALANCE-WITH-HEADER.csv | head -5
DEBIT;CREDIT
00000001615,00;
00000000323,00;
;00000001938,00
00000001333,00;

假如你好奇心強，你還可以探索這種特性，來作為一種相對隱晦的方式去保留那些只包含給定字符的行：

# 保留含有一個 `e` 的行
sh$ printf "%s\n" {mighty,bold,great}-{condor,monkey,bear} | cut -s -f 1- -d'e'

改變輸出的分隔符

作為一種擴展， GNU 版本實現的 cut 允許通過使用 --output-delimiter 選項來為結果指定一個不同的域分隔符：

sh$ cut -f 5,6- -d';' --output-delimiter="*" BALANCE.csv | head
ACCDOCLIB*DEBIT*CREDIT
ALNEENRE-4701-LOC*00000001615,00*
ALNEENRE-4701-LOC*00000000323,00*
ALNEENRE-4701-LOC**00000001938,00
ALNEENRE-4771-LOC*00000001333,00*
ALNEENRE-4771-LOC*00000000266,60*
ALNEENRE-4771-LOC**00000001599,60
FACT FA00006253 - BIT QUIROBEN**00000001837,20
FACT FA00006253 - BIT QUIROBEN*00000000306,20*
FACT FA00006253 - BIT QUIROBEN*00000001531,00*

需要注意的是，在上面這個例子中，所有出現域分隔符的地方都被替換掉了，而不僅僅是那些在命令行中指定的作為域範圍邊界的分隔符。

4、非 POSIX GNU 擴展

說到非 POSIX GNU 擴展，它們中的某些特別有用。特別需要提及的是下面的擴展也同樣對字節、字符或者域範圍工作良好（相對於當前的 GNU 實現來說）。

--complement：

想想在 sed 地址中的感嘆符號(!)，使用它，cut 將只保存沒有被匹配到的範圍:

# 只保留第 5 個域
sh$ cut -f 5 -d';' BALANCE.csv |head -3
ACCDOCLIB
ALNEENRE-4701-LOC
ALNEENRE-4701-LOC
# 保留除了第 5 個域之外的內容
sh$ cut --complement -f 5 -d';' BALANCE.csv |head -3
ACCDOC;ACCDOCDATE;ACCOUNTNUM;ACCOUNTLIB;DEBIT;CREDIT
4;1012017;623477;TIDE SCHEDULE;00000001615,00;
4;1012017;445452;VAT BS/ENC;00000000323,00;

--zero-terminated (-z)：

使用 NUL 字符來作為行終止符，而不是新行(newline)字符。當你的數據包含新行字符時， -z 選項就特別有用了，例如當處理文件名的時候（因為在文件名中新行字符是可以使用的，而 NUL 則不可以）。

為了展示 -z 選項，讓我們先做一點實驗。首先，我們將創建一個文件名中包含換行符的文件：

bash$ touch $'EMPTY\nFILE\nWITH FUNKY\nNAME'.txt
bash$ ls -1 *.txt
BALANCE.txt
BALANCE-V2.txt
EMPTY?FILE?WITH FUNKY?NAME.txt

現在假設我想展示每個 *.txt 文件的前 5 個字符。一個想當然的解決方法將會失敗：

sh$ ls -1 *.txt | cut -c 1-5
BALAN
BALAN
EMPTY
FILE
WITH
NAME.

你可以已經知道 ls 是為了方便人類使用而特別設計的，並且在一個命令管道中使用它是一個反模式（確實是這樣的）。所以讓我們用 find 來替換它：

sh$ find . -name '*.txt' -printf "%f\n" | cut -c 1-5
BALAN
EMPTY
FILE
WITH
NAME.
BALAN

上面的命令基本上產生了與先前類似的結果（儘管以不同的次序，因為 ls 會隱式地對文件名做排序，而 find 則不會）。

在上面的兩個例子中，都有一個相同的問題，cut 命令不能區分新行字符是數據域的一部分（即文件名），還是作為最後標記的新行記號。但使用 NUL 字節（\0）來作為行終止符就將排除掉這種混淆的情況，使得我們最後可以得到期望的結果：

# 我被告知在某些舊版的 `tr` 程序中需要使用 `\000` 而不是 `\0` 來代表 NUL 字符（假如你需要這種改變請讓我知曉！）
sh$ find . -name '*.txt' -printf "%f\0" | cut -z -c 1-5| tr '\0' '\n'
BALAN
EMPTY
BALAN

通過上面最後的例子，我們就達到了本文的最後部分了，所以我將讓你自己試試 -printf 後面那個有趣的 "%f\0" 參數或者理解為什麼我在管道的最後使用了 tr 命令。

使用 cut 命令可以實現更多功能

我只是列舉了 cut 命令的最常見且在我眼中最基礎的使用方式。你甚至可以將它以更加實用的方式加以運用，這取決於你的邏輯和想象。

不要再猶豫了，請使用下面的評論框貼出你的發現。最後一如既往的，假如你喜歡這篇文章，請不要忘記將它分享到你最喜愛網站和社交媒體中！

via: https://linuxhandbook.com/cut-command/

作者： Sylvain Leroux 譯者： FSSlc 校對： wxy

本文由 LCTT 原創編譯， Linux中國榮譽推出

分享到:

閱讀更多 Linux中國 的文章

關鍵字: 軟件 Linux OpenBSD

Linux：頁表中PGD、PUD、PMD等概念介紹

Linux FAT 文件系統預讀缺陷，補丁提升 7 倍性能

Linux 下epoll 網絡模型為什麼需要epoll?

Windows 支持直接訪問 Linux 子系統文件：你的下一臺 Linux 何必是 Linux

體驗 DebianDog：Puppy 式的 Debian Linux

Linux 最常用命令：簡單易學

kali Linux 筆記

2020 Kali linux root權限修正版

Linux 用戶登錄記錄

Linux 內核到底長啥樣？

如何在 Linux 中更改 MAC 地址

linux 查看機器cpu核數

一文看懂如何使用 Linux seq 命令生成數字序列

Linux 系統查看服務器SN序列號以及服務器型號

免費在線試用 200+ Linux 和 Unix 操作系統

03.07 Linux 下進入文件，提示沒有那個文件或者目錄問題

玩轉 Linux，掌握這些 Linux 命令就夠了

03.04 玩轉 Linux，掌握這些 Linux 命令就夠了

03.01 Linux 常見高危操作

02.27 Linux 守護進程創建原理及簡易方法

Kali-Linux-2020.1 安裝/Live USB啟動盤製作

樹莓派 Linux 操作系統大全

02.22 玩轉 Linux，掌握這些 Linux 命令就夠了

「LINUX」乾貨：文件批量轉換為UTF8編碼-enca

linux poll機制

優麒麟UKUI桌面環境登陸Arch Linux

比 Deepin Linux 更好的 Linux 發行版

「Linux」 Centos7系統介紹與安裝

01.28 為什麼說 Manjaro Linux 是最好用的 Linux

「重要」Kali Linux 使用風險提示

12.17 「重要」Kali Linux 使用風險提示

Linux Kernel 5.5 最終刪除 SYSCTL 系統調用

發行版介紹-Oracle Linux

全面介紹 Linux 權限

Linux 系統調用 API 之文件 I

linux C GDB 調試技巧

如何升級 Linux Mint 19.1 為 Linux Mint 19.2

Linux 學習筆記之，特殊權限 SUIG、SGID、SBIT

linux 課程學習第三天

02.02 監控 Linux 服務器活動的幾個命令

理解 Linux 網絡棧：Linux 網絡協議棧簡單總結

「Linux」使用tc命令增加網絡延時

09.10 介紹 Linux 中的管道和命名管道

Linux 虛擬機與 Linux Live 鏡像

Oracle Linux 系統如何去註冊使用堅不可摧 Linux 網絡（ULN）

04.23 Linux 文件與目錄管理常用命令

03.26 linux-netstat已經過時，你該用ss了！

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"