寫了Bug,誤執行rm -fr /*,我刪刪刪庫了,要跑路嗎?| 原力計劃

文章來源:https://blog.csdn.net/qq_34827674/article/details/105865283

作者:小林coding


寫了Bug,誤執行rm -fr /*,我刪刪刪庫了,要跑路嗎?| 原力計劃

小林在五一節前,想到有 5 天假期,心裡開始飄了。

寫個簡單的 Bash 腳本都不上心了,寫完連檢查都不檢查,直接拖到實體服務器跑。

結果一跑起來,發生不對勁,怎麼一個簡單腳本跑了 10 秒還沒結束,於是立馬直接 ctrl + c 一頓操作停掉了運行中腳本。

接著,習慣性的輸入了 ls,結果 what?找不到 ls 命令?

寫了Bug,誤執行rm -fr /*,我刪刪刪庫了,要跑路嗎?| 原力計劃

瞬間背後一涼,慌慌張張打開了腳本。

發現問題了,小林我寫了個巨蠢的 Bug,間接執行了 rm -fr /* ,這不意味著我刪庫了?

這臺是公司的授權服務器呀,被小林這麼一整,公司歷史的授權記錄和其他重要信息不就丟了?

心裡很慌的小林,跟朋友們說了這件事,朋友建議我先第一時間上報給 leader,不要把刪庫的事情瞞著。

於是,小林就向 leader 說了我刪庫事情,本以為會被痛批一頓。

結果 leader 笑著說:“沒事,你先看看重要的文件還在不在。不過你這麼一整,我突然想起編譯服務器半年沒備份,我先備份一下我的編譯服務器,防止哪天也被你們刪庫了。

我:“????”

吃瓜的小夥伴,是不是覺得小林要刪庫跑路了?哈哈哈,小林沒跑路,反而是恢復了回來,所以接下來說說小林是如何「從刪庫到恢復」的。


1.初探案發現場

來看看小林寫的垃圾代碼,是如何引發這次的刪庫。

寫了Bug,誤執行rm -fr /*,我刪刪刪庫了,要跑路嗎?| 原力計劃

既然發生了 rm -fr /* 的現象,那必然 new_lic_dir 這個變量是空的。

所以導致執行 rm -fr $new_lic_dir/* 這條語句的時候,變成了 rm -fr /* 刪庫語句。很好,兇器找到了。

那為什麼 new_lic_dir 會是空的呢?

細心的小夥伴肯定察覺出來了,是因為給 new_lic_dir 變量賦值的時使用了反引號。

寫了Bug,誤執行rm -fr /*,我刪刪刪庫了,要跑路嗎?| 原力計劃

沒錯,就是反引號的原因。

反引號在 Linux Shell 命令行中有特殊的含義:反引號間的內容,會被 Shell 先執行。其輸出被放入主命令後,主命令再被執行。

也就是說, new_lic_dir 的值是 ${lic_path}/new_license 這條命令執行的結果,問題這哪是命令啊,所以肯定返回空值給 new_lic_dir 變量。

小林寫的那麼溫柔的代碼,竟然變成了窮兇極惡的刪庫代碼。

這下原因是找到了,反引號應該改成雙引號才對。

小林你真菜呀,那麼簡單的賦值命令都寫錯。

哈哈哈,確實菜,都說了嘛,因為要五一了,小林是飄著寫這份代碼的。

所以習慣性開啟程序員內容的第一大武功:Crtl+C 和 Crtl+V。

把第一條賦值 lic_path=`pwd` 語句,複製粘貼了,然後只改了變量名,沒注意反引號要修改成雙引號,所以造成了刪庫的悲劇。


2.保留案發現場

既然發生了刪庫的事情,千萬不要重啟服務器,也不要關閉 ssh 連接的會話,而是要保留案發現場,接著查查還剩什麼。

還好這次是比較幸運,因為在執行腳本的時候,第一時間發現不對勁,立馬掐斷了還在運行的腳本,所以並非 Linux 所有文件都被刪除了。

只要我掐的快,rm -fr /* 就幹不死我。

雖然 ls 被刪了,但所幸發現 cd 命令還能用。

只要 cd 用的好,它也能用出的 ls 效果。很簡單,只需 cd + Tab 鍵就會自動出現指定目錄下的所有文件。

寫了Bug,誤執行rm -fr /*,我刪刪刪庫了,要跑路嗎?| 原力計劃

有了 cd + Tab 鍵,我們就可以查看每個目錄下的文件,於是就可以一步一步來確認哪些系統文件被刪了。

通過一番的確認和對比後,發現主要被刪除的有四個目錄分別是:

  • /bin 、/boot 、/dev 這三個目錄整個都被刪除了
  • /lib 目錄裡的動態庫部分被刪除

來複習下上面這四個目錄主要是存放了什麼:

  • /bin 存放常用系統命令,ls、cp、rm、chmod 等常用命令都在此目錄;
  • /boot 系統啟動目錄,保存與系統啟動相關的文件,如內核文件和啟動引導程序;
  • /dev 設備文件保存位置;
  • /lib 存放程序所需的動態庫和靜態庫文件;

/boot 都被刪除了,還好小林沒有重啟服務器,要是重啟了服務器,就完犢子了,系統肯定起不來了。

cd 命令是在 /sin 目錄下,/sin 還健全,所以 cd 是可以正常使用。

所幸重要的數據庫信息和文件都還沒刪除,所以小林首要的目標是要恢復 /bin、/boot、/dev、/lib 這四個目錄。

3.還原文件

由於 /bin 目錄 和 /lib 部分動態文件被刪除,常用的傳遞文件的方式是無法使用的,如 ftp、scp、mount 等。

小林摸索了很久,竟然發現 wget 可以使用,wget 命令是在 /usr/bin 目錄,所幸 /usr/bin 還健全。

於是,用了取巧的方法,先另一臺正常的服務器,把 /bin 目錄放到了 Web 服務器的 Web 目錄,接著通過 wget 進行下載。

寫了Bug,誤執行rm -fr /*,我刪刪刪庫了,要跑路嗎?| 原力計劃

有戲,看到了成功的曙光。

但是新的問題就來了,我下載過來的命令文件,是沒有執行權限的。

寫了Bug,誤執行rm -fr /*,我刪刪刪庫了,要跑路嗎?| 原力計劃

而 chmod 命令是在 /bin 目錄的,它同樣也被刪除了,無法使用它來給予文件權限。

還在,在網上搜到了一個偉大命令 perl,可以通過它來給予文件權限:

<code>perl -e "chmod 777, 'ls'"/<code>

真是個神奇的命令。

好了,這下賦值權限問題也解決了,成功在望了。

wget 是無法直接把 /bin 目錄下載下來的,只能下載一個文件。

但是小林我不可能一個一個去下載來進行恢復,這得要何年何月才能完成。

小林就想到了一個方法:

  • 先通過 wget 的方式下載 tar 命令,並通過 perl 給予 tar 命令權限
  • 接著把另一臺服務器把 /bin 目錄打包成壓縮文件,然後通過 wget 下載 bin 目錄的壓縮包文件
  • 最後通過 tar 命令把 bin 壓縮包解壓出來

/bin 就這樣恢復回來啦,剩餘的其他目錄 也是通過同樣的操作恢復了回來。

小林的笑容漸漸恢復了回來,哈哈哈哈哈哈哈哈哈哈哈哈

遇到 rm -fr /* 刪庫事件發生,一定要沉住氣,穩住心態。

本次刪庫事件,之所以小林能幸運的恢復回來,有非常關鍵兩點:

  • 小林發現腳本執行不正常,果斷立馬的掐斷它,沒有造成重要的數據庫信息被刪除,如果掐斷的時候再晚一點,可能就真沒了。
  • 小林發現常用命令無法使用的時候,沒有重啟服務器,不然服務器就起不來了,也沒有關閉 ssh 會話,不然無法在重新連接 ssh 會話了,也就無法進行操作了。

如果以上兩點都沒做好,服務器恢復的難度就加大了很多,更嚴重的是五一節就沒的過了。


4.預防誤執行 rm -fr /*

既然 rm -fr /* 是殘忍的兇器,那麼預防它是很有必要的,接下來跟大家討論討論預防它的幾種方案。

方案一:rm -rf 刪除目錄時要判斷目錄

<code>#!/bin/bash
work_path=`pwd`
#如果目錄不為空,才執行刪除操作

if [ ${work_path} != "" ];then
rm -fr ${work_path}/*
fi/<code>

在執行刪除目錄操作前,先判斷要刪除的目錄是否為空,不為空才執行刪除操作。

方案二:Shell 腳本指定 set -u

執行腳本的時候,如果遇到不存在的變量,Bash 默認忽略它。

<code>#!/bin/bash
echo $a
echo hello/<code>

上面代碼中,$a 是一個不存在的變量,執行結果如下。

<code>$ bash test.sh
hello/<code>

可以發現,echo $a 輸出了一個空行,Bash 忽略了不存在的 $a,然後繼續執行 echo hello。

最好是遇到變量不存在,腳本應該報錯,而不是一聲不響地往下執行。

set -u 就用來改變這種行為,在腳本加上它,遇到不存在的變量就會報錯,並停止執行。

<code>#!/bin/bash
set -u
rm -fr $a/*
echo hello/<code>

運行結果如下:

<code>$ bash test.sh
test.sh: line 4: a: unbound variable/<code>

可以看到,因為 a 是未定義變量,腳本報錯了,並且不再執行後面的語句。

方案三:safe-rm 替換 rm

safe-rm 是一個開源軟件工具,這名字聽起來就很安全嘛,所以它是用來替代不太安全的 rm。

它可以在 /etc/safe-rm.conf 中配置路徑黑名單,定義哪些不能被 safe-rm 刪除。

我們可以將 safe-rm 更名為 rm,假設定義了 /etc/ 不能被刪除,那麼刪除 /etc 時就會報錯:

<code>$ rm -rf /etc/
safe-rm: skipping /etc//<code>

方案四:建立回收站機制

Windows 是有回收站的,即使誤刪了,也可以在回收站恢復。

所以,我們也可以在 Linux 實現回收站的機制。

實現思路:

刪除文件時,它並不真正執行刪除操作,而是將文件移動到一個特定目錄,可以設置定時清除回收站,或者在回收站裡面的文件大小達到一定容量時(或者用時間做判斷)執行刪除操作以騰出空間。

可以寫個 Shell 腳本替換 rm 命令,或者在需要刪除文件的時候使用 mv 命令將文件移動到回收站。

① 創建回收站目錄

<code>mkdir /home/.trash/<code>

② 編寫 remove.sh 腳本,內容如下

寫了Bug,誤執行rm -fr /*,我刪刪刪庫了,要跑路嗎?| 原力計劃

③ 修改 ~/.bashrc, 用我們自建的 remove.sh 替代 rm 命令

<code>alias rm="sh /home/remove.sh"/<code> 

④ 設置 crontab,定期清空垃圾箱,如每天 0 點清空垃圾箱:

<code>0 0 * * * rm -rf /home/.trash/*/<code>

⑤ 最後,執行以下命令,使之生效

<code>source ~/.bashrc /<code>

方案五:根文件掛載成只讀

在 /etc/fstab 文件,把 / 文件系統掛載成只讀的方式。

寫了Bug,誤執行rm -fr /*,我刪刪刪庫了,要跑路嗎?| 原力計劃

其中 remount,ro,就表示只讀的方式掛載。

只讀的方式掛載後,進行刪除操作是無法成功的:

寫了Bug,誤執行rm -fr /*,我刪刪刪庫了,要跑路嗎?| 原力計劃


5.事後反思

涉及到 rm -fr 命令的代碼,要留個心眼,要反覆檢查,要做好預防誤執行 rm -fr /*,並在測試機驗證完後,再拖到實體機上跑,千萬不可大意。

就算的發生了 rm -fr /*,要第一時間停掉它,並且要做到三不要:

  • 不要慌,不要心跳爆炸(穩住穩住)
  • 不要隱瞞刪庫事件(不丟人)
  • 不要重啟服務器或斷開 ssh 會話(保留現場)

只要立馬掐斷 rm -fr /* ,它是幹不死我們的。

利用當下環境剩有的命令,冷靜分析,是有機會恢復的。

小林現在是一個刪過庫沒跑路的男人了,Goodbye, 我們下次見



對了,在這裡說一下,我目前是在職Java開發,如果你現在正在學習Java,瞭解Java,渴望成為一名合格的Java開發工程師,在入門學習Java的過程當中缺乏基礎入門的視頻教程,可以關注並私信我:01。獲取。我這裡有最新的Java基礎全套視頻教程。



分享到:


相關文章: