絕望!一個rm-rf把公司整個數據庫刪沒了...

經歷了兩天不懈努力,終於恢復了一次誤操作刪除的生產服務器數據。

對本次事故過程和解決辦法記錄在此,警醒自己,也提示別人莫犯此錯。

也希望遇到問題的朋友能找到一絲靈感解決問題。


01

事故背景


安排一個妹子在一臺生產服務器上安裝 Oracle,妹子邊研究邊安裝,感覺裝的不對,準備卸載重新安裝。


從網上找到卸載方法,其中要執行一行命令刪除 Oracle 的安裝目錄,命令如下:

<code>rm-rf$ORACLE_BASE/*
/<code>


如果 ORACLE_BASE 這個變量沒有賦值,那命令就變成了:

<code>rm-rf/* 

/<code>


等等,妹子使用的可是 Root 賬戶啊。就這樣,把整個盤的文件全部刪除了,包括應用 Tomcat、MySQL 數據庫 and so on......


MySQL 數據庫不是在運行嗎?Linux 能刪除正在執行的文件?反正是徹底刪除了,最後還剩一個 Tomcat 的 Log 文件,估計是文件過大,一時沒有刪除成功。


看著妹子自責的眼神,又是因為這事是我安排她做的,也沒有跟她講清厲害關係,沒有任何培訓,責任只能一個人背了,況且怎麼能讓美女揹負這個責任呢?


打電話到機房,將盤掛到另一臺服務器上,SSH 上去查看文件全部被清,這臺服務器運行的可是一個客戶的生產系統啊,已經運行大半年了,得儘快恢復啊。


於是找來脫機備份的數據庫,發現備份文件只有 1KB,裡面只有幾行熟悉的 mysqldump 註釋(難道是 Crontab 執行的備份腳本有問題),最接近的備份也是 2013 年 12 月份的了,真是屋漏偏逢連夜雨啊。


想起來一位領導說過的案例:當一個生產系統掛掉以後,發現所有備份都有問題,刻錄的光盤也有劃痕,磁帶機也壞了(一個業界前輩,估計以前還用光盤做備份了),沒想到今天真的應驗到我的身上了,怎麼辦?


部門領導知道情況後,已經做了最壞的 B 計劃:領導親自帶隊和產品 AA 週日趕到客戶所在的地市,星期一去領導層溝通;BB 和 CC 去客戶管理員那邊想辦法說服客戶......


02

救命稻草:ext3grep


趕快到網上去查資料進行誤刪數據恢復,還真找到一款 ext3grep 能夠恢復通過 rm -rf 刪除的文件,我們磁盤也是 ext3 格式,且網上有不少的成功案例。


於是燃起了一絲希望,趕快對盤 umount,防止重新寫入補刪文件扇區。下載 ext3grep,安裝(編譯安裝過程艱辛暫且不表)。


先執行掃描文件名命令:

<code>ext3grep/dev/vgdata/LogVol00--dump-names
/<code>


打印出了所有被刪除文件及路徑,心中狂喜,不用執行 B 計劃了,文件都在呢。


這款軟件不能按目錄恢復文件,只能執行恢復全部命令:

<code>ext3grep/dev/vgdata/LogVol00--restore-all
/<code>


結果當前盤空間不足,沒辦法只能恢復文件,嘗試了幾個文件,居然部分成功部分失敗:

<code>ext3grep/dev/vgdata/LogVol00--restore-filevar/lib/mysql/aqsh/tb_b_attench.MYD 

/<code>


心裡不禁一涼,難道是刪除磁盤上被寫過文件了?恢復機率不大了啊,能恢復幾個算幾個吧,說不定重要數據文件剛好在能恢復的 MYD 文件中。


於是先將所有文件名重定向到一個文件文件中:

<code>ext3grep/dev/vgdata/LogVol00--dump-names>/usr/allnames.txt
/<code>


過濾出來所有 MySQL 數據庫的文件名存成 mysqltbname.txt。


編寫腳本恢復文件:

<code>whilereadLINE
do
echo"begintorestorefile"$LINE
ext3grep/dev/vgdata/LogVol00--restore-file$LINE
if[$?!=0]
then
echo"restorefailed,exit"
#exit1
fi
done<./>/<code>


執行,大概運行了 20 分鐘,恢復了 40 多個文件,但不夠啊,我們將近 100 張表,每張表 frm,myd,myi 三個文件,怎麼說也有 300 多個左右啊!


將找回來的文件附到現有數據庫上,更要文件權限為 777 後,重啟 MySQL,也算是找回一部分數據了,但客戶重要的考勤簽到數據、手機端上報數據(據說客戶按這些數據做員工績效的)還沒找回來啊。


咋辦?中間又試了另一款工具 extundelete,跟 ext3grep 語法基本一致,原理應該也一樣了,但是據說能按目錄恢復。


好吧,試一試:

<code>extundelete/dev/vgdata/LogVol00--restore-directoryvar/lib/mysql/aqsh
/<code>


果然不出所料,恢復不出來!!!!!!!!那些文件已被破壞了。跟領導彙報,執行 B 計劃吧......無奈之下下班回家。(週末了,回去休息一下,想想辦法吧)


03

靈機一動:Binlog

第二天早晨一早就醒了(心裡有事啊),背上電腦,去公司(這個週末算是報銷了,不挨批,通報,罰款,開除就不錯了,還過什麼週末啊)。


依舊運行 ext3grep,extundelete,也就那幾招啊,把系統架到測試服務器上,看看數據能不能想辦法補一補吧。


在測試服務器上進行 mysqldump,恢復文件,覆蓋恢復回來的文件,給文件加權限,重啟 MySQL。


Wait,Wait,不是有 Binlog 嗎?我們服務都要求開啟 Binlog,說不定能通過 Binlog 裡恢復數據呢?


於是從 Dump 出來的文件名裡找到 Binlog 的文件,一共三個:

  • mysql-binlog0001
  • mysql-bin.000009
  • mysql-bin.000010


恢復一下 0001:

<code>ext3grep/dev/vgdata/LogVol00--restore-filevar/lib/mysql/mysql-bin.000001
/<code>


居然失敗了......再看另兩個文件,mysql-bin.000010 大概幾百 MB,應該靠譜一點,執行還原命令,居然成功了!


趕快 SCP 到測試服務器。執行 Binlog 還原:

<code>mysqlbinlog/usr/mysql-bin.000010|mysql-uroot-p
/<code>


輸入密碼,卡住了(好現象),經過漫長的等待,終於結束了。打開應用,哦,感謝 CCTV,MTV,數據回來了!


04

後記

希望謹記此次事故,以後不再犯同樣的錯誤。事故反思如下:


  • 本次安排 MM 進行服務器維護時沒有提前對她進行說明厲害情況,自己也未重視,管理混亂,流程混亂。一個在線的生產系統,任何一個改動一定要先謀而後動。
  • 自動備份出現問題,沒有任何人檢查。脫機備份人員每次從服務器上下載 1K 的文件卻從未重視。需要明確大家在工作崗位上的責任。
  • 事故發生後,沒有及時發現,造成部分數據寫入磁盤,造成不可恢復問題。需要編寫應用監控程序,服務一旦有異常,短信告警相關責任人。
  • 根據評論提醒,再加一條:不能使用 Root 用戶來操作。應該在服務器上開設不同權限級別的用戶。

功能跟 ext3grep 差不多,原理應該也差不多。編譯安裝依賴包比較多,可以到網上搜索如何安裝。【可惜的是作者給出的 howto 被牆了,我 FQ 將 howto 的 pdf 文檔下載下來了,讀完後你將會對 Linux 的文件系統有進一步的認識。】


這個工具有一個 Bug,出錯後不會向下執行:

<code>ext3grep:init_directories.cc:534:voidinit_directories():Assertion`lost_plus_found_directory_iter!=all_directories.end()'failed./<code>


你呢,有什麼類似經歷嗎



分享到:


相關文章: