Google 「運維寶典」分享內部 SRE 應用實例丨附電子書下載鏈接


Google 「運維寶典」分享內部 SRE 應用實例丨附電子書下載鏈接

SegmentFault 思否報道丨公眾號:SegmentFault




無論企業規模大小,都有可能發生重大的 IT 事故,為此 Google 出版了一本新書,來讓企業避免和應對外部攻擊者以及內部改動造成的事故。


新書名為《Building Secure & Reliable Systems(構建安全可靠的系統)》,重點介紹 Google 如何將 SRE 方法引入安全性,以及安全性在軟件產品開發和運營中的作用。


Google 此前發佈的關於 SRE 的書籍雖然涵蓋了 SRE 的最佳實踐,但沒有涉及可靠性和安全性之間的聯繫。此次新發布的圖書電子版共計 500 多頁,詳細介紹了影響 Google 內部系統和產品(如 YouTube)的眾多故障。重要的是,新書還揭示了其站點可靠性工程和安全團隊如何合作保護 Google 系統,從 Android 到 Chrome、Gmail、搜索和 Google Cloud。


本書開頭提出了一個問題:“如果系統從根本上來說不是安全的,那麼還可以認為它是真正可靠的嗎?如果系統不可靠,那麼可以認為它是安全的嗎?”。



SRE 原則

Google 「運維寶典」分享內部 SRE 應用實例丨附電子書下載鏈接



SRE(Site Reliability Engineering)即網站可靠性工程,它源起於谷歌內部產品技術保障過程中演進而來的運維新模型,並且定義了新崗位的職責範圍。


提及 SRE 很多人會聯想到運維工程師、系統工程師,其實不然。區別於傳統運維模式,SRE 強調自動化系統,主張通過軟件工程方式開發出一些場景化的自動化運維工具來替代重複和手工操作。


谷歌已經使用 SRE 原則近二十年了,雖然世界上很少有公司能具備 Google 的規模,但是儘管如此,在 Google 的書中仍可以吸取經驗教訓。


Gmail 的早期 SRE 負責人 Royal Hansen 分享此書時提到:“SRE 是一流的可靠性方法。並且,它在實時檢測和響應技術問題(包括對特權訪問或敏感數據的安全性攻擊)方面也發揮著作用。工程團隊通常根據專業技能在組織上分開,他們的共同目標是:確保系統或應用程序的質量和安全性。”


Google SRE 官網:

https://landing.google.com/sre/


不方便自行下載的朋友,可以搜索公眾號【SegmentFault】回覆關鍵詞「SRE」,獲取《Building Secure & Reliable Systems(構建安全可靠的系統)》完整版 PDF。


分享到:


相關文章: