航空工業採購平台在智能運維的創新和實踐

隨著數字化浪潮的侵襲,不論是傳統企業還是現代化企業,不是在數字化轉型升級的路上,就是已經實現數字化。然而數字化的根本是數據化,一切業務數據化,一切數據業務化。在傳統企業轉型數字化的發展過程中,從對IT運維的重視程度,就可以看出當前很多企業在信息化系統運維普遍存在的問題。

航空工業採購平臺在智能運維的創新和實踐


在2018雲棲大會上,中航金網電子商務有限公司CTO趙維五接受賽迪網採訪時表示:“傳統企業不同於BAT這樣的互聯網公司,有龐大的運維團隊和資源支持。在有限的運維資源下,更重要的是合理構建運維體系,選擇適合的自動化,智能化運維工具,可以有效降低企業運維成本,提升運維效率。如果自身缺乏運維管理理念和資源,最直接有效的辦法就是借力,藉助專業公司補足自己的能力,讓自己更加專注自身業務發展。”

曾任職阿里巴巴技術專家的趙維五,如今在專業的B2B航空工業電商領域發展。如何解決業務發展帶來的分佈式、多數據中心運維難題,提升運維效率,減少故障,提升用戶體驗,便是他如今的職責所在。

企業信息化通病:重研發輕運維

趙維五回憶,在阿里時整個阿里的運維體系和運維的資源是非常強大的,足夠支撐整個阿里電商的業務,但是到中航金網電子商務有限公司(下文簡稱:中航金網)之後,發現一個普遍的共性問題:就是企業的管理層和企業的領導對運維相對於研發來講不是那麼重視。很多的投入是在研發端,運維端投入較少。這就顯得智能化運維更加重要,在有限的運維資源的情況下,如何更高效地把整個運維體系建立起來,如何利用更加自動化、智能化的工具,有效地分配資源,高質量地完成運維工作,就顯得格外重要。

中航金網是航空工業電子採購平臺和中國航髮網上商城兩大集團電商平臺的建設和運營服務提供商。航空工業採購平臺是面向集團公司400多家企業接近10萬家的用戶,提供電子化採購和供應鏈集成服務的平臺,平臺採用混合雲架構,在公有云利用阿里雲的彈性服務,幫助中航金網快速搭建起很多SaaS運用,在集團公司對數據安全非常強管控的要求下,混合雲主要是面向數據存儲和數據安全運維。

之所以使用混合雲架構,趙維五指出:“主要考慮數據的安全性。必竟兩個集團是央企,對於數據有嚴格的管控要求。業務快速擴展方面,要求應用系統產品快速跟進上線。公有云的彈性計算能力、豐富的中間件服務對於應用系統的研發、部署、迭代、運維是最好的選擇,大大降低了時間成本、採購成本、管理成本;私有云主要擔當角色是數據存儲和與內網其他業務系統的集成,按照集團對於數據管控的要求,從數據庫的高可用、備份、審計、災備等方面建設與運維。”

私有云破解數據管控

資源配置方面,航空工業電子採購平臺在阿里雲和私有云共使用500多臺IaaS/PaaS主機與設備,分佈在3個數據中心以及雲上5個VPC內,支撐起200億的年交易額。趙維五介紹:“隨著業務的快速發展,應用不斷擴展迭代以及引入新的組件,整個系統架構變得越來越複雜,整個資源投入上也是呈現出線性的增長,同時相應的線上的問題也不在斷增多,但是相對來說運維資源有限,所以也拉長了整個運維響應時間和響應質量,同時對研發端有更多的壓力和挑戰。從平臺安全性來說,平臺等保三級的備案同時集團對平臺安全性極高的要求,也對運維能力提出來更高的要求。”

目前對於大多數的企業,即使是國企、央企,對數據的安全還是比較敏感,在數據的管控上有嚴格的要求。基於這樣一個原因,一方面業務要快速的擴張,整個應用的部署要快速的上線迭代,所以這是公有云的一個優勢,利用公有云的資源,可以快速地進行迭代開發。

改進運維的三大目標

運維資源缺乏、運維理念觀念比較陳舊、、運維工具落後,是趙維五在工作中總結出來的企業運維現有的通病。為更好的改進企業運維現狀,趙維五提出三個改進的目標:

第一,把整個運維工作提高到體系建設的高度。體系規劃建設,是做任何事情的基礎,體系的建設就是將運維的標準和規範重新梳理和定義。

運維規範,是從產品的研發端到線上運維以及到全流程規範的建立。運維資源的整合,一方面梳理現有的有限運維的資源情況下,按照職能分工基礎的運維和數據運維以及運用運維團隊甚至是不同的團隊,藉助外部的資源彌補內部的短板。比如說和袋鼠雲公司的合作,通過袋鼠雲足夠的技術能力和技術資源協助企業完善整個運維體系的架構和管理。

第二,在有限的運維資源如何高效高質量的工作,勢必要建立自動化的運維工具來協助運維工作。運維體系規劃的執行落地,靠人的主觀能動性很難推動,需要靠智能化的工具和平臺輔助才可更好地落地,通過智能化的運維平臺和工具減少運維人員繁瑣、枯燥無味的重複勞動,減少排查問題的時間和被動解決問題的機會,最終在有限的運維資源下更好地整合、高效協同來工作。在工具方面,趙維五和他的團隊把所有來自於硬件、網絡、以及應用的日誌數據和監控信息做統一的收集作為“運維中臺”,利用雲日誌分析平臺進行分析處理,從業務的角度發現系統的問題,同時把這一切通過可視化大屏幕實時展示出來。

隨著整個運維監控平臺的上線,能夠及時主動地發現問題,通過主動性的探測和被動性的應用接口日誌改造,能夠覆蓋大部分關鍵業務,同時在問題的排查過程中也可以通過EasyLog,加快對分部署應用問題的排查和處理,最終對於整個用戶體驗來說是非常大的提升。

數據庫的統一管控平臺,中航金網有很多不同應用系統的部署,每個應用系統有自己的數據庫,數據庫也是使用不同的數據庫的產品,其實從數據整體的統一管理和管控來看,如何做好數據庫的統一管理和監控,包括統一的日常監控、安全審計、備份機制等,EasyDB是不錯的選擇。

第三,在用戶端,為了更好的及時處理以及沉澱問題解決能力,中航金網成立一支虛擬應急的響應團隊來響應線上問題,執行線上規範,並且把結果沉澱下來,傳遞到各個團隊內部,同時日常的流程通過釘釘來落地,方便執行管理。

今年4月,中航金網開始做應用端日誌以及接口的改造,通過程序日誌規範化的輸出,接入EasyLog日誌分析平臺,實時監控應用的運行狀況和異常,並通過釘釘、手機短信等即時發出告警通知。剛開始接入的時候,幾乎告警是不停的,趙維五回憶當時看到滿屏的告警信息時的心情,是可以用萬馬奔騰來形容的。沒有想到小問題會這麼多,而每一次大的故障背後都可能是忽略的無數小問題引起的,這也及時鞭策趙維五不能忽略任何細小的問題,踏踏實實把平臺做好,不光是要實現功能,更需要安全、穩定和更好的體驗。

智能運維的力量

航空工業電子採購平臺整體的運維體系建設和上線,有了袋鼠雲的加入,整個智能平臺的效果明顯。趙維五介紹:“從6月開始整個故障處理的時間以及次數都有明顯的下降,使得在有限的運維資源,效率有非常大的提升,所以說在整個項目的合作中袋鼠雲發揮著舉足輕重的作用。”

其實,中航金網結緣袋鼠雲已有兩年之久,從一開始的數據庫運維,到運維體系的諮詢,再到智能運維平臺的開發建設等,都是與袋鼠雲在合作。在趙維五眼裡,袋鼠雲公司不僅有阿里的背景,而且整個IT的技術實力、資源也是非常富足,這是中航金網非常信任袋鼠雲的原因。

未來,除了在整體的IT資源規劃和數據庫的管理方面,趙維五期待在智能運維方面能夠與袋鼠雲有更多、更深、更廣的合作。(文 / 時代洞察創始人 徐培炎@賽迪網)


分享到:


相關文章: