揭祕阿里巴巴產品線上保護“絕招”

揭秘阿里巴巴產品線上保護“絕招”

作者 | 阿里文娛測試開發專家 烈冰

出品 | 程序人生(ID:coder_life)

對於大麥這種客戶眾多,搶票輿情極易爆發的業務,如何保障好線上質量是極大的考驗。大麥針對產品的線上問題分兩個階段進行了專項攻堅,拿到理想效果的同時沉澱出一整套解決 方案及技術工具,其中核心技術產品釘釘機器人“麥粒兒”被阿里多個 BU 接入使用以應對線 上問題。本文分兩個階段來闡述治理的結果、過程及沉澱。

揭秘阿里巴巴产品线上保护“绝招”

第一階段:提升線上問題的解決效率

1. 業務屬性決定大麥要快速處理線上問題

背景:大麥的業務,售賣的是稀缺資源,而面對的客戶除了普通的消費者,還有主辦方、 場館方和政府公安文化等,這樣的業務屬性,決定了我們對線上質量的高要求,線上問題的解 決效率是我們的第一指標。隨著大麥內部一批大型新系統的陸續上線,線上質量的壓力越來越 大,隨即由技術質量牽頭對線上問題展開專項攻堅,力保線上質量。

目標:通過專項治理,大幅提升線上問題的解決效率。我們對標了阿里內部各個業務的標 準,制定了大麥的核心指標為線上問題的 1 小時解決率。

價值:所有影響用戶和業務的緊急問題在第一時間內得到解決;打通公司內各個部門,過 程結果透明,所有角色信息對等,對質量放心;所有同學對線上生產有敬畏之心,視線上質量 為生命線。

2. 經過各部門的通力合作和技術攻堅使核心目標達成

緊急問題的 1 小時解決率大幅增長。

揭秘阿里巴巴产品线上保护“绝招”

問題逐步收斂,解決時長大幅縮短。

揭秘阿里巴巴产品线上保护“绝招”

機器人全流程承接,全角色參與,進度結果全透明。

3. 通過建立工具化支撐的處理機制來實現目標

1)面對複雜的線上問題和眾多的干係人,我們首先想到的是把問題分級,使那些真正緊急 的問題暴露出來,並建立問題的全流程處理機制來標準化運行,如下圖:

2)有了處理機制,還需要有工具來承接使之高效運行,我們開發了虛擬機器人依託釘釘群 進行問題的收錄和溝通,並打通了研發工作平臺、郵件系統、故障系統等使問題的快速處理形 成閉環,具體功能有:

支持上報問題→問題進展同步→日報、週報→覆盤提醒→升級故障,形成閉環。

通曬緊急問題的核心指標,促進問題快速解決,實現核心目標達成。

日常應答,方便主動跟進問題進展,對未關閉的緊急問題直接@接口人處理。

揭秘阿里巴巴产品线上保护“绝招”

3)影響問題處理效率的核心是問題的定位。在治理過程中,技術團隊建立並完善了各自業 務線的核心繫統監控預警系統,使問題第一時間被發現。同時我們還開發了眾多的排查工具並 打通全鏈路排查系統,結合輿情繫統的精準信息反饋,使問題可以被快速定位。

揭秘阿里巴巴产品线上保护“绝招”

第二階段:提升大麥的線上質量水平

1. 重點從問題的解決效率轉向問題的收斂

背景:經過第一階段的治理,線上問題的解決效率已經得到了大幅的提升。但線上質量永遠是我們的生命線,真正影響用戶體驗的是我們的線上質量,我們隨即將目標對準提升線上質 量本身,力圖實現收斂線上問題。

目標:將大麥的線上質量水平大幅提升。核心指標分解為:

收斂整體線上問題,腰斬 TOP 問題,控制緊急問題的二次發生率。

全面提效,完善機器人建設,全流程自動化承接,減少人力成本。價值:形成一整套專業的線上問題解決方案並有配套工具支撐,阿里集團橫向打通;將線

上穩定視為生命線,在公司樹立穩定壓倒一切的共識。

2. 經過各部門同學們的通力合作,核心目標全部達成。

線上質量大幅提升,緊急問題斷崖式下降。

揭秘阿里巴巴产品线上保护“绝招”

整體問題平均解決時長大幅縮短。

揭秘阿里巴巴产品线上保护“绝招”

TOP3 問題被腰斬,緊急問題二次發生率不到 1%!

機器人產品化基本完成,支撐業務線自運營,節省人力成本超一倍。“麥粒兒”支撐集 團多個 BU 進行線上問題處理。

揭秘阿里巴巴产品线上保护“绝招”

3. 為了達成核心指標,專項小組主要從專項根解 TOP 問題、完善機器人產品化、止血手 冊和排查寶典建設三方面出發展開工作,具體事項如下:

1)對 TOP 問題進行專項治理,分級 Action 根解嚴重問題。

針對鏈路問題,成立專項小組進行治理。我們對歷史問題進行了梳理和總結,在多個核心環節進行了多項產品及技術優化,並補齊

SOP 減少人為操作失誤,最終使產技問題清零,生產問題腰斬。

制定完善的 Action 分級機制並應用於緊急問題中實現問題根解。為準確找到根解方案、保障 Action 及時完結,我們制定了覆盤會議規範、Action 分類制度和 Action 分級處理規則並推動落地,緊急 Action 的周清率達到 100%。最終使緊急問題二次發生

率不到 1%,超過之前預定目標。

2)完善機器人功能並進行產品化,開始推廣至外部 BU。在一期功能的基礎上,機器人二期重點建設了排查止血指引、故障平臺打通、各類功能優

化等,補齊了全流程閉環並全面提效,完成了創新的自動化承接的線上問題管理方案,主要包含:

處理閉環:問題上報(含止血、排查方案)-->處理通知-->問題解決、關閉通知(含解 決時長同步及核心指標對焦)-->獲取問題原因、解決方案-->覆盤提醒。

升級流程:問題上報-->問題升級(故障標準)-->對接 GOC。

信息同步:支持自動發佈線上問題的日報、週報等。

揭秘阿里巴巴产品线上保护“绝招”

機器人建設里程碑

揭秘阿里巴巴产品线上保护“绝招”

隨著功能閉環的完成,開始進行產品化開發,同時完成多個專利申請;可快速配置個性化 機器人,實現分鐘級接入全部功能;BU 內部眾多問題群接入機器人,整體滿意度超 95%;集 團多個外部 BU 也進行了機器人的接入工作,小小機器人開始橫向打通支撐集團的線上問題處 理。

3)完成排查寶典和止血手冊建設,指導止血操作並快速定位問題。

止血手冊建設:背景:當發生線上問題或故障時,根據阿里安全生產規範,我們首先要做的不是排查問題,

也不是解決問題,而是應該立即進行止血操作。爭取在最短的時間裡,最大程度的降低問題的

影響範圍。之前在面對線上問題時,大家的止血操作效率低且容易被忽視,專項小組決定產出 一份止血手冊,指導大家進行止血操作,提高問題解決效率。

工作:我們從實際線上問題出發,借鑑真實線上問題止血的實操經驗,對問題進行歸類整 理,創建了經典場景的止血手冊,涵蓋了全部的緊急問題,並與機器人結合自動指導大家進行 止血操作。

排查寶典建設:

背景:專項小組在 TOPIC 一期以解決時長為衡量標準,推動各個業務線建設核心排查工具, 從而提高了問題的排查效率。但是隨著排查工具的種類和功能的不斷增加,工具的操作使用說 明沒有及時跟進,導致非該業務線的同學在查詢使用上存在困難;其次,當遇到需要排查上下 遊業務的線上問題時,因為不瞭解其他業務的排查思路和方法,只能等待其他對應業務的同學 給出排查結果,導致問題排查效率低。

工作:若想擁有方便、高效的定位問題的方法,不僅在於有好用的排查工具,還在於有清 晰的排查思路。我們從實際線上問題排查定位的實際經驗出發,收集建設各個核心系統的排查 思路和配套工具,形成了核心業務的主要鏈路場景的排查寶典,包含問題描述、排查思路、詳細步驟、參考案例。並與機器人結合自動指導大家進行問題定位。

止血手冊和排查寶典的整體結果:止血手冊結合排查寶典,使大麥整體的線上問題解決時長持續降低。

4)制定線上問題處理流程規範,助力高效自運營。

為了解放人力,使線上問題的管理實現自動化的高效運營,專項小組在不斷完善機器人 建設的同時,還出臺了《大麥線上問題處理流程規範》,並依據規範進行周、月維度度 量,逐步使線上問題的管理下放到業務線自運營;

整體處理流程規範包含處理流程、Aone 操作規範、定級規範、覆盤規範、Action 規範、 故障標準、罰則標準等;

結合機器人在群問題管理方面的人力成本降低,整體人力成本節省超一倍。

總結

隨著兩個階段的建設,大麥線上問題的處理效率和線上質量水平均得到大幅提升。但線上質量永遠是我們的生命線,穩定壓倒一切!未來我們還將繼續建設第三階段,致力於提升自動 化和智能化水平,並把整體的線上問題管理方案體系化推廣出去。分解為:

繼續推進機器人建設,打通全鏈路日誌系統實現問題的智能診斷,並結合止血手冊和排 查寶典建設,實現問題自動應答;

繼續為新系統穩定保駕護航,專項推進線上 TOP 問題根解,杜絕二次發生;

完善整體的線上問題管理方案,支持更多阿里 BU 使用,為線上問題的專項解決提供更好的支撐。

揭秘阿里巴巴产品线上保护“绝招”揭秘阿里巴巴产品线上保护“绝招”


分享到:


相關文章: