Azure 全球宕機 3 個小時!

今天三小時停機的技術術語是TITSUP:完全無法支持用戶的數據包(Total Inability To Support Users' Packets)

至少在過去一兩個小時內,由於DNS配置事故,微軟的Azure雲在全球範圍內震盪不定。

平臺範圍的中斷已經破壞了世界各地的各種Redmond託管系統,從Azure SQL數據庫和應用服務到多因素身份驗證,Microsoft 365和團隊,Dynamics,SharePoint Online和OneDrive。

在我們打字的時候,這個雲巨人正逐漸重新站起來,Azure地區一個接一個地恢復,儘管你的感覺可能會有所不同,但似乎麻煩始於1945年左右(譯者注:意思為二戰之後最嚴重的的災難)。

“客戶可能會遇到與Azure和其他Microsoft服務(包括M365,Dynamics,DevOps等)的間歇性連接問題,”Azure公告頁面現在能看到的是2128 UTC。

“工程師正在研究影響網絡連接的DNS解決問題。連接問題導致對下游計算,存儲和數據庫服務的影響,並且一些客戶可能無法提交支持請求。

“隨著時間的推移,將提供更多信息。一些客戶可能會開始看到恢復情況。”

換句話說,尚未給出全部清晰,並且正如他們所說,任何事情都可能在接下來的半小時內發生。

Azure 全球宕機 3 個小時!

在Microsoft 365公告頁面上,Redmond的技術人員指責內部DNS配置錯誤導致停機:

用戶可能無法訪問Microsoft 365服務或功能。

更多信息:受影響的服務包括SharePoint Online,OneDrive for Business,Microsoft Teams,Stream,Power BI,Planner,Forms,PowerApps,Dynamics 365,Intune和Office Licensing。

我們已經識別並糾正了阻止用戶訪問Microsoft 365服務和功能的DNS配置問題。 我們觀察到成功連接的增加,我們的遙測表明所有服務正在恢復。 我們將繼續監控環境以驗證服務是否已恢復。

Azure 全球宕機 3 個小時!

我們已經識別並糾正了阻止用戶訪問Microsoft 365服務的DNS配置問題。 有關詳細信息,請參閱SP178746,OD178975和MO178979下的管理中心。

--Microsoft 365公告(@ MSFT365Status)2019年5月2日

這不是第一次DNS問題讓人感到煩惱,最後一次發生這種情況,根據我們的估計,一些客戶的數據庫丟失了,所以祈禱吧,夥計們。

最新信息,公告2300 UTC

微軟表示它已修復其破損的系統,結束了今天的三小時停機,Azure的網絡基礎設施應該或多或少地恢復正常:“已經應用了緩解措施,大多數服務已經恢復,除了一小部分服務可能仍會有一些影響。“

技術巨頭補充說,其DNS系統的錯誤遷移最終歸咎於:“工程師發現潛在的根本原因是名稱服務器委託更改影響DNS解析並導致對下游計算,存儲,應用服務,AAD和SQL數據庫的影響服務。

“在將舊版DNS系統遷移到Azure DNS期間,Microsoft服務的某些域未正確更新。在此事件期間沒有客戶DNS記錄受到影響,並且整個事件期間Azure DNS的可用性保持在100%。此問題僅受影響Microsoft服務的記錄。

“為了緩解,工程師糾正了名稱服務器委派問題。訪問錯誤配置的域的應用程序和服務可能緩存了不正確的信息,導致恢復時間更長,直到緩存的信息過期。”

原來鏈接:

https://www.theregister.co.uk/2019/05/02/microsoft_azure_outage_dns/


分享到:


相關文章: