
根據(jù)Azure的服務(wù)健康狀態(tài)表(上圖),受損最嚴(yán)重的就是基於美國(guó)中南部數(shù)據(jù)中心的各式服務(wù),從API管理、應(yīng)用程式閘道、App Service、自動(dòng)化、適用於MySQL與PostgreSQL的Azure資料庫(kù)、Azure Cosmos DB、Azure監(jiān)視器、語(yǔ)言或機(jī)器學(xué)習(xí)服務(wù)或VSTS等都被波及。
盡管意外是發(fā)生在美國(guó)中南部的數(shù)據(jù)中心,但除了座落在當(dāng)?shù)氐氖褂谜邿o(wú)法存取帳號(hào)之外,有監(jiān)於內(nèi)部架構(gòu)的相依性,大多數(shù)的美國(guó)客戶也無(wú)法使用發(fā)行管理(Release Management)功能,亦無(wú)法載入基於第三方工具的儀表板,所有區(qū)域的Mac Pools也都受到影響。
根據(jù)微軟的說(shuō)法,數(shù)據(jù)中心的故障源自於一連串的骨牌效應(yīng),主要是因?yàn)槊绹?guó)中南部一個(gè)數(shù)據(jù)中心附近出現(xiàn)了包括雷擊在內(nèi)的惡劣天氣,造成電源的電壓突然升高,進(jìn)而影響冷卻系統(tǒng),為了維護(hù)資料與硬體的完整性,數(shù)據(jù)中心啟動(dòng)了關(guān)機(jī)的自動(dòng)化程序,才會(huì)讓服務(wù)中斷。
冷卻系統(tǒng)為現(xiàn)代數(shù)據(jù)中心最關(guān)鍵的元素之一,因?yàn)樗仨毺婷芗菁{數(shù)千臺(tái)伺服器的數(shù)據(jù)中心降溫,且大多數(shù)的云端服務(wù)供應(yīng)商為了因應(yīng)突然竄升的溫度時(shí),都有自動(dòng)關(guān)機(jī)程序的配置,只是在關(guān)機(jī)後也必須花一點(diǎn)時(shí)間重啟所有服務(wù)。
根據(jù)Azure目前的復(fù)原狀態(tài),微軟已經(jīng)重啟美國(guó)中南部數(shù)據(jù)中心的電源,也已恢復(fù)Azure Storage縮放單位的軟體負(fù)載平衡,目前仍在進(jìn)行中的則是恢復(fù)對(duì)Azure Storage縮放單位的影響,以及恢復(fù)其它仰賴當(dāng)?shù)谹zure Storage的各式服務(wù)。