DHL數(shù)據(jù)中心維運負責人Ctibor Lesa
隸屬于德國郵政集團旗下最大的國際快遞公司DHL,不只是目前世界最大的航空快遞貨運公司之一,更運用IT在全球各地采用自建數(shù)據(jù)中心的方式,隨時掌控全球各據(jù)點貨物派送的最新進度。
而去年,DHL在捷克共和國新打造完成的布拉格數(shù)據(jù)中心,后來也取得Uptime Institute在設計(Design)和設施(Facility)的Tier 3等級認證。近日負責DHL IT Services數(shù)據(jù)中心維運負責人Ctibor Lesa來臺時也分享了他在擔任DHL數(shù)據(jù)中心長達10年間的維運和管理經(jīng)驗。
Ctibor Lesa目前主要負責統(tǒng)籌管理了DHL在馬來西亞、美國與捷克共和國的數(shù)據(jù)中心規(guī)劃和維運。他曾負責完成DHL數(shù)據(jù)中心的線上升級專案,來通過Tier 3等級設施的驗證,并也為數(shù)據(jù)中心改良機械系統(tǒng),以提高數(shù)據(jù)中心的可靠度與耐用度。
Ctibor Lesa擁有機械工程碩士,在加入DHL以前,曾在機電工程公司負責管理整體機房冷卻系統(tǒng)的設計與維護,而在進入DHL后,為改善數(shù)據(jù)中心可靠度,并減少人為錯誤的發(fā)生,也將線上負載測試與故障模擬導入數(shù)據(jù)中心內(nèi)部。
Ctibor Lesa表示,這些線上負載測試與故障模擬,能提升數(shù)據(jù)中心設施的可靠度(Reliability)與可預測性(Predictability),例如,通過線上測試電力供給設備的運作情況,以及模擬各種可能的電力系統(tǒng)故障狀況,來預先演練故障排除,甚至能進一步做到診斷設備的耗損程度,來提早進場維護。
不過他也強調(diào),在進行這些測試過程中,IT管理人員得投入更多的心力專注在測試上,并也得確保不會對IT維運帶來影響。
除了線上負載測試與故障模擬外,Ctibor Lesa說,提高數(shù)據(jù)中心可靠度的第一步是建立起定期維護(Regular Maintenance)機制,不論是電力設備、伺服器或不斷電系統(tǒng)等都需要定期的保養(yǎng)維護,才能夠確保這些設備能維持正常的運作。
他建議,企業(yè)應花上更多的投資在設備維護上,像是采購相關管理軟件,來建立系統(tǒng)化的設備保養(yǎng)排程,因為「跟數(shù)據(jù)中心設備故障導致龐大金額損失相比,企業(yè)花在設備維護的每一塊錢帶來收益更多達1萬倍!顾f。
此外,Ctibor Lesa指出,這些經(jīng)由線上負載和模擬測試的結果,也能夠通過各種數(shù)據(jù)搜集系統(tǒng),如環(huán)境監(jiān)控系統(tǒng)、監(jiān)控管理系統(tǒng)及數(shù)據(jù)監(jiān)控系統(tǒng)等,來取得龐大機臺設備數(shù)據(jù),并能通過分析數(shù)據(jù),來協(xié)助數(shù)據(jù)中心改善各種問題。例如,數(shù)據(jù)中心意外事件中,3成是由不斷電系統(tǒng)和電池故障所引起的事故,而通過分析這些測試和模擬結果的數(shù)據(jù),有助于改善不斷電系統(tǒng)的設計。
Ctibor Lesa從DHL數(shù)據(jù)中心多年的經(jīng)驗也觀察到,平均每5起數(shù)據(jù)中心設備的故障,幾乎就有1起是來自于人為疏失,最嚴重可能導致數(shù)據(jù)中心維運停擺,他也強調(diào),人為疏失并非無法避免,而是可以用管理減少出錯的機會。以下為進一步專訪他管理DHL三大洲數(shù)據(jù)中心的經(jīng)驗:
Q :是否能談談DHL在全球數(shù)據(jù)中心IT建置的情形?
A :我們最近完成了在美國賓州梅卡尼克斯堡(Mechanicsburg)一座數(shù)據(jù)中心的整修專案,包括了在數(shù)據(jù)中心所有機電設備運轉期間,測試線上關鍵IT負載實際運作情況。
這項專案包含了全面重新設計電力供應基礎設施與結構,包括了采購新的備用柴油發(fā)電機組、ATS(自動切換開關)、UPS不斷電系統(tǒng)模組、配電盤(Distribution Switchboard)、機房空調(diào)(Computer Room Air Conditioning,CRAC)組件,以及監(jiān)控系統(tǒng)。這個專案是分階段來執(zhí)行,才能夠如期按預先規(guī)劃的試運行(Commissioning)時間表來執(zhí)行,以降低新舊基礎設施交替期間的風險,而不會對于IT營運造成重要影響。
Q :DHL為什么要自建數(shù)據(jù)中心?
A :DHL在IT服務上的策略是傾向自己來管理區(qū)域性關鍵數(shù)據(jù)中心設施,只有在需要快速呈現(xiàn)IT服務或是一個小規(guī)模數(shù)據(jù)中心空間時,才會向主機代管業(yè)者租用數(shù)據(jù)中心。采取租用方式可以縮短服務推出時間。我們也嘗試著均衡發(fā)展自建數(shù)據(jù)中心營運的優(yōu)勢。
Q :你在管理DHL數(shù)據(jù)中心時遇到的最大挑戰(zhàn)?
A :IT基礎設施內(nèi)充滿著龐大網(wǎng)絡、儲存、備份、伺服器設備和數(shù)據(jù)中心設備的基礎設施。
而過去的管理挑戰(zhàn)在于IT部門和數(shù)據(jù)中心設施部門協(xié)同合作,來了解數(shù)據(jù)中心設施的所需容量(Capacity Requirement),以符合新專案的需求。而當數(shù)據(jù)中心基礎設施管理(Data Center Infrastructure Management,DCIM)工具出現(xiàn)后,也讓任一個設計部門在數(shù)據(jù)中心設備的管理,有了顯著的改善。
另一個熱門談論的話題依然是數(shù)據(jù)中心基礎設施的可靠度(Reliability),而要持續(xù)提升數(shù)據(jù)中心的可靠度,采用作法首先得有合適的數(shù)據(jù)中心試運行流程、定期的維護機制、線上負載測試和結果分析模擬,才能夠持續(xù)地來改善數(shù)據(jù)中心的可靠度。
現(xiàn)在最大的挑戰(zhàn)則是專業(yè)人才(Staffing)的不足。這些具有IT基礎設施專業(yè)人才的流失,已經(jīng)是數(shù)據(jù)中心管理者不得不面對的挑戰(zhàn),而是否具備有市場所需的IT基礎設施專業(yè)技能,也主導了優(yōu)秀人才的市場競爭力。
除了專業(yè)技能外,員工向心力、職涯發(fā)展和動機也十分重要。而能不能取得數(shù)據(jù)中心基礎設施各細節(jié)的主導權,也影響數(shù)據(jù)中心能不能持續(xù)保有一群訓練有素專家的關鍵。
Q :如何減少數(shù)據(jù)中心的人為出錯?
A :我深信,可以通過管理方式,來大幅降低因人為疏失造成數(shù)據(jù)中心非計劃停擺的比例。借由定期在真實設備故障模擬下所做的一種可控制的線上負載測試,可以建立起數(shù)據(jù)中心維運團隊的信心,在事故判斷上有更多把握。
維運團隊越有信心,在面對意外發(fā)生時也就越能提高數(shù)據(jù)中心的可靠度。意外事故在所難免,但是比起加強設備汰換,更重要的是能正確反映出事故本身,以及提供顧客透明的溝通管理。
Q :近2年數(shù)據(jù)中心管理方式和過去有何不同?
A 這2年許多數(shù)據(jù)中心設施配備有更多監(jiān)測設備,而在市場上推出的新產(chǎn)品都必須具備遠端管理的能力,再者,這些監(jiān)測設備操作也越來越友善和直覺。但要將這些監(jiān)控應用產(chǎn)生的數(shù)據(jù)拿來評估,仍需要更多努力。
但不采取行動的數(shù)據(jù)將毫無意義(The Data Without Action Are Useless)。
我曾看過數(shù)據(jù)中心配備了強大DCIM工具,但是將取得數(shù)據(jù)拿來使用的情況卻非常少;而有時候,這些監(jiān)測設備提供數(shù)據(jù)過多,已超過數(shù)據(jù)中心維運人員可以有效管理和執(zhí)行的范圍。
Q :DHL怎么分析這類數(shù)據(jù)中心的監(jiān)測數(shù)據(jù)?
A :測試結果分析(Test Result Analysis)非常重要,并且也是決定數(shù)據(jù)中心基礎設施能不能更耐用、可靠,以及可預測的關鍵。但是,卻只有很少數(shù)據(jù)中心設施有采用。
DHL在IT服務上的策略上,會依數(shù)據(jù)中心設施的不同而采用不一樣監(jiān)控應用,這些搜集而來的數(shù)據(jù)基本來源,有來自環(huán)境監(jiān)控系統(tǒng)(Building Management Systems,BMS)或其他能感測更多數(shù)據(jù)的系統(tǒng),如DCIM系統(tǒng)。
這個測試結果分析是將可預期的自動化操作(做為單一設備分配路徑故障模擬(Distribution Path Failure Simulation)的一種反應)與在數(shù)據(jù)中心基礎設施的時間記錄(Records of Time)、機電設備規(guī)模(Magnitude)大小及序列(Sequence)數(shù)據(jù)的實際反應進行比較,而得出可用的分析結果。