在數(shù)據(jù)中心供應商和設施類型方面作出正確選擇,才不會在今后因為服務能力不足和各種錯誤付出高昂的學費。
無論你是希望將你的數(shù)據(jù)中心外包,遷移到新的設施,還是計劃進行升級,你都應該在計劃付諸行動之前用心進行反復的審查。
這里提供了一份獨立于供應商的數(shù)據(jù)中心審查清單,讓你可以在簽約之前對候選的主機或托管供應商進行公證的評估——如果你的業(yè)務依賴于這些供應商的服務器、存儲、網(wǎng)絡等設施,你就更應該看看這份清單。這份清單也可以作為標準模板,用于評估你現(xiàn)在的運維狀況,以及用作內部數(shù)據(jù)中心的新設計參考。
在你對設施的功能進行對比時,請記住,你評估的只是某個時間點的歷史。隨著需求和業(yè)務方向的改變,必須定期重新評估這些設施才能找到能跟上業(yè)務發(fā)展的配套設施解決方案。
你可以從這份數(shù)據(jù)中心審查清單作為基礎,然后添加符合您自身行業(yè)或業(yè)務需求的條款。
審查計算設施
許多組織會與提供計算設施的數(shù)據(jù)中心供應商一起完成這些審查工作。其他應該參與審查的人包括在自主或租用數(shù)據(jù)中心負責設施選型、安裝和維護的人員。
審查計算設施與現(xiàn)有應用程序的兼容性
調查當前全套服務器、存儲陣列、網(wǎng)絡交換機和其他IT設備。匯總可用的計算資源,并驗證相互之間的兼容性,并有足夠的能力支持您現(xiàn)有的應用程序。
具有專門硬件要求的舊版或定制應用程序在托管服務器上可能會出現(xiàn)問題。每一種操作系統(tǒng)和虛擬機監(jiān)控程序都可能出現(xiàn)兼容問題。請確認外包提供商是否會提供替代設備,或對您的IT組織已擁有的設備提供支持。
審查快速設備更換計劃和詳細流程
當前的數(shù)據(jù)中心計算基礎設施有多陳舊了?最近一次設備更換是什么時候發(fā)生的?什么時候才應該進行更換?打算引進哪些新設備?這些見解將引導制定服務器整合和工作負載平衡計劃。
由于你的業(yè)務系統(tǒng)在數(shù)據(jù)中心服務商的設備上運行,服務方應該向你透明公開其技術刷新計劃。
優(yōu)化設備更換流程
設備更換過程具備破壞性。所以,供應商必須多和用戶溝通更新和升級計劃,與用戶一起合作,減輕因設備變化造成的工作影響。
在設備升級過程中,工作負載是否會維持運行?對于升級中無法避免的中斷,是否有足夠的溝通?你是否有這類中斷的應對計劃,例如提前備份或將工作負載臨時遷移?
有經(jīng)驗的本地職員和專家支持
多少IT專業(yè)人員能做到24X7隨時待命(只要能遵循遠程專家團隊的指引完成操作,哪怕是最普通的工人也行)?如果數(shù)據(jù)中心人手不足或技術人員都不在現(xiàn)場而要臨時調遣,中斷事故會傷害關鍵應用。
有沒有計劃服務響應時間?升級路線是否在服務級別協(xié)議(SLA)中有清楚的約定?使用常用的電話呼叫來驗證支持團隊的響應時間和服務質量。
管理和性能工具
如何衡量和監(jiān)測系統(tǒng)的性能?如果你在應對外包供應商,你是否有機會獲知全部或者部分以上信息?
托管公司通常不會透露整體環(huán)境數(shù)據(jù),但如果你租用了他們的設備,請考慮通過一個web門戶或應用程序性能監(jiān)控管理(APM)工具來獲取這些信息。你可能需要建立你自己的APM體系來確保SLA遵從性。
高網(wǎng)絡帶寬
網(wǎng)絡帶寬信息應該在SLA中驗證和通告。對于數(shù)據(jù)中心服務商來說,10Gbps網(wǎng)絡帶寬很常見。在對系統(tǒng)實時性能的監(jiān)測中包括網(wǎng)絡帶寬指標。
你是否可以占用更多突發(fā)帶寬,對應的費用會有多少?另一方面,你是否能通過限制帶寬來控制成本,或者實現(xiàn)多站點的負載均衡,以免單個站點過載?
安全性和訪問控制
物理篡改和盜竊行為會造成數(shù)據(jù)丟失,暴露公司機密。安全性降低的原因可能是數(shù)據(jù)中心運營方、IT部門,或者兩者。
物理安全
計算設施是否在數(shù)據(jù)中心安全穩(wěn)固?可選的措施包括數(shù)據(jù)中心的單向入口,私有設備區(qū)域帶鎖的機柜——每個機柜都使用獨立的物理或電子鑰匙,對可以訪問私有數(shù)據(jù)的區(qū)域上鎖,例如電纜通道和配線架區(qū)域。
訪問文檔
你能追蹤雇員、承包商、供應商和訪客的行為嗎?請注意這些方法:簽到表、全面的攝像監(jiān)控記錄、電子工牌或生物識別措施。
如果有任何人接觸到你的設備,線纜通道、配線架,或者任何與你工作負載和數(shù)據(jù)相關的區(qū)域,是否有永久記錄措施?尤其要重視多租戶設施,因為一臺服務器上的一名技術員的操作可能會影響多個客戶端。
內部安保人員
一些數(shù)據(jù)中心提供商的監(jiān)控措施不僅限于攝像監(jiān)控,還包括全職安保員工——甚至雇用武裝警衛(wèi)來執(zhí)行對訪客和供應商跟蹤,便于數(shù)據(jù)中心實現(xiàn)24/7接待用戶訪問,并將安防信息與執(zhí)法機構或其它安保線路接口。
保護設備和數(shù)據(jù)
存儲組件下線或變更用途很容易導致數(shù)據(jù)泄露。對于舊的、過時的或壞掉的磁盤,是否有妥善的保管或銷毀措施?當磁盤從本地服務器或存儲陣列中移除時是否有跟蹤登記和安全地保管?誰負責銷毀磁盤,如果外包合作伙伴負責處理,他們是否能提供書面的證明文件?
設施規(guī)劃
數(shù)據(jù)中心提供的是長期和可靠的服務,合格的建筑設施甚至可以讓你在將來都不用為設施管理而操心。
安全的位置
選擇一個數(shù)據(jù)中心的過程就是選擇地址。該建筑應遠離常見的環(huán)境災害區(qū)域,例如泛洪平原和地震帶。還應該避免靠近人為的危險區(qū)域,比如工業(yè)中心——煉油廠或化工廠,機場的主要航道線上,高速公路主要立交橋或鐵道。
便捷的運輸安裝
評估能加快裝備部署和更換的任何措施。例如,室內的裝運/接收碼頭可以讓工人在搬運和放下IT設施時不會讓這些設備遭受雨雪侵害。
如果數(shù)據(jù)中心是多層建筑,則電梯應該靠近卸貨點。數(shù)據(jù)中心的貨物安全通道應該足夠寬大,容納超大的設備,如包含機架冷卻單元的全高機柜。設置訪問中轉點或老化測試區(qū)域也會非常有用,設備在轉移到生產(chǎn)環(huán)境之前可以在這里完成預裝和測試。
辦公設施
如果你支持工作人員現(xiàn)場辦公,請確保該設施有一些專門的辦公室、食堂或其它遠離服務器設備高溫和風扇噪聲的人性化空間來用于工作。浴室或附近的酒店有利于員工在遠程數(shù)據(jù)中心設施內安心加班。
環(huán)境控制和安全功能
調查該建筑物是否具備先進的煙感探測措施,以及基于干粉滅火器的滅火措施。該設施應使用現(xiàn)代化的電氣接地標準,如聚苯胺接地,以確保安全。
因為許多設施用水作為冷媒(例如冷水機組或換熱器),綜合泄漏檢測是至關重要的。
足夠的電力和可恢復性
隨著能源日益昂貴和稀缺,并非每個區(qū)域都會有充足的電力供應。將數(shù)據(jù)中心位置選在能源相對廉價和豐富的地方,因為能源短缺的地區(qū)也會有更高的電力成本。
尋找第二家供電網(wǎng)提供商,通過獨立的變電站為設施供電,使用發(fā)動機提供后備電源功能,或者讓數(shù)據(jù)中心鄰近類似風電場的替代電源中心。如果使用工業(yè)級的不間斷燃料電池發(fā)電機,例如Bloom Energy電池陣列,就需要讓數(shù)據(jù)中心靠近天然氣或其它沼氣源。
可靠的冷卻
數(shù)據(jù)中心通常使用各種常規(guī)機械空調和冷凍水熱交換器實現(xiàn)制冷,但冷卻系統(tǒng)的短暫停機就會造成運營上的重大損失。請驗證冷卻單元有冗余備份機組,并且備份機組使用的是冗余電源。
冷卻能力還應能夠適應未來的增長。濕度控制系統(tǒng)必須兼顧人員舒適和電子設備的安全,維持恰當?shù)臐穸人健?/p>
標準法規(guī)遵從性
驗證你遵從你所在行業(yè)的數(shù)據(jù)中心強制標準,并且有相關的文檔和認證。涉及到數(shù)據(jù)中心的標準包括 SAS 70 II和 PCI DSS。
網(wǎng)絡連通性和運營商
找出哪些運營商已連接到數(shù)據(jù)中心,例如考克斯,AT&T,Verizon和其他地域性公司。一個中立的托管或托管服務提供商應支持多個地區(qū)的運營商和線路以實現(xiàn)冗余,每條線路都使用獨立的連接,通過不同的光纜接入數(shù)據(jù)中心機房。