隨著信息技術的發(fā)展,電信運營商越來越依賴于計算機系統(tǒng)來進行它的商業(yè)行為,保證其在業(yè)界的競爭力。業(yè)務支撐系統(tǒng)的高可靠性和高可用性越來越成為運營商關注的重點。
對電信運營商來說,如果發(fā)生數(shù)據(jù)丟失,輕則影響業(yè)務的開展以及客戶滿意度,嚴重的將會使整個企業(yè)的生產過程癱瘓。有研究顯示,企業(yè)在遭受災難之后,如果無法在14天內恢復數(shù)據(jù),有75%的公司業(yè)務會完全停頓,43%的公司再也無法重新開業(yè),有20%的企業(yè)在兩年之內被迫宣告破產。造成這些損失的原因不僅僅是火災、水災、地震等自然災害,還有諸如戰(zhàn)爭、蓄意破壞、嚴重誤操作等人為因素。因此,在限定時間內成功的災難恢復應作為電信運營商企業(yè)戰(zhàn)略中的一個關鍵組成部分。
BOSS系統(tǒng)是移動運營商的業(yè)務支撐系統(tǒng),其中各個子系統(tǒng)的重要性有所差別,因此,在考慮BOSS系統(tǒng)容災時,就要針對不同子系統(tǒng)采用不同的容災策略。首先,營帳系統(tǒng)直接面向最終用戶,是業(yè)務受理和用戶感受移動服務的直接窗口,其重要性不言而喻。所以,最先考慮的應是營帳系統(tǒng)的容災,保證在遭受災難之后,營業(yè)活動能在最短時間內恢復;其次,計費系統(tǒng)涉及到用戶的實際費用的收取,是用戶帳單產生的主要來源之一,尤其是現(xiàn)在很多移動運營商基于計費系統(tǒng)開展了很多省內預付費業(yè)務,如果計費系統(tǒng)處理不及時,將會造成大量話費損失,因此計費系統(tǒng)的容災也是勢在必行;再者,聯(lián)機指令直接關系到用戶業(yè)務受理的最終實現(xiàn),也必須考慮納入容災系統(tǒng)的建設范圍。其他諸如統(tǒng)計查詢等非關鍵業(yè)務則可根據(jù)運營商各自的情況來具體考慮。
容災可分為數(shù)據(jù)容災和應用容災。數(shù)據(jù)容災可保證數(shù)據(jù)不丟失,但不能保證服務不中斷;應用容災則更上一層樓,它在異地建立一套與本地數(shù)據(jù)系統(tǒng)相當?shù)娜哂嘞到y(tǒng),當災難出現(xiàn)后,遠程系統(tǒng)可迅速承接本地應用系統(tǒng)的業(yè)務,保證服務基本不中斷。根據(jù)對系統(tǒng)實時性、中斷敏感性、數(shù)據(jù)更新頻度、數(shù)據(jù)量大小、相關條件等不同要求,容災備份可采用各種技術或多種技術的組合。以下就對各種常用的容災備份技術作一簡單介紹。
利用磁帶拷貝進行數(shù)據(jù)備份和恢復是常見的傳統(tǒng)災難備份方式。使用這種方式的數(shù)據(jù)拷貝通常是存儲在盤式磁帶或盒式磁帶上,并存放在遠離生產系統(tǒng)的某個安全地點。磁帶通常是在夜間存儲數(shù)據(jù),然后被送到儲藏之處。而在災難或各種故障出現(xiàn)系統(tǒng)需要立即恢復,將磁帶提取出來,并運送到恢復地點,數(shù)據(jù)恢復到磁盤上,然后再恢復應用程序。這種方式的實現(xiàn)過程復雜,恢復效率低,已越來越不適合用戶不斷發(fā)展的業(yè)務系統(tǒng)的需要。
對數(shù)據(jù)庫系統(tǒng)可采用遠程數(shù)據(jù)庫復制技術來實現(xiàn)容災。這種技術是由數(shù)據(jù)庫系統(tǒng)軟件來實現(xiàn)數(shù)據(jù)庫的遠程復制和同步。基于數(shù)據(jù)庫的復制方式可分為實時復制、定時復制和存儲轉發(fā)復制,并且在復制過程中,還有自動沖突檢測和解決的手段,以保證數(shù)據(jù)一致性不受破壞。其實質是實現(xiàn)主、備用系統(tǒng)的數(shù)據(jù)庫的數(shù)據(jù)同步(實時或者準實時同步),即是將主用系統(tǒng)數(shù)據(jù)庫操作Log實時或者周期性地復制到備用系統(tǒng)數(shù)據(jù)庫中執(zhí)行,實現(xiàn)二者數(shù)據(jù)的一致性。遠程數(shù)據(jù)庫復制對主機的性能有一定影響,可能增加對磁盤存儲容量的需求(包括對Log的存儲),但系統(tǒng)運行恢復較簡單,在實時復制方式時數(shù)據(jù)一致性較好,所以對于一些對數(shù)據(jù)一致性要求較高、數(shù)據(jù)修改更新較頻繁的應用可采用基于數(shù)據(jù)庫的容災備份方案。利用這種技術實現(xiàn)容災的解決方案有Oracle的Data Guard和Quest的SharePlex。
目前業(yè)內實施比較多的容災是基于智能存儲系統(tǒng)的遠程數(shù)據(jù)復制技術。它是由智能存儲系統(tǒng)自身實現(xiàn)數(shù)據(jù)的遠程復制和同步,即智能存儲系統(tǒng)將對本系統(tǒng)中的存儲器I/O操作請求復制到遠端的存儲系統(tǒng)中并執(zhí)行,保證數(shù)據(jù)的一致性。由于這種方式下數(shù)據(jù)復制軟件運行在存貯系統(tǒng)內,因此,較容易實現(xiàn)主中心和容災備份中心的操作系統(tǒng)、數(shù)據(jù)庫、系統(tǒng)庫和目錄的實時拷貝維護能力,且不會影響主中心主機系統(tǒng)的性能。如果在系統(tǒng)恢復場所具備了實時數(shù)據(jù),那么就可能做到在災難發(fā)生的同時及時開始應用處理過程的恢復。但這種方案也有開放性差(不同廠家的存儲設備系統(tǒng)一般不能配合使用)、對于主備中心之間的網絡條件(穩(wěn)定性、帶寬、鏈路空間距離)要求較苛刻等缺點。HP的CA、IBM的PPRC、EMC的SRDF以及HDS的TrueCopy技術都用于實現(xiàn)基于智能存儲系統(tǒng)的遠程數(shù)據(jù)復制。
最后要說的是基于邏輯磁盤卷的遠程數(shù)據(jù)復制技術。我們通常將物理存儲設備劃分為一個或者多個邏輯磁盤卷(Volume),便于數(shù)據(jù)的存儲規(guī)劃和管理。邏輯磁盤卷可理解為在物理存儲設備和操作系統(tǒng)之間增加一個邏輯存儲管理層。基于邏輯磁盤卷的遠程數(shù)據(jù)復制是指根據(jù)需要將一個或多個卷進行遠程同步(或者異步)復制。該方案通常通過軟件來實現(xiàn),基本配置包括卷管理軟件和遠程復制控制管理軟件。遠程復制控制管理軟件將主用節(jié)點系統(tǒng)的卷上每次I/O的操作數(shù)據(jù)實時(或準實時或延時)復制到遠程節(jié)點的相應卷上,從而實現(xiàn)遠程兩個卷之間的數(shù)據(jù)同步(或準同步)。主、備節(jié)點之間通常需要配置相應帶寬的IP通道。基于邏輯磁盤卷的遠程數(shù)據(jù)復制會增加各節(jié)點主機的一些處理性能需求,在此前提下且通信帶寬保證時,遠程復制效率和數(shù)據(jù)一致性可得到保證。基于邏輯磁盤卷的遠程數(shù)據(jù)復制因為是基于邏輯存儲管理技術,一般可與主機系統(tǒng)、物理存儲系統(tǒng)設備無關,對物理存儲系統(tǒng)自身的管理功能要求不高,有較好的可管理性,也便于主、備系統(tǒng)的擴充和發(fā)展。同時,也可方便做到多個節(jié)點對一個節(jié)點或一對多的遠程數(shù)據(jù)復制。利用這種方式的典型解決方案是Veritas的VxVM+VVR。
容災的方式和技術這么多,那么對于移動運營商來說應如何實現(xiàn)BOSS系統(tǒng)的容災呢?這個問題要從多種角度去看。從硬件平臺的角度來看,如果生產中心和容災中心選用同一廠商甚至同一型號的設備,那么采用基于智能存儲系統(tǒng)的遠程數(shù)據(jù)復制技術就可優(yōu)先考慮;相反,如果是異構平臺,無法在磁盤陣列的層面實現(xiàn)數(shù)據(jù)復制,那就需要考慮從數(shù)據(jù)庫或磁盤卷的層面上去實施容災了。另外,從BOSS系統(tǒng)本身來看,不同的子系統(tǒng)可采用不同的容災方式。比如可利用應用的解決方式,將批價后等待入庫的文件傳遞多份,實現(xiàn)計費系統(tǒng)的容災;而對于營帳系統(tǒng)的容災,可利用智能存儲的底層復制技術來實現(xiàn)。
對于容災,還有一個重要的問題需要明確,那就是容災不僅僅是技術,而是一個工程。目前很多客戶對容災的關注還停留在技術上,而對容災的流程、規(guī)范以及實施的具體過程還不太清楚。另外實現(xiàn)災難恢復方案將會是一個漫長的過程, 不管采用何種技術,必須確保解決方案的可行性,要經過不斷地測試、演習來完善容災的流程。
中國計費網(www.billingchina.com)