—.探針式BOSS業(yè)務監(jiān)控系統(tǒng)實戰(zhàn)分析
運營商當前的業(yè)務運營支撐系統(tǒng)(BOSS)存在先天不足,既沒有能力感知BOSS系統(tǒng)的運營狀態(tài),也沒有能力預知故障的發(fā)生。3G時代,BOSS系統(tǒng)如何才能告別“無知”,先于用戶發(fā)現(xiàn)問題,變被動為主動,提高運營商業(yè)務質(zhì)量?
3G的正式運營,帶來了國內(nèi)三大運營商(中國移動、中國聯(lián)通、中國電信)之間白熱化的競爭。用戶的持有量是各運營商實力的一個重要衡量指標,而網(wǎng)絡質(zhì)量和業(yè)務能力則決定著運營商能否持有較多用戶。對網(wǎng)絡質(zhì)量和業(yè)務能力的保障涉及到運營商內(nèi)部多個部門以及工作環(huán)節(jié),其中業(yè)務支撐是十分重要的一環(huán):業(yè)務運營支撐系統(tǒng)(BOSS)故障會導致營業(yè)廳關門、客戶投訴升級等重大問題的發(fā)生,嚴重影響公司業(yè)務的正常運營。BOSS系統(tǒng)如何實現(xiàn)對業(yè)務能力的保障?如何使運營商業(yè)務支撐運營工作全面提升?
BOSS系統(tǒng)的先天不足
當前運營商的BOSS系統(tǒng)普遍存在著先天不足:既沒有能力感知BOSS系統(tǒng)的運營狀態(tài),也沒有能力預知故障的發(fā)生。很多地方運營商的BOSS系統(tǒng)不同于傳統(tǒng)的電信設備系統(tǒng),并不具備電信級的能力標準,而是附加了很多具有中國特色、甚至各省特色的IT系統(tǒng),在可靠性與可維護性上都與電信級產(chǎn)品相差甚遠。這種先天不足主要體現(xiàn)在“可監(jiān)控性差”上。各個運營商都經(jīng)歷過或正在經(jīng)歷著被動的BOSS維護模式三部曲:“客戶投訴—發(fā)現(xiàn)故障—故障修復”。
如何讓BOSS運維人員能夠快速發(fā)現(xiàn)、有效解決業(yè)務問題,全面了解業(yè)務運營系統(tǒng)的各種運營信息以及用戶的感知呢?
幾大運營商都在千方百計尋求自身BOSS業(yè)務支撐運營能力的提升。以中國移動為例,中國移動集團公司曾經(jīng)下發(fā)過相關業(yè)務技術規(guī)范,多家省移動公司都做過相關的嘗試。其中,上海移動曾在BOSS系統(tǒng)改進和提升方面取得了一定的突破,其具體方式是:直接在BOSS系統(tǒng)中增加維護代碼模式。這種做法的優(yōu)點是時效性強,缺點是維護代碼與BOSS系統(tǒng)捆綁過于密切,難以實現(xiàn)大范圍普及。
BOSS也能實現(xiàn)監(jiān)控
中國移動浙江公司在借鑒了上海移動BOSS改進模式的經(jīng)驗之后,經(jīng)過為期二年的探索及驗證,構建了探針式BOSS業(yè)務監(jiān)控系統(tǒng)。探針式BOSS業(yè)務監(jiān)控系統(tǒng)提出了“以BOSS業(yè)務監(jiān)控為核心”的理念,采用“探針式提取、指標引導、建模驅(qū)動”的方式,打造一站式BOSS業(yè)務監(jiān)控系統(tǒng),既實現(xiàn)了對現(xiàn)有實際業(yè)務系統(tǒng)的有效監(jiān)控,也滿足了BOSS運營管理的需要。
探針式BOSS業(yè)務監(jiān)控系統(tǒng)由五層組成:數(shù)據(jù)采集層、業(yè)務建模層、數(shù)據(jù)聚集層、告警管控層、分析展示層。這五個不同的層次在運營商業(yè)務能力的提升和運營管理水平的提高上都起到了什么作用呢?
數(shù)據(jù)采集層: 是整個監(jiān)控系統(tǒng)的基礎,用來提供核心的業(yè)務健康度建模和可用性建模所需要的平臺、應用、業(yè)務等數(shù)據(jù)。
系統(tǒng)數(shù)據(jù)采集共采用了三類探針:A式探針直接模擬BOSS前臺業(yè)務操作,采集BOSS門戶各種業(yè)務應用的可用狀態(tài); B式探針負責采集A式探針發(fā)起的前臺業(yè)務所觸發(fā)的BOSS后臺數(shù)據(jù)操作日志統(tǒng)計值,以及BOSS后臺系統(tǒng)運營狀態(tài),并將其發(fā)送業(yè)務監(jiān)控系統(tǒng); C式探針從BOSS接入交換機中全量采集BOSS交易記錄,即第一時間采集到實際BOSS運營的狀態(tài)。
綜上所述,這三類探針能夠獲取到從業(yè)務發(fā)起、業(yè)務處理、業(yè)務交易到業(yè)務完成全過程的用戶能夠感知到的所有業(yè)務數(shù)據(jù),為從用戶感知角度進行業(yè)務監(jiān)控提供了堅實的基礎。
業(yè)務建模層: 是整個監(jiān)控系統(tǒng)的核心,是將業(yè)務進行有形化管理、量化衡量的高效手段。該業(yè)務建模層中涵蓋了幾乎所有的BOSS管理資源要素,包括業(yè)務、應用、服務及其他平臺類資源,這些信息都建立并實時更新于企業(yè)集中建設的符合ITIL標準的CMDB(配置資源數(shù)據(jù)庫,其中每一子項便是一個CI配置資源項)中;贑MDB中動態(tài)調(diào)整的實時CI項和相互關系,關聯(lián)上能夠反映業(yè)務當前狀況的KPI指標,以結構化的模型框架為指導,建立完整的業(yè)務CI/KPI指標體系,繪制出以業(yè)務為中心的BOSS系統(tǒng)視圖,全面展現(xiàn)其健康度和可用性。
CI/KPI指標體系的建立是以業(yè)務為主線,按照“CI業(yè)務-應用-平臺”的分層結構,針對每一層設定支撐域、運營域和服務域的指標分類標準,并在這些指標的基礎上通過關系推導和加權計算創(chuàng)建業(yè)務健康度和可用性量化模型,將業(yè)務的層層嵌套、互相關聯(lián)與后臺軟硬件平臺之間的關系都量化出來,并綜合為直觀有效的業(yè)務運營狀況指標; 作為監(jiān)控系統(tǒng)的核心,業(yè)務建模層為告警管控層的預警和故障定位提供了衡量基礎和分析邏輯,如果健康指標超出經(jīng)驗化閾值,業(yè)務預警可幫助維護人員將業(yè)務隱患消除于萌芽之中。
CI/KPI模型的建立,成功地將傳統(tǒng)監(jiān)控系統(tǒng)的監(jiān)控難點轉(zhuǎn)變?yōu)榱咙c,通過對模型中父子業(yè)務間關系、業(yè)務與后臺資源間關系的結構化梳理,多維度數(shù)據(jù)的采集計算,有效量化了業(yè)務健康度指標。同時,模型中所綜合的業(yè)務可用性、業(yè)務辦理量、后臺資源使用情況等全方位信息,尤為適合公司管理人員了解業(yè)務通體運營情況。
數(shù)據(jù)聚集層: 在這一層,系統(tǒng)將經(jīng)過CI/KPI模型、按不同業(yè)務規(guī)則結構化之后的三類用戶體驗數(shù)據(jù)進行匯聚:業(yè)務監(jiān)控數(shù)據(jù)(業(yè)務可用性、業(yè)務量、業(yè)務辦理時長、業(yè)務的后臺服務器負載情況等)、配置數(shù)據(jù)(從CMDB中定時同步配置項信息和配置關聯(lián)信息),業(yè)務感性數(shù)據(jù)(業(yè)務量、積壓量和投訴等信息),使得運維人員不僅能夠從IT支撐視角掌握業(yè)務運行狀況,還能直觀了解到在當前業(yè)務運行情況之下客戶層面的使用感知。

圖:探針式BOSS業(yè)務監(jiān)控系統(tǒng)架構圖

圖: 采集層探針
告警管控層: 本層提供基于預警模型的預警管理和追根溯源的告警定位處理。

圖:業(yè)務三維立體分析展示
共 2 頁:1 2
計算機世界報