首頁>>>技術(shù)>>>計費  計費產(chǎn)品

探針式BOSS業(yè)務(wù)監(jiān)控系統(tǒng)實戰(zhàn)分析

唐濤 李靜 朱曄 2010/03/03

—.探針式BOSS業(yè)務(wù)監(jiān)控系統(tǒng)實戰(zhàn)分析

  運營商當前的業(yè)務(wù)運營支撐系統(tǒng)(BOSS)存在先天不足,既沒有能力感知BOSS系統(tǒng)的運營狀態(tài),也沒有能力預(yù)知故障的發(fā)生。3G時代,BOSS系統(tǒng)如何才能告別“無知”,先于用戶發(fā)現(xiàn)問題,變被動為主動,提高運營商業(yè)務(wù)質(zhì)量?

  3G的正式運營,帶來了國內(nèi)三大運營商(中國移動、中國聯(lián)通、中國電信)之間白熱化的競爭。用戶的持有量是各運營商實力的一個重要衡量指標,而網(wǎng)絡(luò)質(zhì)量和業(yè)務(wù)能力則決定著運營商能否持有較多用戶。對網(wǎng)絡(luò)質(zhì)量和業(yè)務(wù)能力的保障涉及到運營商內(nèi)部多個部門以及工作環(huán)節(jié),其中業(yè)務(wù)支撐是十分重要的一環(huán):業(yè)務(wù)運營支撐系統(tǒng)(BOSS)故障會導致營業(yè)廳關(guān)門、客戶投訴升級等重大問題的發(fā)生,嚴重影響公司業(yè)務(wù)的正常運營。BOSS系統(tǒng)如何實現(xiàn)對業(yè)務(wù)能力的保障?如何使運營商業(yè)務(wù)支撐運營工作全面提升?

  BOSS系統(tǒng)的先天不足

  當前運營商的BOSS系統(tǒng)普遍存在著先天不足:既沒有能力感知BOSS系統(tǒng)的運營狀態(tài),也沒有能力預(yù)知故障的發(fā)生。很多地方運營商的BOSS系統(tǒng)不同于傳統(tǒng)的電信設(shè)備系統(tǒng),并不具備電信級的能力標準,而是附加了很多具有中國特色、甚至各省特色的IT系統(tǒng),在可靠性與可維護性上都與電信級產(chǎn)品相差甚遠。這種先天不足主要體現(xiàn)在“可監(jiān)控性差”上。各個運營商都經(jīng)歷過或正在經(jīng)歷著被動的BOSS維護模式三部曲:“客戶投訴—發(fā)現(xiàn)故障—故障修復”。

  如何讓BOSS運維人員能夠快速發(fā)現(xiàn)、有效解決業(yè)務(wù)問題,全面了解業(yè)務(wù)運營系統(tǒng)的各種運營信息以及用戶的感知呢?

  幾大運營商都在千方百計尋求自身BOSS業(yè)務(wù)支撐運營能力的提升。以中國移動為例,中國移動集團公司曾經(jīng)下發(fā)過相關(guān)業(yè)務(wù)技術(shù)規(guī)范,多家省移動公司都做過相關(guān)的嘗試。其中,上海移動曾在BOSS系統(tǒng)改進和提升方面取得了一定的突破,其具體方式是:直接在BOSS系統(tǒng)中增加維護代碼模式。這種做法的優(yōu)點是時效性強,缺點是維護代碼與BOSS系統(tǒng)捆綁過于密切,難以實現(xiàn)大范圍普及。

  BOSS也能實現(xiàn)監(jiān)控

  中國移動浙江公司在借鑒了上海移動BOSS改進模式的經(jīng)驗之后,經(jīng)過為期二年的探索及驗證,構(gòu)建了探針式BOSS業(yè)務(wù)監(jiān)控系統(tǒng)。探針式BOSS業(yè)務(wù)監(jiān)控系統(tǒng)提出了“以BOSS業(yè)務(wù)監(jiān)控為核心”的理念,采用“探針式提取、指標引導、建模驅(qū)動”的方式,打造一站式BOSS業(yè)務(wù)監(jiān)控系統(tǒng),既實現(xiàn)了對現(xiàn)有實際業(yè)務(wù)系統(tǒng)的有效監(jiān)控,也滿足了BOSS運營管理的需要。

  探針式BOSS業(yè)務(wù)監(jiān)控系統(tǒng)由五層組成:數(shù)據(jù)采集層、業(yè)務(wù)建模層、數(shù)據(jù)聚集層、告警管控層、分析展示層。這五個不同的層次在運營商業(yè)務(wù)能力的提升和運營管理水平的提高上都起到了什么作用呢?

  數(shù)據(jù)采集層: 是整個監(jiān)控系統(tǒng)的基礎(chǔ),用來提供核心的業(yè)務(wù)健康度建模和可用性建模所需要的平臺、應(yīng)用、業(yè)務(wù)等數(shù)據(jù)。

  系統(tǒng)數(shù)據(jù)采集共采用了三類探針:A式探針直接模擬BOSS前臺業(yè)務(wù)操作,采集BOSS門戶各種業(yè)務(wù)應(yīng)用的可用狀態(tài); B式探針負責采集A式探針發(fā)起的前臺業(yè)務(wù)所觸發(fā)的BOSS后臺數(shù)據(jù)操作日志統(tǒng)計值,以及BOSS后臺系統(tǒng)運營狀態(tài),并將其發(fā)送業(yè)務(wù)監(jiān)控系統(tǒng); C式探針從BOSS接入交換機中全量采集BOSS交易記錄,即第一時間采集到實際BOSS運營的狀態(tài)。

  綜上所述,這三類探針能夠獲取到從業(yè)務(wù)發(fā)起、業(yè)務(wù)處理、業(yè)務(wù)交易到業(yè)務(wù)完成全過程的用戶能夠感知到的所有業(yè)務(wù)數(shù)據(jù),為從用戶感知角度進行業(yè)務(wù)監(jiān)控提供了堅實的基礎(chǔ)。

  業(yè)務(wù)建模層: 是整個監(jiān)控系統(tǒng)的核心,是將業(yè)務(wù)進行有形化管理、量化衡量的高效手段。該業(yè)務(wù)建模層中涵蓋了幾乎所有的BOSS管理資源要素,包括業(yè)務(wù)、應(yīng)用、服務(wù)及其他平臺類資源,這些信息都建立并實時更新于企業(yè)集中建設(shè)的符合ITIL標準的CMDB(配置資源數(shù)據(jù)庫,其中每一子項便是一個CI配置資源項)中;贑MDB中動態(tài)調(diào)整的實時CI項和相互關(guān)系,關(guān)聯(lián)上能夠反映業(yè)務(wù)當前狀況的KPI指標,以結(jié)構(gòu)化的模型框架為指導,建立完整的業(yè)務(wù)CI/KPI指標體系,繪制出以業(yè)務(wù)為中心的BOSS系統(tǒng)視圖,全面展現(xiàn)其健康度和可用性。

  CI/KPI指標體系的建立是以業(yè)務(wù)為主線,按照“CI業(yè)務(wù)-應(yīng)用-平臺”的分層結(jié)構(gòu),針對每一層設(shè)定支撐域、運營域和服務(wù)域的指標分類標準,并在這些指標的基礎(chǔ)上通過關(guān)系推導和加權(quán)計算創(chuàng)建業(yè)務(wù)健康度和可用性量化模型,將業(yè)務(wù)的層層嵌套、互相關(guān)聯(lián)與后臺軟硬件平臺之間的關(guān)系都量化出來,并綜合為直觀有效的業(yè)務(wù)運營狀況指標; 作為監(jiān)控系統(tǒng)的核心,業(yè)務(wù)建模層為告警管控層的預(yù)警和故障定位提供了衡量基礎(chǔ)和分析邏輯,如果健康指標超出經(jīng)驗化閾值,業(yè)務(wù)預(yù)警可幫助維護人員將業(yè)務(wù)隱患消除于萌芽之中。

  CI/KPI模型的建立,成功地將傳統(tǒng)監(jiān)控系統(tǒng)的監(jiān)控難點轉(zhuǎn)變?yōu)榱咙c,通過對模型中父子業(yè)務(wù)間關(guān)系、業(yè)務(wù)與后臺資源間關(guān)系的結(jié)構(gòu)化梳理,多維度數(shù)據(jù)的采集計算,有效量化了業(yè)務(wù)健康度指標。同時,模型中所綜合的業(yè)務(wù)可用性、業(yè)務(wù)辦理量、后臺資源使用情況等全方位信息,尤為適合公司管理人員了解業(yè)務(wù)通體運營情況。

  數(shù)據(jù)聚集層: 在這一層,系統(tǒng)將經(jīng)過CI/KPI模型、按不同業(yè)務(wù)規(guī)則結(jié)構(gòu)化之后的三類用戶體驗數(shù)據(jù)進行匯聚:業(yè)務(wù)監(jiān)控數(shù)據(jù)(業(yè)務(wù)可用性、業(yè)務(wù)量、業(yè)務(wù)辦理時長、業(yè)務(wù)的后臺服務(wù)器負載情況等)、配置數(shù)據(jù)(從CMDB中定時同步配置項信息和配置關(guān)聯(lián)信息),業(yè)務(wù)感性數(shù)據(jù)(業(yè)務(wù)量、積壓量和投訴等信息),使得運維人員不僅能夠從IT支撐視角掌握業(yè)務(wù)運行狀況,還能直觀了解到在當前業(yè)務(wù)運行情況之下客戶層面的使用感知。

圖:探針式BOSS業(yè)務(wù)監(jiān)控系統(tǒng)架構(gòu)圖

圖: 采集層探針

  告警管控層: 本層提供基于預(yù)警模型的預(yù)警管理和追根溯源的告警定位處理。

  預(yù)警模型是基于對系統(tǒng)中超過二年的業(yè)務(wù)全方位數(shù)據(jù)基于運維經(jīng)驗的深入挖掘分析所得。當預(yù)警模型條件都滿足的情況下,通過工單系統(tǒng)發(fā)出相關(guān)的預(yù)警工單,使運維人員及時處理,避免實際的業(yè)務(wù)中斷。

  告警定位處理提供了基于邏輯拓撲的全路徑故障資源定位和基于業(yè)務(wù)操作耗時細分的故障環(huán)節(jié)定位功能。通過對邏輯拓撲中Web、中間件和數(shù)據(jù)庫層的全路徑業(yè)務(wù)模擬,能將故障具體到集群中的某個服務(wù)器和某個應(yīng)用端口; 通過包括網(wǎng)絡(luò)耗時和后臺耗時等的業(yè)務(wù)操作耗時細分,究竟是網(wǎng)絡(luò)問題還是后臺問題也就能清晰地展現(xiàn)在運維人員面前。

  探針式業(yè)務(wù)監(jiān)控管理系統(tǒng)顛覆了傳統(tǒng)監(jiān)控系統(tǒng)的的監(jiān)控視角,將原來自下而上評估業(yè)務(wù)狀態(tài)和影響,變成了以結(jié)構(gòu)化模型框架為指導,以對體系化的CI/KPI指標進行監(jiān)控來了解業(yè)務(wù)狀態(tài)、分析預(yù)警業(yè)務(wù)風險、定位業(yè)務(wù)故障。

  分析展示層: 以三維立體業(yè)務(wù)全景視圖的方式,向運維人員直觀方便地展現(xiàn)當前業(yè)務(wù)運營狀況,可一站視查看業(yè)務(wù)、邏輯、物理三個層面的運營特征。

  在每一層的具體業(yè)務(wù)、設(shè)備的展示上,又把性能數(shù)據(jù)、告警數(shù)據(jù)和配置信息同時展現(xiàn),實現(xiàn)了真正的業(yè)務(wù)三維立體展現(xiàn)。豐富的三維立體業(yè)務(wù)監(jiān)控視圖能夠更為有機地監(jiān)控管理業(yè)務(wù)及系統(tǒng)平臺數(shù)據(jù),大幅度提升運維管控效率的同時,極大地方便各類人員查看操作。探入式BOSS運營監(jiān)控實現(xiàn)了一站式的BOSS系統(tǒng)監(jiān)、管、控。

  豐富的業(yè)務(wù)三維立體展現(xiàn)和鉆取方式的層層深入分析,降低了運維人員分析業(yè)務(wù)與支撐之間的關(guān)系難度,從而不斷改進系統(tǒng)支撐短板,提高公司總體的業(yè)務(wù)支撐服務(wù)水平。

  探針式BOSS

  實際應(yīng)用效果


圖:業(yè)務(wù)三維立體分析展示


  經(jīng)過一段時間的系統(tǒng)運行及不斷改善,探針式BOSS監(jiān)控系統(tǒng)對中國移動浙江公司業(yè)務(wù)質(zhì)量的提高和運營能力的改善起到了相當大的作用:

  1. 提供有效的業(yè)務(wù)問題預(yù)警

  探針式BOSS業(yè)務(wù)監(jiān)控系統(tǒng)平臺正式運行后,平均每月針對業(yè)務(wù)效率的有效預(yù)警達29次,預(yù)警有效率和覆蓋率均達到96%以上,相關(guān)人員據(jù)此進行主動式運維服務(wù),使得月均故障數(shù)下降了34%。而且,在處理效率上,根據(jù)分析系統(tǒng)正式運行以來的告警數(shù)據(jù),發(fā)現(xiàn)趨勢預(yù)警時間點比原有的平臺級告警和客服報障平均提前42分鐘。

  2. 故障處理時長明顯縮短

  CI/KPI模型

  系統(tǒng)試商用以來,依靠業(yè)務(wù)耗時細分、前后臺資源模型等系統(tǒng)工具,實現(xiàn)了業(yè)務(wù)故障的快速定位,明顯縮短了故障處理時長,與系統(tǒng)啟用前相比,業(yè)務(wù)故障處理時長平均縮短了42%。

  3. 運營分析效率明顯提升

  探針式BOSS業(yè)務(wù)監(jiān)控系統(tǒng)為業(yè)務(wù)應(yīng)用維護和系統(tǒng)平臺維護人員提供了大量業(yè)務(wù)運營分析數(shù)據(jù),運維人員原來需要分別從BOSS系統(tǒng)、平臺監(jiān)控系統(tǒng)和工作流平臺界面查看對應(yīng)的數(shù)據(jù),而今只需要IT運營管理系統(tǒng)一個界面就可以完成所有運維所需數(shù)據(jù)的查看。同時,通過運營平臺的7大類25張運維報表的自動生成功能,大大節(jié)約了定期業(yè)務(wù)維護的時間,有效提升了運營分析效率。

  4. 客戶滿意度明顯改善

  依托探針式BOSS業(yè)務(wù)監(jiān)控系統(tǒng),業(yè)務(wù)維護支撐人員的工作模式逐步轉(zhuǎn)為業(yè)務(wù)問題主動發(fā)現(xiàn)、業(yè)務(wù)故障主動解決。同時,由于能直觀地以前臺人員視角審視業(yè)務(wù)故障和問題,維護人員更能了解內(nèi)部客戶感知,解決問題做到有的放矢,明顯改善了客戶滿意度。

  由于以業(yè)務(wù)為中心、以客戶為導向,探針式BOSS業(yè)務(wù)監(jiān)控系統(tǒng)使運營商業(yè)務(wù)支撐部門的運維目標與業(yè)務(wù)部門的目標更加一致,從而共同為客戶提供優(yōu)質(zhì)的服務(wù),同時在客戶中也進一步樹立了運營商優(yōu)質(zhì)服務(wù)的形象:

  對內(nèi),它轉(zhuǎn)變了業(yè)務(wù)支撐部門運維員工的思路,從基礎(chǔ)平臺架構(gòu)的監(jiān)控向業(yè)務(wù)運營管理轉(zhuǎn)變,加強了員工對于業(yè)務(wù)的了解程度,拓展了業(yè)務(wù)支撐部門員工的發(fā)展規(guī)劃道路,并且該平臺通過自動化監(jiān)控、準確故障定位診斷功能,能夠有效減輕員工工作量,避免了監(jiān)控運維人員陷入疲于奔命,忙于救火,增加了員工的滿意度。

  對外,它能夠及時有效、甚至提前發(fā)現(xiàn)業(yè)務(wù)的使用問題,提升業(yè)務(wù)的可用性,從而使客戶能夠更順暢地使用運營商提供的各項業(yè)務(wù),減少了實際發(fā)生業(yè)務(wù)中斷時的客戶投訴數(shù)量,提升了客戶滿意度和忠誠度,在保持運營商市場占有率、提升服務(wù)競爭力方面發(fā)揮了重要作用。

  鏈接

  當前運營商BOSS系統(tǒng)面臨的主要問題

  以三大運營商中運營管理能力比較領(lǐng)先的中國移動為例,目前中國移動各省公司的BOSS運營維護管理面臨的主要問題包括:

 。1) 現(xiàn)有監(jiān)控手段比較初級

  傳統(tǒng)的BOSS監(jiān)控僅能簡單地收集主機、數(shù)據(jù)庫的參數(shù)狀態(tài),不能從業(yè)務(wù)應(yīng)用的整體有機地進行監(jiān)控和管理。

 。2) 業(yè)務(wù)應(yīng)用監(jiān)控困難

  缺乏對業(yè)務(wù)“軟故障”的監(jiān)控手段,對漸進式的業(yè)務(wù)故障很難做到及時發(fā)現(xiàn),缺乏有效的指標表征業(yè)務(wù)應(yīng)用的運營狀態(tài),往往在不知不覺中故障已經(jīng)發(fā)生。

 。3) 無法快速定位故障

  缺乏業(yè)務(wù)與后臺資源關(guān)聯(lián)模型,發(fā)生系統(tǒng)故障后不能準確定位業(yè)務(wù)影響; 系統(tǒng)后臺處理仍處于“黑盒子”狀態(tài),得知業(yè)務(wù)故障后也無法快速定位故障原因,客觀上延長了故障處理時間。

  (4) 運營信息分散,分析不到位

  業(yè)務(wù)實時效率、辦理量、成功率和服務(wù)投訴等數(shù)據(jù)分散存放在各自的生產(chǎn)系統(tǒng)中,維護人員為獲得這些信息,需不斷到生產(chǎn)系統(tǒng)的后臺上去提取數(shù)據(jù),嚴重影響了生產(chǎn)系統(tǒng)的安全性。
共 2 頁:1 2 

計算機世界報



相關(guān)閱讀:
某移動公司NG-BOSS虛擬化云計算平臺實踐解析 2010-02-25
全業(yè)務(wù)運營時代 電信服務(wù)質(zhì)量如何管? 2010-02-09
新一代業(yè)務(wù)交付平臺架構(gòu)解析 2010-01-04
3G計費系統(tǒng)建設(shè)要面向未來 2009-12-24
下一代無線網(wǎng)絡(luò)對系統(tǒng)OSS的要求 2009-12-08

分類信息:  電信_與_計費技術(shù)

南投市| 镇安县| 三穗县| 阳信县| 兴文县| 呼和浩特市| 邯郸市| 曲周县| 丹阳市| 察雅县| 侯马市| 全南县| 韶关市| 新平| 梁山县| 碌曲县| 新乡市| 襄垣县| 德江县| 宜宾市| 涟源市| 凉城县| 清原| 吉木乃县| 星子县| 黄骅市| 澎湖县| 民勤县| 兴业县| 怀来县| 田阳县| 福安市| 亚东县| 平武县| 瑞昌市| 大庆市| 兴隆县| 嘉定区| 常州市| 彩票| 墨竹工卡县|