目前互聯(lián)網(wǎng)技術(shù)越來越發(fā)達(dá),越來越多的企業(yè)開始擁抱開源,無論是成本還是易用性上開源都表現(xiàn)不俗。但是作為傳統(tǒng)企業(yè)的IT負(fù)責(zé)人,到底該如何選擇監(jiān)控工具呢?從哪些方面考慮呢?
問題來自@chinesezzqiang 某制造企業(yè) 信息技術(shù)經(jīng)理,下文來自twt社區(qū)眾多同行實(shí)踐經(jīng)驗(yàn)分享,歡迎大家參與交流,各抒己見。
@潘延晟 系統(tǒng)工程師:
原來接觸的鋼鐵企業(yè)在信息化方面的投入不足,資金一直都用在硬件的投入上,所以對于系統(tǒng)的監(jiān)控我們都是采用了開源或者是非常規(guī)手段的軟件來實(shí)現(xiàn)業(yè)務(wù)的監(jiān)控功能。我們是通過CACTI進(jìn)行網(wǎng)絡(luò)流量的監(jiān)控,并生成網(wǎng)絡(luò)流量拓?fù)鋱D,通過hostmonitor進(jìn)行業(yè)務(wù)的自動(dòng)巡檢和部分關(guān)鍵設(shè)備的性能監(jiān)控,并通過郵件推送實(shí)現(xiàn)手機(jī)的自動(dòng)報(bào)警;旧贤ㄟ^免費(fèi)的方式實(shí)現(xiàn)了業(yè)務(wù)自動(dòng)巡檢、報(bào)警、數(shù)據(jù)流量的實(shí)時(shí)監(jiān)控。
對于傳統(tǒng)企業(yè),我覺得觀念是最大的問題。我接觸過很多管理者都認(rèn)為信息化的投入太多,不值得,難得有點(diǎn)投入都用在了硬件上。對于網(wǎng)絡(luò)安全、數(shù)據(jù)備份、還有業(yè)務(wù)監(jiān)控、自動(dòng)運(yùn)維這些方面,態(tài)度都像買保險(xiǎn)一樣,結(jié)果都是苦的運(yùn)維人。
@鄧毓 江西農(nóng)信 系統(tǒng)工程師:
就開源監(jiān)控而言,Zabbix是非常好的選擇,靈活性上、全面性上都無可挑剔,也是很成熟的產(chǎn)品,但前提是你能吃透它,具備二次開發(fā)的能力,后續(xù)通過自身技術(shù)和社區(qū)資料支撐運(yùn)維和更新。而商業(yè)監(jiān)控相比較而言,對自身技術(shù)要求就低很多,有廠商支撐和運(yùn)維,項(xiàng)目周期短,但靈活性上就要弱些,主要還是要把握好選型。
@sz 系統(tǒng)運(yùn)維工程師:
我覺得開源的產(chǎn)品還是需要做定制化才能滿足企業(yè)需求。
@Tomato1616 某城商銀行 系統(tǒng)架構(gòu)師:
如果維護(hù)的信息系統(tǒng)重要,我認(rèn)為即使選擇開源監(jiān)控產(chǎn)品,最好也購買一定的服務(wù),以便設(shè)計(jì)合理的架構(gòu),減少實(shí)施周期。
@anonym 系統(tǒng)工程師:
zabbix,免費(fèi)開源,功能強(qiáng)大。
@jason2006xu 昆侖銀行 技術(shù)經(jīng)理:
目前市場上主流監(jiān)控產(chǎn)品功能大同小異,但是要選擇好的監(jiān)控工具應(yīng)該從以下幾個(gè)非功能需求方面選擇:
- 成熟度和穩(wěn)定性,監(jiān)控系統(tǒng)本來是用來管理相對不穩(wěn)定的系統(tǒng),打鐵還需自身硬,所以穩(wěn)定性和程度度是企業(yè)選擇監(jiān)控系統(tǒng)最先要考慮的一點(diǎn)。
- 高性能,對于大型企業(yè),被管對象多(超過1萬)時(shí),入庫時(shí)效率是否高。
- 可擴(kuò)展性,企業(yè)網(wǎng)絡(luò)環(huán)境復(fù)雜,機(jī)構(gòu)多,所以可擴(kuò)展性也是要考慮的點(diǎn)。
- 二次開發(fā)支持程度,如果提供API可以方便定制開發(fā),以便運(yùn)維人員使用。
- 接口開放程度,如跟CMDB、ITIL集成,對CMDB、ITIL是否開放接口。
- 部署復(fù)雜度,如果大型企業(yè)上萬臺(tái)主機(jī)、如何部署代理。
- 售后支持度、社區(qū)是否活躍,如果系統(tǒng)故障,是否有專家支持,是否有強(qiáng)大團(tuán)隊(duì)支持。
其次應(yīng)該從以下幾個(gè)功能需求方面考慮:
- 是否支持傳統(tǒng)架構(gòu)監(jiān)控,如操作系統(tǒng)、數(shù)據(jù)庫、中間件、網(wǎng)絡(luò)、存儲(chǔ)
- 是否支持開源軟件如MySQL、PGSQL、MoogDB、Kafka
- 是否支持虛擬化,VMware、KVM
- 是否支持容器:Docker
- 是否支持K8S
綜上所述,傳統(tǒng)架構(gòu)可以考慮Zabbix,云環(huán)境、容器、K8S監(jiān)控等可以考慮Prometheus。
@hufeng719 某鋼鐵企業(yè) 系統(tǒng)工程師:
從成本、功能、安全、穩(wěn)定、便于維護(hù)和二次開發(fā)方面考慮選擇的監(jiān)控工具?梢哉?guī)讉(gè)多嘗試,包括監(jiān)控畫面的美感度等等,這個(gè)都是根據(jù)自身愛好選擇。
@山雞 某保險(xiǎn):
個(gè)人觀點(diǎn):
主要還是看規(guī)模吧,如果規(guī)模不大, Zabbix足夠應(yīng)付了,目前來說其社區(qū)的支持力度還是很不錯(cuò)的,各種模板都已經(jīng)有了, 而且網(wǎng)上各種資料也是比較多的,還有就是跟服務(wù)器的配置, 以及Zabbix日常維護(hù)這塊 也有一定關(guān)系 ,我上家公司也算是屬于傳統(tǒng)行業(yè)吧,用的就是Zabbix。
自己之前略微研究了下,Prometheus,個(gè)人感覺還是很不錯(cuò)的,也可以考慮。下圖是各種工具對比,來源網(wǎng)絡(luò),僅供參考。

@nameless 某云計(jì)算廠商 技術(shù)總監(jiān):
可以從幾個(gè)維度考慮:
- 開源監(jiān)控工具是否滿足自己IT需求,如果不滿足,是否有二次開發(fā)能力等;
- 開源監(jiān)控工具是否成熟,軟件的穩(wěn)定性、可靠性,社區(qū)發(fā)展情況,文檔資料是否齊全等等;
- 結(jié)合自身運(yùn)維能力,能否hold住該監(jiān)控工具,該監(jiān)控工作開發(fā)語言是否和自身IT主語言一致,遇到代碼級(jí)問題能否及時(shí)修復(fù)等;
- 可以關(guān)注下該監(jiān)控工具的發(fā)展趨勢,比如cloud監(jiān)控是否具備,微服務(wù)監(jiān)控能力等等;
目前常用的監(jiān)控工具有nagios、zenoss、Zabbix、openfalcon、Prometheus等,個(gè)人建議prometheus。比較新,功能強(qiáng)大,對cloud監(jiān)控友好,其他監(jiān)控工具傳統(tǒng)主機(jī)、網(wǎng)絡(luò)監(jiān)控好。
@guoxilin 某科技公司 系統(tǒng)測試工程師:
Zabbix確實(shí)是比較好的監(jiān)控工具候選項(xiàng),它具備常見的商業(yè)監(jiān)控軟件所具備的功能。比如主機(jī)的性能監(jiān)控、硬件監(jiān)控、應(yīng)用性能監(jiān)控(APM)、網(wǎng)絡(luò)設(shè)備性能監(jiān)控、數(shù)據(jù)庫性能監(jiān)控、FTP等通用協(xié)議監(jiān)控、多種告警方式、詳細(xì)的報(bào)表圖表繪制;支持自動(dòng)發(fā)現(xiàn)網(wǎng)絡(luò)設(shè)備和服務(wù)器,支持分布式部署,集中展示和管理分布式的監(jiān)控點(diǎn);具備很強(qiáng)的擴(kuò)展性,并且提供通用接口,可以按需開發(fā)定制各類監(jiān)控。
@Zabbix大叔_樂維 廣州九一樂維信息科技有限公司 研發(fā)工程師:
Zabbix原生用得好其實(shí)不錯(cuò),能解決40%左右的問題,對于中小組織差不多了;大型組織如果需要做到80、90分,就需要深度開發(fā)了。
@大大覺迷 通鋼 網(wǎng)絡(luò)工程師:
我覺得監(jiān)控軟件界面要簡單直觀清晰實(shí)用,看了社區(qū)一些大神的文章準(zhǔn)備著手研究一下Zabbix。來源:twt社區(qū)