本報通訊員 李夢瀅
近日,首鋼礦業計控檢驗中心成功搭建了網絡設備監控平臺,實現了對首鋼礦區網絡設備運行狀態的實時監控,推動公司計算機網絡運維管理由人工運維向智能運維轉變。
首鋼礦業中心機房肩負著百里礦區的網絡通信責任,現有核心交換機、云平臺、網絡安全設備、ERP(企業資源計劃)服務器等網絡設備160余套。其中,云平臺云服務器包含云服務器操作信息、運行情況等日志信息,每天信息增長量高達500MB(兆字節),相當于500多萬行數據信息,數量大、種類多、運維難度非常高。
傳統運維方式中,運維人員無法做到全面巡檢,多數情況只能出現故障了再處理。處理故障時,必須現場檢查設備運行狀態,逐一分析CPU(中央處理器)、內存、端口等數據指標,憑借經驗進行故障原因判斷,不僅工作效率低,而且由于無法對潛在故障進行預警,一旦發生重大故障,將影響公司整體網絡與運營,甚至導致系統癱瘓。
“花錢購買”比拼“開源技術”
近幾年,隨著首鋼礦業智能化發展,網絡設備數量不斷增多,信息系統變得越來越復雜,系統的日志數據翻倍增加,運維難度持續增加。傳統的人工運維已不能滿足管理需求,急需通過技術手段對網絡設備進行7×24小時智能監控。
經考察調研,社會市場層面有很多成熟的監控解決方案,能快速部署實施,但價格昂貴、靈活性低,而且后期增加網絡設備時,需要廠家配合,可拓展性差。本著“一切費用皆可降”的理念,首鋼礦業計控檢驗中心信息安全創新工作室(下稱工作室)結合公司實際情況,決定自主研究搭建網絡設備運行狀態實時監控平臺,嘗試采用開源技術,實現對網絡設備運行狀態的統計監控及實時分析。
綜合考評多項技術選最佳
行業內常用的開源技術有Nagios、Centreon、Cacti、Ganglia、Zabbix等。考慮到每項技術的適用場景不同,為了選定符合礦山需求的技術,工作室成員李同同對每一項開源技術的部署方案、關鍵技術、模擬測試等進行試驗。其中,模擬測試環節最耗時間和精力,從搭建虛擬場景開始,需要技術版本選型下載、環境匹配、安裝部署、連通設備、創建模板、功能配置、模擬監控等16個大步驟,每一步都需要設定不同參數,任何參數設定不合適都無法進行下一步測試,更別說完成整體試驗。
經過反復測試并深入對比,李同同發現,Nagios功能單一、需要額外安裝大量插件,Centreon不易更改配置、可定制性差,Cacti只適合特定場景,Ganglia無告警機制,這些開源技術雖然應用簡單,但無法滿足公司管理需要。考慮到首鋼礦業的長遠發展,工作室決定采用具有圖形化監控和報警功能的Zabbix技術。該技術功能強大,但是部署起來較為復雜,需要進一步研究和攻關。
著眼長遠攻關不怕難
目前,首鋼礦業網絡設備不僅數量多,而且種類和品牌多樣化,所以在監控平臺搭建過程中必須綜合考慮各種影響因素,比如不同類型的操作系統、Web服務、編程語言、數據庫等。
對于常規的Windows操作系統,建立監控平臺與被監控端的連接,只需打開自帶的SNMP(簡單網絡管理協議)服務即可。但是公司服務器還有一部分Linux操作系統,沒有該服務選項,因而只能通過執行程序命令的方式來實現,這對李同同而言是一項新的技術突破。他從查閱各類資料入手,在測試機開展性能測試,設置參數、分析報錯、修改程序,通過百余次的重復操作,終于實現了平臺與被監控端的穩定連接。但這只是平臺部署最初步的技術驗證,為了更好地梳理160余臺網絡設備信息,李同同將其分為交換機、服務器、數據庫、應用等幾大類,并有針對性地創建適合的監控模板,因品牌、連通方式等差異,單交換機監控模板就多達25項,這意味著所有的部署工作都要重復25次。李同同說:“不怕重復,但任何一個參數的不適合,都會導致‘從頭再來’。”面對復雜的部署環境,李同同一項項地測試,最終成功搭建了監控平臺,實現了對網絡設備CPU溫度和占用率、內存使用率、風扇狀況、端口狀態、訪問流量、響應時間等信息的實時展示,并通過對以上大數據的分析,提高了對網絡設備運行風險的識別能力,達到了對潛在故障智能預警和及時定位故障的目的。
網絡設備實時監控平臺上線以來,運行穩定、精準度高、預警性強,實現了對網絡設備的可視化監控和管理。下一步,該工作室將繼續拓展Zabbix技術應用的廣度和深度,為網絡、信息系統安全穩定運行保駕護航,努力推動首鋼礦業計算機網絡運維邁進智能化時代。
《中國冶金報》(2022年08月30日 03版三版)