時間:2022-10-08 18:31:29
導言:作為寫作愛好者,不可錯過為您精心挑選的1篇煤炭 IT 集中運維平臺規劃分析,它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內容能為您提供靈感和參考。
0引言
企業IT基礎設施是為企業提供通信網絡、信息服務等IT服務所必需的硬件、軟件和數據中心的集合。5G、物聯網、云計算、大數據和人工智能等新技術持續推動煤炭行業智能制造發展,而這些新技術配套的IT基礎設施是企業安全生產的重要基礎。國外相關網站做過一項統計調查顯示應用系統建設與系統運維的持續時間大致為1∶5,即如果系統開發為5年,系統的運維期則要25年[1-2]。顯然,IT運維服務的質量直接體現了企業IT能力。隨著神東煤炭集團信息化建設的不斷深入,配套的服務器、交換機、應用系統、通信機房等IT基礎設施的規模越來越大,神東公司安全生產對IT基礎設施的安全性、穩定性和可靠性的要求越來越高,對IT基礎設施的集中運維管理顯得日趨重要。
1IT基礎設施管理現狀
神東公司建成以大柳塔、布爾臺、東勝、伊旗維修中心、黑炭溝、李家畔等六大核心節點的萬兆環形以太網,擁有辦公網、工業環網、語音通信專網、井下無線通信、地面無線網、數據中心存儲、服務器和虛擬機、通信機房、各類信息系統及其數據庫和中間件等IT基礎設施,形成覆蓋神東礦區的綜合信息網絡,包含有線設備和無線設備2000余臺,數據中心存儲500T,物理服務器500余臺,虛擬服務器200余臺,大小通信機房40余個,業務信息系統100余個,關聯的各類虛擬機、服務器主機、數據庫、中間件等資源600多個。神東公司辦公網設備和工業環網設備分別由華三IMC網管平臺和華為U2000網管平臺進行管理。無線設備、服務器(含操作系統)、虛擬機、存儲、光纖交換機、機房動環、應用系統、數據庫、中間件等IT基礎設施尚未部署統一的運維管理平臺。企業信息化水平越來越高,同時IT系統也越來越復雜,各種各樣的服務器、存儲設備以及網絡設備等使得維護人員應接不暇,極難避免各種各樣故障產生,故障產生就會造成業務中斷,使得企業不能正常運營。
2IT運維標準要求
根據國家信息技術服務標準(ITSS)規定[2],信息技術服務由人員、過程、技術和資源4個要素組成,包含規劃設計、部署實施、服務運營、持續改進和監督管理5個生命周期,實施ITSS有利于強化信息技術服務效能、優化信息技術服務成本、提升信息技術服務質量、降低信息技術服務風險。按照ITSS要求,運維監控類工具的管理對象主要包含硬件資源管理、通用軟件資源管理、應用資源管理[3]。如圖1所示,數據中心運維服務的服務對象分為機房設施、網絡及網絡設備、服務器及存儲、軟件、數據共5類;運維服務的交付內容包括例行操作、響應支持、優化改善和咨詢評估4類服務作業過程。神東IT集中運維平臺采用自動化監控手段,獲得管理對象的狀態數據,為過程管理提供數據支撐,在硬件、軟件平臺、虛擬化、業務、用戶感知以及基礎設施等監控對象的基礎上實現了事件管理、性能管理、視圖管理、告警管理、統計分析、日志管理等功能。
3IT集中運維平臺規劃
3.1需求分析
隨著神東公司生產網、4G/5G網絡和大數據中心等IT基礎設施項目的實施,IT基礎設施規模不斷擴大。因此,需要一套符合國家信息技術服務標準的IT集中運維管理平臺,以實現對交換機、路由器、無線控制器、服務器(含操作系統、虛擬機)、數據存儲、光纖交換機、應用系統、數據庫、中間件和機房動環等IT基礎設施的集中監控和智能分析,以提高IT運維管理效率。
3.2平臺架構
集中化管理是當前IT運維管理的發展趨勢,對主機設備、網絡設備、存儲設備、備份設備、數據庫、中間件、應用軟件、桌面系統等進行“集中監控、集中維護、集中管理”成為企業IT運維管理的必然選擇[4]。神東IT集中運維平臺按照國家信息技術服務標準設計,采用基于J2EE的B/S模式,平臺由3層架構組成,即數據采集層、系統功能層和應用展示層[5]。數據采集層通過SNMP、Telnet/SSH等采集手段,按照預設的采集策略完成資源配置數據、資源性能數據、網絡拓撲數據和告警數據的采集。系統功能層由多個模塊(資源管理、告警管理、拓撲管理、性能管理)和組件(網絡管理、主機管理、存儲管理、應用管理)共同實現數據的處理。通過對事件的標準化、壓縮、過濾、歸并及關聯分析等一系列操作,一方面將處理結果發送到統一告警平臺,另一方面將處理結果存入告警庫,以便對告警數據的查詢和統計分析。應用展示層通過統一的圖形平臺,為運維人員提供個性化的的管理和展示界面。
3.3平臺目標
ITSS體系對資源管理有明確的要求,不斷完善運維工具,既可以減少不必要的工作量,也可以提升運維工作質量和效率[6]。運維系統的總體目標是,基于整個網絡,按照業務和用戶為中心的建設原則[7],實現對神東公司所有IT基礎設施的集中監控、集中維護和集中管理,確保運維人員能夠高效管理運維對象。根據ITSS標準體系要求,結合神東公司IT運維管理現狀,提出以下5方面平臺目標:①實現路由器、交換機、防火墻、無線設備、服務器、虛擬機、存儲、光纖交換機、IP智能設備、機房動力環境、信息系統、數據庫、中間件等神東公司IT基礎設施的集中監控、實時報警和可視化分析,通過手機短信、郵件、企業微信等多種方式進行告警。②通過集中監控管理平臺的建立,用電子巡檢方式代替了人工巡檢,大大縮短巡檢時間,提高設備巡檢效率[8]。③梳理IT基礎設施的物理連接關系,構件IT基礎設施的業務模型,實現軟件、硬件全視角的監視,當故障發生時,可以進行故障的快速定位,從而縮短故障解決時間,避免軟件部門和硬件部門因故障點定位而發生的扯皮現象。④實現對機房動力環境的集中監控管理,提供可視化的監控畫面,發現異常即可通過網絡自動遠程報警和現場聲光報警,及時提醒運維管理人員。⑤實現平臺用戶統一身份認證和用戶權限的分級管理,提高各運維部門運維工作的規范性和協同性。
3.4平臺功能
神東IT集中運維監控平臺實現網絡資源管理、業務管理、IP地址管理、CMDB管理、配線管理、網絡配置管理、告警管理、日志管理、自動化巡檢管理、報表管理、門戶管理、接口管理等功能。網絡資源管理:對路由器、交換機、安全設備、無線設備、服務器、數據庫、中間件、虛擬化設備、存儲設備、通信機房等IT基礎設施進行統一管理,對上述網絡資源的狀態、性能、配置、信息4類指標進行統一綜合監控。與神東機房動力環境監測系統集成,獲取動力環境平臺的監測數據,比如溫濕度、煙感、漏水、空調、電量、電流、UPS、智能配電柜等機房環境信息。業務管理:從關鍵業務或應用系統視角,將組成業務系統的軟硬件資源按照其關聯關系組建業務邏輯模型,監控其業務邏輯模型的可用性等業務層面指標,建立從業務視角出發的監控視圖,實現業務系統故障的快速、準確定位,快速恢復業務系統。IP地址管理:記錄和展示IP地址和IP子網信息,圖形化管理IP地址和IP子網的容量、使用率,進行IP地址審計、IP地址回收、IP地址分類分析,實現IP地址管理“帳實”相符,高效管理網絡中的IP地址資源。配置管理數據庫:配置管理數據庫作為整個運維管理的基礎模塊,是支撐運維管理工作的重要組成部分。通過自動采集和手工方式,集中存儲配置項的基本信息、地址信息、維護信息和關聯關系,建設集中、完整、統一、實時的配置管理數據庫,為IT配置項管理提供記錄、查詢、匯總、統計分析的基礎數據[9]。配線管理:實現以視圖方式展現綜合布線的設備接口、信息面板、設備位置、管道、線路、配線間、配線柜、配線架、配線接口等關聯信息。網絡配置及告警管理:網絡配置是對網絡設備配置的集中管理,通過SNMP、SSH、Telnet協議實現配置備份和配置恢復。警告管理應包括定義警告、警告瀏覽以及警告處理等功能[10]。平臺從IT基礎設施上收集到各類報警數據,基于多種壓縮規則過濾和歸并,并結合告警級別和用戶權限等規則,通過平臺客戶端、郵件、短信、企業微信等方式,將告警內容展示給維護人員,有效減少無用告警的數量。日志管理:IT基礎設施日志信息數據量大、位置分散、解析困難,對運維人員來說手工查看日志記錄,不僅效率低下,也難以發現日志中的有用信息[11]。通過采集路由器、交換機、服務器和應用系統等IT基礎設施的運行日志,從海量的Log日志中收集、過濾、分析和提取有價值的信息,實現了日志統一收集、分析處理、查詢告警等功能,為IT運維人員提前發現系統故障、排查安全隱患提供有效工具。其他管理:自動化巡檢管理是針對路由器、交換機、安全設備、無線設備、服務器、數據庫、中間件、虛擬化設備、存儲設備、通信機房等IT基礎設施,制定巡檢范圍、巡檢線路、巡檢內容、巡檢周期等計劃,自定義設備運行參數的閾值(CPU利用率、內存利用率等),自動形成設備和系統運行狀態的巡檢報告,以郵件、企業微信或短信等方式通知運維人員。報表管理提供網絡類、主機類、虛擬化類和存儲類的運行率報表、故障告警統計分析報表和性能分析報表,支持實時報表、日報表、周報表、月報表和年報表等。門戶管理通過創建資源、接口、業務3種類型過濾器,為運維工程師展示網絡資源、系統和業務系統的個性化運維數據和運維圖表。接口管理是平臺與神東公司單點登錄用戶認證進行集成,實現用戶統一身份認證;與神東機房動力環境監測系統集成,實時監控機房動力環境;與企業郵件服務器、短信、企業微信集成,實現平臺告警信息的個性化推送。232陜西煤炭2022年
4結語
隨著神東智能化和信息化的深入發展,企業內部的IT運維管理仍然需要不斷探索、創新和發展,IT運維管理正在向智能化方向發展。例如,IT服務質量的衡量指標由過去的底層設備、操作系統、應用系統向業務的高可用和穩定性方面轉變,衡量IT對業務影響程度的指標變成了MTTR(平均故障修復時間),這就需要從業務的視角,實現覆蓋所有業務鏈路端的全局監控、管理和分析,把監控的點和面都做完整,還要與業務指標進行關聯,實現基于大數據的人工智能運維,才能不斷滿足企業內部IT運維管理的發展需求。
參考文獻:
[1]成航宇.如何提高IT運維管理[J].硅谷,2013,6(22):134-135.
[2]工業和信息化部軟件服務業司.中國信息技術服務標準(ITSS)白皮書(第2版)[EB/OL].(2014-01-22)[2021-08-21].https://www.itss.cn/file/202106/22/20210622162350971.pdf.
[3]全國信息技術標準化技術委員會.信息技術服務運行維護第1部分:通用要求:GB/T28827.1—2012[S].北京:中國標準出版社,2013:2.
[4]王月,李明.國內企業IT運維管理水平提升建議[J].中國管理信息化,2014,17(6):19-21.
[5]雷曉萍,馬君,蘇蔚.信息運維監控一體化平臺的自主研發與應用[J].信息技術與信息化,2015(4):214-216.
[6]國家信息技術服務標準工作組.ITSS系列培訓IT服務項目經理[M].北京:電子工業出版社,2012.
[7]張乾.太原煤炭交易中心運維管理系統設計與實現[D].大連:大連理工大學,2014.
[8]周旻,陳之華.基于ITIL運維服務管理體系的研究和設計[J].信息安全與技術,2012,3(5):8-10,16.
[9]韓宇來.中國石化集團公司IT運維服務體系研究[D].北京:華北電力大學,2014.
[10]劉亞軍.濟南天津銀行IT設備運維監控系統的設計與實現[D].成都:電子科技大學,2014.
[11]張春生,郭長杰,尹兆濤.基于大數據技術的IT基礎設施日志分析系統設計與實現[J].微型電腦應用,2016,32(6)
作者:劉雄雄,姬文海 單位:國能神東煤炭集團有限責任公司