華為AIOps服務讓運維不再成為電信業痛點

“5G新基建”加速實施,為數字經濟發展注入新動能,不僅推動投資消費的快速成長,還將驅動千行百業的數字化轉型升級。但凡事都有兩面性,網絡問題復雜化與業務質量高要求的挑戰也隨之而來,運維能力的演進成為電信網絡能否持續發揮效能的關鍵因素。
在運維中引入AI,基于算法和機器學習的智能運維(AIOps)被公認為是一個行之有效的解決途徑。2019年4月,華為正式發布iMaster NAIE網絡AI云服務,成為網絡智能化戰略實施的重要里程碑,AIOps使能服務正是其中的核心組成。那么它擁有哪些核心價值,又如何破解電信網絡運維痛點?在華為全聯接2020的一場媒體圓桌上,華為網絡人工智能(NAIE)產品部首席技術官程磊作出了精彩解讀。
“引入AI并不意味著拋棄原有的規則。華為兼具電信和AI兩方面視野,因此我們的AIOps服務能力是與電信作業系統、運維流程、專家經驗緊密結合在一起形成的,從而更精準地定位、更有效地解決電信領域的運維問題。”他這樣說道。
AIOps成電信行業智能化方向
在互聯網、移動互聯網以及層出不窮的APP改變世人生活、工作方式的背后,很大程度上得益于運營商們數十年來不懈努力、大力投入所興建的連接與覆蓋全球的電信網絡。
隨著數字經濟成為經濟增長的主旋律、數字轉型的需求不斷涌現,電信網絡上承載的業務與應用越來越多,網絡規模和復雜度也迅速攀升。特別是5G到來后,一些運營商甚至出現了2G/3G/4G/5G“四世同堂”的現象,帶來了巨大的運維管理挑戰。另一方面,OPEX的持續高漲也是運營商們不得不面對的難題,這意味著單純降低設備成本已經不能改善其成本結構。
程磊指出,電信網絡運維普遍存在被動式運維、故障解決困難以及運維系統割裂、自動化程度低等痛點。他引用Gartner的調查發現稱,37%的網絡故障是由于網絡變更造成的,當前網絡結構越來越復雜,網絡的運維管理已遠遠超過人的能力;75%的網絡問題都是被最終使用者感知和發現,并通過投訴向運營商反饋問題,客戶體驗和滿意度很難得到保證;運維人員90%的時間都用來識別發現故障的原因。與此同時,各專業運維支撐系統功能也面臨開發周期長、閉環流程自動化程度低的技術瓶頸。對此,運營商期望引入AI、大數據分析等技術,實現智能運維,做到主動維護和故障“自愈”。
Tractica/Ovum預測,到2025年,全球電信業對AI軟件、硬件和服務的投資將達380億美元,成為最大的AI應用市場。其中,網絡/IT運營監控和管理將成為電信業最大的AI應用場景,2018-2025年累計投入達到183億美元,占期間電信AI軟件支出的44%。AIOps平臺能力的構建,已經成為電信行業智能化演進的一大趨勢和主要方向。
華為AIOps服務四大核心價值
作為近年來被通信、IT、云服務廠商們競相追逐的熱點,AIOps在電信領域的落地關鍵在于行業知識與AI技術的深度融合。在這方面,既擁有30余年的專業積累,又具備全棧全場景AI能力的華為無疑優勢顯著。
據程磊介紹,華為AIOps使能服務作為自動駕駛網絡AI引擎NAIE的核心能力,基于AI平臺,提供了一系列電信領域AIOps原子能力以及組合編排能力,使能網絡管控析單元、智能運維解決方案等運維系統,最終幫助運營商打破原有的煙囪式建設方式,將各專業運維系統的應用與AI能力解耦,采用分層的服務化架構對接共享數據中心,集中提供AIOps能力,適配運維場景應用百花齊放的需求。
具體而言,華為AIOps使能服務擁有四大核心價值。首先是AI原子能力,它提供豐富的AIOps原子能力,覆蓋運維全流程,包括預測,檢測、定位、執行等多個環節。原子能力庫支持流量預測、KPI異常檢測、日志異常檢測、CHR異常檢測、異常關聯分析、事件聚合、根因定位等20多類原子能力。
其次是編排與DevOps能力,使用者可零編碼定制場景組合應用,實現數據源類型、處理流程、模型參數,通知方式、視圖呈現等靈活配置,并主動預防潛在的網絡問題。同時,可對確定的問題事件進行端到端配置,實現智能化和自動化。此外,基于NAIE AI訓練平臺,支持使用者的AI原子能力創新,不斷擴展AIOps能力。
第三是電信領域數據對接能力,支持日志、告警、KPI 、xDR等電信領域主流運維數據,支持Kafka、數據庫、文件系統、Restful等電信運維系統的主流數據對接方式。華為AIOps使能服務提供通用的數據源對接和標準化數據治理組件,通過配置項快速建立與運維系統的數據源連接,通過SDK將不同的數據類型和格式治理成標準化的AIOps原子能力輸入集,用于模型訓練和推理。
最后是場景組合服務能力,圍繞運維全流程(發現、分析、處理)提供預制典型場景組合應用,快速接入運維流程。程磊表示,華為的AIOps能力可以通過多種形式被調用,比如作為云服務在云端由NAIE平臺提供、將平臺能力集成到智能運維解決方案中,抑或將AIOps特性內置到設備管控單元中。
助力打造最佳實踐
在采訪中,程磊還分享了一系列AIOps使能服務助力運營商、企業打造最佳實踐的成功故事。
第一個案例是KPI異常檢測。電信網絡中,通過KPI來預測和檢測網絡問題是最普遍的場景,利用AI算法基于歷史數據自動生成每個KPI的動態門限,可有效避免傳統靜態門限帶來的誤報和漏報。NAIE融合了電信領域的運維業務特點,提供單指標/多指標檢測、異常原因關聯分析、模型的自學習調優等關鍵能力。國內某運營商采用了核心網KPI異常檢測服務以后,實現提前5小時發現故障并主動預警,降低了業務損失,保障四地市用戶業務體驗。
第二個案例是告警根因定位。發現異常或者故障之后的定位是運維流程中的難點,如何準確地將多維度的異常、告警等事件進行匯聚,減少故障噪聲?如何準確定位到具體原因?這些工作目前主要依賴專家經驗或者手工分析,而且受限于分析算力和支知識信息,效果并不好。NAIE AIOps通過AI算法,支持多類異常/告警等事件的智能故障定位,自動實現時間、拓撲和故障傳播圖等維度的事件匯集和根因定位,去除重復無效工單,在提升運維效率的同時也降低了運維成本。華為以此幫助某能源企業實現分鐘級故障根因定位和分析,提升網絡運維效率4-5倍。
經過一年左右的發展,華為AIOps使能服務目前已經30余張現網中得到了規模應用,覆蓋了無線接入、核心網、數據通信等六大網絡領域,管理著5萬多個KPI,API調用每月高達3.3億次,每天處理25萬次告警,累計處理了187億條日志。既懂電信、又懂AI,相信在華為AIOps四大核心能力的助力下,網絡運維管理將不再成為電信行業痛點。
作者:蔣均牧來源:C114通信網