在數(shù)字化經(jīng)濟(jì)高速發(fā)展的背景下,給運(yùn)營商帶來了巨大的藍(lán)海市場,也倒逼運(yùn)營商加速自身的數(shù)字化轉(zhuǎn)型。中國移動(dòng)率先提出“在2025年實(shí)現(xiàn)自智網(wǎng)絡(luò)L4級高度自治”,目標(biāo)是構(gòu)建全生命周期的自動(dòng)化、智能化能力,實(shí)現(xiàn)三零(零等待、零故障、零接觸)三自(自配置、自修復(fù)、自優(yōu)化)的用戶體驗(yàn)和網(wǎng)絡(luò)能力。浙江移動(dòng)在這一路線的牽引下,開展了一系列的創(chuàng)新實(shí)踐。通信網(wǎng)絡(luò)智能運(yùn)維面臨多項(xiàng)挑戰(zhàn)
通信網(wǎng)絡(luò)是由無線、傳輸、IP網(wǎng)、核心網(wǎng)、業(yè)務(wù)系統(tǒng)等設(shè)備組成的龐大網(wǎng)絡(luò),隨著網(wǎng)絡(luò)的不斷演進(jìn),存在新老設(shè)備、新老網(wǎng)絡(luò)形態(tài)(2/3/5G)以及多廠家并存等復(fù)雜狀態(tài);且通信網(wǎng)絡(luò)面向2C用戶體驗(yàn)保障、2B用戶的可靠性要求5個(gè)9,安全性要求極高。智能運(yùn)維存在以下幾項(xiàng)挑戰(zhàn):
1
數(shù)據(jù)標(biāo)準(zhǔn)化低
智能運(yùn)維賴以應(yīng)用的告警、日志、性能、資源等數(shù)據(jù)規(guī)格不一,設(shè)備提供有效數(shù)據(jù)的能力參差不齊。
2
故障樣本量不足
通信設(shè)備的高可靠性要求,同一類型故障發(fā)生的概率極低,AI訓(xùn)練樣本數(shù)量不足。
3
試錯(cuò)成本高
通信網(wǎng)絡(luò)的保障性和可靠性要求,無法忍受由于自動(dòng)化運(yùn)維帶來的不可控風(fēng)險(xiǎn),自動(dòng)化運(yùn)維不可能一蹴而就。
4
端到端能力差
傳統(tǒng)自動(dòng)化運(yùn)維建設(shè)依賴設(shè)備商提供的設(shè)備或網(wǎng)管能力,存在自動(dòng)化能力分散、單域運(yùn)維能力參差不齊等問題,無法解決跨域或復(fù)雜組網(wǎng)下的故障問題。
5
網(wǎng)絡(luò)協(xié)同復(fù)雜
無線5網(wǎng)(NB、GSM、4G FDD、4G TDD、5G)共存、核心網(wǎng)設(shè)備云化帶來的設(shè)備量徒增及復(fù)雜多層關(guān)聯(lián)關(guān)系,已無法通過簡單的增加人手或憑借專家經(jīng)驗(yàn)保障網(wǎng)絡(luò)的安全運(yùn)行。浙江移動(dòng)實(shí)踐方案
為此浙江移動(dòng)打破傳統(tǒng)碎片化式的能力建設(shè)現(xiàn)狀,充分剖析網(wǎng)絡(luò)運(yùn)維的第一性原理,通過拆分、優(yōu)化、重組,從流程、手段、人員三個(gè)方面進(jìn)行變革,探索了一套基于原力矩陣的故障自愈實(shí)踐方案。
流程重塑:由“面向人的人工操作流程”轉(zhuǎn)變?yōu)椤懊嫦驒C(jī)器的自動(dòng)化流程”
傳統(tǒng)的網(wǎng)絡(luò)運(yùn)維監(jiān)控部門統(tǒng)一監(jiān)控網(wǎng)絡(luò)故障,故障時(shí)通知各專業(yè)處理人員,各專業(yè)按照指導(dǎo)手冊或者個(gè)別專家的運(yùn)維經(jīng)驗(yàn)進(jìn)行故障處理,處理過程中往往需要多方溝通且存在個(gè)體差異,影響故障處理效率和質(zhì)量。我們將這種依賴多人參與以及各操作手冊指導(dǎo)的流程進(jìn)行數(shù)字化重構(gòu),設(shè)計(jì)出由機(jī)器自動(dòng)感知、分析、決策、處置的故障處理流程,實(shí)現(xiàn)網(wǎng)絡(luò)運(yùn)維由人工依賴指導(dǎo)手冊操作設(shè)備,向人監(jiān)控機(jī)器人,機(jī)器人操作設(shè)備的變革。

系統(tǒng)重構(gòu):構(gòu)建運(yùn)維能力集和原力矩陣支撐故障自動(dòng)處理
傳統(tǒng)的運(yùn)維能力內(nèi)生于場景化的應(yīng)用和平臺中,或存在于運(yùn)維人員的大腦中,能力較為分散,需要建設(shè)一套能串接已有自動(dòng)化能力、固化人工經(jīng)驗(yàn)、支撐全流程自動(dòng)執(zhí)行的平臺。
浙江公司不斷探索和實(shí)踐,建設(shè)了一個(gè)基于原力矩陣的故障自愈支撐平臺:首先將依賴人工處理的故障處理流程拆分成一個(gè)一個(gè)的運(yùn)維動(dòng)作,將單個(gè)動(dòng)作實(shí)現(xiàn)自動(dòng)化,形成運(yùn)維能力集;再根據(jù)故障場景和處理流程,即感知、分析、決策、執(zhí)行的過程,將運(yùn)維能力集進(jìn)行編排重組,形成處理故障端到端流程自動(dòng)化處理的原力鏈,多個(gè)原力鏈組成原力矩陣,從而實(shí)現(xiàn)故障場景全覆蓋。故障時(shí),系統(tǒng)自動(dòng)匹配原力矩陣及原力鏈,執(zhí)行相關(guān)自動(dòng)化處理能力,從而實(shí)現(xiàn)網(wǎng)絡(luò)故障自愈。

平臺特點(diǎn)
“搭積木式”構(gòu)建運(yùn)維能力集:本實(shí)踐解決離散能力和數(shù)據(jù)的問題,將萃取已有應(yīng)用和平臺中的運(yùn)維自動(dòng)化能力、或?qū)⑦\(yùn)維人員大腦中的規(guī)則開發(fā)沉淀,實(shí)現(xiàn)單個(gè)運(yùn)維能力自動(dòng)化,并按照規(guī)范的格式注入到運(yùn)維能力集中,形成一個(gè)網(wǎng)絡(luò)運(yùn)維能力資產(chǎn)庫,從而實(shí)現(xiàn)運(yùn)維能力的敏捷沉淀和多場景復(fù)用。
AI升級運(yùn)維能力:局限于通信網(wǎng)絡(luò)數(shù)據(jù)規(guī)范性、樣本數(shù)量等問題,AI無法使能故障端到端處理過程,但AI可以升級優(yōu)化部分運(yùn)維能力,如基于動(dòng)態(tài)閾值和時(shí)序預(yù)測的KPI異常監(jiān)測能力使感知更明顯、基于歷史真實(shí)故障的多維數(shù)據(jù)關(guān)聯(lián)使故障分析更高效。
自動(dòng)化能力端到端可編排:從分析、感知、決策、執(zhí)行環(huán)節(jié),拉通各專業(yè)數(shù)據(jù)和能力,任意編排組裝運(yùn)維能力,滿足不同故障場景、不同處理過程的需求,并不斷累積,從而實(shí)現(xiàn)故障場景的全覆蓋。
自動(dòng)化結(jié)合人工使能故障全流程:一方面是通信網(wǎng)絡(luò)高可靠性要求,使得我們使用故障自愈能力時(shí)謹(jǐn)小慎微,一方面是由于網(wǎng)絡(luò)的復(fù)雜性,使得很多故障場景無法一次性做到全流程自動(dòng)化。本實(shí)踐可暫時(shí)通過ChatOps或人工串接的方式實(shí)現(xiàn)自動(dòng)化手段輔助人工處理故障,同時(shí)不斷的反推、補(bǔ)充斷點(diǎn)能力,實(shí)現(xiàn)全流程自動(dòng)化。
自動(dòng)化敏捷容錯(cuò):整個(gè)端到端過程都是由機(jī)器人自動(dòng)執(zhí)行,但執(zhí)行異常或需要人工決策時(shí)可自動(dòng)通知到人,故障流程隨時(shí)中斷執(zhí)行或由人工接管,極大的保障網(wǎng)絡(luò)安全性。
人員轉(zhuǎn)型:傳統(tǒng)運(yùn)維人員向數(shù)智化人才轉(zhuǎn)變
為適應(yīng)智能運(yùn)維要求,浙江公司以價(jià)值為向?qū)В瞥?“三域六師”數(shù)智人才培養(yǎng)體系、SRE轉(zhuǎn)型實(shí)踐、原力共創(chuàng)等一系列轉(zhuǎn)型指導(dǎo)和實(shí)踐活動(dòng),引導(dǎo)員工數(shù)智化轉(zhuǎn)型。我們傳統(tǒng)的監(jiān)控人員、各專業(yè)維護(hù)人員轉(zhuǎn)變?yōu)檫\(yùn)維設(shè)計(jì)師,設(shè)計(jì)運(yùn)維場景、運(yùn)維流程、以及需要的運(yùn)維能力,轉(zhuǎn)變?yōu)榫幣砰_發(fā)工程師,落地開發(fā)運(yùn)維能力,并編排成運(yùn)維流程和運(yùn)維場景,實(shí)踐流程制度和運(yùn)維經(jīng)驗(yàn)的數(shù)字化沉淀,從而實(shí)現(xiàn)網(wǎng)絡(luò)運(yùn)維由“口口相傳”式人工運(yùn)維向數(shù)字傳承式的智能運(yùn)維轉(zhuǎn)變。

實(shí)踐成效
通過不斷的總結(jié)和實(shí)踐,目前浙江移動(dòng)已累積241個(gè)原力矩陣,即覆蓋無線、傳輸?shù)然A(chǔ)網(wǎng)絡(luò)故障場景,又覆蓋移動(dòng)業(yè)務(wù)、家庭業(yè)務(wù)、政企業(yè)務(wù)等業(yè)務(wù)故障場景,場景覆蓋率達(dá)98%。沉淀KPI異常監(jiān)測、RCA根因智薦、一鍵業(yè)務(wù)保活等1236個(gè)自動(dòng)化、智能化運(yùn)維能力,實(shí)現(xiàn)100%故障自動(dòng)調(diào)度、75%故障自動(dòng)處理。
未來展望
“道阻且長,行則將至,行而不輟,未來可期”,智能運(yùn)維是一項(xiàng)復(fù)雜的、持續(xù)的業(yè)務(wù)活動(dòng),浙江移動(dòng)將進(jìn)一步從強(qiáng)化基礎(chǔ)網(wǎng)絡(luò)數(shù)據(jù)和能力的標(biāo)準(zhǔn)化、推進(jìn)AI人工智能技術(shù)的規(guī)模應(yīng)用、深化數(shù)字化轉(zhuǎn)型的組織保障等方面,持續(xù)踐行網(wǎng)絡(luò)運(yùn)維數(shù)字化轉(zhuǎn)型,加速邁向高階自智網(wǎng)絡(luò)。
作者介紹
竺士杰,浙江移動(dòng)網(wǎng)管中心副經(jīng)理
長期致力于浙江移動(dòng)運(yùn)維體系建設(shè),在建設(shè)新一代網(wǎng)絡(luò)運(yùn)營支撐系統(tǒng)、推動(dòng)自智網(wǎng)絡(luò)演進(jìn)、推進(jìn)網(wǎng)絡(luò)運(yùn)維數(shù)智化轉(zhuǎn)型等方面有著深刻的理解和豐富的經(jīng)驗(yàn)。
AIOps系統(tǒng)和工具評估

2021年,中國移動(dòng)通信集團(tuán)浙江有限公司率先通過了由中國信通院開展的《云計(jì)算智能化運(yùn)維(AIOps)能力成熟度模型第2部分:系統(tǒng)和工具技術(shù)要求》評估,并在【故障預(yù)測模塊】、【異常檢測模塊】、【告警收斂模塊】獲得全面級評價(jià),代表行業(yè)領(lǐng)先水平。
智能化運(yùn)維(AIOps)能力成熟度模型介紹:
《智能化運(yùn)維AIOps能力成熟度模型》系列標(biāo)準(zhǔn)由中國信息通信研究院牽頭,云計(jì)算開源產(chǎn)業(yè)聯(lián)盟、高效運(yùn)維社區(qū)、BATJ等頂級互聯(lián)網(wǎng)公司以及各大金融、通信企業(yè)共同制定的國內(nèi)外首個(gè)智能運(yùn)維(AIOps)國際標(biāo)準(zhǔn),并在國際電信聯(lián)盟第十三研究組 ITU-T SG13 成功立項(xiàng)!


AIOps系統(tǒng)和工具評估報(bào)名
目前,基于《云計(jì)算智能化運(yùn)維(AIOps)能力成熟度模型 第2部分:系統(tǒng)和工具技術(shù)要求》的智能運(yùn)維(AIOps)系統(tǒng)和工具技術(shù)要求評估已開放質(zhì)量、成本、效率部分:【異常檢測】、【故障預(yù)測】、【告警收斂】、【根因分析】、【故障自愈】、【故障預(yù)防】、【容量預(yù)測】、【知識庫構(gòu)建】共8個(gè)模塊的評估。企業(yè)可根據(jù)自身情況任選一項(xiàng)或多項(xiàng)進(jìn)行參與。

(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)