面向騰訊開(kāi)放光網(wǎng)絡(luò)系統(tǒng)的實(shí)時(shí)設(shè)備故障監(jiān)測(cè)

訊石光通訊網(wǎng) 2024/10/21 12:42:51

  騰訊開(kāi)放光網(wǎng)絡(luò)實(shí)現(xiàn)多廠(chǎng)商設(shè)備開(kāi)放組網(wǎng)。通過(guò)不同廠(chǎng)商設(shè)備的自由組合與靈活替換,降低了帶寬成本,提高了帶寬交付效率。然而,多廠(chǎng)商、多型號(hào)設(shè)備的混合組網(wǎng)模式,也為傳送網(wǎng)絡(luò)的運(yùn)營(yíng)帶來(lái)了新的挑戰(zhàn)。在不同廠(chǎng)商設(shè)備混合組網(wǎng)的開(kāi)放網(wǎng)絡(luò)中,定位設(shè)備故障是一個(gè)復(fù)雜的問(wèn)題。傳統(tǒng)依賴(lài)廠(chǎng)商工程師的模式難以為繼,需要系統(tǒng)具備快速診斷、定位設(shè)備故障的能力,能夠在開(kāi)放網(wǎng)絡(luò)中,精確識(shí)別不同廠(chǎng)商設(shè)備的異常狀態(tài),定位故障點(diǎn),準(zhǔn)確分析故障影響,為設(shè)備故障處理等相關(guān)運(yùn)營(yíng)流程提供技術(shù)支撐。騰訊開(kāi)放光網(wǎng)絡(luò)基于多維度運(yùn)行數(shù)據(jù),利用智能算法,構(gòu)建實(shí)時(shí)故障監(jiān)測(cè)系統(tǒng)。實(shí)現(xiàn)對(duì)設(shè)備故障全面覆蓋,故障定位準(zhǔn)確率達(dá)到90%以上,故障查全率高達(dá)97%。

  1、設(shè)備故障定位的挑戰(zhàn)


圖一  傳統(tǒng)光傳輸系統(tǒng)故障定位流程

  眾所周知,根據(jù)墨菲定律,只要硬件有故障的幾率,無(wú)論這個(gè)幾率再小故障都會(huì)發(fā)生。更不用提在開(kāi)放光網(wǎng)絡(luò)中,各類(lèi)業(yè)務(wù)板卡/光模塊的數(shù)量在幾k到數(shù)十k的級(jí)別,在這么大的設(shè)備基數(shù)面前,故障是很常見(jiàn)的。那么廠(chǎng)商工程師的排障邏輯是什么樣的呢?一個(gè)最重要的信息來(lái)源就是告警。當(dāng)設(shè)備產(chǎn)生告警或者業(yè)務(wù)受到影響時(shí),值班人員會(huì)去詢(xún)問(wèn)廠(chǎng)商工程師進(jìn)行確認(rèn)故障具體點(diǎn)位,然后配合駐場(chǎng)來(lái)對(duì)故障設(shè)備進(jìn)行更換。在這個(gè)處理流程中有幾大痛點(diǎn):

  告警多:每月與波分電層相關(guān)的告警數(shù)量極為龐大,已遠(yuǎn)遠(yuǎn)超出人力資源所能承受的范圍。

  誤報(bào)多:與每月設(shè)備上報(bào)海量告警相對(duì)的是,但實(shí)際發(fā)生的設(shè)備故障數(shù)量大概只有二十幾例。

  信息指向不明確:板卡、模塊告警無(wú)法與業(yè)務(wù)相關(guān)聯(lián),故障指示性差。

  2、自研實(shí)時(shí)故障監(jiān)測(cè)系統(tǒng)設(shè)計(jì)


圖二  實(shí)時(shí)故障監(jiān)測(cè)系統(tǒng)流程

  為了解決上述痛點(diǎn),我們構(gòu)建了實(shí)時(shí)故障監(jiān)測(cè)系統(tǒng)。它的核心部分是上圖中的智能故障出單。開(kāi)放光網(wǎng)絡(luò)系統(tǒng)的精細(xì)化監(jiān)控能力帶來(lái)了秒級(jí)性能數(shù)據(jù)和告警的采集,這極大地將開(kāi)放光網(wǎng)絡(luò)透明化可視化,開(kāi)放光網(wǎng)絡(luò)中設(shè)備的各個(gè)維度的信息變得觸手可及。通過(guò)將這些信息輸入我們自研的數(shù)據(jù)挖掘和分析算法,故障事件單以及對(duì)應(yīng)的處理建議將會(huì)自動(dòng)且快速輸出。這些故障事件單會(huì)以告警的形式接入運(yùn)營(yíng)監(jiān)控平臺(tái),并自動(dòng)觸發(fā)工單,通知值班人員關(guān)注。值班同學(xué)根據(jù)故障告警的分析建議,指導(dǎo)駐場(chǎng)直接對(duì)故障設(shè)備做出相應(yīng)的操作,如復(fù)位、拔插、更換等等。相對(duì)于傳統(tǒng)的商用系統(tǒng)排障方式,騰訊自研實(shí)時(shí)故障監(jiān)測(cè)系統(tǒng)的優(yōu)勢(shì)體現(xiàn)在如下幾個(gè)方面:

  準(zhǔn)確定位:故障定位的累積準(zhǔn)確率在90%以上,出單的算法邏輯也一直針對(duì)具體的故障情況進(jìn)行優(yōu)化,避免誤報(bào)。

  全面覆蓋:故障定位的累積查全率在97%左右,可覆蓋各種故障場(chǎng)景,避免絕大多數(shù)故障漏報(bào)。

  快速響應(yīng):相較于依賴(lài)工程師定位故障需要半天到天級(jí)的響應(yīng)和溝通時(shí)間,實(shí)時(shí)故障監(jiān)測(cè)系統(tǒng)可以做到分鐘級(jí)告警上報(bào),真正實(shí)現(xiàn)了全天候不間斷監(jiān)測(cè)。

  自適應(yīng)指導(dǎo):自研的故障監(jiān)測(cè)系統(tǒng)通過(guò)回顧歷史故障數(shù)據(jù)庫(kù),積累了大量的故障處理經(jīng)驗(yàn),可以根據(jù)故障點(diǎn)位和類(lèi)型自適應(yīng)生成設(shè)備維護(hù)建議,不僅定位準(zhǔn)確,還能合理維護(hù)。

  3、核心故障出單邏輯設(shè)計(jì)


圖三  智能故障出單層級(jí)結(jié)構(gòu)圖

  如上圖,在實(shí)時(shí)故障監(jiān)測(cè)系統(tǒng)中,一共有六種不同的設(shè)備/模塊被納入了監(jiān)測(cè)對(duì)象。不同硬件在系統(tǒng)中完成功能不同,性能指標(biāo)種類(lèi)存在明顯差異,運(yùn)營(yíng)過(guò)程中關(guān)注點(diǎn)也不同。因此需要根據(jù)每種板卡/模塊的運(yùn)行特征,具體為其設(shè)計(jì)故障分析邏輯。

  但是不同的故障分析邏輯,其本源是對(duì)性能、告警、狀態(tài)等數(shù)據(jù)源產(chǎn)生數(shù)據(jù)的分析。因此,針對(duì)單一數(shù)據(jù)源的特征分析和針對(duì)多數(shù)據(jù)源的聯(lián)合分析,作為基本分析方法,是故障檢測(cè)系統(tǒng),實(shí)現(xiàn)不同硬件故障分析邏輯的技術(shù)基礎(chǔ)。其中涉及的一些技術(shù)要點(diǎn)會(huì)在下文給出簡(jiǎn)要介紹。

  技術(shù)要點(diǎn)一

  性能數(shù)據(jù)異常實(shí)時(shí)發(fā)現(xiàn)。上文提到,在開(kāi)放光網(wǎng)絡(luò)系統(tǒng)中,設(shè)備因秒級(jí)的性能數(shù)據(jù)采集和推送變得透明化和可視化。這也對(duì)實(shí)時(shí)性能處理和分析提出了更高的要求,采集窗口必須實(shí)時(shí)貼近故障事件的反應(yīng)時(shí)間,監(jiān)測(cè)算法必須保證低算法復(fù)雜度以配合實(shí)時(shí)故障發(fā)現(xiàn)的需求。為了應(yīng)對(duì)這些需求,我們引入了時(shí)間序列自適應(yīng)滑動(dòng)窗口階躍監(jiān)測(cè)技術(shù)。

圖四  自適應(yīng)滑動(dòng)窗口階躍監(jiān)測(cè)

  如圖所示,我們將設(shè)備推送的秒級(jí)數(shù)據(jù)(例如模塊發(fā)光頻率,發(fā)光頻偏,板卡溫度等)收集到控制器端,然后對(duì)歷史時(shí)間窗進(jìn)行滑動(dòng)監(jiān)測(cè)。監(jiān)測(cè)算法的思想是動(dòng)態(tài)截取時(shí)間窗,并計(jì)算時(shí)間窗在當(dāng)前時(shí)刻的統(tǒng)計(jì)值,這個(gè)統(tǒng)計(jì)值和數(shù)據(jù)的波動(dòng)情況正相關(guān)。換言之,異常性能數(shù)據(jù)時(shí)間窗內(nèi)經(jīng)過(guò)統(tǒng)計(jì)分析會(huì)計(jì)算得到一個(gè)較高值。該值與統(tǒng)計(jì)所得閾值做比較,低于閾值則為正常范圍波動(dòng),高出閾值則被判定為故障態(tài)。算法中的各項(xiàng)具體數(shù)值(例如閾值、標(biāo)準(zhǔn)差)都是經(jīng)過(guò)對(duì)歷史故障數(shù)據(jù)的詳細(xì)分析后得出的,使故障態(tài)識(shí)別更加精確。另外,性能數(shù)據(jù)的偶然波動(dòng)(單個(gè)采集窗口的數(shù)據(jù)異常,可能是設(shè)備誤報(bào)導(dǎo)致)導(dǎo)致的信號(hào)突變也會(huì)在該算法中進(jìn)行排除。通過(guò)這種滑動(dòng)窗口階躍監(jiān)測(cè)技術(shù),20s內(nèi)的窗口異常波動(dòng)都可以有效檢出,且占用資源低,可以實(shí)時(shí)對(duì)控制器管控的海量設(shè)備同時(shí)監(jiān)控。在性能監(jiān)測(cè)方面,除了自適應(yīng)滑動(dòng)窗口階躍監(jiān)測(cè)之外,還有發(fā)光平坦度監(jiān)測(cè)、電源實(shí)時(shí)轉(zhuǎn)化率分析、風(fēng)扇轉(zhuǎn)速與設(shè)備功耗數(shù)據(jù)關(guān)聯(lián)度分析等手段,可根據(jù)設(shè)備的特性進(jìn)行應(yīng)用。

  技術(shù)要點(diǎn)二

  多維度信息綜合分析提升根因定位準(zhǔn)確性。雖然上述的性能數(shù)據(jù)是可以通過(guò)數(shù)學(xué)建模來(lái)利用算法直接判斷異常態(tài),但是某些設(shè)備的性能數(shù)據(jù)對(duì)于故障的指向性不是特別明確,甚至缺少關(guān)鍵性能數(shù)據(jù),此時(shí)就需要控制器采集設(shè)備其他維度的信息來(lái)進(jìn)行綜合研判。例如設(shè)備自身上報(bào)的告警,設(shè)備關(guān)聯(lián)業(yè)務(wù)的健康度,相關(guān)聯(lián)的交換機(jī)端口狀態(tài)等等。我們以波長(zhǎng)轉(zhuǎn)換板卡(OTU板卡)為例簡(jiǎn)要說(shuō)明綜合分析過(guò)程。在之前的運(yùn)營(yíng)中,OTU板卡故障一般是在上層業(yè)務(wù)受損后被發(fā)現(xiàn)的。然后人工查詢(xún)并判斷是數(shù)通層面故障還是波分層面故障,定位到波分層面故障后再定位具體的故障點(diǎn)位。定位到具體故障設(shè)備后,再來(lái)通過(guò)相關(guān)的設(shè)備告警定位故障具體發(fā)生在客戶(hù)側(cè)模塊,線(xiàn)路側(cè)模塊還是OTU電卡。整個(gè)故障定位流程十分冗長(zhǎng)且需要人工確認(rèn),并且在確認(rèn)眾多告警和故障之間的關(guān)聯(lián)時(shí)需要豐富的經(jīng)驗(yàn),這對(duì)后續(xù)的排障工作也帶來(lái)了較很高的難度。

圖五  多維度信息綜合分析流程

  因此我們將告警、業(yè)務(wù)狀態(tài)、巡檢結(jié)果都融入自動(dòng)化故障監(jiān)測(cè)體系中。從OTU板卡告警觸發(fā),開(kāi)始關(guān)聯(lián)分析業(yè)務(wù)的狀態(tài)。若業(yè)務(wù)狀態(tài)異常,則進(jìn)一步分析這個(gè)告警的嚴(yán)重程度,根據(jù)其和故障的相關(guān)性分級(jí)處理,結(jié)合受影響業(yè)務(wù)的數(shù)量來(lái)判斷具體是OTU故障還是潛在的上插模塊的故障。另一方面,日常的巡檢收集對(duì)業(yè)務(wù)無(wú)影響的告警,從故障防控的角度提前知曉設(shè)備劣化的動(dòng)態(tài),并發(fā)出故障預(yù)測(cè)??傮w而言,通過(guò)編排告警的優(yōu)先級(jí)以及對(duì)應(yīng)處理方式,可以為后續(xù)排障工作提供準(zhǔn)確的指導(dǎo)建議,進(jìn)一步提高故障處理的效率。

  總結(jié)

  騰訊開(kāi)放光網(wǎng)絡(luò)系統(tǒng)實(shí)時(shí)設(shè)備故障監(jiān)測(cè)系統(tǒng),依托于騰訊開(kāi)放光網(wǎng)絡(luò)系統(tǒng)秒級(jí)telemetry性能監(jiān)控能力的海量運(yùn)營(yíng)數(shù)據(jù),引入先進(jìn)數(shù)據(jù)分析算法,實(shí)時(shí)發(fā)現(xiàn)設(shè)備性能異動(dòng);結(jié)合設(shè)備告警、業(yè)務(wù)狀態(tài)信息分析等手段,顯著提升了故障定位的準(zhǔn)確性、查全度、時(shí)效性,有效解決了在不同廠(chǎng)商設(shè)備混合組網(wǎng)的開(kāi)放網(wǎng)絡(luò)中,定位設(shè)備故障的難題,提升了光網(wǎng)絡(luò)系統(tǒng)故障應(yīng)對(duì)效率。展望未來(lái):一方面故障監(jiān)測(cè)系統(tǒng)將會(huì)不斷優(yōu)化算法,進(jìn)一步提升故障定位準(zhǔn)確率和排障效率,同時(shí),更多新的故障類(lèi)型將會(huì)納入實(shí)時(shí)監(jiān)測(cè)體系中。另一方面,將會(huì)探索故障監(jiān)測(cè)系統(tǒng)與優(yōu)化系統(tǒng)聯(lián)動(dòng)配合,實(shí)現(xiàn)故障、監(jiān)測(cè),優(yōu)化的閉環(huán)。

  作者:懷健、王宇、明剛

新聞來(lái)源:鵝廠(chǎng)網(wǎng)事

相關(guān)文章