/前言/
面對流量快速增長,如何快速高效提供高質(zhì)量帶寬,保證帶寬長期穩(wěn)定運行,是數(shù)據(jù)中心互聯(lián)光網(wǎng)絡(luò)面臨的最大挑戰(zhàn)。針對快速高效提供帶寬的問題。我們已經(jīng)具備有效的應(yīng)對方法?;跀?shù)據(jù)中心互聯(lián)組網(wǎng)特點,我們將光網(wǎng)絡(luò)切割成一個一個獨立的單元,首先將這些單元標(biāo)準(zhǔn)化,設(shè)計更加適用于數(shù)據(jù)中心應(yīng)用的硬件設(shè)備OPC-4、TPC-4和設(shè)備管控模型,構(gòu)建標(biāo)準(zhǔn)管控系統(tǒng),實現(xiàn)對不同廠商設(shè)備的統(tǒng)一管理,混合組網(wǎng)。然后將標(biāo)準(zhǔn)單元快速復(fù)制到數(shù)據(jù)中心互聯(lián)應(yīng)用中,有效應(yīng)對數(shù)據(jù)中心互聯(lián)帶寬的快速增長。
隨著系統(tǒng)規(guī)模越來越大,如何保證系統(tǒng)長時間,高質(zhì)量運行,是我們亟需解決的主要問題。一方面系統(tǒng)在運行過程中會逐漸偏離最佳運行狀態(tài),需要持續(xù)修正,使系統(tǒng)維持在最佳運行狀態(tài)。另一方面系統(tǒng)會遇到一些故障,在故障率一定的情況下,系統(tǒng)規(guī)模越大,故障總量就越大。如何有效降低故障率,并持續(xù)保證系統(tǒng)運行在最佳狀態(tài),是提升系統(tǒng)質(zhì)量的關(guān)鍵。
我們從標(biāo)準(zhǔn)結(jié)構(gòu)著手,通過科學(xué)有效的方法,提升標(biāo)準(zhǔn)結(jié)構(gòu)的高質(zhì)量運行能力,一旦為標(biāo)準(zhǔn)結(jié)構(gòu)構(gòu)建起這樣的能力,便可以快速將這種能力復(fù)制到整個網(wǎng)絡(luò)。我們以精細化運行數(shù)據(jù)為驅(qū)動,為標(biāo)準(zhǔn)結(jié)構(gòu)構(gòu)建起自主運行能力,使其能常態(tài)化運行在最佳狀態(tài)。系統(tǒng)持續(xù)自主運行在最佳狀態(tài),需要系統(tǒng)自身能夠基于運行數(shù)據(jù),提前發(fā)現(xiàn)系統(tǒng)潛在風(fēng)險,在故障發(fā)生前主動處理,防患于未然,有效降低系統(tǒng)故障率。同時以設(shè)備運行數(shù)據(jù)為基礎(chǔ),還可以分析設(shè)備運行情況,協(xié)助優(yōu)化設(shè)備硬件、軟件設(shè)計,提升設(shè)備質(zhì)量。
/自動控制架構(gòu)/
騰訊開放光網(wǎng)絡(luò)自動控制架構(gòu),本質(zhì)是一個閉環(huán)控制架構(gòu)。架構(gòu)的關(guān)鍵點是四大能力構(gòu)建:控制能力、采集能力、感知能力、決策能力。將這四大能力合理有序串聯(lián)起來,便可實現(xiàn)整個系統(tǒng)的自動運行。采集能力采集到系統(tǒng)更詳盡、更精細的運行數(shù)據(jù),感知能力對運行數(shù)據(jù)分析,感知系統(tǒng)變化;決策能力則使系統(tǒng)具備科學(xué)分析,科學(xué)決策的能力,依據(jù)感知結(jié)果對系統(tǒng)作出科學(xué)決策,并將指令傳遞給控制系統(tǒng)執(zhí)行,實現(xiàn)對系統(tǒng)的閉環(huán)控制。
/感知能力構(gòu)建/
什么是感知能力?用一個人體體驗作為例子,如果人體被針扎一下或者手擰一下,都會體會到疼痛,人體體會到疼痛是一種采集能力,但是我們的大腦能夠準(zhǔn)確的從這兩種疼痛不同的表現(xiàn)方式,體會出差異,判斷出區(qū)別,這就是感知能力。感知能力是一種對數(shù)據(jù)的分析能力。在傳統(tǒng)光網(wǎng)絡(luò)系統(tǒng)中,對數(shù)據(jù)的感知往往是由經(jīng)驗豐富的工程師完成,我們正在幫系統(tǒng)構(gòu)建起這種能力,使系統(tǒng)能夠在無人干預(yù)的條件下,實現(xiàn)對數(shù)據(jù)的經(jīng)驗性轉(zhuǎn)化。目前騰訊開放光網(wǎng)絡(luò)已經(jīng)具備了控制能力和采集能力,我們正在進行感知能力和分析能力的構(gòu)建。
我們主要從兩個維度構(gòu)建系統(tǒng)感知能力,一個是系統(tǒng)維度,一個是時間維度。系統(tǒng)維度,首先構(gòu)建針對單個指標(biāo)的感知能力,通過對指標(biāo)的感知來判斷系統(tǒng)變化。傳送平面的硬件和光纖是運營過程中可以操作的基本單元,構(gòu)建針對硬件和光纖的感知能力,準(zhǔn)確感知故障和潛在風(fēng)險,觸發(fā)相關(guān)運維操作,對問題硬件替換,避免故障發(fā)生,可以將故障轉(zhuǎn)化為計劃內(nèi)的網(wǎng)絡(luò)操作,保證系統(tǒng)質(zhì)量。傳輸系統(tǒng)最終是一個帶寬系統(tǒng),從用戶角度并不關(guān)心系統(tǒng)內(nèi)部設(shè)備、光纖這些組成元素。我們常被用戶問及帶寬情況如何?帶寬的感知能力,則是讓系統(tǒng)能夠自行回答這個問題。讓系統(tǒng)能夠感知帶寬當(dāng)前的運行狀態(tài),預(yù)測帶寬未來的運行狀態(tài),對潛在風(fēng)險合理規(guī)避,有效降低帶寬的非預(yù)期性中斷,保證帶寬長期穩(wěn)定運行。時間維度,則要為系統(tǒng)構(gòu)建快速感知能力,中速感知能力和慢速感知能力,這是從系統(tǒng)問題分析時效性出發(fā)定義的能力??焖俑兄菍?shù)據(jù)的實時分析,快速捕獲系統(tǒng)故障。中速感知則是對系統(tǒng)潛在風(fēng)險或者關(guān)鍵指標(biāo)變化的分析和感知,這往往需要一定量的數(shù)據(jù)進行分析。而慢速感知則是通過對大量數(shù)據(jù)的分析,來感知系統(tǒng)運行趨勢,可以對系統(tǒng)未來的運行狀況進行預(yù)測。
接下來介紹不同感知能力構(gòu)建的典型數(shù)據(jù)基礎(chǔ)。下面這張圖展示了對線路光纖衰耗的快速感知能力。通過光纖兩端主光通道及OSC(Optical Supervisory Channel)的發(fā)光功率和收光功率計算得到光纖衰耗,能夠通過光纖衰耗的變化,快速發(fā)現(xiàn)光纖故障。同時可以觀察到在放大器開啟APR(Automatic Power Reduction)功能情況下,主光通道光功率和OSC通道光功率的差異性行為。
下面這張圖展示了對光纖衰耗的中速感知能力,可以觀察到在某一時刻后光纖衰耗已經(jīng)發(fā)生變化,持續(xù)性的提升了一個臺階,此時系統(tǒng)需要感知到光纖基準(zhǔn)衰耗的變化,并正確修正該基準(zhǔn)衰耗。因為系統(tǒng)內(nèi)基于光纖衰耗的分析算法會使用到光纖基準(zhǔn)衰耗,光纖基準(zhǔn)衰耗的不準(zhǔn)確,會直接導(dǎo)致使用該指標(biāo)的算法無法得到正確結(jié)果。
最后一張圖展示了對設(shè)備的中速感知能力,可以明顯觀察出上方圖中,A-Z方向由主光通道計算出的光纖衰耗和由OSC通道計算出的光纖衰耗,呈現(xiàn)不同的數(shù)據(jù)形態(tài)。基于OSC計算出的光纖衰耗數(shù)據(jù)保持穩(wěn)定,但是相同時間段內(nèi),由主光通道計算出的光纖衰耗數(shù)據(jù)則出現(xiàn)較大范圍的波動。進一步分析可以發(fā)現(xiàn),這個現(xiàn)象是由于A端的主光通道發(fā)送光功率不穩(wěn)定導(dǎo)致的,并不是線路光纖出現(xiàn)問題。因此通過對一段時間內(nèi)的數(shù)據(jù)進行分析,為我們發(fā)現(xiàn)設(shè)備潛在故障提供準(zhǔn)確線索。
目前系統(tǒng)的感知范圍還主要集中在光纖纖芯內(nèi)部和設(shè)備內(nèi)部,但是實際中我們遇到的光纖故障,往往是由外界影響導(dǎo)致的,比如挖掘機將光纜挖斷。因此我們需要將感知能力擴展到光纖外部幾米的范圍,使系統(tǒng)能夠感知光纖外部環(huán)境變化,這是系統(tǒng)能夠防患于未然的關(guān)鍵。針對這個問題,一方面我們通過在光層設(shè)備中引入光纖傳感技術(shù),提升系統(tǒng)對光纖周圍環(huán)境的探測能力,另一方面我們在深挖系統(tǒng)中沉睡的光學(xué)指標(biāo),通過合理計算,擴展系統(tǒng)的感知邊界。從這兩方面努力,使我們能夠提前預(yù)警光纖中斷風(fēng)險。
/系統(tǒng)架構(gòu)變革/
數(shù)據(jù)驅(qū)動推動系統(tǒng)架構(gòu)發(fā)生革命性變革。網(wǎng)絡(luò)控制器與設(shè)備組成的管控系統(tǒng),需重新按照以數(shù)據(jù)為中心進行設(shè)計。依照系統(tǒng)功能需求和實際資源分布,重新分配整個管控系統(tǒng)的計算能力。將系統(tǒng)主要計算能力上移到控制器,結(jié)合計算平臺自由伸縮特性,為系統(tǒng)提供彈性計算能力。同時降低計算能力受限的設(shè)備的計算負荷,將廣泛分布于網(wǎng)絡(luò)中的設(shè)備,改造成網(wǎng)絡(luò)運行數(shù)據(jù)采集單元,持續(xù)快速的向控制器推送網(wǎng)絡(luò)的實時運行數(shù)據(jù),由控制器完成基于全局視角的系統(tǒng)分析和控制。
從光纖故障處理的具體場景,對比數(shù)據(jù)驅(qū)動型系統(tǒng)與傳統(tǒng)管理系統(tǒng)的區(qū)別。當(dāng)光纖發(fā)生故障后,傳統(tǒng)系統(tǒng)中設(shè)備產(chǎn)生LOS(Loss of signal)告警,并將告警傳遞給網(wǎng)管,網(wǎng)管將設(shè)備告警傳遞給上層管理系統(tǒng)(OSS);上層管理系統(tǒng)接收到設(shè)備告警后,并無法直接判斷故障,此時會下發(fā)查詢指令,向廠商網(wǎng)管查詢相關(guān)設(shè)備的性能數(shù)據(jù);網(wǎng)管會根據(jù)請求,向設(shè)備下發(fā)查詢指令,設(shè)備向廠商網(wǎng)管報告15min性能,然后廠商網(wǎng)管繼續(xù)向OSS上報設(shè)備返回的15min性能。光網(wǎng)絡(luò)設(shè)備的計算能力有限,在故障的時候要產(chǎn)生告警,同時又要應(yīng)對集中的查詢請求,這就是往往在發(fā)生故障的時候,操作人員體會到設(shè)備反應(yīng)變慢的根本原因。而且越是反應(yīng)慢,操作人員越會連續(xù)觸發(fā)設(shè)備查詢請求,導(dǎo)致情況變的更糟。傳輸設(shè)備作為整個系統(tǒng)中計算能力最弱的單元,卻在最關(guān)鍵的時候承擔(dān)了主要計算壓力,這樣的系統(tǒng)計算能力分配是不合理的。
在騰訊開放光網(wǎng)絡(luò)系統(tǒng),我們按照系統(tǒng)各單元的客觀計算能力條件,重新分布了整個系統(tǒng)的計算能力。將設(shè)備的計算需求減載,將主要計算能力上移到控制器。將設(shè)備改造成一個精細、穩(wěn)定的采集裝置,源源不斷的采集系統(tǒng)運行數(shù)據(jù),持續(xù)、快速向控制器上報??刂破鞒袚?dān)主要計算能力。對于相同的光纖故障處理場景:設(shè)備采集性能數(shù)據(jù)持續(xù)上報,控制器根據(jù)所有設(shè)備上報的性能數(shù)據(jù)及網(wǎng)絡(luò)邏輯結(jié)構(gòu)數(shù)據(jù),快速計算得到光纜故障的結(jié)論,并反饋給上層網(wǎng)管系統(tǒng)。如果上層網(wǎng)管系統(tǒng)需要查詢故障當(dāng)時的系統(tǒng)性能數(shù)據(jù),則直接向控制器進行請求,此時所有的設(shè)備性能數(shù)據(jù)均保存在控制器,控制器并不會向設(shè)備發(fā)起查詢命令,而是將該查詢請求終結(jié)在控制器內(nèi)部。即使上層管理系統(tǒng),有突發(fā)的多個查詢請求,控制器也能夠合理應(yīng)對。系統(tǒng)計算能力重新分配,讓設(shè)備和控制器更加合理的承擔(dān)系統(tǒng)功能,使系統(tǒng)更加高效運轉(zhuǎn)。
設(shè)備作為整個系統(tǒng)的運行數(shù)據(jù)采集終端,我們在想辦法提升其采集數(shù)據(jù)的速率和精度,在我們的持續(xù)努力下,目前設(shè)備可以按照1s間隔向控制器推送性能數(shù)據(jù),而且關(guān)鍵性能指標(biāo)的時間分辨率可以達到20ms。控制器作為系統(tǒng)計算能力主要單元,則在持續(xù)提升其數(shù)據(jù)處理及時性和準(zhǔn)確性?;?s streaming telemetry構(gòu)建的數(shù)字驅(qū)動系統(tǒng),對比傳統(tǒng)傳輸系統(tǒng)的15min性能數(shù)據(jù),不僅僅是900倍的時間分辨率提升,更是對系統(tǒng)觀測能力的革命。正是基于對系統(tǒng)的精細化觀測,使我們能夠精確感知、準(zhǔn)確控制。
/挑戰(zhàn)/
數(shù)據(jù)驅(qū)動為系統(tǒng)帶來革命性變化的同時,也帶極大挑戰(zhàn)。數(shù)據(jù)驅(qū)動的核心是:數(shù)據(jù)與算法。我們希望在這兩個方面,與更多的合作伙伴一起合作。在數(shù)據(jù)為王的時代,數(shù)據(jù)源的質(zhì)量直接影響到系統(tǒng)的正確表達,如何保證數(shù)據(jù)源的質(zhì)量,如何監(jiān)控數(shù)據(jù)源的質(zhì)量,是一項關(guān)鍵任務(wù)。而找到數(shù)據(jù)背后的真相,發(fā)現(xiàn)問題的本質(zhì)則會從根本上改變我們和供應(yīng)商的協(xié)作方式,由原來只能在問題發(fā)生后被動接受故障分析報告,演進到可以根據(jù)數(shù)據(jù)發(fā)現(xiàn)真相,有效驅(qū)動供應(yīng)商進行精準(zhǔn)的問題修復(fù),防患于未然。在算法方面,找到針對指標(biāo)感知更加通用的算法,找到更加合理的帶寬質(zhì)量分析算法,找到更加通用的硬件和光纖分析算法,則是我們關(guān)注的重點。在有效解決光網(wǎng)絡(luò)系統(tǒng)問題的同時,更通用的算法,也可以更加便捷的應(yīng)用到其他網(wǎng)絡(luò)領(lǐng)域中。
作者:陳明剛