2011年12月22日,在工業(yè)信息化部、信息化推進(jìn)司、中國數(shù)據(jù)中心產(chǎn)業(yè)聯(lián)盟的支持下,中國IDC產(chǎn)業(yè)聯(lián)盟網(wǎng)承辦2011中國數(shù)據(jù)中心建設(shè)與運(yùn)維高層論壇開幕了,此次論壇以“領(lǐng)先科技,締造未來”為主題,與會將就新一代數(shù)據(jù)中心規(guī)劃,建設(shè),運(yùn)維,和安全等實質(zhì)性問題進(jìn)行廣泛探討和互動交流。機(jī)房360對本次高層論壇做了全程直播。以下是王加?xùn)|演講的全文實錄:
王加?xùn)|:各位來賓大家下午好,現(xiàn)在由我給大家介紹一下SNA存儲網(wǎng)絡(luò)故障,排錯方案。我們這個主題跟今天上午,包括今天下午大部分主題發(fā)言范圍,可能差距比較大一些,并沒有涉及到一些基礎(chǔ)系統(tǒng)建設(shè),包括運(yùn)維。我們這個
系統(tǒng)解決方案是用戶的
服務(wù)器,網(wǎng)絡(luò)設(shè)備,包括存儲系統(tǒng)已經(jīng)上線以后,他的各種業(yè)務(wù)系統(tǒng)已經(jīng)上線以后,如果出現(xiàn)后端
服務(wù)器跟存儲系統(tǒng)之間性能比拼,就可能用到我們SNA的解決方案。所以,還是一個比較細(xì)分的市場,我是負(fù)責(zé)數(shù)據(jù)存儲網(wǎng)絡(luò)這塊業(yè)務(wù)在亞洲的市場拓展。
我們本次大概會有下面幾個部分,一個是國內(nèi)外大型機(jī)構(gòu)數(shù)據(jù)中心系統(tǒng)及維護(hù)模式不同,包括部署工具之前和之后的場景。另外,我們會簡單介紹一下存儲網(wǎng)絡(luò)分析幾個典型應(yīng)用場景,最后就我們的解決方案做一個簡單介紹,包括也會提到我們目前在上海,包括北京、上海的客戶案例。首先我們看一下大型機(jī)構(gòu)數(shù)據(jù)中心在國內(nèi)外系統(tǒng)維護(hù)模式不同,這是一個ESG創(chuàng)始人講的一段話,現(xiàn)在IT系統(tǒng)越來越復(fù)雜,問題也越來越多,在應(yīng)用各個當(dāng)中也提出越來越多的挑戰(zhàn),我們需要使用一些好的工具,或者是維護(hù)的解決方案定義出問題來。
這個是國外大型機(jī)構(gòu)跟國內(nèi)大型機(jī)構(gòu)目前一些不同,我們在國內(nèi)跟很多機(jī)構(gòu)用戶做過很多交流,國外目前,其實我們發(fā)現(xiàn)他稅金規(guī)模已經(jīng)相當(dāng)龐大,不說現(xiàn)在,即便10年以前。我們發(fā)現(xiàn)包括美國,在歐洲并不是一些很知名類似于金融,證券,運(yùn)營商這種客戶,他的數(shù)據(jù)中心與我們10年以后,中國很多大型機(jī)構(gòu)基本上還要大很多。因為這幾年國內(nèi)數(shù)據(jù)機(jī)房建設(shè)也越來越大,規(guī)模也越來越大,部署的系統(tǒng)和業(yè)務(wù)越來越大,也有趕超的趨勢。目前來講,相對是小一些。
那么,國內(nèi)因為規(guī)模比較大出的問題也非常多,目前相對來講,國內(nèi)因為規(guī)模的問題相對還小一些。我們跟很多金融企業(yè)溝通起來,很多問題還是僅限于線,包括鏈路的問題等等,很多問題可能通過應(yīng)用跟系統(tǒng)本身提供的一些管理軟件也可以得到解決,碰到非常復(fù)雜的問題前幾年并不是特別多。這幾年規(guī)模慢慢大起來以后,問題也慢慢出來了。在國外的話,他的用戶碰到問題的時候,除了使用像系統(tǒng)廠商提供的一些管理系統(tǒng),還有一些
服務(wù)器的管理系統(tǒng),網(wǎng)絡(luò)設(shè)備與網(wǎng)絡(luò)設(shè)備的管理系統(tǒng),智能設(shè)備與智能設(shè)備的管理系統(tǒng)。除此之外,還有很多第三方網(wǎng)管工具,或者是管理工具,包括比方說我們上了這種業(yè)務(wù)系統(tǒng)以后,我們碰到這種應(yīng)用性能的問題,我這個業(yè)務(wù)系統(tǒng),對終端用戶連上來以后覺得非常慢,打開一個頁面查一個東西,可能幾十秒鐘出不來結(jié)果,這就是性能的問題。
實際上來講,國外的公司現(xiàn)在已經(jīng)越來越多利用第三方整個工具,包括我下面提的應(yīng)用性能管理的問題,典型代表像美國一些公司,大家可能對Snifer都比較熟悉,對你以太網(wǎng)進(jìn)行監(jiān)控和分析。國內(nèi)目前來看,我們碰到大部分問題,尤其企業(yè)一些基本客戶還是比較傾向于碰到問題的時候,尤其稍微復(fù)雜的問題都還是叫廠商過來,他們也買了廠商7×24小時的服務(wù),一個電話就過來,廠商也非常重視,因為是大的機(jī)構(gòu)用戶。所以,出現(xiàn)問題的時候,像包括
服務(wù)器,數(shù)據(jù)庫,中間件,交換機(jī),存儲設(shè)備都會過來,不行就做多方會診解決問題,目前這種情況還是比較多一些。
那么,自己獨立配置一些第三方診斷,運(yùn)維工具來進(jìn)行診斷,目前這種情況還不是非常多。這個就是剛才我提到的,這是通過美國一個公司生成業(yè)務(wù)拓?fù)鋱D,從這個圖上面可以容易讓你知道,一個用戶請求經(jīng)過每一步的研究,會很方便找到問題在哪一個點。但是,我們知道一旦問題點,比如這張圖里面最右邊的數(shù)據(jù)庫,
服務(wù)器跟系統(tǒng)之間的時候,這個時候帶來的問題就兩個方向。一個方向你如果查數(shù)據(jù)庫內(nèi)部資源,比如
服務(wù)器內(nèi)部像CPU,內(nèi)存,網(wǎng)絡(luò),各種資源進(jìn)程如果都非常正常的話,你數(shù)據(jù)庫
服務(wù)器對客戶端請求仍然非常慢。那問題就在什么地方呢?肯定跟后端存儲網(wǎng)絡(luò)有關(guān)系。
但是,即便剛剛提到的數(shù)據(jù)庫
服務(wù)器本身都有正常,并不一定是后端存儲的問題。所以,我們這個分析工具就應(yīng)該在這個地方,用在數(shù)據(jù)庫
服務(wù)器跟交換機(jī),存儲之間這個環(huán)節(jié)。我們通過相應(yīng)的數(shù)據(jù),進(jìn)行一定的分析,并且非常明確的告訴用戶,性能的慢或者不穩(wěn)定,各種問題,根源到底是不是存儲系統(tǒng),是不是交換機(jī),或者是不是我這個
服務(wù)器。所以,這是我們適用的范圍。
那么,一個典型的部署,我們這個產(chǎn)品是Xgig,一般是終端用戶報告我的業(yè)務(wù)系統(tǒng)慢,我用的ERP慢,計費系統(tǒng)慢,供應(yīng)鏈管理系統(tǒng)慢,慢可能就會聯(lián)絡(luò)到存儲管理員,可能會懷疑存儲系統(tǒng)慢及存儲網(wǎng)絡(luò)慢。那么存儲管理員第一步會使用一些存儲資源管理,或者SNA的管理人員進(jìn)行定位。如果你找到了很簡單,你可能通過一個手段消除這個問題的根源,應(yīng)用性能的豐富。如果找不到問題,就進(jìn)一步通過設(shè)備管理工具進(jìn)行定位,如果找到了OP,找不到可能這個時候就沒辦法聯(lián)系廠商。但是,用戶自己可能會覺得是
服務(wù)器問題,有一個初斷,或者是存儲的問題,相應(yīng)會把廠商叫過來。當(dāng)然先通過電話,電話不行再通過上門服務(wù)。你懷疑這個節(jié)點確實有問題解決了,結(jié)果不了就得叫另外一個長上過來。
如果大家都看不到問題的話,把大家都叫在一起進(jìn)行多方會診。但是有些問題,剛才談存儲網(wǎng)絡(luò)復(fù)雜以后有些問題不是這么簡單的,可能從某一方,從
服務(wù)器自身來看,看你上面記錄,進(jìn)程資源情況都很好,交換機(jī)也好的,存儲系統(tǒng)能力也很好,可能存儲廠商人員可能會通過密碼登入內(nèi)部,這也是好的。這個問題怎么辦呢?最終結(jié)果,往往還是說要部署我們第三方工具,來抓一些數(shù)據(jù)進(jìn)行一個分析,最終進(jìn)行定義。如果數(shù)據(jù)中心里面事先部署了SNA的分析工具,這個情況就跟剛才不大一樣。一般如果有問題打給存儲管理員,存儲管理員如果找到問題就OK,如果覺得一看性能沒問題,直接就進(jìn)行排除,應(yīng)用慢就找其他環(huán)節(jié),就不是我后臺存儲網(wǎng)絡(luò)的問題。如果通過工具一看,如果慢的根源就在存儲網(wǎng)絡(luò),我們就抓一些數(shù)據(jù)來進(jìn)行分析,這個問題在什么地方,可能是什么原因,包括存儲網(wǎng)絡(luò)存儲和
服務(wù)器的理解情況,使問題得到解決,如果解決不了,我也可以很快把抓的數(shù)據(jù)發(fā)給廠商。因為這些廠商都會看的懂我們抓的數(shù)據(jù),他們很快就會對一些問題,給客戶一個解釋。
當(dāng)然,沒必要等用戶跑到現(xiàn)場來抓數(shù)據(jù)進(jìn)行分析,也耽誤了很多時間。我們前面談到存儲網(wǎng)絡(luò)分析工具,目前常用的幾個場景有這么幾個地方,一個因為業(yè)務(wù)慢,這可能是我們碰到最多問題,你等到業(yè)務(wù)上線以后,可能平常應(yīng)該很正常。在某些時段,或者某些場合下面你會發(fā)現(xiàn)性能不好,剛才講了你可以聯(lián)通,但是大家體驗不好,查個東西,寫個數(shù)據(jù)很難忍受,他這種情況比較容易解決。還有業(yè)務(wù)系統(tǒng)沒有規(guī)律的,包括不穩(wěn)定的情況,這兩種情況是更好使用我們的產(chǎn)品。下面會談四種常見案例,第一種就是我們看到應(yīng)用系統(tǒng)的可用性。應(yīng)用系統(tǒng)一般都在
服務(wù)器上面,訪問后端存儲系統(tǒng),如果慢的話?我們可以把我們工具通過光纖分路器拿出來進(jìn)行分析,來判斷是不是在存儲網(wǎng)絡(luò)這一側(cè)出現(xiàn)問題。
第二向一些,如果大的數(shù)據(jù)中心我們就會做遠(yuǎn)程災(zāi)備,建災(zāi)備中心。災(zāi)備中心兩端設(shè)備會定期進(jìn)行備份,這個時候我們就可以來看,相當(dāng)于復(fù)制的性能到底怎么樣。還有我們會做一些對數(shù)據(jù)中心存儲系統(tǒng)一側(cè)進(jìn)行監(jiān)測,當(dāng)然這還不止電子商務(wù)網(wǎng)站,一般企業(yè)應(yīng)用,只要把存儲這一側(cè)監(jiān)測起來,所有業(yè)務(wù)系統(tǒng),訪問存儲這一端如果慢很快就可以找到根源,進(jìn)行集中監(jiān)控。
還有現(xiàn)在很多集成系統(tǒng)廠商把老的東西和新的東西整合在一起,所有
服務(wù)器都通過存儲網(wǎng)絡(luò)統(tǒng)一訪問存儲信息化系統(tǒng),有他來分配數(shù)據(jù)整體到哪些具體上面。往往這個時候,我們發(fā)現(xiàn)很多用戶也碰到一些快慢問題,你反而沒上信息化之前是好的,上了信息化之后反而問題更多。這種場合也非常適合用我們這個東西,我們在虛擬化系統(tǒng)前端和后端都把這個抓下來進(jìn)行分析,我們就要比較一下,比方說前端后端延遲到底怎么樣,很容易得到問題的答案。
下面我們稍微簡單看一下捷迪訊公司一些業(yè)務(wù),包括我們產(chǎn)品的情況。捷迪訊公司是99年加拿大JDS和美國Uniphase合并而成,總部設(shè)在美國硅谷Milpitas,NASDAQ上市公司。2009年7月15日收購美國Finisar公司協(xié)議工具部門,踏入存儲網(wǎng)絡(luò)測試領(lǐng)域,我們涉及FC協(xié)議分析,SAS,SATA協(xié)議,iSCS,CIFS,NFS協(xié)議都非常擅長,我們有一個MedusaLabs實驗室,進(jìn)行一些測試服務(wù)。這是使用我們這個產(chǎn)品的客戶,基本上可以看到,業(yè)界從做存儲網(wǎng)卡到存儲交換機(jī),到存儲系統(tǒng),甚至包括存儲硬盤都是我們客戶。
我們現(xiàn)在這個產(chǎn)品還抓了數(shù)據(jù)格式,各個廠商,基本上用戶數(shù)據(jù)中心里面涉及的主機(jī),交換機(jī)等等都會認(rèn)識,他們的工程師也都會用我們這個工具進(jìn)行分析。這個展品就是我們前面提到Xgig的產(chǎn)品,其實是一個硬件設(shè)備。當(dāng)然了,我們具體的配置,管理,分析也是通過軟件來做的,設(shè)備的主要目的是為了把存儲網(wǎng)絡(luò)鏈路上的數(shù)據(jù)拿下來存在里面,然后我這個電腦裝的軟件,把系統(tǒng)設(shè)備找出來進(jìn)行分析,找出問題根源。
這是幾個協(xié)議,一個是FibreChannel,還有存儲交換機(jī),還有主力系統(tǒng),現(xiàn)在都有8G,還有廠商正在研究16G協(xié)議,真正用戶部署還得2年以后。以太網(wǎng)這塊,包括像1個3,10個G,40G都可以進(jìn)行分析,另外還有SaaS的協(xié)議也都可以做分析。這是我們軟件的一個運(yùn)行界面,通過界面可以看到,這是XgigFC協(xié)議分析解碼界面,左下角基本上類似于Xgig的界面,從這當(dāng)中進(jìn)行解碼出來。這個是對抓的數(shù)據(jù)進(jìn)行一個系統(tǒng)專家分析,告訴你什么地方有什么問題,紅色的表示出錯,紅色是警告。前面也提到為了應(yīng)用我們解決方案,首先第一步要從鏈路上把這個拿下來,要經(jīng)過高密度分光路器,這是一個實際圖,這是一個機(jī)架設(shè)備,4個小模塊,每個模塊有四組,每一組有三個端口,其中前面兩個端口相當(dāng)于一進(jìn)一出。第三個端口把兩個方向數(shù)據(jù),可以拿出來,跟我們工具的連接是這樣的。
我們可以看到第三個端口,出來的兩個鏈路數(shù)據(jù)直接可以接到我們工具這兩個端口上。右上角這個圖,如果接在交換機(jī)和傳統(tǒng)設(shè)備之間的話,高密度分裝器如何連接的。下面舉兩個案例,這是國內(nèi)銀行間互聯(lián)機(jī)構(gòu)。他們今年3月份出了一個問題,每天晚上9點多鐘,基本上這個時間,跨行間交易,業(yè)績就會堵住,在交易大屏幕上可以看到瞬間業(yè)務(wù)訂單就堵塞在那邊,下不下去。
這左邊是一個數(shù)據(jù)庫
服務(wù)器,IBM,中間四臺是光纖通道存儲交換機(jī),右邊這臺是一個OEM的高端存儲,你看走的雙鏈路,
服務(wù)器是兩條鏈路連兩個交換機(jī),兩個交換機(jī)連另外兩個交換機(jī),這兩個交換機(jī)互相做災(zāi)備。當(dāng)時其實用戶沒有用這個功能之前,找這個問題已經(jīng)分析了兩三個月,總會擔(dān)心會不會有根源的問題發(fā)現(xiàn)。為此,用戶這邊包括很多戰(zhàn)略管理人員經(jīng)常通宵達(dá)旦把廠商的人叫過來分析,也分析不出來,一個IBM,每個人看自己系統(tǒng)都完全沒有問題,都非常正常,但是這個問題基本上每天都出現(xiàn)。當(dāng)然,也不是一定某一個時間點出現(xiàn),但都會出現(xiàn)。所以,這個問題比較復(fù)雜。
我們實際上現(xiàn)在,當(dāng)然這個解決方案沒有用到分裝器,我們通過交換機(jī)上做端口競相,分別把
服務(wù)器連兩個交換機(jī)的兩個鏈路,以及右邊這兩個交換機(jī)連存儲兩個鏈路應(yīng)該競相出來,連在我們這個設(shè)備,把數(shù)據(jù)抓起來,抓了之后就可以進(jìn)行分析。他這個系統(tǒng)里面也是一個多路徑,
服務(wù)器端是負(fù)載均衡的兩條鏈路到這個系統(tǒng)里來。這個我們抓過來以后做一定分析,找到這個流量圖,右邊紅線這個地方流量基本上就消失了,沒地方要了。這邊是我們專家分析的一些結(jié)果,順著這個結(jié)果去找根源,發(fā)現(xiàn)他是在第二套鏈路,右邊交換機(jī)連存儲系統(tǒng),這個鏈路上面,在某一個時刻,多少,多少秒,過來的32個訪問存儲命令全部都掛在那邊,什么意思呢?我讀寫存儲系統(tǒng)的命令,存儲系統(tǒng)完全沒有響應(yīng),掛的時間是2.6秒鐘。因為正常來講的話,你要發(fā)一個毒的命令到存儲系統(tǒng),存儲系統(tǒng)應(yīng)該回第一個數(shù)據(jù),第二個數(shù)據(jù)回來,一個寫命令,寫在存儲系統(tǒng)上,存儲系統(tǒng)就說你可以寫了,下面存儲器就把這個寫出來。所以,這些存儲系統(tǒng)都沒有響應(yīng),我們判斷存儲系統(tǒng)這個時候內(nèi)部是掛掉的。當(dāng)然,掛的時間不是很長,2.6秒鐘,但是對業(yè)務(wù)影響非常關(guān)鍵,我們同時發(fā)現(xiàn)他跨行間的交易一下子就堵塞了,所以這是很嚴(yán)重的問題。
這是我們具體某一個命令,你看這上面是讀的命令,下面這行是2.588的地方,這是一個具體展示。剛剛講的這個例子問題是在存儲設(shè)備,存儲系統(tǒng)內(nèi)部的問題。我現(xiàn)在講這是一個北京四大行之一,這個是今年6月份的時候,他們要上第三方交易平臺,有一個上限結(jié)果出問題上不了。因為這個服務(wù)者考慮這個系統(tǒng)連起來之后,超過三個多小時磁盤找不到了,盤掉了。這個問題根源是存儲系統(tǒng)那端發(fā)了一個正常的數(shù)據(jù)包,就是我們現(xiàn)在上面這個線停在這個地方,發(fā)了一個包,發(fā)了一個主機(jī),結(jié)果主機(jī)存儲門檻碰到這個包可能有問題,就掛掉了。操作系統(tǒng)過了幾秒鐘之后就提醒應(yīng)用,磁盤也看不見。
去年還是前年在上海有一個證券交易中心,在這個地方也出現(xiàn)問題,當(dāng)時部署我們系統(tǒng)也是15分鐘沒有搞定,之前也是IBM跟EMC重組,大概將近1個多月也是不知道怎么回事,分析完以后從三個點一看就是這個分析系統(tǒng)性能問題,美國研發(fā)也確認(rèn)存儲系統(tǒng)里面有問題,他自己看設(shè)備管理器原來都是很正常的。那么,這個是我們在國外比較多的一些大型客戶成功案例,包括從運(yùn)營商經(jīng)營,證券,大的企業(yè),超算中心也算的非常多。我的介紹就到這里,大家如果以后對存儲網(wǎng)絡(luò)這塊新的排錯,調(diào)優(yōu)有什么問題可以聯(lián)系我們在各地的分支機(jī)構(gòu),謝謝大家。