鄔賀銓：我們需要國家大數(shù)據(jù)戰(zhàn)略

訊石光通訊網(wǎng) 發(fā)布時(shí)間:2013/12/16 16:06:29 編者:iccsz

摘要：在日前舉行的第十屆國家信息化專家論壇上，中國工程院院士、中國互聯(lián)網(wǎng)協(xié)會(huì)理事長鄔賀銓指出，大數(shù)據(jù)需要更強(qiáng)調(diào)數(shù)據(jù)挖掘利用，而針對(duì)目前存在的技術(shù)應(yīng)用、人才、安全隱私等問題，最關(guān)鍵的是要有國家大數(shù)據(jù)戰(zhàn)略，使其成為轉(zhuǎn)變經(jīng)濟(jì)增長方式的有效抓手。

　　ICCSZ訊 “不要被大數(shù)據(jù)(Big Data)的‘Big’誤導(dǎo)，大數(shù)據(jù)更強(qiáng)調(diào)的不是數(shù)據(jù)大，而是數(shù)據(jù)挖掘。”在日前舉行的第十屆國家信息化專家論壇上，中國工程院院士、中國互聯(lián)網(wǎng)協(xié)會(huì)理事長鄔賀銓指出，大數(shù)據(jù)需要更強(qiáng)調(diào)數(shù)據(jù)挖掘利用，而針對(duì)目前存在的技術(shù)應(yīng)用、人才、安全隱私等問題，最關(guān)鍵的是要有國家大數(shù)據(jù)戰(zhàn)略，使其成為轉(zhuǎn)變經(jīng)濟(jì)增長方式的有效抓手。

　　大數(shù)據(jù)的價(jià)值好似沙里淘金

　　NBA從上世紀(jì)80年代開始將球員在賽場(chǎng)上的表現(xiàn)數(shù)據(jù)化，經(jīng)過30多年的積累已經(jīng)達(dá)到可辨別每一個(gè)球員在場(chǎng)上的弱點(diǎn)，方便教練進(jìn)行針對(duì)性戰(zhàn)術(shù)安排。目前30家NBA球隊(duì)俱樂部已有半數(shù)聘請(qǐng)了數(shù)據(jù)分析師，他們的平均勝率達(dá)到59.3%，而沒有進(jìn)行數(shù)據(jù)分析的球隊(duì)僅有平均40.7%的勝率。這就是大數(shù)據(jù)的價(jià)值體現(xiàn)。

　　大數(shù)據(jù)的價(jià)值究竟從何而來?鄔賀銓認(rèn)為，數(shù)據(jù)大與價(jià)值大未必成正比。例如將一個(gè)人每分鐘的身體數(shù)據(jù)記錄下來，對(duì)了解該人的身體狀況是有用的，但如果將他的每毫秒的身體數(shù)據(jù)都記錄下來，數(shù)據(jù)量將較前者高6萬倍，與按每分鐘記錄的數(shù)據(jù)相比，其價(jià)值并不能增加。大數(shù)據(jù)的價(jià)值在于樣本數(shù)的普遍性。統(tǒng)計(jì)一個(gè)人每分鐘的身體狀況數(shù)據(jù)與統(tǒng)計(jì)60個(gè)人每小時(shí)的身體狀況數(shù)據(jù)相比，可能后者在統(tǒng)計(jì)上更有意義。大數(shù)據(jù)往往是低價(jià)值密度。大數(shù)據(jù)中多數(shù)數(shù)據(jù)可能是重復(fù)的，忽略其中一些數(shù)據(jù)并不影響對(duì)其挖掘的效果。因此可以說大數(shù)據(jù)的價(jià)值好似沙里淘金和海底撈針。

　　微軟的研究發(fā)現(xiàn)，F(xiàn)acebook 90%的Hadoop任務(wù)數(shù)據(jù)集在100GB以下，Yahoo平均為12.5GB。北京公交一卡通乘客每天刷卡4000萬次、地鐵1000萬人次，每天累計(jì)的數(shù)據(jù)是MB級(jí)，一年下來也不到TB級(jí)，充其量只是中數(shù)據(jù)，但對(duì)這一數(shù)據(jù)量的挖掘顯然就能得出北京人群使用公交的出行規(guī)律，對(duì)于優(yōu)化北京公交線路的設(shè)置有足夠的價(jià)值。因此鄔賀銓指出，事實(shí)上小數(shù)據(jù)也值得重視，對(duì)未到TB級(jí)規(guī)模的數(shù)據(jù)的挖掘也有價(jià)值。

　　網(wǎng)絡(luò)的數(shù)據(jù)并非都可信

　　Google的流感指數(shù)在2008年H7N1流感爆發(fā)時(shí)給出的預(yù)測(cè)比美國疾控中心早兩周發(fā)布，與其數(shù)據(jù)相似度0.9。美國紐約州2013年1月流感流行狀況十分嚴(yán)峻，政府發(fā)布了“公共健康緊急狀態(tài)”的通告，大眾媒體的廣泛報(bào)道，影響了谷歌用戶的搜索因?yàn)?，?dǎo)致Google的流感指數(shù)估值出現(xiàn)了假陽性，遠(yuǎn)高于疾控中心的統(tǒng)計(jì)數(shù)值。在谷歌流感指數(shù)的啟發(fā)下，紐約羅切斯特大學(xué)利用Twitter的數(shù)據(jù)進(jìn)行了嘗試，可以提前8天預(yù)報(bào)流感對(duì)人體的侵襲狀況，而且準(zhǔn)確率高達(dá)90%，不過Twitter的使用者大部分是年輕人，而季節(jié)性流感的襲擾對(duì)象多為抵抗力較弱的老年人和兒童，因此基于Twitter的微博判斷流感有片面性。

　　鄔賀銓由此指出，網(wǎng)絡(luò)的數(shù)據(jù)并非都可信。網(wǎng)絡(luò)數(shù)據(jù)中真?zhèn)位祀s，特別是微博傳播不實(shí)消息散布很快，而微信圈子內(nèi)的消息不易監(jiān)控，對(duì)信息內(nèi)容管理提出挑戰(zhàn)。過去往往認(rèn)為“有圖有真相”，事實(shí)上圖片可以移花接木、張冠李戴、時(shí)空錯(cuò)亂，或者照片是對(duì)的，可是文字解釋是捏造的，這樣的事情已經(jīng)屢見不鮮。鑒于“謠言轉(zhuǎn)發(fā)500次就是傳謠”，一些網(wǎng)站規(guī)定所有帖子不論是否真實(shí)一律對(duì)轉(zhuǎn)發(fā)自動(dòng)封頂不超過499次，從輿情收集效果看，人為的截尾導(dǎo)致失去真實(shí)性。

　　他也指出，傳感器收集的數(shù)據(jù)并非都是可信的，特別是歷史上該傳感器的數(shù)據(jù)與同類的其他傳感器報(bào)出的數(shù)據(jù)差異很大時(shí)，該數(shù)據(jù)就應(yīng)棄用。既然數(shù)據(jù)會(huì)有重復(fù)而且并非都是全部有用的，因此需要進(jìn)行數(shù)據(jù)過濾，這對(duì)簡(jiǎn)化存儲(chǔ)和提高可信性都是有意義的。還可以利用異構(gòu)多源數(shù)據(jù)來提高可信性，收集多源異構(gòu)的數(shù)據(jù)有利于對(duì)數(shù)據(jù)的理解。例如通過城市交通監(jiān)控系統(tǒng)可以實(shí)時(shí)掌握交通流量，如果加上政府?dāng)?shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)，就可能知道發(fā)生交通擁堵的原因。

　　要重視數(shù)據(jù)的挖掘利用

　　大數(shù)據(jù)的挖掘深化了信息技術(shù)的應(yīng)用，催生新的應(yīng)用和新業(yè)態(tài)出現(xiàn)，大數(shù)據(jù)提升了管理和決策的智能化水平，鄔賀銓提出要重視數(shù)據(jù)的挖掘利用，不僅是大數(shù)據(jù)，中小數(shù)據(jù)的挖掘也有意義。

　　大數(shù)據(jù)的量越大處理難度越大，但僅僅是需要更多的服務(wù)器或者說需要更高速的服務(wù)器。鄔賀銓認(rèn)為，大數(shù)據(jù)的主要挑戰(zhàn)是實(shí)時(shí)性數(shù)據(jù)變化快。對(duì)于靜態(tài)的數(shù)據(jù)，可以將數(shù)據(jù)帶進(jìn)程序來處理，但對(duì)于動(dòng)態(tài)的數(shù)據(jù)，需要帶程序進(jìn)數(shù)據(jù)。大數(shù)據(jù)更大的挑戰(zhàn)是品種多，特別是非結(jié)構(gòu)化。對(duì)于結(jié)構(gòu)化數(shù)據(jù)可以使用關(guān)系數(shù)據(jù)庫技術(shù)來處理，對(duì)于非結(jié)構(gòu)化數(shù)據(jù)則要用NoSQL來處理。針對(duì)結(jié)構(gòu)化數(shù)據(jù)的虛擬存儲(chǔ)平臺(tái)采用了動(dòng)態(tài)分層技術(shù)，根據(jù)數(shù)據(jù)被調(diào)用的頻率，自動(dòng)將常用的數(shù)據(jù)搬到最高層。針對(duì)非結(jié)構(gòu)化數(shù)據(jù)使用內(nèi)容歸檔平臺(tái)，把結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集成到一個(gè)單一的動(dòng)態(tài)歸檔架構(gòu)中，設(shè)計(jì)一套軟件和元數(shù)據(jù)庫規(guī)則，通過給數(shù)據(jù)加標(biāo)簽的方式，建立不同維度，從而具有模糊查詢功能。

　　鄔賀銓指出，“大”僅僅是大數(shù)據(jù)的特征之一，大數(shù)據(jù)包括ABC三個(gè)要素：大分析(Analytic)、高帶寬(Bandwidth)、大內(nèi)容(Content)。實(shí)時(shí)性是大數(shù)據(jù)挖掘的挑戰(zhàn)，而非結(jié)構(gòu)化是大數(shù)據(jù)挖掘的主要挑戰(zhàn)。目前國際上大數(shù)據(jù)處理技術(shù)主要還是結(jié)構(gòu)性數(shù)據(jù)，據(jù)說大數(shù)據(jù)中80%以上都是非結(jié)構(gòu)性數(shù)據(jù)。2012年斯坦福大學(xué)與Google合作建立深度學(xué)習(xí)網(wǎng)絡(luò)，對(duì)來自YouTube的上千萬幅視頻幀自主學(xué)習(xí)，用10天學(xué)會(huì)了識(shí)別貓的臉孔，然后從2萬張未見過的照片中找貓，準(zhǔn)確率僅達(dá)到15.8%?？梢姺墙Y(jié)構(gòu)性數(shù)據(jù)的挖掘技術(shù)到實(shí)用還有相當(dāng)距離。目前國內(nèi)外都有很多大數(shù)據(jù)應(yīng)用成功例子，但基本上還是結(jié)構(gòu)性數(shù)據(jù)，對(duì)結(jié)構(gòu)性數(shù)據(jù)的挖掘是大數(shù)據(jù)應(yīng)用的切入點(diǎn)。

　　大數(shù)據(jù)的挑戰(zhàn)最終是戰(zhàn)略問題鄔賀銓指出，當(dāng)前大數(shù)據(jù)面臨的問題主要表現(xiàn)在技術(shù)和應(yīng)用、人才、安全隱私、發(fā)展戰(zhàn)略等方面。

　　首先是技術(shù)和應(yīng)用問題。中國人口居世界首位，但2010年中國新存儲(chǔ)的數(shù)據(jù)為250PB，僅為日本的60%和北美的7%。我國一些部門和機(jī)構(gòu)擁有大量數(shù)據(jù)但以鄰為壑，寧愿自己不用也不愿提供給有關(guān)部門共享，導(dǎo)致信息不完整或重復(fù)投資。2012年中國的數(shù)據(jù)存儲(chǔ)量達(dá)到364EB，其中55%(200EB)的數(shù)據(jù)需要一定程度的保護(hù)，然而目前只有不到一半(44%，即96EB)的數(shù)據(jù)得到保護(hù)。我國在自主可控的大數(shù)據(jù)分析技術(shù)與產(chǎn)品方面與發(fā)達(dá)國家相比有不少差距。國內(nèi)企業(yè)在數(shù)據(jù)庫、數(shù)據(jù)倉庫、商業(yè)智能分析軟件等領(lǐng)域基礎(chǔ)薄弱，尤其是大數(shù)據(jù)方面已經(jīng)遠(yuǎn)遠(yuǎn)落后于國外先進(jìn)企業(yè)。

　　其次是人才問題。500年前達(dá)·芬奇可以同時(shí)是畫家、音樂家、工程師、科學(xué)家，100年前的醫(yī)生可以了解醫(yī)學(xué)領(lǐng)域的所有分支，今天一名初級(jí)醫(yī)生必須同時(shí)了解大約一萬種疾病和綜合征、3000種藥物和1100種檢驗(yàn)方法。估計(jì)一個(gè)專業(yè)的醫(yī)生也需要每天學(xué)習(xí)21小時(shí)才能跟得上學(xué)科的發(fā)展。Gartner咨詢公司預(yù)測(cè)大數(shù)據(jù)將為全球帶來440萬個(gè)IT新崗位和上千萬個(gè)非IT崗位，麥肯錫公司預(yù)計(jì)美國到2018年深度數(shù)據(jù)分析人才缺口達(dá)14萬～19萬人，還需要數(shù)據(jù)需求和技術(shù)及應(yīng)用的管理者150萬人。中國能理解與應(yīng)用大數(shù)據(jù)的創(chuàng)新人才更是稀缺資源。

　　然后是安全與隱私問題。大數(shù)據(jù)的利用首先要求政府?dāng)?shù)據(jù)原則上該公開的必須公開。大數(shù)據(jù)的挖掘與利用需要有法可依。我國需要盡快制定“信息保護(hù)法”和“信息公開法”，既要鼓勵(lì)面向群體而且服務(wù)于社會(huì)的數(shù)據(jù)挖掘，又要防止針對(duì)個(gè)體侵犯隱私的行為，提倡數(shù)據(jù)共享又要防止數(shù)據(jù)被濫用。安全與隱私保護(hù)的隱患仍大量存在，重要的數(shù)據(jù)存儲(chǔ)和應(yīng)用不能過分依賴大數(shù)據(jù)分析技術(shù)與平臺(tái)，需要重視信息泄密的風(fēng)險(xiǎn)。

　　最后是發(fā)展戰(zhàn)略問題。信息化要從重視硬件到重視軟件，再到重視數(shù)據(jù)的利用，不僅大數(shù)據(jù)，中小數(shù)據(jù)的挖掘也有意義。需要制定國家大數(shù)據(jù)發(fā)展戰(zhàn)略，大數(shù)據(jù)是一個(gè)應(yīng)用驅(qū)動(dòng)性很強(qiáng)的服務(wù)，其標(biāo)準(zhǔn)和產(chǎn)業(yè)格局尚未形成，這是我國跨越發(fā)展的機(jī)會(huì)，但切忌一哄而起在目的不明情況下到處建設(shè)大數(shù)據(jù)中心，到處搞“數(shù)據(jù)房地產(chǎn)”，而是需要從戰(zhàn)略上重視大數(shù)據(jù)的開發(fā)利用，將它作為轉(zhuǎn)變經(jīng)濟(jì)增長方式的有效抓手。

內(nèi)容來自：人民郵電報(bào)
本文地址：http://3xchallenge.com//Site/CN/News/2013/12/16/20131216081620555600.htm 轉(zhuǎn)載請(qǐng)保留文章出處
關(guān)鍵字: 鄔賀銓大數(shù)據(jù)
文章標(biāo)題:鄔賀銓：我們需要國家大數(shù)據(jù)戰(zhàn)略

【加入收藏夾】【推薦給好友】

免責(zé)聲明：凡本網(wǎng)注明“訊石光通訊咨詢網(wǎng)”的所有作品，版權(quán)均屬于光通訊咨詢網(wǎng)，未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
※我們誠邀媒體同行合作！聯(lián)系方式：訊石光通訊咨詢網(wǎng)新聞中心　電話：0755-82960080-188 debison

鄔賀銓：我們需要國家大數(shù)據(jù)戰(zhàn)略

相關(guān)新聞

在線客服