4月27日至28日,由工業和信息化部指導、中國信息通信研究院主辦的"2016大數據產業峰會"在北京國際會議中心盛大召開。會上中國工程院院士鄔賀銓跟與會人員分享了大數據技術發展的趨勢。

 
中國工程院院士鄔賀銓
 
  以下是鎢賀銓演講實錄:
 
  鎢賀銓:很高興來到大數據產業峰會,我想就大數據技術與產業及影響談一下我的看法。我們先看一下數據挖掘的過程,從數據資源、數據采集、數據存儲、數據傳送到數據分享、數據挖掘、數據呈現、數據應用,產業、安全、法規人才。這并不是所有的數據都要拿來挖掘的,首先要進行取樣分析,首先在選擇數據的時候要進行提取,標簽化。對一些非結構化的數據還要進行變換處理,然后分類收集,最后抽取出原數據,然后把原數據再融合,這個過程還是要反饋的。我們首先看數據融合,傳感器的數據是物理空間的數據,網絡空間的細分空間,還有政府企業收集的相關數據。
 
  2013年,全世界來自消費企業的數據占三分之一,當然數據里頭很多國家安全、個人隱私的這些數據不能開放的。大數據里頭有一部分的數據是開放的,當然數據本身有結構化的、非結構化的、半結構化的。我們再來看大數據分析的流程,實際上所謂大數據很多時候既很難說它什么時候開始,也很難說它什么時候會結束。在整個數據獲取的過程中是不斷的流進來的,我們要通過分析模型來引導和收集。過去我們的收據是代數據進行,現在數據是活的,我們只能帶程序進數據。我以阿里云的大數據平臺為例,它底層有計算引擎,上面有數據的開發和加速,有數據管理、數據資料保障,數據監控。當然用到機器學習,在上層是應用開發,這里面可能根據你需要的選擇規則,準備分析,還有評價或者是推薦優選,可視化、具體人群,識別文字、識別語音。最后是面向解決方案的,究竟是面向智能支付,還是企業的精準營銷,還有交通路況預測,以及我們監控的安全預警等。
 
  我們再看,大數據需要實時抽取,這里面左邊的照片在羅馬,這是拍到的古羅馬的移植。如果我希望凝了解當時古羅馬的樣子,可以把分散的照片以及留下來的一些照片聚合起來,可以形成一個古羅馬的最后的全貌。這是用到信息融合技術。它把分散的數據集合成一個全集的數據。以下的兩張圖是一樣的,右邊的屏蔽掉我所不關注的部分,然后抽取我所關注的部分。在繁雜的大數據中,我需要信息抽取來抽取我所感興趣的數據。
 
  大數據還要做到可視化,這是交通數據的可視化,也是以色列的克拉維夫,它有很多攝像頭,傳統的攝像頭是分散的,孤立的,現在通過大數據的可視化的技術把它組合成一張圖,不同的十年,路上的狀況不一樣,用不同的顏色標注交通管制,等等。
 
  我們再看北京PM2.5,去年PM2.5超標,有些人懷疑自己肺有毛病,到醫院做了幾個CT,醫生看分散的CP照片是很難的,希望通過虛擬化把它還原成一個肺,再看看有沒有纖維化。甚至可以用AR和ER的技術深入的研究,身上有沒有病灶和毛病,等等。還有交通的路礦預測,以及我們監控的安全預警等等,當然了,面向媒體、能源、交通,所以大數據里頭主要的有計算引擎、數據開發和運用開發加速。
 
  我們再看看數據挖掘的算法,首先要通過合并壓縮轉換,然后是統計分析、支持發現可視化,最后是規則、分論、緒論、序列、路徑,涉及到一大堆的算法,我們可以看到這里面有數據獲取,然后轉化與存儲,然后數據虛擬化和摘要,最后是決策分析。需要用到一些軟件。大數據首先是計算問題,是不是所有數據都可以計算呢?不一定,有些數據是可以判定的,它是容易解釋的,可以有多項算法來解釋,但是有些數據是比較難解的,這里頭有一類是不可近似的,有一類是可近似的,我們可以看到我們首先要探索數據復雜性的規律和關系的生成機理,建立數據復雜性的理論和模型,這里面包括數據的結構和學習,最后還要把數據簡化。所以,美國加州大學圖像可視化中心已經組成了語音非結構化數據?,F在我們高校在大數據研究上還可以,但是做一些數據分析的單位沒有數據,而擁有數據的單位有些不會分析。
 
  大數據分布存儲和冗余備份用得比較多的還是這個,它把數據通過冗余配置來提高可靠性,這樣的話,簡易服務器仍然可以在一個低的價錢下,低的成本下得到比較可靠的服務。我們通過調度再分組組合,這是我們需要的結果。這是一個圖比較形象的說明左邊是數據的來源,當然每個來源可能都有各種各樣的數據,需要進行認識,進行分類提取,我們可以看到把它分到不同的地方,這樣一來,我們的數據挖掘才可能簡化我們挖掘的工作。
 
  我再舉個例子,這是在無錫,對太湖的污染狀況傳感器數據分析,它使用了很多種傳感器,有硝酸鹽、有氨氮的、溶解氧的、水溫的,但是并不是所有的傳感器獲得的數據都是等同對待的。我們可以看到各類數據都一樣。但是太湖的藍藻爆發強度有關的,首先是溶解氧,然后是水溫,基于氨氮、硝酸鹽的關聯沒那么大,所有的數據是需要加權處理的,根據它的影響角度不同,我們給它的值也不一樣,只有這樣才可以反映出我們最終的分析結果。
 
  另外,還是以太湖為例,我們不但有地基系統的水質探測的傳感器,有衛星探測傳感器,還有人工采集傳感器,多種數據要放到數據采集以后,要進行利用已知的湖泊模型,還要把歷史數據拿出來對比,然后才能判斷這些數據是不是可能產生藍藻。這個判斷后臺需要用到3S技術,云計算技術,數據中心與數據挖掘,所以我們講究的是要一元數據協同處理。大數據最難的是非結構化數據,圖象、照片、視頻是非結構化的,目前計算識別圖象視頻還是有一定難度的,谷歌前幾年的做法是計算機識別貓,有15%—20%的識別率,一般的非結構化數據需要把它轉化成結構化數據,然后再來進行處理。我覺得非結構化數據本身要進行收集、規律、組織,然后再解釋,編輯,再通過上下文的關聯增進理解。
 
  不過目前對非結構化數據處理已經有了一定的進展,這是一個照片,照片本身來計算機是看不出來是什么的,谷歌的工程師已經在照片旁邊附加了一段文字,他通過一定的算法來分析。他說一群人在室外的市場上購物,在水果攤上有很多蔬菜,將來計算機掃描的時候只要掃描這個摘要就行了,不需要關注照片是什么樣子。也就是說把非結構化的照片變成結構化的文字,那么我們再看如果你出差到俄羅斯,或者到俄羅斯旅游,現在會俄文的人不多了,不要緊,你拿手機拍下來,直接上到云端搜索,它會用英文或者中文顯示,谷歌聲稱現在有26種語言可以顯示,也就是說照片里面的文字通過用掃描文件還是掃描不出來的。實際上所有的非結構化數據都可以轉成結構化數據來處理,比如說通常視頻都會有音頻和字幕,用語音識別的辦法把音頻抽出來可以轉成文字,在這方面科大迅飛已經做得相當不錯了。另外,很多視頻里頭還會嵌入文字的字幕。對一些照片、標語里的文字也可以掃描,非結構化數據也是可以轉化為結構化數據處理的。
 
  我們再來看這是大數據進行的,右邊的屏幕上打出聲音翻譯成了中文。這里面沒有同聲傳譯,它是基于微軟掌握的大數據技術、神經網絡技術、機器學習技術以及上百萬素材,一邊講話一邊翻譯成中文,這是大數據應用,同時反過來大數據需要應用的人工智能技術非結構化數據的處理。
 
  這是醫療大數據虛擬化的應用。大數據究竟會用到什么樣的技術,IDC公司在去年說,2015年富媒體、音視頻和圖象的分析在未來5年會增長100%,在北美有板數公司報告在大數據分析項目里已經使用了富媒體數據。也就是說雖然是非結構化的,但是在大數據里頭分析還是很有用處的。
 
  另外,數據即服務,過去有IaaS、PaaS,現在有DaaS,就是將大數據作為服務,現在DaaS已經成為云平臺和大數據分析提供商的戰略供應鏈。
 
  還有物聯網是下一個數據分析應用的熱點,在今后五年,物聯網的數據分析市場會年增30%,另外2015年是認知和機器學習應用迅速增長的一年。
 
  大數據分析在企業的應用,目前來看,大部分企業是把大數據分析用于客戶分析,然后是運營分析,然后是誠信分析,還有10%是新產品和業務創新,另外10%是企業數據倉庫優化。大數據支出最大的產業,一是離散制造,二是銀行,三是流程制造。
 
  大數據在供應鏈里頭也有很好的使用,包括供應鏈的規劃、分析和挖掘,電子數據交換,貿易管理、倉庫與分銷中心管理。大數據在供應鏈的應用場景在供應鏈的可視化數據56%,位置和映射數據47%,產品和可追溯數據42%,溫度與產品流數據24%,RFID數據18%。
 
  數據挖掘服務,我這里舉的是中國聯通的例子,中國聯通把他的BSS和OSS數據都收集起來,OSS數據包括上網流量、IP地址,BSS包括用戶詳單、資費等等,通過數據源處理、采集、加載、格式轉換、模型轉換、數據脫敏然后再進行,這邊是數據的產生提取,這邊是根據需求,客戶有些什么數據挖掘的需求,然后他審核這個需求,然后從數據集里頭準備,再通過一定的模型,發掘出來申請發布,再通過集團的審核,服務包裝再來輸出。
 
  中國聯通已經為大眾汽車提供數據,它的原始數據中國聯通是不提供的,大眾汽車請中國聯通提供究竟購買汽車的用戶對汽車有什么需求,中國聯通準備了100頁的PPT交給大眾汽車,大眾汽車付了100萬,也就是說每頁PPT值一萬塊錢。
 
  上下游支撐大數據的技術和產業有什么呢?寬帶網、存儲器、云計算、數據庫、人工智能、分析軟件,大數據支撐的產業就多了,包括建筑業、能源礦業、交通運輸業等等。不能把存儲、云計算全都算到大數據行業,只能說為大數據分析的產業,云計算和網絡算到大數據產業。而廣義的大數據產業一百于大數據信息產業,大數據本身服務業的屬性大于大數據軟硬件的制造業,而大數據對其他產業的影響是大于對信息產業的影響,大數據的社會效應大于直接經濟效益。所以,大數據影響之大和受到廣泛重視也是認為它的溢出效益明顯。
 
  我們可以看到麥肯錫說大數據的價值,大家都知道,一年能給美國保健帶來3000億美元的潛在價值,能給歐洲公共管理帶來2500億歐元,能給服務業帶來6000億美元的盈余,能給制造業降低50%的成本,政府的數據開放會給全世界經濟帶來32200億到54000億美元的紅利,教育將近一萬億,運輸7000—900億等等。
 
  這是WikiBon統計的,主要分為硬件軟件的服務,軟件占22%,硬件38%,服務占40%,這是當時的統計,2013—2017年。今年又發布了2011年到2026年。2014年,全世界大數據市場是273.6億美元,到2020年是840億美元,都是在增長,連增17%。
 
  IDC的統計,以上這個表是從2010年—2016年,他統計大概是什么呢?大概是238億美元,這里面的數字是百萬美元,翻成億,就是238億美元,這是2016年。2017年324億美元,2019年是486億美元,我們這里面看上去統計跟WikiBon的有點區別。
 
  Statista的統計又不一樣,2016年是273億美元,2020年是573億美元,2026年922億美元,也就是說差不多十年以后,接近一千億美元的規模,當然這個數字還不算很大,估計到2026年華為也可能到這個水平了,所以,我們大數據這個值不是很大,大家如果把所有的服務器都算進去就比較大了。
 
  另外一個咨詢公司Frost Sullivan給出的數據增量到2025年是到100,全數據大市場產生的收入,2025年是122億美元,各個公司的估計是有所不一樣的。這是大數據產業鏈,在這里面密密麻麻的看不清楚,分析做分析的有這么多企業,做應用的也有這么多,做交叉關聯的和分析的有這么多。
 
  有個公司說這里面有一個中國公司,僅僅一個,我后來找半天找不出來,為什么呢?因為除了比較知名的以外,其他的不太熟悉,所以找不到。按照我們有公司說的,這里面有一個是中國公司,但是應該說絕大多數都不是中國公司,這是知名的大數據技術企業,IBM、英特爾、甲骨文、SAP、惠普、紅帽、SAS、微軟、谷歌、EMC,亞馬遜,我加了兩個,阿里云、百度云,也就是說我們中國的企業在這里面還是少數。
 
  中國各個地方紛紛布局大數據產業,目前已經有23個省出臺了74項跟大數據相關的政策。目前,全國已建和在建的大數據產業超過10個,有個證券公司分析,他說2016年中國通信大數據市場要達到342億。剛才會前放的視頻說2015年我們是150幾億,如果這個數字對的話,這兩個數字一比就增加100%。他這里說較上年增長163%。其中大數據基礎設施占60.5%,市場規模207億。
 
  國家在去年出臺了促進大數據發展的行動綱要,要培育高端智能新興產業的發展新生態,要推動大數據、互聯網跟移動互聯網的融合,培育新的增長點,形成滿足大數據應用需求的產品系統和解決方案,要求到“十三五”結束,大數據產品和服務要達到國際先進水平,看來我們現在還有一定的差距。要培育一批企業,要形成產業生態。
 
  這是今年3月份全國人大通過的“十三五”計劃,專門有一章是促進大數據產業健康發展,提到了深化大數據在各行業的創新應用,探索和傳統行業協同發展的新業態、新模式,加快完善大數據的產業鏈。還有加快海量數據的采集、存儲、清晰、可視化、安全、隱私保護等領域的關鍵技術攻關,促進大數據軟硬件產業的發展,加強標準體系和質量技術基礎建設,剛才張總都提到了。
 
  最后,我用習總書記的幾段話來結束我的發言。習總書記在2013年考察中科院時提到,研究表明,工業化時期數據量大約每十年翻一番,現在數據量每兩年翻一番,浩瀚的數據海洋就如同工業社會的石油資源,蘊含著巨大的生產力和商機,誰掌握了大數據技術,誰就掌握了發展的資源和主動權。2015年6月,在貴州調研時,習總書記提到,我國大數據采集應用剛剛起步,要加強研究,加大投入,力爭走在世界前列。上周,習總書記在網信座談會上講話提到綜合運用各方面掌握的數據資源,加強大數據的挖掘分析。謝謝大家!

責任編輯:admin