隨著互聯網和信息技術的不斷發展,人類已經進入大數據時代。數據已成為一個國家基礎型的戰略資源。在信息化浪潮的不斷推動下,政府部門多年來積累了越來越多的與民生、經濟息息相關的數據,如醫療、交通、社保等,一般稱為“政府大數據”。與互聯網上產生的大數據低價值密度不同,政府大數據具有高價值密度的特點。如何更好地開放、共享,并利用和挖掘政府大數據的價值,是當今研究的熱點問題。在這樣的背景下,對于掌握了大量數據的政府部門,無異于掌握了大量的資源或資產。然而政府大數據的價值是潛在的,只有結合一定的應用需求和應用場景,由合適的對象用適當的方法加以開發和利用,才能發揮出來,否則就只能是一筆“沉睡”的資產。因此,政府部門如何盤活和管理這筆數據資產就顯得尤為重要,政府大數據治理就是要解決這一問題。

  政府大數據治理的關鍵

  政府大數據治理的目標是發揮出政府大數據的潛在價值。即實現多個部門數據的共享、開放和市場化利用。簡單來講就是,政府大數據治理的結果能更好地保證有需求的對象在需要的時間獲得合適的數據并在正確的場景下合理地使用。有需求的對象,是指具備創新能力和技術實力的部門、初創企業甚至個人;在需要的時間,是指有應用需求而數據恰好也能發揮作用的時候,例如具備一定時效性的數據;而所謂合適的數據,理論上可以是政府部門掌握的任何數據;正確的場景,是指對數據的開發應用應利國利民惠經濟;合理地使用,是不能違反相關法律法規。

  以上是在理想的情況下發生的,實際情況卻是,政府部門常常面臨三個方面的難題。一是安全擔憂,擔心部門的數據隱含了國家機密造成泄露,導致不敢共享和開放;二是數據本身是部門的命脈,數據被拿走意味著核心業務將丟失,而不愿共享和開放;三是數據涉及市民隱私,沒有好的技術手段和能力,不知如何共享和開放。這三個方面的問題都限制了政府大數據的開發和利用。

  如果把政府大數據作為一個對象,要讓數據真正“活”起來,從一大堆雜亂無章的原始數據,變成面向市民或用戶的產品及服務,本質上來講,就是加強了數據的流通,以及增多了對數據的各種操作。這些操作包括,訪問、下載、修改、更新、復制及轉移、融合、清洗、分析、可視化等等。為了保證政府多個部門、多個系統,來源廣泛、種類繁多的數據能夠更好地從采集、收集到變成產品或服務,需要政府部門建立一個有效的數據治理機制,治理機制涉及的問題包括,有多少個環節?誰來參與?由誰授權數據的這些操作?誰可以被允許對數據進行這些操作?誰對操作的結果負責?誰來監督?等等。這些問題貫穿整個政府大數據的全生命周期。

  因此,政府大數據治理機制的建立,一方面,需要出臺相應的政策和行政管理手段予以配合;另一方面,政府大數據的開發利用亟需一種足夠安全、可靠的技術來保障數據資源、資產的共享、開放、流通和保護。

  區塊鏈技術應用于政府大數據治理

  區塊鏈是一種去中心化的分布式賬本技術,整個賬本由數據區塊鏈接形成,由所有參與者共同維護,每個參與者都存有一份拷貝,單個參與者對數據的修改不起作用。非對稱加密技術確保了數據不可篡改。圍繞某項資產,每一筆交易或者操作生成一個新區塊,所有的參與者或見證人由約定的規則達成共識,進行添加上鏈,從而來記錄和追溯整個過程。由以上特點不難看出,區塊鏈技術適合應用于去中心化的、多方參與、共同維護以增強信任的應用場景。

  政府大數據治理是一個需要多方參與的過程。涉及數據的產生者、采集者、管理者、使用者等等。政府大數據的開發利用恰是一個多元主體、多方參與、權限不一、環節眾多的應用場景。區塊鏈的技術特點可以在諸多方面發揮作用,應用到政府大數據的治理中來。如圖1所示。

大數據

  首先,區塊鏈具有可追溯性和不可篡改性,數據塊一旦生成就表示得到過所有參與者的認同,無法篡改,且帶有時間戳。這個好處應用到政府大數據治理當中可以幫助數據確權(包括原始來源、管理權、訪問權、使用權等),促進數據流通,準確記錄數據的產生、交換、轉移、更新、開發利用整個過程。把數據作為核心命脈,擔心數據因為共享或開放出去之后核心業務就丟失的部門可以因此而消除顧慮。

  其次,在區塊鏈上,數據包的哈希值是唯一的,能驗證數據包的真實性。哈希加密算法對數據可能涉密或隱私部分進行加密,能在流通環節將數據進行一定程度的脫敏。同時,在涉及數據各方之間采用非對稱加密技術,可以更好地劃分角色,更加精細化對數據的操作權限,保障數據隱私安全。從而降低政府部門對數據的安全隱私擔憂。

  再次,應用區塊鏈技術,每個區塊的生成都得到了所有參與者的共識,在區塊鏈上,數據交換記錄是所有參與者認可的、透明的、可追溯的,數據的來源和流通路徑是可以被記錄和追溯,對數據的每一次更新和修改都“有跡可循”,同時,采用哈希算法可以對數據的完整性進行驗證,從而保障和提升了數據在流通中的質量。

  最后,應用基于區塊鏈的智能合約技術,可以自動管理和執行政府部門之間約定好的數據共享開放利用規則,在實際操作過程中減少人為的干預,營造可信任的數據共享開放環境。

  技術實現與應用局限性探討

  區塊鏈技術應用于政府大數據治理,可以將數據所有權、數據傳播過程、交易鏈條等相關信息完整全面地記錄在分布的數據塊中,并在所有參與方之間達成共識,共同維護。本節我們舉例探討在實際操作層面,區塊鏈應用于政府大數據治理在技術實現上有哪些需要考慮的問題,以及可能存在哪些局限。區塊鏈技術應用于政府大數據治理,從實操層面,有以下幾個環節是必不可少的。

  1.建鏈。區塊鏈根據開放程度不同,可分為公有鏈、聯盟鏈和私有鏈。公有鏈對所有人開放,任何人都可以參與;聯盟鏈對特定的一些組織開放,私有鏈只對某個組織或個人開放。根據政府大數據的開放程度不同,可以采用不同的區塊鏈。例如,對于國家級或省市級建的基礎大數據中心,可以采用公有鏈,全民所有,全民共享;對于地方政府部門之間共享數據,可以采用聯盟鏈;而針對某個部門某種數據的管理,可以采用私有鏈?;疽巹t:每一類數據建一條鏈。數據區塊記錄數據來源、所有權,數據操作方,當前的時間戳,對數據的操作類型,當前版本號,上一區塊的哈希值等等。對數據的任何操作(更新、復制、下載等)→觸發生成一個區塊→接入區塊鏈。對數據進行全生命周期記錄。

  2.共識機制的設計。共識機制的基本要求是多方參與、各司其責、各得其所,從而能夠對數據的全生命周期進行管理和監督。一個好的共識機制還需要帶有激勵機制,以激勵各方積極參與到管理數據的活動中來。例如,誰獲得了記錄權,誰就贏得積分,請求使用數據則消耗積分。同樣,作為數據提供方,分享出的數據如被請求和使用了,可獲得積分獎勵。至于誰可以加入鏈,公有鏈不存在這個問題,私有鏈由中心節點批準,對于聯盟鏈,可以集體批準接入,或者達到一定比例者同意即可;所有加入的鏈都可以自由退出。

  3.基于智能合約的權限管理和交易規則?;谥悄芎霞s,數據權限管理和交易規則可通過鏈上編碼實現,在交易過程中自動執行,不需要人為干涉,實時在線地保證數據操作的合法、合理、合規性。例如:在多個部門共享數據模型中,每個部門都通過共享出自己的數據(數據類型、數據量、更新頻率等)獲得積分(具體積分機制需要商定),我們可以簡單地定義為,積分更高就能有更高的權限請求和使用其他部門的數據,權限值達到了,請求操作的數據區塊便可自動生成,協議生效,不需要人工干預,從而提升了效率。如圖2所示。

  應用局限性探討。由于政府部門較多,信息化程度不一,導致數據類型多樣、標準各異,因此,需要創建的區塊鏈也必然數量繁多、多種多樣,從而針對區塊鏈本身的治理也將會是問題。同時,由于區塊鏈上的數據所有參與方都要存一份拷貝,而某些類型的政府數據量太大,沒有辦法完全生成區塊上鏈,例如視頻監控數據。這種情況下,從傳輸效率和節省存儲空間消耗的角度出發,區塊鏈技術只應用到治理機制層面,對政府大數據的治理起到一定的輔助作用。我們可以把這種模式稱為“基于區塊鏈的輕治理機制”。而把所有數據都放到區塊鏈上的模式稱為“基于區塊鏈的強治理機制”。

  在當今大數據時代,政府大數據是一筆寶貴的資產,政府大數據治理的目的就是要盤活這筆資產,挖掘和利用數據的潛在價值,取得社會化利用。政府大數據治理是一項涉及政策、管理、技術,甚至法律、制度的系統工程。政府部門在推動數據共享、開放、市場化利用的過程中面臨不敢共享開放、不愿共享開放、不知如何共享開放等諸多難題。破解這些難題需要一種足夠安全、可靠、靈活的技術來支撐。

  區塊鏈是一種去中心化、分布式的賬本技術,具有去信任、不可篡改、可追溯等優點,非常適合應用于多元主體參與、多個流程和環節的治理過程,能夠在政府大數據治理過程中重塑機制、改造流程、增強信任、提高效率等。本文探討了區塊鏈技術應用于政府大數據治理的多個方面的優勢,以及初探了技術實現上的可能性和局限性。

  (本文刊登于《中國信息安全》雜志2017年第12期)

  中國科學院計算技術研究所 范靈俊 洪學海

責任編輯:qinpeng