[行業(yè)動態(tài)]數(shù)據(jù)基礎(chǔ)設(shè)施關(guān)鍵技術(shù)開展現(xiàn)狀與挑戰(zhàn)
2006年,三位圖靈獎得主不約而同提出了面向第四范式的數(shù)據(jù)基礎(chǔ)設(shè)施的相關(guān)工作。圖靈獎得主、數(shù)據(jù)庫先驅(qū)吉姆?格雷總結(jié)提出了實驗、理論、計算模擬和數(shù)據(jù)密集等四種科學(xué)研究范式,指出數(shù)據(jù)密集型第四范式科研需要支持所有科學(xué)文獻(xiàn)和數(shù)據(jù)均可在線訪問和互操作的使能工具和設(shè)施。圖靈獎得主、TCP/IP聯(lián)合發(fā)明人羅伯特?卡恩在其牽頭的美國數(shù)字圖書館項目基礎(chǔ)上提出了實現(xiàn)互聯(lián)網(wǎng)上各種數(shù)據(jù)資源互操作與管理的數(shù)字對象架構(gòu),并給出了以數(shù)據(jù)標(biāo)識互聯(lián)網(wǎng)絡(luò)為代表的參考實現(xiàn)。圖靈獎得主、萬維網(wǎng)發(fā)明人蒂姆?伯納斯-李提出了將萬維網(wǎng)從文檔互聯(lián)演進(jìn)為數(shù)據(jù)互聯(lián)的鏈接數(shù)據(jù)架構(gòu)設(shè)計。2009年,高性能和并行計算領(lǐng)域先驅(qū)戈登?貝爾在第四范式首部專著的序言中指出應(yīng)該大力建設(shè)面向第四范式的數(shù)據(jù)基礎(chǔ)設(shè)施。
隨著以大數(shù)據(jù)和人工智能為代表的數(shù)據(jù)密集型第四范式從科學(xué)研究拓展到各行各業(yè)并成為數(shù)據(jù)應(yīng)用的主流模式,數(shù)據(jù)成為繼土地、勞動力、資本、技術(shù)之后的第五大生產(chǎn)要素,數(shù)字經(jīng)濟(jì)甚至數(shù)據(jù)經(jīng)濟(jì)正在成為新的經(jīng)濟(jì)形態(tài),數(shù)據(jù)基礎(chǔ)設(shè)施也隨之成為產(chǎn)學(xué)研用各界關(guān)注的焦點(diǎn)和熱點(diǎn)。數(shù)據(jù)基礎(chǔ)設(shè)施現(xiàn)在尚無共識定義,但參考以互聯(lián)網(wǎng)為代表的信息基礎(chǔ)設(shè)施,應(yīng)具備三種關(guān)鍵技術(shù)能力:數(shù)據(jù)互聯(lián)(Interconnection of Data),即不同系統(tǒng)之間建立數(shù)據(jù)連接以發(fā)現(xiàn)和定位數(shù)據(jù)的能力;數(shù)據(jù)互通(Interexchange of Data),即不同系統(tǒng)基于數(shù)據(jù)互聯(lián)以交換和調(diào)度數(shù)據(jù)的能力;數(shù)據(jù)互操作(Interoperation of Data),即不同系統(tǒng)基于數(shù)據(jù)互聯(lián)互通以使用數(shù)據(jù)的能力。
為了更加系統(tǒng)化地調(diào)研和思考數(shù)據(jù)基礎(chǔ)設(shè)施的關(guān)鍵技術(shù)和挑戰(zhàn),本文采用國家數(shù)據(jù)局2023年11月給出的數(shù)據(jù)基礎(chǔ)設(shè)施的定義:從數(shù)據(jù)要素價值釋放的角度出發(fā),在網(wǎng)絡(luò)、算力等設(shè)施的支持下,面向社會給予一體化數(shù)據(jù)匯聚、處理、流通、應(yīng)用、運(yùn)營、安全保障服務(wù)的一類新型基礎(chǔ)設(shè)施,是覆蓋硬件、軟件、開源協(xié)議、標(biāo)準(zhǔn)規(guī)范、機(jī)制設(shè)計等在內(nèi)的有機(jī)整體。如圖1所示,一方面,以萬維網(wǎng)為代表、面向計算模擬型第三范式的數(shù)據(jù)基礎(chǔ)設(shè)施難以表征和有效支撐第四范式的數(shù)據(jù)價值釋放模式。另一方面,數(shù)字對象架構(gòu)、鏈接數(shù)據(jù)、區(qū)塊鏈、國際數(shù)據(jù)空間等新型數(shù)據(jù)互聯(lián)、互通、互操作技術(shù)經(jīng)過長期研究與實踐,特別是近期在眾多具體場景的集成應(yīng)用,逐漸形成面向第四范式的數(shù)據(jù)基礎(chǔ)設(shè)施新形態(tài)——可稱之為數(shù)聯(lián)網(wǎng)(Internet of Data),進(jìn)而有助于基于互聯(lián)網(wǎng)和萬維網(wǎng)的網(wǎng)絡(luò)空間(Cyberspace)從“計算為中心”向“數(shù)據(jù)為中心”轉(zhuǎn)型,并衍生出基于互聯(lián)網(wǎng)和數(shù)聯(lián)網(wǎng)的數(shù)據(jù)空間(Data Space)。數(shù)據(jù)空間可認(rèn)為是多個主體的數(shù)據(jù)及其關(guān)系的集合,這些主體遵循共同的規(guī)則和約束,順利獲得對數(shù)據(jù)的運(yùn)算,完成預(yù)期的目標(biāo),實現(xiàn)數(shù)據(jù)的價值。
面向計算模擬型第三范式的數(shù)據(jù)基礎(chǔ)設(shè)施關(guān)鍵技術(shù)
科學(xué)研究第三范式是指基于計算模擬的科學(xué)探索,研究者順利獲得編寫、運(yùn)行計算程序來模擬、仿真真實世界中的復(fù)雜現(xiàn)象,從而召開科學(xué)探索和科學(xué)驗證??茖W(xué)研究第三范式具有兩個典型特征:一是“人在回路中”,從程序編寫、數(shù)據(jù)準(zhǔn)備到計算驗證、結(jié)果整理,研究者需要頻繁的與計算機(jī)交互并完整的參與到科學(xué)研究的全流程;二是“計算為中心”,計算程序是科學(xué)探索的核心,數(shù)據(jù)、存儲、計算、網(wǎng)絡(luò)等資源均圍繞著計算任務(wù)進(jìn)行組織、調(diào)度,數(shù)據(jù)僅是計算程序的輸入。在第三范式階段,不僅科研領(lǐng)域,互聯(lián)網(wǎng)及網(wǎng)絡(luò)空間上的大多數(shù)應(yīng)用模式也都具備相似的特征,涌現(xiàn)出了CORBA、J2EE、SOAP等面向第三范式的數(shù)據(jù)互聯(lián)互通互操作技術(shù),并最終形成了以萬維網(wǎng)為主的第三范式數(shù)據(jù)基礎(chǔ)設(shè)施。
萬維網(wǎng)誕生于1989年,其發(fā)明人蒂姆?伯納斯-李的初衷是為了使歐洲粒子物理實驗室(CERN)在世界各地的高能物理學(xué)家順利獲得互聯(lián)網(wǎng)方便地共享、瀏覽科研信息。萬維網(wǎng)將數(shù)據(jù)抽象為網(wǎng)頁,基于URL標(biāo)識并定位網(wǎng)頁并支持網(wǎng)頁之間基于URL的超鏈引用,實現(xiàn)了網(wǎng)頁數(shù)據(jù)的互聯(lián);在此基礎(chǔ)上,將瀏覽器/服務(wù)器架構(gòu)作為系統(tǒng)實現(xiàn)的模型,并制定了用于二者間傳輸網(wǎng)頁的HTTP協(xié)議,實現(xiàn)網(wǎng)頁數(shù)據(jù)的互通;最后,基于人類可見、可讀、可交互的HTML描述網(wǎng)頁,以人機(jī)交互的形式實現(xiàn)了網(wǎng)頁數(shù)據(jù)的互操作,整體上構(gòu)成了一張由上萬億網(wǎng)頁組成的共享信息網(wǎng),形成了互聯(lián)網(wǎng)上最主要的應(yīng)用生態(tài),而以相關(guān)技術(shù)為核心的網(wǎng)站服務(wù)器、搜索引擎、DNS服務(wù)器等也共同構(gòu)成了如今互聯(lián)網(wǎng)上最主要的數(shù)據(jù)基礎(chǔ)設(shè)施。
面向數(shù)據(jù)密集型第四范式的數(shù)據(jù)基礎(chǔ)設(shè)施關(guān)鍵技術(shù)
與第三范式相比,第四范式科學(xué)研究具有兩個明顯差異:一是“人在回路旁”,海量的原始數(shù)據(jù)會先由軟件程序進(jìn)行處理形成有效信息,再由研究者對信息進(jìn)行研究形成知識,整個過程中研究者的參與度大幅降低,程序?qū)?shù)據(jù)的處理幾乎不需要研究者的過多投入,特別是隨著機(jī)器學(xué)習(xí)技術(shù)的開展,程序本身已經(jīng)逐漸具備自主產(chǎn)生知識和智能的能力,研究者只需在旁觀測并進(jìn)行必要的干預(yù)即可完成科學(xué)探索;二是“數(shù)據(jù)為中心”,數(shù)據(jù)取代算法成為科學(xué)研究最關(guān)鍵的要素,算法的設(shè)計、軟件的運(yùn)行、資源的調(diào)度都圍繞著研究者所擁有的數(shù)據(jù)資源進(jìn)行,數(shù)據(jù)的規(guī)模、內(nèi)容和質(zhì)量也將直接影響到研究進(jìn)程及成果質(zhì)量。
上述兩個差異導(dǎo)致第四范式的數(shù)據(jù)互聯(lián)、互通、互操作技術(shù)面臨新的挑戰(zhàn)并產(chǎn)生了眾多理論和技術(shù)創(chuàng)新,如表1所示。
數(shù)據(jù)互聯(lián)技術(shù):數(shù)據(jù)發(fā)現(xiàn)與定位
第四范式數(shù)據(jù)互聯(lián)技術(shù)主要關(guān)注如何準(zhǔn)確地發(fā)現(xiàn)和定位海量的數(shù)據(jù)資源。
(1)互聯(lián)網(wǎng)發(fā)明人羅伯特?卡恩提出的數(shù)字對象架構(gòu),將數(shù)據(jù)資源封裝為數(shù)字對象并分配唯一標(biāo)識,由層次化的標(biāo)識解析系統(tǒng)管理數(shù)字對象標(biāo)識信息,基于IRP協(xié)議解析標(biāo)識對應(yīng)數(shù)字對象的權(quán)限、位置等狀態(tài)信息。
(2)萬維網(wǎng)發(fā)明人蒂姆?伯納斯?李提出的鏈接數(shù)據(jù)基于統(tǒng)一資源標(biāo)識符URI標(biāo)識數(shù)據(jù),支持基于URI的模式字段來選擇DNS或其他標(biāo)識服務(wù)解析URI對應(yīng)數(shù)據(jù)所在位置。
(3)北京大學(xué)融合數(shù)據(jù)語用機(jī)理和數(shù)字對象架構(gòu)提出了數(shù)字對象語用網(wǎng),基于數(shù)據(jù)場景化的目的和效用來表征和利用第四范式下數(shù)據(jù)的價值。在數(shù)據(jù)定位方面,數(shù)字對象語用網(wǎng)以數(shù)據(jù)地址編碼數(shù)字對象,同時基于分散式的地址系統(tǒng)尋址、定位數(shù)字對象;在數(shù)據(jù)發(fā)現(xiàn)方面,數(shù)字對象語用網(wǎng)基于場景化的數(shù)據(jù)語用關(guān)系建立數(shù)字對象之間的語用鏈接,并構(gòu)建一張數(shù)字對象相互連接的語用網(wǎng)絡(luò),以支持面向場景的數(shù)據(jù)發(fā)現(xiàn)與探索。
數(shù)據(jù)互通技術(shù):數(shù)據(jù)交換與調(diào)度
第四范式數(shù)據(jù)互通技術(shù)主要關(guān)注數(shù)據(jù)在交換、調(diào)度過程中的數(shù)據(jù)權(quán)益、數(shù)據(jù)安全及監(jiān)管等問題。
(1)數(shù)字對象架構(gòu)基于數(shù)字對象接口協(xié)議(DOIP)來實現(xiàn)泛在環(huán)境下的數(shù)據(jù)調(diào)度,DOIP協(xié)議規(guī)定了多個基本的數(shù)據(jù)調(diào)度接口,并內(nèi)置了數(shù)據(jù)可靠、安全、隱私保障機(jī)制,支撐數(shù)據(jù)在泛在、異構(gòu)網(wǎng)絡(luò)上的統(tǒng)一調(diào)度。
(2)歐盟國際數(shù)據(jù)空間(IDS)協(xié)會提出的IDS是一套標(biāo)準(zhǔn)的數(shù)據(jù)共享交換架構(gòu),基于中心化的身份認(rèn)證中心保證參與主體的身份可信,基于標(biāo)準(zhǔn)化的連接器實現(xiàn)異構(gòu)系統(tǒng)之間的數(shù)據(jù)交換,基于數(shù)據(jù)使用策略來管理數(shù)據(jù)訪問權(quán)限,保障數(shù)據(jù)主權(quán)。
(3)中國信通院提出的可信數(shù)據(jù)空間(TDM)是對IDS架構(gòu)的擴(kuò)展與增強(qiáng),在IDS架構(gòu)的基礎(chǔ)上增加了服務(wù)方、監(jiān)管方等參與主體,同時將隱私計算、區(qū)塊鏈等技術(shù)集成在IDS架構(gòu)中,保障數(shù)據(jù)交換過程中的安全與可信。
(4)起源于比特幣的區(qū)塊鏈技術(shù)可以用于實現(xiàn)數(shù)據(jù)交換、流順利獲得程中的監(jiān)管。區(qū)塊鏈所采用的哈希鏈數(shù)據(jù)結(jié)構(gòu)能夠保證數(shù)據(jù)交換記錄的不被篡改,從而實現(xiàn)數(shù)據(jù)交換的事后審計和監(jiān)管。
(5)中國移動提出的數(shù)聯(lián)網(wǎng)(DSSN)是一種基于隱私計算和區(qū)塊鏈的數(shù)據(jù)要素服務(wù)專業(yè)網(wǎng)絡(luò),以“連接+算力+能力”的一整套基礎(chǔ)設(shè)施給予低成本、高效率、可信賴的數(shù)據(jù)流通環(huán)境。
數(shù)據(jù)互操作技術(shù):數(shù)據(jù)訪問與使用
第四范式數(shù)據(jù)互操作技術(shù)一方面關(guān)注數(shù)據(jù)使用過程中的隱私、安全等問題,同時也在試圖讓機(jī)器能夠更好地理解、使用數(shù)據(jù)。
(1)語義網(wǎng)是鏈接數(shù)據(jù)技術(shù)體系中的一部分,針對計算機(jī)使用數(shù)據(jù)的需求,以機(jī)器易于解釋的RDF文檔描述數(shù)據(jù)并為數(shù)據(jù)內(nèi)容增加標(biāo)準(zhǔn)化的語義標(biāo)簽,從而使得機(jī)器也能理解數(shù)據(jù)內(nèi)容。
(2)數(shù)據(jù)混搭針對多源數(shù)據(jù)的融合使用問題,面向一個具體的應(yīng)用場景,基于簡單的開發(fā)工具將已有的多個數(shù)據(jù)API進(jìn)行糅合并形成一個新應(yīng)用,從而產(chǎn)生新的價值。
(3)起源于以太坊的區(qū)塊鏈智能合約技術(shù)大多用于解決數(shù)據(jù)使用過程中的可信問題。智能合約以明文的方式描述數(shù)據(jù)使用方式,以多主體共識的方式執(zhí)行數(shù)據(jù)使用過程,從而保障數(shù)據(jù)的使用符合預(yù)期。
(4)隱私計算是指以實現(xiàn)對數(shù)據(jù)的“可用、不可見”為目的,在保護(hù)數(shù)據(jù)本身不對外泄露的前提下實現(xiàn)數(shù)據(jù)分析計算的技術(shù)集合。隱私計算通常包括多方安全計算、可信計算環(huán)境、數(shù)據(jù)沙箱、聯(lián)邦學(xué)習(xí)等技術(shù),能夠保證數(shù)據(jù)在使用過程中的隱私和安全。
數(shù)聯(lián)網(wǎng):第四范式數(shù)據(jù)基礎(chǔ)設(shè)施的新趨勢、新形態(tài)
歸納、總結(jié)現(xiàn)有數(shù)據(jù)基礎(chǔ)設(shè)施技術(shù)可以發(fā)現(xiàn),其技術(shù)路線大致可分為兩種:一是對以萬維網(wǎng)為代表的第三范式數(shù)據(jù)基礎(chǔ)設(shè)施技術(shù)的缺陷“打補(bǔ)丁”,針對性地解決其在數(shù)據(jù)互聯(lián)、互通、互操作上的安全隱私和管控合規(guī)等問題,如可信數(shù)據(jù)空間、隱私計算、區(qū)塊鏈等技術(shù);二是構(gòu)造新的第四范式數(shù)據(jù)基礎(chǔ)設(shè)施技術(shù)體系,原生支持?jǐn)?shù)據(jù)密集型科學(xué)探索與數(shù)據(jù)應(yīng)用,如數(shù)字對象架構(gòu)、鏈接數(shù)據(jù)等,并在此基礎(chǔ)上融合區(qū)塊鏈、隱私計算等安全可信技術(shù)。
當(dāng)前,面向第四范式的數(shù)據(jù)基礎(chǔ)設(shè)施技術(shù)尚處于百花齊放的混沌期,不同的技術(shù)路線、技術(shù)方案各有優(yōu)勢也各有不足,尚未形成像第三范式萬維網(wǎng)一樣的代表性技術(shù)體系?;仡櫄v史,萬維網(wǎng)也并非不斷是第三范式數(shù)據(jù)基礎(chǔ)設(shè)施技術(shù)的唯一選擇,SOAP、FTP、BT等技術(shù)都發(fā)揮過各自在數(shù)據(jù)發(fā)現(xiàn)、流通、使用上的價值,第三范式數(shù)據(jù)基礎(chǔ)設(shè)施技術(shù)也曾經(jīng)歷過從混沌到共識的轉(zhuǎn)變。 ■十大网投正规信誉官网■十大网投靠谱平台 認(rèn)為,隨著大數(shù)據(jù)、人工智能、數(shù)字經(jīng)濟(jì)和數(shù)字社會的開展,數(shù)據(jù)基礎(chǔ)設(shè)施的不同技術(shù)路線、技術(shù)方案會相互競爭、相互融合,最終會形成第四范式數(shù)據(jù)基礎(chǔ)設(shè)施技術(shù)體系的共識,將在互聯(lián)網(wǎng)上形成像萬維網(wǎng)一樣的數(shù)據(jù)基礎(chǔ)設(shè)施主要形態(tài)——可以稱之為“數(shù)聯(lián)網(wǎng)”,有助于“計算為中心”的網(wǎng)絡(luò)空間向“數(shù)據(jù)為中心”的數(shù)據(jù)空間開展演進(jìn)。數(shù)聯(lián)網(wǎng)的形成與開展需要“政產(chǎn)學(xué)研用金”各界的共同探索與實踐。
本文刊登于IEEE Spectrum中文版《科技縱覽》2023年12月刊。