大數(shù)據(jù)分析系統(tǒng)創(chuàng)新平臺與生態(tài)建設(shè)
王元卓1,2,靳小龍1,2,程學(xué)旗1,2
-
中國科學(xué)院計(jì)算技術(shù)研究所,北京 100190
- 大數(shù)據(jù)分析系統(tǒng)國家工程實(shí)驗(yàn)室,北京 100190
摘要:針對大數(shù)據(jù)分析處理深度與智能化程度不足,大數(shù)據(jù)分析計(jì)算不貫通、數(shù)據(jù)模型參數(shù)復(fù)雜,大數(shù)據(jù)算法易用性差、分析處理鏈路缺失以及大數(shù)據(jù)發(fā)揮協(xié)同效應(yīng)條件要求高等共性技術(shù)與工程化瓶頸,系統(tǒng)地介紹了大數(shù)據(jù)分析系統(tǒng)國家工程驗(yàn)室研制的大數(shù)據(jù)分析系統(tǒng)創(chuàng)新平臺的技術(shù)架構(gòu)。該平臺將重點(diǎn)支持科學(xué)計(jì)算、政府治理和社會安全等方面的示范應(yīng)用,通過開放生態(tài)向各領(lǐng)域與全行業(yè)輻射,推動創(chuàng)新創(chuàng)業(yè)發(fā)展。
關(guān)鍵詞:大數(shù)據(jù)分析系統(tǒng);大數(shù)據(jù)開放生態(tài);國家工程實(shí)驗(yàn)室
doi:10.11959/j.issn.2096-0271.2018010
論文引用格式:王元卓, 靳小龍, 程學(xué)旗. 大數(shù)據(jù)分析系統(tǒng)創(chuàng)新平臺與生態(tài)建設(shè)[J]. 大數(shù)據(jù), 2018, 4(1): 92-99.
WANG Y Z, JIN X L, CHENG X Q. Innovation platform and ecology construction of big data analysis system[J]. Big Data Research, 2018, 4(1): 92-99.
1 引言
近幾年,科技界和企業(yè)界甚至世界各國政府都把大數(shù)據(jù)作為發(fā)展的重點(diǎn)。美國政府更是把大數(shù)據(jù)看作“未來的新石油”,擁有數(shù)據(jù)的規(guī)模和運(yùn)用數(shù)據(jù)的能力將成為衡量一個國家綜合國力的重要組成部分,國家間和企業(yè)間對數(shù)據(jù)的占有和控制將成為新的爭奪焦點(diǎn)。大數(shù)據(jù)分析技術(shù)是使用大數(shù)據(jù)的核心關(guān)鍵技術(shù),對數(shù)據(jù)的深度分析和利用將在推動經(jīng)濟(jì)持續(xù)增長、提升國家和企業(yè)競爭力方面起到至關(guān)重要的作用。大數(shù)據(jù)將成為未來新的經(jīng)濟(jì)增長點(diǎn),企業(yè)將向分析即服務(wù)升級轉(zhuǎn)型,并進(jìn)一步改變行業(yè)的生態(tài)。在這樣的背景下,IBM、Oracle、Google、Microsoft等全球IT界巨頭都已開始了在大數(shù)據(jù)方向的技術(shù)布局。在國家層面,大數(shù)據(jù)時代對數(shù)據(jù)的積累、處理和價值利用能力將成為一個國家國力的新標(biāo)志[1,2]。
目前,對大數(shù)據(jù)的分析與利用已經(jīng)給國外各行各業(yè)帶來了巨大的變革性的機(jī)會,美國麥肯錫咨詢機(jī)構(gòu)發(fā)布的一份關(guān)于大數(shù)據(jù)的研究報告中指出,大數(shù)據(jù)已經(jīng)對金融業(yè)、電信行業(yè)、政府公共管理、健康醫(yī)療等行業(yè)產(chǎn)生了重大的影響。其中,在公共管理領(lǐng)域,每年產(chǎn)生約2 500億美元的潛在價值。在政府公共管理領(lǐng)域,英國通過大數(shù)據(jù)分析技術(shù)的使用,優(yōu)化政府部門的日常運(yùn)行,刺激公共機(jī)構(gòu)的生產(chǎn)力,為英國政府節(jié)省了130億~220億英鎊;減少福利系統(tǒng)中的詐騙行為和錯誤數(shù)據(jù)量,為英國政府節(jié)省了20億~80億英鎊。在電信行業(yè),發(fā)達(dá)國家的電信運(yùn)營商(如法國電信、英國O2公司和沃達(dá)豐)針對用戶消費(fèi)的大數(shù)據(jù)進(jìn)行分析評估,借助大數(shù)據(jù)改善服務(wù)水平,提升了用戶體驗(yàn)。當(dāng)前,大數(shù)據(jù)分析已經(jīng)成為全球信息技術(shù)產(chǎn)業(yè)發(fā)展的重點(diǎn),對大數(shù)據(jù)的分析利用不斷地深入各國各行業(yè)的創(chuàng)新應(yīng)用,推動了傳統(tǒng)產(chǎn)業(yè)新的發(fā)展模式,促進(jìn)了國民社會的發(fā)展和經(jīng)濟(jì)的提升。
在我國,各行各業(yè)也都在積極布局大數(shù)據(jù)的技術(shù)研發(fā)與產(chǎn)業(yè)應(yīng)用。以阿里巴巴集團(tuán)、百度公司、騰訊公司為代表的互聯(lián)網(wǎng)與IT企業(yè)依靠自身的數(shù)據(jù)優(yōu)勢,將大數(shù)據(jù)作為公司的重要戰(zhàn)略,引領(lǐng)我國大數(shù)據(jù)技術(shù)的快速發(fā)展。阿里巴巴集團(tuán)在其擁有的大規(guī)模數(shù)據(jù)和云平臺基礎(chǔ)上,向移動開發(fā)者提供技術(shù)、數(shù)據(jù)、平臺等基礎(chǔ)設(shè)施服務(wù),幫助開發(fā)者實(shí)現(xiàn)數(shù)據(jù)的精準(zhǔn)分析挖掘與個性化推送。“百度網(wǎng)盟推廣”基于大規(guī)模日志數(shù)據(jù)的學(xué)習(xí)與預(yù)測,大幅提高網(wǎng)站的客流量和廣告收入。中國移動通信集團(tuán)有限公司提出了大數(shù)據(jù)時代全新的移動互聯(lián)網(wǎng)戰(zhàn)略,包括構(gòu)筑“智能管道”、搭建“開放平臺”、打造“特色業(yè)務(wù)”與提供“友好界面”,構(gòu)建了大云產(chǎn)業(yè)聯(lián)盟,在核心模塊合作、授權(quán)技術(shù)服務(wù)、應(yīng)用開發(fā)技術(shù)攻關(guān)等不同層面展開產(chǎn)業(yè)合作。京東集團(tuán)優(yōu)先開放“電商云”和“數(shù)據(jù)云”,并進(jìn)行人工智能和機(jī)器學(xué)習(xí)的方法研究,從海量數(shù)據(jù)中挖掘商業(yè)價值,提高了商業(yè)運(yùn)營效率。
2 大數(shù)據(jù)分析的共性技術(shù)與工程化瓶頸
盡管各行各業(yè)都在積極開展大數(shù)據(jù)分析的技術(shù)創(chuàng)新與布局,但我國大數(shù)據(jù)分析系統(tǒng)的發(fā)展應(yīng)用仍然面臨眾多挑戰(zhàn)[3-5]。
(1)大數(shù)據(jù)分析處理的深度與智能化程度不足,導(dǎo)致分析程度淺,利用率低
隨著互聯(lián)網(wǎng)時代的到來,數(shù)據(jù)產(chǎn)生的途徑也在不斷增加,數(shù)據(jù)類型的數(shù)量也在持續(xù)增長,這就給傳統(tǒng)的數(shù)據(jù)分析與挖掘技術(shù)(如檢索、主題發(fā)現(xiàn)、語義和情感分析等)帶來很大的困難。傳統(tǒng)的數(shù)據(jù)處理方法面臨著不同數(shù)據(jù)類型有機(jī)融合的新挑戰(zhàn)。與此同時,隨著數(shù)據(jù)生成方式愈來愈多樣化,半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)逐漸成為大數(shù)據(jù)的主流數(shù)據(jù)源,大規(guī)模的非結(jié)構(gòu)化數(shù)據(jù)同樣也給傳統(tǒng)的數(shù)據(jù)處理方法帶來了巨大的挑戰(zhàn)。另外,隨著數(shù)據(jù)規(guī)模的增大,需要刻畫的數(shù)據(jù)特征數(shù)量必然在增加,而數(shù)據(jù)特征組成的數(shù)據(jù)內(nèi)在模式則會呈指數(shù)性增長。數(shù)據(jù)類型的多樣化導(dǎo)致了數(shù)據(jù)模式的復(fù)雜化、多樣化,這使得網(wǎng)絡(luò)數(shù)據(jù)通常蘊(yùn)含更多的無用信息和噪音,因此需要高效、頑健的方法實(shí)現(xiàn)去冗存精。一般來說,大數(shù)據(jù)有維度高的特征,這就會引發(fā)數(shù)據(jù)高度稀疏以及“維度災(zāi)難”等問題。
(2)大數(shù)據(jù)分析計(jì)算不貫通,數(shù)據(jù)模型參數(shù)復(fù)雜,導(dǎo)致處理效率低,時效性差
傳統(tǒng)數(shù)據(jù)計(jì)算模式缺乏對數(shù)據(jù)全生命周期的計(jì)算,使得很多數(shù)據(jù)分析的任務(wù)無法深入、融合計(jì)算。大數(shù)據(jù)分析面臨模型復(fù)雜度高、任務(wù)周期長、實(shí)時性要求強(qiáng)等難題。對大數(shù)據(jù)分析系統(tǒng)的系統(tǒng)架構(gòu)、計(jì)算框架、處理方法提出了新的挑戰(zhàn),更對大數(shù)據(jù)處理系統(tǒng)的運(yùn)行效率提出了要求。
(3)大數(shù)據(jù)算法易用性差、分析處理鏈路缺失,導(dǎo)致使用門檻高,工程化難
大數(shù)據(jù)技術(shù)起源于互聯(lián)網(wǎng)行業(yè),目前最成功的應(yīng)用也在互聯(lián)網(wǎng)行業(yè),在其他行業(yè)的應(yīng)用還處于初級階段。我國的各級政府機(jī)關(guān)和各類傳統(tǒng)行業(yè)在日常管理和業(yè)務(wù)運(yùn)行中也積累了大量的數(shù)據(jù)。大數(shù)據(jù)的真正價值所在是深度價值發(fā)現(xiàn)和行業(yè)應(yīng)用,如何推進(jìn)大數(shù)據(jù)技術(shù)應(yīng)用,喚醒這些沉睡的大數(shù)據(jù)資源,實(shí)現(xiàn)管理上的科學(xué)決策,開創(chuàng)新的業(yè)務(wù)模式,是這些數(shù)據(jù)擁有者關(guān)心的問題。
(4)大數(shù)據(jù)發(fā)揮協(xié)同效應(yīng)條件要求高,需要產(chǎn)業(yè)鏈各個環(huán)節(jié)的企業(yè)達(dá)成競爭與合作的平衡
大數(shù)據(jù)對產(chǎn)業(yè)鏈中的企業(yè)提出了更多的合作要求。如果沒有對整體產(chǎn)業(yè)鏈的宏觀把控,單個企業(yè)僅僅基于自己掌握的獨(dú)立數(shù)據(jù)無法探究產(chǎn)業(yè)鏈各個環(huán)節(jié)數(shù)據(jù)之間的關(guān)系,因此對消費(fèi)者的刻畫和判斷會十分有限,甚至片面。
3 大數(shù)據(jù)分析系統(tǒng)創(chuàng)新平臺
針對我國數(shù)據(jù)資源開放共享不足、綜合分析能力薄弱、創(chuàng)新應(yīng)用領(lǐng)域不廣等問題,國家發(fā)展和改革委員會2017年正式批復(fù)由中國科學(xué)院計(jì)算技術(shù)研究所負(fù)責(zé)組建大數(shù)據(jù)分析系統(tǒng)國家工程實(shí)驗(yàn)室,將重點(diǎn)建設(shè)大數(shù)據(jù)分析技術(shù)創(chuàng)新平臺,支撐開展大數(shù)據(jù)分析基礎(chǔ)理論(如大數(shù)據(jù)復(fù)雜性和不確定性分析、大數(shù)據(jù)機(jī)器學(xué)習(xí)理論)研究、異構(gòu)大數(shù)據(jù)預(yù)處理、挖掘與分析計(jì)算系統(tǒng)、大數(shù)據(jù)挖掘結(jié)果與決策支持、基于大數(shù)據(jù)的智能知識獲取算法、可視化交互與開放接口和大數(shù)據(jù)分析示范應(yīng)用等技術(shù)的研發(fā)和工程化,形成面向大數(shù)據(jù)分析全生命周期的技術(shù)與應(yīng)用環(huán)路,如圖1所示。
圖1 大數(shù)據(jù)分析技術(shù)的價值環(huán)路
具體地,在大數(shù)據(jù)復(fù)雜性與不確定性分析以及大數(shù)據(jù)機(jī)器學(xué)習(xí)理論支撐下,建設(shè)融合計(jì)算架構(gòu)、大數(shù)據(jù)預(yù)處理、深度分析挖掘、智能知識計(jì)算與決策輔助、可視化交互與開放語言的大數(shù)據(jù)分析技術(shù)與標(biāo)準(zhǔn)體系,形成大數(shù)據(jù)分析系統(tǒng)工程化能力。建立標(biāo)準(zhǔn)化、系統(tǒng)化和協(xié)同的大數(shù)據(jù)資源匯聚平臺,建設(shè)并完善一套分布全國的大數(shù)據(jù)分析云基礎(chǔ)設(shè)施與分析系統(tǒng),形成面向科學(xué)發(fā)現(xiàn)和政府治理的示范應(yīng)用,并通過開放的數(shù)據(jù)資源、技術(shù)與應(yīng)用生態(tài),服務(wù)萬眾創(chuàng)新,輻射帶動社會和經(jīng)濟(jì)的發(fā)展。
構(gòu)建大數(shù)據(jù)分析系統(tǒng)創(chuàng)新平臺的技術(shù)框架主要包含平臺支撐、基礎(chǔ)理論、大數(shù)據(jù)分析技術(shù)與系統(tǒng),具體的技術(shù)框架關(guān)系如圖2所示[6-10]。
圖2 大數(shù)據(jù)分析系統(tǒng)總體框架
著重突破大數(shù)據(jù)分析系統(tǒng)面臨的技術(shù)瓶頸,針對性地實(shí)現(xiàn)大數(shù)據(jù)分析系統(tǒng)的單點(diǎn)深入、縱向加速和橫向打通。
結(jié)合機(jī)器學(xué)習(xí)、認(rèn)知計(jì)算和知識工程,研制深度智能的大數(shù)據(jù)分析系列算法,提高大數(shù)據(jù)的價值利用率,具體包括以下內(nèi)容。
研究大數(shù)據(jù)基礎(chǔ)分析算法:利用表達(dá)學(xué)習(xí)與增強(qiáng)學(xué)習(xí),提升分類、聚類、查詢、檢索、匹配、關(guān)聯(lián)分析、回歸分析等基礎(chǔ)算法的精準(zhǔn)性和適用性。
研究大數(shù)據(jù)融合分析技術(shù):利用認(rèn)知計(jì)算與深度學(xué)習(xí),提升異構(gòu)表達(dá)、跨媒體抽取與內(nèi)容理解、異構(gòu)數(shù)據(jù)融合分析、異常模式識別等高級算法的效能。
研究大數(shù)據(jù)預(yù)測決策與可視化:利用機(jī)器學(xué)習(xí)與知識建模,突破大數(shù)據(jù)預(yù)測、知識推演、可視化分析、輔助決策等大數(shù)據(jù)分析技術(shù)。
研制智能分析硬件與彈性流式分析引擎,提高復(fù)雜大數(shù)據(jù)分析的時效性和規(guī)??蓴U(kuò)展性,具體包括以下內(nèi)容。
研究智能芯片與垂直化硬件加速:利用智能分析芯片和硬件重構(gòu)技術(shù),跨越式提升復(fù)雜大數(shù)據(jù)分析計(jì)算的速度。
研究泛流式分析架構(gòu):研制彈性泛流式分析引擎,支持批式、流式和在線分析。
研制全鏈路大數(shù)據(jù)分析軟件棧和分層開放編程語言,極大程度提升大數(shù)據(jù)分析技術(shù)的易用性和工程化能力,具體包括以下內(nèi)容。
開發(fā)全鏈條的通用算法工具集:覆蓋大數(shù)據(jù)分析鏈路的各個環(huán)節(jié)。
研發(fā)層次化開放編程語言:實(shí)現(xiàn)大數(shù)據(jù)應(yīng)用的敏捷開發(fā)與應(yīng)用技術(shù)部署。
4 實(shí)現(xiàn)科學(xué)決策,提升政府治理能力
大數(shù)據(jù)分析系統(tǒng)創(chuàng)新平臺將為提升政府治理能力提供有力支撐。
首先,大數(shù)據(jù)特別是政府大數(shù)據(jù)的交叉匯聚與分析利用將加速政府治理體制從碎片化向網(wǎng)格化的轉(zhuǎn)變。當(dāng)前,政府治理碎片化是我國政府治理體制存在的主要問題,這種體制給我國的政府治理帶來了高成本、低效率的問題。隨著大數(shù)據(jù)時代的到來,所有政府治理主體都可以使用政府大數(shù)據(jù)進(jìn)行一系列的處理分析。在這種情況下,將加速實(shí)現(xiàn)政府治理大數(shù)據(jù)的完全共享,不斷提升其使用效能、效率和效益,有助于推動各政府治理主體之間的協(xié)同與合作,進(jìn)而加速政府治理體制從碎片化向網(wǎng)格化轉(zhuǎn)變。
其次,大數(shù)據(jù)分析將促進(jìn)政府治理方法從以有限個案為基礎(chǔ)到“用數(shù)據(jù)說話”的轉(zhuǎn)變。在大數(shù)據(jù)時代,政府治理大數(shù)據(jù)的價值在于提高政府治理決策的科學(xué)化與政府治理過程的精細(xì)化。為了實(shí)現(xiàn)這一目標(biāo),各政府治理主體必須對原有的政府治理方法進(jìn)行大力的改進(jìn),重視培養(yǎng)大數(shù)據(jù)意識,促進(jìn)相關(guān)數(shù)據(jù)的完全共享,更多地依賴具體數(shù)據(jù)進(jìn)行決策,實(shí)現(xiàn)從以有限個案為基礎(chǔ)向“用數(shù)據(jù)說話”的轉(zhuǎn)變。
再次,大數(shù)據(jù)分析將加速政府治理模式從靜態(tài)治理到動態(tài)治理的轉(zhuǎn)變。長期以來,我國政府治理的目標(biāo)被設(shè)定為維持社會穩(wěn)定,而以這一目標(biāo)為中心開展的政府治理實(shí)踐屬于靜態(tài)治理的政府治理模式。與時俱進(jìn)的大數(shù)據(jù)技術(shù)為全面、及時地掌握政府治理相關(guān)數(shù)據(jù)的變動情況和變動趨勢提供了技術(shù)保障。對于承擔(dān)政府治理職責(zé)的各個社會主體而言,全面、及時地掌握政府治理相關(guān)數(shù)據(jù)的變動情況和變動趨勢,對于實(shí)現(xiàn)從靜態(tài)政府治理模式向動態(tài)模式的轉(zhuǎn)變具有非常重要的意義。
最后,大數(shù)據(jù)分析將有利于推動政府治理方式從簡單粗糙向科學(xué)決策過渡。目前,我國正處于社會矛盾的凸顯期和集中爆發(fā)期。在這一階段,協(xié)調(diào)利益矛盾,化解社會沖突,維護(hù)社會秩序,促進(jìn)社會穩(wěn)定,成為大家面臨的嚴(yán)峻挑戰(zhàn)。為應(yīng)對這一挑戰(zhàn),亟須對我國原有的自上而下的利益矛盾化解機(jī)制進(jìn)行根本變革,逐步建立上下互動、主體多元的利益矛盾化解機(jī)制,促進(jìn)我國政府治理方式的科學(xué)化。大數(shù)據(jù)分析系統(tǒng)創(chuàng)新平臺的建設(shè)將為各政府治理主體實(shí)現(xiàn)從簡單粗糙向精確分析、從關(guān)注宏觀數(shù)據(jù)向關(guān)注微觀數(shù)據(jù)的轉(zhuǎn)變提供有效支撐,并根據(jù)大數(shù)據(jù)的流程設(shè)置相應(yīng)機(jī)構(gòu)和工作崗位,加速政府治理方式從簡單粗放到科學(xué)決策的轉(zhuǎn)變。
5 提供平臺和工具,推動創(chuàng)新創(chuàng)業(yè)
當(dāng)前,大數(shù)據(jù)已成為一種重要資源,對大數(shù)據(jù)的分析有利于推動創(chuàng)業(yè)創(chuàng)新。大數(shù)據(jù)分析對于創(chuàng)業(yè)的非比尋常的價值主要體現(xiàn)在以下兩點(diǎn)。
(1)大數(shù)據(jù)分析模式可激發(fā)創(chuàng)造力
相比先提出假設(shè),然后通過收集和分析數(shù)據(jù)來驗(yàn)證這種假設(shè)的傳統(tǒng)研究方法,大數(shù)據(jù)時代探索世界的方法不再始于假設(shè),而是始于數(shù)據(jù),根據(jù)數(shù)據(jù)發(fā)現(xiàn)以往不曾發(fā)現(xiàn)的聯(lián)系。
(2)大數(shù)據(jù)分析技術(shù)能預(yù)測和滿足個性化需求
大數(shù)據(jù)的核心是預(yù)測,預(yù)測則是基于對大量結(jié)構(gòu)性和非結(jié)構(gòu)性數(shù)據(jù)進(jìn)行的相關(guān)性分析。大數(shù)據(jù)技術(shù)可以對人的需求進(jìn)行分析預(yù)測,以個性化數(shù)據(jù)為支撐的大數(shù)據(jù)服務(wù)將變得更為精準(zhǔn)、有效。
利用大數(shù)據(jù)分析進(jìn)行創(chuàng)新創(chuàng)業(yè)的主要應(yīng)用前景如下。
訂閱式定價模式在大數(shù)據(jù)分析服務(wù)中展現(xiàn)優(yōu)勢,訂閱式定價模式是未來大數(shù)據(jù)分析服務(wù)的方向。使用這種模式的創(chuàng)業(yè)服務(wù)更個性,創(chuàng)業(yè)人群更普遍,從而可以有效擴(kuò)大創(chuàng)業(yè)人群。
開放數(shù)據(jù)和開源技術(shù)降低了創(chuàng)業(yè)門檻,大大增加了創(chuàng)業(yè)機(jī)會。大數(shù)據(jù)時代,人們尋找創(chuàng)業(yè)機(jī)遇,最重要的是通過數(shù)據(jù)采集和分析,從數(shù)據(jù)中找到好點(diǎn)子。通過對大數(shù)據(jù)的收集和分析,可以為創(chuàng)業(yè)者提供關(guān)于創(chuàng)業(yè)的好點(diǎn)子,同時根據(jù)市場大數(shù)據(jù)的分析結(jié)果和創(chuàng)業(yè)者自身的條件為其量身定制合適的創(chuàng)業(yè)項(xiàng)目。通過市場大數(shù)據(jù)的分析,使項(xiàng)目能夠迅速融入市場。
大數(shù)據(jù)技術(shù)本身的發(fā)展帶來全新的創(chuàng)業(yè)方向。大數(shù)據(jù)相關(guān)技術(shù)的發(fā)展,將會創(chuàng)造出一些新的方向,從而引領(lǐng)一些新的市場需求。比如數(shù)據(jù)采集業(yè),包括定位、支付、社會性網(wǎng)絡(luò)服務(wù)(social networking services,SNS)、郵件等行業(yè);數(shù)據(jù)技術(shù)產(chǎn)業(yè),包括硬件方面的智能管道、數(shù)據(jù)平臺等;數(shù)據(jù)加工業(yè),包括數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)咨詢等產(chǎn)業(yè)。這些都為創(chuàng)業(yè)者們提供了新機(jī)遇。
大數(shù)據(jù)分析系統(tǒng)國家工程實(shí)驗(yàn)室基于對大數(shù)據(jù)復(fù)雜性和不確定性等內(nèi)在特性的深入研究,建立大數(shù)據(jù)分析的基礎(chǔ)理論,在此基礎(chǔ)上對大數(shù)據(jù)分析的關(guān)鍵技術(shù)進(jìn)行深入而系統(tǒng)性的分析與探索,建立相關(guān)的技術(shù)研發(fā)和工程化驗(yàn)證平臺,進(jìn)而實(shí)現(xiàn)技術(shù)的工程化和產(chǎn)品化,并通過建設(shè)大數(shù)據(jù)開放資源和遍布全國的云分析基礎(chǔ),實(shí)現(xiàn)典型的示范應(yīng)用,最終為社會應(yīng)用推廣提供支撐。通過建設(shè)大數(shù)據(jù)分析系統(tǒng)國家工程實(shí)驗(yàn)室,實(shí)現(xiàn)大數(shù)據(jù)分析技術(shù)的創(chuàng)新突破,并利用大數(shù)據(jù)分析系統(tǒng)工程實(shí)驗(yàn)室的機(jī)制不斷更新與完善該系統(tǒng)的核心技術(shù),可以不斷保持我國大數(shù)據(jù)分析技術(shù)的先進(jìn)性。
6 建設(shè)開放生態(tài),推廣技術(shù)輻射
大數(shù)據(jù)分析系統(tǒng)國家工程實(shí)驗(yàn)將針對大數(shù)據(jù)科研、技術(shù)與產(chǎn)業(yè)創(chuàng)新的需求,產(chǎn)學(xué)研用多方共投共建,集產(chǎn)業(yè)共性技術(shù)和成果轉(zhuǎn)化、企業(yè)孵化、技術(shù)服務(wù)、人才培訓(xùn)交流于一體,以產(chǎn)業(yè)化應(yīng)用為目的,促進(jìn)國家產(chǎn)業(yè)標(biāo)準(zhǔn)和產(chǎn)業(yè)政策制訂,推動科技成果的產(chǎn)業(yè)落地;建設(shè)成為國內(nèi)在學(xué)科、學(xué)術(shù)、技術(shù)、產(chǎn)業(yè)、機(jī)制5個方面均具有引領(lǐng)地位的大型創(chuàng)新平臺。構(gòu)建基于大數(shù)據(jù)分析系統(tǒng)的開放產(chǎn)學(xué)研用生態(tài),實(shí)現(xiàn)大數(shù)據(jù)分析技術(shù)的推廣輻射,如圖3所示。
圖3 大數(shù)據(jù)分析系統(tǒng)開放生態(tài)
依托中國計(jì)算機(jī)學(xué)會大數(shù)據(jù)專家委員會,通過組建開放數(shù)據(jù)共享聯(lián)盟,組織大數(shù)據(jù)創(chuàng)新創(chuàng)業(yè)大賽與大數(shù)據(jù)技術(shù)、學(xué)術(shù)、產(chǎn)業(yè)大會等形式,大力促進(jìn)大數(shù)據(jù)開源社區(qū)的建設(shè),包括構(gòu)建開放共享數(shù)據(jù)資源池,制訂大數(shù)據(jù)技術(shù)與應(yīng)用標(biāo)準(zhǔn)測試集與測試床等;還將聯(lián)合中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟等行業(yè)協(xié)會與產(chǎn)業(yè)聯(lián)盟,共同促進(jìn)大數(shù)據(jù)產(chǎn)學(xué)研用特別是大數(shù)據(jù)人才教育培養(yǎng)體系的構(gòu)建。
我國經(jīng)濟(jì)的高速發(fā)展急需大數(shù)據(jù)分析和管理的復(fù)合型人才。政府與業(yè)務(wù)部門更需要能理解數(shù)據(jù)分析并善于從數(shù)據(jù)中提煉知識的高層次人才從事現(xiàn)代化公共管理和知識管理活動。大數(shù)據(jù)分析系統(tǒng)工程實(shí)驗(yàn)室的建立將加強(qiáng)對新一代大數(shù)據(jù)分析和管理復(fù)合型人才的培養(yǎng),營造一個開放、輕松、活潑、創(chuàng)新的科研環(huán)境,使實(shí)驗(yàn)室成為新學(xué)科——“數(shù)據(jù)科學(xué)”的發(fā)源地。
7 結(jié)束語
本文介紹了大數(shù)據(jù)分析的共性技術(shù)與工程化瓶頸,并介紹了大數(shù)據(jù)分析系統(tǒng)國家工程實(shí)驗(yàn)室建設(shè)的大數(shù)據(jù)分析技術(shù)創(chuàng)新平臺,該平臺將有效支撐開展大數(shù)據(jù)復(fù)雜性和不確定性特征描述、異構(gòu)大數(shù)據(jù)預(yù)處理、挖掘與分析計(jì)算系統(tǒng)、大數(shù)據(jù)挖掘結(jié)果與決策支持、基于大數(shù)據(jù)的智能知識獲取算法等技術(shù)的研發(fā)和工程化,形成面向大數(shù)據(jù)分析全生命周期的技術(shù)與應(yīng)用環(huán)路。依托大數(shù)據(jù)分析系統(tǒng)國家工程實(shí)驗(yàn)室將實(shí)現(xiàn)科學(xué)決策,提升政府治理能力;為與大數(shù)據(jù)分析相關(guān)的各行各業(yè)提供平臺和工具,推動創(chuàng)新創(chuàng)業(yè);同時,進(jìn)一步建設(shè)開放生態(tài),推廣技術(shù)輻射。