孫 鑫 中國(guó)信息通信研究院政策與經(jīng)濟(jì)研究所工程師姜 涵 中國(guó)信息通信研究院政策與經(jīng)濟(jì)研究所工程師馬 凱 中國(guó)信息通信研究院政策與經(jīng)濟(jì)研究所助理工程師
走向DT時(shí)代的中國(guó)大數(shù)據(jù)產(chǎn)業(yè)初探
孫鑫中國(guó)信息通信研究院政策與經(jīng)濟(jì)研究所工程師
姜涵中國(guó)信息通信研究院政策與經(jīng)濟(jì)研究所工程師
馬凱中國(guó)信息通信研究院政策與經(jīng)濟(jì)研究所助理工程師
隨著數(shù)據(jù)要素逐漸滲透到社會(huì)生產(chǎn)和生活的各個(gè)方面,基于數(shù)據(jù)信息衍生出的應(yīng)用模式和服務(wù)類(lèi)型正在快速擴(kuò)張。大數(shù)據(jù)作為促進(jìn)經(jīng)濟(jì)發(fā)展的新引擎已成為廣泛共識(shí),數(shù)據(jù)產(chǎn)業(yè)作為釋放和提升數(shù)據(jù)價(jià)值的社會(huì)生產(chǎn)環(huán)境也受到了前所未有的關(guān)注。我國(guó)高度重視大數(shù)據(jù)的戰(zhàn)略意義和數(shù)據(jù)資源對(duì)社會(huì)經(jīng)濟(jì)發(fā)展的積極作用,國(guó)務(wù)院于2015年先后出臺(tái)了《關(guān)于運(yùn)用大數(shù)據(jù)加強(qiáng)對(duì)市場(chǎng)主體服務(wù)和監(jiān)管的若干意見(jiàn)》和《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,并將“實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,推進(jìn)數(shù)據(jù)資源開(kāi)放共享”納入“十三五”期間規(guī)劃和建設(shè)的重要目標(biāo)。
普遍意義上來(lái)講,大數(shù)據(jù)產(chǎn)業(yè)是以數(shù)據(jù)及數(shù)據(jù)所蘊(yùn)含的信息價(jià)值為核心資源所構(gòu)成的生態(tài)環(huán)境,它包含了與大數(shù)據(jù)管理和價(jià)值實(shí)現(xiàn)相關(guān)的企業(yè)、行業(yè)機(jī)構(gòu)等社會(huì)主體的經(jīng)濟(jì)活動(dòng)集合。對(duì)于大數(shù)據(jù)產(chǎn)業(yè)的核心組成要素,不同的專(zhuān)家學(xué)者有不同的見(jiàn)解和劃分方法。中國(guó)計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專(zhuān)家委員會(huì)根據(jù)數(shù)據(jù)生產(chǎn)加工的流轉(zhuǎn)過(guò)程,按照數(shù)據(jù)采集、存儲(chǔ)、處理、分析等流程,將大數(shù)據(jù)產(chǎn)業(yè)劃分為生產(chǎn)與集聚層、組織與管理層、分析與發(fā)現(xiàn)層、應(yīng)用與服務(wù)層4個(gè)部分;美國(guó)大數(shù)據(jù)產(chǎn)業(yè)知名學(xué)者M(jìn)attTurck則根據(jù)企業(yè)提供的大數(shù)據(jù)產(chǎn)品和服務(wù),將產(chǎn)業(yè)劃分為數(shù)據(jù)源、基礎(chǔ)設(shè)施、數(shù)據(jù)分析服務(wù)和面向行業(yè)的數(shù)據(jù)應(yīng)用等幾個(gè)主要組成部分。
遵照產(chǎn)業(yè)定義的通用原則,產(chǎn)業(yè)各環(huán)節(jié)的參與實(shí)體應(yīng)能夠提供可交付的產(chǎn)品和服務(wù),并形成上下游產(chǎn)業(yè)鏈供需關(guān)系。在此基礎(chǔ)上,依據(jù)數(shù)據(jù)價(jià)值的提升路徑和IT領(lǐng)域的產(chǎn)品布局,可以將大數(shù)據(jù)產(chǎn)業(yè)的核心要素歸納為數(shù)據(jù)資源、數(shù)據(jù)基礎(chǔ)能力、數(shù)據(jù)分析/可視化和數(shù)據(jù)應(yīng)用幾個(gè)重要組成部分。其中,數(shù)據(jù)資源部分負(fù)責(zé)原始數(shù)據(jù)的供給和交換,是數(shù)據(jù)資產(chǎn)作為生產(chǎn)要素的直接表現(xiàn)。根據(jù)數(shù)據(jù)來(lái)源的不同,可以細(xì)分為數(shù)據(jù)資源提供者和數(shù)據(jù)交易平臺(tái)兩種角色;數(shù)據(jù)基礎(chǔ)能力部分負(fù)責(zé)與數(shù)據(jù)生產(chǎn)加工相關(guān)的基礎(chǔ)設(shè)施和技術(shù)要素供應(yīng),為數(shù)據(jù)加工和價(jià)值提升提供生產(chǎn)工具,主要包括數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理和數(shù)據(jù)庫(kù)等多個(gè)角色;數(shù)據(jù)分析/可視化部分負(fù)責(zé)數(shù)據(jù)隱含價(jià)值的挖掘、數(shù)據(jù)關(guān)聯(lián)分析和可視化展現(xiàn)等,是智力要素在數(shù)據(jù)價(jià)值中的集中體現(xiàn),包括傳統(tǒng)意義上的BI、可視化和通用數(shù)據(jù)分析工具,以及面向非結(jié)構(gòu)化數(shù)據(jù)提供的語(yǔ)音、圖像等媒體識(shí)別服務(wù);數(shù)據(jù)應(yīng)用部分根據(jù)數(shù)據(jù)分析和加工的結(jié)果,面向電商、金融、交通等細(xì)分行業(yè)提供精準(zhǔn)營(yíng)銷(xiāo)、信用評(píng)估、出行引導(dǎo)等企業(yè)或公眾服務(wù)。
自2013年大數(shù)據(jù)的概念迅速普及,國(guó)內(nèi)大數(shù)據(jù)領(lǐng)域在電信、互聯(lián)網(wǎng)、金融、電商等信息化領(lǐng)先行業(yè)的引導(dǎo)和帶動(dòng)下,聚集了BAT等龍頭企業(yè)和數(shù)百家中小及初創(chuàng)企業(yè),在大數(shù)據(jù)產(chǎn)業(yè)的主要環(huán)節(jié)完成了初步布局,產(chǎn)品和服務(wù)供應(yīng)鏈能夠滿(mǎn)足基本數(shù)據(jù)生產(chǎn)加工的全生命周期覆蓋。經(jīng)過(guò)兩三年的持續(xù)發(fā)展,我國(guó)的大數(shù)據(jù)產(chǎn)業(yè)呈現(xiàn)出以下幾個(gè)新的發(fā)展特點(diǎn):
(1)參與主體基本完成云時(shí)代向數(shù)據(jù)時(shí)代的轉(zhuǎn)型升級(jí)
以BAT等傳統(tǒng)互聯(lián)網(wǎng)服務(wù)提供商和華為、浪潮等基礎(chǔ)設(shè)施提供商為主體的云計(jì)算時(shí)代,已經(jīng)隨著數(shù)據(jù)要素的規(guī)模化影響力逐漸淡出了新興技術(shù)領(lǐng)域的熱門(mén)話(huà)題。原有的云計(jì)算活躍企業(yè)紛紛根據(jù)自身的原始積累和優(yōu)勢(shì)資源完成向數(shù)據(jù)驅(qū)動(dòng)企業(yè)的戰(zhàn)略轉(zhuǎn)型:百度憑借其長(zhǎng)期積累的用戶(hù)搜索記錄推出了百度數(shù)據(jù)開(kāi)放平臺(tái),依托大數(shù)據(jù)技術(shù)處理提煉出稀缺數(shù)據(jù)信息,通過(guò)百度搜索服務(wù)提供“即搜即得”的高效數(shù)據(jù)展現(xiàn);阿里云從基礎(chǔ)的彈性資源供給逐漸擴(kuò)展服務(wù)類(lèi)型,研發(fā)并提供了支持PB級(jí)數(shù)據(jù)存儲(chǔ)的分布式關(guān)系型數(shù)據(jù)庫(kù)(PetaData)等一系列數(shù)據(jù)支撐產(chǎn)品;華為的分布式存儲(chǔ)管理系統(tǒng)FusionStorage為異構(gòu)海量數(shù)據(jù)的存儲(chǔ)管理提供了彈性可擴(kuò)展的技術(shù)保障。
(2)中小和初創(chuàng)企業(yè)以數(shù)據(jù)分析和數(shù)據(jù)應(yīng)用為戰(zhàn)略高地
由于缺失原始數(shù)據(jù)資產(chǎn)和先期市場(chǎng)份額,中小企業(yè),特別是初創(chuàng)企業(yè)集中布局在數(shù)據(jù)分析和數(shù)據(jù)應(yīng)用等低基礎(chǔ)產(chǎn)業(yè)環(huán)節(jié),投融資形勢(shì)異常火爆。據(jù)中關(guān)村數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟統(tǒng)計(jì)數(shù)據(jù)顯示,中關(guān)村從事大數(shù)據(jù)相關(guān)的157家企業(yè)中,提供數(shù)據(jù)基礎(chǔ)能力的僅有10余家,從事數(shù)據(jù)分析和數(shù)據(jù)應(yīng)用的企業(yè)合計(jì)超過(guò)110家;京津冀地區(qū)從事大數(shù)據(jù)的427家企業(yè)中,有232家致力于數(shù)據(jù)應(yīng)用。通過(guò)搜索網(wǎng)絡(luò)公開(kāi)資料,初步統(tǒng)計(jì)2015年在國(guó)內(nèi)融資的大數(shù)據(jù)創(chuàng)業(yè)公司超過(guò)50家,總?cè)谫Y金額超過(guò)50億人民幣,其中從事數(shù)據(jù)分析和行業(yè)數(shù)據(jù)應(yīng)用的創(chuàng)業(yè)公司近40家,占75%以上。例如,華云數(shù)據(jù)C輪融資金額達(dá)1億美元,百分點(diǎn)D輪融資金額達(dá)4億元,秒針系統(tǒng)D輪融資金額達(dá)5000萬(wàn)美元。
(3)硬件和軟件相互滲透的兩種商業(yè)模式并舉
數(shù)據(jù)的存儲(chǔ)管理、ETL加工和挖掘分析貫穿了數(shù)據(jù)價(jià)值提升的主要過(guò)程,為了更廣泛地覆蓋數(shù)據(jù)生產(chǎn)加工流程,延長(zhǎng)其產(chǎn)品和服務(wù)在數(shù)據(jù)生命周期中的作用范圍,大數(shù)據(jù)產(chǎn)業(yè)的參與企業(yè)逐漸打破硬件和軟件的產(chǎn)品界限,形成了“硬件帶動(dòng)軟件”和“軟件帶動(dòng)硬件”兩種新型商業(yè)模式。浪潮圍繞數(shù)據(jù)存儲(chǔ)空間和存儲(chǔ)管理服務(wù)推出了SmartRack系列整機(jī)柜服務(wù)器,并針對(duì)深度學(xué)習(xí)應(yīng)用、社交數(shù)據(jù)存儲(chǔ)、熱數(shù)據(jù)處理等不同的數(shù)據(jù)處理場(chǎng)景制定多種混搭架構(gòu)方案,以一體機(jī)的方式實(shí)現(xiàn)硬件設(shè)施和軟件管理的集成交付,占領(lǐng)了百度數(shù)據(jù)中心60%以上的市場(chǎng)份額。2016年初,阿里巴巴發(fā)布的數(shù)加平臺(tái)率先探索了一條以“軟件帶動(dòng)硬件”的市場(chǎng)營(yíng)銷(xiāo)模式,該平臺(tái)通過(guò)提供數(shù)據(jù)計(jì)算引擎、數(shù)據(jù)加工組件、機(jī)器學(xué)習(xí)等數(shù)據(jù)開(kāi)放服務(wù),將阿里云的計(jì)算、存儲(chǔ)等技術(shù)要素和多種資源有機(jī)地組織在一起形成解決方案,有效地提高了阿里云在實(shí)際生產(chǎn)環(huán)境中的部署推廣途徑。
(1)把握源頭,強(qiáng)化數(shù)據(jù)質(zhì)量管理
隨著大數(shù)據(jù)產(chǎn)業(yè)中數(shù)據(jù)資源參與主體的逐漸增多,我國(guó)的數(shù)據(jù)開(kāi)放程度得到了普遍提升,但仍然存在著數(shù)據(jù)開(kāi)放范圍少、覆蓋維度低、可重用性差等現(xiàn)實(shí)問(wèn)題。一方面,數(shù)據(jù)開(kāi)放的主體仍然集中在部分企業(yè)和行業(yè)主體中,如四維圖新等專(zhuān)業(yè)性企業(yè)對(duì)外開(kāi)放地理遙感影像數(shù)據(jù)、衛(wèi)星導(dǎo)航信息和地圖綜合數(shù)據(jù)等。而政府公共數(shù)據(jù)的開(kāi)放程度偏低,截止2015年底,全國(guó)僅10余個(gè)城市建設(shè)了區(qū)域級(jí)數(shù)據(jù)開(kāi)放網(wǎng)站,除北京、佛山等城市外,絕大多數(shù)城市的數(shù)據(jù)開(kāi)放格式仍不一致、可機(jī)讀性差,且更新頻率較低,全國(guó)范圍內(nèi)動(dòng)態(tài)數(shù)據(jù)占比不足15%。另一方面,北京、貴陽(yáng)、上海等地率先建立了數(shù)據(jù)交易平臺(tái),提供了基本的數(shù)據(jù)匯集和交換服務(wù)能力,但仍缺乏對(duì)數(shù)據(jù)質(zhì)量的有效管理,來(lái)自不同行業(yè)的數(shù)據(jù)存在著數(shù)據(jù)維度不統(tǒng)一和語(yǔ)義不協(xié)同等普遍問(wèn)題,同時(shí)缺乏對(duì)數(shù)據(jù)預(yù)處理和數(shù)據(jù)描述的公開(kāi)透明,數(shù)據(jù)銀行模式在國(guó)內(nèi)數(shù)據(jù)交易市場(chǎng)中尚未成型。
(2)細(xì)化分工,關(guān)注數(shù)據(jù)過(guò)渡領(lǐng)域
與美國(guó)等數(shù)據(jù)產(chǎn)業(yè)發(fā)達(dá)國(guó)家相比,我國(guó)大數(shù)據(jù)產(chǎn)業(yè)的短板仍較明顯,數(shù)據(jù)加工處理服務(wù)、數(shù)據(jù)庫(kù)技術(shù)和通用數(shù)據(jù)分析工具等基礎(chǔ)性通用數(shù)據(jù)技術(shù)嚴(yán)重落后,市場(chǎng)主體數(shù)量少,自主知識(shí)產(chǎn)權(quán)把控能力低。由于長(zhǎng)期缺乏在基礎(chǔ)通用性數(shù)據(jù)技術(shù)和人才方面的積累,我國(guó)大數(shù)據(jù)產(chǎn)業(yè)在短期內(nèi)彌補(bǔ)短板劣勢(shì)、趕超歐美發(fā)達(dá)國(guó)家困難較大。因此,以數(shù)據(jù)分析和應(yīng)用需求為驅(qū)動(dòng),立足數(shù)據(jù)時(shí)代轉(zhuǎn)型過(guò)渡技術(shù)是完善產(chǎn)業(yè)結(jié)構(gòu)的明智之舉。傳統(tǒng)行業(yè)和企業(yè)多以結(jié)構(gòu)化數(shù)據(jù)為主,隨著非結(jié)構(gòu)化數(shù)據(jù)的大量涌現(xiàn),存儲(chǔ)、管理、抽取和關(guān)聯(lián)分析異構(gòu)數(shù)據(jù)源之間所蘊(yùn)含的海量信息,逐漸成為數(shù)據(jù)時(shí)代企業(yè)決策的新型參考依據(jù)。為了解決原有結(jié)構(gòu)化數(shù)據(jù)和新增非結(jié)構(gòu)化數(shù)據(jù)之間的互訪(fǎng)問(wèn)操作和融合管理,企業(yè)對(duì)IT時(shí)代向DT時(shí)代過(guò)渡期間所面臨的技術(shù)要求和服務(wù)內(nèi)容有了新的訴求,諸如傳統(tǒng)SQL數(shù)據(jù)庫(kù)與開(kāi)源Hadoop架構(gòu)的對(duì)接技術(shù)、跨數(shù)據(jù)庫(kù)的數(shù)據(jù)訪(fǎng)問(wèn)API等都成為了大數(shù)據(jù)產(chǎn)業(yè)中涌現(xiàn)出的新式共性技術(shù)要素,美國(guó)等發(fā)達(dá)國(guó)家的產(chǎn)業(yè)版圖中完成了過(guò)渡領(lǐng)域的初步布局,我國(guó)產(chǎn)業(yè)參與主體也應(yīng)進(jìn)一步細(xì)化市場(chǎng)分工,形成專(zhuān)業(yè)性強(qiáng)、銜接緊密的產(chǎn)業(yè)新布局,并積極加大過(guò)渡時(shí)期的技術(shù)研發(fā)力度,實(shí)現(xiàn)數(shù)據(jù)過(guò)渡期與發(fā)達(dá)國(guó)家的同步發(fā)展。
(3)強(qiáng)化合作,探索新型商業(yè)模式
大數(shù)據(jù)產(chǎn)業(yè)是技術(shù)密集型產(chǎn)業(yè),同時(shí)也是業(yè)務(wù)驅(qū)動(dòng)為主的實(shí)用型產(chǎn)業(yè)。就數(shù)據(jù)分析和運(yùn)用過(guò)程中需解決的共性基礎(chǔ)研究問(wèn)題,歐美等數(shù)據(jù)產(chǎn)業(yè)發(fā)達(dá)國(guó)家通常采用以開(kāi)源社區(qū)先行的開(kāi)放合作模式,采用“眾包”思想不斷完善系統(tǒng)架構(gòu)和產(chǎn)品服務(wù)功能,打破不同參與主體間的技術(shù)壁壘,提供更為通用和普適的技術(shù)解決方案。經(jīng)過(guò)更多企業(yè)在生產(chǎn)實(shí)踐中的優(yōu)勝劣汰自由選擇,不斷成熟和完善的開(kāi)源產(chǎn)品逐漸從免費(fèi)提供向企業(yè)化盈利的商業(yè)模式進(jìn)行演變。僅在短短的一年時(shí)間內(nèi),MongoDB融資超過(guò)2.3億美元,Cloudera融資近10億美元;Oracle和IBM等國(guó)際巨頭分別完成了對(duì)BlueKai和Cloudant等的并購(gòu),Splunk、Tableau等開(kāi)源項(xiàng)目成功實(shí)現(xiàn)IPO。我國(guó)數(shù)據(jù)產(chǎn)業(yè)的參與主體在開(kāi)源社區(qū)中的貢獻(xiàn)仍然較低,企業(yè)間合作、國(guó)際間合作的參與熱情有待提高,通過(guò)開(kāi)源開(kāi)放形成安全、共識(shí)的數(shù)據(jù)產(chǎn)品和服務(wù)是我國(guó)數(shù)據(jù)產(chǎn)業(yè)得以持續(xù)發(fā)展的有效途徑,借鑒國(guó)外企業(yè)的成功經(jīng)驗(yàn),以開(kāi)源產(chǎn)品和服務(wù)為基礎(chǔ),提供定制化和深度支撐的新型商業(yè)模式是搶占數(shù)據(jù)市場(chǎng)的有效途徑之一,也為中小企業(yè)和初創(chuàng)企業(yè)參與大數(shù)據(jù)產(chǎn)業(yè),完成企業(yè)轉(zhuǎn)型提供了新的發(fā)展思路。
2016-05-23)