呂 萍
(中國電子信息產業(yè)發(fā)展研究院,北京 100048)
看美國大數(shù)據(jù)技術與業(yè)務發(fā)展
呂 萍
(中國電子信息產業(yè)發(fā)展研究院,北京 100048)
筆者通過赴美與美國政府組織、科研單位以及眾多IT企業(yè)進行實地考察與交流,在本文從概念、技術、運用及行業(yè)發(fā)展面臨的障礙等多個方面總結了美國業(yè)界對大數(shù)據(jù)的認識,剖析了美國推動大數(shù)據(jù)發(fā)展在體制機制上的特點,提出了推動我國大數(shù)據(jù)技術與業(yè)務發(fā)展的政策性建議。
大數(shù)據(jù);美國;科技政策
當前,大數(shù)據(jù)正在引發(fā)全球范圍內深刻的技術和商業(yè)變革。為推動我國大數(shù)據(jù)技術與業(yè)務的發(fā)展,學習借鑒美國政府、企業(yè)、研究機構等部門發(fā)展大數(shù)據(jù)的相關經驗和做法,筆者通過參加工業(yè)和信息化部組織的“美國大數(shù)據(jù)技術與業(yè)務高級培訓班”,與美國政府組織、科研單位以及眾多IT企業(yè)進行了交流。其中,美國政府組織包括美國聯(lián)邦貿易委員會、美國信息與技術項目辦公室等;科研單位包括加州大學、紐約大學數(shù)據(jù)科學中心、IBM沃森研究中心等;IT企業(yè)包括亞馬遜、IBM、SAP、惠普、思科、甲骨文、蘋果、Cloudera、日立美國數(shù)據(jù)公司等IT各領域龍頭企業(yè)。
2.1 大數(shù)據(jù)就是具備“4V”特征的數(shù)據(jù)
翻一翻關于“大數(shù)據(jù)”的專業(yè)書籍,對其的解釋說法很多,而美國業(yè)界專家對“什么是大數(shù)據(jù)?”已
2.2 大數(shù)據(jù)技術與傳統(tǒng)數(shù)據(jù)分析有相當?shù)牟煌?/p>
傳統(tǒng)數(shù)據(jù)統(tǒng)計工作主要包括數(shù)據(jù)的采集、處理分析及展示。大數(shù)據(jù)技術與傳統(tǒng)數(shù)據(jù)分析技術本質上都是一樣的,無非都是從數(shù)據(jù)采集到數(shù)據(jù)運用的一個處理過程。但大數(shù)據(jù)處理需要更多更復雜的技術:
一是數(shù)據(jù)存儲方面。不同于傳統(tǒng)數(shù)據(jù)處理,大數(shù)據(jù)處理包括4個關鍵環(huán)節(jié):數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)計算與分析、數(shù)據(jù)展現(xiàn)。其中,數(shù)據(jù)存儲技術是大數(shù)據(jù)處理技術中至關重要的一個環(huán)節(jié),而這在傳統(tǒng)數(shù)據(jù)處理中并不是問題。受大數(shù)據(jù)數(shù)量大、變化快等特性的要求,數(shù)據(jù)存儲技術需要包括:極高的并發(fā)讀寫速度,海量數(shù)據(jù)的高效率存儲和訪問,高可擴展性和高可用性。
二是數(shù)據(jù)計算與分析方面。傳統(tǒng)數(shù)據(jù)分析處理的是結構化數(shù)據(jù),而大數(shù)據(jù)計算與分析將面臨處理大量非結構化數(shù)據(jù)的困難。處理的復雜性增加了難度,從而會影響速度。目前,大數(shù)據(jù)計算分析的基本辦法是將大量數(shù)據(jù)分散到多個節(jié)點上,將計算并行化,利用多機的計算資源,從而加快數(shù)據(jù)處理的速度。目前,基于MapReduce技術的開源實現(xiàn)Hadoop是業(yè)界大數(shù)據(jù)并行計算的常見平臺,被谷歌、Cloudera等互聯(lián)網(wǎng)企業(yè)廣泛使用。
2.3 推動大數(shù)據(jù)業(yè)務發(fā)展面臨四大障礙
這兩年,大數(shù)據(jù)在我國興起的同時受到了學界與業(yè)界不同聲音的質疑,政府在推動大數(shù)據(jù)業(yè)務發(fā)展過程中明顯感受到從數(shù)據(jù)采集到運用過程中障礙重重。盡管美國在高技術領域發(fā)展方面一直處于全球領先地位,又是大數(shù)據(jù)市場運用的主要推手,然而,美國現(xiàn)階段發(fā)展大數(shù)據(jù)業(yè)務同樣面臨以下困擾:數(shù)據(jù)的公開性問題;個人隱私保護問題;國家信息安全問題;跨境數(shù)據(jù)流動問題等??梢哉f,在美國大數(shù)據(jù)發(fā)展也仍處于初期階段,在技術和非技術層面有待解決的問題還很多,困難還很大。美國政府正在試圖尋找有效地解決方案。例如,對于個人隱私保護方面,美國聯(lián)邦貿易委員會提倡行業(yè)建立公共信息平臺,以避免企業(yè)與個人之間就個人隱私問題上產生紛爭。美國國家信息和項目辦公室正在對美國各政府機構之間的信息共享、互聯(lián)互通,以及跨境數(shù)據(jù)流動問題積極協(xié)調。對于美國業(yè)界,大數(shù)據(jù)運用是互聯(lián)網(wǎng)信息技術發(fā)展到一定階段的必然,政府、學者、企業(yè)都不約而同地認為他們有責任也有信心攻克這些難題。
2.4 大數(shù)據(jù)業(yè)務的運用可無限想象
美國大數(shù)據(jù)應用的成功案例不僅涉及到金融、電信、智能辦公、醫(yī)療、教育、交通等與社會民生密切相關的領域,而且還有如超市倉儲、銷售貨品、航空調度、農場收割、體育競技、動漫影視制作等特別的、小眾的商業(yè)和生活領域。例如,Cisco運用云和大數(shù)據(jù)技術創(chuàng)造的智能辦公環(huán)境,最大限度地節(jié)約能源方案;SAP利用大數(shù)據(jù)在足球場上培養(yǎng)球員并實現(xiàn)一場球賽的勝利;IBM沃森智能機器人利用大數(shù)據(jù)學習成為超過人類智慧的最強大腦;小鎮(zhèn)農場利用大數(shù)據(jù)實現(xiàn)使用無人收割機進行農作物收割等。IT企業(yè)展示了眾多的運用案例,有的還只是概念,但大部分已實現(xiàn)或有了清晰可行的實現(xiàn)路徑。大數(shù)據(jù)時代將以往只有在科幻熒幕上看到的生活、工作和學習場景真正搬到現(xiàn)實中來。
3.1 國家高度重視,行業(yè)達成共識
美國奧巴馬總統(tǒng)于2012年3月宣布“大數(shù)據(jù)計劃”,并將“大數(shù)據(jù)”發(fā)展上升為美國國家戰(zhàn)略,并宣布第一輪大數(shù)據(jù)研究項目開始。2013年11月12日,白宮科學技術政策辦公室(OSTP)和網(wǎng)絡與信息技術研究開發(fā)計劃(NITRD)發(fā)布大量新的大數(shù)據(jù)合作項目,刺激私營領域對聯(lián)邦數(shù)據(jù)的興趣,相關項目屬于白宮發(fā)起的“從數(shù)據(jù)—知識—行動”獲得,將分別對醫(yī)療服務、能源與交通、網(wǎng)絡安全、前沿技術研究、更大的軟件分析平臺等領域進行研究。
3.2 政企研三方分工明確,界面清晰
在美國,政府主要在制定戰(zhàn)略方針、協(xié)調政府組織開放數(shù)據(jù)源、在公共安全、個人隱私保護方面制定或修正法案、宣傳推廣先進理念、提供產業(yè)良性發(fā)展的環(huán)境等方面發(fā)揮作用;高校及研究機構主要專注于理論研究,對關鍵性核心技術進行前沿性科研;而企業(yè)則進一步創(chuàng)新技術、將技術市場化、產品化,最終將產品和服務推向市場和公眾,運用于社會。簡而言之,研究機構致力于技術研發(fā),企業(yè)致力于推廣產品和應用,而政府專注于協(xié)調問題、解決糾紛,三者權責明晰、互不干擾。
3.3 技術創(chuàng)新是根本,來自于以人為本的激勵機制
創(chuàng)新思維是推動高技術發(fā)展的源動力。在硅谷,有著名的風險投資一條街。任何具有創(chuàng)新性的點子一旦形成,可馬上作為個人的成果贏得風險投資的資金支持,“思維+技術+資金”的良性循環(huán)實現(xiàn)了個人成功與社會進步的雙贏,從而為培養(yǎng)創(chuàng)新思維提供了生根的土壤。大數(shù)據(jù)技術的發(fā)展離不開硅谷眾多的IT企業(yè),而這里處處能看到技術專家創(chuàng)新的本能。與此同時,伯克利大學、斯坦福大學、麻省理工學院等全球最頂尖的大學集中了全球最優(yōu)秀的人才,求真務實、以人為本的研發(fā)環(huán)境保障了大量的專家學者獻身于大數(shù)據(jù)技術的理論基礎研究和實驗。技術創(chuàng)新是高技術產業(yè)發(fā)展的根本,培育業(yè)內各個環(huán)節(jié)保持長盛不衰的創(chuàng)新氛圍,關鍵在于有一個以人為本的激勵機制。
我國大數(shù)據(jù)技術與業(yè)務未來將如何去推動發(fā)展呢?除了有必要培養(yǎng)業(yè)界“求真務實、戒驕戒躁、勇于創(chuàng)新”的大環(huán)境之外,還要做以下工作:
一是各層面主體要統(tǒng)一認識、分工明確、協(xié)同推進。美國已將“大數(shù)據(jù)”發(fā)展上升為美國國家戰(zhàn)略,由隸屬于白宮的國家協(xié)調辦公室(NCO)進行統(tǒng)一協(xié)調部署,向各有關單位分配每年的財政撥款,負責每周召集政府、企業(yè)、科研單位召開項目進度溝通例會,交流工作進展及未來發(fā)展。在NCO的協(xié)調下,各部門彼此了解研發(fā)項目,大大減少重復建設的可能性。我國應該借鑒其經驗,將推動大數(shù)據(jù)發(fā)展上升到國家戰(zhàn)略層面,由政府成立多部門共同參與的協(xié)調機構,強化頂層設計,政、企、研分工明確,各盡其職,協(xié)同推進。
二是要努力打通大數(shù)據(jù)業(yè)務發(fā)展在非技術層面存在的障礙。在政務數(shù)據(jù)開放、數(shù)據(jù)安全等方面建立相關平臺和制度,打通數(shù)據(jù)斷層,建立信息共享平臺。在保護個人隱私、國家信息安全、商業(yè)機密等方面完善政策法規(guī),促進商業(yè)數(shù)據(jù)和個人數(shù)據(jù)的開放與共享。做好對敏感和要害數(shù)據(jù)的監(jiān)管工作。
三是盡快提高我國中小企業(yè)信息化建設水平。中小企業(yè)將是大數(shù)據(jù)時代的信息主要來源,其信息化水平將直接決定大數(shù)據(jù)行業(yè)的發(fā)展步伐。鼓勵培育我國中小企業(yè)的信息化平臺建設,不斷推動中小企業(yè)生產和管理模式的信息化建設,逐步提高企業(yè)對大數(shù)據(jù)的存儲和處理能力。
四是人才與技術的培養(yǎng)。這是一項“十年磨一劍”卻意義深遠的中長期工程。從宣傳、教育入手,從娃娃抓起,培養(yǎng)勇于創(chuàng)新的土壤,在社會教育各層面鼓勵高技術開發(fā)思維。就大數(shù)據(jù)專業(yè)培養(yǎng)方面,可以鼓勵技術院校、高校及研究機構開發(fā)信息管理方向的系列課程,設計大數(shù)據(jù)技術與應用課程,把大數(shù)據(jù)課程、理論、工具、實驗等緊密結合在一起,將體系化的課程和實訓有效結合以培養(yǎng)專業(yè)人才。
The Technology and Industry Development of Big Data in America
Lv Ping
(China Center for Information Industry Development, Beijing, 100048)
Based on the investigation and discussion with the governments, research institutes, and many IT companies in America, summarize the U.S. industry knowledge of Big Data including the concepts, the technologies, its application, and the difficulties. Analyze the characteristics revealed in the system and mechanism of U.S. industry that promote the development of Big Data industry, and propose the policy suggestions to push forward our country’s Big Data technology and industry.
Big Data; America; Science and Technology Policy
10.3969/J.ISSN.1672-7274.2015.05.013
TP3,TN91
A
1672-7274(2015)05-0046-03
呂萍,女,1978年生,碩士,在職博士,高級經濟師,主要研究方向是產業(yè)經濟。有統(tǒng)一認識,大數(shù)據(jù)具備“4V”特征:一是數(shù)量巨大(Volume)。目前的信息系統(tǒng)數(shù)據(jù)處理量大概處于TB級別,而未來的大數(shù)據(jù)處理能力需要擴展到以PB級別為主。二是類型多樣(Variety)。大數(shù)據(jù)不是單一的結構化數(shù)據(jù),還包含了大量非結構化數(shù)據(jù)(圖片、文本、視頻、聲音等)。未來,非結構化數(shù)據(jù)將占主流。三是變化快速(Velocity)。大數(shù)據(jù)的變化快,并且要求快速處理才能獲得應有價值。四是大量價值(Value)。大數(shù)據(jù)發(fā)展的核心是利用數(shù)據(jù)產生價值,主要體現(xiàn)在不同行業(yè)數(shù)據(jù)的融合使得以往的數(shù)據(jù)再次產生價值,數(shù)據(jù)的交易能夠產生新的商業(yè)模式,取得相應的價值。大數(shù)據(jù)的本質是大量的時時刻刻產生在人們生活和工作中的有用信息,包括數(shù)字、圖片、文本、視頻、聲音等各種形式的信息,這些信息廣泛存在于生物界甚至是機器之間。之所以人類到現(xiàn)在才提出“大數(shù)據(jù)”這個概念,主要歸功于世界電子行業(yè)和互聯(lián)網(wǎng)技術的發(fā)展,人類有了采集、儲存、分析及運用這些龐大信息的能力,即大數(shù)據(jù)技術。