• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)的價值發(fā)現(xiàn)方法

      2017-04-21 08:06:34杜小勇陳躍國
      大數(shù)據(jù) 2017年2期
      關(guān)鍵詞:數(shù)據(jù)服務(wù)價值用戶

      杜小勇,陳躍國

      1. 數(shù)據(jù)工程與知識工程教育部重點實驗室(中國人民大學(xué)),北京 100872;2. 中國人民大學(xué)信息學(xué)院,北京 100872

      大數(shù)據(jù)的價值發(fā)現(xiàn)方法

      杜小勇1,2,陳躍國1,2

      1. 數(shù)據(jù)工程與知識工程教育部重點實驗室(中國人民大學(xué)),北京 100872;2. 中國人民大學(xué)信息學(xué)院,北京 100872

      大數(shù)據(jù)的價值有不同的體現(xiàn)形式和發(fā)現(xiàn)價值的途徑。總結(jié)了從大數(shù)據(jù)中發(fā)現(xiàn)價值的3種基本途徑:數(shù)據(jù)服務(wù)、數(shù)據(jù)分析與數(shù)據(jù)探索,并對它們的特點進(jìn)行了分析和對比。數(shù)據(jù)服務(wù)通過提供高性能和高并發(fā)的數(shù)據(jù)訪問從微觀層面體現(xiàn)數(shù)據(jù)價值;數(shù)據(jù)分析側(cè)重利用統(tǒng)計模型的方法在宏觀層面上對大數(shù)據(jù)進(jìn)行處理,通過產(chǎn)生數(shù)據(jù)洞察的形式體現(xiàn)數(shù)據(jù)價值;數(shù)據(jù)探索側(cè)重通過交互模型在微觀和宏觀的不斷變換,引導(dǎo)用戶瀏覽和發(fā)現(xiàn)數(shù)據(jù)的價值。

      大數(shù)據(jù);價值發(fā)現(xiàn);數(shù)據(jù)服務(wù);數(shù)據(jù)分析;數(shù)據(jù)探索

      1 引言

      關(guān)于大數(shù)據(jù)的討論,一方面人們需要厘清大數(shù)據(jù)的概念,開發(fā)適用的大數(shù)據(jù)系統(tǒng)和工具,探索大數(shù)據(jù)的應(yīng)用模式等,另一方面人們更關(guān)心如何將大數(shù)據(jù)的價值變現(xiàn)。這對于一個企業(yè)來說尤其重要,否則,收集和存儲了大量的數(shù)據(jù),消耗了大量的錢財,如果大數(shù)據(jù)不能被很好地利用,從經(jīng)濟(jì)上講就是不合算的,這樣的事情也不會長遠(yuǎn)。本文對大數(shù)據(jù)價值發(fā)現(xiàn)的主要方法進(jìn)行綜述,并結(jié)合一些例子展示其特點。

      數(shù)據(jù)的價值在信息系統(tǒng)作為計算機(jī)科學(xué)與技術(shù)的一個非常重要方向之初,就已經(jīng)得到了人們足夠的認(rèn)可和重視。那么,在大數(shù)據(jù)時代,數(shù)據(jù)的價值有什么獨特之處嗎?很明顯,大數(shù)據(jù)特有的價值源于其規(guī)模效應(yīng),當(dāng)數(shù)據(jù)量足夠大時,其價值能夠隨之得到足夠的放大。這一點在當(dāng)前十分火熱的深度學(xué)習(xí)領(lǐng)域得到了很好的驗證。最近幾年,在機(jī)器學(xué)習(xí)和人工智能領(lǐng)域,研究者們利用大數(shù)據(jù)能夠更好地訓(xùn)練分類器(深度神經(jīng)網(wǎng)絡(luò)),在很多應(yīng)用領(lǐng)域(如語音和圖像識別等)取得了巨大的進(jìn)步。包括一直以來被認(rèn)為人工智能難以攻破的圍棋領(lǐng)域,新的人工智能技術(shù)已經(jīng)在很多方面超過了人類。究其原因,就是大規(guī)模數(shù)據(jù),尤其是具有標(biāo)注的大數(shù)據(jù),使得人們構(gòu)建更精細(xì)化的分類器,讓一度不被重視的神經(jīng)網(wǎng)絡(luò)分類器,以至整個人工智能領(lǐng)域,重新煥發(fā)了青春。這是大數(shù)據(jù)在深度分析領(lǐng)域體現(xiàn)出價值的一個例子。

      大數(shù)據(jù)價值的發(fā)現(xiàn)與其所處的應(yīng)用場景密切相關(guān)。概括起來,筆者認(rèn)為大數(shù)據(jù)價值發(fā)現(xiàn)可以劃分為三大類:數(shù)據(jù)服務(wù)、數(shù)據(jù)分析和數(shù)據(jù)探索。數(shù)據(jù)服務(wù)是面向大規(guī)模用戶,提供高性能的數(shù)據(jù)查詢、檢索、預(yù)測等服務(wù),通過直接滿足用戶需求而將數(shù)據(jù)價值變現(xiàn)的形式;數(shù)據(jù)分析是分析人員利用經(jīng)驗,通過對大規(guī)模數(shù)據(jù)使用特定的計算模型進(jìn)行較為復(fù)雜的運(yùn)算,從而發(fā)現(xiàn)易于人們理解的數(shù)據(jù)模式或規(guī)律所進(jìn)行的數(shù)據(jù)價值變現(xiàn)的一種運(yùn)算形式;數(shù)據(jù)探索是一種利用數(shù)據(jù)分析和人機(jī)交互的結(jié)合,通過不斷揭示數(shù)據(jù)的規(guī)律和數(shù)據(jù)間的關(guān)聯(lián),引導(dǎo)分析人員發(fā)現(xiàn)并認(rèn)識其所未知的數(shù)據(jù)模式或規(guī)律,其價值更多地體現(xiàn)在對未知途徑的數(shù)據(jù)模式和規(guī)律的探索。下面分別就這3類數(shù)據(jù)價值發(fā)現(xiàn)方法加以細(xì)致的介紹。

      2 數(shù)據(jù)服務(wù)

      數(shù)據(jù)服務(wù)針對用戶非常明確的數(shù)據(jù)查詢和處理任務(wù),以高性能和高吞吐量的方式實現(xiàn)大眾化的服務(wù),是數(shù)據(jù)價值最重要也是最直接的發(fā)現(xiàn)方式。由于要處理大眾化的服務(wù)請求,每個服務(wù)任務(wù)必須能夠被快速地處理掉,因此,數(shù)據(jù)服務(wù)的單個任務(wù)/負(fù)載不能過于復(fù)雜,單任務(wù)直接處理的數(shù)據(jù)不能太大,任務(wù)對應(yīng)的用戶需求和采用的數(shù)據(jù)處理方法必須是明確的。一些典型的數(shù)據(jù)服務(wù)包括事務(wù)處理、數(shù)據(jù)查詢、信息檢索、數(shù)據(jù)預(yù)測。

      事務(wù)處理是傳統(tǒng)數(shù)據(jù)庫范疇的價值發(fā)現(xiàn)形式,它針對的主要是任務(wù)關(guān)鍵型(mission-critical)的數(shù)據(jù)服務(wù),如銀行記賬、商業(yè)交易等。幾十年來,隨著數(shù)據(jù)庫技術(shù)日趨成熟,此類數(shù)據(jù)價值得到了較為充分的挖掘。然而,隨著移動互聯(lián)網(wǎng)時代的到來,很多互聯(lián)網(wǎng)特有的現(xiàn)象級應(yīng)用給事務(wù)處理帶來了不小的挑戰(zhàn)。兩個較為典型的例子就是“雙十一”和12306春節(jié)購票。高并發(fā)的事務(wù)處理請求給現(xiàn)有數(shù)據(jù)庫系統(tǒng)帶來了巨大的挑戰(zhàn),研究人員嘗試使用新硬件提升數(shù)據(jù)庫系統(tǒng)性能,甚至在軟件層面重新構(gòu)建數(shù)據(jù)庫系統(tǒng),形成以NewSQL數(shù)據(jù)管理技術(shù)為主的新型事務(wù)處理系統(tǒng)[1]。

      數(shù)據(jù)查詢主要是面向快速查找或修改數(shù)據(jù)的服務(wù)需求,它比事務(wù)處理更簡單,對數(shù)據(jù)一致性要求沒那么強(qiáng),但對服務(wù)的吞吐量要求非常高。典型的例子就是采用鍵值對模型的NoSQL數(shù)據(jù)庫[2]。查詢服務(wù)通常以行鍵、列名、版本號等確定數(shù)據(jù)的邏輯單元,并通過行鍵、列名和版本等信息進(jìn)行基于鍵值的數(shù)據(jù)查詢。對于NoSQL數(shù)據(jù)庫,由于弱化了數(shù)據(jù)事務(wù)一致性準(zhǔn)則(采用最終一致性),數(shù)據(jù)索引相對簡單,事務(wù)類型單一,適用于并行化處理,其在一定規(guī)模的集群下能夠達(dá)到較高的數(shù)據(jù)讀寫吞吐率(每秒百萬級)。例如,用戶畫像的使用?;ヂ?lián)網(wǎng)行業(yè)通過為用戶提供服務(wù),收集了很多用戶行為數(shù)據(jù),利用數(shù)據(jù)分析手段構(gòu)建了用戶畫像,這些畫像為了精細(xì)地刻畫用戶的特征,經(jīng)常使用成千上萬個屬性。數(shù)據(jù)服務(wù)就是要針對具體用戶,快速讀取或者寫入一些屬性。比如,很多門戶網(wǎng)站有個性化的用戶登錄界面。當(dāng)用戶登錄后,立即對NoSQL數(shù)據(jù)庫發(fā)起一個服務(wù)請求,獲得用戶某些方面的屬性,利用這些屬性和一些特有的業(yè)務(wù)規(guī)則,網(wǎng)站引擎對用戶進(jìn)行個性化的界面顯示。要求整個服務(wù)過程能夠在幾毫秒到幾十毫秒的時間處理完,是一種高標(biāo)準(zhǔn)性能要求的數(shù)據(jù)服務(wù)請求。

      信息檢索是指從大規(guī)模的數(shù)據(jù)集中快速查找滿足用戶需求的資料或數(shù)據(jù)片段的過程。此類服務(wù)中用戶通過關(guān)鍵詞(或自然語言語句)表達(dá)信息需求,因此用戶需求具有一定的模糊性。為了快速得到查詢結(jié)果,信息檢索系統(tǒng)必須預(yù)先構(gòu)建數(shù)據(jù)索引(如倒排表)。完成檢索后,檢索結(jié)果要根據(jù)查詢的相關(guān)度進(jìn)行排序。搜索引擎的成功正是得益于其對大規(guī)?;ヂ?lián)網(wǎng)用戶提供在海量Web數(shù)據(jù)基礎(chǔ)上的信息檢索服務(wù),并從中獲得大規(guī)模的用戶行為數(shù)據(jù),為其提升信息檢索服務(wù)質(zhì)量、拓寬廣告服務(wù)等增值業(yè)務(wù)奠定基礎(chǔ)。可以說,大數(shù)據(jù)的價值正是被搜索引擎巨頭率先發(fā)掘出來的。之前人們一直認(rèn)為信息檢索的核心是排序模型,并投入了大量精力改進(jìn)排序模型,以求提升信息檢索的精度。然而,隨著越來越多的用戶使用搜索引擎,搜索引擎公司逐漸意識到用戶對結(jié)果的點擊行為是一種非常好的反饋,利用海量用戶的點擊數(shù)據(jù),研究人員使用排序?qū)W習(xí)的方法[3],可以大幅度提升信息檢索的精度。這是搜索引擎公司對其收集和索引的大數(shù)據(jù)的一種重要價值發(fā)現(xiàn)形式。

      數(shù)據(jù)預(yù)測和數(shù)據(jù)分類被很多人認(rèn)為是一種數(shù)據(jù)分析任務(wù),其實,很多針對個體的數(shù)據(jù)預(yù)測和分類任務(wù)實際上是一種數(shù)據(jù)服務(wù),它使用數(shù)據(jù)分析得來的預(yù)測模型,對個體數(shù)據(jù)實例進(jìn)行預(yù)測,從而能夠高并發(fā)地為大規(guī)模用戶提供分類和預(yù)測服務(wù),進(jìn)而更好地體現(xiàn)出數(shù)據(jù)的價值。推薦系統(tǒng)是一種典型的數(shù)據(jù)預(yù)測服務(wù)。根據(jù)大規(guī)模用戶的購買或瀏覽行為,使用數(shù)據(jù)分析技術(shù)學(xué)習(xí)得到推薦模型。當(dāng)用戶在電商網(wǎng)站選購商品時,這些網(wǎng)站會利用先前學(xué)習(xí)到的推薦模型,結(jié)合用戶當(dāng)前的行為,為用戶實時推薦商品。推薦實際上就是一種數(shù)據(jù)預(yù)測服務(wù),其發(fā)現(xiàn)的數(shù)據(jù)價值也非常高。

      3 數(shù)據(jù)分析

      數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計分析方法對大量數(shù)據(jù)進(jìn)行分析或建模,提取有用信息并形成結(jié)論,進(jìn)而輔助人們決策的過程。在這個過程中,用戶會有一個明確的目標(biāo),通過“數(shù)據(jù)清理、轉(zhuǎn)換、建模、統(tǒng)計”等一系列復(fù)雜的操作,獲得對數(shù)據(jù)的洞察,從而協(xié)助用戶進(jìn)行決策。常見的數(shù)據(jù)分析任務(wù)又可以被進(jìn)一步劃分為描述型分析、診斷型分析、預(yù)測型分析、策略型分析①http://www.informationweek.com/big-data/big-data-analytics/big-data-analytics-descriptivevs-predictivevs-prescriptive/d/d-id/1113279。

      描述型分析的主要特點是對數(shù)據(jù)代表的含義進(jìn)行描述性的揭示,通過數(shù)據(jù)統(tǒng)計分析揭示數(shù)據(jù)隱含的現(xiàn)象,從而幫助人們更好地進(jìn)行決策。常見的描述型分析有對歷史數(shù)據(jù)的在線聯(lián)機(jī)分析處理(online analytical processing,OLAP)和對新產(chǎn)生數(shù)據(jù)的流式分析。OLAP一般采用SQL查詢語句對結(jié)構(gòu)化數(shù)據(jù)進(jìn)行多維度的聚集查詢處理。采用立方體模型組織和管理數(shù)據(jù),即選取一些屬性作為分析的維度(稱為維屬性或者維表),另外一個或者若干個屬性作為分析的對象(稱為事實屬性或者事實表),在分析對象上,可以進(jìn)行常規(guī)的統(tǒng)計操作,包括計數(shù)、求和、求平均、求最大/最小值等。OLAP的操作包括切片、切塊、上鉆、下鉆等。為了更容易地理解分析結(jié)果,OLAP通常都有一個圖形化的數(shù)據(jù)展示接口。例如,某連鎖企業(yè)匯集了全部門店的商品銷售明細(xì)數(shù)據(jù),包括時間、門店、商品種類、銷售額等??梢詷?gòu)建以時間、門店、商品種類等為維度,以銷售額為目標(biāo)的數(shù)據(jù)倉庫。通過這個倉庫,可以展示本月份按照門店統(tǒng)計的銷售額(采用切片、切塊操作),也可以在上述分析結(jié)果的基礎(chǔ)上,進(jìn)一步展示銷售額最低的門店的各商品銷售數(shù)據(jù)和本月份每周的銷售數(shù)據(jù)(采用下鉆操作),試圖找到銷售不佳的原因。

      流式分析與OLAP的主要差別是要持續(xù)不斷地對新產(chǎn)生的數(shù)據(jù)進(jìn)行統(tǒng)計分析,在實時性要求比較強(qiáng)的應(yīng)用中能發(fā)揮出重要作用。比如,通過傳感器采集到的設(shè)備傳感數(shù)據(jù)分析設(shè)備的運(yùn)行狀況,持續(xù)監(jiān)控設(shè)備的狀態(tài),就屬于典型的流式分析,其核心還是在于對最新的數(shù)據(jù)產(chǎn)生洞察。

      除了流式分析,還有一類描述性分析也越來越受到人們的重視,即圖數(shù)據(jù)分析。社交網(wǎng)絡(luò)的發(fā)展讓圖分析能夠發(fā)揮出越來越重要的作用,其主要目的在于分析圖上節(jié)點(包括邊)的影響關(guān)系、發(fā)現(xiàn)圖的模式等。例如,在論文數(shù)據(jù)庫DBLP的基礎(chǔ)上,可以獲得作者之間的合作關(guān)系,評估作者之間的相互影響程度。對于一個特定作者來說,可以分析哪些作者對其影響最大,還可以分領(lǐng)域(用關(guān)鍵字表達(dá))、按時間等展示這種影響。

      診斷型分析(diagnostic analysis)主要用來揭示一些現(xiàn)象背后的成因,因此,它比描述型分析更深入。很多數(shù)據(jù)挖掘方法與診斷型分析密切相關(guān)。比如相關(guān)性分析和因果關(guān)系的分析等,都是想通過對數(shù)據(jù)的深度分析揭示描述型分析所發(fā)現(xiàn)的某些現(xiàn)象背后的成因。例如,一個互聯(lián)網(wǎng)金融公司使用描述型分析的商務(wù)智能(business intelligence,BI)技術(shù),發(fā)現(xiàn)其某類產(chǎn)品在過去一個月的銷售出現(xiàn)明顯的下滑,分析人員需要借助一些診斷型數(shù)據(jù)分析方法,發(fā)現(xiàn)造成銷售下滑的主要原因(比如,是否因為產(chǎn)品定價原因而影響了銷售),分析人員一般在基于某些假設(shè)的前提下,對不同維度的數(shù)據(jù)進(jìn)行相關(guān)性分析和因果性分析。復(fù)雜的甚至還會引入一些圖分析技術(shù),比如,通過對用戶行為圖譜的分析,辨別是否存在群體性惡意抵制的行為,影響商品在某些方面的銷售。

      預(yù)測型分析(predictive analysis)主要是使用機(jī)器學(xué)習(xí)技術(shù),對現(xiàn)有的大數(shù)據(jù)進(jìn)行深度分析,構(gòu)建數(shù)據(jù)預(yù)測和分類的模型,從而更好地支持?jǐn)?shù)據(jù)預(yù)測和分類服務(wù)。機(jī)器學(xué)習(xí)是一個比較寬泛的研究領(lǐng)域,近些年隨著大數(shù)據(jù)的迅速發(fā)展,取得了很多令人振奮的進(jìn)展。最為典型的就是深度學(xué)習(xí)(深度神經(jīng)網(wǎng)絡(luò))技術(shù)[4]等,使得很多基于大數(shù)據(jù)的人工智能(artificial intelligence,AI)應(yīng)用走上前臺。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的子領(lǐng)域,已經(jīng)在計算機(jī)視覺、語音、自然語言處理、游戲博弈等領(lǐng)域取得了巨大的突破。深度學(xué)習(xí)可以處理結(jié)構(gòu)化數(shù)據(jù),甚至是非結(jié)構(gòu)化數(shù)據(jù)。深度學(xué)習(xí)模型最基本的單元是神經(jīng)元。一個神經(jīng)元接收輸入X,輸出f(X·W)。其中X和W是向量,W是神經(jīng)元的參數(shù),·是內(nèi)積符號,f是一個非線性函數(shù)。神經(jīng)元其實是一個非常簡單的函數(shù)映射。深度學(xué)習(xí)模型就是這些眾多簡單神經(jīng)元的組合。例如,數(shù)據(jù)首先傳遞給直接接收原始輸入的神經(jīng)元,這些神經(jīng)元的輸出再作為后面神經(jīng)元的輸入,以此類推。

      目前主流的深度學(xué)習(xí)模型都是有監(jiān)督學(xué)習(xí),其模型的訓(xùn)練過程如下。

      第一步,準(zhǔn)備大量的帶標(biāo)簽的樣本{<x, y>},其中x是數(shù)據(jù)(如一張圖片),y是其標(biāo)簽(如圖片的類別)。

      第二步,定義從x到y(tǒng)的映射。這一步就是在設(shè)計深度學(xué)習(xí)模型的結(jié)構(gòu)(或者說神經(jīng)元的組合方式)。有人把深度學(xué)習(xí)模型的設(shè)計比喻成搭積木,每個積木就是一層神經(jīng)元(神經(jīng)網(wǎng)絡(luò)層)。選擇不同的神經(jīng)網(wǎng)絡(luò)層,每一層的輸出作為下一層的輸入,直到輸出對標(biāo)簽y的預(yù)測。

      第三步,定義損失函數(shù)。需要確定一個目標(biāo)函數(shù),衡量模型預(yù)測的標(biāo)簽和正確標(biāo)簽之間的差距。

      第四步,訓(xùn)練參數(shù)。利用收集的訓(xùn)練樣本集{<x,y>}訓(xùn)練模型中的參數(shù)。整個訓(xùn)練過程是以下3個步驟的不斷迭代:正向傳播,將x作為輸入,通過事先確定的神經(jīng)網(wǎng)絡(luò),得到預(yù)測的標(biāo)簽y’;反向傳遞,將y(正確的標(biāo)簽)和y’(預(yù)測的標(biāo)簽)代入損失函數(shù),計算誤差,通過反向傳遞,不斷地將誤差值從后向前傳遞,可以得到每個神經(jīng)元以及神經(jīng)元中參數(shù)的導(dǎo)數(shù);調(diào)整參數(shù),有了參數(shù)的導(dǎo)數(shù),就可以使參數(shù)向負(fù)梯度的方向更新迭代,以求在下一次的迭代中減少損失函數(shù)的值。

      例如,自動駕駛場景中的交通標(biāo)志識別,這是2016年中國計算機(jī)學(xué)會大數(shù)據(jù)與計算智能大賽中的一個題目。交通標(biāo)志檢測是無人駕駛技術(shù)中一項非常有挑戰(zhàn)性的任務(wù),交通標(biāo)志的正確識別對輔助定位和導(dǎo)航有決定性的作用。交通標(biāo)志的種類繁多,其大小和角度不一致,受天氣、光照等環(huán)境因素影響大,這使得對交通標(biāo)志的檢測非常困難,但好處是很容易獲得大量真實場景下的圖像數(shù)據(jù)用于訓(xùn)練和測試。獲得該賽題一等獎的團(tuán)隊采用的正是神經(jīng)網(wǎng)絡(luò)模型,特別是通過將關(guān)鍵部位的圖像進(jìn)行放大增強(qiáng)等措施,提高了識別的準(zhǔn)確率。

      策略型分析(prescriptive analysis)也稱指導(dǎo)型分析,是在分析過程中減少甚至排除人的參與,在給定目標(biāo)的驅(qū)動下,直接幫助人們找到好的策略,作用于大數(shù)據(jù)應(yīng)用,使得未來數(shù)據(jù)指標(biāo)能夠按照設(shè)想的某些趨勢發(fā)展。它是數(shù)據(jù)分析的高級階段,更能發(fā)揮出大數(shù)據(jù)的價值。然而,它也是最為復(fù)雜最難的分析任務(wù),因為影響實際數(shù)據(jù)指標(biāo)變化的因素可能很多,片面地分析往往達(dá)不到想要的效果。例如,交通擁堵問題是一個困擾很多大城市的難題。策略型分析就是要通過對城市交通數(shù)據(jù)、氣象數(shù)據(jù)、就業(yè)數(shù)據(jù)、地理信息等進(jìn)行綜合的數(shù)據(jù)分析和建模,從微觀層面到宏觀層面制定合理有效的交通疏導(dǎo)策略,以緩解城市的交通擁堵問題。在很多社會大數(shù)據(jù)治理的問題上,策略型分析能發(fā)揮出很大的作用,它使得數(shù)據(jù)分析系統(tǒng)發(fā)現(xiàn)的策略在被執(zhí)行后,能夠讓數(shù)據(jù)指標(biāo)按事先預(yù)定的趨勢發(fā)展,目前面臨的研究挑戰(zhàn)還非常大。

      總之,數(shù)據(jù)分析一般基于大量數(shù)據(jù)和較為復(fù)雜的運(yùn)算模型,其結(jié)果信息量通常很大,適用于宏觀決策。而對于細(xì)節(jié)層面信息的獲取,數(shù)據(jù)分析缺乏如索引和訪問控制等方面的技術(shù)支持。如何在一個平臺上,既支持宏觀的分析,也支持細(xì)節(jié)的分析,是當(dāng)今一個挑戰(zhàn)的技術(shù)難題。

      4 數(shù)據(jù)探索

      數(shù)據(jù)探索是指針對目標(biāo)可變、持續(xù)、多角度的搜索或分析任務(wù),其搜索過程是有選擇、有策略和反復(fù)進(jìn)行的。它將以找到信息為目的的傳統(tǒng)信息檢索模式變?yōu)橐园l(fā)現(xiàn)、學(xué)習(xí)和決策為目的的信息搜尋模式。這樣的搜索模式結(jié)合了大量的數(shù)據(jù)分析與人機(jī)交互過程,適合于人們從數(shù)據(jù)中發(fā)現(xiàn)和學(xué)習(xí)更多的內(nèi)容和價值。

      對于數(shù)據(jù)探索,用戶可以在微觀層面(數(shù)據(jù)搜索)和宏觀層面(數(shù)據(jù)分析)之間進(jìn)行自由切換,用交互式的方式探索并發(fā)現(xiàn)數(shù)據(jù)的價值。例如,某家環(huán)保研究機(jī)構(gòu)收集了很多數(shù)據(jù)(如企業(yè)排放數(shù)據(jù)、城市機(jī)動車輛數(shù)據(jù)、天氣數(shù)據(jù)、地理信息數(shù)據(jù)等),分析人員想利用這些數(shù)據(jù)分析北京地區(qū)霧霾的成因,這看上去更像是診斷型分析。但由于分析人員對霧霾成因還缺少深刻的認(rèn)識,只能通過很多嘗試性的分析策略分析數(shù)據(jù),對比了北京霧霾天氣和氣溫的關(guān)系,發(fā)現(xiàn)冬天霧霾更多,然而進(jìn)一步分析發(fā)現(xiàn)氣溫和霧霾存在相關(guān)性,并不是決定性。因為可以從不同季節(jié)、不同年份的分析結(jié)果否定氣溫是主因的結(jié)論。分析系統(tǒng)可以提示分析人員對不同地域、不同時段、不同類型數(shù)據(jù)進(jìn)行進(jìn)一步細(xì)致的分析,這種交互式的帶有引導(dǎo)式的分析過程,能夠不斷幫助分析人員發(fā)現(xiàn)一些重要的規(guī)律,進(jìn)而縮小數(shù)據(jù)分析的范圍。比如,當(dāng)分析人員認(rèn)為煤燃燒很可能是主因時,系統(tǒng)會自動推薦進(jìn)一步的分析策略,如不同行業(yè)的煤燃燒情況、地域分布、時域分布等,引導(dǎo)用戶進(jìn)行深入數(shù)據(jù)探索。用戶也可以隨時切換到別的分析場景,比如汽車尾氣等,進(jìn)行更有廣度的數(shù)據(jù)探索和分析。

      在這個例子中,盡管分析人員想找到霧霾成因,但分析任務(wù)和模型一開始并不能確定下來,具體目標(biāo)也比較模糊,分析人員需要在不斷獲取信息的過程中調(diào)整搜索和分析的目標(biāo)。此外,分析人員還需要系統(tǒng)提供額外的信息進(jìn)行引導(dǎo),在引導(dǎo)的過程中,目標(biāo)隨時可能改變,這種改變的動機(jī)可能出于獲取必要信息,也可能出于好奇心。

      目前,隨著大數(shù)據(jù)研究的興起,探索式搜索這種交互式分析和探索數(shù)據(jù)價值的方式,逐漸引起人們的重視,還有很多問題等待研究者們進(jìn)行深入的研究。

      5 結(jié)束語

      數(shù)據(jù)服務(wù)強(qiáng)調(diào)從微觀層面獲取滿足用戶需求的精準(zhǔn)信息,數(shù)據(jù)分析強(qiáng)調(diào)從宏觀層面為用戶提供數(shù)據(jù)洞察,進(jìn)而提供決策支持,而數(shù)據(jù)探索則需要在宏觀和微觀兩個層面進(jìn)行自由切換。表1總結(jié)歸納了數(shù)據(jù)服務(wù)、數(shù)據(jù)分析和數(shù)據(jù)探索3種數(shù)據(jù)價值發(fā)現(xiàn)方式的一些特點。

      ● 在用戶信息需求層面,數(shù)據(jù)服務(wù)和數(shù)據(jù)分析都要求用戶有明確的信息需求,相比數(shù)據(jù)分析,數(shù)據(jù)服務(wù)的信息需求更加單一,數(shù)據(jù)探索的信息需求則是不斷變化的。

      ● 在搜索對象層面,數(shù)據(jù)服務(wù)的對象是數(shù)據(jù)集合內(nèi)的某些元素,而數(shù)據(jù)分析的對象是整個數(shù)據(jù)集或其子集,數(shù)據(jù)探索則經(jīng)常需要在整體數(shù)據(jù)和局部數(shù)據(jù)之間進(jìn)行切換。

      ● 在觀察角度層面,數(shù)據(jù)服務(wù)的角度是微觀的,數(shù)據(jù)分析的角度是宏觀的,數(shù)據(jù)探索以微觀為主,也附帶著一些宏觀的數(shù)據(jù)分析任務(wù)。

      ● 在用戶目的層面,數(shù)據(jù)服務(wù)側(cè)重于查詢資料和數(shù)據(jù)片段,數(shù)據(jù)分析的目的側(cè)重于決策支持,數(shù)據(jù)探索側(cè)重于對數(shù)據(jù)的學(xué)習(xí)和研究,以加深對數(shù)據(jù)的理解。

      ● 在交互模式層面,數(shù)據(jù)服務(wù)與數(shù)據(jù)分析主要是一次性的交互模式。但在交互式場景中,它們也會遇到查詢調(diào)整的問題,用戶通過多輪交互滿足信息需求,而各輪之間卻是獨立地查詢或者分析任務(wù)。數(shù)據(jù)探索則必須是多輪迭代并存在關(guān)聯(lián)的過程。

      大數(shù)據(jù)蘊(yùn)含大價值,數(shù)據(jù)服務(wù)、數(shù)據(jù)分析和數(shù)據(jù)探索是3個層次的數(shù)據(jù)價值發(fā)現(xiàn)方法。在很多應(yīng)用下,這3類方法需要混合使用,才能更好地發(fā)現(xiàn)大數(shù)據(jù)的價值。人們在實際工作中,可以根據(jù)具體的需要進(jìn)行選用。

      表1 各類大數(shù)據(jù)價值發(fā)現(xiàn)方式比較[5]

      致謝:

      博士生陳峻、趙哲對部分內(nèi)容也有貢獻(xiàn)。

      [1]PAVLO A, ASLETT M. What’s really new with newSQL[J]. ACM Sigmod Record, 2016, 45(2): 45-55.

      [2]STONEBRAKER M. SQL databases v. NoSQL databases[J]. Communications of the ACM, 2010, 53(4): 10-11.

      [3]LIU T Y. Learning to rank for information retrieval[M]. Berlin: Springer Press, 2011.

      [4]GOOFELLOW I, BENGIO Y, COURVILLE A. Deep learning[M]. Cambridge: MIT Press, 2011.

      [5]杜小勇, 陳峻, 陳躍國. 大數(shù)據(jù)探索式搜索研究[J]. 通信學(xué)報, 2015, 36(12): 77-88.

      DU X Y, CHEN J, CHEN Y G. Exploratory search on big data[J]. Journal on Communications, 2015, 36(12): 77-88.

      Approaches for value extraction on big data

      DU Xiaoyong1,2, CHEN Yueguo1,2
      1. MOE Key Laboratory of Data Engineering and Knowledge Engineering (Renmin University of China), Beijing 100872, China
      2. School of Information, Renmin University of China, Beijing 100872, China

      The value of big data can be presented in different means, and therefore it has different ways to extract the value out of big data. Three approaches of value extraction on big data: data service, data analytics, and data exploration were summarized. The characteristics of these approaches were analyzed and compared. In summary, data service reflects the value of data from the micro-level by supporting high-performance and high-throughput read and write operations. Data analysis focuses on the usage of statistical models to generalize data distribution at macro-level, and it extracts values by generating insights from data. Data exploration focuses on interactive models in the constant interchange of micro-level and macrolevel to guide the users browse and discover values out of the data.

      big data, value extraction, data service, data analytics, data exploration

      TP391.1

      A

      10.11959/j.issn.2096-6271.2017015

      杜小勇(1963-),男,中國人民大學(xué)信息學(xué)院教授,博士生導(dǎo)師,教育部數(shù)據(jù)工程與知識工程重點實驗室主任,中國計算機(jī)學(xué)會會士,《大數(shù)據(jù)》期刊編委會副主任。主要研究方向為智能信息檢索、高性能數(shù)據(jù)庫、知識工程。主持和參與多項國家核高基(核心電子器件、高端通用芯片及基礎(chǔ)軟件產(chǎn)品)、“973”計劃、“863”計劃、國家自然科學(xué)基金項目,近年來在SIGMOD、VLDB、AAAI、IEEE TKDE等國際重要期刊和會議上發(fā)表論文百余篇。

      陳躍國(1978-),男,中國人民大學(xué)信息學(xué)院副教授,博士生導(dǎo)師,中國計算機(jī)學(xué)會數(shù)據(jù)庫專家委員會委員、大數(shù)據(jù)專家委員會通訊委員。主要研究方向為大數(shù)據(jù)分析系統(tǒng)和語義搜索。主持國家自然科學(xué)基金項目2項,參與多項國家核高基(核心電子器件、高端通用芯片及基礎(chǔ)軟件產(chǎn)品)、“973”計劃、“863”計劃項目,近年來在SIGMOD、ICDE、AAAI、WWW、IEEE TKDE等國際重要期刊和會議上發(fā)表論文30余篇。

      2015-10-09

      國家自然科學(xué)基金資助項目(No.61472426);國家高技術(shù)研究發(fā)展計劃(“863”計劃)基金資助項目(No.2015AA015307)

      Foundation Items: The National Natural Science Foundation of China (No. 61472426), The National High Technology Research and Development Program of China (863 Program) (No. 2015AA015307)

      猜你喜歡
      數(shù)據(jù)服務(wù)價值用戶
      地理空間大數(shù)據(jù)服務(wù)自然資源調(diào)查監(jiān)測的方向分析
      一粒米的價值
      如何運(yùn)用稅收大數(shù)據(jù)服務(wù)供給側(cè)結(jié)構(gòu)性改革
      中國商論(2016年34期)2017-01-15 14:24:18
      關(guān)注用戶
      商用汽車(2016年11期)2016-12-19 01:20:16
      “給”的價值
      基于頻繁子圖挖掘的數(shù)據(jù)服務(wù)Mashup推薦
      關(guān)注用戶
      商用汽車(2016年6期)2016-06-29 09:18:54
      關(guān)注用戶
      商用汽車(2016年4期)2016-05-09 01:23:12
      如何獲取一億海外用戶
      一種基于數(shù)據(jù)服務(wù)超鏈進(jìn)行情景數(shù)據(jù)集成的方法*
      社旗县| 来凤县| 宁蒗| 建昌县| 武邑县| 赤壁市| 桃园县| 花垣县| 东至县| 永城市| 新乐市| 富阳市| 太原市| 贵阳市| 桑植县| 旺苍县| 东阿县| 南京市| 竹山县| 石家庄市| 宜黄县| 长岭县| 民乐县| 南漳县| 禄丰县| 贺兰县| 黑水县| 富顺县| 池州市| 邢台市| 龙门县| 楚雄市| 江城| 巴东县| 锦州市| 佛坪县| 灌南县| 灵璧县| 双桥区| 乐山市| 安丘市|