吳信東 何進(jìn) 陸汝鈐 鄭南寧
從大數(shù)據(jù)到大知識(shí):HACE+BigKE
吳信東1,2何進(jìn)1陸汝鈐3鄭南寧4
大數(shù)據(jù)面向異構(gòu)自治的多源海量數(shù)據(jù),旨在挖掘數(shù)據(jù)間復(fù)雜且演化的關(guān)聯(lián).隨著數(shù)據(jù)采集存儲(chǔ)和互聯(lián)網(wǎng)技術(shù)的發(fā)展,大數(shù)據(jù)分析和應(yīng)用已成為各行各業(yè)的研發(fā)熱點(diǎn).本文從大數(shù)據(jù)的本質(zhì)特征開始,評(píng)述現(xiàn)有的幾種大數(shù)據(jù)模型,包括5V,5R,4P 和HACE定理,同時(shí)從知識(shí)建模的角度,介紹一種大數(shù)據(jù)知識(shí)工程模型BigKE來生成大知識(shí),并對(duì)大知識(shí)的前景進(jìn)行展望.
大數(shù)據(jù),知識(shí)挖掘,異構(gòu),碎片化知識(shí),在線學(xué)習(xí)
引用格式吳信東,何進(jìn),陸汝鈐,鄭南寧.從大數(shù)據(jù)到大知識(shí):HACE+BigKE.自動(dòng)化學(xué)報(bào),2016,42(7):965-982
隨著互聯(lián)網(wǎng)的不斷發(fā)展,我們可以收集和獲取的數(shù)據(jù)以不可預(yù)計(jì)的速度增長(zhǎng).盡管數(shù)據(jù)的收集、存儲(chǔ)和處理技術(shù)還在不斷進(jìn)步并日趨成熟,但基于如此復(fù)雜的數(shù)據(jù)背景,我們?nèi)匀幻媾R著許多分析和處理數(shù)據(jù)的問題與挑戰(zhàn).因此,大數(shù)據(jù)的分析及其應(yīng)用成為了一大科研熱點(diǎn).對(duì)大數(shù)據(jù)的本質(zhì)特征的概括始于2001年美國(guó)高德納公司(Gartner Group)的分析師Laney等提出的3V特征[1].之后IT業(yè)界的科技大廠IBM對(duì)其進(jìn)行了應(yīng)用并加以擴(kuò)充,獲得了4V或5V:包括了大數(shù)據(jù)巨大的數(shù)據(jù)量(Volume)、快速的分析和處理速度(Velocity)、多樣化的數(shù)據(jù)種類和數(shù)據(jù)來源(Variety)、對(duì)商業(yè)領(lǐng)域巨大的價(jià)值(Value)和其隱藏知識(shí)的真實(shí)性(Veracity)[2].大數(shù)據(jù)廣闊的應(yīng)用背景,使其不僅在科研領(lǐng)域,乃至于在商業(yè)、政治、經(jīng)濟(jì)、醫(yī)療和文化等多領(lǐng)域內(nèi),都在引發(fā)和領(lǐng)導(dǎo)一場(chǎng)變革.
在網(wǎng)絡(luò)2.0時(shí)代,用戶已經(jīng)從被動(dòng)的信息接受者轉(zhuǎn)變?yōu)橹鲃?dòng)的創(chuàng)造者.一些數(shù)字可以說明這個(gè)事實(shí):美國(guó)每年的線上零售交易記錄數(shù)量、推特網(wǎng)的發(fā)帖數(shù)量、各大物理實(shí)驗(yàn)室和天文望遠(yuǎn)鏡觀測(cè)記錄值,就足以產(chǎn)生大約1.2ZB的電子數(shù)據(jù),由此,美國(guó)國(guó)家科學(xué)基金會(huì)(National Science Foundation,NSF)在大數(shù)據(jù)領(lǐng)域的投入也日益增多[3].我們?cè)購(gòu)臄?shù)據(jù)產(chǎn)生速度來看:全球范圍內(nèi),每一秒產(chǎn)生約2.9百萬(wàn)封電子郵件,同時(shí),Youtube網(wǎng)上可以上傳2.88萬(wàn)小時(shí)的視頻數(shù)據(jù).這些數(shù)據(jù)信息,足夠一個(gè)用戶晝夜不息地看上幾年.
這些來自商業(yè)、天文、科學(xué)和工程等多領(lǐng)域的可用數(shù)據(jù)規(guī)模不斷擴(kuò)大,數(shù)據(jù)從數(shù)兆兆字節(jié)(Terabyte,TB)到數(shù)千兆字節(jié)(Peta-byte,PB)的爆炸式增長(zhǎng),對(duì)數(shù)據(jù)和信息的獲取、存儲(chǔ)和處理提出了新的要求.在網(wǎng)絡(luò)2.0和工業(yè)5.0時(shí)代的共同作用下,我們應(yīng)當(dāng)注意到,這個(gè)龐大的數(shù)據(jù)量有很大一部分是數(shù)據(jù)和信息在向知識(shí)的轉(zhuǎn)化過程中生成的,這實(shí)際上就是我們主張的大數(shù)據(jù)知識(shí)工程的基本思路.文獻(xiàn)[4]中所說的“知識(shí)自動(dòng)化”這一詞源于Fish于2012年出版的Knowledge Automation一書[5],這和我們的大數(shù)據(jù)知識(shí)工程的基本思路是一致的.人類直接生產(chǎn)的數(shù)據(jù)形成的網(wǎng)絡(luò)流量不足大部分網(wǎng)站流量的37%,大部分的網(wǎng)絡(luò)數(shù)據(jù)流量是數(shù)據(jù)和信息在向知識(shí)轉(zhuǎn)化過程中生成的二次數(shù)據(jù).這種二次數(shù)據(jù)形成的過程可以理解為基于知識(shí)的服務(wù)(Knowledge-based services,KBS),這與基于位置的服務(wù)(Location-based services,LBS)、基于信息的服務(wù)(Information-based services)、基于情報(bào)的服務(wù)(Intelligence-based services),以及基于任務(wù)的服務(wù)(Task-based services)相類似[4].大數(shù)據(jù)的自動(dòng)化產(chǎn)生,大數(shù)據(jù)技術(shù)的廣泛應(yīng)用對(duì)有用知識(shí)的自動(dòng)產(chǎn)生和獲取提出了進(jìn)一步的要求:更高水平的大數(shù)據(jù)知識(shí)工程,更好的“惡意(Malicious)”過濾機(jī)制以及更合理的知識(shí)評(píng)價(jià)體系.
近幾年,人們對(duì)“大數(shù)據(jù)”一詞似乎不再是那么陌生.在數(shù)據(jù)挖掘和人工智能等科研領(lǐng)域內(nèi),大數(shù)據(jù)的擴(kuò)散速度隨著相關(guān)研究的增多而加快.研究者們逐漸認(rèn)識(shí)到,具有大數(shù)據(jù)特征的數(shù)據(jù)資源,除去其固有的龐大的信息量,似乎還可以挖掘出無法用我們現(xiàn)有的計(jì)算標(biāo)準(zhǔn)得出的隱含的“大知識(shí)”,這些有用的知識(shí)我們無法快速、高效地處理和分析,因此產(chǎn)生了一系列新的問題和挑戰(zhàn).值得注意的是,大數(shù)據(jù)的價(jià)值絕不僅僅是巨大的數(shù)據(jù)量而已,雖然僅憑數(shù)據(jù)集的擴(kuò)充,確實(shí)能提升現(xiàn)有的統(tǒng)計(jì)和分析工作的精確度.但是,對(duì)于大知識(shí)的發(fā)現(xiàn)和表示,僅僅通過提升對(duì)龐大數(shù)據(jù)的收集和存儲(chǔ)能力是不足夠的,這些數(shù)據(jù)還包含對(duì)數(shù)據(jù)表示等方面的可伸縮性、數(shù)據(jù)分析算法本身的改進(jìn)需求[6].
海量數(shù)據(jù)的收集和大數(shù)據(jù)知識(shí)發(fā)現(xiàn)技術(shù)可以應(yīng)用到多個(gè)領(lǐng)域.在科學(xué)研究方面,目前國(guó)內(nèi)外的天文學(xué)研究中海量數(shù)據(jù)的收集和應(yīng)用已經(jīng)非常普遍.舉例來說,美國(guó)斯隆數(shù)字巡天項(xiàng)目(Sloan digital sky survey,SDSS)中所產(chǎn)生的海量的天文數(shù)據(jù)遠(yuǎn)遠(yuǎn)超出了預(yù)期,至今其所收集的數(shù)據(jù)已多達(dá)140TB之多[7].專業(yè)的科研領(lǐng)域內(nèi),除了天文學(xué)的大量觀測(cè)數(shù)據(jù)的應(yīng)用,移動(dòng)終端等傳感器產(chǎn)生的大數(shù)據(jù)也頗為重要:大數(shù)據(jù)地理信息系統(tǒng)(Geographic information system,GIS)的構(gòu)建、地震的勘探、雷達(dá)等非結(jié)構(gòu)化信息的應(yīng)用價(jià)值都不容小覷.從政府推進(jìn)力度來看,美國(guó)將大數(shù)據(jù)作為事關(guān)國(guó)家戰(zhàn)略和國(guó)家核心競(jìng)爭(zhēng)力的問題,并于2012年3月推出了“大數(shù)據(jù)的研究與發(fā)展倡議”,這也讓人看到了大數(shù)據(jù)應(yīng)用廣闊的前景.除去科研工作,文化領(lǐng)域也受到了大數(shù)據(jù)的影響.微軟紐約研究院的經(jīng)濟(jì)學(xué)家David Rothschild利用大數(shù)據(jù)技術(shù),成功預(yù)測(cè)了2013年24個(gè)奧斯卡獎(jiǎng)項(xiàng)中的19個(gè),這一實(shí)例成為人們津津樂道的話題.2014年,David Rothschild再次成功預(yù)測(cè)第86屆奧斯卡24個(gè)獎(jiǎng)項(xiàng)中的21個(gè),大數(shù)據(jù)知識(shí)的價(jià)值由此可見一斑.除了各行業(yè)領(lǐng)域內(nèi)的應(yīng)用,大數(shù)據(jù)精準(zhǔn)的預(yù)測(cè)和分析手段、對(duì)用戶的行為模式和偏好行為的挖掘、對(duì)商業(yè)和金融決策的意義,以及在信息安全方面都能給現(xiàn)有的數(shù)據(jù)和信息處理模式帶來變革.
然而,利用現(xiàn)有的數(shù)據(jù)處理手段,我們無法發(fā)揮出大數(shù)據(jù)真正的價(jià)值,大數(shù)據(jù)的本質(zhì)特征為我們?cè)诜治龊蛻?yīng)用上帶來了一系列的問題.大數(shù)據(jù)帶來的挑戰(zhàn)問題,已經(jīng)不僅僅是單純意義上的數(shù)據(jù)規(guī)模的巨大,還包含了對(duì)大數(shù)據(jù)分析技術(shù)的改進(jìn)問題,從而滿足越來越多樣化的對(duì)個(gè)性化服務(wù)和知識(shí)導(dǎo)航的需求.接下來我們需要考慮的是如何從海量的數(shù)據(jù)中提取和分析出有價(jià)值的知識(shí),這也是對(duì)大數(shù)據(jù)進(jìn)行研究的重要意義之一.
從數(shù)據(jù)量來說,大數(shù)據(jù)龐大的數(shù)據(jù)量已經(jīng)無法通過已有模型和計(jì)算平臺(tái)簡(jiǎn)單處理,面對(duì)大數(shù)據(jù)的數(shù)據(jù)規(guī)模,我們無法單純依靠并行計(jì)算和硬件方面的提升去突破計(jì)算平臺(tái)上的瓶頸.例如,網(wǎng)絡(luò)、電視、報(bào)紙等眾多數(shù)據(jù)來源產(chǎn)生了不同結(jié)構(gòu)的異構(gòu)數(shù)據(jù),我們的首要挑戰(zhàn)就是從這些看似雜亂無章的數(shù)據(jù)中提取出真正對(duì)我們后面的工作和預(yù)測(cè)有價(jià)值的數(shù)據(jù)信息,選擇合適的過濾機(jī)制[8].面對(duì)鋪天蓋地的數(shù)據(jù)資源,我們需要的不再是通篇的文字、聲音或者是圖像信息,數(shù)據(jù)的規(guī)模和數(shù)量在不斷增長(zhǎng),但無用數(shù)據(jù)的存在導(dǎo)致數(shù)據(jù)的價(jià)值并不會(huì)成比例增長(zhǎng).針對(duì)這個(gè)問題,現(xiàn)有的篩選機(jī)制對(duì)大數(shù)據(jù)的提取和分析顯得尤為困難和低效.由此,在大數(shù)據(jù)環(huán)境下的數(shù)據(jù)的預(yù)處理和清洗也具有更高的要求.數(shù)據(jù)的清洗過程既要過濾無用的數(shù)據(jù),也要保留對(duì)大知識(shí)提取有用的信息.對(duì)大數(shù)據(jù)的知識(shí)處理來說,通過一個(gè)穩(wěn)定高效數(shù)據(jù)計(jì)算和清洗平臺(tái),經(jīng)過數(shù)據(jù)預(yù)處理過程,得到高質(zhì)量的數(shù)據(jù)集合進(jìn)行下一步分析是關(guān)鍵的一步.
從大數(shù)據(jù)的產(chǎn)生和獲取來源來說,盡管網(wǎng)絡(luò)規(guī)模的擴(kuò)張為我們獲取信息帶來了便利,但復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)和獲取信息途徑的多樣化,使得數(shù)據(jù)的異構(gòu)問題日益凸顯.異構(gòu)數(shù)據(jù)在數(shù)據(jù)的存儲(chǔ)和表示上產(chǎn)生了困難,單一的數(shù)據(jù)表示和存儲(chǔ)已經(jīng)無法滿足需求.數(shù)據(jù)的分析工作的價(jià)值遠(yuǎn)遠(yuǎn)高于簡(jiǎn)單的定位和識(shí)別,數(shù)據(jù)間復(fù)雜的語(yǔ)義聯(lián)系以及不同結(jié)構(gòu)的數(shù)據(jù),需要我們尋找一種標(biāo)準(zhǔn)化的數(shù)據(jù)的表示方式.標(biāo)準(zhǔn)化的數(shù)據(jù)表示形式的定義本身就存在相當(dāng)大的挑戰(zhàn),這也會(huì)涉及到在對(duì)異構(gòu)數(shù)據(jù)的集成過程中需要對(duì)大規(guī)模數(shù)據(jù)集進(jìn)行數(shù)據(jù)的轉(zhuǎn)換[9].以社交網(wǎng)絡(luò)中的大數(shù)據(jù)分析為例,通過對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的刻畫形式的改進(jìn),我們集成多個(gè)網(wǎng)站上的異構(gòu)自治信息源,可能包括用戶發(fā)送的微博、評(píng)論或者是上傳的圖片、音頻等信息,足以描繪出一個(gè)合理的網(wǎng)絡(luò)結(jié)構(gòu)描述數(shù)據(jù)間的語(yǔ)義關(guān)聯(lián).
從我們分析大數(shù)據(jù)的最終目的來說,落實(shí)到實(shí)際應(yīng)用上,我們關(guān)心的是大數(shù)據(jù)能夠提供的服務(wù),這些服務(wù)需要分析數(shù)據(jù)間的結(jié)構(gòu)和關(guān)聯(lián),面對(duì)簡(jiǎn)單的數(shù)據(jù),數(shù)據(jù)之間不存在動(dòng)態(tài)的演化,相應(yīng)的知識(shí)挖掘和數(shù)據(jù)關(guān)聯(lián)就易于發(fā)現(xiàn)和表示.因此,從以數(shù)據(jù)流形式到來的大數(shù)據(jù)中獲取知識(shí),到近期的大數(shù)據(jù)知識(shí)工程模式,都具有實(shí)時(shí)數(shù)據(jù)處理和更新數(shù)據(jù)的動(dòng)態(tài)演變內(nèi)容的需求,其所得到的知識(shí)相較于單一數(shù)據(jù)也更具價(jià)值.舉例來說,包括社區(qū)智能需求和提升個(gè)性化服務(wù)[10]等以大數(shù)據(jù)知識(shí)為基礎(chǔ)的導(dǎo)航服務(wù),在社會(huì)服務(wù)和個(gè)性化需求上具有更精準(zhǔn)的導(dǎo)向.
通過大數(shù)據(jù)知識(shí)工程,我們旨在獲取大數(shù)據(jù)中的“大知識(shí)”:大知識(shí)從異構(gòu)、自治的大數(shù)據(jù)開始,挖掘包括數(shù)據(jù)流和特征流的多源海量數(shù)據(jù)以發(fā)現(xiàn)數(shù)據(jù)對(duì)象之間復(fù)雜且演化的關(guān)聯(lián),通過大數(shù)據(jù)知識(shí)工程,以用戶需求為導(dǎo)向,提供具有個(gè)性化和實(shí)時(shí)使用價(jià)值的知識(shí)服務(wù).大知識(shí)源于大數(shù)據(jù),通過大數(shù)據(jù)知識(shí)工程的方法進(jìn)行提取和處理.數(shù)據(jù)流和特征流有別于傳統(tǒng)的單個(gè)靜態(tài)數(shù)據(jù)源,以流的形式快速到來的大數(shù)據(jù)對(duì)實(shí)時(shí)性具有很高的要求,數(shù)據(jù)之間的關(guān)聯(lián)性和特征形成的特征流數(shù)據(jù)提出了新的數(shù)據(jù)挖掘和處理問題.因此,為了獲取大知識(shí),我們需要了解大數(shù)據(jù)的本質(zhì)特征和現(xiàn)有的大數(shù)據(jù)的一些挑戰(zhàn)問題.
針對(duì)大數(shù)據(jù)的幾大本質(zhì)特征,研究者們提出了幾種目前被廣泛接受的大數(shù)據(jù)模型,包括5V、5R、4P和HACE定理.這幾個(gè)模型分別從不同的角度提出了在進(jìn)行大數(shù)據(jù)分析和處理的過程中需重點(diǎn)關(guān)注的挑戰(zhàn),其中HACE還對(duì)大數(shù)據(jù)挖掘提出了一種可行的多層框架.IBM的5V模型著眼于大數(shù)據(jù)的核心特征,注重以先進(jìn)技術(shù)提高大數(shù)據(jù)的質(zhì)量以得到有價(jià)值的知識(shí),每個(gè)V的維度都包含大數(shù)據(jù)工作中某一方面的嚴(yán)峻挑戰(zhàn)[11].5R模型從大數(shù)據(jù)的管理建模的角度,注重大數(shù)據(jù)對(duì)于商業(yè)決策和商業(yè)回報(bào)的價(jià)值,同時(shí)它也是本文介紹的大數(shù)據(jù)知識(shí)工程模型BigKE的支撐[12].4P醫(yī)學(xué)模型基于現(xiàn)有的4P醫(yī)學(xué)模式,包含預(yù)測(cè)性(Predictive)、預(yù)防性(Preventive)、個(gè)體化(Personalized)和參與性(Participatory)四個(gè)維度[13].4P醫(yī)學(xué)模型在強(qiáng)調(diào)專家知識(shí)的重要性的同時(shí),著眼于社會(huì)網(wǎng)絡(luò)和個(gè)人信息的參與性.然而,專家知識(shí)和新加入的社會(huì)與個(gè)人因素同樣產(chǎn)生了異構(gòu)自治數(shù)據(jù)源和碎片化知識(shí)提取的問題,這為大數(shù)據(jù)的數(shù)據(jù)集成以及碎片化知識(shí)的融合提出了新的技術(shù)要求[14].大數(shù)據(jù)的HACE定理考慮了大數(shù)據(jù)的本質(zhì)特征,包含了海量、異構(gòu)、分布和分散式控制的自治源、數(shù)據(jù)間復(fù)雜和演化的關(guān)聯(lián)等大數(shù)據(jù)的典型特征[15],但是HACE定理也沒有提出系統(tǒng)地解決碎片化知識(shí)的非線性融合問題的方法.
針對(duì)以上現(xiàn)有的大數(shù)據(jù)模型及其存在的問題,本文從知識(shí)建模的角度介紹大數(shù)據(jù)知識(shí)工程模型BigKE.該模型針對(duì)海量異構(gòu)數(shù)據(jù)中的碎片化知識(shí)的非線性融合問題,提出了從數(shù)據(jù)流和特征流的在線學(xué)習(xí)為開端,利用非線性知識(shí)融合手段形成有價(jià)值的知識(shí)圖譜,并以此為基礎(chǔ)以滿足需求為導(dǎo)向的知識(shí)服務(wù)的三層知識(shí)工程框架.BigKE模型能夠一定程度上應(yīng)對(duì)大數(shù)據(jù)特征帶來的知識(shí)工程的挑戰(zhàn),從而在碎片化知識(shí)中提取出有價(jià)值的大知識(shí),最終滿足大數(shù)據(jù)用戶的個(gè)性化需求.
本文安排如下:第1節(jié)介紹大數(shù)據(jù)的本質(zhì)特征和知識(shí)工程的研究進(jìn)展,包括對(duì)現(xiàn)有的5V模型、5R模型、4P醫(yī)學(xué)模型和HACE定理進(jìn)行闡述,這一節(jié)中對(duì)HACE定理的大數(shù)據(jù)多層處理框架做較為詳細(xì)的介紹.第2節(jié),介紹大數(shù)據(jù)知識(shí)工程的概念,并對(duì)大數(shù)據(jù)背景下知識(shí)工程研究中的挑戰(zhàn)問題做一些闡述.第3節(jié)中,我們從知識(shí)建模的角度,詳細(xì)介紹一種大數(shù)據(jù)知識(shí)工程模型BigKE.第4節(jié)中,我們總結(jié)現(xiàn)有的大數(shù)據(jù)模型以及大數(shù)據(jù)知識(shí)工程模型BigKE,討論BigKE模型后大知識(shí)的挑戰(zhàn)問題和應(yīng)用前景.最后,我們對(duì)從大數(shù)據(jù)到大知識(shí)的過程做出總結(jié).
1.1大數(shù)據(jù)的本質(zhì)特征
隨著云計(jì)算、互聯(lián)網(wǎng)、各種移動(dòng)設(shè)備與物聯(lián)網(wǎng)的發(fā)展和普及,大數(shù)據(jù)已經(jīng)成為一個(gè)耳熟能詳?shù)母拍?互聯(lián)網(wǎng)的擴(kuò)張,使得人人都能感受到大數(shù)據(jù)的存在,但各個(gè)領(lǐng)域?qū)Α熬烤故裁词谴髷?shù)據(jù)”或者“具備怎樣特征的數(shù)據(jù)可以稱為大數(shù)據(jù)”的問題,都有各自不同的定義和理解.早在20世紀(jì)90年代,被稱為“數(shù)據(jù)倉(cāng)庫(kù)之父”的Bill Inmon就開始關(guān)注大數(shù)據(jù)了,只是當(dāng)時(shí)的大數(shù)據(jù)還被稱作海量數(shù)據(jù).維基百科和國(guó)際數(shù)據(jù)公司(International Data Corporation,IDC)對(duì)大數(shù)據(jù)分別做出了各自的闡述[16-17].簡(jiǎn)而言之,大數(shù)據(jù)是無法在合理的時(shí)間內(nèi),利用我們現(xiàn)有的數(shù)據(jù)處理手段,對(duì)其進(jìn)行諸如存儲(chǔ)、管理、抓取等分析和處理的數(shù)據(jù)集合.
隨著大數(shù)據(jù)科研項(xiàng)目的深入展開,我們對(duì)大數(shù)據(jù)的定義,以及對(duì)大數(shù)據(jù)蘊(yùn)含的知識(shí)價(jià)值的認(rèn)識(shí),從最初單純意義的“大體量”逐漸有了更深層次的闡述.實(shí)際上,大數(shù)據(jù)之“大”包含了數(shù)量與其蘊(yùn)含的知識(shí)的價(jià)值兩個(gè)方面,大數(shù)據(jù)知識(shí)的目標(biāo)和價(jià)值體現(xiàn)在對(duì)數(shù)據(jù)進(jìn)行分析和處理之后,加工后的數(shù)據(jù)在商業(yè)、科學(xué)、工程、教育、醫(yī)療和整個(gè)社會(huì)領(lǐng)域內(nèi)的決策有著重要的導(dǎo)向意義[18].
為了從大數(shù)據(jù)中獲取有價(jià)值的知識(shí),我們首先需要了解大數(shù)據(jù)的特征.大數(shù)據(jù)的本質(zhì)特征與大數(shù)據(jù)的來源密切相關(guān).首先值得關(guān)注的是大數(shù)據(jù)的大數(shù)據(jù)量.隨著互聯(lián)網(wǎng)、云計(jì)算、物聯(lián)網(wǎng)等技術(shù)的發(fā)展,網(wǎng)絡(luò)空間中數(shù)據(jù)的規(guī)模不斷增加,數(shù)據(jù)的計(jì)量從GB、TB、PB增長(zhǎng)到EB和ZB的規(guī)模.IDC研究報(bào)告顯示,全球大數(shù)據(jù)的數(shù)量規(guī)模在未來50年內(nèi)會(huì)增加50倍,管理數(shù)據(jù)倉(cāng)庫(kù)的服務(wù)器的數(shù)量將增加10倍以適應(yīng)于大數(shù)據(jù)數(shù)量規(guī)模的50倍增長(zhǎng)[19].在此之前,由于數(shù)據(jù)的來源和數(shù)據(jù)的形式較為單一,數(shù)據(jù)的獲取、存儲(chǔ)和挖掘的方法也相對(duì)比較單一,從數(shù)據(jù)中獲取知識(shí)的工作的復(fù)雜度也沒有提升.大數(shù)據(jù)的處理和知識(shí)發(fā)現(xiàn)與獲取,對(duì)算法的實(shí)時(shí)性具有較高的要求,這也是由于大數(shù)據(jù)的海量特征.實(shí)時(shí)處理的數(shù)據(jù)計(jì)算方法通常和流式計(jì)算相結(jié)合,并且采用查詢分類計(jì)算以提高響應(yīng)的性能.而傳統(tǒng)的批處理計(jì)算和復(fù)雜數(shù)據(jù)挖掘計(jì)算則是非實(shí)時(shí)計(jì)算,這就無法與大數(shù)據(jù)的海量特征相適應(yīng),對(duì)大數(shù)據(jù)的處理和計(jì)算平臺(tái)有了新的要求和挑戰(zhàn).
隨著多種新型的數(shù)據(jù)獲取渠道的出現(xiàn),不僅僅是音頻、視頻、廣播、電視等多種媒體的混合,包括復(fù)雜的網(wǎng)絡(luò)在內(nèi)的信息來源,都顯示出大數(shù)據(jù)的一個(gè)典型特征:異構(gòu)和多維度.高維大數(shù)據(jù)的分布還產(chǎn)生了稀疏子空間聚類的問題.大數(shù)據(jù)在高維通常分布在多個(gè)低維子空間的并上,因此高維的數(shù)據(jù)在適當(dāng)字典下的表示具有稀疏性[20].這需要我們尋找到合適的處理高維數(shù)據(jù)的聚類和分類的方法.舉個(gè)例子來說,如果發(fā)生了一個(gè)熱門的新聞事件,那么在網(wǎng)絡(luò)、電視、報(bào)紙等多個(gè)平臺(tái)上就會(huì)引發(fā)熱議.大眾對(duì)于事件的評(píng)價(jià)標(biāo)準(zhǔn)和意見各不相同,信息和數(shù)據(jù)產(chǎn)生的形式可能是微博、視頻、音頻等.不同的信息源產(chǎn)生的數(shù)據(jù)一般沒有使用統(tǒng)一的數(shù)據(jù)收集、記錄、存儲(chǔ)和表達(dá)形式,這使得異構(gòu)的大數(shù)據(jù)在處理的過程中產(chǎn)生了諸多問題與挑戰(zhàn),對(duì)數(shù)據(jù)的轉(zhuǎn)換和集成提出了更高的要求.
多樣化的數(shù)據(jù)來源產(chǎn)生了大數(shù)據(jù)的異構(gòu)性問題,當(dāng)大數(shù)據(jù)投入到實(shí)際應(yīng)用之中,各個(gè)數(shù)據(jù)源在產(chǎn)生和收集數(shù)據(jù)的時(shí)候相互獨(dú)立,如同互聯(lián)網(wǎng)中的自治系統(tǒng),能夠自主地決定本網(wǎng)絡(luò)中使用何種路由協(xié)議一樣.這樣的數(shù)據(jù)特征顯示出大數(shù)據(jù)的另一個(gè)本質(zhì)特征:分布式和分散式控制的自治數(shù)據(jù)源.這些自治的數(shù)據(jù)源沒有集中式控制,能夠自主地決定產(chǎn)生和收集的數(shù)據(jù)存儲(chǔ)和表示的形式.這在一定程度上使得數(shù)據(jù)之間的關(guān)聯(lián)度有所下降,也在一定程度上提升了數(shù)據(jù)和用戶信息的安全性.但這些自治源仍然帶有分布式和分散式控制.隨著云計(jì)算和云終端的普及,分布式控制方面的應(yīng)用融入到生活的各個(gè)方面,同樣也保障了對(duì)于大數(shù)據(jù)驚人的規(guī)模增長(zhǎng)同步的數(shù)據(jù)處理和分析能力的提升[21].在工業(yè)運(yùn)用上,以太網(wǎng)的計(jì)算機(jī)分散式控制也在電力系統(tǒng)上得到了應(yīng)用[22].分散式控制過程中數(shù)據(jù)的安全提升了、數(shù)據(jù)處理的簡(jiǎn)便性增加了,這使得在復(fù)雜的大數(shù)據(jù)環(huán)境和數(shù)據(jù)規(guī)模較大的控制環(huán)境下,能夠很好地適應(yīng)數(shù)據(jù)分析和處理的需要.
同樣,由于大數(shù)據(jù)龐大的數(shù)據(jù)規(guī)模及其數(shù)據(jù)源的異構(gòu)性和自治性,數(shù)據(jù)間的關(guān)聯(lián)顯得更為復(fù)雜,隨著時(shí)間的推進(jìn),數(shù)據(jù)之間的關(guān)聯(lián)也會(huì)發(fā)生演化.網(wǎng)絡(luò)環(huán)境下的大數(shù)據(jù)信息則顯得更加難以發(fā)現(xiàn),數(shù)據(jù)下隱藏的關(guān)鍵信息可能會(huì)有所重合,并隨著時(shí)間的推進(jìn)發(fā)生演化.大數(shù)據(jù)之間復(fù)雜和演化的關(guān)聯(lián)的發(fā)現(xiàn)和早期集中式控制的信息系統(tǒng)有著明顯的區(qū)分,數(shù)據(jù)的內(nèi)容無法再簡(jiǎn)單地由幾個(gè)給定的特征值表示出來,異構(gòu)的數(shù)據(jù)無法統(tǒng)一其表示形式,因而數(shù)據(jù)關(guān)聯(lián)的發(fā)現(xiàn)和處理難度大大提升.大數(shù)據(jù)的這一特征在社交網(wǎng)絡(luò)中得到了充分的表現(xiàn),用戶之間敵對(duì)或者友好的關(guān)系,為我們對(duì)數(shù)據(jù)的聚合和分類提供了可能性[23].社交網(wǎng)絡(luò)擁有龐大的用戶群,每日產(chǎn)生大量的圖片和文字信息,網(wǎng)絡(luò)上充斥著各種形式不一的文本和音視頻信息.微博、推特、豆瓣等常見的社交平臺(tái)上朋友圈之間和粉絲之間的聯(lián)系隱藏了各種有用的信息,包括事件的預(yù)測(cè)、真實(shí)性等.用戶在搜索引擎中搜索的信息,也如實(shí)反映出了社交網(wǎng)絡(luò)中數(shù)據(jù)的流動(dòng)和演化傾向.
1.2大數(shù)據(jù)特征:5V模型
2001年,Gartner公司的數(shù)據(jù)分析師Laney首次從大數(shù)據(jù)特征的角度明確定義了大數(shù)據(jù),強(qiáng)調(diào)了大數(shù)據(jù)的3V特征,即海量(Volume)、快速(Velocity)與多樣化(Variety)[24].在3V的理論基礎(chǔ)上,IBM公司相繼提出了大數(shù)據(jù)的4V和5V模型,新加入了大數(shù)據(jù)的真實(shí)性(Veracity)與價(jià)值(Value)維度[2,25].IBM的這種5V模型同樣是著眼于大數(shù)據(jù)的本質(zhì)特征,反映出大數(shù)據(jù)規(guī)模巨大、數(shù)據(jù)的產(chǎn)生速度極快、數(shù)據(jù)的結(jié)構(gòu)和框架不一致、數(shù)據(jù)的安全和隱私問題.因此,我們需要更優(yōu)良的數(shù)據(jù)運(yùn)算方法和平臺(tái),以面對(duì)快速產(chǎn)生的數(shù)據(jù)流數(shù)據(jù)并給予更快的實(shí)時(shí)響應(yīng).數(shù)據(jù)的有效性和真實(shí)性依賴于數(shù)據(jù)的質(zhì)量,高效地對(duì)數(shù)據(jù)和數(shù)據(jù)中的知識(shí)進(jìn)行評(píng)估對(duì)此至關(guān)重要,質(zhì)量較好的數(shù)據(jù)對(duì)我們后期提取大知識(shí)和做出個(gè)性化服務(wù)具有重要意義,高質(zhì)量的數(shù)據(jù)和知識(shí)也能夠體現(xiàn)大數(shù)據(jù)的價(jià)值所在.有效的數(shù)據(jù)管理和分析使得我們能夠做出更好的商業(yè)決策,甚至在醫(yī)療、隱私保護(hù)等多個(gè)領(lǐng)域都可以得到應(yīng)用.最經(jīng)典的實(shí)例莫過于“谷歌流感趨勢(shì)(Google flu trends,GFT)”,Google利用其用戶的搜索數(shù)據(jù),準(zhǔn)確預(yù)測(cè)了流感趨勢(shì)的產(chǎn)生,其預(yù)測(cè)的速度和準(zhǔn)確度都遠(yuǎn)遠(yuǎn)高于美國(guó)疾病控制與預(yù)防中心(Centers for Disease Control and Prevention,CDC)檢測(cè)報(bào)告的結(jié)果[26].谷歌的某些搜索關(guān)鍵詞可以很好地表示流感疫情的現(xiàn)狀,GFT的工作原理就是利用經(jīng)過匯總的谷歌搜索數(shù)據(jù)來估測(cè)流感疫情.
5V模型較之于3V模型更著眼于使用先進(jìn)的技術(shù)以提高數(shù)據(jù)的質(zhì)量并且能夠更加充分地探索大數(shù)據(jù).“真實(shí)性(Veracity)”[27]和“價(jià)值性(Value)”[28]結(jié)合了3V特征顯然更加全面.IBM公司對(duì)大數(shù)據(jù)特征的概括和應(yīng)用更多的是在商業(yè)決策領(lǐng)域,它更多地關(guān)注依據(jù)大數(shù)據(jù)知識(shí)做出的商業(yè)決策,對(duì)于提高商業(yè)收益是否有現(xiàn)實(shí)的指導(dǎo)意義和價(jià)值.但是,即使是如同谷歌的流感預(yù)測(cè)這樣典型的大數(shù)據(jù)應(yīng)用實(shí)例,也不會(huì)對(duì)決策產(chǎn)生完全的保障.其主要原因不是由于大數(shù)據(jù)的價(jià)值被高估,而是因?yàn)槿藗儗?duì)大數(shù)據(jù)價(jià)值所在產(chǎn)生了誤解:大數(shù)據(jù)價(jià)值不在于其“大小”,而是利用創(chuàng)新的數(shù)據(jù)分析方法來處理和分析數(shù)據(jù)[29].同樣地,大數(shù)據(jù)的價(jià)值不僅在于“大”也在于“數(shù)據(jù)”的價(jià)值.而大數(shù)據(jù)的價(jià)值往往伴隨著稀疏性的特點(diǎn),從3V模型到5V模型的擴(kuò)充,也反映出不當(dāng)?shù)拇髷?shù)據(jù)挖掘和處理所隱藏的陷阱.接下來我們更多需要考慮的是在數(shù)據(jù)的分析和提取中,利用更好的數(shù)據(jù)分析算法來提升數(shù)據(jù)的真實(shí)性和價(jià)值.雖然5V模型對(duì)大數(shù)據(jù)的特征做了很好的闡釋,但是對(duì)于大數(shù)據(jù)本質(zhì)特征所導(dǎo)致的問題和挑戰(zhàn)并沒有做出過多的描述和給出解決思路.
1.3大數(shù)據(jù)管理與商用------5R模型
從大數(shù)據(jù)中獲取知識(shí)的過程,如果采用數(shù)據(jù)管理的視角,可以得到5R模型.5R模型由Stidston提出[12],包括對(duì)大數(shù)據(jù)相關(guān)的(Relevant)、實(shí)時(shí)的(Real-time)、真實(shí)的(Realistic)、可靠的(Reliable)以及投資回報(bào)(Return on investment,ROI)五大特征的闡述.從5R模型的內(nèi)容來看,它和5V模型具有類似的地方.它們都著眼于大數(shù)據(jù)的本質(zhì)特征,相比較而言,5R是基于商業(yè)用途而提出,它對(duì)于大數(shù)據(jù)的五大特征的描述是基于數(shù)據(jù)管理在商業(yè)上的應(yīng)用進(jìn)行闡釋.從數(shù)據(jù)管理的角度來看待大數(shù)據(jù),其關(guān)鍵在于數(shù)據(jù)的組織形式.大數(shù)據(jù)的海量多源異構(gòu)特征已經(jīng)得到了普遍的認(rèn)可,針對(duì)這些特征,采取一種怎樣的數(shù)據(jù)組織形式以提升數(shù)據(jù)收集、存儲(chǔ)、處理和應(yīng)用的效率,獲取對(duì)商業(yè)發(fā)展與決策具有價(jià)值的“知識(shí)”,是5R模型中提出的需要解決的問題.數(shù)據(jù)的組織和管理形式經(jīng)歷過人工管理、文件系統(tǒng)和數(shù)據(jù)庫(kù)系統(tǒng)的發(fā)展歷程,對(duì)傳統(tǒng)數(shù)據(jù)的組織已經(jīng)滿足用戶的使用需求.但是在大數(shù)據(jù)的背景下,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)技術(shù)對(duì)以數(shù)據(jù)流形式到來的巨型數(shù)據(jù)已經(jīng)不再適應(yīng).
基于5R模型背景下的大數(shù)據(jù)管理系統(tǒng)的研究也成為一個(gè)熱點(diǎn)并取得了一定的進(jìn)展.舉例來說,Google在網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)量下,其采取的數(shù)據(jù)管理和分析方法—谷歌文件系統(tǒng)(Google file system,GFS)[30]具有較簡(jiǎn)單的思想.GFS為客戶端提供相似的操作系統(tǒng)水平上的字節(jié)抽象,它對(duì)于非常大的文件的內(nèi)容可以在眾多的計(jì)算機(jī)之間跨平臺(tái)共享,且不需要?jiǎng)?chuàng)建共享集群,這就使得硬件的消耗大大降低[31].
值得關(guān)注的是5R模型中的投資回報(bào)(ROI).許多的大數(shù)據(jù)項(xiàng)目最初關(guān)注的重點(diǎn)只是數(shù)據(jù)本身的利用,而沒有認(rèn)識(shí)到對(duì)數(shù)據(jù)的利用怎么與整個(gè)商業(yè)計(jì)劃相適應(yīng),忽略了數(shù)據(jù)之下的知識(shí)的價(jià)值[32].尤其是對(duì)于投資回報(bào)(ROI)的關(guān)注顯得很匱乏,大數(shù)據(jù)項(xiàng)目中數(shù)據(jù)的來源和知識(shí)的獲取應(yīng)當(dāng)提供最低的成本計(jì)劃,以對(duì)最終獲取的知識(shí)進(jìn)行價(jià)值評(píng)估.對(duì)于一些數(shù)據(jù)層次本身就具有非常高的價(jià)值的項(xiàng)目,項(xiàng)目本身就具有大數(shù)據(jù)的特征.如果缺少了投資回報(bào)的評(píng)估,我們就無法得知數(shù)據(jù)的價(jià)值與從某一個(gè)大數(shù)據(jù)項(xiàng)目中獲取知識(shí)的項(xiàng)目的可行性,無法評(píng)估在知識(shí)獲取的過程中所花費(fèi)在人力、軟硬件等方面的投資是否具有意義.
5R模型提出的大數(shù)據(jù)管理的實(shí)時(shí)性要求(Real-time)也是大數(shù)據(jù)分析的一個(gè)方向,它和5V模型中的Velocity相契合.在第1.1節(jié)中提及了大數(shù)據(jù)的本質(zhì)特征含有分布式的特點(diǎn).在大數(shù)據(jù)的數(shù)據(jù)管理結(jié)構(gòu)中,目前普遍使用到的是分布式的文件系統(tǒng)和分布式數(shù)據(jù)庫(kù),其中,Hadoop distributed file system(HDFS)是比較具有代表性的分布式文件系統(tǒng)[33],其較高的容錯(cuò)性適于部署在廉價(jià)的機(jī)器上,和傳統(tǒng)的分布式文件系統(tǒng)有著顯著的區(qū)別,它為用戶提供高吞吐量的數(shù)據(jù)訪問,同時(shí),HDFS也面向流數(shù)據(jù)處理[34],這些都利于我們?cè)诖髷?shù)據(jù)規(guī)模下進(jìn)行數(shù)據(jù)分析和處理工作,高速處理海量數(shù)據(jù)成為了可能,大數(shù)據(jù)管理的實(shí)時(shí)性要求得到了一定程度的滿足.
1.44P醫(yī)學(xué)模型
知識(shí)工程概念的提出為專家系統(tǒng)(Expert system,ES)奠定了理論基礎(chǔ).專家系統(tǒng)(ES)作為人工智能(Artificial intelligence,AI)的一個(gè)分支,自19世紀(jì)60年代中期被提出以來,已經(jīng)被大量運(yùn)用到工程、科學(xué)、醫(yī)學(xué)預(yù)測(cè)、商業(yè)等方面.專家系統(tǒng)的基本思想是依賴于專業(yè)的知識(shí),對(duì)個(gè)性化應(yīng)用做出預(yù)測(cè)等行為[35].然而,隨著大數(shù)據(jù)時(shí)代的到來,僅依賴傳統(tǒng)專家系統(tǒng)的領(lǐng)域知識(shí)提取大規(guī)模的異構(gòu)數(shù)據(jù)集中的有價(jià)值信息,這種方式的效率已經(jīng)不能滿足用戶的需要.基于大數(shù)據(jù)背景的知識(shí)工程,為了提供更加智能的個(gè)性化服務(wù),在提取大知識(shí)的算法設(shè)計(jì)中,需要考慮用戶的社交和個(gè)人信息.
以大數(shù)據(jù)背景下的普適醫(yī)療應(yīng)用為例.普適醫(yī)療(Pervasive healthcare)[36]借助普適計(jì)算技術(shù),形成覆蓋服務(wù)區(qū)域內(nèi)各個(gè)醫(yī)療機(jī)構(gòu)、家庭和個(gè)人的信息網(wǎng)絡(luò).信息化的推進(jìn)使得電子病歷等一系列電子數(shù)據(jù)顯現(xiàn)出大數(shù)據(jù)的特征,同一種疾病的發(fā)病原因的多樣化、同一種疾病采取多樣化的治療方法,這些海量的異構(gòu)醫(yī)療數(shù)據(jù)中同樣隱藏著有價(jià)值的醫(yī)療知識(shí).針對(duì)這一問題,4P醫(yī)學(xué)模型[37]隨之產(chǎn)生了.在醫(yī)學(xué)領(lǐng)域,4P醫(yī)學(xué)模式的內(nèi)容包含了預(yù)測(cè)性(Predictive)、預(yù)防性(Preventive)、個(gè)體化(Personalized)以及參與性(Participatory)四個(gè)維度.這種新型的醫(yī)學(xué)模式更強(qiáng)調(diào)病人個(gè)人,以及周圍親屬、朋友的參與和主動(dòng)性,強(qiáng)化個(gè)體生活行為對(duì)治療和預(yù)防過程的干預(yù).由4P醫(yī)學(xué)模型引申到大數(shù)據(jù)環(huán)境下,我們發(fā)現(xiàn)對(duì)于個(gè)性化服務(wù)的設(shè)計(jì)和分析來說,用戶個(gè)人的行為因素、用戶的參與度對(duì)用戶數(shù)據(jù)的影響、數(shù)據(jù)的來源和專家知識(shí)的參與,這三者是同樣重要的.可以說,4P醫(yī)學(xué)模型的提出背景離不開大數(shù)據(jù).
我們將4P醫(yī)學(xué)模型與現(xiàn)有的大數(shù)據(jù)應(yīng)用項(xiàng)目對(duì)比,可以看出,個(gè)體行為的重要性日益凸顯,病人的經(jīng)歷和治療過程也成為知識(shí)的重要組成部分.同4P醫(yī)學(xué)模型提出的“個(gè)體化”與“參與性”相對(duì)應(yīng),現(xiàn)代醫(yī)學(xué)強(qiáng)調(diào)因人制宜,包含了概念更新、理論框架的構(gòu)建以及實(shí)踐應(yīng)用等一系列的創(chuàng)新舉措,這為從新的角度切入個(gè)體化診療的實(shí)現(xiàn)提供了可能[38].在注重用戶個(gè)體性的同時(shí),我們也可以發(fā)現(xiàn)不同個(gè)體之間的相似性,利用標(biāo)簽和聚類等數(shù)據(jù)處理手段,將特定的用戶和特定的行為表現(xiàn)相對(duì)應(yīng),發(fā)現(xiàn)大數(shù)據(jù)下多個(gè)用戶的相似的行為模式,發(fā)現(xiàn)不同的個(gè)體與某一特定癥狀的相關(guān)性,從而提高普適醫(yī)療信息管理和服務(wù)系統(tǒng)的準(zhǔn)確性.
與現(xiàn)有的醫(yī)療系統(tǒng)相比較,在大數(shù)據(jù)的背景下,4P醫(yī)學(xué)模型對(duì)個(gè)性化醫(yī)療服務(wù)顯然要更加適用,它所提出的四個(gè)角度,同大數(shù)據(jù)的本質(zhì)特征也是相對(duì)應(yīng)的.專家系統(tǒng)對(duì)領(lǐng)域知識(shí)的依賴,使得數(shù)據(jù)的來源過于單一,會(huì)產(chǎn)生一系列的問題.4P醫(yī)學(xué)模型中的“預(yù)測(cè)性”和“預(yù)防性”兩個(gè)維度強(qiáng)調(diào)了先進(jìn)醫(yī)療手段的重要性[39].然而對(duì)于普適醫(yī)療系統(tǒng)的應(yīng)用來說,個(gè)性化的服務(wù)更注重專家知識(shí)要和病人個(gè)體信息一致.4P醫(yī)學(xué)模型將個(gè)性化的服務(wù)與預(yù)測(cè)相結(jié)合,從而為病人提供基于大數(shù)據(jù)的個(gè)性化健康建議,同時(shí),在診斷和治療過程中的數(shù)據(jù)也被同時(shí)記錄下來.這種普適的個(gè)性化醫(yī)療服務(wù)已經(jīng)漸漸滲透到生活中,使得大數(shù)據(jù)和個(gè)人生活的關(guān)聯(lián)顯得不再遙不可及.
基于4P醫(yī)學(xué)模型,具備個(gè)性化診療功能的醫(yī)療系統(tǒng)的實(shí)現(xiàn),其核心技術(shù)在于融入了個(gè)性化的知識(shí)圖譜.專家系統(tǒng)相對(duì)個(gè)性化醫(yī)療系統(tǒng)而言,數(shù)據(jù)和信息相對(duì)結(jié)構(gòu)化,雖然信息的處理和分析在一定程度上達(dá)到了較高的自動(dòng)化水平,但個(gè)性化知識(shí)的自動(dòng)獲取、分析和傳播將會(huì)是更高的挑戰(zhàn).目前,網(wǎng)絡(luò)空間里的許多信息系統(tǒng)正在越來越多地體現(xiàn)出“人”的智能.這一趨勢(shì)必然導(dǎo)致對(duì)大數(shù)據(jù)知識(shí)工程的更高要求.
為了向醫(yī)療服務(wù)提供者和醫(yī)療服務(wù)消費(fèi)者提供有價(jià)值的和個(gè)性化的醫(yī)療服務(wù),需要挖掘海量醫(yī)療數(shù)據(jù)中的醫(yī)療知識(shí),這也是普適醫(yī)療信息管理與服務(wù)的關(guān)鍵技術(shù)與挑戰(zhàn)問題.4P醫(yī)學(xué)模型的啟發(fā)性意義在于對(duì)病人的個(gè)人信息和異構(gòu)的醫(yī)療信息源的處理,以基于社會(huì)計(jì)算的普適醫(yī)療信息管理與服務(wù)體系(Pervasive medical information management and service systems,PMIMSS)為例,現(xiàn)代的醫(yī)療服務(wù)模式涉及到醫(yī)療信息共享與集成、醫(yī)療知識(shí)發(fā)現(xiàn)與服務(wù)、醫(yī)療服務(wù)質(zhì)量評(píng)價(jià)機(jī)制、個(gè)性化醫(yī)療服務(wù)推薦機(jī)制以及人與醫(yī)療信息系統(tǒng)交互的可信機(jī)制[36].這類系統(tǒng)的架構(gòu)以及關(guān)鍵技術(shù)的出發(fā)點(diǎn)和設(shè)計(jì)理念,與大數(shù)據(jù)的本質(zhì)特征相匹配,并且與知識(shí)工程的個(gè)性化服務(wù)推薦的目標(biāo)相一致.
除了PMIMSS,還有其他個(gè)性化醫(yī)療服務(wù)的應(yīng)用實(shí)例包含4P醫(yī)學(xué)模型的思想.比如,醫(yī)療服務(wù)的移動(dòng)客戶端漸漸普及,研究人員利用移動(dòng)客戶端的平臺(tái)發(fā)布一系列的健康激勵(lì)措施,發(fā)送提醒大眾關(guān)于疾病的預(yù)防等普適醫(yī)療信息[40].如果從用戶的客戶端中抽取有用的信息,這些信息可能涉及運(yùn)動(dòng)頻率、體重、社交活動(dòng)等多方面的信息,獲取用戶個(gè)人信息是碎片化的,如何利用數(shù)據(jù)庫(kù)中的專家知識(shí)對(duì)不同的用戶信息進(jìn)行有效的分析將會(huì)是知識(shí)集成的關(guān)鍵.大數(shù)據(jù)在普適醫(yī)療的應(yīng)用,從技術(shù)層面來看,其關(guān)鍵技術(shù)依賴于個(gè)人、社交信息以及專家知識(shí)等多源異構(gòu)的大數(shù)據(jù)知識(shí)的融合[41].再比如,患有某種特定疾病的病人會(huì)形成社交圈或者社區(qū)媒體,病人們?cè)谏缃痪W(wǎng)絡(luò)中交換彼此的治療進(jìn)展或者患病信息,這些信息作為整個(gè)社區(qū)的經(jīng)驗(yàn)在社交網(wǎng)絡(luò)中被分享.大數(shù)據(jù)在病人和醫(yī)生、病人和病人、醫(yī)生與醫(yī)生之間傳播并產(chǎn)生一定的演化,形成復(fù)雜的數(shù)據(jù)聯(lián)系[42].同時(shí),這些涉及用戶個(gè)人信息的數(shù)據(jù),需要結(jié)合已有的專業(yè)知識(shí)進(jìn)行綜合分析,從而給出準(zhǔn)確的預(yù)測(cè)和醫(yī)療建議.專家知識(shí)可能來自于專家的建議、醫(yī)學(xué)著作和臨床數(shù)據(jù),而用戶個(gè)人信息的來源則更加多樣化.對(duì)這些大數(shù)據(jù)中所獲得的大知識(shí)的提取與融合,需要的大數(shù)據(jù)算法面對(duì)的是多源多樣化的數(shù)據(jù).
1.5HACE定理
大數(shù)據(jù)的HACE定理指出,大數(shù)據(jù)始于異構(gòu)(Heterogeneous)、自治(Autonomous)的多源海量數(shù)據(jù),旨在尋求探索復(fù)雜的(Complex)和演化的(Evolving)數(shù)據(jù)關(guān)聯(lián)的方法和途徑.5V模型和5R模型介紹了大數(shù)據(jù)的本質(zhì)特征,4P醫(yī)學(xué)模型是大數(shù)據(jù)與普適醫(yī)療結(jié)合的實(shí)例.接下來,我們從大數(shù)據(jù)的本質(zhì)特征介紹HACE定理提出的一種多層的大數(shù)據(jù)處理框架,該多層框架分別從大數(shù)據(jù)的來源、大數(shù)據(jù)的復(fù)雜的數(shù)據(jù)結(jié)構(gòu)以及數(shù)據(jù)之間的關(guān)系這三方面來描述[15].從大數(shù)據(jù)的來源來看,異構(gòu)和自治是大數(shù)據(jù)中多個(gè)數(shù)據(jù)源的最本質(zhì)特征,如盲人摸象中的每個(gè)盲人、物聯(lián)網(wǎng)中的各個(gè)傳感器和萬(wàn)維網(wǎng)上每位作者和讀者,他們可能用不同的語(yǔ)言(中文、英文等)、不同的媒體形式(文本、圖像等)和不同的表現(xiàn)形式(如英國(guó)英文的31/12/15和美國(guó)英語(yǔ)的12/31/15)來描述和處理他們各自的信息.大數(shù)據(jù)分析的最本質(zhì)目標(biāo)是探索異構(gòu)、自治的多源海量數(shù)據(jù)中復(fù)雜且隨時(shí)間和空間演化的數(shù)據(jù)關(guān)聯(lián).
依據(jù)HACE定理對(duì)大數(shù)據(jù)特征的闡述,可以形成一個(gè)大數(shù)據(jù)的三層構(gòu)架(見圖1).HACE定理的創(chuàng)新在于,它把大數(shù)據(jù)的處理框架從單層擴(kuò)展為多層.HACE定理給出的多層處理架構(gòu)關(guān)注對(duì)大數(shù)據(jù)的運(yùn)算、大數(shù)據(jù)之間的語(yǔ)義聯(lián)系和應(yīng)用知識(shí)、大數(shù)據(jù)的挖掘算法設(shè)計(jì)[42].HACE定理給出的多層大數(shù)據(jù)處理框架本質(zhì)上涵蓋了分析大數(shù)據(jù)的科學(xué)方法,下面我們給出每一層的細(xì)節(jié)介紹.
在構(gòu)架的第一層中關(guān)注的是大數(shù)據(jù)計(jì)算平臺(tái).對(duì)大數(shù)據(jù)的知識(shí)挖掘與分析,首先是大數(shù)據(jù)計(jì)算的存儲(chǔ)和計(jì)算問題.在傳統(tǒng)的處理方法中,為了提升數(shù)據(jù)的運(yùn)算能力,我們可以從計(jì)算機(jī)硬件的方面加以改進(jìn):利用密集型的計(jì)算單元,或者是依賴高性能計(jì)算機(jī)提高抓取和計(jì)算大數(shù)據(jù)的能力.在小規(guī)模和中型規(guī)模的數(shù)據(jù)量下,我們可以僅通過硬件的提升來改進(jìn)數(shù)據(jù)存儲(chǔ)和計(jì)算的能力,并達(dá)到數(shù)據(jù)的實(shí)時(shí)處理.在大數(shù)據(jù)的海量多源異構(gòu)的特點(diǎn)下,傳統(tǒng)的思路行不通了.舉個(gè)例子,多個(gè)數(shù)據(jù)源中數(shù)據(jù)的采樣和聚集就為我們的挖掘工作生成了一定的困難,憑借少量計(jì)算機(jī)和傳統(tǒng)的并行運(yùn)算無法處理.無論是采取流水線作業(yè)達(dá)成時(shí)間上的并行計(jì)算,還是采用多個(gè)處理器達(dá)成空間上的并行,雖然它們已經(jīng)在諸如稀疏矩陣和迭代算法的運(yùn)用中得到普及[43],但對(duì)于大數(shù)據(jù)來說,數(shù)據(jù)的稀疏性表現(xiàn)在一個(gè)較高的維度空間,傳統(tǒng)的并行算法并不是很有效,尤其是對(duì)于以流數(shù)據(jù)形式到來的數(shù)據(jù),實(shí)時(shí)處理是非常困難的.
圖1 大數(shù)據(jù)處理框架的修改版[15]Fig.1 A big data processing framework updated form[15]
在HACE定理的第1層數(shù)據(jù)挖掘平臺(tái)中,提出使用帶有高計(jì)算性能的集群計(jì)算機(jī)(Cluster computers).與中小規(guī)模數(shù)據(jù)集上的計(jì)算平臺(tái)相比,集群計(jì)算機(jī)上的每個(gè)計(jì)算節(jié)點(diǎn)都可以并行處理計(jì)算任務(wù),使得單個(gè)計(jì)算機(jī)的計(jì)算量有所降低,從而減小對(duì)每個(gè)計(jì)算節(jié)點(diǎn)的硬件的依賴性.利用這種結(jié)構(gòu)的最典型的并行計(jì)算工具是MapReduce.谷歌的MapReduce模型是為了并行計(jì)算而提出的一種編程框架,它將一個(gè)大規(guī)模的數(shù)據(jù)集上的計(jì)算任務(wù)拆分成多個(gè)小任務(wù),使得大規(guī)模數(shù)據(jù)集上的計(jì)算變得更加高效[44].傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和處理工作,使用最廣泛的是關(guān)系型數(shù)據(jù)庫(kù)結(jié)構(gòu).但是大規(guī)模的數(shù)據(jù)下,許多有用的信息隱藏在非結(jié)構(gòu)化數(shù)據(jù)中,諸如郵件、微博、視頻等.在這方面可以運(yùn)用的技術(shù)包括NoSQL和谷歌提出的“大表”(BigTable)[45]. BigTable用分布式數(shù)據(jù)庫(kù)存儲(chǔ)系統(tǒng)管理大規(guī)模數(shù)據(jù),它將數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)化為鍵值之間的一種映射關(guān)系,使得數(shù)據(jù)規(guī)模的大小和計(jì)算的延遲時(shí)間在BigTable中都得到了滿足.
HACE定理的第2層架構(gòu)是大數(shù)據(jù)的語(yǔ)義和應(yīng)用知識(shí),包含數(shù)據(jù)共享與隱私、領(lǐng)域和應(yīng)用知識(shí)的問題.第1層架構(gòu)提出了集群式的大數(shù)據(jù)計(jì)算平臺(tái),解決了對(duì)流數(shù)據(jù)存儲(chǔ)的計(jì)算問題之后,我們需要分析大數(shù)據(jù)中的隱含知識(shí).在對(duì)大數(shù)據(jù)下隱含知識(shí)的分析過程中需要數(shù)據(jù)的共享.從數(shù)據(jù)的安全性來說,由于大數(shù)據(jù)中包含大量的敏感信息,或者是用戶的一些不合法的數(shù)據(jù)操作,都會(huì)影響到數(shù)據(jù)共享的效果,并帶來一些信息隱私的問題.個(gè)人信息包含在大數(shù)據(jù)中,也會(huì)引發(fā)關(guān)于數(shù)據(jù)可信度的度量和評(píng)估問題[46].大數(shù)據(jù)自治的分布式和分散式控制與數(shù)據(jù)的隱私有密切的聯(lián)系,為解決這一問題,目前已經(jīng)產(chǎn)生了一些適用于分布式的文件系統(tǒng).還是以Google的GFS文件系統(tǒng)為例,該文件系統(tǒng)基于一臺(tái)主機(jī)和若干個(gè)備有Linux操作系統(tǒng)的PC機(jī)群構(gòu)成了一個(gè)集群系統(tǒng).GFS系統(tǒng)對(duì)于用戶從主機(jī)上得到的Metadata,從相應(yīng)的位置產(chǎn)生通信過程從而獲取文件數(shù)據(jù)[47].分布式文件系統(tǒng)的產(chǎn)生,激勵(lì)了諸如Hadoop和Hive這樣的數(shù)據(jù)平臺(tái)的產(chǎn)生,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)處理在不斷優(yōu)化的程序中得到了更好的處理和分析.
在HACE定理的第2層架構(gòu)中,為了保護(hù)個(gè)人隱私信息,同時(shí)提高所提取知識(shí)的可信度,HACE主要提供了兩種解決思路:從數(shù)據(jù)存儲(chǔ)角度,對(duì)訪問數(shù)據(jù)的權(quán)限進(jìn)行限制可以一定程度上提高數(shù)據(jù)的可信度并減少對(duì)數(shù)據(jù)的誤操作;從信息共享的渠道來看,對(duì)數(shù)據(jù)的一部分特征進(jìn)行匿名化,使得數(shù)據(jù)中包含敏感信息的部分不被公開或者進(jìn)行一些模糊處理,同樣也可以起到保護(hù)隱私的目的[48].舉例來說,現(xiàn)有的關(guān)于數(shù)據(jù)匿名化的方法中,使用最多的是k匿名方法[49],用戶通過對(duì)數(shù)據(jù)表的匿名工作指定一個(gè)k值,限定發(fā)布的數(shù)據(jù)存在某些標(biāo)識(shí)符與其他k-1個(gè)具體個(gè)體沒有方法區(qū)分開來,從而保護(hù)了個(gè)體數(shù)據(jù)的隱私.其次,第2層架構(gòu)需要考慮領(lǐng)域和應(yīng)用知識(shí)[50],它們能幫助我們辨別已收集到的大數(shù)據(jù)中哪些模式是用戶希望去發(fā)現(xiàn)和使用的.例如,在醫(yī)療系統(tǒng)中對(duì)病人的數(shù)據(jù)信息進(jìn)行分析時(shí),通過領(lǐng)域和應(yīng)用知識(shí)可以識(shí)別我們需要的數(shù)據(jù)特征是諸如病人的血型、病史等信息,從而刻畫出有效的矩陣或者其他的數(shù)據(jù)特征表達(dá)方式,同時(shí)為后期的數(shù)據(jù)挖掘工作清洗掉一部分無用的數(shù)據(jù),得到正確的數(shù)據(jù)語(yǔ)義聯(lián)系.
HACE的第3層從三個(gè)方面提出了大數(shù)據(jù)挖掘算法:局部學(xué)習(xí)和多信息源的模型融合、稀疏不確定和不完整的數(shù)據(jù)挖掘、挖掘復(fù)雜的動(dòng)態(tài)數(shù)據(jù).在網(wǎng)絡(luò)數(shù)據(jù)的分析中,出于保護(hù)數(shù)據(jù)隱私的考慮,我們無法將從多個(gè)站點(diǎn)獲取的局部數(shù)據(jù)簡(jiǎn)單地集成為一個(gè)集中式的站點(diǎn).因此,大數(shù)據(jù)挖掘算法的設(shè)計(jì)存在許多挑戰(zhàn):由局部數(shù)據(jù)特征到全局?jǐn)?shù)據(jù)特征的轉(zhuǎn)變,稀疏的、不確定的和不完備的大數(shù)據(jù)需要有更高更快的實(shí)時(shí)性和準(zhǔn)確性,同時(shí)我們可能還要對(duì)缺失和不準(zhǔn)確的數(shù)據(jù)進(jìn)行填充[19].從數(shù)據(jù)建模的角度,現(xiàn)有的文本模型,包括向量空間模型(Vector sapce model,VSP)[51]、潛在語(yǔ)義分析(Latent semantic analysis,LSA)[52]、知識(shí)圖譜(Knowledge based graph)[53]等,都各有優(yōu)劣,比如,在知識(shí)工程中知識(shí)圖譜就能較好地表示實(shí)體之間的聯(lián)系.但這些基本模型無法滿足動(dòng)態(tài)環(huán)境中對(duì)整體大數(shù)據(jù)的特征刻畫.
同時(shí),大數(shù)據(jù)之間的復(fù)雜的數(shù)據(jù)關(guān)聯(lián)也隨著動(dòng)態(tài)數(shù)據(jù)而演化.當(dāng)數(shù)據(jù)流數(shù)據(jù)發(fā)生變化時(shí),我們需要考慮現(xiàn)有的數(shù)據(jù)結(jié)構(gòu)是否適應(yīng)于新的數(shù)據(jù)描述,數(shù)據(jù)特征和數(shù)據(jù)變量在發(fā)生實(shí)時(shí)的變化.對(duì)動(dòng)態(tài)數(shù)據(jù)的挖掘,對(duì)數(shù)據(jù)的變化如果只采取從頭運(yùn)行挖掘算法的方式,就無法兼顧到實(shí)時(shí)處理的問題,顯然在動(dòng)態(tài)數(shù)據(jù)中這不是一個(gè)有效的策略.同時(shí),數(shù)據(jù)的動(dòng)態(tài)改變導(dǎo)致了數(shù)據(jù)間關(guān)系的演化,使得數(shù)據(jù)的規(guī)則和已獲得的知識(shí)圖譜無法匹配.
當(dāng)然,大數(shù)據(jù)的興起不僅帶來了挑戰(zhàn),同時(shí)也促進(jìn)了各領(lǐng)域的變革和發(fā)展.例如,研發(fā)針對(duì)社交網(wǎng)絡(luò)之間的復(fù)雜聯(lián)系以及演化關(guān)系的管理系統(tǒng)[54[56].
1977年,在第五屆國(guó)際人工智能會(huì)議(IJCAI 77)上,美國(guó)斯坦福大學(xué)計(jì)算機(jī)科學(xué)家費(fèi)根堡姆(Feigenbaum)首次提出了知識(shí)工程(Knowledge engineering)的概念.知識(shí)工程的概念提出之后,人工智能的原理與方法在知識(shí)系統(tǒng)領(lǐng)域發(fā)揮了重大的作用.知識(shí)工程包括五大活動(dòng):對(duì)知識(shí)的獲取、驗(yàn)證、表示、推論以及對(duì)知識(shí)的解釋.在知識(shí)的基礎(chǔ)上,知識(shí)工程通過這五大活動(dòng)構(gòu)建專家系統(tǒng)和各種智能系統(tǒng)[57].相對(duì)于知識(shí)管理技術(shù),知識(shí)工程關(guān)注的是知識(shí)產(chǎn)生和驗(yàn)證過程的動(dòng)態(tài)變化,它的創(chuàng)新性更強(qiáng)、對(duì)數(shù)據(jù)的操作更加復(fù)雜,并且涉及多個(gè)相關(guān)領(lǐng)域的知識(shí)交叉.在知識(shí)工程的五大活動(dòng)中,知識(shí)的獲取具有更大的難度.
在大數(shù)據(jù)時(shí)代,利用知識(shí)工程的思想和方法,對(duì)大數(shù)據(jù)進(jìn)行獲取、驗(yàn)證、表示、推論和解釋,通過挖掘出的知識(shí)來形成解決問題的專家系統(tǒng),是本文所倡導(dǎo)的大知識(shí),也稱為大數(shù)據(jù)知識(shí)工程[39].在大數(shù)據(jù)時(shí)代的背景下進(jìn)行知識(shí)工程活動(dòng)具有諸多挑戰(zhàn).這主要是由于大數(shù)據(jù)的本質(zhì)特征導(dǎo)致的,涉及到異構(gòu)、自治的海量多源數(shù)據(jù),隱藏在數(shù)據(jù)下的知識(shí)難以管理和發(fā)現(xiàn).下面分析一些大數(shù)據(jù)對(duì)知識(shí)工程的挑戰(zhàn)問題.
首先,大數(shù)據(jù)知識(shí)工程需要對(duì)獲取的數(shù)據(jù)進(jìn)行合理的存儲(chǔ)和表示,清晰的數(shù)據(jù)存儲(chǔ)形式更有利于發(fā)現(xiàn)數(shù)據(jù)的有用特征,剔除一些無用的數(shù)據(jù)屬性.從數(shù)據(jù)本身來看,大數(shù)據(jù)知識(shí)工程涉及大量的非結(jié)構(gòu)化數(shù)據(jù),其數(shù)據(jù)結(jié)構(gòu)多以數(shù)據(jù)流的形式到來.數(shù)據(jù)流數(shù)據(jù)是一種由實(shí)時(shí)、連續(xù)、有序的數(shù)據(jù)組成的序列,它是一種動(dòng)態(tài)變化的數(shù)據(jù).與傳統(tǒng)的靜態(tài)結(jié)構(gòu)化數(shù)據(jù)相比,數(shù)據(jù)流數(shù)據(jù)具有連續(xù)、快速、難以預(yù)測(cè)數(shù)據(jù)趨勢(shì)等特點(diǎn)[58].考慮到大數(shù)據(jù)特征,數(shù)據(jù)的存儲(chǔ)要求具有三個(gè)變化:1)數(shù)據(jù)量升至PB級(jí);2)數(shù)據(jù)分析需求從常規(guī)分析轉(zhuǎn)向深度分析(Deep analytics);3)硬件平臺(tái)從高端轉(zhuǎn)向中低端[59].從數(shù)據(jù)的表示來看,已有的數(shù)據(jù)模型包括聚類分析、決策樹、分類方法、頻繁模式挖掘等.常見的聚類分析方法是通過尋找數(shù)據(jù)點(diǎn)的k個(gè)中心點(diǎn)來獲取數(shù)據(jù)間的距離總和的最小值[60].對(duì)數(shù)據(jù)流數(shù)據(jù)的易變特點(diǎn)產(chǎn)生的概念漂移問題,已有使用k棵隨機(jī)決策樹組成的基分類器的雙層窗口的分類算法[61].對(duì)數(shù)據(jù)流的頻繁模式挖掘,往往存在實(shí)時(shí)性較差且查詢粒度粗的問題.而采用快速啟發(fā)式的方法可以兼顧到對(duì)數(shù)據(jù)流數(shù)據(jù)的實(shí)時(shí)處理和更細(xì)的查詢粒度[62].這些模型在提取和刻畫數(shù)據(jù)特征方面各有優(yōu)劣,但它們都針對(duì)的是靜態(tài)的數(shù)據(jù),對(duì)大數(shù)據(jù)的表示和數(shù)據(jù)建模難以適應(yīng).
同數(shù)據(jù)流相對(duì)應(yīng)的是特征流的問題.含有特征流的應(yīng)用中,無法預(yù)知整個(gè)特征空間的相關(guān)知識(shí).特征流是在時(shí)間上連續(xù)到來的特征序列,隨著特征數(shù)量的不斷增加,訓(xùn)練集的個(gè)數(shù)可能是固定的[63]、也可能在變化之中[64].在線特征的選擇具有三大挑戰(zhàn)問題:1)特征的規(guī)模和數(shù)量隨著時(shí)間不斷增長(zhǎng);2)巨大的特征空間具有未知和規(guī)模無限大的可能性;3)整個(gè)空間的特征過于龐大,為了學(xué)習(xí)整個(gè)空間的特征,學(xué)習(xí)算法無法從最初處理整個(gè)特征集.這三大挑戰(zhàn)問題,同大數(shù)據(jù)的海量有著密切的關(guān)系.傳統(tǒng)的特征選擇面對(duì)有規(guī)律增長(zhǎng)的特征數(shù)量,可以不必對(duì)特征流加以考慮.但大數(shù)據(jù)為特征的選擇增加了新的難度,從而引發(fā)了新的研究熱點(diǎn).針對(duì)特征流的問題,在現(xiàn)有的特征選擇算法的基礎(chǔ)上,對(duì)特征之間的相關(guān)性和特征冗余加以考慮,能夠提高特征選擇的效率,基于特征更為精確和清晰的表示方式[65].
除了大數(shù)據(jù)的存儲(chǔ)和表示方面的挑戰(zhàn),我們需要考慮的是大數(shù)據(jù)中知識(shí)的獲取.考慮到大數(shù)據(jù)的多源異構(gòu)的特征,數(shù)據(jù)源通常還含有自治性質(zhì),數(shù)據(jù)的獲取通常是從局部的數(shù)據(jù)源中獲取碎片化的知識(shí)[15].對(duì)觀測(cè)到的數(shù)據(jù),現(xiàn)有的標(biāo)準(zhǔn)在線學(xué)習(xí)算法大都使用線性擬合的方式,多源的數(shù)據(jù)使得獲得的知識(shí)往往成碎片化,碎片化知識(shí)的融合無法通過線性擬合完成.大數(shù)據(jù)對(duì)知識(shí)工程的又一挑戰(zhàn)是碎片化知識(shí)的刻畫和融合.從碎片化知識(shí)的獲取來說,現(xiàn)有的擬合方式無法對(duì)碎片化數(shù)據(jù)特征的分布形成合適的擬合,甚至?xí)a(chǎn)生過度擬合的問題[66].其次,現(xiàn)有的在線學(xué)習(xí)方法,尤其是基于Kernel算法的在線學(xué)習(xí),隨著數(shù)據(jù)量的上升,模型的參數(shù)設(shè)置會(huì)變得很復(fù)雜.比如,使用表示定理(The representation theorem)[67]可知Kernel函數(shù)的數(shù)量隨著觀測(cè)值的上升呈現(xiàn)出線性增長(zhǎng),這樣數(shù)據(jù)分析和處理的復(fù)雜度就會(huì)提升.然而,相應(yīng)的一個(gè)使用機(jī)器學(xué)習(xí)分析大數(shù)據(jù)的好處是,許多的數(shù)據(jù)樣本是可獲得的,相應(yīng)的減小了過度擬合的可能[68].
除此以外,對(duì)數(shù)據(jù)的訓(xùn)練時(shí)間或者使用批處理來處理觀測(cè)值的時(shí)候,我們對(duì)在線學(xué)習(xí)的響應(yīng)時(shí)間是有要求的,如果響應(yīng)時(shí)間過長(zhǎng),那么由于數(shù)據(jù)隱藏的信息可能會(huì)隨著時(shí)間演化,則我們得到的信息也許就會(huì)對(duì)我們?cè)谏a(chǎn)、生活、商業(yè)決策方面的應(yīng)用產(chǎn)生誤導(dǎo).基于處理大規(guī)模高維數(shù)據(jù)的目的,目前已經(jīng)提出了多種有效的算法.大數(shù)據(jù)環(huán)境下的知識(shí)發(fā)現(xiàn)所需要的算法,需要避免輸入數(shù)據(jù)時(shí)在數(shù)值或者特征上的冗余,否則數(shù)據(jù)的維度會(huì)過高.同時(shí)在學(xué)習(xí)的過程中不斷更新以降低計(jì)算的復(fù)雜度,對(duì)于高維的數(shù)據(jù),我們還可以使用在線增量學(xué)習(xí)方法,實(shí)現(xiàn)模型和函數(shù)的足夠的精確度和近似過程具有足夠的泛化[69].從碎片化知識(shí)的融合來看,碎片化知識(shí)的融合是為了從單個(gè)數(shù)據(jù)源的局部數(shù)據(jù)中獲取整個(gè)大數(shù)據(jù)集合的全局?jǐn)?shù)據(jù)特征.碎片化知識(shí)的融合使用現(xiàn)有的線性融合方法會(huì)產(chǎn)生一些問題,例如,如果我們采用基于形式化邏輯的知識(shí)融合[70],知識(shí)融合的過程中會(huì)被局部知識(shí)的表示形式限制,對(duì)于結(jié)構(gòu)化數(shù)據(jù)這樣的融合方式?jīng)]有問題,但在非結(jié)構(gòu)化的數(shù)據(jù)中,提取出的碎片化知識(shí)不具有統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)和形式.大數(shù)據(jù)環(huán)境下,為了獲取數(shù)據(jù)中的知識(shí),我們可以采用在線學(xué)習(xí)的方式.在線學(xué)習(xí)面對(duì)數(shù)據(jù)流數(shù)據(jù),對(duì)流中可能出現(xiàn)的概念漂移問題能有效地解決[71].它不僅僅是把碎片化知識(shí)“拼湊”在一起,而是從碎片化知識(shí)之間的關(guān)聯(lián)得到新的全局知識(shí),這和對(duì)單數(shù)據(jù)源的批處理有所區(qū)別.
在大數(shù)據(jù)的知識(shí)工程中,還存在著一些數(shù)據(jù)可用性的挑戰(zhàn).我們這里所探討的大數(shù)據(jù)的可用性,包含數(shù)據(jù)的一致性、完整性、精確性、時(shí)效性和實(shí)體統(tǒng)一性五個(gè)方面[72].舉例來說,提高數(shù)據(jù)的可用性可以增強(qiáng)銀行卡的安全性.如果數(shù)據(jù)庫(kù)中存在同一用戶的數(shù)據(jù)主體的不統(tǒng)一,例如說同一張銀行卡的某一段較小的時(shí)間間隔內(nèi),發(fā)生了兩筆空間位置距離較遠(yuǎn)的消費(fèi)記錄,則可能存在欺詐消費(fèi)或者是銀行卡被盜刷的可能.同樣,數(shù)據(jù)隱私的問題也會(huì)影響到數(shù)據(jù)的可用性.為了保護(hù)個(gè)人數(shù)據(jù)的隱私,大規(guī)模數(shù)據(jù)集中可能對(duì)部分敏感字段采取匿名的方法,但是這樣也使得數(shù)據(jù)的使用風(fēng)險(xiǎn)增加和巨大的信息損失.為了在數(shù)據(jù)的隱私和數(shù)據(jù)的可用性之間尋找平衡,研究人員提出了多種方法,例如軌跡匿名算法[73-74],通過對(duì)用戶的軌跡數(shù)據(jù)的匿名化,同時(shí)融入對(duì)時(shí)間、位置、速度和方向等外在的軌跡特征信息,以及對(duì)軌跡中鄰近位置的改變,來刻畫出軌跡數(shù)據(jù)之間的相似度.
大數(shù)據(jù)的知識(shí)工程旨在形成對(duì)個(gè)性化服務(wù)有價(jià)值和指導(dǎo)作用的專家系統(tǒng).從融合的碎片知識(shí),我們可以用知識(shí)圖譜表示大數(shù)據(jù)中隱藏的大知識(shí).知識(shí)圖譜的節(jié)點(diǎn)表示碎片化的知識(shí),連接節(jié)點(diǎn)的邊我們可以看作是碎片化之間的關(guān)聯(lián).我們需要應(yīng)對(duì)的問題是如何量化這些邊和節(jié)點(diǎn)的關(guān)系,尤其是在動(dòng)態(tài)變化的大數(shù)據(jù)關(guān)系中,已得到的知識(shí)圖譜結(jié)構(gòu)也會(huì)產(chǎn)生變化.現(xiàn)有的算法需要從頭推算整個(gè)數(shù)據(jù)的結(jié)構(gòu)并更新知識(shí)圖譜,這種做法相當(dāng)耗費(fèi)時(shí)間.并且,在海量數(shù)據(jù)中形成的知識(shí)圖譜,由于我們無法對(duì)每個(gè)觀測(cè)數(shù)據(jù)都做到保留,經(jīng)過數(shù)據(jù)處理和清洗的大數(shù)據(jù)集形成的知識(shí)圖譜,必然存在諸如數(shù)據(jù)值的丟棄、噪聲[75]、不平衡數(shù)據(jù)[76]等問題.因此,大數(shù)據(jù)的知識(shí)工程需要對(duì)獲取的知識(shí)的真實(shí)性提出評(píng)估機(jī)制和演化關(guān)系的更新標(biāo)準(zhǔn).
大數(shù)據(jù)知識(shí)工程還應(yīng)考慮知識(shí)自動(dòng)化帶來的問題.互聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算等技術(shù)的發(fā)展,雖然帶來了更好的數(shù)據(jù)處理和分析手段,但許多數(shù)據(jù)和信息管理應(yīng)用中仍然存在數(shù)據(jù)過載的問題.大數(shù)據(jù)知識(shí)工程最終希望提供以需求為導(dǎo)向的知識(shí)服務(wù),但過載數(shù)據(jù)的存在降低了服務(wù)的可用性和精確性.知識(shí)的自動(dòng)化指的不是知識(shí)本身自動(dòng)產(chǎn)生,但可以誘發(fā)知識(shí)的傳播、獲取、分析、影響、產(chǎn)生等方面的重要變革[77].知識(shí)的自動(dòng)化是信息自動(dòng)化的自然延伸和提高,對(duì)于具有較大不確定性、冗余性、不一致性的數(shù)據(jù)和社會(huì)信息,僅依靠人類的智力很難對(duì)海量大數(shù)據(jù)進(jìn)行更有效分析[78].采用以數(shù)據(jù)作為驅(qū)動(dòng)的方法,將物理空間產(chǎn)生的數(shù)據(jù)和虛擬空間產(chǎn)生的數(shù)據(jù)結(jié)合起來進(jìn)行分析,將會(huì)更有利于解決數(shù)據(jù)的過載.
基于第2節(jié)中大數(shù)據(jù)對(duì)知識(shí)工程中的各種挑戰(zhàn)問題,本節(jié)介紹一種由吳信東等在2015年提出的大數(shù)據(jù)知識(shí)工程模型BigKE[39](見圖2).該模型用以解決碎片化知識(shí)建模與多數(shù)據(jù)源的在線學(xué)習(xí)、碎片知識(shí)的非線性融合、需求驅(qū)動(dòng)下的自動(dòng)化知識(shí)導(dǎo)航問題.BigKE模型采用一種三層次的知識(shí)建模方法,最終獲取個(gè)性化的知識(shí)導(dǎo)航服務(wù).下面分別從該模型的三個(gè)層次來進(jìn)行介紹.
3.1多源異構(gòu)數(shù)據(jù)中的碎片化知識(shí)建模
與傳統(tǒng)的知識(shí)工程比較,大數(shù)據(jù)知識(shí)工程著重于提取碎片化知識(shí),同領(lǐng)域?qū)<抑R(shí)相結(jié)合,不同于傳統(tǒng)的知識(shí)工程只基于領(lǐng)域?qū)<业膶<抑R(shí).這是因?yàn)榇髷?shù)據(jù)來源于多源的異構(gòu)數(shù)據(jù),數(shù)據(jù)中存在不確定、不完整和異構(gòu)的問題.同領(lǐng)域知識(shí)相比較,碎片化知識(shí)的精確度有所降低,但由于它對(duì)于有個(gè)人偏好的專家知識(shí)的依賴度降低了,換個(gè)角度說,碎片化知識(shí)的無偏性和效率也就提高了.碎片化知識(shí)隱藏在多源異構(gòu)的自治源下,從這樣的數(shù)據(jù)源中發(fā)現(xiàn)知識(shí)是一項(xiàng)富有挑戰(zhàn)和趣味性的工作.以社交媒體為例,2012年10月,美國(guó)總統(tǒng)奧巴馬和羅姆尼州長(zhǎng)之間的總統(tǒng)辯論在2小時(shí)內(nèi)就引發(fā)了超過1000萬(wàn)條的推特信息[79].如此龐大的信息數(shù)量中,隱藏著復(fù)雜的語(yǔ)義關(guān)系,每個(gè)用戶的評(píng)論行為和情感傾向相互獨(dú)立但又相互影響,這和大規(guī)模數(shù)據(jù)集的自治性相符合.隨著數(shù)據(jù)量的不斷增大,數(shù)據(jù)的來源、數(shù)據(jù)的結(jié)構(gòu)、數(shù)據(jù)之間的關(guān)聯(lián)難以使用現(xiàn)有的知識(shí)工程技術(shù)進(jìn)行整合.如何分析用戶的行為變化和用戶行為之間的相互影響,成為了一個(gè)大數(shù)據(jù)知識(shí)工程問題.
圖2 大數(shù)據(jù)知識(shí)工程模型—BigKE[39]Fig.2 Big data knowledge engineering—BigKE[39]
BigKE模型的第一步采用合適的模型對(duì)多數(shù)據(jù)源中的碎片化數(shù)據(jù)進(jìn)行建模.從多數(shù)據(jù)源中獲取的碎片化知識(shí)對(duì)評(píng)估數(shù)據(jù)的可靠性和數(shù)據(jù)質(zhì)量有重要的作用.為了更好地表示數(shù)據(jù)的特征,BigKE利用在線學(xué)習(xí)方法,同時(shí)考慮“數(shù)據(jù)流”和“特征流”,因?yàn)榇髷?shù)據(jù)知識(shí)工程首先需要關(guān)注的是數(shù)據(jù)的獲取和存儲(chǔ)[80].在第2節(jié)中我們討論了大數(shù)據(jù)對(duì)于知識(shí)工程提出了數(shù)據(jù)存儲(chǔ)方面的挑戰(zhàn),在BigKE模型中,目前可以利用的諸如并行數(shù)據(jù)庫(kù)和MapReduce技術(shù)的混合架構(gòu)[59].對(duì)于快速到來的數(shù)據(jù),其中含有大量的時(shí)間和空間信息,這些時(shí)空信息可能隱藏?cái)?shù)據(jù)的有用特征,對(duì)流數(shù)據(jù)的處理需要選擇動(dòng)態(tài)的模型來刻畫數(shù)據(jù)的特征.所以同傳統(tǒng)的知識(shí)工程相比,動(dòng)態(tài)大數(shù)據(jù)的知識(shí)提取是一個(gè)重要方面.對(duì)數(shù)據(jù)流數(shù)據(jù)的知識(shí)工程已經(jīng)取得一部分進(jìn)展,例如,針對(duì)數(shù)據(jù)流數(shù)據(jù)的算法研究和數(shù)據(jù)模型的改進(jìn)工作[81],以及數(shù)據(jù)流數(shù)據(jù)的聚類算法研究[82].
對(duì)在線獲取的碎片知識(shí),還需要評(píng)估數(shù)據(jù)的可靠性.這是因?yàn)樵谔幚泶笠?guī)模數(shù)據(jù)的過程中無法對(duì)所有的數(shù)據(jù)進(jìn)行建模,采用的數(shù)據(jù)抽樣方式對(duì)數(shù)據(jù)的可信度產(chǎn)生了影響,同時(shí),傳統(tǒng)的數(shù)據(jù)學(xué)習(xí)方法和建模方式無法處理在大數(shù)據(jù)環(huán)境下的概念漂移問題.數(shù)據(jù)的精確度和可靠性評(píng)估可以通過對(duì)數(shù)據(jù)的來源來進(jìn)行排序和評(píng)價(jià),在對(duì)碎片化數(shù)據(jù)進(jìn)行篩選和清洗時(shí),選擇具有較高質(zhì)量的數(shù)據(jù).關(guān)注特征流的在線學(xué)習(xí)方法和傳統(tǒng)的在線學(xué)習(xí)方法相比,不再僅僅是關(guān)注所處理的數(shù)據(jù)的處理順序,而是對(duì)不斷增長(zhǎng)的大數(shù)據(jù)的數(shù)據(jù)量、巨大的數(shù)據(jù)的特征空間等都有所關(guān)注[39],這樣提取出來的碎片化知識(shí)具有更高的精確度和可信度.其次,碎片化知識(shí)建模時(shí),概念漂移的問題對(duì)數(shù)據(jù)的影響也需要注意.概念漂移發(fā)生時(shí),現(xiàn)有的數(shù)據(jù)對(duì)象的統(tǒng)計(jì)性質(zhì)可能會(huì)隨著時(shí)間的推進(jìn)產(chǎn)生變化,那么我們運(yùn)用的模型如果是固定不變的,所得到的碎片化知識(shí)的真實(shí)性會(huì)產(chǎn)生偏差.我們需要算法和模型具有自適應(yīng)性,以得到我們需要的碎片化知識(shí)[83].概念漂移的情況下,可能對(duì)數(shù)據(jù)的存儲(chǔ)和記憶需要設(shè)置時(shí)間值,用以保障對(duì)數(shù)據(jù)特征的存儲(chǔ)和描述是最新的.
除了考慮大數(shù)據(jù)的來源,BigKE還著眼于數(shù)據(jù)挖掘和融合的方法來評(píng)估數(shù)據(jù)的質(zhì)量.通過改變傳統(tǒng)的學(xué)習(xí)思路,BigKE在進(jìn)行大數(shù)據(jù)的碎片化知識(shí)建模時(shí),采用協(xié)同學(xué)習(xí)(Co-learning),這樣可以利用具有相似數(shù)據(jù)特征的數(shù)據(jù)之間的聯(lián)系,從相似的數(shù)據(jù)中互相評(píng)價(jià)和調(diào)用信息,以達(dá)到提高數(shù)據(jù)質(zhì)量的目的,同時(shí)對(duì)于碎片化建模的模型質(zhì)量也會(huì)有所提升.碎片化知識(shí)建模的重要性是不言而喻的.舉個(gè)例子來說,如果一個(gè)健身的手機(jī)APP想要為用戶提供合適的健身計(jì)劃,需要結(jié)合這位用戶在飲食、運(yùn)動(dòng)能力、作息時(shí)間甚至是疾病歷史等多方面的信息,涉及到的時(shí)間軸和空間軸的刻畫是很復(fù)雜的,況且涉及到用戶個(gè)人隱私的信息,諸如個(gè)人收入,有時(shí)候是難以獲得真實(shí)完整的數(shù)據(jù).在這樣的情況下,對(duì)碎片知識(shí)的建模挑戰(zhàn)不僅來源于數(shù)據(jù)模型的挑戰(zhàn),還涉及到數(shù)據(jù)的可靠性和完整性等問題.
3.2從局部知識(shí)到全局知識(shí)------碎片化知識(shí)融合
通過對(duì)碎片化知識(shí)的建模和語(yǔ)義封裝,我們得到了BigKE第一階段的產(chǎn)物,即用合適的模型表示的碎片化知識(shí).為了進(jìn)一步得到整個(gè)大數(shù)據(jù)集的全局知識(shí),BigKE需要對(duì)碎片化知識(shí)進(jìn)行非線性融合.多源異構(gòu)的數(shù)據(jù)環(huán)境下,BigKE采用知識(shí)圖譜對(duì)碎片化數(shù)據(jù)進(jìn)行表示.將大數(shù)據(jù)知識(shí)工程同傳統(tǒng)知識(shí)工程相比較,后者先對(duì)收集提取出的知識(shí)進(jìn)行聚合得到全局的知識(shí),進(jìn)而在全局知識(shí)上進(jìn)行一系列的知識(shí)推斷工作,前者與它的區(qū)別在于通過推斷工作,得到現(xiàn)有的局部的碎片化知識(shí)中可能沒有表現(xiàn)出的有用信息.BigKE對(duì)碎片化知識(shí)的融合具有兩個(gè)創(chuàng)新點(diǎn):1)考慮到碎片化知識(shí)的融合無法采用簡(jiǎn)單的線性處理方式;2)將碎片化知識(shí)之間的關(guān)聯(lián)表示,轉(zhuǎn)化成知識(shí)圖譜的子圖來處理.
BigKE采用知識(shí)圖譜來表示和融合碎片化知識(shí)具有許多優(yōu)點(diǎn).首先,由于碎片化知識(shí)之間的動(dòng)態(tài)的和演化的語(yǔ)義關(guān)聯(lián),傳統(tǒng)的線性融合方法和模型無法反映出局部知識(shí)之間的聯(lián)系.碎片化知識(shí)之間的關(guān)系是復(fù)雜的,其復(fù)雜性來源于數(shù)據(jù)源的異構(gòu)性,異構(gòu)導(dǎo)致了不同的碎片化知識(shí)具有不同的記錄、存儲(chǔ)和表示的形式.而知識(shí)圖譜給出了局部知識(shí)到全局知識(shí)的統(tǒng)一的表示形式,這使得碎片化知識(shí)的融合過程更加簡(jiǎn)便.其次,知識(shí)圖譜的點(diǎn)與點(diǎn)之間的路徑可以看做不同的碎片化知識(shí)之間可能的關(guān)聯(lián),這為個(gè)性化服務(wù)的實(shí)現(xiàn)提供了實(shí)現(xiàn)的可能性.舉個(gè)例子來說,目前的搜索引擎和購(gòu)物網(wǎng)站可以通過用戶的搜索和瀏覽記錄,推薦給用戶相關(guān)的新聞網(wǎng)頁(yè)或者是相關(guān)的物品.諸如亞馬遜的相關(guān)商品推薦和微博上可能認(rèn)識(shí)的用戶的推送信息[84].每個(gè)用戶的記錄是局部的,關(guān)于用戶的需求的發(fā)現(xiàn)由此轉(zhuǎn)變?yōu)閷ふ抑R(shí)圖譜中用戶的碎片化知識(shí)的相鄰節(jié)點(diǎn),或者是路徑導(dǎo)航.
采用知識(shí)圖譜來進(jìn)行碎片化知識(shí)的非線性融合時(shí),我們除了要應(yīng)對(duì)復(fù)雜的異構(gòu)數(shù)據(jù),還需要處理好碎片化知識(shí)之間固有的語(yǔ)義聯(lián)系.例如,對(duì)同一事件的討論,從微博、微信、推特等不同的社交網(wǎng)站上獲得的碎片化知識(shí)可能包含的是同一種意見傾向,或者是存在敵對(duì)的意見,那么進(jìn)行知識(shí)融合時(shí)我們需要在知識(shí)圖譜中有所體現(xiàn).通過知識(shí)圖譜表示的知識(shí)的節(jié)點(diǎn)和所連接的尚在演化的關(guān)系中需要作出相應(yīng)的調(diào)整.因此,我們需要關(guān)注的是,碎片化知識(shí)融合時(shí)這些聯(lián)系和節(jié)點(diǎn)的表示[85].BigKE模型中對(duì)碎片知識(shí)的融合,需要對(duì)現(xiàn)有的子圖進(jìn)行一定的篩選,碎片化知識(shí)反映出的局部信息是多數(shù)據(jù)源的自治性的一種表現(xiàn),這些局部的信息對(duì)獲取全局知識(shí)的重要性,也需要通過子圖的可信度來刻畫.
與現(xiàn)有的推薦網(wǎng)站和個(gè)性化服務(wù)有所不同,大數(shù)據(jù)知識(shí)工程模型BigKE的知識(shí)圖譜結(jié)構(gòu)需要?jiǎng)討B(tài)更新,這是碎片化知識(shí)之間復(fù)雜的動(dòng)態(tài)聯(lián)系所導(dǎo)致的.BigKE對(duì)碎片化知識(shí)的融合過程同樣引入了評(píng)估機(jī)制.BigKE模型的第1層中,需要評(píng)估的是所獲得數(shù)據(jù)的質(zhì)量,在知識(shí)融合的過程中,評(píng)估的是知識(shí)圖譜的可靠性.這是由于碎片化知識(shí)的復(fù)雜關(guān)系同樣受到漂移的影響,由此帶來了關(guān)系的演化.評(píng)估這些碎片化知識(shí)之間的關(guān)聯(lián)可以提升所得到的知識(shí)圖譜的精確度,對(duì)后期知識(shí)導(dǎo)航奠定基礎(chǔ),評(píng)估的標(biāo)準(zhǔn)可以參考碎片化知識(shí)聯(lián)系的關(guān)系強(qiáng)度等來表述.舉例來說,在不同的關(guān)系中,關(guān)系強(qiáng)度可以被描述為顯式的強(qiáng)度或隱式的強(qiáng)度關(guān)系[86].碎片化數(shù)據(jù)之間的關(guān)聯(lián)被表示為知識(shí)圖譜的邊,通過對(duì)數(shù)據(jù)間關(guān)聯(lián)的強(qiáng)度刻畫,能夠動(dòng)態(tài)更新知識(shí)圖譜的邊,從而刻畫出大數(shù)據(jù)中動(dòng)態(tài)的數(shù)據(jù)關(guān)聯(lián).
3.3個(gè)性化知識(shí)導(dǎo)航
大數(shù)據(jù)知識(shí)工程的最終目標(biāo)是提供以用戶需求為導(dǎo)向的知識(shí)服務(wù).BigKE模型通過對(duì)碎片化知識(shí)的非線性融合得到了大數(shù)據(jù)的全局知識(shí),為了將從大數(shù)據(jù)中獲取的知識(shí)應(yīng)用到知識(shí)服務(wù)中,需要考慮用戶的社交信息等個(gè)性化的信息,并需要合適的方法對(duì)用戶的個(gè)性化查詢提供精確的推薦和導(dǎo)航服務(wù).前兩小節(jié)中提到的知識(shí)圖譜,其節(jié)點(diǎn)和邊對(duì)應(yīng)的是知識(shí)的單元和知識(shí)之間的語(yǔ)義關(guān)聯(lián),提供知識(shí)服務(wù)可以看作尋找某兩點(diǎn)之間的最佳路徑.我們利用用戶需求作為導(dǎo)向,使用知識(shí)圖譜中的連接關(guān)系,尋找用戶節(jié)點(diǎn)包含內(nèi)容之間的關(guān)系.
個(gè)性化服務(wù)的一個(gè)案例是病人之間的同病不同源,因而在4P模型里需要不同的治療方案。在數(shù)據(jù)挖掘技術(shù)快速發(fā)展的時(shí)代,我們應(yīng)該站到數(shù)據(jù)科學(xué)發(fā)展的最前沿,積極探索將全新的數(shù)據(jù)分析技術(shù)和個(gè)性化服務(wù)相融合的方法.類似地,已經(jīng)成功應(yīng)用到網(wǎng)絡(luò)學(xué)習(xí)等系統(tǒng)中的知識(shí)導(dǎo)航服務(wù),是根據(jù)對(duì)文本語(yǔ)境和瀏覽記錄等數(shù)據(jù)的分析,尋找到最感興趣的另一個(gè)知識(shí)節(jié)點(diǎn)[87].以社交網(wǎng)絡(luò)為例,我們可以從客戶端的瀏覽器中獲取細(xì)節(jié)信息,就是用戶選擇瀏覽的鏈接列表及其運(yùn)行的時(shí)間[88].其他可獲取的一些信息的類型,還包括用戶從某一鏈接到另一網(wǎng)站的路徑消耗時(shí)間.這些信息可以用來形成用戶的個(gè)性化查詢,從而我們可以找到最短路徑的鏈接來預(yù)估用戶需求從而做出合適的推薦和導(dǎo)航服務(wù).發(fā)現(xiàn)路徑后,對(duì)從知識(shí)圖譜中提取出的路徑結(jié)構(gòu)還要加以適當(dāng)?shù)恼砉ぷ?
對(duì)用戶的個(gè)性化需求和查詢要求,BigKE模型在知識(shí)圖譜上直接進(jìn)行推斷工作,從而進(jìn)行用戶未來可能行為的預(yù)測(cè).這也是大數(shù)據(jù)知識(shí)工程和傳統(tǒng)知識(shí)工程的一個(gè)區(qū)別.前者注重的是預(yù)測(cè)未來,后者注重的是管理和使用已獲取的數(shù)據(jù)和知識(shí).但由于龐大的數(shù)據(jù)量和知識(shí)圖譜規(guī)模的巨大化,在數(shù)據(jù)維度過高時(shí)會(huì)產(chǎn)生問題,使得新知識(shí)圖譜的構(gòu)建和導(dǎo)航服務(wù)的質(zhì)量下降,因而,發(fā)現(xiàn)算法采取近似手段是必要的.同時(shí),對(duì)所提供知識(shí)導(dǎo)航服務(wù)的用戶,其潛在需求往往需要結(jié)合到上下文感知、協(xié)同過濾等技術(shù)[89].開發(fā)和應(yīng)用知識(shí)導(dǎo)航算法時(shí),上下文感知技術(shù)向我們提供調(diào)整知識(shí)系統(tǒng)運(yùn)行的可能,尤其是涉及到移動(dòng)設(shè)備等的知識(shí)導(dǎo)航服務(wù),上下文感知技術(shù)能夠大大提高所獲取的知識(shí)的可用性,提升知識(shí)導(dǎo)航服務(wù)的價(jià)值.協(xié)同過濾技術(shù)同樣是為了降低知識(shí)導(dǎo)航的模糊性,提升個(gè)性化服務(wù)的準(zhǔn)確度,基于用戶的系統(tǒng)通過對(duì)推薦和導(dǎo)航服務(wù)預(yù)測(cè)工作的評(píng)價(jià),可以獲得更優(yōu)良的精度評(píng)價(jià)指標(biāo).
對(duì)用戶的需求和個(gè)性化查詢,BigKE基于知識(shí)圖譜給出的結(jié)果,還需要用一種直觀、簡(jiǎn)便的形式展現(xiàn)給用戶,以提高知識(shí)服務(wù)的可用性和可操作性.例如,用戶總是希望手機(jī)推薦的熱點(diǎn)新聞是以簡(jiǎn)潔的標(biāo)題和某一張新聞圖片結(jié)合的方式呈現(xiàn)的,如果推薦系統(tǒng)只是將推薦的內(nèi)容以長(zhǎng)文本的形式推送給用戶,那么就會(huì)降低用戶的閱讀興趣,從而使獲取的大知識(shí)被用戶忽略.
與5V模型、5R模型、4P醫(yī)學(xué)模型和HACE相比較,BigKE具有它的優(yōu)越性.面向海量多源的動(dòng)態(tài)數(shù)據(jù),BigKE考慮到大數(shù)據(jù)的異構(gòu)和自治特征,提供基于互聯(lián)網(wǎng)的知識(shí)服務(wù).5V模型、5R模型和4P醫(yī)學(xué)模型提煉出的大數(shù)據(jù)特征,在大數(shù)據(jù)知識(shí)工程中為大數(shù)據(jù)中的“大”知識(shí)的存儲(chǔ)和分析工作提供了導(dǎo)向,但它們沒有強(qiáng)調(diào)大數(shù)據(jù)中數(shù)據(jù)流和特征流的處理方式.對(duì)數(shù)據(jù)流數(shù)據(jù)的碎片化知識(shí)提取和非線性融合可以依靠BigKE的第1層和第2層得到.4P醫(yī)學(xué)模型強(qiáng)調(diào)用戶個(gè)人信息的參與,這需要對(duì)基于互聯(lián)網(wǎng)的大數(shù)據(jù)流之間的語(yǔ)義關(guān)系建立合適的模型.BigKE對(duì)碎片化知識(shí)的語(yǔ)義封裝能夠提供更可靠的個(gè)人信息及它們之間的演化關(guān)系的表示,體現(xiàn)出大數(shù)據(jù)動(dòng)態(tài)的特點(diǎn).HACE定理給出了處理大數(shù)據(jù)的多層框架,BigKE在它的基礎(chǔ)上對(duì)大數(shù)據(jù)挖掘形成的知識(shí)圖譜提出了個(gè)性化服務(wù)的導(dǎo)航,更有利于和具體的應(yīng)用實(shí)例結(jié)合.盡管BigKE同已有的大數(shù)據(jù)模型相比具有自身的優(yōu)勢(shì),但涉及到大知識(shí)的發(fā)現(xiàn)和挖掘,仍具有進(jìn)一步的挑戰(zhàn).
大數(shù)據(jù)知識(shí)工程模型BigKE旨在解決大數(shù)據(jù)對(duì)知識(shí)工程提出的挑戰(zhàn),本節(jié)我們討論BigKE中幾個(gè)挑戰(zhàn)問題和可能的應(yīng)用場(chǎng)景.
挑戰(zhàn)1.碎片化知識(shí)的非線性融合.首先,在BigKE的第2層,碎片化知識(shí)生成于異構(gòu)自治的多源數(shù)據(jù).這些數(shù)據(jù)沒有統(tǒng)一的數(shù)據(jù)表示形式,這些碎片化知識(shí)也缺乏統(tǒng)一的邏輯結(jié)構(gòu),所以知識(shí)融合起來十分困難.傳統(tǒng)的知識(shí)工程處理的信息通常含有一定的邏輯和統(tǒng)一的格式,而BigKE面對(duì)多種形式的數(shù)據(jù),諸如微博、短信息、傳感器數(shù)據(jù)、音視頻和郵件等,這項(xiàng)挑戰(zhàn)工作也正在形成一個(gè)研究熱點(diǎn).現(xiàn)有的數(shù)據(jù)融合方法大多采用的是有偏估計(jì),例如,利用多傳感器的有偏估計(jì),可以將數(shù)據(jù)的融合近似的收斂于無偏的估計(jì),從一定程度上提高數(shù)據(jù)融合的精確度[90].將異構(gòu)的碎片化知識(shí)進(jìn)行融合時(shí),為了形成統(tǒng)一的知識(shí)圖譜形式,我們無法兼顧到所有的信息,因此必然存在對(duì)數(shù)據(jù)和信息的取舍問題,如果單純采用加權(quán)和閾值的形式?jīng)Q定融合過程中對(duì)信息的丟棄,則融合后的全局知識(shí)的精度會(huì)下降.因此,我們需要一個(gè)合適的機(jī)制來選擇在碎片化知識(shí)融合的過程中,對(duì)數(shù)據(jù)信息的取舍做出判斷,期望在盡可能保留原有信息以提高知識(shí)圖譜的準(zhǔn)確度,同時(shí)也能夠以一種簡(jiǎn)便的形式表現(xiàn)出用戶需要的知識(shí).
挑戰(zhàn)2.大知識(shí)圖譜的動(dòng)態(tài)更新.大數(shù)據(jù)知識(shí)工程與傳統(tǒng)知識(shí)工程的一大區(qū)別在于大數(shù)據(jù)知識(shí)工程具有預(yù)測(cè)未來趨勢(shì)的要求.大數(shù)據(jù)不斷地到來,現(xiàn)有的知識(shí)圖譜無法一勞永逸地表現(xiàn)出每時(shí)每刻的數(shù)據(jù)特征.大數(shù)據(jù)的數(shù)量可能呈現(xiàn)驚人的增長(zhǎng)速度,現(xiàn)有數(shù)據(jù)之間的關(guān)聯(lián)隨著時(shí)間的推移也會(huì)產(chǎn)生變化.碎片化知識(shí)的關(guān)聯(lián)隨著原始數(shù)據(jù)關(guān)聯(lián)的變化而變化,表現(xiàn)在知識(shí)圖譜中可能是某個(gè)節(jié)點(diǎn)的消失和新節(jié)點(diǎn)的產(chǎn)生,以及一些新產(chǎn)生的邊的構(gòu)建.知識(shí)圖譜的動(dòng)態(tài)更新主要涉及到兩大問題:1)如何設(shè)置合理的時(shí)間點(diǎn)更新現(xiàn)有知識(shí)圖譜,2)如何確定對(duì)某一數(shù)據(jù)關(guān)聯(lián)的取舍問題.第1個(gè)問題可采用事先設(shè)置好的時(shí)間閾值,以當(dāng)前時(shí)間點(diǎn)為起始,到達(dá)規(guī)定的閾值范圍時(shí),則重新掃描數(shù)據(jù)集構(gòu)建新的知識(shí)結(jié)構(gòu).這樣的方式雖然可以提高所得到的知識(shí)的質(zhì)量,但是大規(guī)模數(shù)據(jù)集的重新掃描過于耗費(fèi)時(shí)間,不滿足對(duì)大數(shù)據(jù)知識(shí)工程的時(shí)間要求.因此,相比較于采用事先設(shè)置的固定時(shí)間閾值,BigKE的后續(xù)工作可以考慮對(duì)時(shí)間閾值的動(dòng)態(tài)設(shè)置.設(shè)置掃描時(shí)間閾值的動(dòng)態(tài)指標(biāo)可以參考新的數(shù)據(jù)到來的速度,根據(jù)新數(shù)據(jù)產(chǎn)生的多少來調(diào)整更新算法運(yùn)行的時(shí)間間隔.針對(duì)第2個(gè)問題,BigKE的挑戰(zhàn)在于要建立一個(gè)數(shù)據(jù)關(guān)聯(lián)度的評(píng)估評(píng)價(jià)機(jī)制,因?yàn)楝F(xiàn)有的數(shù)據(jù)關(guān)聯(lián),無論是數(shù)據(jù)節(jié)點(diǎn)還是聯(lián)系,都會(huì)隨著新數(shù)據(jù)的到來和時(shí)間的推移發(fā)生變化.在進(jìn)行知識(shí)圖譜更新時(shí),為了確定一條現(xiàn)有的邊的保留或者丟棄,現(xiàn)有的數(shù)據(jù)關(guān)聯(lián)強(qiáng)度算法很少考慮到大數(shù)據(jù)的動(dòng)態(tài)性,接下來的工作需要考慮對(duì)數(shù)據(jù)關(guān)聯(lián)強(qiáng)度的評(píng)價(jià)機(jī)制中加入動(dòng)態(tài)的因素.
挑戰(zhàn)3.基于集成和拆解的知識(shí)重組.BigKE的核心思想是集成碎片化數(shù)據(jù),產(chǎn)生新的知識(shí)面向個(gè)性化服務(wù).然而,碎片有大有小,有些大碎片必須首先分割成小的碎片以后才能有效集成.這就是粒度問題.人們一般不認(rèn)為一本完整的書是知識(shí)碎片.然而,在浩如煙海的書庫(kù)前面,一本書就可以看成是一個(gè)知識(shí)碎片.一篇文章可能會(huì)被看成是知識(shí)碎片.然而,如果分開考察它所包含的許多定理,以及這些定理所組成的知識(shí)體系,那么文章本身又不是碎片了.因此.是碎片還是知識(shí),是相對(duì)而非絕對(duì)的.如何分拆,如何重組?如何根據(jù)重組的目標(biāo)來分拆?既是技術(shù)問題,也是科學(xué)問題.
挑戰(zhàn)4.海量碎片化知識(shí)的約化表示.海量并不能完全刻畫大數(shù)據(jù),但是大數(shù)據(jù)一定是海量的,而且大數(shù)據(jù)存在著不確定、不完整、含噪音的數(shù)據(jù)質(zhì)量問題。我們不能在要用到大數(shù)據(jù)時(shí)每次都臨時(shí)到網(wǎng)上去找,所以必須考慮大數(shù)據(jù)和從大數(shù)據(jù)中生成的碎片化知識(shí)的海量存儲(chǔ)和管理問題.在許多的相關(guān)技術(shù)中,大數(shù)據(jù)及其碎片化知識(shí)的存儲(chǔ)、訪問和利用可以采取約化表示.約化的含義是把同一知識(shí)的復(fù)雜表示A轉(zhuǎn)換為簡(jiǎn)單表示B,使得B的容量大大小于A,但是B已經(jīng)包含了A的絕大部分有用信息,已經(jīng)可以在絕大部分場(chǎng)合代替A“出場(chǎng)”.一個(gè)實(shí)例是機(jī)器學(xué)習(xí)中的流形學(xué)習(xí),它的主要作用是降維,把高維數(shù)據(jù)降為低維數(shù)據(jù)而不影響,或很少影響其特征性質(zhì).該方法在各種模式識(shí)別中有重要應(yīng)用.
挑戰(zhàn)5.BigKE的分布式實(shí)現(xiàn).高效的大數(shù)據(jù)知識(shí)工程一定要走分布式處理的道路,不僅是為了存儲(chǔ)和管理,更重要的是為了計(jì)算效率.我們?cè)谇拔闹刑岬搅艘环N可能的選擇是采用Map-Reduce方法.該方法的核心在于把大數(shù)據(jù)分拆成許多小塊數(shù)據(jù),分配到許多節(jié)點(diǎn)上,通過分布式方式計(jì)算后再集成其結(jié)果.但這個(gè)方法也不是萬(wàn)能的.對(duì)解決某些問題來說,例如統(tǒng)計(jì)問題,其結(jié)果可能會(huì)不理想.除了前文已經(jīng)提到的把大量分散模塊的數(shù)據(jù)合并計(jì)算可能會(huì)模糊了某些統(tǒng)計(jì)閾值以外,還可能出現(xiàn)統(tǒng)計(jì)值不正確的問題,徐宗本院士指出,Hadoop類型的大數(shù)據(jù)回歸算法,只有在滿足所謂“一致相合”條件下才能提供合理結(jié)果[91].這樣的挑戰(zhàn)是我們?cè)诎汛髷?shù)據(jù)集成為知識(shí)時(shí)必須應(yīng)對(duì)的.
挑戰(zhàn)6.個(gè)性化用戶行為的建模.大數(shù)據(jù)中的大知識(shí)為我們提供了個(gè)性化的大知識(shí)服務(wù),個(gè)性化大知識(shí)服務(wù)的關(guān)鍵在于對(duì)個(gè)人和社交信息的建模.由于BigKE提出大數(shù)據(jù)的知識(shí)工程需要直接在知識(shí)圖譜上進(jìn)行知識(shí)的推斷,那么接下來的工作重點(diǎn)應(yīng)該著眼于過濾和選擇算法的實(shí)時(shí)性.在知識(shí)圖譜上的直接推斷可能會(huì)產(chǎn)生幾個(gè)相類似的結(jié)果,除了知識(shí)圖譜的結(jié)構(gòu)在隨著時(shí)間變化,用戶的需求也會(huì)產(chǎn)生變化,所以,BigKE模型面對(duì)的另一大挑戰(zhàn)問題是對(duì)用戶行為的建模.通過聚集個(gè)人和社交的信息,知識(shí)圖譜可望涵蓋用戶的行為和情感傾向,由此BigKE可以對(duì)用戶未來的行為做出推斷,從而動(dòng)態(tài)地改善現(xiàn)有的知識(shí)服務(wù)質(zhì)量.從協(xié)同過濾或上下文感知的過濾和選擇機(jī)制開始,加入用戶行為的推斷,這樣給出的結(jié)果帶有實(shí)時(shí)性,但同時(shí)對(duì)BigKE的挑戰(zhàn)又進(jìn)一步提升了,因?yàn)槎嘁粋€(gè)考慮的維度,帶有需求驅(qū)動(dòng)的大數(shù)據(jù)算法的編譯效率可能就會(huì)下降很多,訓(xùn)練集和測(cè)試集的劃分也會(huì)對(duì)算法的效率有所影響,因此BigKE的后續(xù)工作還涉及到大數(shù)據(jù)算法效率的提升.
大知識(shí)面向國(guó)民經(jīng)濟(jì)的主戰(zhàn)場(chǎng),在各個(gè)科技領(lǐng)域都會(huì)有著廣泛的應(yīng)用.下面我們分析幾個(gè)大知識(shí)的應(yīng)用場(chǎng)景.
應(yīng)用場(chǎng)景1.動(dòng)態(tài)網(wǎng)絡(luò)大詞典.本文在第1節(jié)中已經(jīng)對(duì)大知識(shí)給出定義.大知識(shí)所具有的海量、異構(gòu)和多源的特性源于大數(shù)據(jù)的來源.將大知識(shí)應(yīng)用到動(dòng)態(tài)詞典的建立和更新中具有廣闊的前景.動(dòng)態(tài)詞典是相對(duì)于傳統(tǒng)的靜態(tài)數(shù)據(jù)而言,詞典的建立和更新是動(dòng)態(tài)的,其動(dòng)態(tài)性體現(xiàn)在隨著社會(huì)和網(wǎng)絡(luò)語(yǔ)言知識(shí)的變化,在較短的時(shí)間間隔內(nèi)動(dòng)態(tài)詞典能夠更新詞匯的內(nèi)容和語(yǔ)言的規(guī)范.從文本語(yǔ)言中抓取即時(shí)的語(yǔ)料庫(kù),實(shí)現(xiàn)動(dòng)態(tài)詞典的動(dòng)態(tài)特征.事實(shí)上,無論是文本數(shù)據(jù)挖掘還是動(dòng)態(tài)詞典的建立,都需要對(duì)語(yǔ)料庫(kù)加以動(dòng)態(tài)的擴(kuò)充和更新來不斷適應(yīng)伴隨數(shù)據(jù)流和特征流到來的新數(shù)據(jù).除了對(duì)語(yǔ)料庫(kù)的動(dòng)態(tài)更新,網(wǎng)絡(luò)動(dòng)態(tài)詞典所應(yīng)用的大知識(shí)還能體現(xiàn)詞匯的關(guān)聯(lián)和兼容.這是由于大知識(shí)來源于異構(gòu)的大數(shù)據(jù),從多種媒體抓取的詞語(yǔ)信息,需要經(jīng)過加工和融合形成新的詞語(yǔ)信息對(duì)語(yǔ)料庫(kù)進(jìn)行更新.異構(gòu)的多源信息是否能產(chǎn)生新的大知識(shí),取決于對(duì)新知識(shí)的評(píng)估體系,評(píng)估內(nèi)容應(yīng)當(dāng)包含新知識(shí)與當(dāng)前已有詞匯信息的重合度比較和關(guān)聯(lián)性分析,以降低動(dòng)態(tài)詞典內(nèi)知識(shí)的重合和冗余.大知識(shí)應(yīng)用在動(dòng)態(tài)詞典的建立和更新中,除了有上述的兩個(gè)關(guān)鍵問題,考慮動(dòng)態(tài)詞典的內(nèi)容,還應(yīng)當(dāng)包含有方言的相關(guān)知識(shí).大知識(shí)的多源特征決定了它應(yīng)當(dāng)涵蓋盡可能多和廣的信息,應(yīng)用在動(dòng)態(tài)詞典中,表現(xiàn)為詞匯的覆蓋范圍需要考慮到時(shí)間和空間兩個(gè)因素.時(shí)間維度上表現(xiàn)為詞典的動(dòng)態(tài)更新,空間維度上表現(xiàn)為詞典的內(nèi)容考慮到地域的不同,則應(yīng)當(dāng)涵蓋盡可能多的方言知識(shí).
應(yīng)用場(chǎng)景2.網(wǎng)絡(luò)新聞的動(dòng)態(tài)跟蹤和總結(jié).大知識(shí)應(yīng)用到多源新聞分析領(lǐng)域,具有新的應(yīng)用前景,可以做新聞的動(dòng)態(tài)跟蹤和總結(jié).在互聯(lián)網(wǎng)2.0時(shí)代,可供獲取的新聞信息增長(zhǎng)過快,然而新聞的數(shù)量快速增長(zhǎng)的同時(shí),并沒有使得新聞的質(zhì)量同步提升,重復(fù)閱讀的信息耗費(fèi)了用戶大量的時(shí)間.新聞事件中的大知識(shí),應(yīng)當(dāng)伴隨時(shí)間軸清晰地梳理和表示出新聞事件的多個(gè)主題,包括對(duì)頻繁發(fā)生的新聞事件的當(dāng)前關(guān)注焦點(diǎn)和后期演變形式的跟蹤,以便用戶更加全面和具有針對(duì)性地獲取新聞中重要的本質(zhì).新聞的動(dòng)態(tài)跟蹤和總結(jié)基于大量的新聞網(wǎng)頁(yè)和文本,利用詞共現(xiàn)圖的構(gòu)建提取出用戶感興趣的新聞中的多個(gè)主題,對(duì)與新聞事件相關(guān)的多個(gè)主題建立各自的摘要集合,從而生成各主題的動(dòng)態(tài)跟蹤和總結(jié).在整個(gè)新聞主題的抓取和動(dòng)態(tài)跟蹤過程中,產(chǎn)生了大量的知識(shí).在這個(gè)應(yīng)用背景下,大知識(shí)表現(xiàn)為與用戶感興趣的新聞最具相關(guān)性的新聞主題和摘要總結(jié).動(dòng)態(tài)的新聞跟蹤在考慮新聞查詢和新聞相關(guān)性的基礎(chǔ)上,考慮新聞文檔中的多個(gè)主題,針對(duì)同一個(gè)新聞事件,建立了更加清晰的主題演化過程的展示和更加全面的新聞內(nèi)容的總結(jié).
應(yīng)用場(chǎng)景3.普適醫(yī)療信息的管理與服務(wù).在醫(yī)療應(yīng)用方面,大知識(shí)的應(yīng)用具有廣闊的前景.大知識(shí)與普適醫(yī)療的結(jié)合,可以建立和動(dòng)態(tài)更新醫(yī)療推薦系統(tǒng).通過分析用戶的個(gè)人信息,包括地理位置、個(gè)人病史和社交偏好等,實(shí)時(shí)更新用戶附近的醫(yī)院、藥房等醫(yī)療保障系統(tǒng)的信息.在某一時(shí)刻,用戶根據(jù)需要查詢當(dāng)前針對(duì)某一病癥可獲得的最佳診斷和治療方案.查詢信息表現(xiàn)為現(xiàn)有的病癥表現(xiàn)和疼痛程度等,個(gè)性化推薦信息可以包括距離最近和治療效果最佳的藥房和醫(yī)院等信息.這一過程需要大知識(shí)作為普適醫(yī)療系統(tǒng)的支撐.醫(yī)療數(shù)據(jù)中在地理、多種類醫(yī)療器械和軟件上的分布,由此導(dǎo)致的異構(gòu)性造成了信息集成的困難.同時(shí),利用收集到的醫(yī)療數(shù)據(jù)挖掘出有價(jià)值的醫(yī)療知識(shí)成為了能否提供準(zhǔn)確的推薦信息的關(guān)鍵.病人的病史分析和現(xiàn)有醫(yī)療知識(shí)圖譜的比對(duì)是否精準(zhǔn),也需要通過用戶的評(píng)價(jià)系統(tǒng)不斷加以改進(jìn).
應(yīng)用場(chǎng)景4.萬(wàn)維網(wǎng)就業(yè)培訓(xùn).與普適醫(yī)療類似,個(gè)性化的推薦服務(wù)中大知識(shí)還可以滲透到網(wǎng)上創(chuàng)業(yè)培訓(xùn)當(dāng)中.基于萬(wàn)維網(wǎng)的就業(yè)信息,可以構(gòu)建大型的知識(shí)圖譜,其子圖的劃分可以參考就業(yè)的種類選擇、求職人的文化水平以及地域劃分等.就業(yè)技能的數(shù)據(jù)包含多個(gè)職業(yè)分類,數(shù)據(jù)的來源也各不相同,含有地域性的差異,由此導(dǎo)致了數(shù)據(jù)的集成和融合問題.比如,在農(nóng)業(yè)發(fā)達(dá)地區(qū),對(duì)種植指導(dǎo)專家崗位的需求遠(yuǎn)遠(yuǎn)大于漁業(yè)和工商業(yè)發(fā)達(dá)地區(qū).那么網(wǎng)上就業(yè)培訓(xùn)系統(tǒng)需要依據(jù)用戶的地理信息進(jìn)行數(shù)據(jù)的篩選和過濾,結(jié)合用戶的個(gè)人就業(yè)傾向和現(xiàn)有的崗位的地理位置,進(jìn)行就業(yè)培訓(xùn)內(nèi)容的推薦.事實(shí)上,個(gè)人通過網(wǎng)上就業(yè)培訓(xùn)系統(tǒng)學(xué)習(xí)就業(yè)技能時(shí),系統(tǒng)根據(jù)用戶所提出的限定條件,反饋出的信息是從已有的大知識(shí)圖譜中尋找針對(duì)某一問題的映射,為用戶提供市場(chǎng)分析和技能培訓(xùn).
例如,某個(gè)本科即將畢業(yè)的計(jì)算機(jī)專業(yè)的學(xué)生希望策劃一份上海的軟件開發(fā)工作,該學(xué)生已具備的知識(shí)可能有高等數(shù)學(xué)和數(shù)據(jù)結(jié)構(gòu)等基礎(chǔ)知識(shí),但某一符合他就業(yè)期望的崗位還需要具備高級(jí)編程語(yǔ)言的技能.通過將大知識(shí)圖譜中的某一針對(duì)性映射同用戶個(gè)人的知識(shí)圖譜進(jìn)行比對(duì),可以發(fā)現(xiàn)相似的節(jié)點(diǎn)以及缺失的節(jié)點(diǎn),從而尋找到用戶就業(yè)需要學(xué)習(xí)的技能,提高知識(shí)學(xué)習(xí)導(dǎo)航的準(zhǔn)確性.網(wǎng)上就業(yè)培訓(xùn)的關(guān)鍵在于個(gè)人圖譜和大知識(shí)圖譜的比對(duì)以及大知識(shí)圖譜的構(gòu)建,這些關(guān)鍵問題隨著大知識(shí)應(yīng)用范圍的擴(kuò)大會(huì)成為進(jìn)一步的挑戰(zhàn).
應(yīng)用場(chǎng)景5.自動(dòng)編輯和出版.上面提到的挑戰(zhàn)3,如果能夠很好地解決,則自動(dòng)知識(shí)編輯的前景就可以實(shí)現(xiàn).例如:要求計(jì)算機(jī)根據(jù)庫(kù)中的一萬(wàn)本計(jì)算機(jī)科學(xué)電子書,自動(dòng)編輯下列新書:計(jì)算機(jī)科學(xué)百科全書、計(jì)算機(jī)軟件教程、大數(shù)據(jù)發(fā)展史要、計(jì)算機(jī)專業(yè)大學(xué)生用操作系統(tǒng)習(xí)題集等.從長(zhǎng)遠(yuǎn)來看,只要我們有一個(gè)數(shù)量巨大、組織合理、不斷更新的“知識(shí)碎片庫(kù)”,那么編輯和出版新書以滿足各種社會(huì)需求就不再是一個(gè)大量耗費(fèi)人力和財(cái)力的事業(yè).
應(yīng)用場(chǎng)景6.智慧城市的動(dòng)態(tài)認(rèn)知與決策.面向智慧城市及城市重大事件管理的實(shí)際需求,大數(shù)據(jù)知識(shí)工程可以針對(duì)城市大數(shù)據(jù)在自然屬性、地理屬性、時(shí)間屬性、社會(huì)屬性以及交互行為等方面的異構(gòu)、自治、多介、高維、低質(zhì)等特點(diǎn),發(fā)現(xiàn)伴隨時(shí)空維度推進(jìn)下蘊(yùn)含的內(nèi)在關(guān)聯(lián)語(yǔ)義一致性,實(shí)現(xiàn)復(fù)雜關(guān)系的動(dòng)態(tài)認(rèn)知和演化計(jì)算,探索多源感知信息的多層次關(guān)聯(lián)、語(yǔ)義提取與融合分析的機(jī)制和方法,實(shí)現(xiàn)多源異構(gòu)城市數(shù)據(jù)的緊耦合.智慧城市的動(dòng)態(tài)認(rèn)知可以進(jìn)行跨時(shí)空城市感知數(shù)據(jù)的關(guān)聯(lián)推理和深度挖掘,研究多維(時(shí)間、空間、屬性、語(yǔ)義)數(shù)據(jù)分析的城市重大事件管理方法,包括同類、異類城市事件的相關(guān)性分析、以及預(yù)測(cè)未來一段時(shí)間內(nèi)同地區(qū)發(fā)生類似事件的可能性,對(duì)城市群體行為或個(gè)別重大事件數(shù)據(jù)進(jìn)行理解與分析,建立城市行為動(dòng)力學(xué)理論體系.智慧城市的動(dòng)態(tài)決策可以通過城市重大事件的交互式臨場(chǎng)分析,實(shí)現(xiàn)協(xié)同感知下城市大數(shù)據(jù)的推理模型,研究城市行為事件間相互作用、滲透和擴(kuò)散的物理模型,以揭示城市行為涌現(xiàn)、傳播和演化機(jī)制,對(duì)面向公共安全的敏感事件進(jìn)行語(yǔ)義理解、檢測(cè)跟蹤和預(yù)測(cè)預(yù)警.智慧城市的動(dòng)態(tài)認(rèn)知與決策基于數(shù)據(jù)和知識(shí)的聯(lián)合驅(qū)動(dòng)以及多模態(tài)數(shù)據(jù)的關(guān)聯(lián)增強(qiáng)技術(shù),采用多源信息的視覺轉(zhuǎn)換機(jī)制和自適應(yīng)交互可視化方法,旨在推進(jìn)人機(jī)智能的深度耦合,實(shí)現(xiàn)“數(shù)據(jù)—信息—知識(shí)”階進(jìn)式服務(wù),從而實(shí)現(xiàn)大數(shù)據(jù)時(shí)代的大知識(shí)精細(xì)化城市模擬及管理.
從大數(shù)據(jù)中獲取有價(jià)值的大知識(shí)具有許多問題和挑戰(zhàn),這與大數(shù)據(jù)的本質(zhì)特征密不可分.由大數(shù)據(jù)的HACE定理,我們了解到大數(shù)據(jù)異構(gòu)和自治的本質(zhì)特征,其分布式和分散式控制的特點(diǎn),以及大數(shù)據(jù)之間復(fù)雜和演化的關(guān)聯(lián).大數(shù)據(jù)的本質(zhì)特征使得知識(shí)工程存在諸多挑戰(zhàn),利用傳統(tǒng)的數(shù)據(jù)分析和處理手段無法解決這些問題.現(xiàn)有的幾種大數(shù)據(jù)模型,包括5V,5R,4P和HACE定理,在解決大數(shù)據(jù)知識(shí)工程的問題和挑戰(zhàn)中具有各自的優(yōu)劣.本文從知識(shí)建模的角度介紹一種大數(shù)據(jù)知識(shí)工程模型BigKE,BigKE模型從大數(shù)據(jù)源中提取碎片化知識(shí),進(jìn)而對(duì)這些碎片化知識(shí)進(jìn)行非線性的知識(shí)融合,最終根據(jù)用戶的需求作為導(dǎo)向,提供個(gè)性化的大知識(shí)服務(wù).將BigKE模型和一些現(xiàn)有的大數(shù)據(jù)模型相比較,BigKE通過其三層架構(gòu)給出了現(xiàn)有大數(shù)據(jù)模型提出的一些挑戰(zhàn)問題的解決思路.為了從大數(shù)據(jù)中獲取更高質(zhì)量的大知識(shí),BigKE模型還有許多有價(jià)值的后續(xù)工作,主要針對(duì)BigKE中無法解決的挑戰(zhàn)給出后續(xù)工作的方向.大知識(shí)的進(jìn)一步挑戰(zhàn)與其廣泛的應(yīng)用前景密切相關(guān),在動(dòng)態(tài)網(wǎng)絡(luò)大詞典的構(gòu)建、新聞的動(dòng)態(tài)跟蹤和總結(jié)、普適醫(yī)療、網(wǎng)上就業(yè)培訓(xùn)、自動(dòng)編輯和出版、以及智慧城市的動(dòng)態(tài)認(rèn)知和決策等應(yīng)用場(chǎng)景中,大知識(shí)還大有可為.
致謝
HACE定理和BigKE模型是文獻(xiàn)[15,39]的合作者們共同研究的成果,本文的討論和展望也得益于同這些作者和其他大數(shù)據(jù)知識(shí)工程方向合作者的廣泛交流,這里對(duì)國(guó)內(nèi)合肥工業(yè)大學(xué)、西安交通大學(xué)、中國(guó)科學(xué)院數(shù)學(xué)所、中國(guó)科學(xué)技術(shù)大學(xué)、華東師范大學(xué)、廣西師范大學(xué)、百度和國(guó)外眾多單位的同行和合作研究者們一并表示感謝.
References
1 Beyer M A,Laney D.The importance of“Big Data”:a definition[Online],available:https://www.gartner.com/doc/ 2057415,F(xiàn)ebruary 17,2016
2 Marr B.Big data:the 5 Vs everyone must know[Online],http://www.linkedin.com/pulse/20140306073407-648 75646-big-data-the-5-vs-everyone-must-know,January 21,2016
3 Mervis J.Agencies rally to tackle big data.Science,2013,336(6077):22-22
4 Wang Fei-Yue.Software-deined systems and knowledge automation:a parallel paradigm shift from Newton to Merton. Acta Automatica Sinica,2015,42(1):1-8(王飛躍.軟件定義的系統(tǒng)與知識(shí)自動(dòng)化:從牛頓到默頓的平行升華.自動(dòng)化學(xué)報(bào),2015,42(1):1-8)
5 Fish A N.Knowledge Automation:How to Implement Decision Management in Business Processes.USA:Wiley,2012.
6 Fern′andez A,Del R′?o S,L′opez V,Bawakid A,Del Jesus M J,Ben′?tez J M,Herrera F.Big data with cloud computing:an insight on the computing environment,MapReduce,and programming frameworks.Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery,2014,4(5):380-409
7 Kent S M.Sloan digital sky survey.Science with Astronomical Near-Infrared Sky Surveys.France:Springer,1994.27-30
8 Labrinidis A,Jagadish H V.Challenges and opportunities with big data.Proceedings of the VLDB Endowment,2012,5(12):2032-2033
9 Knoll A,Meinkoehn J.Data fusion using large multi-agent networks:an analysis of network structure and performance. In:Proceedings of the 1994 IEEE International Conference on MFI′94,Multisensor Fusion and Integration for Intelligent Systems(MFI).Las Vegas,NV:IEEE,1994.113-120
10 Nature Editorial.Community cleverness required.Nature,2008,455(7209):1-1
11 Che D R,Safran M,Peng Z Y.From big data to big data mining:challenges,issues,and opportunities.In:Proceedings of the 18th International Conference on Database Systems for Advanced Applications.Wuhan,China:Springer,2013.1-15
12 Stidston M.Business leaders need R′s not V′s:the 5 R′s of big data[Online],available:https://www.mapr.com/blog/ business-leaders-need-r%E2%80%99s-not-v%E2%80%99s-5 -r%E2%80%99s-big-data#.U2qmcq1dWIU,December 21,2015
13 Wang Ji,Wang Qi.Chinese constitution research and the practice of 4P medical model.Chinese Journal of Integrated Traditional and Western Medicine,2012,32(5):693-695(王濟(jì),王琦.中醫(yī)體質(zhì)研究與4P醫(yī)學(xué)的實(shí)施.中國(guó)中西醫(yī)結(jié)合雜志,2012,32(5):693-695)
14 Auffray C,Charron D,Hood L.Predictive,preventive,personalized and participatory medicine:back to the future. Genome Medicine,2010,2(8):57-57
15 Wu X D,Zhu X Q,Wu G Q,Ding W.Data mining with big data.IEEE Transactions on Knowledge and Data Engineering,2014,26(1):97-107
16 Wikipedia.Big data[Online],available:https://en.wikipedia.org/wiki/Big data#Definition,December 12,2015
17 IDC 權(quán)威定義大數(shù)據(jù)概念:滿足 4V 標(biāo)準(zhǔn) [Online],available: http://www.d1net.com/bigdata/news/237143.html,December 12,2015
18 Tien J M.Big data:unleashing information.Journal of Systems Science and Systems Engineering,2013,22(2):127-151
19 Wang Yuan-Zhuo,Jin Xiao-Long,Cheng Xue-Qi.Network big data:present and future.Chinese Journal of Computers,2013,36(6):1125-1138(王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望.計(jì)算機(jī)學(xué)報(bào),2013,36(6):1125-1138)
20 Wang Wei-Wei,Li Xiao-Ping,F(xiàn)eng Xiang-Chu,Wang Si-Qi. A survey on sparse subspace clustering.Acta Automatica Sinica,2015,41(8):1373-1384(王衛(wèi)衛(wèi),李小平,馮象初,王斯琪.稀疏子空間聚類綜述.自動(dòng)化學(xué)報(bào),2015,41(8):1373-1384)
21 Armbrust M,F(xiàn)ox A,Griffith R,Joseph A D,Katz R H,Konwinski A,Lee G,Patterson D A,Rabkin A,Stoica I,Zaharia M.Above the Clouds:A Berkeley View of Cloud Computing,Technical Report UCB/EECS-2009-28,EECS Department,University of California,Berkeley,2009
22 Blaabjerg F,Teodorescu R,Liserre M,Timbus A V. Overview of control and grid synchronization for distributed power generation systems.IEEE Transactions on Industrial Electronics,2006,53(5):1398-1409
23 Leskovec J,Huttenlocher D,Kleinberg J.Signed networks in social media.In:Proceedings of the 2010 SIGCHI Conference on Human Factors in Computing Systems.New York:ACM,2010.1361-1370
24 Zikopoulos P,Eaton C.Understanding Big Data:Analytics for Enterprise Class Hadoop and Streaming Data.USA:McGraw-Hill Osborne Media,2011.
25 The four V′s of big data[Online],available:http://www.ibmbigdatahub.com/sites/default/files/infographic file/4-Vsof-big-data.jpg,January 21,2016
26 Lazer D,Kennedy R,King G,Vespignan A.The parable of google flu:traps in big data analysis.Science,2014,343(6176):1203-1205
27 IBM.What is big data?[Online],available:http://www-01.ibm.com/software/data/bigdata/what-is-big-data.html,December 2,2015
28 Barwick H.The“four Vs”of big data.Implementing information infrastructure symposium [Online],available: http://www.computerworld.com.au/article/396198/December 2,2015
29數(shù)據(jù)并非越大越好:谷歌流感趨勢(shì)錯(cuò)在哪兒了?[Online],available:http://www.guokr.com/article/438117/,December 2,2015
30 Ghemawat S,Gobioff H,Leung S T.The Google file system. In:Proceedings of the 19th ACM Symposium on Operating Systems Principles.New York:ACM,2003.29-43
31 Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters.In:Proceedings of the 6th Symposium on Operating Systems Design and Implementation.Berkeley,CA,USA:USENIX Association,2004.137-149
32 Big data solution offering[Online],available:http://mike2. openmethodology.org/wike/BigDataSolutionOffering,November 28,2015
33 White T.Hadoop:The Definitive Guide(2nd Edition). USA:Yahoo Press,2010.1-4
34 Gupta P,Kumar P,Gopal G.Sentiment analysis on Hadoop with Hadoop streaming.International Journal of Computer Applications,2015,121(11):4-8
35 Liao S H.Expert system methodologies and applications—a decade review from 1995 to 2004.Expert Systems with Applications,2005,28(1):93-103
36 Wu Xin-Dong,Ye Ming-Quan,Hu Dong-Hui,Wu Gong-Qing,Hu Xue-Gang,Wang Hao.Pervasive medical information management and services:key techniques and challenges.Chinese Journal of Computers,2012,35(5):827-845(吳信東,葉明全,胡東輝,吳共慶,胡學(xué)鋼,王浩.普適醫(yī)療信息管理與服務(wù)的關(guān)鍵技術(shù)與挑戰(zhàn).計(jì)算機(jī)學(xué)報(bào),2012,35(5):827-845)
37 Auffray C,Chen Z,Hood L.Systems medicine:the future of medical genomics and healthcare.Genome Medicine,2009,1(1):2-2
38 Luo Xu,Chen Bo,Luo Li-Ya,Zhang Hong-Yan,Wu Hao,Li Jing-Bo.Discussion on reconstructing hospital healthcare management under 4P medical conception.Chinese Hospitals,2014,18(7):61-63(羅旭,陳博,羅莉婭,張宏雁,吳昊,李景波.4P醫(yī)學(xué)理念下醫(yī)院健康管理體系重構(gòu)思考.中國(guó)醫(yī)院,2014,18(7):61-63)
39 Wu X D,Chen H H,Wu G Q,Liu J,Zheng Q H,He X F,Zhou A Y,Zhao Z Q,Wei B F,Li Y,Zhang Q P,Zhang S C,Lu R Q,Zheng N N.Knowledge engineering with big data.IEEE Intelligent Systems,2015,30(5):46-55
40 Klasnja P,Pratt W.Healthcare in the pocket:mapping the space of mobile-phone health interventions.Journal of Biomedical Informatics,2012,45(1):184-198
41 Vassis D,Belsis P,Skourlas C,Pantziou G.Providing advanced remote medical treatment services through pervasive environments.Personal and Ubiquitous Computing,2010,14(6):563-573
42合肥工業(yè)大學(xué)吳信東:大數(shù)據(jù)Processing Framework多層架構(gòu)[Online],available:http://www.csdn.net/article/2012-07-27/2825305,December 7,2015
43 Petersen W P,Arbenz P.Introduction to Parallel Computing.Oxford:Oxford University Press,2004.
44 Corbett J C,Dean J,Epstein M,F(xiàn)ikes A,F(xiàn)rost C,F(xiàn)urman J J,Ghemawat S,Gubarev A,Heiser C,Hochschild P,Hsieh W,Kanthak S,Kogan E,Li H Y,Lloyd A,Melnik S,Mwaura D,Nagle D,Quinlan S,Rao R,Rolig L,Saito Y,Szymaniak M,Taylor C,Wang R,Woodford D.Spanner:Google′s globally-distributed database.ACM Transactions on Computer Systems,2012,31(3):Article No.8
45 Chang F,Dean J,Ghemawat S,Hsieh W C,Wallach D A,Burrows M,Chandra T,F(xiàn)ikes A,Gruber R E.BigTable:a distributed storage system for structured data.ACM Transactions on Computer Systems,2008,26(2):Article No.4
46 Peel M,Rowley J.Information sharing practice in multiagency working.ASLIB Proceedings,2010,62(1):11-28
47 Wang M D,Li B,Zhao Y X,Pu G G.Formalizing Google file system.In:Proceedings of the 20th IEEE Pacific Rim International Symposium on Dependable Computing(PRDC). Singapore:IEEE,2014.190-191
48 Cormode G,Srivastava D.Anonymized data:generation,models,usage.In:Proceedings of the 2009 ACM SIGMOD International Conference on Management of Data.Providence,RI:ACM,2009.1015-1018
49 Sweeney L.k-anonymity: a model for protecting privacy.International Journal of Uncertainty,F(xiàn)uzziness and Knowledge-Based Systems,2002,10(5):557-570
50 Kopanas I,Avouris N M,Daskalaki S.The role of domain knowledge in a large scale data mining project.Methods and Applications of Artificial Intelligence.Thessaloniki,Greece:Springer,2002.288-299
51 Salton G M,Wong A,Yang C S.A vector space model for automatic indexing.Communications of the ACM,1975,18(11):613-620
52 Deerwester S C,Dumais S T,F(xiàn)urnas G W,Landauer T K,Harshman R.Indexing by latent semantic analysis.Journal of the American Society for Information Science,1990,41(6):391-407
53 Freedman E G,Shah P.Toward a model of knowledgebased graph comprehension.Diagrammatic Representation and Inference.Callaway Gardens,GA,USA:Springer,2002. 18-30
54 Aral S,Walker D.Identifying influential and susceptible members of social networks.Science,2012,337(6092):337-341
55 Centola D.The spread of behavior in an online social network experiment.Science,2010,329(5996):1194-1197
56 Strassel S,Adams D,Goldberg H,Herr J,Keesing R,Oblinger D,Simpson H,Schrag R,Wright J.The DARPA machine reading program—encouraging linguistic and reasoning research with a series of reading tasks.In:Proceedings of the 7th International Conference on Language Resources and Evaluation.Valletta,Malta:European Language Resources Association,2010.986-993
57 Studer R,Benjamins V R,F(xiàn)ensel D.Knowledge engineering:principles and methods.Data and Knowledge Engineering,1998,25(1-2):161-197
58 Pan Yun-He,Wang Jin-Long,Xu Cong-Fu.State-of-the-art on frequent pattern mining in data streams.Acta Automatica Sinica,2006,32(4):594-602(潘云鶴,王金龍,徐從富.數(shù)據(jù)流頻繁模式挖掘研究進(jìn)展.自動(dòng)化學(xué)報(bào),2006,32(4):594-602)
59 Wang Shan,Wang Hui-Ju,Qin Xiong-Pai,Zhou Xuan.Architecting big data:challenges,studies and forecasts.Chinese Journal of Computers,2011,34(10):1741-1752(王珊,王會(huì)舉,覃雄派,周火亙.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望.計(jì)算機(jī)學(xué)報(bào),2011,34(10):1741-1752)
60 Guha S,Mishra N,Motwani R,O′Callaghan L.Clustering data streams.In:Proceedings of the 41st Annual Symposium on Foundations of Computer Science.Redono Beach,USA:IEEE,2000.359-366
61 Zhu Qun,Zhang Yu-Hong,Hu Xue-Gang,Li Pei-Pei.A double-window-based classification algorithm for concept drifting data streams.Acta Automatica Sinica,2011,37(9):1077-1084(朱群,張玉紅,胡學(xué)鋼,李培培.一種基于雙層窗口的概念漂移數(shù)據(jù)流分類算法.自動(dòng)化學(xué)報(bào),2011,37(9):1077-1084)
62 Zhang Xin,Li Xiao-Guang,Wang Da-Ling,Yu Ge.A highspeed heuristic algorithm for mining frequent patterns in data stream.Journal of Software,2005,16(12):2099-2105(張昕,李曉光,王大玲,于戈.數(shù)據(jù)流中一種快速啟發(fā)式頻繁模式挖掘方法.軟件學(xué)報(bào),2005,16(12):2099-2105)
63 Wu X D,Yu K,Ding W,Wang H,Zhu X Q.Online feature selection with streaming features.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(5):1178-1192
64 Zhang Q,Zhang P,Long G D,Ding W,Zhang C Q,Wu X D. Towards mining trapezoidal data streams.In:Proceedings of the 2015 IEEE International Conference on Data Mining(ICDM′15).Atlantic City,NJ,USA:IEEE,2015.1111 -1116
65 Wu X D,Yu K,Wang H,Ding W.Online streaming feature selection.In:Proceedings of the 27th International Conference on Machine Learning.Haifa,Israel,2010.1159-1166
66 Kivinen J,Smola A J,Williamson R C.Online learning with kernels.IEEE Transactions on Signal Processing,2004,52(8):2165-2176
67 Kimeldorf G,Wahba G.Some results on Tchebycheffian spline functions.Journal of Mathematical Analysis and Applications,1971,33(1):82-95
68 Zhou Z H,Chawla N V,Jin Y C,Williams G J.Big data opportunities and challenges:discussions from data analytics perspectives[Discussion forum].IEEE Computational Intelligence Magazine,2014,9(4):62-74
69 Vijayakumar S,D′Souza A,Schaal S.Incremental online learning in high dimensions.Neural Computation,2005,17(12):2602-2634
70 Hunter A,Summerton R.Fusion rules for context-dependent aggregation of structured news reports.Journal of Applied Non-Classical Logics,2004,14(3):329-366
71ˇZliobait˙e I.Learning under concept drift:an overview.Computer Science— Artificial Intelligence[Online],available:http://arxiv.org/abs/1010.4784,May 31,2015
72 Li Jian-Zhong,Liu Xian-Min.An important aspect of big data:data usability.Journal of Computer Research and Development,2013,50(6):1147-1162(李建中,劉顯敏.大數(shù)據(jù)的一個(gè)重要方面:數(shù)據(jù)可用性.計(jì)算機(jī)研究與發(fā)展,2013,50(6):1147-1162)
73 Samarati P,Sweeney L.Protecting privacy when disclosing information:k-anonymity and its enforcement through generalization and suppression.In:Proceedings of the 1998 IEEE Symposium on Research in Security and Privacy.Palo Alto,CA:IEEE,1998.1-19
74 Wang Chao,Yang Jing,Zhang Jian-Pei.Research on trajectory privacy preserving method based on trajectory characteristics and dynamic proximity.Acta Automatica Sinica,2015,41(2):330-341(王超,楊靜,張健沛.基于軌跡特征及動(dòng)態(tài)鄰近性的軌跡匿名方法研究.自動(dòng)化學(xué)報(bào),2015,41(2):330-341)
75 Wu X D,Zhu X Q.Mining with noise knowledge:erroraware data mining.IEEE Transactions on Systems,Man,and Cybernetics— Part A:Systems and Humans,2008,38(4):917-932
76 He H B,Garcia E A.Learning from imbalanced data.IEEE Transactions on Knowledge and Data Engineering,2009,21(9):1263-1284
77王飛躍.邁向知識(shí)自動(dòng)化[Online],available:http://www.cas. cn/xw/zjsd/201401/t201401034009925.shtml,June 1,2016
78 Deng Jian-Ling,Wang Fei-Yue,Chen Yao-Bin,Zhao Xiang-Yang.From industries 4.0 to energy 5.0:concept and framework of intelligent energy systems.Acta Automatica Sinica,2015,41(12):2003-2016(鄧建玲,王飛躍,陳耀斌,趙向陽(yáng).從工業(yè)4.0到能源5.0:智能能源系統(tǒng)的概念、內(nèi)涵及體系框架.自動(dòng)化學(xué)報(bào),2015,41(12):2003
79 -T2w0it1t6e)r Blog.Dispatch from the Denver debate[Online],available:http://blog.twitter.com/2012/100dispatch-reomdenver-debate.html,October 1,2012
80 Chun D X,Jun C J,Zhong C Y,Chao T M,Cong P.Data engineering in information system construction.In:Proceedings of the 2012 IEEE Symposium on Robotics and Applications(ISRA).Kuala Lumpur:IEEE,2012.135-137
81 Aggarwal C C.Data Streams:Models and Algorithms(Advances in Database Systems).US:Springer,2007.
82 Silva J A,F(xiàn)aria E R,Barros R C,Hruschka E R,de Carvalho A C P L F,Gama J.Data stream clustering:a survey. ACM Computing Surveys,2013,46(1):Article No.13
83 Patil P D,Kulkarni P.Adaptive supervised learning model for training set selection under concept drift data streams. In:Proceedings of the 2013 International Conference on Cloud and Ubiquitous Computing and Emerging Technologies.Pune:IEEE,2013.36-41
84 Hakkani-T¨ur D,Heck L,Tur G.Using a knowledge graph and query click logs for unsupervised learning of relation detection.In:Proceedings of the 2013 IEEE International Conference on Acoustics,Speech,and Signal Processing. Vancouver,BC:IEEE,2013.8327-8331
85 Dantas J R V,F(xiàn)arias P P M.Conceptual navigation in knowledge management environments using NavCon.Information Processing and Management,2010,46(4):413-425
86 Xu C J,Li A P,Liu X M.Knowledge fusion and evaluation system with fusion-knowledge measure.In:Proceedings of the 2nd International Symposium on Computational Intelligence and Design.Changsha,China:IEEE,2009.127-131
87 Shahabi C,Zarkesh A M,Adibi J,Shah V.Knowledge discovery from users web-page navigation.In:Proceedings of the 7th International Workshop on Research Issues in Data Engineering.Birmingham:IEEE,1997.20-29
88 Baldauf M,Dustdar S,Rosenberg F.A survey on contextaware systems.International Journal of Ad Hoc and Ubiquitous Computing,2007,2(4):263-277
89 Herlocker J L,Konstan J A,Terveen L G,Riedl J T.Evaluating collaborative filtering recommender systems.ACM Transactions on Information Systems,2004,22(1):5-53
90 Yue Yuan-Long,Zuo Xin,Luo Xiong-Lin.Improving measurement reliability with biased estimation for multi-sensor data fusion.Acta Automatica Sinica,2014,40(9):1843-1852(岳元龍,左信,羅雄麟.提高測(cè)量可靠性的多傳感器數(shù)據(jù)融合有偏估計(jì)方法.自動(dòng)化學(xué)報(bào),2014,40(9):1843-1852)
91 Xu C,Zhang Y Q,Li R Z.On the feasibility of distributed kernel regression for big data.Statistics[Online],available:http://arxiv.org/abs/1505.00869,May 31,2016
吳信東長(zhǎng)江學(xué)者,“千人”計(jì)劃特聘教授,IEEE Fellow,AAAS Fellow.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院教授.美國(guó)佛蒙特大學(xué)計(jì)算機(jī)與科學(xué)系教授.1993年獲得英國(guó)愛丁堡大學(xué)人工智能博士學(xué)位.主要研究方向?yàn)閿?shù)據(jù)挖掘,知識(shí)庫(kù)系統(tǒng),萬(wàn)維網(wǎng)信息探索.本文通信作者.
E-mail:xwu@hfut.edu.cn
(WU Xin-DongProfessor at the College of Computer Science and Information Engineering,Hefei University of Technology;professor in the Department of Computer Science,the University of Vermont.He received his Ph.D.degree from the University of Edinburgh in 1993.His research interest covers data mining,knowledge based systems,and Web information exploration.Corresponding author of this paper.)
何進(jìn)合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院碩士研究生.2015年獲得安徽財(cái)經(jīng)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系學(xué)士學(xué)位.主要研究方向?yàn)閿?shù)據(jù)挖掘和大數(shù)據(jù)分析.
E-mail:flyingfish93319@126.com
(HE JinMaster student at the College of Computer Science and Information Engineering,Hefei University of Technology.She received her bachelor degree from Anhui Finance and Economics University in 2015.Her research interest covers data mining and big data analytics.)
陸汝鈐中國(guó)科學(xué)院院士.1959年獲得德國(guó)耶拿大學(xué)數(shù)學(xué)系學(xué)士學(xué)位.主要研究方向?yàn)橹R(shí)工程,基于知識(shí)的軟件工程,人工智能.E-mail:rqlu@math.ac.cn
(LU Ru-QianMember of the Chinese Academy of Sciences.He received his bachelor degree from the University of Jena(Germany)in 1959.His research interest covers knowledge engineering,knowledge based software engineering,and artificial intelligence.)
鄭南寧中國(guó)工程院院士,IEEE Fellow,西安交通大學(xué)教授.1985年獲得日本慶應(yīng)大學(xué)工學(xué)博士學(xué)位.主要研究方向?yàn)槟J阶R(shí)別,機(jī)器視覺與圖像處理.
E-mail:nnzheng@mail.xjtu.edu.cn
(ZHENG Nan-NingMember of the Chinese Academy of Engineering,IEEE Fellow,and professor at Xi′an Jiaotong University.He received his Ph.D.degree from Keio University(Japan)in 1985.His research interest covers pattern recognition,machine vision,and image processing.)
From Big Data to Big Knowledge:HACE+BigKE
WU Xin-Dong1,2HE Jin1LU Ru-Qian3ZHENG Nan-Ning4
Big data deals with heterogeneous and autonomous multi-sources,and aims at mining complex and evolving relationships among data.With the fast development of data collection,data storage and networking technologies,big data analytics has become a hot topic for research and development in various fields.This paper starts with the essential characteristics of big data,reviews existing popular models for big data,including 5V,5R,4P and the HACE theorem. Also,from the viewpoint of knowledge modeling,this paper introduces BigKE,a big data knowledge engineering model for big knowldedge,and discusses the challenges and opportunities of big knowledge research and development.
Big data,knowledge mining,heterogeneity,fragmented knowledge,online learning
10.16383/j.aas.2016.c160239
Wu Xin-Dong,He Jin,Lu Ru-Qian,Zheng Nan-Ning.From big data to big knowledge:HACE+BigKE. Acta Automatica Sinica,2016,42(7):965-982
2016-03-03錄用日期2016-05-31
Manuscript received March 3,2016;accepted May 31,2016
國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973計(jì)劃)(2013CB329604),國(guó)家自然科學(xué)基金(61229301),教育部長(zhǎng)江學(xué)者和創(chuàng)新團(tuán)隊(duì)發(fā)展計(jì)劃“多源海量動(dòng)態(tài)信息處理”(IRT13059)資助
Supported by National Basic Research Program of China(973 Program)(2013CB329604),National Natural Science Foundation of China(61229301),and the Program for Changjiang Scholars and Innovative Research Team in University(PCSIRT)of the Ministry of Education of China(IRT13059)
1.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院合肥230009中國(guó)2.佛蒙特大學(xué)計(jì)算機(jī)科學(xué)系伯靈頓VT05405美國(guó)3.中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院北京 100190中國(guó)4.西安交通大學(xué)人工智能與機(jī)器人研究所西安710049中國(guó)
1.School of Computer Science and Information Engineering,Hefei University of Technology,Hefei 230009,China2.Department of Computer Science,University of Vermont,Burlington VT05405,USA3.Institute of Mathematics,Academy of Mathematics and Systems Science,Chinese Academy of Sciences,Beijing 100190,China4.Institute of the Artificial Intelligence and Robotics,Xi′an Jiaotong University,Xi′an 710049,China