從大數(shù)據(jù)到大知識(shí)：HACE+BigKE

2016-08-11 06:18:24吳信東何進(jìn)陸汝鈐鄭南寧

自動(dòng)化學(xué)報(bào) 2016年7期

關(guān)鍵詞：用戶模型

吳信東　　何進(jìn)　　陸汝鈐　　鄭南寧

吳信東1，2何進(jìn)1陸汝鈐3鄭南寧4

大數(shù)據(jù)面向異構(gòu)自治的多源海量數(shù)據(jù)，旨在挖掘數(shù)據(jù)間復(fù)雜且演化的關(guān)聯(lián).隨著數(shù)據(jù)采集存儲(chǔ)和互聯(lián)網(wǎng)技術(shù)的發(fā)展，大數(shù)據(jù)分析和應(yīng)用已成為各行各業(yè)的研發(fā)熱點(diǎn).本文從大數(shù)據(jù)的本質(zhì)特征開始，評(píng)述現(xiàn)有的幾種大數(shù)據(jù)模型，包括5V，5R，4P 和HACE定理，同時(shí)從知識(shí)建模的角度，介紹一種大數(shù)據(jù)知識(shí)工程模型BigKE來生成大知識(shí)，并對(duì)大知識(shí)的前景進(jìn)行展望.

大數(shù)據(jù)，知識(shí)挖掘，異構(gòu)，碎片化知識(shí)，在線學(xué)習(xí)

引用格式吳信東，何進(jìn)，陸汝鈐，鄭南寧.從大數(shù)據(jù)到大知識(shí):HACE+BigKE.自動(dòng)化學(xué)報(bào)，2016，42（7）:965-982

隨著互聯(lián)網(wǎng)的不斷發(fā)展，我們可以收集和獲取的數(shù)據(jù)以不可預(yù)計(jì)的速度增長(zhǎng).盡管數(shù)據(jù)的收集、存儲(chǔ)和處理技術(shù)還在不斷進(jìn)步并日趨成熟，但基于如此復(fù)雜的數(shù)據(jù)背景，我們?nèi)匀幻媾R著許多分析和處理數(shù)據(jù)的問題與挑戰(zhàn).因此，大數(shù)據(jù)的分析及其應(yīng)用成為了一大科研熱點(diǎn).對(duì)大數(shù)據(jù)的本質(zhì)特征的概括始于2001年美國(guó)高德納公司（Gartner Group）的分析師Laney等提出的3V特征［1］.之后IT業(yè)界的科技大廠IBM對(duì)其進(jìn)行了應(yīng)用并加以擴(kuò)充，獲得了4V或5V：包括了大數(shù)據(jù)巨大的數(shù)據(jù)量（Volume）、快速的分析和處理速度（Velocity）、多樣化的數(shù)據(jù)種類和數(shù)據(jù)來源（Variety）、對(duì)商業(yè)領(lǐng)域巨大的價(jià)值（Value）和其隱藏知識(shí)的真實(shí)性（Veracity）［2］.大數(shù)據(jù)廣闊的應(yīng)用背景，使其不僅在科研領(lǐng)域，乃至于在商業(yè)、政治、經(jīng)濟(jì)、醫(yī)療和文化等多領(lǐng)域內(nèi)，都在引發(fā)和領(lǐng)導(dǎo)一場(chǎng)變革.

在網(wǎng)絡(luò)2.0時(shí)代，用戶已經(jīng)從被動(dòng)的信息接受者轉(zhuǎn)變?yōu)橹鲃?dòng)的創(chuàng)造者.一些數(shù)字可以說明這個(gè)事實(shí)：美國(guó)每年的線上零售交易記錄數(shù)量、推特網(wǎng)的發(fā)帖數(shù)量、各大物理實(shí)驗(yàn)室和天文望遠(yuǎn)鏡觀測(cè)記錄值，就足以產(chǎn)生大約1.2ZB的電子數(shù)據(jù)，由此，美國(guó)國(guó)家科學(xué)基金會(huì)（National Science Foundation，NSF）在大數(shù)據(jù)領(lǐng)域的投入也日益增多［3］.我們?cè)購(gòu)臄?shù)據(jù)產(chǎn)生速度來看：全球范圍內(nèi)，每一秒產(chǎn)生約2.9百萬(wàn)封電子郵件，同時(shí)，Youtube網(wǎng)上可以上傳2.88萬(wàn)小時(shí)的視頻數(shù)據(jù).這些數(shù)據(jù)信息，足夠一個(gè)用戶晝夜不息地看上幾年.

這些來自商業(yè)、天文、科學(xué)和工程等多領(lǐng)域的可用數(shù)據(jù)規(guī)模不斷擴(kuò)大，數(shù)據(jù)從數(shù)兆兆字節(jié)（Terabyte，TB）到數(shù)千兆字節(jié)（Peta-byte，PB）的爆炸式增長(zhǎng)，對(duì)數(shù)據(jù)和信息的獲取、存儲(chǔ)和處理提出了新的要求.在網(wǎng)絡(luò)2.0和工業(yè)5.0時(shí)代的共同作用下，我們應(yīng)當(dāng)注意到，這個(gè)龐大的數(shù)據(jù)量有很大一部分是數(shù)據(jù)和信息在向知識(shí)的轉(zhuǎn)化過程中生成的，這實(shí)際上就是我們主張的大數(shù)據(jù)知識(shí)工程的基本思路.文獻(xiàn)［4］中所說的“知識(shí)自動(dòng)化”這一詞源于Fish于2012年出版的Knowledge Automation一書［5］，這和我們的大數(shù)據(jù)知識(shí)工程的基本思路是一致的.人類直接生產(chǎn)的數(shù)據(jù)形成的網(wǎng)絡(luò)流量不足大部分網(wǎng)站流量的37%，大部分的網(wǎng)絡(luò)數(shù)據(jù)流量是數(shù)據(jù)和信息在向知識(shí)轉(zhuǎn)化過程中生成的二次數(shù)據(jù).這種二次數(shù)據(jù)形成的過程可以理解為基于知識(shí)的服務(wù)（Knowledge-based services，KBS），這與基于位置的服務(wù)（Location-based services，LBS）、基于信息的服務(wù)（Information-based services）、基于情報(bào)的服務(wù)（Intelligence-based services），以及基于任務(wù)的服務(wù)（Task-based services）相類似［4］.大數(shù)據(jù)的自動(dòng)化產(chǎn)生，大數(shù)據(jù)技術(shù)的廣泛應(yīng)用對(duì)有用知識(shí)的自動(dòng)產(chǎn)生和獲取提出了進(jìn)一步的要求：更高水平的大數(shù)據(jù)知識(shí)工程，更好的“惡意（Malicious）”過濾機(jī)制以及更合理的知識(shí)評(píng)價(jià)體系.

近幾年，人們對(duì)“大數(shù)據(jù)”一詞似乎不再是那么陌生.在數(shù)據(jù)挖掘和人工智能等科研領(lǐng)域內(nèi)，大數(shù)據(jù)的擴(kuò)散速度隨著相關(guān)研究的增多而加快.研究者們逐漸認(rèn)識(shí)到，具有大數(shù)據(jù)特征的數(shù)據(jù)資源，除去其固有的龐大的信息量，似乎還可以挖掘出無法用我們現(xiàn)有的計(jì)算標(biāo)準(zhǔn)得出的隱含的“大知識(shí)”，這些有用的知識(shí)我們無法快速、高效地處理和分析，因此產(chǎn)生了一系列新的問題和挑戰(zhàn).值得注意的是，大數(shù)據(jù)的價(jià)值絕不僅僅是巨大的數(shù)據(jù)量而已，雖然僅憑數(shù)據(jù)集的擴(kuò)充，確實(shí)能提升現(xiàn)有的統(tǒng)計(jì)和分析工作的精確度.但是，對(duì)于大知識(shí)的發(fā)現(xiàn)和表示，僅僅通過提升對(duì)龐大數(shù)據(jù)的收集和存儲(chǔ)能力是不足夠的，這些數(shù)據(jù)還包含對(duì)數(shù)據(jù)表示等方面的可伸縮性、數(shù)據(jù)分析算法本身的改進(jìn)需求［6］.

海量數(shù)據(jù)的收集和大數(shù)據(jù)知識(shí)發(fā)現(xiàn)技術(shù)可以應(yīng)用到多個(gè)領(lǐng)域.在科學(xué)研究方面，目前國(guó)內(nèi)外的天文學(xué)研究中海量數(shù)據(jù)的收集和應(yīng)用已經(jīng)非常普遍.舉例來說，美國(guó)斯隆數(shù)字巡天項(xiàng)目（Sloan digital sky survey，SDSS）中所產(chǎn)生的海量的天文數(shù)據(jù)遠(yuǎn)遠(yuǎn)超出了預(yù)期，至今其所收集的數(shù)據(jù)已多達(dá)140TB之多［7］.專業(yè)的科研領(lǐng)域內(nèi)，除了天文學(xué)的大量觀測(cè)數(shù)據(jù)的應(yīng)用，移動(dòng)終端等傳感器產(chǎn)生的大數(shù)據(jù)也頗為重要：大數(shù)據(jù)地理信息系統(tǒng)（Geographic information system，GIS）的構(gòu)建、地震的勘探、雷達(dá)等非結(jié)構(gòu)化信息的應(yīng)用價(jià)值都不容小覷.從政府推進(jìn)力度來看，美國(guó)將大數(shù)據(jù)作為事關(guān)國(guó)家戰(zhàn)略和國(guó)家核心競(jìng)爭(zhēng)力的問題，并于2012年3月推出了“大數(shù)據(jù)的研究與發(fā)展倡議”，這也讓人看到了大數(shù)據(jù)應(yīng)用廣闊的前景.除去科研工作，文化領(lǐng)域也受到了大數(shù)據(jù)的影響.微軟紐約研究院的經(jīng)濟(jì)學(xué)家David Rothschild利用大數(shù)據(jù)技術(shù)，成功預(yù)測(cè)了2013年24個(gè)奧斯卡獎(jiǎng)項(xiàng)中的19個(gè)，這一實(shí)例成為人們津津樂道的話題.2014年，David Rothschild再次成功預(yù)測(cè)第86屆奧斯卡24個(gè)獎(jiǎng)項(xiàng)中的21個(gè)，大數(shù)據(jù)知識(shí)的價(jià)值由此可見一斑.除了各行業(yè)領(lǐng)域內(nèi)的應(yīng)用，大數(shù)據(jù)精準(zhǔn)的預(yù)測(cè)和分析手段、對(duì)用戶的行為模式和偏好行為的挖掘、對(duì)商業(yè)和金融決策的意義，以及在信息安全方面都能給現(xiàn)有的數(shù)據(jù)和信息處理模式帶來變革.

然而，利用現(xiàn)有的數(shù)據(jù)處理手段，我們無法發(fā)揮出大數(shù)據(jù)真正的價(jià)值，大數(shù)據(jù)的本質(zhì)特征為我們?cè)诜治龊蛻?yīng)用上帶來了一系列的問題.大數(shù)據(jù)帶來的挑戰(zhàn)問題，已經(jīng)不僅僅是單純意義上的數(shù)據(jù)規(guī)模的巨大，還包含了對(duì)大數(shù)據(jù)分析技術(shù)的改進(jìn)問題，從而滿足越來越多樣化的對(duì)個(gè)性化服務(wù)和知識(shí)導(dǎo)航的需求.接下來我們需要考慮的是如何從海量的數(shù)據(jù)中提取和分析出有價(jià)值的知識(shí)，這也是對(duì)大數(shù)據(jù)進(jìn)行研究的重要意義之一.

從數(shù)據(jù)量來說，大數(shù)據(jù)龐大的數(shù)據(jù)量已經(jīng)無法通過已有模型和計(jì)算平臺(tái)簡(jiǎn)單處理，面對(duì)大數(shù)據(jù)的數(shù)據(jù)規(guī)模，我們無法單純依靠并行計(jì)算和硬件方面的提升去突破計(jì)算平臺(tái)上的瓶頸.例如，網(wǎng)絡(luò)、電視、報(bào)紙等眾多數(shù)據(jù)來源產(chǎn)生了不同結(jié)構(gòu)的異構(gòu)數(shù)據(jù)，我們的首要挑戰(zhàn)就是從這些看似雜亂無章的數(shù)據(jù)中提取出真正對(duì)我們后面的工作和預(yù)測(cè)有價(jià)值的數(shù)據(jù)信息，選擇合適的過濾機(jī)制［8］.面對(duì)鋪天蓋地的數(shù)據(jù)資源，我們需要的不再是通篇的文字、聲音或者是圖像信息，數(shù)據(jù)的規(guī)模和數(shù)量在不斷增長(zhǎng)，但無用數(shù)據(jù)的存在導(dǎo)致數(shù)據(jù)的價(jià)值并不會(huì)成比例增長(zhǎng).針對(duì)這個(gè)問題，現(xiàn)有的篩選機(jī)制對(duì)大數(shù)據(jù)的提取和分析顯得尤為困難和低效.由此，在大數(shù)據(jù)環(huán)境下的數(shù)據(jù)的預(yù)處理和清洗也具有更高的要求.數(shù)據(jù)的清洗過程既要過濾無用的數(shù)據(jù)，也要保留對(duì)大知識(shí)提取有用的信息.對(duì)大數(shù)據(jù)的知識(shí)處理來說，通過一個(gè)穩(wěn)定高效數(shù)據(jù)計(jì)算和清洗平臺(tái)，經(jīng)過數(shù)據(jù)預(yù)處理過程，得到高質(zhì)量的數(shù)據(jù)集合進(jìn)行下一步分析是關(guān)鍵的一步.

從大數(shù)據(jù)的產(chǎn)生和獲取來源來說，盡管網(wǎng)絡(luò)規(guī)模的擴(kuò)張為我們獲取信息帶來了便利，但復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)和獲取信息途徑的多樣化，使得數(shù)據(jù)的異構(gòu)問題日益凸顯.異構(gòu)數(shù)據(jù)在數(shù)據(jù)的存儲(chǔ)和表示上產(chǎn)生了困難，單一的數(shù)據(jù)表示和存儲(chǔ)已經(jīng)無法滿足需求.數(shù)據(jù)的分析工作的價(jià)值遠(yuǎn)遠(yuǎn)高于簡(jiǎn)單的定位和識(shí)別，數(shù)據(jù)間復(fù)雜的語(yǔ)義聯(lián)系以及不同結(jié)構(gòu)的數(shù)據(jù)，需要我們尋找一種標(biāo)準(zhǔn)化的數(shù)據(jù)的表示方式.標(biāo)準(zhǔn)化的數(shù)據(jù)表示形式的定義本身就存在相當(dāng)大的挑戰(zhàn)，這也會(huì)涉及到在對(duì)異構(gòu)數(shù)據(jù)的集成過程中需要對(duì)大規(guī)模數(shù)據(jù)集進(jìn)行數(shù)據(jù)的轉(zhuǎn)換［9］.以社交網(wǎng)絡(luò)中的大數(shù)據(jù)分析為例，通過對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的刻畫形式的改進(jìn)，我們集成多個(gè)網(wǎng)站上的異構(gòu)自治信息源，可能包括用戶發(fā)送的微博、評(píng)論或者是上傳的圖片、音頻等信息，足以描繪出一個(gè)合理的網(wǎng)絡(luò)結(jié)構(gòu)描述數(shù)據(jù)間的語(yǔ)義關(guān)聯(lián).

從我們分析大數(shù)據(jù)的最終目的來說，落實(shí)到實(shí)際應(yīng)用上，我們關(guān)心的是大數(shù)據(jù)能夠提供的服務(wù)，這些服務(wù)需要分析數(shù)據(jù)間的結(jié)構(gòu)和關(guān)聯(lián)，面對(duì)簡(jiǎn)單的數(shù)據(jù)，數(shù)據(jù)之間不存在動(dòng)態(tài)的演化，相應(yīng)的知識(shí)挖掘和數(shù)據(jù)關(guān)聯(lián)就易于發(fā)現(xiàn)和表示.因此，從以數(shù)據(jù)流形式到來的大數(shù)據(jù)中獲取知識(shí)，到近期的大數(shù)據(jù)知識(shí)工程模式，都具有實(shí)時(shí)數(shù)據(jù)處理和更新數(shù)據(jù)的動(dòng)態(tài)演變內(nèi)容的需求，其所得到的知識(shí)相較于單一數(shù)據(jù)也更具價(jià)值.舉例來說，包括社區(qū)智能需求和提升個(gè)性化服務(wù)［10］等以大數(shù)據(jù)知識(shí)為基礎(chǔ)的導(dǎo)航服務(wù)，在社會(huì)服務(wù)和個(gè)性化需求上具有更精準(zhǔn)的導(dǎo)向.

通過大數(shù)據(jù)知識(shí)工程，我們旨在獲取大數(shù)據(jù)中的“大知識(shí)”：大知識(shí)從異構(gòu)、自治的大數(shù)據(jù)開始，挖掘包括數(shù)據(jù)流和特征流的多源海量數(shù)據(jù)以發(fā)現(xiàn)數(shù)據(jù)對(duì)象之間復(fù)雜且演化的關(guān)聯(lián)，通過大數(shù)據(jù)知識(shí)工程，以用戶需求為導(dǎo)向，提供具有個(gè)性化和實(shí)時(shí)使用價(jià)值的知識(shí)服務(wù).大知識(shí)源于大數(shù)據(jù)，通過大數(shù)據(jù)知識(shí)工程的方法進(jìn)行提取和處理.數(shù)據(jù)流和特征流有別于傳統(tǒng)的單個(gè)靜態(tài)數(shù)據(jù)源，以流的形式快速到來的大數(shù)據(jù)對(duì)實(shí)時(shí)性具有很高的要求，數(shù)據(jù)之間的關(guān)聯(lián)性和特征形成的特征流數(shù)據(jù)提出了新的數(shù)據(jù)挖掘和處理問題.因此，為了獲取大知識(shí)，我們需要了解大數(shù)據(jù)的本質(zhì)特征和現(xiàn)有的大數(shù)據(jù)的一些挑戰(zhàn)問題.

針對(duì)大數(shù)據(jù)的幾大本質(zhì)特征，研究者們提出了幾種目前被廣泛接受的大數(shù)據(jù)模型，包括5V、5R、4P和HACE定理.這幾個(gè)模型分別從不同的角度提出了在進(jìn)行大數(shù)據(jù)分析和處理的過程中需重點(diǎn)關(guān)注的挑戰(zhàn)，其中HACE還對(duì)大數(shù)據(jù)挖掘提出了一種可行的多層框架.IBM的5V模型著眼于大數(shù)據(jù)的核心特征，注重以先進(jìn)技術(shù)提高大數(shù)據(jù)的質(zhì)量以得到有價(jià)值的知識(shí)，每個(gè)V的維度都包含大數(shù)據(jù)工作中某一方面的嚴(yán)峻挑戰(zhàn)［11］.5R模型從大數(shù)據(jù)的管理建模的角度，注重大數(shù)據(jù)對(duì)于商業(yè)決策和商業(yè)回報(bào)的價(jià)值，同時(shí)它也是本文介紹的大數(shù)據(jù)知識(shí)工程模型BigKE的支撐［12］.4P醫(yī)學(xué)模型基于現(xiàn)有的4P醫(yī)學(xué)模式，包含預(yù)測(cè)性（Predictive）、預(yù)防性（Preventive）、個(gè)體化（Personalized）和參與性（Participatory）四個(gè)維度［13］.4P醫(yī)學(xué)模型在強(qiáng)調(diào)專家知識(shí)的重要性的同時(shí)，著眼于社會(huì)網(wǎng)絡(luò)和個(gè)人信息的參與性.然而，專家知識(shí)和新加入的社會(huì)與個(gè)人因素同樣產(chǎn)生了異構(gòu)自治數(shù)據(jù)源和碎片化知識(shí)提取的問題，這為大數(shù)據(jù)的數(shù)據(jù)集成以及碎片化知識(shí)的融合提出了新的技術(shù)要求［14］.大數(shù)據(jù)的HACE定理考慮了大數(shù)據(jù)的本質(zhì)特征，包含了海量、異構(gòu)、分布和分散式控制的自治源、數(shù)據(jù)間復(fù)雜和演化的關(guān)聯(lián)等大數(shù)據(jù)的典型特征［15］，但是HACE定理也沒有提出系統(tǒng)地解決碎片化知識(shí)的非線性融合問題的方法.

針對(duì)以上現(xiàn)有的大數(shù)據(jù)模型及其存在的問題，本文從知識(shí)建模的角度介紹大數(shù)據(jù)知識(shí)工程模型BigKE.該模型針對(duì)海量異構(gòu)數(shù)據(jù)中的碎片化知識(shí)的非線性融合問題，提出了從數(shù)據(jù)流和特征流的在線學(xué)習(xí)為開端，利用非線性知識(shí)融合手段形成有價(jià)值的知識(shí)圖譜，并以此為基礎(chǔ)以滿足需求為導(dǎo)向的知識(shí)服務(wù)的三層知識(shí)工程框架.BigKE模型能夠一定程度上應(yīng)對(duì)大數(shù)據(jù)特征帶來的知識(shí)工程的挑戰(zhàn)，從而在碎片化知識(shí)中提取出有價(jià)值的大知識(shí)，最終滿足大數(shù)據(jù)用戶的個(gè)性化需求.

本文安排如下：第1節(jié)介紹大數(shù)據(jù)的本質(zhì)特征和知識(shí)工程的研究進(jìn)展，包括對(duì)現(xiàn)有的5V模型、5R模型、4P醫(yī)學(xué)模型和HACE定理進(jìn)行闡述，這一節(jié)中對(duì)HACE定理的大數(shù)據(jù)多層處理框架做較為詳細(xì)的介紹.第2節(jié)，介紹大數(shù)據(jù)知識(shí)工程的概念，并對(duì)大數(shù)據(jù)背景下知識(shí)工程研究中的挑戰(zhàn)問題做一些闡述.第3節(jié)中，我們從知識(shí)建模的角度，詳細(xì)介紹一種大數(shù)據(jù)知識(shí)工程模型BigKE.第4節(jié)中，我們總結(jié)現(xiàn)有的大數(shù)據(jù)模型以及大數(shù)據(jù)知識(shí)工程模型BigKE，討論BigKE模型后大知識(shí)的挑戰(zhàn)問題和應(yīng)用前景.最后，我們對(duì)從大數(shù)據(jù)到大知識(shí)的過程做出總結(jié).

1　大數(shù)據(jù)特征與知識(shí)工程研究進(jìn)展

1.1大數(shù)據(jù)的本質(zhì)特征

隨著云計(jì)算、互聯(lián)網(wǎng)、各種移動(dòng)設(shè)備與物聯(lián)網(wǎng)的發(fā)展和普及，大數(shù)據(jù)已經(jīng)成為一個(gè)耳熟能詳?shù)母拍?互聯(lián)網(wǎng)的擴(kuò)張，使得人人都能感受到大數(shù)據(jù)的存在，但各個(gè)領(lǐng)域?qū)Α熬烤故裁词谴髷?shù)據(jù)”或者“具備怎樣特征的數(shù)據(jù)可以稱為大數(shù)據(jù)”的問題，都有各自不同的定義和理解.早在20世紀(jì)90年代，被稱為“數(shù)據(jù)倉(cāng)庫(kù)之父”的Bill Inmon就開始關(guān)注大數(shù)據(jù)了，只是當(dāng)時(shí)的大數(shù)據(jù)還被稱作海量數(shù)據(jù).維基百科和國(guó)際數(shù)據(jù)公司（International Data Corporation，IDC）對(duì)大數(shù)據(jù)分別做出了各自的闡述［16-17］.簡(jiǎn)而言之，大數(shù)據(jù)是無法在合理的時(shí)間內(nèi)，利用我們現(xiàn)有的數(shù)據(jù)處理手段，對(duì)其進(jìn)行諸如存儲(chǔ)、管理、抓取等分析和處理的數(shù)據(jù)集合.

隨著大數(shù)據(jù)科研項(xiàng)目的深入展開，我們對(duì)大數(shù)據(jù)的定義，以及對(duì)大數(shù)據(jù)蘊(yùn)含的知識(shí)價(jià)值的認(rèn)識(shí)，從最初單純意義的“大體量”逐漸有了更深層次的闡述.實(shí)際上，大數(shù)據(jù)之“大”包含了數(shù)量與其蘊(yùn)含的知識(shí)的價(jià)值兩個(gè)方面，大數(shù)據(jù)知識(shí)的目標(biāo)和價(jià)值體現(xiàn)在對(duì)數(shù)據(jù)進(jìn)行分析和處理之后，加工后的數(shù)據(jù)在商業(yè)、科學(xué)、工程、教育、醫(yī)療和整個(gè)社會(huì)領(lǐng)域內(nèi)的決策有著重要的導(dǎo)向意義［18］.

為了從大數(shù)據(jù)中獲取有價(jià)值的知識(shí)，我們首先需要了解大數(shù)據(jù)的特征.大數(shù)據(jù)的本質(zhì)特征與大數(shù)據(jù)的來源密切相關(guān).首先值得關(guān)注的是大數(shù)據(jù)的大數(shù)據(jù)量.隨著互聯(lián)網(wǎng)、云計(jì)算、物聯(lián)網(wǎng)等技術(shù)的發(fā)展，網(wǎng)絡(luò)空間中數(shù)據(jù)的規(guī)模不斷增加，數(shù)據(jù)的計(jì)量從GB、TB、PB增長(zhǎng)到EB和ZB的規(guī)模.IDC研究報(bào)告顯示，全球大數(shù)據(jù)的數(shù)量規(guī)模在未來50年內(nèi)會(huì)增加50倍，管理數(shù)據(jù)倉(cāng)庫(kù)的服務(wù)器的數(shù)量將增加10倍以適應(yīng)于大數(shù)據(jù)數(shù)量規(guī)模的50倍增長(zhǎng)［19］.在此之前，由于數(shù)據(jù)的來源和數(shù)據(jù)的形式較為單一，數(shù)據(jù)的獲取、存儲(chǔ)和挖掘的方法也相對(duì)比較單一，從數(shù)據(jù)中獲取知識(shí)的工作的復(fù)雜度也沒有提升.大數(shù)據(jù)的處理和知識(shí)發(fā)現(xiàn)與獲取，對(duì)算法的實(shí)時(shí)性具有較高的要求，這也是由于大數(shù)據(jù)的海量特征.實(shí)時(shí)處理的數(shù)據(jù)計(jì)算方法通常和流式計(jì)算相結(jié)合，并且采用查詢分類計(jì)算以提高響應(yīng)的性能.而傳統(tǒng)的批處理計(jì)算和復(fù)雜數(shù)據(jù)挖掘計(jì)算則是非實(shí)時(shí)計(jì)算，這就無法與大數(shù)據(jù)的海量特征相適應(yīng)，對(duì)大數(shù)據(jù)的處理和計(jì)算平臺(tái)有了新的要求和挑戰(zhàn).

隨著多種新型的數(shù)據(jù)獲取渠道的出現(xiàn)，不僅僅是音頻、視頻、廣播、電視等多種媒體的混合，包括復(fù)雜的網(wǎng)絡(luò)在內(nèi)的信息來源，都顯示出大數(shù)據(jù)的一個(gè)典型特征：異構(gòu)和多維度.高維大數(shù)據(jù)的分布還產(chǎn)生了稀疏子空間聚類的問題.大數(shù)據(jù)在高維通常分布在多個(gè)低維子空間的并上，因此高維的數(shù)據(jù)在適當(dāng)字典下的表示具有稀疏性［20］.這需要我們尋找到合適的處理高維數(shù)據(jù)的聚類和分類的方法.舉個(gè)例子來說，如果發(fā)生了一個(gè)熱門的新聞事件，那么在網(wǎng)絡(luò)、電視、報(bào)紙等多個(gè)平臺(tái)上就會(huì)引發(fā)熱議.大眾對(duì)于事件的評(píng)價(jià)標(biāo)準(zhǔn)和意見各不相同，信息和數(shù)據(jù)產(chǎn)生的形式可能是微博、視頻、音頻等.不同的信息源產(chǎn)生的數(shù)據(jù)一般沒有使用統(tǒng)一的數(shù)據(jù)收集、記錄、存儲(chǔ)和表達(dá)形式，這使得異構(gòu)的大數(shù)據(jù)在處理的過程中產(chǎn)生了諸多問題與挑戰(zhàn)，對(duì)數(shù)據(jù)的轉(zhuǎn)換和集成提出了更高的要求.

多樣化的數(shù)據(jù)來源產(chǎn)生了大數(shù)據(jù)的異構(gòu)性問題，當(dāng)大數(shù)據(jù)投入到實(shí)際應(yīng)用之中，各個(gè)數(shù)據(jù)源在產(chǎn)生和收集數(shù)據(jù)的時(shí)候相互獨(dú)立，如同互聯(lián)網(wǎng)中的自治系統(tǒng)，能夠自主地決定本網(wǎng)絡(luò)中使用何種路由協(xié)議一樣.這樣的數(shù)據(jù)特征顯示出大數(shù)據(jù)的另一個(gè)本質(zhì)特征：分布式和分散式控制的自治數(shù)據(jù)源.這些自治的數(shù)據(jù)源沒有集中式控制，能夠自主地決定產(chǎn)生和收集的數(shù)據(jù)存儲(chǔ)和表示的形式.這在一定程度上使得數(shù)據(jù)之間的關(guān)聯(lián)度有所下降，也在一定程度上提升了數(shù)據(jù)和用戶信息的安全性.但這些自治源仍然帶有分布式和分散式控制.隨著云計(jì)算和云終端的普及，分布式控制方面的應(yīng)用融入到生活的各個(gè)方面，同樣也保障了對(duì)于大數(shù)據(jù)驚人的規(guī)模增長(zhǎng)同步的數(shù)據(jù)處理和分析能力的提升［21］.在工業(yè)運(yùn)用上，以太網(wǎng)的計(jì)算機(jī)分散式控制也在電力系統(tǒng)上得到了應(yīng)用［22］.分散式控制過程中數(shù)據(jù)的安全提升了、數(shù)據(jù)處理的簡(jiǎn)便性增加了，這使得在復(fù)雜的大數(shù)據(jù)環(huán)境和數(shù)據(jù)規(guī)模較大的控制環(huán)境下，能夠很好地適應(yīng)數(shù)據(jù)分析和處理的需要.

同樣，由于大數(shù)據(jù)龐大的數(shù)據(jù)規(guī)模及其數(shù)據(jù)源的異構(gòu)性和自治性，數(shù)據(jù)間的關(guān)聯(lián)顯得更為復(fù)雜，隨著時(shí)間的推進(jìn)，數(shù)據(jù)之間的關(guān)聯(lián)也會(huì)發(fā)生演化.網(wǎng)絡(luò)環(huán)境下的大數(shù)據(jù)信息則顯得更加難以發(fā)現(xiàn)，數(shù)據(jù)下隱藏的關(guān)鍵信息可能會(huì)有所重合，并隨著時(shí)間的推進(jìn)發(fā)生演化.大數(shù)據(jù)之間復(fù)雜和演化的關(guān)聯(lián)的發(fā)現(xiàn)和早期集中式控制的信息系統(tǒng)有著明顯的區(qū)分，數(shù)據(jù)的內(nèi)容無法再簡(jiǎn)單地由幾個(gè)給定的特征值表示出來，異構(gòu)的數(shù)據(jù)無法統(tǒng)一其表示形式，因而數(shù)據(jù)關(guān)聯(lián)的發(fā)現(xiàn)和處理難度大大提升.大數(shù)據(jù)的這一特征在社交網(wǎng)絡(luò)中得到了充分的表現(xiàn)，用戶之間敵對(duì)或者友好的關(guān)系，為我們對(duì)數(shù)據(jù)的聚合和分類提供了可能性［23］.社交網(wǎng)絡(luò)擁有龐大的用戶群，每日產(chǎn)生大量的圖片和文字信息，網(wǎng)絡(luò)上充斥著各種形式不一的文本和音視頻信息.微博、推特、豆瓣等常見的社交平臺(tái)上朋友圈之間和粉絲之間的聯(lián)系隱藏了各種有用的信息，包括事件的預(yù)測(cè)、真實(shí)性等.用戶在搜索引擎中搜索的信息，也如實(shí)反映出了社交網(wǎng)絡(luò)中數(shù)據(jù)的流動(dòng)和演化傾向.

1.2大數(shù)據(jù)特征：5V模型

2001年，Gartner公司的數(shù)據(jù)分析師Laney首次從大數(shù)據(jù)特征的角度明確定義了大數(shù)據(jù)，強(qiáng)調(diào)了大數(shù)據(jù)的3V特征，即海量（Volume）、快速（Velocity）與多樣化（Variety）［24］.在3V的理論基礎(chǔ)上，IBM公司相繼提出了大數(shù)據(jù)的4V和5V模型，新加入了大數(shù)據(jù)的真實(shí)性（Veracity）與價(jià)值（Value）維度［2，25］.IBM的這種5V模型同樣是著眼于大數(shù)據(jù)的本質(zhì)特征，反映出大數(shù)據(jù)規(guī)模巨大、數(shù)據(jù)的產(chǎn)生速度極快、數(shù)據(jù)的結(jié)構(gòu)和框架不一致、數(shù)據(jù)的安全和隱私問題.因此，我們需要更優(yōu)良的數(shù)據(jù)運(yùn)算方法和平臺(tái)，以面對(duì)快速產(chǎn)生的數(shù)據(jù)流數(shù)據(jù)并給予更快的實(shí)時(shí)響應(yīng).數(shù)據(jù)的有效性和真實(shí)性依賴于數(shù)據(jù)的質(zhì)量，高效地對(duì)數(shù)據(jù)和數(shù)據(jù)中的知識(shí)進(jìn)行評(píng)估對(duì)此至關(guān)重要，質(zhì)量較好的數(shù)據(jù)對(duì)我們后期提取大知識(shí)和做出個(gè)性化服務(wù)具有重要意義，高質(zhì)量的數(shù)據(jù)和知識(shí)也能夠體現(xiàn)大數(shù)據(jù)的價(jià)值所在.有效的數(shù)據(jù)管理和分析使得我們能夠做出更好的商業(yè)決策，甚至在醫(yī)療、隱私保護(hù)等多個(gè)領(lǐng)域都可以得到應(yīng)用.最經(jīng)典的實(shí)例莫過于“谷歌流感趨勢(shì)（Google flu trends，GFT）”，Google利用其用戶的搜索數(shù)據(jù)，準(zhǔn)確預(yù)測(cè)了流感趨勢(shì)的產(chǎn)生，其預(yù)測(cè)的速度和準(zhǔn)確度都遠(yuǎn)遠(yuǎn)高于美國(guó)疾病控制與預(yù)防中心（Centers for Disease Control and Prevention，CDC）檢測(cè)報(bào)告的結(jié)果［26］.谷歌的某些搜索關(guān)鍵詞可以很好地表示流感疫情的現(xiàn)狀，GFT的工作原理就是利用經(jīng)過匯總的谷歌搜索數(shù)據(jù)來估測(cè)流感疫情.

5V模型較之于3V模型更著眼于使用先進(jìn)的技術(shù)以提高數(shù)據(jù)的質(zhì)量并且能夠更加充分地探索大數(shù)據(jù).“真實(shí)性（Veracity）”［27］和“價(jià)值性（Value）”［28］結(jié)合了3V特征顯然更加全面.IBM公司對(duì)大數(shù)據(jù)特征的概括和應(yīng)用更多的是在商業(yè)決策領(lǐng)域，它更多地關(guān)注依據(jù)大數(shù)據(jù)知識(shí)做出的商業(yè)決策，對(duì)于提高商業(yè)收益是否有現(xiàn)實(shí)的指導(dǎo)意義和價(jià)值.但是，即使是如同谷歌的流感預(yù)測(cè)這樣典型的大數(shù)據(jù)應(yīng)用實(shí)例，也不會(huì)對(duì)決策產(chǎn)生完全的保障.其主要原因不是由于大數(shù)據(jù)的價(jià)值被高估，而是因?yàn)槿藗儗?duì)大數(shù)據(jù)價(jià)值所在產(chǎn)生了誤解：大數(shù)據(jù)價(jià)值不在于其“大小”，而是利用創(chuàng)新的數(shù)據(jù)分析方法來處理和分析數(shù)據(jù)［29］.同樣地，大數(shù)據(jù)的價(jià)值不僅在于“大”也在于“數(shù)據(jù)”的價(jià)值.而大數(shù)據(jù)的價(jià)值往往伴隨著稀疏性的特點(diǎn)，從3V模型到5V模型的擴(kuò)充，也反映出不當(dāng)?shù)拇髷?shù)據(jù)挖掘和處理所隱藏的陷阱.接下來我們更多需要考慮的是在數(shù)據(jù)的分析和提取中，利用更好的數(shù)據(jù)分析算法來提升數(shù)據(jù)的真實(shí)性和價(jià)值.雖然5V模型對(duì)大數(shù)據(jù)的特征做了很好的闡釋，但是對(duì)于大數(shù)據(jù)本質(zhì)特征所導(dǎo)致的問題和挑戰(zhàn)并沒有做出過多的描述和給出解決思路.

1.3大數(shù)據(jù)管理與商用------5R模型

從大數(shù)據(jù)中獲取知識(shí)的過程，如果采用數(shù)據(jù)管理的視角，可以得到5R模型.5R模型由Stidston提出［12］，包括對(duì)大數(shù)據(jù)相關(guān)的（Relevant）、實(shí)時(shí)的（Real-time）、真實(shí)的（Realistic）、可靠的（Reliable）以及投資回報(bào)（Return on investment，ROI）五大特征的闡述.從5R模型的內(nèi)容來看，它和5V模型具有類似的地方.它們都著眼于大數(shù)據(jù)的本質(zhì)特征，相比較而言，5R是基于商業(yè)用途而提出，它對(duì)于大數(shù)據(jù)的五大特征的描述是基于數(shù)據(jù)管理在商業(yè)上的應(yīng)用進(jìn)行闡釋.從數(shù)據(jù)管理的角度來看待大數(shù)據(jù)，其關(guān)鍵在于數(shù)據(jù)的組織形式.大數(shù)據(jù)的海量多源異構(gòu)特征已經(jīng)得到了普遍的認(rèn)可，針對(duì)這些特征，采取一種怎樣的數(shù)據(jù)組織形式以提升數(shù)據(jù)收集、存儲(chǔ)、處理和應(yīng)用的效率，獲取對(duì)商業(yè)發(fā)展與決策具有價(jià)值的“知識(shí)”，是5R模型中提出的需要解決的問題.數(shù)據(jù)的組織和管理形式經(jīng)歷過人工管理、文件系統(tǒng)和數(shù)據(jù)庫(kù)系統(tǒng)的發(fā)展歷程，對(duì)傳統(tǒng)數(shù)據(jù)的組織已經(jīng)滿足用戶的使用需求.但是在大數(shù)據(jù)的背景下，傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)技術(shù)對(duì)以數(shù)據(jù)流形式到來的巨型數(shù)據(jù)已經(jīng)不再適應(yīng).

基于5R模型背景下的大數(shù)據(jù)管理系統(tǒng)的研究也成為一個(gè)熱點(diǎn)并取得了一定的進(jìn)展.舉例來說，Google在網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)量下，其采取的數(shù)據(jù)管理和分析方法—谷歌文件系統(tǒng)（Google file system，GFS）［30］具有較簡(jiǎn)單的思想.GFS為客戶端提供相似的操作系統(tǒng)水平上的字節(jié)抽象，它對(duì)于非常大的文件的內(nèi)容可以在眾多的計(jì)算機(jī)之間跨平臺(tái)共享，且不需要?jiǎng)?chuàng)建共享集群，這就使得硬件的消耗大大降低［31］.

值得關(guān)注的是5R模型中的投資回報(bào)（ROI）.許多的大數(shù)據(jù)項(xiàng)目最初關(guān)注的重點(diǎn)只是數(shù)據(jù)本身的利用，而沒有認(rèn)識(shí)到對(duì)數(shù)據(jù)的利用怎么與整個(gè)商業(yè)計(jì)劃相適應(yīng)，忽略了數(shù)據(jù)之下的知識(shí)的價(jià)值［32］.尤其是對(duì)于投資回報(bào)（ROI）的關(guān)注顯得很匱乏，大數(shù)據(jù)項(xiàng)目中數(shù)據(jù)的來源和知識(shí)的獲取應(yīng)當(dāng)提供最低的成本計(jì)劃，以對(duì)最終獲取的知識(shí)進(jìn)行價(jià)值評(píng)估.對(duì)于一些數(shù)據(jù)層次本身就具有非常高的價(jià)值的項(xiàng)目，項(xiàng)目本身就具有大數(shù)據(jù)的特征.如果缺少了投資回報(bào)的評(píng)估，我們就無法得知數(shù)據(jù)的價(jià)值與從某一個(gè)大數(shù)據(jù)項(xiàng)目中獲取知識(shí)的項(xiàng)目的可行性，無法評(píng)估在知識(shí)獲取的過程中所花費(fèi)在人力、軟硬件等方面的投資是否具有意義.

5R模型提出的大數(shù)據(jù)管理的實(shí)時(shí)性要求（Real-time）也是大數(shù)據(jù)分析的一個(gè)方向，它和5V模型中的Velocity相契合.在第1.1節(jié)中提及了大數(shù)據(jù)的本質(zhì)特征含有分布式的特點(diǎn).在大數(shù)據(jù)的數(shù)據(jù)管理結(jié)構(gòu)中，目前普遍使用到的是分布式的文件系統(tǒng)和分布式數(shù)據(jù)庫(kù)，其中，Hadoop distributed file system（HDFS）是比較具有代表性的分布式文件系統(tǒng)［33］，其較高的容錯(cuò)性適于部署在廉價(jià)的機(jī)器上，和傳統(tǒng)的分布式文件系統(tǒng)有著顯著的區(qū)別，它為用戶提供高吞吐量的數(shù)據(jù)訪問，同時(shí)，HDFS也面向流數(shù)據(jù)處理［34］，這些都利于我們?cè)诖髷?shù)據(jù)規(guī)模下進(jìn)行數(shù)據(jù)分析和處理工作，高速處理海量數(shù)據(jù)成為了可能，大數(shù)據(jù)管理的實(shí)時(shí)性要求得到了一定程度的滿足.

1.44P醫(yī)學(xué)模型

知識(shí)工程概念的提出為專家系統(tǒng)（Expert system，ES）奠定了理論基礎(chǔ).專家系統(tǒng)（ES）作為人工智能（Artificial intelligence，AI）的一個(gè)分支，自19世紀(jì)60年代中期被提出以來，已經(jīng)被大量運(yùn)用到工程、科學(xué)、醫(yī)學(xué)預(yù)測(cè)、商業(yè)等方面.專家系統(tǒng)的基本思想是依賴于專業(yè)的知識(shí)，對(duì)個(gè)性化應(yīng)用做出預(yù)測(cè)等行為［35］.然而，隨著大數(shù)據(jù)時(shí)代的到來，僅依賴傳統(tǒng)專家系統(tǒng)的領(lǐng)域知識(shí)提取大規(guī)模的異構(gòu)數(shù)據(jù)集中的有價(jià)值信息，這種方式的效率已經(jīng)不能滿足用戶的需要.基于大數(shù)據(jù)背景的知識(shí)工程，為了提供更加智能的個(gè)性化服務(wù)，在提取大知識(shí)的算法設(shè)計(jì)中，需要考慮用戶的社交和個(gè)人信息.

以大數(shù)據(jù)背景下的普適醫(yī)療應(yīng)用為例.普適醫(yī)療（Pervasive healthcare）［36］借助普適計(jì)算技術(shù)，形成覆蓋服務(wù)區(qū)域內(nèi)各個(gè)醫(yī)療機(jī)構(gòu)、家庭和個(gè)人的信息網(wǎng)絡(luò).信息化的推進(jìn)使得電子病歷等一系列電子數(shù)據(jù)顯現(xiàn)出大數(shù)據(jù)的特征，同一種疾病的發(fā)病原因的多樣化、同一種疾病采取多樣化的治療方法，這些海量的異構(gòu)醫(yī)療數(shù)據(jù)中同樣隱藏著有價(jià)值的醫(yī)療知識(shí).針對(duì)這一問題，4P醫(yī)學(xué)模型［37］隨之產(chǎn)生了.在醫(yī)學(xué)領(lǐng)域，4P醫(yī)學(xué)模式的內(nèi)容包含了預(yù)測(cè)性（Predictive）、預(yù)防性（Preventive）、個(gè)體化（Personalized）以及參與性（Participatory）四個(gè)維度.這種新型的醫(yī)學(xué)模式更強(qiáng)調(diào)病人個(gè)人，以及周圍親屬、朋友的參與和主動(dòng)性，強(qiáng)化個(gè)體生活行為對(duì)治療和預(yù)防過程的干預(yù).由4P醫(yī)學(xué)模型引申到大數(shù)據(jù)環(huán)境下，我們發(fā)現(xiàn)對(duì)于個(gè)性化服務(wù)的設(shè)計(jì)和分析來說，用戶個(gè)人的行為因素、用戶的參與度對(duì)用戶數(shù)據(jù)的影響、數(shù)據(jù)的來源和專家知識(shí)的參與，這三者是同樣重要的.可以說，4P醫(yī)學(xué)模型的提出背景離不開大數(shù)據(jù).

我們將4P醫(yī)學(xué)模型與現(xiàn)有的大數(shù)據(jù)應(yīng)用項(xiàng)目對(duì)比，可以看出，個(gè)體行為的重要性日益凸顯，病人的經(jīng)歷和治療過程也成為知識(shí)的重要組成部分.同4P醫(yī)學(xué)模型提出的“個(gè)體化”與“參與性”相對(duì)應(yīng)，現(xiàn)代醫(yī)學(xué)強(qiáng)調(diào)因人制宜，包含了概念更新、理論框架的構(gòu)建以及實(shí)踐應(yīng)用等一系列的創(chuàng)新舉措，這為從新的角度切入個(gè)體化診療的實(shí)現(xiàn)提供了可能［38］.在注重用戶個(gè)體性的同時(shí)，我們也可以發(fā)現(xiàn)不同個(gè)體之間的相似性，利用標(biāo)簽和聚類等數(shù)據(jù)處理手段，將特定的用戶和特定的行為表現(xiàn)相對(duì)應(yīng)，發(fā)現(xiàn)大數(shù)據(jù)下多個(gè)用戶的相似的行為模式，發(fā)現(xiàn)不同的個(gè)體與某一特定癥狀的相關(guān)性，從而提高普適醫(yī)療信息管理和服務(wù)系統(tǒng)的準(zhǔn)確性.

與現(xiàn)有的醫(yī)療系統(tǒng)相比較，在大數(shù)據(jù)的背景下，4P醫(yī)學(xué)模型對(duì)個(gè)性化醫(yī)療服務(wù)顯然要更加適用，它所提出的四個(gè)角度，同大數(shù)據(jù)的本質(zhì)特征也是相對(duì)應(yīng)的.專家系統(tǒng)對(duì)領(lǐng)域知識(shí)的依賴，使得數(shù)據(jù)的來源過于單一，會(huì)產(chǎn)生一系列的問題.4P醫(yī)學(xué)模型中的“預(yù)測(cè)性”和“預(yù)防性”兩個(gè)維度強(qiáng)調(diào)了先進(jìn)醫(yī)療手段的重要性［39］.然而對(duì)于普適醫(yī)療系統(tǒng)的應(yīng)用來說，個(gè)性化的服務(wù)更注重專家知識(shí)要和病人個(gè)體信息一致.4P醫(yī)學(xué)模型將個(gè)性化的服務(wù)與預(yù)測(cè)相結(jié)合，從而為病人提供基于大數(shù)據(jù)的個(gè)性化健康建議，同時(shí)，在診斷和治療過程中的數(shù)據(jù)也被同時(shí)記錄下來.這種普適的個(gè)性化醫(yī)療服務(wù)已經(jīng)漸漸滲透到生活中，使得大數(shù)據(jù)和個(gè)人生活的關(guān)聯(lián)顯得不再遙不可及.

基于4P醫(yī)學(xué)模型，具備個(gè)性化診療功能的醫(yī)療系統(tǒng)的實(shí)現(xiàn)，其核心技術(shù)在于融入了個(gè)性化的知識(shí)圖譜.專家系統(tǒng)相對(duì)個(gè)性化醫(yī)療系統(tǒng)而言，數(shù)據(jù)和信息相對(duì)結(jié)構(gòu)化，雖然信息的處理和分析在一定程度上達(dá)到了較高的自動(dòng)化水平，但個(gè)性化知識(shí)的自動(dòng)獲取、分析和傳播將會(huì)是更高的挑戰(zhàn).目前，網(wǎng)絡(luò)空間里的許多信息系統(tǒng)正在越來越多地體現(xiàn)出“人”的智能.這一趨勢(shì)必然導(dǎo)致對(duì)大數(shù)據(jù)知識(shí)工程的更高要求.

為了向醫(yī)療服務(wù)提供者和醫(yī)療服務(wù)消費(fèi)者提供有價(jià)值的和個(gè)性化的醫(yī)療服務(wù)，需要挖掘海量醫(yī)療數(shù)據(jù)中的醫(yī)療知識(shí)，這也是普適醫(yī)療信息管理與服務(wù)的關(guān)鍵技術(shù)與挑戰(zhàn)問題.4P醫(yī)學(xué)模型的啟發(fā)性意義在于對(duì)病人的個(gè)人信息和異構(gòu)的醫(yī)療信息源的處理，以基于社會(huì)計(jì)算的普適醫(yī)療信息管理與服務(wù)體系（Pervasive medical information management and service systems，PMIMSS）為例，現(xiàn)代的醫(yī)療服務(wù)模式涉及到醫(yī)療信息共享與集成、醫(yī)療知識(shí)發(fā)現(xiàn)與服務(wù)、醫(yī)療服務(wù)質(zhì)量評(píng)價(jià)機(jī)制、個(gè)性化醫(yī)療服務(wù)推薦機(jī)制以及人與醫(yī)療信息系統(tǒng)交互的可信機(jī)制［36］.這類系統(tǒng)的架構(gòu)以及關(guān)鍵技術(shù)的出發(fā)點(diǎn)和設(shè)計(jì)理念，與大數(shù)據(jù)的本質(zhì)特征相匹配，并且與知識(shí)工程的個(gè)性化服務(wù)推薦的目標(biāo)相一致.

除了PMIMSS，還有其他個(gè)性化醫(yī)療服務(wù)的應(yīng)用實(shí)例包含4P醫(yī)學(xué)模型的思想.比如，醫(yī)療服務(wù)的移動(dòng)客戶端漸漸普及，研究人員利用移動(dòng)客戶端的平臺(tái)發(fā)布一系列的健康激勵(lì)措施，發(fā)送提醒大眾關(guān)于疾病的預(yù)防等普適醫(yī)療信息［40］.如果從用戶的客戶端中抽取有用的信息，這些信息可能涉及運(yùn)動(dòng)頻率、體重、社交活動(dòng)等多方面的信息，獲取用戶個(gè)人信息是碎片化的，如何利用數(shù)據(jù)庫(kù)中的專家知識(shí)對(duì)不同的用戶信息進(jìn)行有效的分析將會(huì)是知識(shí)集成的關(guān)鍵.大數(shù)據(jù)在普適醫(yī)療的應(yīng)用，從技術(shù)層面來看，其關(guān)鍵技術(shù)依賴于個(gè)人、社交信息以及專家知識(shí)等多源異構(gòu)的大數(shù)據(jù)知識(shí)的融合［41］.再比如，患有某種特定疾病的病人會(huì)形成社交圈或者社區(qū)媒體，病人們?cè)谏缃痪W(wǎng)絡(luò)中交換彼此的治療進(jìn)展或者患病信息，這些信息作為整個(gè)社區(qū)的經(jīng)驗(yàn)在社交網(wǎng)絡(luò)中被分享.大數(shù)據(jù)在病人和醫(yī)生、病人和病人、醫(yī)生與醫(yī)生之間傳播并產(chǎn)生一定的演化，形成復(fù)雜的數(shù)據(jù)聯(lián)系［42］.同時(shí)，這些涉及用戶個(gè)人信息的數(shù)據(jù)，需要結(jié)合已有的專業(yè)知識(shí)進(jìn)行綜合分析，從而給出準(zhǔn)確的預(yù)測(cè)和醫(yī)療建議.專家知識(shí)可能來自于專家的建議、醫(yī)學(xué)著作和臨床數(shù)據(jù)，而用戶個(gè)人信息的來源則更加多樣化.對(duì)這些大數(shù)據(jù)中所獲得的大知識(shí)的提取與融合，需要的大數(shù)據(jù)算法面對(duì)的是多源多樣化的數(shù)據(jù).

1.5HACE定理

大數(shù)據(jù)的HACE定理指出，大數(shù)據(jù)始于異構(gòu)（Heterogeneous）、自治（Autonomous）的多源海量數(shù)據(jù)，旨在尋求探索復(fù)雜的（Complex）和演化的（Evolving）數(shù)據(jù)關(guān)聯(lián)的方法和途徑.5V模型和5R模型介紹了大數(shù)據(jù)的本質(zhì)特征，4P醫(yī)學(xué)模型是大數(shù)據(jù)與普適醫(yī)療結(jié)合的實(shí)例.接下來，我們從大數(shù)據(jù)的本質(zhì)特征介紹HACE定理提出的一種多層的大數(shù)據(jù)處理框架，該多層框架分別從大數(shù)據(jù)的來源、大數(shù)據(jù)的復(fù)雜的數(shù)據(jù)結(jié)構(gòu)以及數(shù)據(jù)之間的關(guān)系這三方面來描述［15］.從大數(shù)據(jù)的來源來看，異構(gòu)和自治是大數(shù)據(jù)中多個(gè)數(shù)據(jù)源的最本質(zhì)特征，如盲人摸象中的每個(gè)盲人、物聯(lián)網(wǎng)中的各個(gè)傳感器和萬(wàn)維網(wǎng)上每位作者和讀者，他們可能用不同的語(yǔ)言（中文、英文等）、不同的媒體形式（文本、圖像等）和不同的表現(xiàn)形式（如英國(guó)英文的31/12/15和美國(guó)英語(yǔ)的12/31/15）來描述和處理他們各自的信息.大數(shù)據(jù)分析的最本質(zhì)目標(biāo)是探索異構(gòu)、自治的多源海量數(shù)據(jù)中復(fù)雜且隨時(shí)間和空間演化的數(shù)據(jù)關(guān)聯(lián).

依據(jù)HACE定理對(duì)大數(shù)據(jù)特征的闡述，可以形成一個(gè)大數(shù)據(jù)的三層構(gòu)架（見圖1）.HACE定理的創(chuàng)新在于，它把大數(shù)據(jù)的處理框架從單層擴(kuò)展為多層.HACE定理給出的多層處理架構(gòu)關(guān)注對(duì)大數(shù)據(jù)的運(yùn)算、大數(shù)據(jù)之間的語(yǔ)義聯(lián)系和應(yīng)用知識(shí)、大數(shù)據(jù)的挖掘算法設(shè)計(jì)［42］.HACE定理給出的多層大數(shù)據(jù)處理框架本質(zhì)上涵蓋了分析大數(shù)據(jù)的科學(xué)方法，下面我們給出每一層的細(xì)節(jié)介紹.

在構(gòu)架的第一層中關(guān)注的是大數(shù)據(jù)計(jì)算平臺(tái).對(duì)大數(shù)據(jù)的知識(shí)挖掘與分析，首先是大數(shù)據(jù)計(jì)算的存儲(chǔ)和計(jì)算問題.在傳統(tǒng)的處理方法中，為了提升數(shù)據(jù)的運(yùn)算能力，我們可以從計(jì)算機(jī)硬件的方面加以改進(jìn)：利用密集型的計(jì)算單元，或者是依賴高性能計(jì)算機(jī)提高抓取和計(jì)算大數(shù)據(jù)的能力.在小規(guī)模和中型規(guī)模的數(shù)據(jù)量下，我們可以僅通過硬件的提升來改進(jìn)數(shù)據(jù)存儲(chǔ)和計(jì)算的能力，并達(dá)到數(shù)據(jù)的實(shí)時(shí)處理.在大數(shù)據(jù)的海量多源異構(gòu)的特點(diǎn)下，傳統(tǒng)的思路行不通了.舉個(gè)例子，多個(gè)數(shù)據(jù)源中數(shù)據(jù)的采樣和聚集就為我們的挖掘工作生成了一定的困難，憑借少量計(jì)算機(jī)和傳統(tǒng)的并行運(yùn)算無法處理.無論是采取流水線作業(yè)達(dá)成時(shí)間上的并行計(jì)算，還是采用多個(gè)處理器達(dá)成空間上的并行，雖然它們已經(jīng)在諸如稀疏矩陣和迭代算法的運(yùn)用中得到普及［43］，但對(duì)于大數(shù)據(jù)來說，數(shù)據(jù)的稀疏性表現(xiàn)在一個(gè)較高的維度空間，傳統(tǒng)的并行算法并不是很有效，尤其是對(duì)于以流數(shù)據(jù)形式到來的數(shù)據(jù)，實(shí)時(shí)處理是非常困難的.

圖1　大數(shù)據(jù)處理框架的修改版［15］Fig.1　A big data processing framework updated form［15］

在HACE定理的第1層數(shù)據(jù)挖掘平臺(tái)中，提出使用帶有高計(jì)算性能的集群計(jì)算機(jī)（Cluster computers）.與中小規(guī)模數(shù)據(jù)集上的計(jì)算平臺(tái)相比，集群計(jì)算機(jī)上的每個(gè)計(jì)算節(jié)點(diǎn)都可以并行處理計(jì)算任務(wù)，使得單個(gè)計(jì)算機(jī)的計(jì)算量有所降低，從而減小對(duì)每個(gè)計(jì)算節(jié)點(diǎn)的硬件的依賴性.利用這種結(jié)構(gòu)的最典型的并行計(jì)算工具是MapReduce.谷歌的MapReduce模型是為了并行計(jì)算而提出的一種編程框架，它將一個(gè)大規(guī)模的數(shù)據(jù)集上的計(jì)算任務(wù)拆分成多個(gè)小任務(wù)，使得大規(guī)模數(shù)據(jù)集上的計(jì)算變得更加高效［44］.傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和處理工作，使用最廣泛的是關(guān)系型數(shù)據(jù)庫(kù)結(jié)構(gòu).但是大規(guī)模的數(shù)據(jù)下，許多有用的信息隱藏在非結(jié)構(gòu)化數(shù)據(jù)中，諸如郵件、微博、視頻等.在這方面可以運(yùn)用的技術(shù)包括NoSQL和谷歌提出的“大表”（BigTable）［45］. BigTable用分布式數(shù)據(jù)庫(kù)存儲(chǔ)系統(tǒng)管理大規(guī)模數(shù)據(jù)，它將數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)化為鍵值之間的一種映射關(guān)系，使得數(shù)據(jù)規(guī)模的大小和計(jì)算的延遲時(shí)間在BigTable中都得到了滿足.

HACE定理的第2層架構(gòu)是大數(shù)據(jù)的語(yǔ)義和應(yīng)用知識(shí)，包含數(shù)據(jù)共享與隱私、領(lǐng)域和應(yīng)用知識(shí)的問題.第1層架構(gòu)提出了集群式的大數(shù)據(jù)計(jì)算平臺(tái)，解決了對(duì)流數(shù)據(jù)存儲(chǔ)的計(jì)算問題之后，我們需要分析大數(shù)據(jù)中的隱含知識(shí).在對(duì)大數(shù)據(jù)下隱含知識(shí)的分析過程中需要數(shù)據(jù)的共享.從數(shù)據(jù)的安全性來說，由于大數(shù)據(jù)中包含大量的敏感信息，或者是用戶的一些不合法的數(shù)據(jù)操作，都會(huì)影響到數(shù)據(jù)共享的效果，并帶來一些信息隱私的問題.個(gè)人信息包含在大數(shù)據(jù)中，也會(huì)引發(fā)關(guān)于數(shù)據(jù)可信度的度量和評(píng)估問題［46］.大數(shù)據(jù)自治的分布式和分散式控制與數(shù)據(jù)的隱私有密切的聯(lián)系，為解決這一問題，目前已經(jīng)產(chǎn)生了一些適用于分布式的文件系統(tǒng).還是以Google的GFS文件系統(tǒng)為例，該文件系統(tǒng)基于一臺(tái)主機(jī)和若干個(gè)備有Linux操作系統(tǒng)的PC機(jī)群構(gòu)成了一個(gè)集群系統(tǒng).GFS系統(tǒng)對(duì)于用戶從主機(jī)上得到的Metadata，從相應(yīng)的位置產(chǎn)生通信過程從而獲取文件數(shù)據(jù)［47］.分布式文件系統(tǒng)的產(chǎn)生，激勵(lì)了諸如Hadoop和Hive這樣的數(shù)據(jù)平臺(tái)的產(chǎn)生，數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)處理在不斷優(yōu)化的程序中得到了更好的處理和分析.

在HACE定理的第2層架構(gòu)中，為了保護(hù)個(gè)人隱私信息，同時(shí)提高所提取知識(shí)的可信度，HACE主要提供了兩種解決思路：從數(shù)據(jù)存儲(chǔ)角度，對(duì)訪問數(shù)據(jù)的權(quán)限進(jìn)行限制可以一定程度上提高數(shù)據(jù)的可信度并減少對(duì)數(shù)據(jù)的誤操作；從信息共享的渠道來看，對(duì)數(shù)據(jù)的一部分特征進(jìn)行匿名化，使得數(shù)據(jù)中包含敏感信息的部分不被公開或者進(jìn)行一些模糊處理，同樣也可以起到保護(hù)隱私的目的［48］.舉例來說，現(xiàn)有的關(guān)于數(shù)據(jù)匿名化的方法中，使用最多的是k匿名方法［49］，用戶通過對(duì)數(shù)據(jù)表的匿名工作指定一個(gè)k值，限定發(fā)布的數(shù)據(jù)存在某些標(biāo)識(shí)符與其他k-1個(gè)具體個(gè)體沒有方法區(qū)分開來，從而保護(hù)了個(gè)體數(shù)據(jù)的隱私.其次，第2層架構(gòu)需要考慮領(lǐng)域和應(yīng)用知識(shí)［50］，它們能幫助我們辨別已收集到的大數(shù)據(jù)中哪些模式是用戶希望去發(fā)現(xiàn)和使用的.例如，在醫(yī)療系統(tǒng)中對(duì)病人的數(shù)據(jù)信息進(jìn)行分析時(shí)，通過領(lǐng)域和應(yīng)用知識(shí)可以識(shí)別我們需要的數(shù)據(jù)特征是諸如病人的血型、病史等信息，從而刻畫出有效的矩陣或者其他的數(shù)據(jù)特征表達(dá)方式，同時(shí)為后期的數(shù)據(jù)挖掘工作清洗掉一部分無用的數(shù)據(jù)，得到正確的數(shù)據(jù)語(yǔ)義聯(lián)系.

HACE的第3層從三個(gè)方面提出了大數(shù)據(jù)挖掘算法：局部學(xué)習(xí)和多信息源的模型融合、稀疏不確定和不完整的數(shù)據(jù)挖掘、挖掘復(fù)雜的動(dòng)態(tài)數(shù)據(jù).在網(wǎng)絡(luò)數(shù)據(jù)的分析中，出于保護(hù)數(shù)據(jù)隱私的考慮，我們無法將從多個(gè)站點(diǎn)獲取的局部數(shù)據(jù)簡(jiǎn)單地集成為一個(gè)集中式的站點(diǎn).因此，大數(shù)據(jù)挖掘算法的設(shè)計(jì)存在許多挑戰(zhàn)：由局部數(shù)據(jù)特征到全局?jǐn)?shù)據(jù)特征的轉(zhuǎn)變，稀疏的、不確定的和不完備的大數(shù)據(jù)需要有更高更快的實(shí)時(shí)性和準(zhǔn)確性，同時(shí)我們可能還要對(duì)缺失和不準(zhǔn)確的數(shù)據(jù)進(jìn)行填充［19］.從數(shù)據(jù)建模的角度，現(xiàn)有的文本模型，包括向量空間模型（Vector sapce model，VSP）［51］、潛在語(yǔ)義分析（Latent semantic analysis，LSA）［52］、知識(shí)圖譜（Knowledge based graph）［53］等，都各有優(yōu)劣，比如，在知識(shí)工程中知識(shí)圖譜就能較好地表示實(shí)體之間的聯(lián)系.但這些基本模型無法滿足動(dòng)態(tài)環(huán)境中對(duì)整體大數(shù)據(jù)的特征刻畫.

同時(shí)，大數(shù)據(jù)之間的復(fù)雜的數(shù)據(jù)關(guān)聯(lián)也隨著動(dòng)態(tài)數(shù)據(jù)而演化.當(dāng)數(shù)據(jù)流數(shù)據(jù)發(fā)生變化時(shí)，我們需要考慮現(xiàn)有的數(shù)據(jù)結(jié)構(gòu)是否適應(yīng)于新的數(shù)據(jù)描述，數(shù)據(jù)特征和數(shù)據(jù)變量在發(fā)生實(shí)時(shí)的變化.對(duì)動(dòng)態(tài)數(shù)據(jù)的挖掘，對(duì)數(shù)據(jù)的變化如果只采取從頭運(yùn)行挖掘算法的方式，就無法兼顧到實(shí)時(shí)處理的問題，顯然在動(dòng)態(tài)數(shù)據(jù)中這不是一個(gè)有效的策略.同時(shí)，數(shù)據(jù)的動(dòng)態(tài)改變導(dǎo)致了數(shù)據(jù)間關(guān)系的演化，使得數(shù)據(jù)的規(guī)則和已獲得的知識(shí)圖譜無法匹配.

當(dāng)然，大數(shù)據(jù)的興起不僅帶來了挑戰(zhàn)，同時(shí)也促進(jìn)了各領(lǐng)域的變革和發(fā)展.例如，研發(fā)針對(duì)社交網(wǎng)絡(luò)之間的復(fù)雜聯(lián)系以及演化關(guān)系的管理系統(tǒng)［54［56］.

2　大數(shù)據(jù)對(duì)知識(shí)工程的挑戰(zhàn)

1977年，在第五屆國(guó)際人工智能會(huì)議（IJCAI 77）上，美國(guó)斯坦福大學(xué)計(jì)算機(jī)科學(xué)家費(fèi)根堡姆（Feigenbaum）首次提出了知識(shí)工程（Knowledge engineering）的概念.知識(shí)工程的概念提出之后，人工智能的原理與方法在知識(shí)系統(tǒng)領(lǐng)域發(fā)揮了重大的作用.知識(shí)工程包括五大活動(dòng)：對(duì)知識(shí)的獲取、驗(yàn)證、表示、推論以及對(duì)知識(shí)的解釋.在知識(shí)的基礎(chǔ)上，知識(shí)工程通過這五大活動(dòng)構(gòu)建專家系統(tǒng)和各種智能系統(tǒng)［57］.相對(duì)于知識(shí)管理技術(shù)，知識(shí)工程關(guān)注的是知識(shí)產(chǎn)生和驗(yàn)證過程的動(dòng)態(tài)變化，它的創(chuàng)新性更強(qiáng)、對(duì)數(shù)據(jù)的操作更加復(fù)雜，并且涉及多個(gè)相關(guān)領(lǐng)域的知識(shí)交叉.在知識(shí)工程的五大活動(dòng)中，知識(shí)的獲取具有更大的難度.

在大數(shù)據(jù)時(shí)代，利用知識(shí)工程的思想和方法，對(duì)大數(shù)據(jù)進(jìn)行獲取、驗(yàn)證、表示、推論和解釋，通過挖掘出的知識(shí)來形成解決問題的專家系統(tǒng)，是本文所倡導(dǎo)的大知識(shí)，也稱為大數(shù)據(jù)知識(shí)工程［39］.在大數(shù)據(jù)時(shí)代的背景下進(jìn)行知識(shí)工程活動(dòng)具有諸多挑戰(zhàn).這主要是由于大數(shù)據(jù)的本質(zhì)特征導(dǎo)致的，涉及到異構(gòu)、自治的海量多源數(shù)據(jù)，隱藏在數(shù)據(jù)下的知識(shí)難以管理和發(fā)現(xiàn).下面分析一些大數(shù)據(jù)對(duì)知識(shí)工程的挑戰(zhàn)問題.

首先，大數(shù)據(jù)知識(shí)工程需要對(duì)獲取的數(shù)據(jù)進(jìn)行合理的存儲(chǔ)和表示，清晰的數(shù)據(jù)存儲(chǔ)形式更有利于發(fā)現(xiàn)數(shù)據(jù)的有用特征，剔除一些無用的數(shù)據(jù)屬性.從數(shù)據(jù)本身來看，大數(shù)據(jù)知識(shí)工程涉及大量的非結(jié)構(gòu)化數(shù)據(jù)，其數(shù)據(jù)結(jié)構(gòu)多以數(shù)據(jù)流的形式到來.數(shù)據(jù)流數(shù)據(jù)是一種由實(shí)時(shí)、連續(xù)、有序的數(shù)據(jù)組成的序列，它是一種動(dòng)態(tài)變化的數(shù)據(jù).與傳統(tǒng)的靜態(tài)結(jié)構(gòu)化數(shù)據(jù)相比，數(shù)據(jù)流數(shù)據(jù)具有連續(xù)、快速、難以預(yù)測(cè)數(shù)據(jù)趨勢(shì)等特點(diǎn)［58］.考慮到大數(shù)據(jù)特征，數(shù)據(jù)的存儲(chǔ)要求具有三個(gè)變化：1）數(shù)據(jù)量升至PB級(jí)；2）數(shù)據(jù)分析需求從常規(guī)分析轉(zhuǎn)向深度分析（Deep analytics）；3）硬件平臺(tái)從高端轉(zhuǎn)向中低端［59］.從數(shù)據(jù)的表示來看，已有的數(shù)據(jù)模型包括聚類分析、決策樹、分類方法、頻繁模式挖掘等.常見的聚類分析方法是通過尋找數(shù)據(jù)點(diǎn)的k個(gè)中心點(diǎn)來獲取數(shù)據(jù)間的距離總和的最小值［60］.對(duì)數(shù)據(jù)流數(shù)據(jù)的易變特點(diǎn)產(chǎn)生的概念漂移問題，已有使用k棵隨機(jī)決策樹組成的基分類器的雙層窗口的分類算法［61］.對(duì)數(shù)據(jù)流的頻繁模式挖掘，往往存在實(shí)時(shí)性較差且查詢粒度粗的問題.而采用快速啟發(fā)式的方法可以兼顧到對(duì)數(shù)據(jù)流數(shù)據(jù)的實(shí)時(shí)處理和更細(xì)的查詢粒度［62］.這些模型在提取和刻畫數(shù)據(jù)特征方面各有優(yōu)劣，但它們都針對(duì)的是靜態(tài)的數(shù)據(jù)，對(duì)大數(shù)據(jù)的表示和數(shù)據(jù)建模難以適應(yīng).

同數(shù)據(jù)流相對(duì)應(yīng)的是特征流的問題.含有特征流的應(yīng)用中，無法預(yù)知整個(gè)特征空間的相關(guān)知識(shí).特征流是在時(shí)間上連續(xù)到來的特征序列，隨著特征數(shù)量的不斷增加，訓(xùn)練集的個(gè)數(shù)可能是固定的［63］、也可能在變化之中［64］.在線特征的選擇具有三大挑戰(zhàn)問題：1）特征的規(guī)模和數(shù)量隨著時(shí)間不斷增長(zhǎng)；2）巨大的特征空間具有未知和規(guī)模無限大的可能性；3）整個(gè)空間的特征過于龐大，為了學(xué)習(xí)整個(gè)空間的特征，學(xué)習(xí)算法無法從最初處理整個(gè)特征集.這三大挑戰(zhàn)問題，同大數(shù)據(jù)的海量有著密切的關(guān)系.傳統(tǒng)的特征選擇面對(duì)有規(guī)律增長(zhǎng)的特征數(shù)量，可以不必對(duì)特征流加以考慮.但大數(shù)據(jù)為特征的選擇增加了新的難度，從而引發(fā)了新的研究熱點(diǎn).針對(duì)特征流的問題，在現(xiàn)有的特征選擇算法的基礎(chǔ)上，對(duì)特征之間的相關(guān)性和特征冗余加以考慮，能夠提高特征選擇的效率，基于特征更為精確和清晰的表示方式［65］.

除了大數(shù)據(jù)的存儲(chǔ)和表示方面的挑戰(zhàn)，我們需要考慮的是大數(shù)據(jù)中知識(shí)的獲取.考慮到大數(shù)據(jù)的多源異構(gòu)的特征，數(shù)據(jù)源通常還含有自治性質(zhì)，數(shù)據(jù)的獲取通常是從局部的數(shù)據(jù)源中獲取碎片化的知識(shí)［15］.對(duì)觀測(cè)到的數(shù)據(jù)，現(xiàn)有的標(biāo)準(zhǔn)在線學(xué)習(xí)算法大都使用線性擬合的方式，多源的數(shù)據(jù)使得獲得的知識(shí)往往成碎片化，碎片化知識(shí)的融合無法通過線性擬合完成.大數(shù)據(jù)對(duì)知識(shí)工程的又一挑戰(zhàn)是碎片化知識(shí)的刻畫和融合.從碎片化知識(shí)的獲取來說，現(xiàn)有的擬合方式無法對(duì)碎片化數(shù)據(jù)特征的分布形成合適的擬合，甚至?xí)a(chǎn)生過度擬合的問題［66］.其次，現(xiàn)有的在線學(xué)習(xí)方法，尤其是基于Kernel算法的在線學(xué)習(xí)，隨著數(shù)據(jù)量的上升，模型的參數(shù)設(shè)置會(huì)變得很復(fù)雜.比如，使用表示定理（The representation theorem）［67］可知Kernel函數(shù)的數(shù)量隨著觀測(cè)值的上升呈現(xiàn)出線性增長(zhǎng)，這樣數(shù)據(jù)分析和處理的復(fù)雜度就會(huì)提升.然而，相應(yīng)的一個(gè)使用機(jī)器學(xué)習(xí)分析大數(shù)據(jù)的好處是，許多的數(shù)據(jù)樣本是可獲得的，相應(yīng)的減小了過度擬合的可能［68］.

除此以外，對(duì)數(shù)據(jù)的訓(xùn)練時(shí)間或者使用批處理來處理觀測(cè)值的時(shí)候，我們對(duì)在線學(xué)習(xí)的響應(yīng)時(shí)間是有要求的，如果響應(yīng)時(shí)間過長(zhǎng)，那么由于數(shù)據(jù)隱藏的信息可能會(huì)隨著時(shí)間演化，則我們得到的信息也許就會(huì)對(duì)我們?cè)谏a(chǎn)、生活、商業(yè)決策方面的應(yīng)用產(chǎn)生誤導(dǎo).基于處理大規(guī)模高維數(shù)據(jù)的目的，目前已經(jīng)提出了多種有效的算法.大數(shù)據(jù)環(huán)境下的知識(shí)發(fā)現(xiàn)所需要的算法，需要避免輸入數(shù)據(jù)時(shí)在數(shù)值或者特征上的冗余，否則數(shù)據(jù)的維度會(huì)過高.同時(shí)在學(xué)習(xí)的過程中不斷更新以降低計(jì)算的復(fù)雜度，對(duì)于高維的數(shù)據(jù)，我們還可以使用在線增量學(xué)習(xí)方法，實(shí)現(xiàn)模型和函數(shù)的足夠的精確度和近似過程具有足夠的泛化［69］.從碎片化知識(shí)的融合來看，碎片化知識(shí)的融合是為了從單個(gè)數(shù)據(jù)源的局部數(shù)據(jù)中獲取整個(gè)大數(shù)據(jù)集合的全局?jǐn)?shù)據(jù)特征.碎片化知識(shí)的融合使用現(xiàn)有的線性融合方法會(huì)產(chǎn)生一些問題，例如，如果我們采用基于形式化邏輯的知識(shí)融合［70］，知識(shí)融合的過程中會(huì)被局部知識(shí)的表示形式限制，對(duì)于結(jié)構(gòu)化數(shù)據(jù)這樣的融合方式?jīng)]有問題，但在非結(jié)構(gòu)化的數(shù)據(jù)中，提取出的碎片化知識(shí)不具有統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)和形式.大數(shù)據(jù)環(huán)境下，為了獲取數(shù)據(jù)中的知識(shí)，我們可以采用在線學(xué)習(xí)的方式.在線學(xué)習(xí)面對(duì)數(shù)據(jù)流數(shù)據(jù)，對(duì)流中可能出現(xiàn)的概念漂移問題能有效地解決［71］.它不僅僅是把碎片化知識(shí)“拼湊”在一起，而是從碎片化知識(shí)之間的關(guān)聯(lián)得到新的全局知識(shí)，這和對(duì)單數(shù)據(jù)源的批處理有所區(qū)別.

在大數(shù)據(jù)的知識(shí)工程中，還存在著一些數(shù)據(jù)可用性的挑戰(zhàn).我們這里所探討的大數(shù)據(jù)的可用性，包含數(shù)據(jù)的一致性、完整性、精確性、時(shí)效性和實(shí)體統(tǒng)一性五個(gè)方面［72］.舉例來說，提高數(shù)據(jù)的可用性可以增強(qiáng)銀行卡的安全性.如果數(shù)據(jù)庫(kù)中存在同一用戶的數(shù)據(jù)主體的不統(tǒng)一，例如說同一張銀行卡的某一段較小的時(shí)間間隔內(nèi)，發(fā)生了兩筆空間位置距離較遠(yuǎn)的消費(fèi)記錄，則可能存在欺詐消費(fèi)或者是銀行卡被盜刷的可能.同樣，數(shù)據(jù)隱私的問題也會(huì)影響到數(shù)據(jù)的可用性.為了保護(hù)個(gè)人數(shù)據(jù)的隱私，大規(guī)模數(shù)據(jù)集中可能對(duì)部分敏感字段采取匿名的方法，但是這樣也使得數(shù)據(jù)的使用風(fēng)險(xiǎn)增加和巨大的信息損失.為了在數(shù)據(jù)的隱私和數(shù)據(jù)的可用性之間尋找平衡，研究人員提出了多種方法，例如軌跡匿名算法［73-74］，通過對(duì)用戶的軌跡數(shù)據(jù)的匿名化，同時(shí)融入對(duì)時(shí)間、位置、速度和方向等外在的軌跡特征信息，以及對(duì)軌跡中鄰近位置的改變，來刻畫出軌跡數(shù)據(jù)之間的相似度.

大數(shù)據(jù)的知識(shí)工程旨在形成對(duì)個(gè)性化服務(wù)有價(jià)值和指導(dǎo)作用的專家系統(tǒng).從融合的碎片知識(shí)，我們可以用知識(shí)圖譜表示大數(shù)據(jù)中隱藏的大知識(shí).知識(shí)圖譜的節(jié)點(diǎn)表示碎片化的知識(shí)，連接節(jié)點(diǎn)的邊我們可以看作是碎片化之間的關(guān)聯(lián).我們需要應(yīng)對(duì)的問題是如何量化這些邊和節(jié)點(diǎn)的關(guān)系，尤其是在動(dòng)態(tài)變化的大數(shù)據(jù)關(guān)系中，已得到的知識(shí)圖譜結(jié)構(gòu)也會(huì)產(chǎn)生變化.現(xiàn)有的算法需要從頭推算整個(gè)數(shù)據(jù)的結(jié)構(gòu)并更新知識(shí)圖譜，這種做法相當(dāng)耗費(fèi)時(shí)間.并且，在海量數(shù)據(jù)中形成的知識(shí)圖譜，由于我們無法對(duì)每個(gè)觀測(cè)數(shù)據(jù)都做到保留，經(jīng)過數(shù)據(jù)處理和清洗的大數(shù)據(jù)集形成的知識(shí)圖譜，必然存在諸如數(shù)據(jù)值的丟棄、噪聲［75］、不平衡數(shù)據(jù)［76］等問題.因此，大數(shù)據(jù)的知識(shí)工程需要對(duì)獲取的知識(shí)的真實(shí)性提出評(píng)估機(jī)制和演化關(guān)系的更新標(biāo)準(zhǔn).

大數(shù)據(jù)知識(shí)工程還應(yīng)考慮知識(shí)自動(dòng)化帶來的問題.互聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算等技術(shù)的發(fā)展，雖然帶來了更好的數(shù)據(jù)處理和分析手段，但許多數(shù)據(jù)和信息管理應(yīng)用中仍然存在數(shù)據(jù)過載的問題.大數(shù)據(jù)知識(shí)工程最終希望提供以需求為導(dǎo)向的知識(shí)服務(wù)，但過載數(shù)據(jù)的存在降低了服務(wù)的可用性和精確性.知識(shí)的自動(dòng)化指的不是知識(shí)本身自動(dòng)產(chǎn)生，但可以誘發(fā)知識(shí)的傳播、獲取、分析、影響、產(chǎn)生等方面的重要變革［77］.知識(shí)的自動(dòng)化是信息自動(dòng)化的自然延伸和提高，對(duì)于具有較大不確定性、冗余性、不一致性的數(shù)據(jù)和社會(huì)信息，僅依靠人類的智力很難對(duì)海量大數(shù)據(jù)進(jìn)行更有效分析［78］.采用以數(shù)據(jù)作為驅(qū)動(dòng)的方法，將物理空間產(chǎn)生的數(shù)據(jù)和虛擬空間產(chǎn)生的數(shù)據(jù)結(jié)合起來進(jìn)行分析，將會(huì)更有利于解決數(shù)據(jù)的過載.

3　大數(shù)據(jù)知識(shí)工程模型------BigKE

基于第2節(jié)中大數(shù)據(jù)對(duì)知識(shí)工程中的各種挑戰(zhàn)問題，本節(jié)介紹一種由吳信東等在2015年提出的大數(shù)據(jù)知識(shí)工程模型BigKE［39］（見圖2）.該模型用以解決碎片化知識(shí)建模與多數(shù)據(jù)源的在線學(xué)習(xí)、碎片知識(shí)的非線性融合、需求驅(qū)動(dòng)下的自動(dòng)化知識(shí)導(dǎo)航問題.BigKE模型采用一種三層次的知識(shí)建模方法，最終獲取個(gè)性化的知識(shí)導(dǎo)航服務(wù).下面分別從該模型的三個(gè)層次來進(jìn)行介紹.

3.1多源異構(gòu)數(shù)據(jù)中的碎片化知識(shí)建模

與傳統(tǒng)的知識(shí)工程比較，大數(shù)據(jù)知識(shí)工程著重于提取碎片化知識(shí)，同領(lǐng)域?qū)＜抑R(shí)相結(jié)合，不同于傳統(tǒng)的知識(shí)工程只基于領(lǐng)域?qū)＜业膶＜抑R(shí).這是因?yàn)榇髷?shù)據(jù)來源于多源的異構(gòu)數(shù)據(jù)，數(shù)據(jù)中存在不確定、不完整和異構(gòu)的問題.同領(lǐng)域知識(shí)相比較，碎片化知識(shí)的精確度有所降低，但由于它對(duì)于有個(gè)人偏好的專家知識(shí)的依賴度降低了，換個(gè)角度說，碎片化知識(shí)的無偏性和效率也就提高了.碎片化知識(shí)隱藏在多源異構(gòu)的自治源下，從這樣的數(shù)據(jù)源中發(fā)現(xiàn)知識(shí)是一項(xiàng)富有挑戰(zhàn)和趣味性的工作.以社交媒體為例，2012年10月，美國(guó)總統(tǒng)奧巴馬和羅姆尼州長(zhǎng)之間的總統(tǒng)辯論在2小時(shí)內(nèi)就引發(fā)了超過1000萬(wàn)條的推特信息［79］.如此龐大的信息數(shù)量中，隱藏著復(fù)雜的語(yǔ)義關(guān)系，每個(gè)用戶的評(píng)論行為和情感傾向相互獨(dú)立但又相互影響，這和大規(guī)模數(shù)據(jù)集的自治性相符合.隨著數(shù)據(jù)量的不斷增大，數(shù)據(jù)的來源、數(shù)據(jù)的結(jié)構(gòu)、數(shù)據(jù)之間的關(guān)聯(lián)難以使用現(xiàn)有的知識(shí)工程技術(shù)進(jìn)行整合.如何分析用戶的行為變化和用戶行為之間的相互影響，成為了一個(gè)大數(shù)據(jù)知識(shí)工程問題.

圖2　大數(shù)據(jù)知識(shí)工程模型—BigKE［39］Fig.2　Big data knowledge engineering—BigKE［39］

BigKE模型的第一步采用合適的模型對(duì)多數(shù)據(jù)源中的碎片化數(shù)據(jù)進(jìn)行建模.從多數(shù)據(jù)源中獲取的碎片化知識(shí)對(duì)評(píng)估數(shù)據(jù)的可靠性和數(shù)據(jù)質(zhì)量有重要的作用.為了更好地表示數(shù)據(jù)的特征，BigKE利用在線學(xué)習(xí)方法，同時(shí)考慮“數(shù)據(jù)流”和“特征流”，因?yàn)榇髷?shù)據(jù)知識(shí)工程首先需要關(guān)注的是數(shù)據(jù)的獲取和存儲(chǔ)［80］.在第2節(jié)中我們討論了大數(shù)據(jù)對(duì)于知識(shí)工程提出了數(shù)據(jù)存儲(chǔ)方面的挑戰(zhàn)，在BigKE模型中，目前可以利用的諸如并行數(shù)據(jù)庫(kù)和MapReduce技術(shù)的混合架構(gòu)［59］.對(duì)于快速到來的數(shù)據(jù)，其中含有大量的時(shí)間和空間信息，這些時(shí)空信息可能隱藏?cái)?shù)據(jù)的有用特征，對(duì)流數(shù)據(jù)的處理需要選擇動(dòng)態(tài)的模型來刻畫數(shù)據(jù)的特征.所以同傳統(tǒng)的知識(shí)工程相比，動(dòng)態(tài)大數(shù)據(jù)的知識(shí)提取是一個(gè)重要方面.對(duì)數(shù)據(jù)流數(shù)據(jù)的知識(shí)工程已經(jīng)取得一部分進(jìn)展，例如，針對(duì)數(shù)據(jù)流數(shù)據(jù)的算法研究和數(shù)據(jù)模型的改進(jìn)工作［81］，以及數(shù)據(jù)流數(shù)據(jù)的聚類算法研究［82］.

對(duì)在線獲取的碎片知識(shí)，還需要評(píng)估數(shù)據(jù)的可靠性.這是因?yàn)樵谔幚泶笠?guī)模數(shù)據(jù)的過程中無法對(duì)所有的數(shù)據(jù)進(jìn)行建模，采用的數(shù)據(jù)抽樣方式對(duì)數(shù)據(jù)的可信度產(chǎn)生了影響，同時(shí)，傳統(tǒng)的數(shù)據(jù)學(xué)習(xí)方法和建模方式無法處理在大數(shù)據(jù)環(huán)境下的概念漂移問題.數(shù)據(jù)的精確度和可靠性評(píng)估可以通過對(duì)數(shù)據(jù)的來源來進(jìn)行排序和評(píng)價(jià)，在對(duì)碎片化數(shù)據(jù)進(jìn)行篩選和清洗時(shí)，選擇具有較高質(zhì)量的數(shù)據(jù).關(guān)注特征流的在線學(xué)習(xí)方法和傳統(tǒng)的在線學(xué)習(xí)方法相比，不再僅僅是關(guān)注所處理的數(shù)據(jù)的處理順序，而是對(duì)不斷增長(zhǎng)的大數(shù)據(jù)的數(shù)據(jù)量、巨大的數(shù)據(jù)的特征空間等都有所關(guān)注［39］，這樣提取出來的碎片化知識(shí)具有更高的精確度和可信度.其次，碎片化知識(shí)建模時(shí)，概念漂移的問題對(duì)數(shù)據(jù)的影響也需要注意.概念漂移發(fā)生時(shí)，現(xiàn)有的數(shù)據(jù)對(duì)象的統(tǒng)計(jì)性質(zhì)可能會(huì)隨著時(shí)間的推進(jìn)產(chǎn)生變化，那么我們運(yùn)用的模型如果是固定不變的，所得到的碎片化知識(shí)的真實(shí)性會(huì)產(chǎn)生偏差.我們需要算法和模型具有自適應(yīng)性，以得到我們需要的碎片化知識(shí)［83］.概念漂移的情況下，可能對(duì)數(shù)據(jù)的存儲(chǔ)和記憶需要設(shè)置時(shí)間值，用以保障對(duì)數(shù)據(jù)特征的存儲(chǔ)和描述是最新的.

除了考慮大數(shù)據(jù)的來源，BigKE還著眼于數(shù)據(jù)挖掘和融合的方法來評(píng)估數(shù)據(jù)的質(zhì)量.通過改變傳統(tǒng)的學(xué)習(xí)思路，BigKE在進(jìn)行大數(shù)據(jù)的碎片化知識(shí)建模時(shí)，采用協(xié)同學(xué)習(xí)（Co-learning），這樣可以利用具有相似數(shù)據(jù)特征的數(shù)據(jù)之間的聯(lián)系，從相似的數(shù)據(jù)中互相評(píng)價(jià)和調(diào)用信息，以達(dá)到提高數(shù)據(jù)質(zhì)量的目的，同時(shí)對(duì)于碎片化建模的模型質(zhì)量也會(huì)有所提升.碎片化知識(shí)建模的重要性是不言而喻的.舉個(gè)例子來說，如果一個(gè)健身的手機(jī)APP想要為用戶提供合適的健身計(jì)劃，需要結(jié)合這位用戶在飲食、運(yùn)動(dòng)能力、作息時(shí)間甚至是疾病歷史等多方面的信息，涉及到的時(shí)間軸和空間軸的刻畫是很復(fù)雜的，況且涉及到用戶個(gè)人隱私的信息，諸如個(gè)人收入，有時(shí)候是難以獲得真實(shí)完整的數(shù)據(jù).在這樣的情況下，對(duì)碎片知識(shí)的建模挑戰(zhàn)不僅來源于數(shù)據(jù)模型的挑戰(zhàn)，還涉及到數(shù)據(jù)的可靠性和完整性等問題.

3.2從局部知識(shí)到全局知識(shí)------碎片化知識(shí)融合

通過對(duì)碎片化知識(shí)的建模和語(yǔ)義封裝，我們得到了BigKE第一階段的產(chǎn)物，即用合適的模型表示的碎片化知識(shí).為了進(jìn)一步得到整個(gè)大數(shù)據(jù)集的全局知識(shí)，BigKE需要對(duì)碎片化知識(shí)進(jìn)行非線性融合.多源異構(gòu)的數(shù)據(jù)環(huán)境下，BigKE采用知識(shí)圖譜對(duì)碎片化數(shù)據(jù)進(jìn)行表示.將大數(shù)據(jù)知識(shí)工程同傳統(tǒng)知識(shí)工程相比較，后者先對(duì)收集提取出的知識(shí)進(jìn)行聚合得到全局的知識(shí)，進(jìn)而在全局知識(shí)上進(jìn)行一系列的知識(shí)推斷工作，前者與它的區(qū)別在于通過推斷工作，得到現(xiàn)有的局部的碎片化知識(shí)中可能沒有表現(xiàn)出的有用信息.BigKE對(duì)碎片化知識(shí)的融合具有兩個(gè)創(chuàng)新點(diǎn)：1）考慮到碎片化知識(shí)的融合無法采用簡(jiǎn)單的線性處理方式；2）將碎片化知識(shí)之間的關(guān)聯(lián)表示，轉(zhuǎn)化成知識(shí)圖譜的子圖來處理.

BigKE采用知識(shí)圖譜來表示和融合碎片化知識(shí)具有許多優(yōu)點(diǎn).首先，由于碎片化知識(shí)之間的動(dòng)態(tài)的和演化的語(yǔ)義關(guān)聯(lián)，傳統(tǒng)的線性融合方法和模型無法反映出局部知識(shí)之間的聯(lián)系.碎片化知識(shí)之間的關(guān)系是復(fù)雜的，其復(fù)雜性來源于數(shù)據(jù)源的異構(gòu)性，異構(gòu)導(dǎo)致了不同的碎片化知識(shí)具有不同的記錄、存儲(chǔ)和表示的形式.而知識(shí)圖譜給出了局部知識(shí)到全局知識(shí)的統(tǒng)一的表示形式，這使得碎片化知識(shí)的融合過程更加簡(jiǎn)便.其次，知識(shí)圖譜的點(diǎn)與點(diǎn)之間的路徑可以看做不同的碎片化知識(shí)之間可能的關(guān)聯(lián)，這為個(gè)性化服務(wù)的實(shí)現(xiàn)提供了實(shí)現(xiàn)的可能性.舉個(gè)例子來說，目前的搜索引擎和購(gòu)物網(wǎng)站可以通過用戶的搜索和瀏覽記錄，推薦給用戶相關(guān)的新聞網(wǎng)頁(yè)或者是相關(guān)的物品.諸如亞馬遜的相關(guān)商品推薦和微博上可能認(rèn)識(shí)的用戶的推送信息［84］.每個(gè)用戶的記錄是局部的，關(guān)于用戶的需求的發(fā)現(xiàn)由此轉(zhuǎn)變?yōu)閷ふ抑R(shí)圖譜中用戶的碎片化知識(shí)的相鄰節(jié)點(diǎn)，或者是路徑導(dǎo)航.

采用知識(shí)圖譜來進(jìn)行碎片化知識(shí)的非線性融合時(shí)，我們除了要應(yīng)對(duì)復(fù)雜的異構(gòu)數(shù)據(jù)，還需要處理好碎片化知識(shí)之間固有的語(yǔ)義聯(lián)系.例如，對(duì)同一事件的討論，從微博、微信、推特等不同的社交網(wǎng)站上獲得的碎片化知識(shí)可能包含的是同一種意見傾向，或者是存在敵對(duì)的意見，那么進(jìn)行知識(shí)融合時(shí)我們需要在知識(shí)圖譜中有所體現(xiàn).通過知識(shí)圖譜表示的知識(shí)的節(jié)點(diǎn)和所連接的尚在演化的關(guān)系中需要作出相應(yīng)的調(diào)整.因此，我們需要關(guān)注的是，碎片化知識(shí)融合時(shí)這些聯(lián)系和節(jié)點(diǎn)的表示［85］.BigKE模型中對(duì)碎片知識(shí)的融合，需要對(duì)現(xiàn)有的子圖進(jìn)行一定的篩選，碎片化知識(shí)反映出的局部信息是多數(shù)據(jù)源的自治性的一種表現(xiàn)，這些局部的信息對(duì)獲取全局知識(shí)的重要性，也需要通過子圖的可信度來刻畫.

與現(xiàn)有的推薦網(wǎng)站和個(gè)性化服務(wù)有所不同，大數(shù)據(jù)知識(shí)工程模型BigKE的知識(shí)圖譜結(jié)構(gòu)需要?jiǎng)討B(tài)更新，這是碎片化知識(shí)之間復(fù)雜的動(dòng)態(tài)聯(lián)系所導(dǎo)致的.BigKE對(duì)碎片化知識(shí)的融合過程同樣引入了評(píng)估機(jī)制.BigKE模型的第1層中，需要評(píng)估的是所獲得數(shù)據(jù)的質(zhì)量，在知識(shí)融合的過程中，評(píng)估的是知識(shí)圖譜的可靠性.這是由于碎片化知識(shí)的復(fù)雜關(guān)系同樣受到漂移的影響，由此帶來了關(guān)系的演化.評(píng)估這些碎片化知識(shí)之間的關(guān)聯(lián)可以提升所得到的知識(shí)圖譜的精確度，對(duì)后期知識(shí)導(dǎo)航奠定基礎(chǔ)，評(píng)估的標(biāo)準(zhǔn)可以參考碎片化知識(shí)聯(lián)系的關(guān)系強(qiáng)度等來表述.舉例來說，在不同的關(guān)系中，關(guān)系強(qiáng)度可以被描述為顯式的強(qiáng)度或隱式的強(qiáng)度關(guān)系［86］.碎片化數(shù)據(jù)之間的關(guān)聯(lián)被表示為知識(shí)圖譜的邊，通過對(duì)數(shù)據(jù)間關(guān)聯(lián)的強(qiáng)度刻畫，能夠動(dòng)態(tài)更新知識(shí)圖譜的邊，從而刻畫出大數(shù)據(jù)中動(dòng)態(tài)的數(shù)據(jù)關(guān)聯(lián).

3.3個(gè)性化知識(shí)導(dǎo)航

大數(shù)據(jù)知識(shí)工程的最終目標(biāo)是提供以用戶需求為導(dǎo)向的知識(shí)服務(wù).BigKE模型通過對(duì)碎片化知識(shí)的非線性融合得到了大數(shù)據(jù)的全局知識(shí)，為了將從大數(shù)據(jù)中獲取的知識(shí)應(yīng)用到知識(shí)服務(wù)中，需要考慮用戶的社交信息等個(gè)性化的信息，并需要合適的方法對(duì)用戶的個(gè)性化查詢提供精確的推薦和導(dǎo)航服務(wù).前兩小節(jié)中提到的知識(shí)圖譜，其節(jié)點(diǎn)和邊對(duì)應(yīng)的是知識(shí)的單元和知識(shí)之間的語(yǔ)義關(guān)聯(lián)，提供知識(shí)服務(wù)可以看作尋找某兩點(diǎn)之間的最佳路徑.我們利用用戶需求作為導(dǎo)向，使用知識(shí)圖譜中的連接關(guān)系，尋找用戶節(jié)點(diǎn)包含內(nèi)容之間的關(guān)系.

個(gè)性化服務(wù)的一個(gè)案例是病人之間的同病不同源，因而在4P模型里需要不同的治療方案。在數(shù)據(jù)挖掘技術(shù)快速發(fā)展的時(shí)代，我們應(yīng)該站到數(shù)據(jù)科學(xué)發(fā)展的最前沿，積極探索將全新的數(shù)據(jù)分析技術(shù)和個(gè)性化服務(wù)相融合的方法.類似地，已經(jīng)成功應(yīng)用到網(wǎng)絡(luò)學(xué)習(xí)等系統(tǒng)中的知識(shí)導(dǎo)航服務(wù)，是根據(jù)對(duì)文本語(yǔ)境和瀏覽記錄等數(shù)據(jù)的分析，尋找到最感興趣的另一個(gè)知識(shí)節(jié)點(diǎn)［87］.以社交網(wǎng)絡(luò)為例，我們可以從客戶端的瀏覽器中獲取細(xì)節(jié)信息，就是用戶選擇瀏覽的鏈接列表及其運(yùn)行的時(shí)間［88］.其他可獲取的一些信息的類型，還包括用戶從某一鏈接到另一網(wǎng)站的路徑消耗時(shí)間.這些信息可以用來形成用戶的個(gè)性化查詢，從而我們可以找到最短路徑的鏈接來預(yù)估用戶需求從而做出合適的推薦和導(dǎo)航服務(wù).發(fā)現(xiàn)路徑后，對(duì)從知識(shí)圖譜中提取出的路徑結(jié)構(gòu)還要加以適當(dāng)?shù)恼砉ぷ?

對(duì)用戶的個(gè)性化需求和查詢要求，BigKE模型在知識(shí)圖譜上直接進(jìn)行推斷工作，從而進(jìn)行用戶未來可能行為的預(yù)測(cè).這也是大數(shù)據(jù)知識(shí)工程和傳統(tǒng)知識(shí)工程的一個(gè)區(qū)別.前者注重的是預(yù)測(cè)未來，后者注重的是管理和使用已獲取的數(shù)據(jù)和知識(shí).但由于龐大的數(shù)據(jù)量和知識(shí)圖譜規(guī)模的巨大化，在數(shù)據(jù)維度過高時(shí)會(huì)產(chǎn)生問題，使得新知識(shí)圖譜的構(gòu)建和導(dǎo)航服務(wù)的質(zhì)量下降，因而，發(fā)現(xiàn)算法采取近似手段是必要的.同時(shí)，對(duì)所提供知識(shí)導(dǎo)航服務(wù)的用戶，其潛在需求往往需要結(jié)合到上下文感知、協(xié)同過濾等技術(shù)［89］.開發(fā)和應(yīng)用知識(shí)導(dǎo)航算法時(shí)，上下文感知技術(shù)向我們提供調(diào)整知識(shí)系統(tǒng)運(yùn)行的可能，尤其是涉及到移動(dòng)設(shè)備等的知識(shí)導(dǎo)航服務(wù)，上下文感知技術(shù)能夠大大提高所獲取的知識(shí)的可用性，提升知識(shí)導(dǎo)航服務(wù)的價(jià)值.協(xié)同過濾技術(shù)同樣是為了降低知識(shí)導(dǎo)航的模糊性，提升個(gè)性化服務(wù)的準(zhǔn)確度，基于用戶的系統(tǒng)通過對(duì)推薦和導(dǎo)航服務(wù)預(yù)測(cè)工作的評(píng)價(jià)，可以獲得更優(yōu)良的精度評(píng)價(jià)指標(biāo).

對(duì)用戶的需求和個(gè)性化查詢，BigKE基于知識(shí)圖譜給出的結(jié)果，還需要用一種直觀、簡(jiǎn)便的形式展現(xiàn)給用戶，以提高知識(shí)服務(wù)的可用性和可操作性.例如，用戶總是希望手機(jī)推薦的熱點(diǎn)新聞是以簡(jiǎn)潔的標(biāo)題和某一張新聞圖片結(jié)合的方式呈現(xiàn)的，如果推薦系統(tǒng)只是將推薦的內(nèi)容以長(zhǎng)文本的形式推送給用戶，那么就會(huì)降低用戶的閱讀興趣，從而使獲取的大知識(shí)被用戶忽略.

4　大知識(shí)的挑戰(zhàn)和前景

與5V模型、5R模型、4P醫(yī)學(xué)模型和HACE相比較，BigKE具有它的優(yōu)越性.面向海量多源的動(dòng)態(tài)數(shù)據(jù)，BigKE考慮到大數(shù)據(jù)的異構(gòu)和自治特征，提供基于互聯(lián)網(wǎng)的知識(shí)服務(wù).5V模型、5R模型和4P醫(yī)學(xué)模型提煉出的大數(shù)據(jù)特征，在大數(shù)據(jù)知識(shí)工程中為大數(shù)據(jù)中的“大”知識(shí)的存儲(chǔ)和分析工作提供了導(dǎo)向，但它們沒有強(qiáng)調(diào)大數(shù)據(jù)中數(shù)據(jù)流和特征流的處理方式.對(duì)數(shù)據(jù)流數(shù)據(jù)的碎片化知識(shí)提取和非線性融合可以依靠BigKE的第1層和第2層得到.4P醫(yī)學(xué)模型強(qiáng)調(diào)用戶個(gè)人信息的參與，這需要對(duì)基于互聯(lián)網(wǎng)的大數(shù)據(jù)流之間的語(yǔ)義關(guān)系建立合適的模型.BigKE對(duì)碎片化知識(shí)的語(yǔ)義封裝能夠提供更可靠的個(gè)人信息及它們之間的演化關(guān)系的表示，體現(xiàn)出大數(shù)據(jù)動(dòng)態(tài)的特點(diǎn).HACE定理給出了處理大數(shù)據(jù)的多層框架，BigKE在它的基礎(chǔ)上對(duì)大數(shù)據(jù)挖掘形成的知識(shí)圖譜提出了個(gè)性化服務(wù)的導(dǎo)航，更有利于和具體的應(yīng)用實(shí)例結(jié)合.盡管BigKE同已有的大數(shù)據(jù)模型相比具有自身的優(yōu)勢(shì)，但涉及到大知識(shí)的發(fā)現(xiàn)和挖掘，仍具有進(jìn)一步的挑戰(zhàn).

大數(shù)據(jù)知識(shí)工程模型BigKE旨在解決大數(shù)據(jù)對(duì)知識(shí)工程提出的挑戰(zhàn)，本節(jié)我們討論BigKE中幾個(gè)挑戰(zhàn)問題和可能的應(yīng)用場(chǎng)景.

挑戰(zhàn)1.碎片化知識(shí)的非線性融合.首先，在BigKE的第2層，碎片化知識(shí)生成于異構(gòu)自治的多源數(shù)據(jù).這些數(shù)據(jù)沒有統(tǒng)一的數(shù)據(jù)表示形式，這些碎片化知識(shí)也缺乏統(tǒng)一的邏輯結(jié)構(gòu)，所以知識(shí)融合起來十分困難.傳統(tǒng)的知識(shí)工程處理的信息通常含有一定的邏輯和統(tǒng)一的格式，而BigKE面對(duì)多種形式的數(shù)據(jù)，諸如微博、短信息、傳感器數(shù)據(jù)、音視頻和郵件等，這項(xiàng)挑戰(zhàn)工作也正在形成一個(gè)研究熱點(diǎn).現(xiàn)有的數(shù)據(jù)融合方法大多采用的是有偏估計(jì)，例如，利用多傳感器的有偏估計(jì)，可以將數(shù)據(jù)的融合近似的收斂于無偏的估計(jì)，從一定程度上提高數(shù)據(jù)融合的精確度［90］.將異構(gòu)的碎片化知識(shí)進(jìn)行融合時(shí)，為了形成統(tǒng)一的知識(shí)圖譜形式，我們無法兼顧到所有的信息，因此必然存在對(duì)數(shù)據(jù)和信息的取舍問題，如果單純采用加權(quán)和閾值的形式?jīng)Q定融合過程中對(duì)信息的丟棄，則融合后的全局知識(shí)的精度會(huì)下降.因此，我們需要一個(gè)合適的機(jī)制來選擇在碎片化知識(shí)融合的過程中，對(duì)數(shù)據(jù)信息的取舍做出判斷，期望在盡可能保留原有信息以提高知識(shí)圖譜的準(zhǔn)確度，同時(shí)也能夠以一種簡(jiǎn)便的形式表現(xiàn)出用戶需要的知識(shí).

挑戰(zhàn)2.大知識(shí)圖譜的動(dòng)態(tài)更新.大數(shù)據(jù)知識(shí)工程與傳統(tǒng)知識(shí)工程的一大區(qū)別在于大數(shù)據(jù)知識(shí)工程具有預(yù)測(cè)未來趨勢(shì)的要求.大數(shù)據(jù)不斷地到來，現(xiàn)有的知識(shí)圖譜無法一勞永逸地表現(xiàn)出每時(shí)每刻的數(shù)據(jù)特征.大數(shù)據(jù)的數(shù)量可能呈現(xiàn)驚人的增長(zhǎng)速度，現(xiàn)有數(shù)據(jù)之間的關(guān)聯(lián)隨著時(shí)間的推移也會(huì)產(chǎn)生變化.碎片化知識(shí)的關(guān)聯(lián)隨著原始數(shù)據(jù)關(guān)聯(lián)的變化而變化，表現(xiàn)在知識(shí)圖譜中可能是某個(gè)節(jié)點(diǎn)的消失和新節(jié)點(diǎn)的產(chǎn)生，以及一些新產(chǎn)生的邊的構(gòu)建.知識(shí)圖譜的動(dòng)態(tài)更新主要涉及到兩大問題：1）如何設(shè)置合理的時(shí)間點(diǎn)更新現(xiàn)有知識(shí)圖譜，2）如何確定對(duì)某一數(shù)據(jù)關(guān)聯(lián)的取舍問題.第1個(gè)問題可采用事先設(shè)置好的時(shí)間閾值，以當(dāng)前時(shí)間點(diǎn)為起始，到達(dá)規(guī)定的閾值范圍時(shí)，則重新掃描數(shù)據(jù)集構(gòu)建新的知識(shí)結(jié)構(gòu).這樣的方式雖然可以提高所得到的知識(shí)的質(zhì)量，但是大規(guī)模數(shù)據(jù)集的重新掃描過于耗費(fèi)時(shí)間，不滿足對(duì)大數(shù)據(jù)知識(shí)工程的時(shí)間要求.因此，相比較于采用事先設(shè)置的固定時(shí)間閾值，BigKE的后續(xù)工作可以考慮對(duì)時(shí)間閾值的動(dòng)態(tài)設(shè)置.設(shè)置掃描時(shí)間閾值的動(dòng)態(tài)指標(biāo)可以參考新的數(shù)據(jù)到來的速度，根據(jù)新數(shù)據(jù)產(chǎn)生的多少來調(diào)整更新算法運(yùn)行的時(shí)間間隔.針對(duì)第2個(gè)問題，BigKE的挑戰(zhàn)在于要建立一個(gè)數(shù)據(jù)關(guān)聯(lián)度的評(píng)估評(píng)價(jià)機(jī)制，因?yàn)楝F(xiàn)有的數(shù)據(jù)關(guān)聯(lián)，無論是數(shù)據(jù)節(jié)點(diǎn)還是聯(lián)系，都會(huì)隨著新數(shù)據(jù)的到來和時(shí)間的推移發(fā)生變化.在進(jìn)行知識(shí)圖譜更新時(shí)，為了確定一條現(xiàn)有的邊的保留或者丟棄，現(xiàn)有的數(shù)據(jù)關(guān)聯(lián)強(qiáng)度算法很少考慮到大數(shù)據(jù)的動(dòng)態(tài)性，接下來的工作需要考慮對(duì)數(shù)據(jù)關(guān)聯(lián)強(qiáng)度的評(píng)價(jià)機(jī)制中加入動(dòng)態(tài)的因素.

挑戰(zhàn)3.基于集成和拆解的知識(shí)重組.BigKE的核心思想是集成碎片化數(shù)據(jù)，產(chǎn)生新的知識(shí)面向個(gè)性化服務(wù).然而，碎片有大有小，有些大碎片必須首先分割成小的碎片以后才能有效集成.這就是粒度問題.人們一般不認(rèn)為一本完整的書是知識(shí)碎片.然而，在浩如煙海的書庫(kù)前面，一本書就可以看成是一個(gè)知識(shí)碎片.一篇文章可能會(huì)被看成是知識(shí)碎片.然而，如果分開考察它所包含的許多定理，以及這些定理所組成的知識(shí)體系，那么文章本身又不是碎片了.因此.是碎片還是知識(shí)，是相對(duì)而非絕對(duì)的.如何分拆，如何重組？如何根據(jù)重組的目標(biāo)來分拆？既是技術(shù)問題，也是科學(xué)問題.

挑戰(zhàn)4.海量碎片化知識(shí)的約化表示.海量并不能完全刻畫大數(shù)據(jù)，但是大數(shù)據(jù)一定是海量的，而且大數(shù)據(jù)存在著不確定、不完整、含噪音的數(shù)據(jù)質(zhì)量問題。我們不能在要用到大數(shù)據(jù)時(shí)每次都臨時(shí)到網(wǎng)上去找，所以必須考慮大數(shù)據(jù)和從大數(shù)據(jù)中生成的碎片化知識(shí)的海量存儲(chǔ)和管理問題.在許多的相關(guān)技術(shù)中，大數(shù)據(jù)及其碎片化知識(shí)的存儲(chǔ)、訪問和利用可以采取約化表示.約化的含義是把同一知識(shí)的復(fù)雜表示A轉(zhuǎn)換為簡(jiǎn)單表示B，使得B的容量大大小于A，但是B已經(jīng)包含了A的絕大部分有用信息，已經(jīng)可以在絕大部分場(chǎng)合代替A“出場(chǎng)”.一個(gè)實(shí)例是機(jī)器學(xué)習(xí)中的流形學(xué)習(xí)，它的主要作用是降維，把高維數(shù)據(jù)降為低維數(shù)據(jù)而不影響，或很少影響其特征性質(zhì).該方法在各種模式識(shí)別中有重要應(yīng)用.

挑戰(zhàn)5.BigKE的分布式實(shí)現(xiàn).高效的大數(shù)據(jù)知識(shí)工程一定要走分布式處理的道路，不僅是為了存儲(chǔ)和管理，更重要的是為了計(jì)算效率.我們?cè)谇拔闹刑岬搅艘环N可能的選擇是采用Map-Reduce方法.該方法的核心在于把大數(shù)據(jù)分拆成許多小塊數(shù)據(jù)，分配到許多節(jié)點(diǎn)上，通過分布式方式計(jì)算后再集成其結(jié)果.但這個(gè)方法也不是萬(wàn)能的.對(duì)解決某些問題來說，例如統(tǒng)計(jì)問題，其結(jié)果可能會(huì)不理想.除了前文已經(jīng)提到的把大量分散模塊的數(shù)據(jù)合并計(jì)算可能會(huì)模糊了某些統(tǒng)計(jì)閾值以外，還可能出現(xiàn)統(tǒng)計(jì)值不正確的問題，徐宗本院士指出，Hadoop類型的大數(shù)據(jù)回歸算法，只有在滿足所謂“一致相合”條件下才能提供合理結(jié)果［91］.這樣的挑戰(zhàn)是我們?cè)诎汛髷?shù)據(jù)集成為知識(shí)時(shí)必須應(yīng)對(duì)的.

挑戰(zhàn)6.個(gè)性化用戶行為的建模.大數(shù)據(jù)中的大知識(shí)為我們提供了個(gè)性化的大知識(shí)服務(wù)，個(gè)性化大知識(shí)服務(wù)的關(guān)鍵在于對(duì)個(gè)人和社交信息的建模.由于BigKE提出大數(shù)據(jù)的知識(shí)工程需要直接在知識(shí)圖譜上進(jìn)行知識(shí)的推斷，那么接下來的工作重點(diǎn)應(yīng)該著眼于過濾和選擇算法的實(shí)時(shí)性.在知識(shí)圖譜上的直接推斷可能會(huì)產(chǎn)生幾個(gè)相類似的結(jié)果，除了知識(shí)圖譜的結(jié)構(gòu)在隨著時(shí)間變化，用戶的需求也會(huì)產(chǎn)生變化，所以，BigKE模型面對(duì)的另一大挑戰(zhàn)問題是對(duì)用戶行為的建模.通過聚集個(gè)人和社交的信息，知識(shí)圖譜可望涵蓋用戶的行為和情感傾向，由此BigKE可以對(duì)用戶未來的行為做出推斷，從而動(dòng)態(tài)地改善現(xiàn)有的知識(shí)服務(wù)質(zhì)量.從協(xié)同過濾或上下文感知的過濾和選擇機(jī)制開始，加入用戶行為的推斷，這樣給出的結(jié)果帶有實(shí)時(shí)性，但同時(shí)對(duì)BigKE的挑戰(zhàn)又進(jìn)一步提升了，因?yàn)槎嘁粋€(gè)考慮的維度，帶有需求驅(qū)動(dòng)的大數(shù)據(jù)算法的編譯效率可能就會(huì)下降很多，訓(xùn)練集和測(cè)試集的劃分也會(huì)對(duì)算法的效率有所影響，因此BigKE的后續(xù)工作還涉及到大數(shù)據(jù)算法效率的提升.

大知識(shí)面向國(guó)民經(jīng)濟(jì)的主戰(zhàn)場(chǎng)，在各個(gè)科技領(lǐng)域都會(huì)有著廣泛的應(yīng)用.下面我們分析幾個(gè)大知識(shí)的應(yīng)用場(chǎng)景.

應(yīng)用場(chǎng)景1.動(dòng)態(tài)網(wǎng)絡(luò)大詞典.本文在第1節(jié)中已經(jīng)對(duì)大知識(shí)給出定義.大知識(shí)所具有的海量、異構(gòu)和多源的特性源于大數(shù)據(jù)的來源.將大知識(shí)應(yīng)用到動(dòng)態(tài)詞典的建立和更新中具有廣闊的前景.動(dòng)態(tài)詞典是相對(duì)于傳統(tǒng)的靜態(tài)數(shù)據(jù)而言，詞典的建立和更新是動(dòng)態(tài)的，其動(dòng)態(tài)性體現(xiàn)在隨著社會(huì)和網(wǎng)絡(luò)語(yǔ)言知識(shí)的變化，在較短的時(shí)間間隔內(nèi)動(dòng)態(tài)詞典能夠更新詞匯的內(nèi)容和語(yǔ)言的規(guī)范.從文本語(yǔ)言中抓取即時(shí)的語(yǔ)料庫(kù)，實(shí)現(xiàn)動(dòng)態(tài)詞典的動(dòng)態(tài)特征.事實(shí)上，無論是文本數(shù)據(jù)挖掘還是動(dòng)態(tài)詞典的建立，都需要對(duì)語(yǔ)料庫(kù)加以動(dòng)態(tài)的擴(kuò)充和更新來不斷適應(yīng)伴隨數(shù)據(jù)流和特征流到來的新數(shù)據(jù).除了對(duì)語(yǔ)料庫(kù)的動(dòng)態(tài)更新，網(wǎng)絡(luò)動(dòng)態(tài)詞典所應(yīng)用的大知識(shí)還能體現(xiàn)詞匯的關(guān)聯(lián)和兼容.這是由于大知識(shí)來源于異構(gòu)的大數(shù)據(jù)，從多種媒體抓取的詞語(yǔ)信息，需要經(jīng)過加工和融合形成新的詞語(yǔ)信息對(duì)語(yǔ)料庫(kù)進(jìn)行更新.異構(gòu)的多源信息是否能產(chǎn)生新的大知識(shí)，取決于對(duì)新知識(shí)的評(píng)估體系，評(píng)估內(nèi)容應(yīng)當(dāng)包含新知識(shí)與當(dāng)前已有詞匯信息的重合度比較和關(guān)聯(lián)性分析，以降低動(dòng)態(tài)詞典內(nèi)知識(shí)的重合和冗余.大知識(shí)應(yīng)用在動(dòng)態(tài)詞典的建立和更新中，除了有上述的兩個(gè)關(guān)鍵問題，考慮動(dòng)態(tài)詞典的內(nèi)容，還應(yīng)當(dāng)包含有方言的相關(guān)知識(shí).大知識(shí)的多源特征決定了它應(yīng)當(dāng)涵蓋盡可能多和廣的信息，應(yīng)用在動(dòng)態(tài)詞典中，表現(xiàn)為詞匯的覆蓋范圍需要考慮到時(shí)間和空間兩個(gè)因素.時(shí)間維度上表現(xiàn)為詞典的動(dòng)態(tài)更新，空間維度上表現(xiàn)為詞典的內(nèi)容考慮到地域的不同，則應(yīng)當(dāng)涵蓋盡可能多的方言知識(shí).

應(yīng)用場(chǎng)景2.網(wǎng)絡(luò)新聞的動(dòng)態(tài)跟蹤和總結(jié).大知識(shí)應(yīng)用到多源新聞分析領(lǐng)域，具有新的應(yīng)用前景，可以做新聞的動(dòng)態(tài)跟蹤和總結(jié).在互聯(lián)網(wǎng)2.0時(shí)代，可供獲取的新聞信息增長(zhǎng)過快，然而新聞的數(shù)量快速增長(zhǎng)的同時(shí)，并沒有使得新聞的質(zhì)量同步提升，重復(fù)閱讀的信息耗費(fèi)了用戶大量的時(shí)間.新聞事件中的大知識(shí)，應(yīng)當(dāng)伴隨時(shí)間軸清晰地梳理和表示出新聞事件的多個(gè)主題，包括對(duì)頻繁發(fā)生的新聞事件的當(dāng)前關(guān)注焦點(diǎn)和后期演變形式的跟蹤，以便用戶更加全面和具有針對(duì)性地獲取新聞中重要的本質(zhì).新聞的動(dòng)態(tài)跟蹤和總結(jié)基于大量的新聞網(wǎng)頁(yè)和文本，利用詞共現(xiàn)圖的構(gòu)建提取出用戶感興趣的新聞中的多個(gè)主題，對(duì)與新聞事件相關(guān)的多個(gè)主題建立各自的摘要集合，從而生成各主題的動(dòng)態(tài)跟蹤和總結(jié).在整個(gè)新聞主題的抓取和動(dòng)態(tài)跟蹤過程中，產(chǎn)生了大量的知識(shí).在這個(gè)應(yīng)用背景下，大知識(shí)表現(xiàn)為與用戶感興趣的新聞最具相關(guān)性的新聞主題和摘要總結(jié).動(dòng)態(tài)的新聞跟蹤在考慮新聞查詢和新聞相關(guān)性的基礎(chǔ)上，考慮新聞文檔中的多個(gè)主題，針對(duì)同一個(gè)新聞事件，建立了更加清晰的主題演化過程的展示和更加全面的新聞內(nèi)容的總結(jié).

應(yīng)用場(chǎng)景3.普適醫(yī)療信息的管理與服務(wù).在醫(yī)療應(yīng)用方面，大知識(shí)的應(yīng)用具有廣闊的前景.大知識(shí)與普適醫(yī)療的結(jié)合，可以建立和動(dòng)態(tài)更新醫(yī)療推薦系統(tǒng).通過分析用戶的個(gè)人信息，包括地理位置、個(gè)人病史和社交偏好等，實(shí)時(shí)更新用戶附近的醫(yī)院、藥房等醫(yī)療保障系統(tǒng)的信息.在某一時(shí)刻，用戶根據(jù)需要查詢當(dāng)前針對(duì)某一病癥可獲得的最佳診斷和治療方案.查詢信息表現(xiàn)為現(xiàn)有的病癥表現(xiàn)和疼痛程度等，個(gè)性化推薦信息可以包括距離最近和治療效果最佳的藥房和醫(yī)院等信息.這一過程需要大知識(shí)作為普適醫(yī)療系統(tǒng)的支撐.醫(yī)療數(shù)據(jù)中在地理、多種類醫(yī)療器械和軟件上的分布，由此導(dǎo)致的異構(gòu)性造成了信息集成的困難.同時(shí)，利用收集到的醫(yī)療數(shù)據(jù)挖掘出有價(jià)值的醫(yī)療知識(shí)成為了能否提供準(zhǔn)確的推薦信息的關(guān)鍵.病人的病史分析和現(xiàn)有醫(yī)療知識(shí)圖譜的比對(duì)是否精準(zhǔn)，也需要通過用戶的評(píng)價(jià)系統(tǒng)不斷加以改進(jìn).

應(yīng)用場(chǎng)景4.萬(wàn)維網(wǎng)就業(yè)培訓(xùn).與普適醫(yī)療類似，個(gè)性化的推薦服務(wù)中大知識(shí)還可以滲透到網(wǎng)上創(chuàng)業(yè)培訓(xùn)當(dāng)中.基于萬(wàn)維網(wǎng)的就業(yè)信息，可以構(gòu)建大型的知識(shí)圖譜，其子圖的劃分可以參考就業(yè)的種類選擇、求職人的文化水平以及地域劃分等.就業(yè)技能的數(shù)據(jù)包含多個(gè)職業(yè)分類，數(shù)據(jù)的來源也各不相同，含有地域性的差異，由此導(dǎo)致了數(shù)據(jù)的集成和融合問題.比如，在農(nóng)業(yè)發(fā)達(dá)地區(qū)，對(duì)種植指導(dǎo)專家崗位的需求遠(yuǎn)遠(yuǎn)大于漁業(yè)和工商業(yè)發(fā)達(dá)地區(qū).那么網(wǎng)上就業(yè)培訓(xùn)系統(tǒng)需要依據(jù)用戶的地理信息進(jìn)行數(shù)據(jù)的篩選和過濾，結(jié)合用戶的個(gè)人就業(yè)傾向和現(xiàn)有的崗位的地理位置，進(jìn)行就業(yè)培訓(xùn)內(nèi)容的推薦.事實(shí)上，個(gè)人通過網(wǎng)上就業(yè)培訓(xùn)系統(tǒng)學(xué)習(xí)就業(yè)技能時(shí)，系統(tǒng)根據(jù)用戶所提出的限定條件，反饋出的信息是從已有的大知識(shí)圖譜中尋找針對(duì)某一問題的映射，為用戶提供市場(chǎng)分析和技能培訓(xùn).

例如，某個(gè)本科即將畢業(yè)的計(jì)算機(jī)專業(yè)的學(xué)生希望策劃一份上海的軟件開發(fā)工作，該學(xué)生已具備的知識(shí)可能有高等數(shù)學(xué)和數(shù)據(jù)結(jié)構(gòu)等基礎(chǔ)知識(shí)，但某一符合他就業(yè)期望的崗位還需要具備高級(jí)編程語(yǔ)言的技能.通過將大知識(shí)圖譜中的某一針對(duì)性映射同用戶個(gè)人的知識(shí)圖譜進(jìn)行比對(duì)，可以發(fā)現(xiàn)相似的節(jié)點(diǎn)以及缺失的節(jié)點(diǎn)，從而尋找到用戶就業(yè)需要學(xué)習(xí)的技能，提高知識(shí)學(xué)習(xí)導(dǎo)航的準(zhǔn)確性.網(wǎng)上就業(yè)培訓(xùn)的關(guān)鍵在于個(gè)人圖譜和大知識(shí)圖譜的比對(duì)以及大知識(shí)圖譜的構(gòu)建，這些關(guān)鍵問題隨著大知識(shí)應(yīng)用范圍的擴(kuò)大會(huì)成為進(jìn)一步的挑戰(zhàn).

應(yīng)用場(chǎng)景5.自動(dòng)編輯和出版.上面提到的挑戰(zhàn)3，如果能夠很好地解決，則自動(dòng)知識(shí)編輯的前景就可以實(shí)現(xiàn).例如：要求計(jì)算機(jī)根據(jù)庫(kù)中的一萬(wàn)本計(jì)算機(jī)科學(xué)電子書，自動(dòng)編輯下列新書：計(jì)算機(jī)科學(xué)百科全書、計(jì)算機(jī)軟件教程、大數(shù)據(jù)發(fā)展史要、計(jì)算機(jī)專業(yè)大學(xué)生用操作系統(tǒng)習(xí)題集等.從長(zhǎng)遠(yuǎn)來看，只要我們有一個(gè)數(shù)量巨大、組織合理、不斷更新的“知識(shí)碎片庫(kù)”，那么編輯和出版新書以滿足各種社會(huì)需求就不再是一個(gè)大量耗費(fèi)人力和財(cái)力的事業(yè).

應(yīng)用場(chǎng)景6.智慧城市的動(dòng)態(tài)認(rèn)知與決策.面向智慧城市及城市重大事件管理的實(shí)際需求，大數(shù)據(jù)知識(shí)工程可以針對(duì)城市大數(shù)據(jù)在自然屬性、地理屬性、時(shí)間屬性、社會(huì)屬性以及交互行為等方面的異構(gòu)、自治、多介、高維、低質(zhì)等特點(diǎn)，發(fā)現(xiàn)伴隨時(shí)空維度推進(jìn)下蘊(yùn)含的內(nèi)在關(guān)聯(lián)語(yǔ)義一致性，實(shí)現(xiàn)復(fù)雜關(guān)系的動(dòng)態(tài)認(rèn)知和演化計(jì)算，探索多源感知信息的多層次關(guān)聯(lián)、語(yǔ)義提取與融合分析的機(jī)制和方法，實(shí)現(xiàn)多源異構(gòu)城市數(shù)據(jù)的緊耦合.智慧城市的動(dòng)態(tài)認(rèn)知可以進(jìn)行跨時(shí)空城市感知數(shù)據(jù)的關(guān)聯(lián)推理和深度挖掘，研究多維（時(shí)間、空間、屬性、語(yǔ)義）數(shù)據(jù)分析的城市重大事件管理方法，包括同類、異類城市事件的相關(guān)性分析、以及預(yù)測(cè)未來一段時(shí)間內(nèi)同地區(qū)發(fā)生類似事件的可能性，對(duì)城市群體行為或個(gè)別重大事件數(shù)據(jù)進(jìn)行理解與分析，建立城市行為動(dòng)力學(xué)理論體系.智慧城市的動(dòng)態(tài)決策可以通過城市重大事件的交互式臨場(chǎng)分析，實(shí)現(xiàn)協(xié)同感知下城市大數(shù)據(jù)的推理模型，研究城市行為事件間相互作用、滲透和擴(kuò)散的物理模型，以揭示城市行為涌現(xiàn)、傳播和演化機(jī)制，對(duì)面向公共安全的敏感事件進(jìn)行語(yǔ)義理解、檢測(cè)跟蹤和預(yù)測(cè)預(yù)警.智慧城市的動(dòng)態(tài)認(rèn)知與決策基于數(shù)據(jù)和知識(shí)的聯(lián)合驅(qū)動(dòng)以及多模態(tài)數(shù)據(jù)的關(guān)聯(lián)增強(qiáng)技術(shù)，采用多源信息的視覺轉(zhuǎn)換機(jī)制和自適應(yīng)交互可視化方法，旨在推進(jìn)人機(jī)智能的深度耦合，實(shí)現(xiàn)“數(shù)據(jù)—信息—知識(shí)”階進(jìn)式服務(wù)，從而實(shí)現(xiàn)大數(shù)據(jù)時(shí)代的大知識(shí)精細(xì)化城市模擬及管理.

5　總結(jié)

從大數(shù)據(jù)中獲取有價(jià)值的大知識(shí)具有許多問題和挑戰(zhàn)，這與大數(shù)據(jù)的本質(zhì)特征密不可分.由大數(shù)據(jù)的HACE定理，我們了解到大數(shù)據(jù)異構(gòu)和自治的本質(zhì)特征，其分布式和分散式控制的特點(diǎn)，以及大數(shù)據(jù)之間復(fù)雜和演化的關(guān)聯(lián).大數(shù)據(jù)的本質(zhì)特征使得知識(shí)工程存在諸多挑戰(zhàn)，利用傳統(tǒng)的數(shù)據(jù)分析和處理手段無法解決這些問題.現(xiàn)有的幾種大數(shù)據(jù)模型，包括5V，5R，4P和HACE定理，在解決大數(shù)據(jù)知識(shí)工程的問題和挑戰(zhàn)中具有各自的優(yōu)劣.本文從知識(shí)建模的角度介紹一種大數(shù)據(jù)知識(shí)工程模型BigKE，BigKE模型從大數(shù)據(jù)源中提取碎片化知識(shí)，進(jìn)而對(duì)這些碎片化知識(shí)進(jìn)行非線性的知識(shí)融合，最終根據(jù)用戶的需求作為導(dǎo)向，提供個(gè)性化的大知識(shí)服務(wù).將BigKE模型和一些現(xiàn)有的大數(shù)據(jù)模型相比較，BigKE通過其三層架構(gòu)給出了現(xiàn)有大數(shù)據(jù)模型提出的一些挑戰(zhàn)問題的解決思路.為了從大數(shù)據(jù)中獲取更高質(zhì)量的大知識(shí)，BigKE模型還有許多有價(jià)值的后續(xù)工作，主要針對(duì)BigKE中無法解決的挑戰(zhàn)給出后續(xù)工作的方向.大知識(shí)的進(jìn)一步挑戰(zhàn)與其廣泛的應(yīng)用前景密切相關(guān)，在動(dòng)態(tài)網(wǎng)絡(luò)大詞典的構(gòu)建、新聞的動(dòng)態(tài)跟蹤和總結(jié)、普適醫(yī)療、網(wǎng)上就業(yè)培訓(xùn)、自動(dòng)編輯和出版、以及智慧城市的動(dòng)態(tài)認(rèn)知和決策等應(yīng)用場(chǎng)景中，大知識(shí)還大有可為.

致謝

HACE定理和BigKE模型是文獻(xiàn)［15，39］的合作者們共同研究的成果，本文的討論和展望也得益于同這些作者和其他大數(shù)據(jù)知識(shí)工程方向合作者的廣泛交流，這里對(duì)國(guó)內(nèi)合肥工業(yè)大學(xué)、西安交通大學(xué)、中國(guó)科學(xué)院數(shù)學(xué)所、中國(guó)科學(xué)技術(shù)大學(xué)、華東師范大學(xué)、廣西師范大學(xué)、百度和國(guó)外眾多單位的同行和合作研究者們一并表示感謝.

References

1 Beyer M A，Laney D.The importance of“Big Data”：a definition［Online］，available：https：//www.gartner.com/doc/ 2057415，F(xiàn)ebruary 17，2016

2 Marr B.Big data：the 5 Vs everyone must know［Online］，http：//www.linkedin.com/pulse/20140306073407-648 75646-big-data-the-5-vs-everyone-must-know，January 21，2016

3 Mervis J.Agencies rally to tackle big data.Science，2013，336（6077）：22-22

4 Wang Fei-Yue.Software-deined systems and knowledge automation：a parallel paradigm shift from Newton to Merton. Acta Automatica Sinica，2015，42（1）：1-8（王飛躍.軟件定義的系統(tǒng)與知識(shí)自動(dòng)化：從牛頓到默頓的平行升華.自動(dòng)化學(xué)報(bào)，2015，42（1）：1-8）

5 Fish A N.Knowledge Automation:How to Implement Decision Management in Business Processes.USA：Wiley，2012.

6 Fern′andez A，Del R′?o S，L′opez V，Bawakid A，Del Jesus M J，Ben′?tez J M，Herrera F.Big data with cloud computing：an insight on the computing environment，MapReduce，and programming frameworks.Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery，2014，4（5）：380-409

7 Kent S M.Sloan digital sky survey.Science with Astronomical Near-Infrared Sky Surveys.France：Springer，1994.27-30

8 Labrinidis A，Jagadish H V.Challenges and opportunities with big data.Proceedings of the VLDB Endowment，2012，5（12）：2032-2033

9 Knoll A，Meinkoehn J.Data fusion using large multi-agent networks：an analysis of network structure and performance. In：Proceedings of the 1994 IEEE International Conference on MFI′94，Multisensor Fusion and Integration for Intelligent Systems（MFI）.Las Vegas，NV：IEEE，1994.113-120

10 Nature Editorial.Community cleverness required.Nature，2008，455（7209）：1-1

11 Che D R，Safran M，Peng Z Y.From big data to big data mining：challenges，issues，and opportunities.In：Proceedings of the 18th International Conference on Database Systems for Advanced Applications.Wuhan，China：Springer，2013.1-15

12 Stidston M.Business leaders need R′s not V′s：the 5 R′s of big data［Online］，available：https：//www.mapr.com/blog/ business-leaders-need-r%E2%80%99s-not-v%E2%80%99s-5 -r%E2%80%99s-big-data#.U2qmcq1dWIU，December 21，2015

13 Wang Ji，Wang Qi.Chinese constitution research and the practice of 4P medical model.Chinese Journal of Integrated Traditional and Western Medicine，2012，32（5）：693-695（王濟(jì)，王琦.中醫(yī)體質(zhì)研究與4P醫(yī)學(xué)的實(shí)施.中國(guó)中西醫(yī)結(jié)合雜志，2012，32（5）：693-695）

14 Auffray C，Charron D，Hood L.Predictive，preventive，personalized and participatory medicine：back to the future. Genome Medicine，2010，2（8）：57-57

15 Wu X D，Zhu X Q，Wu G Q，Ding W.Data mining with big data.IEEE Transactions on Knowledge and Data Engineering，2014，26（1）：97-107

16 Wikipedia.Big data［Online］，available：https：//en.wikipedia.org/wiki/Big data#Definition，December 12，2015

17 IDC 權(quán)威定義大數(shù)據(jù)概念：滿足 4V 標(biāo)準(zhǔn) ［Online］，available： http：//www.d1net.com/bigdata/news/237143.html，December 12，2015

18 Tien J M.Big data：unleashing information.Journal of Systems Science and Systems Engineering，2013，22（2）：127-151

19 Wang Yuan-Zhuo，Jin Xiao-Long，Cheng Xue-Qi.Network big data：present and future.Chinese Journal of Computers，2013，36（6）：1125-1138（王元卓，靳小龍，程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù)：現(xiàn)狀與展望.計(jì)算機(jī)學(xué)報(bào)，2013，36（6）：1125-1138）

20 Wang Wei-Wei，Li Xiao-Ping，F(xiàn)eng Xiang-Chu，Wang Si-Qi. A survey on sparse subspace clustering.Acta Automatica Sinica，2015，41（8）：1373-1384（王衛(wèi)衛(wèi)，李小平，馮象初，王斯琪.稀疏子空間聚類綜述.自動(dòng)化學(xué)報(bào)，2015，41（8）：1373-1384）

21 Armbrust M，F(xiàn)ox A，Griffith R，Joseph A D，Katz R H，Konwinski A，Lee G，Patterson D A，Rabkin A，Stoica I，Zaharia M.Above the Clouds：A Berkeley View of Cloud Computing，Technical Report UCB/EECS-2009-28，EECS Department，University of California，Berkeley，2009

22 Blaabjerg F，Teodorescu R，Liserre M，Timbus A V. Overview of control and grid synchronization for distributed power generation systems.IEEE Transactions on Industrial Electronics，2006，53（5）：1398-1409

23 Leskovec J，Huttenlocher D，Kleinberg J.Signed networks in social media.In：Proceedings of the 2010 SIGCHI Conference on Human Factors in Computing Systems.New York：ACM，2010.1361-1370

24 Zikopoulos P，Eaton C.Understanding Big Data:Analytics for Enterprise Class Hadoop and Streaming Data.USA：McGraw-Hill Osborne Media，2011.

25 The four V′s of big data［Online］，available：http：//www.ibmbigdatahub.com/sites/default/files/infographic file/4-Vsof-big-data.jpg，January 21，2016

26 Lazer D，Kennedy R，King G，Vespignan A.The parable of google flu：traps in big data analysis.Science，2014，343（6176）：1203-1205

27 IBM.What is big data？［Online］，available：http：//www-01.ibm.com/software/data/bigdata/what-is-big-data.html，December 2，2015

28 Barwick H.The“four Vs”of big data.Implementing information infrastructure symposium ［Online］，available： http：//www.computerworld.com.au/article/396198/December 2，2015

29數(shù)據(jù)并非越大越好：谷歌流感趨勢(shì)錯(cuò)在哪兒了？［Online］，available：http：//www.guokr.com/article/438117/，December 2，2015

30 Ghemawat S，Gobioff H，Leung S T.The Google file system. In：Proceedings of the 19th ACM Symposium on Operating Systems Principles.New York：ACM，2003.29-43

31 Dean J，Ghemawat S.MapReduce：simplified data processing on large clusters.In：Proceedings of the 6th Symposium on Operating Systems Design and Implementation.Berkeley，CA，USA：USENIX Association，2004.137-149

32 Big data solution offering［Online］，available：http：//mike2. openmethodology.org/wike/BigDataSolutionOffering，November 28，2015

33 White T.Hadoop:The Definitive Guide（2nd Edition）. USA：Yahoo Press，2010.1-4

34 Gupta P，Kumar P，Gopal G.Sentiment analysis on Hadoop with Hadoop streaming.International Journal of Computer Applications，2015，121（11）：4-8

35 Liao S H.Expert system methodologies and applications—a decade review from 1995 to 2004.Expert Systems with Applications，2005，28（1）：93-103

36 Wu Xin-Dong，Ye Ming-Quan，Hu Dong-Hui，Wu Gong-Qing，Hu Xue-Gang，Wang Hao.Pervasive medical information management and services：key techniques and challenges.Chinese Journal of Computers，2012，35（5）：827-845（吳信東，葉明全，胡東輝，吳共慶，胡學(xué)鋼，王浩.普適醫(yī)療信息管理與服務(wù)的關(guān)鍵技術(shù)與挑戰(zhàn).計(jì)算機(jī)學(xué)報(bào)，2012，35（5）：827-845）

37 Auffray C，Chen Z，Hood L.Systems medicine：the future of medical genomics and healthcare.Genome Medicine，2009，1（1）：2-2

38 Luo Xu，Chen Bo，Luo Li-Ya，Zhang Hong-Yan，Wu Hao，Li Jing-Bo.Discussion on reconstructing hospital healthcare management under 4P medical conception.Chinese Hospitals，2014，18（7）：61-63（羅旭，陳博，羅莉婭，張宏雁，吳昊，李景波.4P醫(yī)學(xué)理念下醫(yī)院健康管理體系重構(gòu)思考.中國(guó)醫(yī)院，2014，18（7）：61-63）

39 Wu X D，Chen H H，Wu G Q，Liu J，Zheng Q H，He X F，Zhou A Y，Zhao Z Q，Wei B F，Li Y，Zhang Q P，Zhang S C，Lu R Q，Zheng N N.Knowledge engineering with big data.IEEE Intelligent Systems，2015，30（5）：46-55

40 Klasnja P，Pratt W.Healthcare in the pocket：mapping the space of mobile-phone health interventions.Journal of Biomedical Informatics，2012，45（1）：184-198

41 Vassis D，Belsis P，Skourlas C，Pantziou G.Providing advanced remote medical treatment services through pervasive environments.Personal and Ubiquitous Computing，2010，14（6）：563-573

42合肥工業(yè)大學(xué)吳信東：大數(shù)據(jù)Processing Framework多層架構(gòu)［Online］，available：http：//www.csdn.net/article/2012-07-27/2825305，December 7，2015

43 Petersen W P，Arbenz P.Introduction to Parallel Computing.Oxford：Oxford University Press，2004.

44 Corbett J C，Dean J，Epstein M，F(xiàn)ikes A，F(xiàn)rost C，F(xiàn)urman J J，Ghemawat S，Gubarev A，Heiser C，Hochschild P，Hsieh W，Kanthak S，Kogan E，Li H Y，Lloyd A，Melnik S，Mwaura D，Nagle D，Quinlan S，Rao R，Rolig L，Saito Y，Szymaniak M，Taylor C，Wang R，Woodford D.Spanner：Google′s globally-distributed database.ACM Transactions on Computer Systems，2012，31（3）：Article No.8

45 Chang F，Dean J，Ghemawat S，Hsieh W C，Wallach D A，Burrows M，Chandra T，F(xiàn)ikes A，Gruber R E.BigTable：a distributed storage system for structured data.ACM Transactions on Computer Systems，2008，26（2）：Article No.4

46 Peel M，Rowley J.Information sharing practice in multiagency working.ASLIB Proceedings，2010，62（1）：11-28

47 Wang M D，Li B，Zhao Y X，Pu G G.Formalizing Google file system.In：Proceedings of the 20th IEEE Pacific Rim International Symposium on Dependable Computing（PRDC）. Singapore：IEEE，2014.190-191

48 Cormode G，Srivastava D.Anonymized data：generation，models，usage.In：Proceedings of the 2009 ACM SIGMOD International Conference on Management of Data.Providence，RI：ACM，2009.1015-1018

49 Sweeney L.k-anonymity： a model for protecting privacy.International Journal of Uncertainty，F(xiàn)uzziness and Knowledge-Based Systems，2002，10（5）：557-570

50 Kopanas I，Avouris N M，Daskalaki S.The role of domain knowledge in a large scale data mining project.Methods and Applications of Artificial Intelligence.Thessaloniki，Greece：Springer，2002.288-299

51 Salton G M，Wong A，Yang C S.A vector space model for automatic indexing.Communications of the ACM，1975，18（11）：613-620

52 Deerwester S C，Dumais S T，F(xiàn)urnas G W，Landauer T K，Harshman R.Indexing by latent semantic analysis.Journal of the American Society for Information Science，1990，41（6）：391-407

53 Freedman E G，Shah P.Toward a model of knowledgebased graph comprehension.Diagrammatic Representation and Inference.Callaway Gardens，GA，USA：Springer，2002. 18-30

54 Aral S，Walker D.Identifying influential and susceptible members of social networks.Science，2012，337（6092）：337-341

55 Centola D.The spread of behavior in an online social network experiment.Science，2010，329（5996）：1194-1197

56 Strassel S，Adams D，Goldberg H，Herr J，Keesing R，Oblinger D，Simpson H，Schrag R，Wright J.The DARPA machine reading program—encouraging linguistic and reasoning research with a series of reading tasks.In：Proceedings of the 7th International Conference on Language Resources and Evaluation.Valletta，Malta：European Language Resources Association，2010.986-993

57 Studer R，Benjamins V R，F(xiàn)ensel D.Knowledge engineering：principles and methods.Data and Knowledge Engineering，1998，25（1-2）：161-197

58 Pan Yun-He，Wang Jin-Long，Xu Cong-Fu.State-of-the-art on frequent pattern mining in data streams.Acta Automatica Sinica，2006，32（4）：594-602（潘云鶴，王金龍，徐從富.數(shù)據(jù)流頻繁模式挖掘研究進(jìn)展.自動(dòng)化學(xué)報(bào)，2006，32（4）：594-602）

59 Wang Shan，Wang Hui-Ju，Qin Xiong-Pai，Zhou Xuan.Architecting big data：challenges，studies and forecasts.Chinese Journal of Computers，2011，34（10）：1741-1752（王珊，王會(huì)舉，覃雄派，周火亙.架構(gòu)大數(shù)據(jù)：挑戰(zhàn)、現(xiàn)狀與展望.計(jì)算機(jī)學(xué)報(bào)，2011，34（10）：1741-1752）

60 Guha S，Mishra N，Motwani R，O′Callaghan L.Clustering data streams.In：Proceedings of the 41st Annual Symposium on Foundations of Computer Science.Redono Beach，USA：IEEE，2000.359-366

61 Zhu Qun，Zhang Yu-Hong，Hu Xue-Gang，Li Pei-Pei.A double-window-based classification algorithm for concept drifting data streams.Acta Automatica Sinica，2011，37（9）：1077-1084（朱群，張玉紅，胡學(xué)鋼，李培培.一種基于雙層窗口的概念漂移數(shù)據(jù)流分類算法.自動(dòng)化學(xué)報(bào)，2011，37（9）：1077-1084）

62 Zhang Xin，Li Xiao-Guang，Wang Da-Ling，Yu Ge.A highspeed heuristic algorithm for mining frequent patterns in data stream.Journal of Software，2005，16（12）：2099-2105（張昕，李曉光，王大玲，于戈.數(shù)據(jù)流中一種快速啟發(fā)式頻繁模式挖掘方法.軟件學(xué)報(bào)，2005，16（12）：2099-2105）

63 Wu X D，Yu K，Ding W，Wang H，Zhu X Q.Online feature selection with streaming features.IEEE Transactions on Pattern Analysis and Machine Intelligence，2013，35（5）：1178-1192

64 Zhang Q，Zhang P，Long G D，Ding W，Zhang C Q，Wu X D. Towards mining trapezoidal data streams.In：Proceedings of the 2015 IEEE International Conference on Data Mining（ICDM′15）.Atlantic City，NJ，USA：IEEE，2015.1111 -1116

65 Wu X D，Yu K，Wang H，Ding W.Online streaming feature selection.In：Proceedings of the 27th International Conference on Machine Learning.Haifa，Israel，2010.1159-1166

66 Kivinen J，Smola A J，Williamson R C.Online learning with kernels.IEEE Transactions on Signal Processing，2004，52（8）：2165-2176

67 Kimeldorf G，Wahba G.Some results on Tchebycheffian spline functions.Journal of Mathematical Analysis and Applications，1971，33（1）：82-95

68 Zhou Z H，Chawla N V，Jin Y C，Williams G J.Big data opportunities and challenges：discussions from data analytics perspectives［Discussion forum］.IEEE Computational Intelligence Magazine，2014，9（4）：62-74

69 Vijayakumar S，D′Souza A，Schaal S.Incremental online learning in high dimensions.Neural Computation，2005，17（12）：2602-2634

70 Hunter A，Summerton R.Fusion rules for context-dependent aggregation of structured news reports.Journal of Applied Non-Classical Logics，2004，14（3）：329-366

71ˇZliobait˙e I.Learning under concept drift：an overview.Computer Science— Artificial Intelligence［Online］，available：http：//arxiv.org/abs/1010.4784，May 31，2015

72 Li Jian-Zhong，Liu Xian-Min.An important aspect of big data：data usability.Journal of Computer Research and Development，2013，50（6）：1147-1162（李建中，劉顯敏.大數(shù)據(jù)的一個(gè)重要方面：數(shù)據(jù)可用性.計(jì)算機(jī)研究與發(fā)展，2013，50（6）：1147-1162）

73 Samarati P，Sweeney L.Protecting privacy when disclosing information：k-anonymity and its enforcement through generalization and suppression.In：Proceedings of the 1998 IEEE Symposium on Research in Security and Privacy.Palo Alto，CA：IEEE，1998.1-19

74 Wang Chao，Yang Jing，Zhang Jian-Pei.Research on trajectory privacy preserving method based on trajectory characteristics and dynamic proximity.Acta Automatica Sinica，2015，41（2）：330-341（王超，楊靜，張健沛.基于軌跡特征及動(dòng)態(tài)鄰近性的軌跡匿名方法研究.自動(dòng)化學(xué)報(bào)，2015，41（2）：330-341）

75 Wu X D，Zhu X Q.Mining with noise knowledge：erroraware data mining.IEEE Transactions on Systems，Man，and Cybernetics— Part A:Systems and Humans，2008，38（4）：917-932

76 He H B，Garcia E A.Learning from imbalanced data.IEEE Transactions on Knowledge and Data Engineering，2009，21（9）：1263-1284

77王飛躍.邁向知識(shí)自動(dòng)化［Online］，available：http：//www.cas. cn/xw/zjsd/201401/t201401034009925.shtml，June 1，2016

78 Deng Jian-Ling，Wang Fei-Yue，Chen Yao-Bin，Zhao Xiang-Yang.From industries 4.0 to energy 5.0：concept and framework of intelligent energy systems.Acta Automatica Sinica，2015，41（12）：2003-2016（鄧建玲，王飛躍，陳耀斌，趙向陽(yáng).從工業(yè)4.0到能源5.0：智能能源系統(tǒng)的概念、內(nèi)涵及體系框架.自動(dòng)化學(xué)報(bào)，2015，41（12）：2003

79 -T2w0it1t6e）r Blog.Dispatch from the Denver debate［Online］，available：http：//blog.twitter.com/2012/100dispatch-reomdenver-debate.html，October 1，2012

80 Chun D X，Jun C J，Zhong C Y，Chao T M，Cong P.Data engineering in information system construction.In：Proceedings of the 2012 IEEE Symposium on Robotics and Applications（ISRA）.Kuala Lumpur：IEEE，2012.135-137

81 Aggarwal C C.Data Streams:Models and Algorithms（Advances in Database Systems）.US：Springer，2007.

82 Silva J A，F(xiàn)aria E R，Barros R C，Hruschka E R，de Carvalho A C P L F，Gama J.Data stream clustering：a survey. ACM Computing Surveys，2013，46（1）：Article No.13

83 Patil P D，Kulkarni P.Adaptive supervised learning model for training set selection under concept drift data streams. In：Proceedings of the 2013 International Conference on Cloud and Ubiquitous Computing and Emerging Technologies.Pune：IEEE，2013.36-41

84 Hakkani-T¨ur D，Heck L，Tur G.Using a knowledge graph and query click logs for unsupervised learning of relation detection.In：Proceedings of the 2013 IEEE International Conference on Acoustics，Speech，and Signal Processing. Vancouver，BC：IEEE，2013.8327-8331

85 Dantas J R V，F(xiàn)arias P P M.Conceptual navigation in knowledge management environments using NavCon.Information Processing and Management，2010，46（4）：413-425

86 Xu C J，Li A P，Liu X M.Knowledge fusion and evaluation system with fusion-knowledge measure.In：Proceedings of the 2nd International Symposium on Computational Intelligence and Design.Changsha，China：IEEE，2009.127-131

87 Shahabi C，Zarkesh A M，Adibi J，Shah V.Knowledge discovery from users web-page navigation.In：Proceedings of the 7th International Workshop on Research Issues in Data Engineering.Birmingham：IEEE，1997.20-29

88 Baldauf M，Dustdar S，Rosenberg F.A survey on contextaware systems.International Journal of Ad Hoc and Ubiquitous Computing，2007，2（4）：263-277

89 Herlocker J L，Konstan J A，Terveen L G，Riedl J T.Evaluating collaborative filtering recommender systems.ACM Transactions on Information Systems，2004，22（1）：5-53

90 Yue Yuan-Long，Zuo Xin，Luo Xiong-Lin.Improving measurement reliability with biased estimation for multi-sensor data fusion.Acta Automatica Sinica，2014，40（9）：1843-1852（岳元龍，左信，羅雄麟.提高測(cè)量可靠性的多傳感器數(shù)據(jù)融合有偏估計(jì)方法.自動(dòng)化學(xué)報(bào)，2014，40（9）：1843-1852）

91 Xu C，Zhang Y Q，Li R Z.On the feasibility of distributed kernel regression for big data.Statistics［Online］，available：http：//arxiv.org/abs/1505.00869，May 31，2016

吳信東長(zhǎng)江學(xué)者，“千人”計(jì)劃特聘教授，IEEE Fellow，AAAS Fellow.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院教授.美國(guó)佛蒙特大學(xué)計(jì)算機(jī)與科學(xué)系教授.1993年獲得英國(guó)愛丁堡大學(xué)人工智能博士學(xué)位.主要研究方向?yàn)閿?shù)據(jù)挖掘，知識(shí)庫(kù)系統(tǒng)，萬(wàn)維網(wǎng)信息探索.本文通信作者.

E-mail:xwu@hfut.edu.cn

（WU Xin-DongProfessor at the College of Computer Science and Information Engineering，Hefei University of Technology；professor in the Department of Computer Science，the University of Vermont.He received his Ph.D.degree from the University of Edinburgh in 1993.His research interest covers data mining，knowledge based systems，and Web information exploration.Corresponding author of this paper.）

何進(jìn)合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院碩士研究生.2015年獲得安徽財(cái)經(jīng)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系學(xué)士學(xué)位.主要研究方向?yàn)閿?shù)據(jù)挖掘和大數(shù)據(jù)分析.

E-mail:flyingfish93319@126.com

（HE JinMaster student at the College of Computer Science and Information Engineering，Hefei University of Technology.She received her bachelor degree from Anhui Finance and Economics University in 2015.Her research interest covers data mining and big data analytics.）

陸汝鈐中國(guó)科學(xué)院院士.1959年獲得德國(guó)耶拿大學(xué)數(shù)學(xué)系學(xué)士學(xué)位.主要研究方向?yàn)橹R(shí)工程，基于知識(shí)的軟件工程，人工智能.E-mail:rqlu@math.ac.cn

（LU Ru-QianMember of the Chinese Academy of Sciences.He received his bachelor degree from the University of Jena（Germany）in 1959.His research interest covers knowledge engineering，knowledge based software engineering，and artificial intelligence.）

鄭南寧中國(guó)工程院院士，IEEE Fellow，西安交通大學(xué)教授.1985年獲得日本慶應(yīng)大學(xué)工學(xué)博士學(xué)位.主要研究方向?yàn)槟Ｊ阶R(shí)別，機(jī)器視覺與圖像處理.

E-mail:nnzheng@mail.xjtu.edu.cn

（ZHENG Nan-NingMember of the Chinese Academy of Engineering，IEEE Fellow，and professor at Xi′an Jiaotong University.He received his Ph.D.degree from Keio University（Japan）in 1985.His research interest covers pattern recognition，machine vision，and image processing.）

From Big Data to Big Knowledge：HACE+BigKE

WU Xin-Dong1，2HE Jin1LU Ru-Qian3ZHENG Nan-Ning4

Big data deals with heterogeneous and autonomous multi-sources，and aims at mining complex and evolving relationships among data.With the fast development of data collection，data storage and networking technologies，big data analytics has become a hot topic for research and development in various fields.This paper starts with the essential characteristics of big data，reviews existing popular models for big data，including 5V，5R，4P and the HACE theorem. Also，from the viewpoint of knowledge modeling，this paper introduces BigKE，a big data knowledge engineering model for big knowldedge，and discusses the challenges and opportunities of big knowledge research and development.

Big data，knowledge mining，heterogeneity，fragmented knowledge，online learning

10.16383/j.aas.2016.c160239

Wu Xin-Dong，He Jin，Lu Ru-Qian，Zheng Nan-Ning.From big data to big knowledge:HACE+BigKE. Acta Automatica Sinica，2016，42（7）:965-982

2016-03-03錄用日期2016-05-31
Manuscript received March 3，2016；accepted May 31，2016
國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃（973計(jì)劃）（2013CB329604），國(guó)家自然科學(xué)基金（61229301），教育部長(zhǎng)江學(xué)者和創(chuàng)新團(tuán)隊(duì)發(fā)展計(jì)劃“多源海量動(dòng)態(tài)信息處理”（IRT13059）資助
Supported by National Basic Research Program of China（973 Program）（2013CB329604），National Natural Science Foundation of China（61229301），and the Program for Changjiang Scholars and Innovative Research Team in University（PCSIRT）of the Ministry of Education of China（IRT13059）
1.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院合肥230009中國(guó)2.佛蒙特大學(xué)計(jì)算機(jī)科學(xué)系伯靈頓VT05405美國(guó)3.中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院北京 100190中國(guó)4.西安交通大學(xué)人工智能與機(jī)器人研究所西安710049中國(guó)
1.School of Computer Science and Information Engineering，Hefei University of Technology，Hefei 230009，China2.Department of Computer Science，University of Vermont，Burlington VT05405，USA3.Institute of Mathematics，Academy of Mathematics and Systems Science，Chinese Academy of Sciences，Beijing 100190，China4.Institute of the Artificial Intelligence and Robotics，Xi′an Jiaotong University，Xi′an 710049，China

猜你喜歡

用戶模型

一半模型

童話王國(guó)·奇妙邏輯推理(2024年5期)2024-06-19 16:03:38

p150Glued在帕金森病模型中的表達(dá)及分布

成都醫(yī)學(xué)院學(xué)報(bào)(2021年2期)2021-07-19 08:35:14

重要模型『一線三等角』

中學(xué)生數(shù)理化·七年級(jí)數(shù)學(xué)人教版(2020年10期)2020-11-26 08:24:50

重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布

數(shù)學(xué)物理學(xué)報(bào)(2020年2期)2020-06-02 11:29:24

關(guān)注用戶

商用汽車(2016年11期)2016-12-19 01:20:16

3D打印中的模型分割與打包

光學(xué)精密工程(2016年6期)2016-11-07 09:07:19

關(guān)注用戶

商用汽車(2016年6期)2016-06-29 09:18:54

關(guān)注用戶

商用汽車(2016年4期)2016-05-09 01:23:12

FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究

核科學(xué)與工程(2015年4期)2015-09-26 11:59:03

Camera360:拍出5億用戶

創(chuàng)業(yè)家(2015年10期)2015-02-27 07:55:08

自動(dòng)化學(xué)報(bào)2016年7期

自動(dòng)化學(xué)報(bào)的其它文章: 基于流形特征相似度的感知圖像質(zhì)量評(píng)價(jià); 基于截線法的快速骨架提取算法; 基于馬爾科夫隨機(jī)場(chǎng)的散亂點(diǎn)云全局特征提取; 基于稀疏子空間選擇的在線目標(biāo)跟蹤; 基于字典學(xué)習(xí)的非線性降維方法; 具有傳感器增益退化、隨機(jī)時(shí)延和丟包的分布式融合估計(jì)器

感谢您访问我们的网站，您可能还对以下资源感兴趣：温州秤旁教育咨询有限公司

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看网站地图

亚洲中文字幕一区二区三区有码在线看 22中文网久久字幕搞女人的毛片 18禁动态无遮挡网站免费大片18禁欧美潮喷喷水亚洲色图av天堂亚洲三级黄色毛片 18禁裸乳无遮挡免费网站照片国产av不卡久久亚洲国产欧美在线一区老师上课跳d突然被开到最大视频啦啦啦啦在线视频资源国产免费福利视频在线观看午夜视频国产福利国产精品久久电影中文字幕十八禁国产超污无遮挡网站蜜桃久久精品国产亚洲av 十八禁国产超污无遮挡网站成人亚洲欧美一区二区av av国产免费在线观看乱码一卡2卡4卡精品亚洲国产欧美人成日本色播在线视频国产精品一区二区在线观看99 好男人在线观看高清免费视频男的添女的下面高潮视频噜噜噜噜噜久久久久久91 日日摸夜夜添夜夜爱黄色日韩在线色综合亚洲欧美另类图片超碰av人人做人人爽久久国产在视频线在精品淫秽高清视频在线观看尾随美女入室神马国产精品三级电影在线观看国产69精品久久久久777片综合色丁香网色视频www国产美女cb高潮喷水在线观看日韩在线高清观看一区二区三区禁无遮挡网站秋霞在线观看毛片日韩欧美精品免费久久国产又色又爽无遮挡免午夜老司机福利剧场精品国产三级普通话版国产淫语在线视频国产淫语在线视频国产一区有黄有色的免费视频 26uuu在线亚洲综合色少妇猛男粗大的猛烈进出视频 91av网一区二区大又大粗又爽又黄少妇毛片口 .国产精品久久七月丁香在线播放亚洲国产欧美人成国产极品天堂在线久久99热这里只有精品18 午夜福利成人在线免费观看久久久久久久久久久免费av 免费av毛片视频搡老妇女老女人老熟妇 97超碰精品成人国产 a级毛色黄片国产一区二区亚洲精品在线观看边亲边吃奶的免费视频亚洲不卡免费看国产又黄又爽又无遮挡在线国产精品1区2区在线观看. 婷婷六月久久综合丁香欧美变态另类bdsm刘玥国产精品福利在线免费观看国产精品精品国产色婷婷免费观看精品视频网站国产国拍精品亚洲av在线观看免费观看的影片在线观看 1000部很黄的大片简卡轻食公司亚洲人成网站在线播亚洲美女搞黄在线观看五月伊人婷婷丁香亚洲精品乱码久久久久久按摩 22中文网久久字幕 99在线视频只有这里精品首页一边摸一边抽搐一进一小说亚洲久久久久久中文字幕一级爰片在线观看 av天堂中文字幕网 91精品伊人久久大香线蕉国产av不卡久久 99在线人妻在线中文字幕成人午夜高清在线视频欧美三级亚洲精品亚洲欧美精品综合久久99 国模一区二区三区四区视频亚洲精品,欧美精品三级国产精品欧美在线观看欧美人与善性xxx 欧美3d第一页 18禁在线无遮挡免费观看视频美女cb高潮喷水在线观看身体一侧抽搐国产精品久久久久久精品电影国产黄片视频在线免费观看日韩成人伦理影院欧美zozozo另类高清午夜精品一区二区三区好男人视频免费观看在线国产伦一二天堂av在线观看男的添女的下面高潮视频女人被狂操c到高潮赤兔流量卡办理一区二区三区四区激情视频麻豆av噜噜一区二区三区国产伦在线观看视频一区国产精品福利在线免费观看午夜亚洲福利在线播放秋霞在线观看毛片国产黄a三级三级三级人在线免费观看不下载黄p国产国产成人精品一,二区天天躁日日操中文字幕边亲边吃奶的免费视频亚洲性久久影院国产在线一区二区三区精免费不卡的大黄色大毛片视频在线观看熟妇人妻久久中文字幕3abv 99久久九九国产精品国产免费直男gayav资源 91在线精品国自产拍蜜月国产视频首页在线观看成年版毛片免费区亚洲人成网站在线观看播放久久99热这里只有精品18 久久久久久久久久久丰满国产乱人偷精品视频久久久久精品久久久久真实原创 av在线蜜桃九九在线视频观看精品国产真实乱freesex 一个人观看的视频www高清免费观看国产成人精品婷婷人人妻人人澡人人爽人人夜夜干丝袜人妻中文字幕欧美成人精品欧美一级黄精品99又大又爽又粗少妇毛片欧美精品一区二区大全国产av在哪里看 99视频精品全部免费在线亚洲在线自拍视频好男人视频免费观看在线在线播放国产精品三级联通29元200g的流量卡 a级毛色黄片 kizo精华嫩草影院入口久久久色成人亚洲av成人精品一区久久 99热这里只有是精品50 99久久精品国产国产毛片欧美bdsm另类精品国产一区二区三区久久久樱花精品一区二区三区视频在线免费观看性生交大片5 亚洲国产高清在线一区二区三 18禁裸乳无遮挡免费网站照片色吧在线观看欧美zozozo另类 99久久精品一区二区三区精品一区二区三区人妻视频热99在线观看视频国产黄色小视频在线观看久久久久免费精品人妻一区二区中文在线观看免费www的网站国产精品人妻久久久久久国产精品.久久久男女国产视频网站高清毛片免费看国产成人福利小说国产乱人视频国产伦精品一区二区三区视频9 国产精品无大码特级一级黄色大片午夜激情福利司机影院淫秽高清视频在线观看精品不卡国产一区二区三区国产午夜精品一二区理论片级片在线观看亚洲久久久久久中文字幕最近中文字幕2019免费版女人十人毛片免费观看3o分钟午夜亚洲福利在线播放 av在线天堂中文字幕变态另类丝袜制服亚洲av二区三区四区日韩一区二区视频免费看免费看a级黄色片成人二区视频禁无遮挡网站麻豆成人午夜福利视频欧美激情国产日韩精品一区一级黄色大片毛片能在线免费观看的黄片久久精品国产亚洲av涩爱精品不卡国产一区二区三区午夜福利网站1000一区二区三区 videossex国产久久热精品热久久精品国产亚洲av涩爱亚洲精品乱码久久久久久按摩国产成人a区在线观看日本与韩国留学比较熟女人妻精品中文字幕免费无遮挡裸体视频一个人免费在线观看电影午夜激情欧美在线 99久久中文字幕三级久久日本又粗又爽又猛毛片免费看精品一区二区免费观看亚洲欧美一区二区三区国产亚洲高清免费不卡视频联通29元200g的流量卡国产精品久久久久久久久免国产一区欧美日韩成年版毛片免费区日韩av在线大香蕉日韩国内少妇激情av av在线天堂中文字幕桃色一区二区三区在线观看一区二区三区免费毛片 18禁动态无遮挡网站午夜福利高清视频麻豆乱淫一区二区午夜a级毛片国产精品久久久久久久电影在线天堂最新版资源欧美日韩精品成人综合77777 免费人成在线观看视频色亚洲在线自拍视频久久精品久久精品一区二区三区亚洲无线观看免费亚洲国产精品成人综合色男女视频在线观看网站免费色哟哟·www 久久鲁丝午夜福利片搡女人真爽免费视频火全软件欧美+日韩+精品精品一区二区三区视频在线午夜精品在线福利亚洲欧美精品专区久久亚洲av男天堂我的老师免费观看完整版 www.av在线官网国产久久久久久九九精品二区国产欧美变态另类bdsm刘玥最近最新中文字幕大全电影3 女人被狂操c到高潮日本免费在线观看一区欧美激情久久久久久爽电影 99热精品在线国产色噜噜av男人的天堂激情 2022亚洲国产成人精品成人亚洲精品av一区二区搡女人真爽免费视频火全软件熟女人妻精品中文字幕国产在线一区二区三区精 a级毛片免费高清观看在线播放欧美区成人在线视频噜噜噜噜噜久久久久久91 午夜视频国产福利精品酒店卫生间中文字幕免费在线视频6 18禁动态无遮挡网站人体艺术视频欧美日本欧美三级亚洲精品国产成人a∨麻豆精品午夜爱爱视频在线播放成人亚洲精品av一区二区一边摸一边抽搐一进一小说亚洲av成人av av专区在线播放噜噜噜噜噜久久久久久91 欧美一区二区精品小视频在线水蜜桃什么品种好国产伦一二天堂av在线观看女的被弄到高潮叫床怎么办国产亚洲91精品色在线 99在线人妻在线中文字幕国产精品国产三级专区第一集 99久久人妻综合少妇丰满av 女人久久www免费人成看片成人一区二区视频在线观看毛片一级片免费看久久久久菩萨蛮人人尽说江南好唐韦庄狂野欧美白嫩少妇大欣赏 ponron亚洲 av女优亚洲男人天堂狂野欧美白嫩少妇大欣赏欧美激情在线99 晚上一个人看的免费电影美女高潮的动态插逼视频在线观看热99在线观看视频精品久久国产蜜桃成人二区视频深夜a级毛片国产亚洲av片在线观看秒播厂欧美丝袜亚洲另类国产高清三级在线国产亚洲5aaaaa淫片日本免费在线观看一区久久久午夜欧美精品国产成人91sexporn 人妻夜夜爽99麻豆av 身体一侧抽搐一级av片app 黄片无遮挡物在线观看日本五十路高清 99热6这里只有精品亚洲图色成人 97超视频在线观看视频中文字幕亚洲精品专区婷婷色av中文字幕直男gayav资源成年女人看的毛片在线观看精品久久久久久成人av 国产综合懂色 av天堂中文字幕网亚洲怡红院男人天堂免费看日本二区永久免费av网站大全国产精品久久久久久精品电影国产色婷婷99 色哟哟·www 亚洲精华国产精华液的使用体验日本-黄色视频高清免费观看国产精品国产三级国产专区5o 九九热线精品视视频播放 ponron亚洲最近最新中文字幕免费大全7 极品教师在线视频亚洲精华国产精华液的使用体验久久精品久久久久久噜噜老黄看免费成人av毛片亚洲真实伦在线观看精品国产一区二区三区久久久樱花国产不卡一卡二亚洲av成人精品一二三区看黄色毛片网站在线天堂最新版资源熟妇人妻久久中文字幕3abv 日产精品乱码卡一卡2卡三 av线在线观看网站十八禁国产超污无遮挡网站午夜亚洲福利在线播放婷婷色麻豆天堂久久免费av不卡在线播放国产精品国产三级国产专区5o 欧美高清性xxxxhd video 欧美性感艳星久久久精品大字幕三级男女做爰猛烈吃奶摸视频色噜噜av男人的天堂激情成人鲁丝片一二三区免费亚洲精品自拍成人 av在线观看视频网站免费久久久a久久爽久久v久久亚洲国产欧美在线一区中文资源天堂在线亚洲经典国产精华液单亚洲av成人精品一区久久国产熟女欧美一区二区非洲黑人性xxxx精品又粗又长久久精品国产亚洲av涩爱一级二级三级毛片免费看亚洲国产高清在线一区二区三男人舔女人下体高潮全视频精品无人区乱码1区二区国国产精品蜜臀av免费色综合色国产高清日韩中文字幕在线亚洲欧美精品自产自拍午夜免费激情av 成年av动漫网址少妇熟女欧美另类日韩亚洲欧美综合久久国内精品自在自线图片亚洲三级黄色毛片免费在线观看成人毛片一级二级三级毛片免费看国产视频内射国产av码专区亚洲av 免费看美女性在线毛片视频国产精品永久免费网站成人三级黄色视频国产探花极品一区二区国产欧美另类精品又又久久亚洲欧美国产精品女同一区二区软件校园人妻丝袜中文字幕欧美不卡视频在线免费观看国产精品爽爽va在线观看网站中文字幕av成人在线电影我的女老师完整版在线观看免费看日本二区赤兔流量卡办理九九在线视频观看精品国产精品久久久久久久久免又粗又爽又猛毛片免费看免费搜索国产男女视频日韩一区二区视频免费看婷婷六月久久综合丁香 97超碰精品成人国产亚洲一区高清亚洲精品 av在线天堂中文字幕我的女老师完整版在线观看精品人妻熟女av久视频少妇丰满av 精品一区二区三区视频在线夫妻性生交免费视频一级片天美传媒精品一区二区欧美精品一区二区大全乱码一卡2卡4卡精品大香蕉97超碰在线一个人免费在线观看电影精品久久久久久成人av 欧美性猛交黑人性爽久久精品夜夜夜夜夜久久蜜豆深爱激情五月婷婷 99在线人妻在线中文字幕亚洲av电影不卡..在线观看 av专区在线播放亚洲精品日韩av片在线观看亚洲国产最新在线播放 av播播在线观看一区 18+在线观看网站欧美xxxx性猛交bbbb 亚洲国产精品国产精品亚洲av电影在线观看一区二区三区永久免费av网站大全亚洲人成网站在线播亚洲婷婷狠狠爱综合网久久亚洲精品不卡亚洲精品日韩av片在线观看 91精品伊人久久大香线蕉亚洲,欧美,日韩国产伦一二天堂av在线观看日韩精品青青久久久久久一区二区三区乱码不卡18 成人午夜精彩视频在线观看午夜福利网站1000一区二区三区免费观看精品视频网站久久久久久大精品日韩精品有码人妻一区亚洲人成网站在线播在线观看美女被高潮喷水网站高清日韩中文字幕在线老司机福利观看丰满人妻一区二区三区视频av 老师上课跳d突然被开到最大视频日韩亚洲欧美综合久久99热这里只有精品18 精品一区二区免费观看亚洲精品乱码久久久v下载方式国产亚洲精品久久久com 欧美另类亚洲清纯唯美男女啪啪激烈高潮av片 97热精品久久久久久大话2 男鬼变身卡一本一本综合久久 a级毛片免费高清观看在线播放亚洲av免费在线观看久久亚洲国产成人精品v 美女xxoo啪啪120秒动态图中文天堂在线官网色5月婷婷丁香 91精品一卡2卡3卡4卡自拍偷自拍亚洲精品老妇色吧在线观看日韩三级伦理在线观看国产黄色视频一区二区在线观看久久久久性生活片天堂√8在线中文国产成人精品久久久久久亚洲av日韩在线播放色综合站精品国产国产免费福利视频在线观看精品欧美国产一区二区三一个人免费在线观看电影 av卡一久久亚洲av熟女最近手机中文字幕大全免费av不卡在线播放免费观看的影片在线观看亚洲人成网站高清观看中文精品一卡2卡3卡4更新亚洲18禁久久av 夜夜看夜夜爽夜夜摸 18禁动态无遮挡网站亚洲最大成人av 精品一区二区免费观看国产在视频线在精品日日摸夜夜添夜夜爱婷婷色麻豆天堂久久你懂的网址亚洲精品在线观看 97在线视频观看国产精品综合久久久久久久免费国语自产精品视频在线第100页久久精品国产亚洲网站久久久久久九九精品二区国产欧美不卡视频在线免费观看纵有疾风起免费观看全集完整版国产精品爽爽va在线观看网站草草在线视频免费看真实男女啪啪啪动态图午夜a级毛片久久久亚洲精品成人影院国产精品乱码一区二三区的特点最后的刺客免费高清国语热99re8久久精品国产欧美极品一区二区三区四区高清在线视频一区二区三区成人综合一区亚洲 .国产精品久久国产精品蜜桃在线观看国产片特级美女逼逼视频成人二区视频久99久视频精品免费国产高清不卡午夜福利亚洲内射少妇av 你懂的网址亚洲精品在线观看国产亚洲5aaaaa淫片色噜噜av男人的天堂激情欧美日韩精品成人综合77777 免费av观看视频一区二区三区四区激情视频国产精品久久视频播放亚洲天堂国产精品一区在线亚洲在线观看片国产精品无大码听说在线观看完整版免费高清亚洲国产日韩欧美精品在线观看欧美成人一区二区免费高清观看 22中文网久久字幕亚洲五月天丁香 91午夜精品亚洲一区二区三区日韩大片免费观看网站 a级毛片免费高清观看在线播放 18+在线观看网站亚洲欧美中文字幕日韩二区国产色爽女视频免费观看搡女人真爽免费视频火全软件韩国高清视频一区二区三区午夜爱爱视频在线播放日日干狠狠操夜夜爽国产高清三级在线亚洲在久久综合麻豆乱淫一区二区天堂中文最新版在线下载精品人妻一区二区三区麻豆一级爰片在线观看国内揄拍国产精品人妻在线免费人成在线观看视频色精品人妻熟女av久视频欧美成人午夜免费资源乱码一卡2卡4卡精品亚洲精品乱码久久久v下载方式在线播放无遮挡少妇猛男粗大的猛烈进出视频色吧在线观看国产精品一区二区在线观看99 亚洲美女视频黄频亚洲欧美日韩高清专用中文乱码字字幕精品一区二区三区一级毛片电影观看秋霞伦理黄片国产不卡一卡二国产亚洲91精品色在线久久国产乱子免费精品麻豆久久精品国产亚洲av 亚洲av福利一区成人性生交大片免费视频hd 两个人的视频大全免费全区人妻精品视频毛片一级片免费看久久久久久久久久久久久久久免费av 国产免费一级a男人的天堂美女内射精品一级片tv 国产精品一及搡老妇女老女人老熟妇 99久久精品热视频热99re8久久精品国产国产亚洲一区二区精品国产美女午夜福利看片在线看免费视频亚洲精品aⅴ在线观看国产一区二区在线观看日韩国产精品国产高清国产av 简卡轻食公司七月丁香在线播放午夜激情福利司机影院 a级毛色黄片日本猛色少妇xxxxx猛交久久国产精华一区二区三区亚洲aⅴ乱码一区二区在线播放国产亚洲精品av在线欧美最新免费一区二区三区国产v大片淫在线免费观看 97在线视频观看国产精品蜜桃在线观看欧美zozozo另类午夜老司机福利剧场久久6这里有精品国产亚洲精品av在线中文资源天堂在线欧美bdsm另类国产精品熟女久久久久浪国产一区二区在线av高清观看高清在线视频一区二区三区国内精品宾馆在线特大巨黑吊av在线直播男女国产视频网站男插女下体视频免费在线播放啦啦啦观看免费观看视频高清少妇丰满av 国产激情偷乱视频一区二区建设人人有责人人尽责人人享有的亚洲av成人精品一区久久五月玫瑰六月丁香亚洲四区av 男人舔女人下体高潮全视频国产精品一区二区三区四区免费观看国产伦理片在线播放av一区身体一侧抽搐亚洲国产色片午夜a级毛片 videos熟女内射少妇的逼水好多成人国产麻豆网乱系列少妇在线播放男人狂女人下面高潮的视频婷婷色麻豆天堂久久美女xxoo啪啪120秒动态图 videos熟女内射久久精品熟女亚洲av麻豆精品精品久久久久久成人av 91久久精品国产一区二区成人麻豆一二三区av精品十八禁国产超污无遮挡网站少妇的逼好多水尤物成人国产欧美一区二区三区搞女人的毛片日韩av在线大香蕉舔av片在线久久精品国产亚洲av天美人人妻人人澡人人爽人人夜夜国产精品国产三级国产专区5o 国产精品久久久久久精品电影亚洲av电影在线观看一区二区三区亚洲综合色惰成年免费大片在线观看 av卡一久久亚洲国产精品合色在线国产av一区在线观看免费免费观看a级毛片全部你懂的网址亚洲精品在线观看国产精品电影一区二区三区我要看日韩黄色一级片日韩精品有码人妻一区午夜福利在线在线亚洲av成人精品一二三区成人综合一区亚洲国产精品99久久久久久久久久久精品综合一区二区三区少妇高潮的动态图看免费成人av毛片 97超碰精品成人国产午夜精品国产一区二区电影在线免费观看的www视频欧美极品一区二区三区四区九九在线视频观看精品亚洲图色成人国产美女午夜福利 97在线视频观看亚洲婷婷狠狠爱综合网亚洲自拍偷在线中国国产av一级久久久精品欧美日韩精品国产在视频线在精品国产亚洲av嫩草精品影院亚洲精品久久久久久婷婷小说欧美一区二区亚洲超碰av人人做人人爽久久日韩国内少妇激情av 欧美变态另类bdsm刘玥亚洲最大成人av 狂野欧美白嫩少妇大欣赏亚洲国产精品专区欧美免费一级毛片在线播放高清视频美女被艹到高潮喷水动态国产亚洲午夜精品一区二区久久国产精品久久久久久精品电影小说国产精品野战在线观看亚洲欧美清纯卡通最近2019中文字幕mv第一页日韩欧美国产在线观看中国国产av一级 99在线视频只有这里精品首页乱码一卡2卡4卡精品午夜激情欧美在线久久精品久久久久久久性亚洲成人中文字幕在线播放色综合站精品国产久久久久久伊人网av 国产老妇女一区中文字幕av成人在线电影插阴视频在线观看视频男人舔女人下体高潮全视频 2021少妇久久久久久久久久久 99热6这里只有精品在线免费观看的www视频国产精品国产三级专区第一集色网站视频免费爱豆传媒免费全集在线观看婷婷色av中文字幕 99热网站在线观看午夜av观看不卡成人毛片60女人毛片免费亚洲国产av影院在线观看国产精品秋霞免费鲁丝片咕卡用的链子免费看av在线观看网站欧美精品一区二区大全免费黄网站久久成人精品日韩,欧美,国产一区二区三区久久久久久久久久久免费av 熟女电影av网午夜精品国产一区二区电影久久久久久久亚洲中文字幕女性被躁到高潮视频又大又黄又爽视频免费夜夜骑夜夜射夜夜干国产精品无大码 18+在线观看网站男女边吃奶边做爰视频亚洲图色成人免费观看无遮挡的男女亚洲欧美色中文字幕在线 97在线人人人人妻亚洲av电影在线观看一区二区三区亚洲人成网站在线观看播放考比视频在线观看亚洲五月色婷婷综合制服诱惑二区亚洲精品美女久久av网站中国美白少妇内射xxxbb 亚洲av综合色区一区少妇人妻久久综合中文我要看黄色一级片免费的日本vs欧美在线观看视频亚洲精品日韩在线中文字幕久久精品国产a三级三级三级 tube8黄色片一级黄片播放器 av女优亚洲男人天堂伦理电影大哥的女人热99国产精品久久久久久7 男男h啪啪无遮挡国国产精品蜜臀av免费性色avwww在线观看国产乱人偷精品视频亚洲av.av天堂看十八女毛片水多多多免费大片18禁亚洲天堂av无毛 av黄色大香蕉亚洲精品国产av蜜桃国产极品天堂在线亚洲精品久久成人aⅴ小说国产色爽女视频免费观看 99re6热这里在线精品视频又黄又爽又刺激的免费视频. 在线观看人妻少妇 videossex国产免费在线观看完整版高清中文字幕人妻丝袜制服在线观看一区二区三区激情亚洲精品第二区麻豆精品久久久久久蜜桃大话2 男鬼变身卡午夜免费观看性视频中文乱码字字幕精品一区二区三区亚洲精品av麻豆狂野国产乱人偷精品视频男女下面插进去视频免费观看精品国产一区二区三区四区第35 最新的欧美精品一区二区亚洲精品视频女赤兔流量卡办理侵犯人妻中文字幕一二三四区国产成人精品婷婷久久久久久久大尺度免费视频两个人看的免费小视频男女高潮啪啪啪动态图秋霞伦理黄片亚洲欧洲国产日韩 90打野战视频偷拍视频久久这里有精品视频免费国产免费视频播放在线视频亚洲精品色激情综合 a 毛片基地两个人看的免费小视频国产成人av激情在线播放蜜臀久久99精品久久宅男老女人水多毛片亚洲精品av麻豆狂野 97在线人人人人妻 91午夜精品亚洲一区二区三区 97人妻天天添夜夜摸自线自在国产av 国产成人免费无遮挡视频黄色一级大片看看午夜久久久在线观看欧美国产精品va在线观看不卡国产国语露脸激情在线看国产精品不卡视频一区二区久久精品国产自在天天线免费大片黄手机在线观看婷婷色av中文字幕一二三四在线观看免费中文在日本91视频免费播放国产黄色视频一区二区在线观看国产精品麻豆人妻色哟哟久久 1024视频免费在线观看色婷婷久久久亚洲欧美婷婷色综合www 成人亚洲欧美一区二区av 另类亚洲欧美激情 av福利片在线 90打野战视频偷拍视频伦精品一区二区三区 99热国产这里只有精品6 黑丝袜美女国产一区国产男人的电影天堂91 精品久久久久久电影网多毛熟女@视频在线观看国产h片丝袜喷水一区国产亚洲精品久久久com 国产精品欧美亚洲77777 免费看光身美女亚洲欧美中文字幕日韩二区国产成人91sexporn 久久亚洲国产成人精品v 欧美激情国产日韩精品一区成人二区视频有码亚洲区边亲边吃奶的免费视频午夜日本视频在线高清不卡的av网站国产高清三级在线 18在线观看网站 av女优亚洲男人天堂国内精品宾馆在线美女视频免费永久观看网站亚洲精品乱久久久久久日韩av免费高清视频精品少妇内射三级免费黄网站久久成人精品热99国产精品久久久久久7 免费人妻精品一区二区三区视频男女国产视频网站国产日韩欧美视频二区中文乱码字字幕精品一区二区三区日日摸夜夜添夜夜爱精品卡一卡二卡四卡免费日韩伦理黄色片国产精品熟女久久久久浪亚洲综合精品二区男人添女人高潮全过程视频 9191精品国产免费久久国产男人的电影天堂91 国产永久视频网站国产成人91sexporn 日韩,欧美,国产一区二区三区中文字幕另类日韩欧美亚洲嫩草国产精品久久久久久av不卡欧美日本中文国产一区发布国产无遮挡羞羞视频在线观看两个人免费观看高清视频在线观看www视频免费大香蕉97超碰在线 99热这里只有是精品在线观看日韩人妻精品一区2区三区欧美人与性动交α欧美软件成人毛片a级毛片在线播放久久韩国三级中文字幕色网站视频免费少妇被粗大猛烈的视频精品少妇黑人巨大在线播放桃花免费在线播放亚洲av男天堂久热这里只有精品99 在线 av 中文字幕国产免费福利视频在线观看中文字幕人妻熟女乱码国产伦理片在线播放av一区久久国产精品大桥未久av 国产男女超爽视频在线观看 √禁漫天堂资源中文www 熟女人妻精品中文字幕看非洲黑人一级黄片久久久精品94久久精品男的添女的下面高潮视频色吧在线观看日韩欧美精品免费久久制服诱惑二区国精品久久久久久国模美亚洲精华国产精华液的使用体验满18在线观看网站婷婷色av中文字幕欧美亚洲国产日韩一国产av精品麻豆在线观看免费视频网站a站日韩av不卡免费在线播放女性被躁到高潮视频一区二区三区精品91 丝袜人妻中文字幕国产男人的电影天堂91 最新中文字幕久久久久亚洲色图男人天堂中文字幕久久青草综合色国产欧美日韩一区二区三区在线 26uuu在线亚洲综合色国产精品一区www在线观看美女大奶头黄色视频天堂中文最新版在线下载国产一区亚洲一区在线观看男女午夜视频在线观看国产精品免费大片亚洲,一卡二卡三卡免费黄色在线免费观看亚洲国产日韩一区二区久久久精品区二区三区 av在线app专区 99热全是精品在线免费观看不下载黄p国产少妇被粗大的猛进出69影院 9色porny在线观看 kizo精华成人亚洲欧美一区二区av 一区在线观看完整版精品一品国产午夜福利视频亚洲精品乱久久久久久波多野结衣一区麻豆国产精品偷伦视频观看了一本一本久久a久久精品综合妖精国产伦在线观看视频一区亚洲av日韩在线播放 a级片在线免费高清观看视频色婷婷av一区二区三区视频精品99又大又爽又粗少妇毛片波多野结衣一区麻豆熟女av电影日本免费在线观看一区成人影院久久国产精品蜜桃在线观看中文字幕精品免费在线观看视频久久这里只有精品19 av播播在线观看一区久久99一区二区三区性高湖久久久久久久久免费观看 2018国产大陆天天弄谢成人午夜精彩视频在线观看搡老乐熟女国产国产老妇伦熟女老妇高清亚洲精品日韩在线中文字幕水蜜桃什么品种好亚洲国产欧美日韩在线播放日韩制服骚丝袜av 久久免费观看电影 1024视频免费在线观看久久久a久久爽久久v久久日韩一区二区三区影片晚上一个人看的免费电影欧美精品人与动牲交sv欧美 18禁在线无遮挡免费观看视频男女无遮挡免费网站观看啦啦啦中文免费视频观看日本免费看av在线观看网站少妇人妻视频 av在线app专区免费日韩欧美在线观看性高湖久久久久久久久免费观看搡女人真爽免费视频火全软件少妇猛男粗大的猛烈进出视频久久av网站午夜日本视频在线人人妻人人爽人人添夜夜欢视频男女下面插进去视频免费观看日本免费在线观看一区国产亚洲精品第一综合不卡日本91视频免费播放欧美3d第一页国产精品国产av在线观看自拍欧美九色日韩亚洲蝌蚪91 久久久精品94久久精品久久99热6这里只有精品日本黄色日本黄色录像最近的中文字幕免费完整午夜影院在线不卡国产免费一区二区三区四区乱码免费黄网站久久成人精品日韩一本色道免费dvd 国产精品99久久99久久久不卡丝袜在线中文字幕久久av网站精品一区二区三卡丝袜脚勾引网站精品卡一卡二卡四卡免费 99久久人妻综合国产日韩欧美视频二区亚洲精品成人av观看孕妇视频在线观看一区二区三区亚洲精品久久午夜乱码狠狠精品人妻久久久久久综合国产精品99久久99久久久不卡一级a做视频免费观看欧美激情极品国产一区二区三区晚上一个人看的免费电影国产成人91sexporn 亚洲精品456在线播放app 午夜影院在线不卡 av.在线天堂国产又色又爽无遮挡免国产精品国产三级国产av玫瑰宅男免费午夜亚洲av福利一区国产精品偷伦视频观看了国产av一区二区精品久久 18禁观看日本亚洲丝袜综合中文字幕 91久久精品国产一区二区三区丰满饥渴人妻一区二区三 999精品在线视频免费观看性生交大片5 av黄色大香蕉少妇精品久久久久久久国产免费视频播放在线视频欧美精品亚洲一区二区久久这里只有精品19 国产一区二区激情短视频黑人欧美特级aaaaaa片久久久久久久大尺度免费视频国产在线免费精品飞空精品影院首页国产精品1 老女人水多毛片亚洲精品久久久久久婷婷小说在线观看免费日韩欧美大片最近的中文字幕免费完整日韩视频在线欧美美女内射精品一级片tv 制服丝袜香蕉在线免费大片黄手机在线观看免费不卡的大黄色大毛片视频在线观看久久女婷五月综合色啪小说精品人妻熟女毛片av久久网站天天操日日干夜夜撸欧美精品av麻豆av 18禁国产床啪视频网站夫妻性生交免费视频一级片妹子高潮喷水视频成人国产麻豆网 av播播在线观看一区在线观看人妻少妇免费大片18禁狠狠婷婷综合久久久久久88av 91精品三级在线观看亚洲欧美中文字幕日韩二区亚洲丝袜综合中文字幕亚洲四区av 人妻人人澡人人爽人人亚洲一码二码三码区别大吗国产av国产精品国产五月开心婷婷网午夜福利,免费看成人二区视频 av一本久久久久啦啦啦在线观看免费高清www 日日爽夜夜爽网站激情视频va一区二区三区美女内射精品一级片tv 五月开心婷婷网在线亚洲精品国产二区图片欧美欧美xxⅹ黑人日本猛色少妇xxxxx猛交久久 91精品伊人久久大香线蕉大香蕉97超碰在线免费高清在线观看日韩欧美国产精品一级二级三级丝袜脚勾引网站 www日本在线高清视频伦精品一区二区三区国产精品久久久久成人av 午夜影院在线不卡精品卡一卡二卡四卡免费国产日韩欧美在线精品亚洲国产精品专区欧美国产午夜精品一二区理论片肉色欧美久久久久久久蜜桃美女主播在线视频 av在线老鸭窝女人被躁到高潮嗷嗷叫费观黑丝袜美女国产一区超碰97精品在线观看国产男女内射视频欧美日本中文国产一区发布亚洲性久久影院欧美成人午夜免费资源大码成人一级视频国产精品人妻久久久影院国产成人午夜福利电影在线观看日韩亚洲欧美在线看免费成人av毛片色网站视频免费九九爱精品视频在线观看 99国产综合亚洲精品黄色怎么调成土黄色亚洲欧美成人精品一区二区五月开心婷婷网五月伊人婷婷丁香大香蕉久久网国产白丝娇喘喷水9色精品人妻少妇偷人精品九色国产免费视频播放在线视频啦啦啦视频在线资源免费观看桃花免费在线播放亚洲第一区二区三区不卡九色成人免费人妻av 国产精品一区www在线观看国产淫语在线视频人妻一区二区av 国产欧美日韩一区二区三区在线免费看光身美女精品一区二区三区视频在线国产成人精品在线电影欧美人与性动交α欧美软件日韩在线高清观看一区二区三区国产成人精品在线电影我要看黄色一级片免费的国产69精品久久久久777片在线亚洲精品国产二区图片欧美亚洲欧美一区二区三区国产亚洲精华国产精华液的使用体验久久精品国产鲁丝片午夜精品一级片'在线观看视频欧美激情高清一区二区三区 91精品国产国语对白视频久久久久久久久久久久大奶天堂中文最新版在线下载日韩成人av中文字幕在线观看 av免费在线看不卡 freevideosex欧美久久狼人影院国产一区亚洲一区在线观看在线观看免费日韩欧美大片亚洲av福利一区久热这里只有精品99 一级片'在线观看视频女的被弄到高潮叫床怎么办久久亚洲国产成人精品v 欧美bdsm另类宅男免费午夜国产一区亚洲一区在线观看 a级毛色黄片欧美日韩视频精品一区男女下面插进去视频免费观看国产精品女同一区二区软件午夜激情av网站国产极品天堂在线久久精品国产a三级三级三级一本一本久久a久久精品综合妖精国产伦在线观看视频一区高清视频免费观看一区二区国产片内射在线十分钟在线观看高清视频www 国产精品国产三级专区第一集日韩,欧美,国产一区二区三区欧美激情国产日韩精品一区母亲3免费完整高清在线观看男女啪啪激烈高潮av片 av天堂久久9 91国产中文字幕 80岁老熟妇乱子伦牲交日本av手机在线免费观看 90打野战视频偷拍视频国产深夜福利视频在线观看亚洲欧美色中文字幕在线一本一本久久a久久精品综合妖精国产伦在线观看视频一区性色av一级视频中文字幕在线观看超色免费av 宅男免费午夜女人被躁到高潮嗷嗷叫费观国产免费又黄又爽又色国产一区精品欧美国产精品va在线观看不卡亚洲在久久综合亚洲第一av免费看女人精品久久久久毛片一区二区三区四区激情视频一边亲一边摸免费视频午夜激情av网站久久99蜜桃精品久久日韩成人av中文字幕在线观看一区二区三区四区激情视频国产成人a∨麻豆精品国产亚洲一区二区精品国产日韩欧美在线精品 97超碰精品成人国产建设人人有责人人尽责人人享有的秋霞在线观看毛片国产精品一国产av 国产片特级美女逼逼视频国产精品久久久久久精品古装美女国产高潮福利片在线看 99热这里只有是精品在线观看国产精品久久久久久精品电影小说国产有黄有色有爽视频亚洲精品第二区日韩在线高清观看一区二区三区国产精品蜜桃在线观看乱码一卡2卡4卡精品亚洲精品自拍成人成年人午夜在线观看视频亚洲精品第二区欧美人与性动交α欧美精品济南到免费久久久久久久精品成人欧美视频亚洲精品第二区日日爽夜夜爽网站欧美少妇被猛烈插入视频丰满乱子伦码专区男女午夜视频在线观看 97人妻天天添夜夜摸成人无遮挡网站一边摸一边做爽爽视频免费 91国产中文字幕亚洲色图综合在线观看满18在线观看网站国产欧美另类精品又又久久亚洲欧美久久久精品区二区三区久久久久精品久久久久真实原创久久人人爽av亚洲精品天堂国产免费福利视频在线观看嫩草影院入口国产在线一区二区三区精男女边摸边吃奶国产亚洲精品第一综合不卡少妇在线观看黄色视频在线播放观看不卡大片电影免费在线观看免费你懂的网址亚洲精品在线观看一级爰片在线观看国产成人精品无人区高清视频免费观看一区二区 av黄色大香蕉国产精品人妻久久久影院亚洲精品一二三男女下面插进去视频免费观看天天影视国产精品久久精品久久久久久噜噜老黄插逼视频在线观看精品午夜福利在线看成年人免费黄色播放视频 videosex国产 av线在线观看网站成人亚洲欧美一区二区av 久久婷婷青草少妇的逼好多水 18禁动态无遮挡网站日韩不卡一区二区三区视频在线两个人看的免费小视频热99久久久久精品小说推荐精品国产国语对白av 女人被躁到高潮嗷嗷叫费观少妇人妻久久综合中文 av电影中文网址国产一区二区在线观看av 51国产日韩欧美亚洲精品一区蜜桃国产淫语在线视频亚洲经典国产精华液单亚洲欧洲国产日韩国产成人a∨麻豆精品欧美日韩av久久黄色一级大片看看午夜av观看不卡国内精品宾馆在线夫妻性生交免费视频一级片乱人伦中国视频亚洲,一卡二卡三卡日本wwww免费看又黄又粗又硬又大视频另类精品久久黑人高潮一二区久久精品国产亚洲av天美老司机亚洲免费影院亚洲色图综合在线观看欧美日韩视频精品一区久热这里只有精品99 国精品久久久久久国模美亚洲欧美精品自产自拍热re99久久国产66热成人亚洲精品一区在线观看熟妇人妻不卡中文字幕亚洲三级黄色毛片视频在线观看一区二区三区国产不卡av网站在线观看狠狠精品人妻久久久久久综合丰满饥渴人妻一区二区三亚洲精品久久久久久婷婷小说在线观看一区二区三区激情久久久久久人人人人人亚洲国产成人一精品久久久亚洲精品第二区 av.在线天堂久久青草综合色男女无遮挡免费网站观看 99国产综合亚洲精品 av在线老鸭窝亚洲精品456在线播放app 美女大奶头黄色视频亚洲av欧美aⅴ国产亚洲精品美女久久av网站久久久国产欧美日韩av 亚洲色图综合在线观看 999精品在线视频最近最新中文字幕大全免费视频欧美日韩精品国产亚洲国产欧美在线一区欧美精品人与动牲交sv欧美一二三四在线观看免费中文在亚洲精品国产av成人精品午夜av观看不卡国产成人午夜福利电影在线观看亚洲精品国产av成人精品亚洲四区av 久久婷婷青草 18在线观看网站免费久久久久久久精品成人欧美视频日韩一区二区视频免费看国产激情久久老熟女免费观看a级毛片全部哪个播放器可以免费观看大片性色av一级 videosex国产亚洲av中文av极速乱色网站视频免费国产国语露脸激情在线看亚洲三级黄色毛片 h视频一区二区三区欧美日韩亚洲高清精品亚洲国产色片日韩精品有码人妻一区咕卡用的链子久久人人爽av亚洲精品天堂 9色porny在线观看巨乳人妻的诱惑在线观看 99热全是精品不卡视频在线观看欧美国产欧美日韩一区二区三区在线国产麻豆69 免费看av在线观看网站久久狼人影院视频在线观看一区二区三区国产一区二区在线观看av 制服诱惑二区极品人妻少妇av视频国产伦理片在线播放av一区亚洲欧美成人综合另类久久久欧美国产精品一级二级三级青春草亚洲视频在线观看一区二区三区四区激情视频 18禁在线无遮挡免费观看视频日韩中文字幕视频在线看片蜜桃在线观看.. 日韩精品免费视频一区二区三区精品一区在线观看国产久久久久国产网址大香蕉久久成人网国产精品国产三级专区第一集人人妻人人澡人人看久久久久精品久久久久真实原创欧美精品一区二区免费开放午夜激情久久久久久久精品少妇黑人巨大在线播放中文字幕精品免费在线观看视频一区二区三区四区激情视频亚洲成人av在线免费 99re6热这里在线精品视频国产成人91sexporn 91成人精品电影午夜影院在线不卡建设人人有责人人尽责人人享有的亚洲第一av免费看亚洲,欧美,日韩日韩中字成人亚洲av免费高清在线观看国产精品人妻久久久久久大码成人一级视频伦理电影免费视频久久久精品区二区三区看免费av毛片日本免费在线观看一区在线精品无人区一区二区三亚洲综合色网址婷婷成人精品国产国产又色又爽无遮挡免最近最新中文字幕大全免费视频中文乱码字字幕精品一区二区三区天美传媒精品一区二区大陆偷拍与自拍午夜福利视频在线观看免费亚洲精华国产精华液的使用体验少妇人妻视频韩国高清视频一区二区三区久久久久精品性色欧美精品一区二区大全国产1区2区3区精品亚洲av免费高清在线观看亚洲av免费高清在线观看日日爽夜夜爽网站亚洲人成网站在线观看播放 av国产精品久久久久影院 2021少妇久久久久久久久久久 av网站免费在线观看视频日本黄大片高清人妻系列视频国产免费又黄又爽又色丰满少妇做爰视频久久99热6这里只有精品国产欧美另类精品又又久久亚洲欧美人人澡人人妻人久久久久精品性色免费黄网站久久成人精品一级,二级,三级黄色视频国产乱人偷精品视频国产精品女同一区二区软件男人添女人高潮全过程视频午夜激情久久久久久久一区二区三区精品91 涩涩av久久男人的天堂午夜老司机福利剧场国产激情久久老熟女狂野欧美激情性xxxx在线观看国产69精品久久久久777片男女高潮啪啪啪动态图国产精品秋霞免费鲁丝片美女国产视频在线观看 91成人精品电影欧美亚洲日本最大视频资源中文天堂在线官网男女国产视频网站亚洲中文av在线午夜视频国产福利狠狠婷婷综合久久久久久88av 国产精品一国产av 国产精品一二三区在线看中文字幕精品免费在线观看视频一区二区三区四区激情视频 51国产日韩欧美日本欧美国产在线视频 av在线播放精品 av不卡在线播放亚洲av在线观看美女高潮在现免费观看毛片有码亚洲区日韩一区二区三区影片国产亚洲一区二区精品人妻少妇偷人精品九色成人手机av 亚洲第一区二区三区不卡夫妻午夜视频 www.熟女人妻精品国产国产成人91sexporn 成人毛片a级毛片在线播放亚洲av福利一区亚洲国产精品一区二区三区在线自拍欧美九色日韩亚洲蝌蚪91 欧美丝袜亚洲另类久久久久久人人人人人麻豆乱淫一区二区亚洲精品美女久久久久99蜜臀婷婷色综合www 91aial.com中文字幕在线观看男女下面插进去视频免费观看久久免费观看电影欧美精品一区二区免费开放亚洲av在线观看美女高潮日本猛色少妇xxxxx猛交久久少妇人妻久久综合中文少妇精品久久久久久久国产爽快片一区二区三区中文字幕人妻熟女乱码精品一品国产午夜福利视频极品少妇高潮喷水抽搐涩涩av久久男人的天堂欧美日韩视频精品一区中文字幕人妻丝袜制服国产精品久久久av美女十八一级a做视频免费观看亚洲综合色惰 97人妻天天添夜夜摸久久精品aⅴ一区二区三区四区亚洲,欧美精品. 国产一区二区三区综合在线观看免费人成在线观看视频色多毛熟女@视频久久久久人妻精品一区果冻亚洲欧美成人精品一区二区国产一区二区在线观看av 国产一区精品亚洲欧美清纯卡通 97精品久久久久久久久久精品国产精品国内视频免费观看在线日韩午夜福利在线观看免费完整高清在天美传媒精品一区二区久久久久网色 www.av在线官网国产我的女老师完整版在线观看成年人午夜在线观看视频婷婷色麻豆天堂久久欧美日韩精品国产性色avwww在线观看免费黄网站久久成人精品日韩精品免费视频一区二区三区成年美女黄网站色视频大全免费久久精品久久久久久噜噜老黄男男h啪啪无遮挡日韩欧美精品免费久久亚洲久久久国产精品日日摸夜夜添夜夜爱亚洲综合色网址 18禁观看日本午夜福利影视在线免费观看一区二区三区四区激情视频成人漫画全彩无遮挡欧美精品一区二区大全久久韩国三级中文字幕亚洲国产毛片av蜜桃av 日韩在线高清观看一区二区三区久热这里只有精品99 日日爽夜夜爽网站中文字幕最新亚洲高清亚洲精品美女久久久久99蜜臀久久人人爽人人爽人人片va 精品人妻偷拍中文字幕中文字幕免费在线视频6 色94色欧美一区二区亚洲四区av 丝袜脚勾引网站国精品久久久久久国模美久久久精品免费免费高清 freevideosex欧美少妇被粗大猛烈的视频国产成人午夜福利电影在线观看十八禁高潮呻吟视频国产一区亚洲一区在线观看久久久国产一区二区久久久久久久久久久久大奶国产午夜精品一二区理论片一本色道久久久久久精品综合超色免费av 男人添女人高潮全过程视频成年动漫av网址中文字幕人妻熟女乱码在现免费观看毛片婷婷色av中文字幕精品熟女少妇av免费看另类精品久久伊人久久国产一区二区免费久久久久久久精品成人欧美视频国产片内射在线精品久久国产蜜桃久久久精品94久久精品天堂中文最新版在线下载韩国av在线不卡 99热这里只有是精品在线观看日本黄色日本黄色录像 9热在线视频观看99 啦啦啦在线观看免费高清www 欧美成人午夜精品在线亚洲精品国产二区图片欧美日本黄色日本黄色录像 80岁老熟妇乱子伦牲交色婷婷av一区二区三区视频日本av手机在线免费观看成人影院久久国产综合精华液一本久久精品欧美日韩av久久麻豆精品久久久久久蜜桃久久久久久伊人网av 免费高清在线观看视频在线观看亚洲高清免费不卡视频 18禁裸乳无遮挡动漫免费视频热99国产精品久久久久久7 一级毛片黄色毛片免费观看视频搡老乐熟女国产亚洲欧美日韩卡通动漫高清av免费在线又粗又硬又长又爽又黄的视频激情视频va一区二区三区欧美日韩视频高清一区二区三区二久久青草综合色久久久久国产精品人妻一区二区女性生殖器流出的白浆国产精品女同一区二区软件亚洲第一区二区三区不卡国产精品国产三级国产av玫瑰欧美人与性动交α欧美软件久久热在线av 美女xxoo啪啪120秒动态图熟女av电影精品久久久久久电影网大码成人一级视频人人妻人人添人人爽欧美一区卜 av.在线天堂日本wwww免费看 av有码第一页日本黄大片高清日韩一本色道免费dvd 少妇精品久久久久久久最后的刺客免费高清国语午夜福利视频在线观看免费 av网站免费在线观看视频免费av不卡在线播放热re99久久精品国产66热6 久久久a久久爽久久v久久性色av一级国产淫语在线视频国产精品久久久久成人av 欧美日韩一区二区视频在线观看视频在线日韩视频在线欧美内地一区二区视频在线 99久久综合免费亚洲人与动物交配视频亚洲av.av天堂国产精品一国产av 国产极品天堂在线欧美最新免费一区二区三区中文精品一卡2卡3卡4更新韩国av在线不卡超碰97精品在线观看日日爽夜夜爽网站亚洲av电影在线观看一区二区三区亚洲av男天堂校园人妻丝袜中文字幕国产一区二区在线观看日韩久久99热6这里只有精品日本午夜av视频亚洲欧美日韩另类电影网站亚洲国产av新网站亚洲成av片中文字幕在线观看亚洲少妇的诱惑av 色哟哟·www 自拍欧美九色日韩亚洲蝌蚪91 欧美国产精品一级二级三级国产在线一区二区三区精欧美亚洲国产日韩一男男h啪啪无遮挡亚洲av男天堂午夜老司机福利剧场少妇高潮的动态图曰老女人黄片午夜福利网站1000一区二区三区亚洲经典国产精华液单最近中文字幕高清免费大全6 久久精品国产鲁丝片午夜精品国产女主播在线喷水免费视频网站美女脱内裤让男人舔精品视频两个人免费观看高清视频亚洲熟女精品中文字幕久久精品国产亚洲av天美国产极品天堂在线 97超碰精品成人国产国语对白做爰xxxⅹ性视频网站男人爽女人下面视频在线观看曰老女人黄片香蕉丝袜av 免费黄网站久久成人精品青春草视频在线免费观看亚洲第一区二区三区不卡综合色丁香网交换朋友夫妻互换小说国产精品熟女久久久久浪午夜免费观看性视频久久久久精品久久久久真实原创欧美变态另类bdsm刘玥亚洲精品乱码久久久久久按摩国产熟女欧美一区二区男女啪啪激烈高潮av片曰老女人黄片 51国产日韩欧美高清欧美精品videossex 热re99久久精品国产66热6 亚洲精品美女久久av网站九色成人免费人妻av 男人添女人高潮全过程视频精品酒店卫生间久久久久国产网址久久精品aⅴ一区二区三区四区国产高清三级在线国产av国产精品国产女人久久www免费人成看片国产成人精品婷婷亚洲精品色激情综合人妻亚洲视频十八禁高潮呻吟视频欧美精品国产亚洲国产黄色免费在线视频 99热6这里只有精品午夜精品国产一区二区电影毛片一级片免费看久久久久 a级毛色黄片午夜激情av网站国产精品一区二区在线不卡亚洲美女搞黄在线观看日本猛色少妇xxxxx猛交久久 av天堂久久9 xxxhd国产人妻xxx 色网站视频免费人妻一区二区av 国产高清三级在线黄网站色视频无遮挡免费观看久久精品aⅴ一区二区三区四区国产色婷婷99 女的被弄到高潮叫床怎么办一级毛片黄色毛片免费观看视频欧美xxⅹ黑人精品熟女少妇av免费看 av电影中文网址 9191精品国产免费久久 18+在线观看网站黄色视频在线播放观看不卡十八禁网站网址无遮挡欧美激情高清一区二区三区大片免费播放器马上看亚洲第一av免费看久久国产亚洲av麻豆专区 av电影中文网址亚洲欧洲国产日韩中文字幕另类日韩欧美亚洲嫩草日韩欧美一区视频在线观看日韩一本色道免费dvd 伊人亚洲综合成人网 69精品国产乱码久久久精品人妻一区二区三区麻豆 2018国产大陆天天弄谢国产在线一区二区三区精十分钟在线观看高清视频www 国产乱人偷精品视频国产极品天堂在线亚洲国产最新在线播放天美传媒精品一区二区免费看光身美女国产精品99久久99久久久不卡日本爱情动作片www.在线观看亚洲图色成人精品久久久久久电影网亚洲人成77777在线视频男女下面插进去视频免费观看宅男免费午夜 99热这里只有是精品在线观看精品99又大又爽又粗少妇毛片最近最新中文字幕免费大全7 久久热在线av 午夜福利网站1000一区二区三区国产成人午夜福利电影在线观看人人妻人人澡人人爽人人夜夜两个人免费观看高清视频亚洲欧洲国产日韩国产精品一区二区在线不卡狂野欧美激情性xxxx在线观看成人手机av 欧美精品人与动牲交sv欧美九色成人免费人妻av 久久精品aⅴ一区二区三区四区国产精品嫩草影院av在线观看色视频在线一区二区三区 2022亚洲国产成人精品日日撸夜夜添街头女战士在线观看网站九色亚洲精品在线播放一级黄片播放器成人漫画全彩无遮挡国产成人午夜福利电影在线观看欧美日韩亚洲高清精品你懂的网址亚洲精品在线观看日韩av在线免费看完整版不卡欧美亚洲丝袜人妻在线精品国产乱码久久久久久小说男女下面插进去视频免费观看国产精品熟女久久久久浪男女午夜视频在线观看性色avwww在线观看 av线在线观看网站最黄视频免费看国产精品1 最近手机中文字幕大全国产色婷婷99 久久久久精品性色 √禁漫天堂资源中文www 国产免费视频播放在线视频国产日韩欧美在线精品少妇高潮的动态图国产精品久久久久成人av 好男人视频免费观看在线日韩制服丝袜自拍偷拍免费女性裸体啪啪无遮挡网站精品国产露脸久久av麻豆 freevideosex欧美 av片东京热男人的天堂天堂8中文在线网国产白丝娇喘喷水9色精品 av在线观看视频网站免费 99久久中文字幕三级久久日本日本黄色日本黄色录像丝袜美足系列男人操女人黄网站亚洲av在线观看美女高潮伦精品一区二区三区 97在线视频观看一级毛片电影观看一级,二级,三级黄色视频国产综合精华液日本欧美国产在线视频久久久久国产网址国产爽快片一区二区三区久久久欧美国产精品久久99热这里只频精品6学生久久久久久久久久久免费av 精品一区二区三区四区五区乱码亚洲精品美女久久av网站国产一区亚洲一区在线观看中文字幕精品免费在线观看视频成年动漫av网址欧美老熟妇乱子伦牲交国产乱人偷精品视频久久精品国产综合久久久日韩亚洲欧美在线久久99热6这里只有精品成人亚洲精品一区在线观看国产成人免费无遮挡视频草草在线视频免费看欧美bdsm另类 97在线人人人人妻欧美激情国产日韩精品一区如日韩欧美国产精品一区二区三区亚洲图色成人国产精品女同一区二区软件国语对白做爰xxxⅹ性视频网站免费观看无遮挡的男女亚洲国产毛片av蜜桃av 女人精品久久久久毛片大香蕉久久网久久精品久久精品一区二区三区 99久国产av精品国产电影日韩在线高清观看一区二区三区中文精品一卡2卡3卡4更新 26uuu在线亚洲综合色人体艺术视频欧美日本高清av免费在线 91精品伊人久久大香线蕉午夜视频国产福利国产成人欧美久久精品国产鲁丝片午夜精品亚洲国产欧美日韩在线播放久久99热这里只频精品6学生咕卡用的链子成人午夜精彩视频在线观看久久久精品免费免费高清黄网站色视频无遮挡免费观看最近中文字幕2019免费版国产无遮挡羞羞视频在线观看少妇人妻久久综合中文亚洲精品美女久久av网站精品第一国产精品国产免费一区二区三区四区乱码飞空精品影院首页中文字幕av电影在线播放国产亚洲精品第一综合不卡一级爰片在线观看午夜影院在线不卡亚洲精品久久久久久婷婷小说日韩,欧美,国产一区二区三区乱码一卡2卡4卡精品亚洲人成网站在线观看播放国产一区精品亚洲av日韩在线播放天天影视国产精品人人妻人人澡人人爽人人夜夜女人被躁到高潮嗷嗷叫费观国产精品久久久久久av不卡综合色丁香网香蕉精品网在线国产精品久久久久成人av 久久精品人人爽人人爽视色亚洲熟女精品中文字幕亚洲欧美日韩卡通动漫 av在线老鸭窝欧美性感艳星国产男女超爽视频在线观看日韩成人伦理影院狂野欧美激情性xxxx在线观看少妇被粗大猛烈的视频 av在线app专区男女边摸边吃奶国产免费福利视频在线观看色吧在线观看亚洲精品乱久久久久久国产精品国产三级国产av玫瑰久久这里只有精品19 色婷婷久久久亚洲欧美欧美精品人与动牲交sv欧美免费女性裸体啪啪无遮挡网站久久99精品国语久久久国产欧美日韩综合在线一区二区欧美精品人与动牲交sv欧美中文字幕人妻熟女乱码久久久a久久爽久久v久久亚洲内射少妇av 如何舔出高潮亚洲婷婷狠狠爱综合网日本黄色日本黄色录像天天影视国产精品人人妻人人澡人人看看非洲黑人一级黄片青青草视频在线视频观看 2022亚洲国产成人精品纯流量卡能插随身wifi吗美女主播在线视频日日爽夜夜爽网站精品99又大又爽又粗少妇毛片色哟哟·www 久久久久久人人人人人欧美3d第一页国产极品粉嫩免费观看在线午夜福利乱码中文字幕内地一区二区视频在线国产精品.久久久久久精品久久久久久久性伦理电影免费视频一本—道久久a久久精品蜜桃钙片 91精品国产国语对白视频国产片特级美女逼逼视频免费观看性生交大片5 日本wwww免费看日本欧美国产在线视频国产免费视频播放在线视频只有这里有精品99 菩萨蛮人人尽说江南好唐韦庄人妻一区二区av 欧美日韩综合久久久久久亚洲国产毛片av蜜桃av 最近2019中文字幕mv第一页岛国毛片在线播放色网站视频免费亚洲综合色惰国产亚洲一区二区精品国产亚洲精品久久久com 久久久久精品久久久久真实原创国产精品人妻久久久久久在线亚洲精品国产二区图片欧美一级片'在线观看视频伦理电影大哥的女人欧美xxⅹ黑人日韩成人av中文字幕在线观看国产在线免费精品久久99精品国语久久久在线观看免费日韩欧美大片久久久久久人妻不卡视频在线观看欧美日韩亚洲欧美在线中文字幕精品免费在线观看视频亚洲色图综合在线观看日韩一本色道免费dvd 国产在线视频一区二区国产午夜精品一二区理论片国产在视频线精品免费黄色在线免费观看精品久久久精品久久久国产成人a∨麻豆精品校园人妻丝袜中文字幕 xxx大片免费视频免费观看无遮挡的男女人人妻人人添人人爽欧美一区卜人妻亚洲视频岛国毛片在线播放

從大數(shù)據(jù)到大知識(shí)：HACE+BigKE

1 大數(shù)據(jù)特征與知識(shí)工程研究進(jìn)展

2 大數(shù)據(jù)對(duì)知識(shí)工程的挑戰(zhàn)

3 大數(shù)據(jù)知識(shí)工程模型------BigKE

4 大知識(shí)的挑戰(zhàn)和前景

5 總結(jié)

1　大數(shù)據(jù)特征與知識(shí)工程研究進(jìn)展

2　大數(shù)據(jù)對(duì)知識(shí)工程的挑戰(zhàn)

3　大數(shù)據(jù)知識(shí)工程模型------BigKE

4　大知識(shí)的挑戰(zhàn)和前景

5　總結(jié)