王國(guó)胤,李 帥,楊 潔
(重慶郵電大學(xué) 計(jì)算智能重慶市重點(diǎn)實(shí)驗(yàn)室, 重慶 400065)
信息技術(shù)的迅猛發(fā)展開(kāi)啟了人類通往信息時(shí)代的大門,人類進(jìn)入了大數(shù)據(jù)時(shí)代,并正在向智能時(shí)代邁進(jìn)。隨著信息技術(shù)的發(fā)展以及各個(gè)領(lǐng)域的數(shù)字化和信息化推進(jìn),每天都在不同的領(lǐng)域產(chǎn)生大量的數(shù)據(jù),如醫(yī)院、工廠、礦山、政府機(jī)構(gòu)、學(xué)校、社交網(wǎng)站、電子商務(wù)等[1]。據(jù)估計(jì),人類從發(fā)明文字到公元2006年之間共積累了180 EB(1EB等于10億GB)的數(shù)據(jù),另?yè)?jù)互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)估計(jì),2011年全球數(shù)據(jù)總量已經(jīng)達(dá)到0.7ZB(1ZB等于1萬(wàn)億GB),2015年全球數(shù)據(jù)總量達(dá)到8.6ZB,目前全球數(shù)據(jù)的增長(zhǎng)速度在每年40%左右,預(yù)計(jì)到2020年全球的數(shù)據(jù)總量將達(dá)到40ZB[2-4]。數(shù)據(jù)的爆炸式增長(zhǎng)潛藏著重大的科學(xué)價(jià)值和巨大的經(jīng)濟(jì)利益[5]:一方面,對(duì)大數(shù)據(jù)的分析處理可以促進(jìn)人類對(duì)自然世界的認(rèn)識(shí);另一方面,對(duì)大數(shù)據(jù)的挖掘利用可以轉(zhuǎn)化為經(jīng)濟(jì)價(jià)值的來(lái)源。例如,智能交通系統(tǒng)中,使用先進(jìn)的智能技術(shù)對(duì)地面交通網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)、準(zhǔn)確、高效的綜合運(yùn)輸管理;醫(yī)療診斷中,建立包括患者過(guò)敏史、用藥史、家族病史和基因在內(nèi)的醫(yī)療大數(shù)據(jù)檔案,為醫(yī)生診斷提供詳細(xì)的參考,幫助醫(yī)生開(kāi)具準(zhǔn)確的處方;金融領(lǐng)域中,大數(shù)據(jù)的分析和挖掘能夠幫助投資者獲取新的市場(chǎng)機(jī)遇和預(yù)測(cè)。此外,跨行業(yè)、多領(lǐng)域的大數(shù)據(jù)關(guān)聯(lián)分析與挖掘產(chǎn)生的價(jià)值更加顯著,顯示出了大數(shù)據(jù)強(qiáng)大的生命力。對(duì)大數(shù)據(jù)進(jìn)行充分的挖掘與分析已經(jīng)成為各國(guó)政府、金融界和學(xué)界關(guān)注的焦點(diǎn):早在2007年,美國(guó)國(guó)家航空航天局(NASA)就在向美國(guó)能源部和美國(guó)國(guó)家科學(xué)基金會(huì)的建議中提到,在大規(guī)??珙I(lǐng)域、異構(gòu)數(shù)據(jù)中有巨大的機(jī)會(huì)發(fā)現(xiàn)新知識(shí),并能提供有效的新方法幫助判斷和決策[6]。2012年,世界經(jīng)濟(jì)論壇將數(shù)據(jù)列為了與貨幣和黃金同等重要的一種新經(jīng)濟(jì)資產(chǎn)[7]。2016年,美國(guó)政府啟動(dòng)了聯(lián)邦大數(shù)據(jù)研究和發(fā)展戰(zhàn)略計(jì)劃,旨在開(kāi)發(fā)大數(shù)據(jù)技術(shù),開(kāi)展大數(shù)據(jù)應(yīng)用,并培養(yǎng)下一代大數(shù)據(jù)科學(xué)家[8]。近年來(lái),我國(guó)也逐漸加大對(duì)該領(lǐng)域的研究投入。2017年,國(guó)務(wù)院發(fā)布《新一代人工智能發(fā)展規(guī)劃》,要求以加快人工智能與經(jīng)濟(jì)、社會(huì)、國(guó)防為主線,以提升新一代人工智能科技創(chuàng)新能力為主攻方向,構(gòu)建開(kāi)放協(xié)同的人工智能科技創(chuàng)新體系,把握人工智能技術(shù)屬性和社會(huì)屬性高度融合的特征,堅(jiān)持人工智能研發(fā)攻關(guān)、產(chǎn)品應(yīng)用和產(chǎn)業(yè)培育“三位一體”推進(jìn),全面支撐科技、經(jīng)濟(jì)、社會(huì)發(fā)展和國(guó)家安全[9]。隨后,工信部發(fā)布《促進(jìn)新一代人工智能產(chǎn)業(yè)發(fā)展三年行動(dòng)計(jì)劃(2018—2020年)》,從推動(dòng)產(chǎn)業(yè)發(fā)展的角度,結(jié)合“中國(guó)制造2025”,以信息技術(shù)與制造技術(shù)深度融合為主線,推動(dòng)新一代人工智能技術(shù)的產(chǎn)業(yè)化與集成應(yīng)用,發(fā)展高端智能產(chǎn)品,夯實(shí)核心基礎(chǔ),提升智能制造水平,完善公共支撐體系[10]。
人工智能有三大學(xué)派:符號(hào)主義、聯(lián)結(jié)主義和行為主義。人工智能誕生之初,符號(hào)主義方法以專家知識(shí)驅(qū)動(dòng),模擬人類邏輯推演,在定理證明、國(guó)際象棋等復(fù)雜的智能活動(dòng)中展現(xiàn)了巨大優(yōu)勢(shì),但由于對(duì)專家知識(shí)的過(guò)分依賴,符號(hào)主義往往只能解決特定問(wèn)題,泛化能力弱,在人工智能中的主導(dǎo)地位逐漸被聯(lián)結(jié)主義所取代。特別是進(jìn)入大數(shù)據(jù)時(shí)代,隨著計(jì)算能力的飛速提升,以深度學(xué)習(xí)為代表的聯(lián)結(jié)主義方法廣泛地應(yīng)用在各領(lǐng)域,被認(rèn)為是處理大數(shù)據(jù)的最有效方法[11]。聯(lián)結(jié)主義方法認(rèn)為模擬人的智能要依靠仿生學(xué),特別是要模擬人腦建立腦模型。認(rèn)知科學(xué)對(duì)這一領(lǐng)域的發(fā)展起到了至關(guān)重要的作用,啟發(fā)了許多有效的機(jī)器學(xué)習(xí)模型。從不同層次逐級(jí)認(rèn)識(shí)世界是人類固有的一種認(rèn)知機(jī)制[14],在認(rèn)知計(jì)算中,被稱為粒計(jì)算。粒度最初是物理學(xué)的一個(gè)概念,指的是實(shí)質(zhì)粒子大小的平均度量。在這里,它被用來(lái)度量從不同層次結(jié)構(gòu)空間中分析和處理數(shù)據(jù)的信息量[15]。作為處理的對(duì)象,??梢允侨腥我庾蛹?、對(duì)象、聚類和元素通過(guò)可辨識(shí)性、相似性和功能性聚集而成的單元[16]。在粒計(jì)算中,所有結(jié)構(gòu)化的或其誘導(dǎo)出的對(duì)象都稱為粒[17]。而用來(lái)表示和解釋問(wèn)題或系統(tǒng)的結(jié)構(gòu)稱為粒結(jié)構(gòu)[18]。圖1表示了一個(gè)完整的粒結(jié)構(gòu),Layerk表示最細(xì)粒度層,其中的每一個(gè)點(diǎn)表示數(shù)據(jù)。粒計(jì)算具有廣闊的應(yīng)用背景,如特征選擇[19]和時(shí)間序列預(yù)測(cè)[20]等。
隨著數(shù)據(jù)的爆炸式增長(zhǎng),機(jī)器學(xué)習(xí)也面臨著許多挑戰(zhàn)[12-13]。其中,最大的問(wèn)題就是如何解決大數(shù)據(jù)5V(volume,velocity,variety,value, veracity)特性導(dǎo)致的挑戰(zhàn)。例如,在數(shù)據(jù)獲取階段,原始數(shù)據(jù)中就包含大量的異質(zhì)數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及不確定性數(shù)據(jù)等。尤其是在處理不確定性數(shù)據(jù)方面,傳統(tǒng)的機(jī)器學(xué)習(xí)往往認(rèn)為不確定性是一個(gè)隨機(jī)現(xiàn)象,而忽略了人類的模糊認(rèn)知機(jī)制,只能挖掘到確定知識(shí),無(wú)法對(duì)不確定知識(shí)進(jìn)行概括;在處理大型數(shù)據(jù)方面,傳統(tǒng)機(jī)器學(xué)習(xí)往往只注重對(duì)整體數(shù)據(jù)挖掘,而忽略了人類的分層認(rèn)知機(jī)制,只能挖掘到底層特征,不能挖掘到對(duì)高層特征。此外,當(dāng)前的機(jī)器學(xué)習(xí)研究,還沒(méi)能夠把不確定性這一物理世界與認(rèn)知過(guò)程的基本特征作為基礎(chǔ)問(wèn)題進(jìn)行深入研究,無(wú)法解決不確定性顯著、數(shù)據(jù)來(lái)源和分布廣泛(“獨(dú)立同分布”假設(shè)不再適用)等問(wèn)題。
深度學(xué)習(xí)框架提供了一個(gè)解決以上問(wèn)題的新方向。首先,它通過(guò)組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。這種分層結(jié)構(gòu)從全局上能夠解釋神經(jīng)網(wǎng)絡(luò)相鄰層之間的關(guān)系,以提高訓(xùn)練效果,但不能從局部上解釋每一個(gè)參數(shù)的物理意義;而在多層邏輯神經(jīng)網(wǎng)絡(luò)中,盡管局部上每一個(gè)神經(jīng)元的邏輯關(guān)系都可解釋,但全局上不能達(dá)到深度學(xué)習(xí)的規(guī)模。回歸問(wèn)題的本原,本文從粒認(rèn)知計(jì)算的角度出發(fā),融合人類智能問(wèn)題求解的多粒度思維機(jī)制、人類大腦“大范圍優(yōu)先”的認(rèn)知機(jī)制和智能控制系統(tǒng)中“智能計(jì)算前置”的信息處理機(jī)制,介紹一種知識(shí)與數(shù)據(jù)雙向驅(qū)動(dòng)的多粒度認(rèn)知計(jì)算——數(shù)據(jù)驅(qū)動(dòng)的粒認(rèn)知計(jì)算(Data-driven granular cognitive computing,DGCC)[21-22],如圖2中的三角形結(jié)構(gòu)所示。它結(jié)合了人類“大范圍優(yōu)先”的認(rèn)知機(jī)制,即“由粗到細(xì)”認(rèn)知過(guò)程,和機(jī)器學(xué)習(xí)系統(tǒng)“由細(xì)到粗”的信息處理機(jī)制。
圖2 DGCC的三角形結(jié)構(gòu)[21-22]Fig.2 Triangular structure of DGCC[21-22]
本文組織如下:第1節(jié)介紹認(rèn)知計(jì)算和粒計(jì)算的基本概念;第2節(jié)詳細(xì)介紹數(shù)據(jù)驅(qū)動(dòng)的粒認(rèn)知計(jì)算模型(DGCC),討論DGCC模型中需要研究的科學(xué)問(wèn)題;第3節(jié)分析幾個(gè)多粒度認(rèn)知計(jì)算的應(yīng)用案例;最后一節(jié)總結(jié)全文。
認(rèn)知科學(xué)[23-24]是揭示人類智能和行為的學(xué)科,重點(diǎn)研究在神經(jīng)系統(tǒng)和腦機(jī)制中,信息的表達(dá)、處理和轉(zhuǎn)化。認(rèn)知計(jì)算研究與人類思維方式一致的、統(tǒng)一的、普遍的計(jì)算方式[25],因此,認(rèn)知計(jì)算可以被認(rèn)為是建立在人工智能和信號(hào)處理基礎(chǔ)之上的學(xué)科。為了處理復(fù)雜的現(xiàn)實(shí)世界問(wèn)題,通過(guò)對(duì)一些特殊的智能現(xiàn)象(如思維現(xiàn)象、生物現(xiàn)象、自然現(xiàn)象和社會(huì)現(xiàn)象等)的觀察,研究者開(kāi)發(fā)出了許多智能計(jì)算模型和機(jī)器學(xué)習(xí)模型:模糊邏輯使得計(jì)算機(jī)能夠像人類那樣理解自然語(yǔ)言和進(jìn)行邏輯推理[26];人工神經(jīng)網(wǎng)絡(luò)能夠模仿人腦的機(jī)制從經(jīng)驗(yàn)數(shù)據(jù)中學(xué)習(xí)知識(shí)[27-31];演化計(jì)算模仿自然界的選擇和進(jìn)化來(lái)尋找最優(yōu)解[32];群體智能算法模仿生物系統(tǒng)通過(guò)系統(tǒng)內(nèi)協(xié)同合作的方式尋找最優(yōu)解[33];人工免疫算法模仿生物免疫機(jī)制對(duì)多峰值函數(shù)進(jìn)行多峰值搜索和全局尋優(yōu)[34];粒計(jì)算試圖模擬人類在不同層次上對(duì)現(xiàn)實(shí)世界進(jìn)行感知的機(jī)制[35-36]。另有一些研究者試圖對(duì)人的思維模式和認(rèn)知機(jī)制設(shè)計(jì)出一套統(tǒng)一的計(jì)算模式[25]。相較于傳統(tǒng)系統(tǒng)而言,基于認(rèn)知科學(xué)設(shè)計(jì)的系統(tǒng)能夠構(gòu)建知識(shí)、學(xué)習(xí)知識(shí)、理解自然語(yǔ)言、邏輯推理、并與人類進(jìn)行更加自然地交互[37]。
隨著人工智能和認(rèn)知科學(xué)的不斷發(fā)展,研究者們發(fā)現(xiàn)了人類智能的一個(gè)公認(rèn)特點(diǎn):在對(duì)現(xiàn)實(shí)世界問(wèn)題的認(rèn)知和處理時(shí),人類往往采取從不同層次觀察和分析問(wèn)題的策略,從不同層面上觀察和分析同一問(wèn)題[38]。從哲學(xué)的觀點(diǎn)上來(lái)看,人類在對(duì)任何事物進(jìn)行認(rèn)知、度量、形成概念和推理時(shí),粒度思想都貫穿其中[38]。圖靈獎(jiǎng)、諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者赫伯特·西蒙教授認(rèn)為,自然世界和人類社會(huì)中,復(fù)雜任務(wù)通常以層次結(jié)構(gòu)形式存在,即復(fù)雜任務(wù)由相互關(guān)聯(lián)的子任務(wù)組成,每個(gè)子任務(wù)亦具有層次結(jié)構(gòu),直到最低層次的基本任務(wù)[39]。1997年,Zadeh教授就指出粒計(jì)算是模糊信息?;⒋植诩碚摵蛥^(qū)間計(jì)算的超集,是粒數(shù)學(xué)的子集[40]。粗糙集等理論提供了具體的粒計(jì)算模型,將粒與認(rèn)知計(jì)算中的分類、學(xué)習(xí)緊密聯(lián)系起來(lái),使得粒計(jì)算成為一種快速增長(zhǎng)的智能計(jì)算范例[35]。粒計(jì)算通常被認(rèn)為是在解決復(fù)雜問(wèn)題中,所使用的?;碚?、方法、技術(shù)和工具的總稱。Bargiela和Pedrycz將粒計(jì)算視為用于分析和設(shè)計(jì)人工智能系統(tǒng)的一個(gè)概念和算法平臺(tái)[41]。Jankowski用粗糙近似對(duì)語(yǔ)法、語(yǔ)義等信息粒進(jìn)行建模[42]。全集和鄰域系統(tǒng)的層次結(jié)構(gòu)能夠誘導(dǎo)出多粒度結(jié)構(gòu)。模仿人類在不同粒度層次上感受現(xiàn)實(shí)世界的能力,張鈴和張鈸提出了商空間理論,該理論能夠?yàn)榱藵M足特定問(wèn)題的求解需要,對(duì)對(duì)象進(jìn)行不同粒度層的抽象與轉(zhuǎn)換[36]。形式概念分析能夠從一組對(duì)象中自動(dòng)推導(dǎo)出本體[43],概念格的粒結(jié)構(gòu)是該理論中知識(shí)約簡(jiǎn)的重要手段[35,44]。姚一豫在上述研究成果基礎(chǔ)上,將粒計(jì)算歸納為圖3所示的相互補(bǔ)充、互為依賴的三角形關(guān)系[45-46]?;诙ㄐ愿拍詈投繑?shù)據(jù)之間的關(guān)系,王國(guó)胤基于云模型提出了一種雙向認(rèn)知計(jì)算模型(BCC),用于表示和處理不確定概念的映射關(guān)系,將樣本視為概念的外延,使用云模型的三個(gè)參數(shù)(期望、熵、超熵)來(lái)表示概念的內(nèi)涵[47];徐計(jì)和王國(guó)胤提出了生成分層樹(shù)的一種自適應(yīng)聚類方[48]。
圖3 粒計(jì)算的三角形結(jié)構(gòu)[46]Fig.3 The granular computing triangle structure[46]
模擬人類認(rèn)知過(guò)程,使計(jì)算機(jī)具備智能處理能力,既可以依賴專家知識(shí),使用形式化的邏輯系統(tǒng)進(jìn)行推導(dǎo),也可以從數(shù)據(jù)出發(fā),用數(shù)學(xué)模型和算法進(jìn)行計(jì)算。但人類的認(rèn)知與計(jì)算機(jī)的數(shù)據(jù)計(jì)算之間不一定是完全吻合的(見(jiàn)圖4)。因此,需要研究二者的原理與差異,融合優(yōu)勢(shì),開(kāi)發(fā)符合人腦認(rèn)知要求(解決實(shí)際問(wèn)題)的智能計(jì)算模型。
圖4 計(jì)算與認(rèn)知之間的不一致性Fig.4 Discordance between computing and cognition
計(jì)算機(jī)的信息處理機(jī)制與人類的粒認(rèn)知機(jī)制有著巨大的不同。計(jì)算機(jī)的信息處理是以集合論、離散數(shù)學(xué)等一系列數(shù)學(xué)理論為基礎(chǔ)的,因此經(jīng)典的智能計(jì)算方法都是通過(guò)對(duì)原始數(shù)據(jù)分析和計(jì)算,提取有價(jià)值的信息,解決實(shí)際問(wèn)題。如圖5所示,計(jì)算機(jī)在圖像識(shí)別過(guò)程中,從單個(gè)像素出發(fā),提取圖像特征,輸出分類結(jié)果。從粒計(jì)算的角度來(lái)看,像素(數(shù)據(jù))是最細(xì)粒度的,而特征(知識(shí))是粗粒度的。傳統(tǒng)的機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)模型都是一個(gè)“從細(xì)粒度到粗粒度(由細(xì)到粗)”的數(shù)據(jù)、信息和知識(shí)的轉(zhuǎn)變過(guò)程,存在語(yǔ)義代溝的缺陷。如:Olshausen使用一種稀疏編碼網(wǎng)絡(luò)模擬人腦視覺(jué)感受野V1層對(duì)人臉圖片的簡(jiǎn)單特征提取。深度神經(jīng)網(wǎng)絡(luò)通過(guò)使用更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)和更多的連接層數(shù)解決更復(fù)雜的問(wèn)題,能夠?qū)W習(xí)到更高層的特征[49-51]。2015年,Google公司推出的FaceNet,通過(guò)直接學(xué)習(xí)圖像到歐式空間中點(diǎn)的映射,進(jìn)行人臉識(shí)別、人臉驗(yàn)證和人臉聚類,識(shí)別率高達(dá)99.63%[52]。雖然深度學(xué)習(xí)取得的效果很明顯,但是其花費(fèi)的代價(jià)非常高。
圖5 計(jì)算機(jī)“由細(xì)到粗”的信息處理機(jī)制Fig.5 Information process mechanism of computer: from finer granularity levels to coarser levels
中國(guó)科學(xué)院生物物理研究所陳霖院士等通過(guò)實(shí)驗(yàn)研究發(fā)現(xiàn),人類認(rèn)知具有“大范圍優(yōu)先”的規(guī)律,視覺(jué)系統(tǒng)對(duì)全局拓?fù)涮匦杂葹槊舾衃53]?!按蠓秶鷥?yōu)先”的人類認(rèn)知規(guī)律,是一個(gè)“從粗粒度到細(xì)粒度(由粗到細(xì))”的變換過(guò)程。如圖6,人類可以通過(guò)寥寥數(shù)筆的漫畫來(lái)認(rèn)出一個(gè)動(dòng)物。人類通常將復(fù)雜問(wèn)題分解成不同粒度層次上的子問(wèn)題,通過(guò)“大范圍優(yōu)先”的認(rèn)知機(jī)制,首先在粗粒度層次上對(duì)問(wèn)題求解,實(shí)現(xiàn)對(duì)復(fù)雜問(wèn)題的整體把握,再根據(jù)問(wèn)題求解的需要進(jìn)行逐步的細(xì)化,逐步切換到較細(xì)粒度上進(jìn)行更加深入的分析求解,這一過(guò)程稱為多粒度漸進(jìn)式分解求解機(jī)制。分解求解機(jī)制可以將復(fù)雜問(wèn)題轉(zhuǎn)化為簡(jiǎn)單問(wèn)題,將抽象問(wèn)題轉(zhuǎn)化為具體問(wèn)題,不確定性問(wèn)題轉(zhuǎn)化為確定性問(wèn)題。復(fù)雜問(wèn)題轉(zhuǎn)化為簡(jiǎn)單問(wèn)題,就是將一個(gè)復(fù)雜問(wèn)題表示為多個(gè)相對(duì)簡(jiǎn)單問(wèn)題的組合。抽象問(wèn)題轉(zhuǎn)化為具體問(wèn)題,就是將一個(gè)問(wèn)題在高層粒度空間的抽象表示,轉(zhuǎn)化為在低層粒度空間的具體表示。人類的這種“由粗到細(xì)”的漸進(jìn)式認(rèn)知機(jī)制,是一種決策行動(dòng)分解機(jī)制,即將對(duì)一個(gè)問(wèn)題的認(rèn)知行為分解成不同階段,在每一個(gè)階段都能得到一個(gè)相應(yīng)的認(rèn)知結(jié)果。目前,人類的這種“由粗到細(xì)”的漸進(jìn)式認(rèn)知機(jī)制研究,在許多領(lǐng)域取得了成功。Choi等人設(shè)計(jì)了一種長(zhǎng)文檔快速查詢的方法,用一個(gè)快速的、粗粒度的模型找到查詢的相關(guān)區(qū)域,再使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)詳細(xì)分析,得出精確的結(jié)果[54]。Fang等人提出了一種融合全局特征和重要局部特征的多粒度框架,處理智能交通系統(tǒng)中車輛識(shí)別的問(wèn)題,通過(guò)粗粒度特征上的車輛分類,再?gòu)募?xì)粒度特征上對(duì)車輛進(jìn)行識(shí)別,提高了車輛識(shí)別的速度和準(zhǔn)確度[55]。Pavlakos等人使用一種“由粗到細(xì)”的有監(jiān)督框架,融合高維數(shù)據(jù)特征,進(jìn)行迭代運(yùn)算,實(shí)現(xiàn)單張圖片預(yù)測(cè)三維人體姿態(tài)[56]。張凱兵等人提出了一種“由粗到細(xì)”的方法對(duì)單幅圖像進(jìn)行超分辨率重建[57]。呂健勤等人提出了一種基于粗粒度搜索的人臉對(duì)齊框架,對(duì)包含不同形狀的形狀空間進(jìn)行粗略的搜索,并使用粗粒度結(jié)果來(lái)約束后續(xù)細(xì)粒度上的搜索方案,通過(guò)漸進(jìn)式分解和自適應(yīng)搜索機(jī)制,避免了優(yōu)化中陷入局部最優(yōu)的情況[58]。Cao等人提出了一種“由粗到細(xì)”的潛在指紋匹配算法,平衡了準(zhǔn)確性和魯棒性[59]。鄧偉輝和王國(guó)胤等提出了一種二維高斯云的時(shí)間序列?;硎痉椒?將一個(gè)復(fù)雜的時(shí)間序列相似性度量任務(wù)分解成若干個(gè)“求解一維高斯云相似性”的子任務(wù),實(shí)現(xiàn)了計(jì)算復(fù)雜度低、可理解性強(qiáng)的復(fù)雜任務(wù)多粒度分解求解[60]。隨著人工智能的發(fā)展和社會(huì)需求的不斷提升,機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)已經(jīng)從處理單一的、簡(jiǎn)單的、確定的實(shí)際問(wèn)題轉(zhuǎn)變?yōu)樘幚矶嘣?、?fù)雜的、不確定的問(wèn)題。因此,如何借鑒人類在觀察、分析和求解問(wèn)題時(shí)的“由粗到細(xì)”的漸進(jìn)式分解求解機(jī)制,建立滿足時(shí)限約束條件的逐步細(xì)化的漸進(jìn)式多粒度計(jì)算模型,逐漸成為人工智能面對(duì)的關(guān)鍵問(wèn)題。
圖6 人類認(rèn)知機(jī)制:“由粗到細(xì)”Fig.6 Human cognition: from coarser granularity levels to finer levels
在某些條件的限制下(如時(shí)間、經(jīng)濟(jì)等),人類往往不能一開(kāi)始就認(rèn)識(shí)到實(shí)際問(wèn)題的全貌,轉(zhuǎn)而從問(wèn)題的某個(gè)局部出發(fā)求解,再根據(jù)限制條件的變化繼續(xù)求解,最終求得全局解。這一“由局部到全局”、“由細(xì)到粗”的漸進(jìn)式問(wèn)題求解機(jī)制,也是人類的一種自然行為模式。例如,在醫(yī)療診斷中,醫(yī)生碰到急診病人,往往先根據(jù)初步的局部檢查結(jié)果采取應(yīng)急手段穩(wěn)定病人病情,然后再對(duì)病人進(jìn)行全面檢查,準(zhǔn)確判斷病情,進(jìn)一步對(duì)癥下藥。這一求解機(jī)制可以保證在限制條件下,得到當(dāng)前的局部最優(yōu)解,很大程度上降低了決策代價(jià)。生物學(xué)上的“非條件反射”、自動(dòng)化領(lǐng)域的“智能計(jì)算前置”和機(jī)器學(xué)習(xí)中的“貪心算法”都是這類“由細(xì)到粗”的求解機(jī)制。除此之外,如果從相互不依賴的局部開(kāi)始對(duì)問(wèn)題進(jìn)行求解,又不會(huì)影響彼此的結(jié)果,這將使得“并行計(jì)算”成為可能,從而更大限度降低決策的時(shí)間代價(jià)。一些領(lǐng)域的研究工作中已經(jīng)成功借鑒了“由細(xì)到粗”的粒度計(jì)算思想。Aluru用智能計(jì)算前置的思想,提出了一種適用于序列比較的平行算法,將任務(wù)分配到每個(gè)處理器上進(jìn)行計(jì)算,降低了空間復(fù)雜度[61]。Marcu提出了一種數(shù)據(jù)驅(qū)動(dòng)的、自下而上的文本處理方法,該方法通過(guò)修辭關(guān)系的局部一致性約束實(shí)現(xiàn)文本的全局一致性[62]。Ferragina提出了一種對(duì)字符串前綴編碼進(jìn)行漸進(jìn)式匹配的預(yù)搜索算法,提高了搜索效率[63]。Oh等人提出了一種新的S3D圖像質(zhì)量評(píng)估算法,該算法在一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)模型中加入一個(gè)聚合層,將局部模型訓(xùn)練出的特征自動(dòng)聚合到全局上,克服了已有方法的局限性[64]。在處理時(shí)態(tài)數(shù)據(jù)的異常檢測(cè)問(wèn)題中,Benkabou等人提出了一種聚類與檢測(cè)同時(shí)進(jìn)行的嵌入式方法,對(duì)局部聚類實(shí)例加權(quán)處理后進(jìn)行異常檢測(cè),再將檢測(cè)結(jié)果推廣到全局[65]。徐計(jì)和王國(guó)胤等人提出了一種基于密度峰值聚類的多粒度聚類模型,為用戶高效地提供當(dāng)前有效解,并且提供了一種基于局部密度粒度尋優(yōu)的算法,該算法的復(fù)雜度與數(shù)據(jù)集的規(guī)模呈線性關(guān)系,提高了粒度尋優(yōu)的效率[66-67]。由此可見(jiàn),通過(guò)這種“由局部到全局”、“由細(xì)到粗”的漸進(jìn)式問(wèn)題求解機(jī)制,可以在當(dāng)前條件的限制下求出問(wèn)題的可行解,提供決策和指導(dǎo)行為。面對(duì)如今快速增長(zhǎng)的大數(shù)據(jù)環(huán)境,數(shù)據(jù)信息是不完備的、動(dòng)態(tài)的,需要在一定時(shí)限下做出相應(yīng)決策,及時(shí)提供滿足客戶需要的有效解。因此,如何借鑒這種“由細(xì)到粗”、“由局部到全局”的漸進(jìn)式問(wèn)題求解機(jī)制,研究滿足時(shí)限約束條件的多粒度漸進(jìn)式擴(kuò)張計(jì)算模型,也將成為未來(lái)大數(shù)據(jù)研究的重要發(fā)展方向。
解決計(jì)算機(jī)“由細(xì)到粗”信息處理機(jī)制與人類“由粗到細(xì)”認(rèn)知機(jī)制的矛盾,將是研究新型認(rèn)知啟發(fā)的智能計(jì)算模型需要解決的一個(gè)關(guān)鍵問(wèn)題。數(shù)據(jù)驅(qū)動(dòng)的粒認(rèn)知計(jì)算(DGCC)實(shí)際上是從數(shù)據(jù)出發(fā),以人類認(rèn)知事物的分層(多粒度)機(jī)制為基礎(chǔ)的計(jì)算框架。從認(rèn)知計(jì)算來(lái)看,數(shù)據(jù)是知識(shí)的外延,知識(shí)是數(shù)據(jù)的內(nèi)涵,兩者之間是抽象與具象的關(guān)系;從粒計(jì)算來(lái)看,數(shù)據(jù)是知識(shí)在最細(xì)粒度上的表現(xiàn),知識(shí)是數(shù)據(jù)在粗粒度上的描述,兩者之間是粒度層次切換的關(guān)系,如圖7所示。
圖7 數(shù)據(jù)與知識(shí)在DGCC中的關(guān)系Fig.7 The relationship between data and knowledge in DGCC
對(duì)事物認(rèn)知和問(wèn)題求解,人類具有定性和定量雙向推理的能力,特別是對(duì)于不確定性信息的處理,人類的邏輯推理比計(jì)算機(jī)的處理更為靈活和高效。張鈸院士指出[68],人類在問(wèn)題求解中具有天生的知識(shí)驅(qū)動(dòng)能力、對(duì)不確定性問(wèn)題的處理優(yōu)勢(shì)和對(duì)全局整體的感知能力,傳統(tǒng)機(jī)器學(xué)習(xí)具有在數(shù)據(jù)分析處理中的數(shù)據(jù)驅(qū)動(dòng)能力、高速計(jì)算的優(yōu)勢(shì)以及對(duì)誤差的泛化能力,二者結(jié)合是未來(lái)信息處理的發(fā)展趨勢(shì)。人機(jī)系統(tǒng)理論創(chuàng)建者之一的Fitts教授對(duì)人和機(jī)器內(nèi)在的優(yōu)缺點(diǎn)進(jìn)行詳細(xì)分析,發(fā)現(xiàn)二者的優(yōu)缺點(diǎn)呈一種互補(bǔ)關(guān)系,指出通過(guò)融合二者優(yōu)點(diǎn)可以產(chǎn)生性能更優(yōu)良的人機(jī)系統(tǒng)[69]。潘云鶴院士認(rèn)為將數(shù)據(jù)驅(qū)動(dòng)機(jī)器學(xué)習(xí)方法與人類的常識(shí)先驗(yàn)與隱式直覺(jué)有效結(jié)合,可以實(shí)現(xiàn)可解釋、更魯棒和更通用的人工智能[70]。鄭南寧院士指出由于人類面臨的許多問(wèn)題具有不確定性、脆弱性和開(kāi)放性,任何智能程度的機(jī)器都無(wú)法完全取代人類,這就需要將人的作用或人的認(rèn)知模型引入到人工智能系統(tǒng)中,形成混合-增強(qiáng)智能的形態(tài),這種形態(tài)是人工智能或機(jī)器智能的可行的、重要的成長(zhǎng)模式[71]。早在2000年,Dubois就提出了一種處理數(shù)據(jù)與知識(shí)的雙模態(tài)邏輯系統(tǒng)[72],并給出了完備性證明,從而實(shí)現(xiàn)了模糊邏輯框架下數(shù)據(jù)驅(qū)動(dòng)與知識(shí)驅(qū)動(dòng)的融合。Skowron提出了一種基于感知計(jì)算的交互式信息系統(tǒng),建立了基于交互式粒計(jì)算(Interactive granular computing,IRGC)的不完備、不確定信息處理模型[73]。Todorovski提出了一種融合知識(shí)驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)的動(dòng)態(tài)系統(tǒng)模型框架,將專家知識(shí)轉(zhuǎn)化到對(duì)候選模型進(jìn)行選擇[74]。在電力系統(tǒng)檢測(cè)中,Zhou將部分專家知識(shí)與配電網(wǎng)絡(luò)數(shù)據(jù)融合,建立了一種新型的事件檢測(cè)方法,將未標(biāo)記數(shù)據(jù)和部分標(biāo)記數(shù)據(jù)相結(jié)合,彌補(bǔ)了監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和學(xué)習(xí)隱藏結(jié)構(gòu)之間的差距[75]。盡管人類的邏輯推演、抽象化等能力強(qiáng)于計(jì)算機(jī),知識(shí)驅(qū)動(dòng)能夠彌補(bǔ)數(shù)據(jù)驅(qū)動(dòng)中某些缺陷,但囿于人類的思維定勢(shì)及心理狀況,人類知識(shí)往往伴隨一定程度的主觀性(如模糊),不能全面、客觀地反映數(shù)據(jù)自身所表現(xiàn)出的特征,因此,人機(jī)系統(tǒng)還應(yīng)融合客觀反映數(shù)據(jù)特征的知識(shí)。
人機(jī)模型中知識(shí)與數(shù)據(jù)共同驅(qū)動(dòng)的認(rèn)知計(jì)算與DGCC中二者的雙向認(rèn)知計(jì)算有本質(zhì)不同。在知識(shí)與數(shù)據(jù)共同驅(qū)動(dòng)的人機(jī)模型中,知識(shí)來(lái)自人類的總結(jié),知識(shí)和數(shù)據(jù)呈現(xiàn)一種平行結(jié)構(gòu),二者在認(rèn)知過(guò)程中是互補(bǔ)關(guān)系。在DGCC中,知識(shí)與數(shù)據(jù)是一種層次結(jié)構(gòu),從低粒度層次向高粒度層次的變換由數(shù)據(jù)驅(qū)動(dòng),而從高粒度層次向低粒度層次的變換由知識(shí)驅(qū)動(dòng)(如圖8)。
建立數(shù)據(jù)驅(qū)動(dòng)的粒認(rèn)知計(jì)算模型,實(shí)現(xiàn)數(shù)據(jù)與知識(shí)雙向驅(qū)動(dòng)和變換,有下述3個(gè)方面的科學(xué)問(wèn)題需要研究。
圖8 DGCC中知識(shí)與數(shù)據(jù)的雙向驅(qū)動(dòng)Fig.8 Bidirectional driven of knowledge and data in DGCC
2.1.1 數(shù)據(jù)、信息與知識(shí)的多粒度表達(dá) 在傳統(tǒng)的多粒度認(rèn)知計(jì)算模型中,數(shù)據(jù)、信息和知識(shí)是被區(qū)別對(duì)待的,數(shù)據(jù)在最底層,信息在中間層,知識(shí)在高層。而在數(shù)據(jù)驅(qū)動(dòng)的粒認(rèn)知計(jì)算中,將數(shù)據(jù)作為知識(shí)的一種編碼格式[75],需要構(gòu)造一個(gè)通用的多粒度結(jié)構(gòu)對(duì)數(shù)據(jù)、信息和知識(shí)進(jìn)行表達(dá),形成一個(gè)分層的多粒度空間對(duì)三者進(jìn)行編碼。
2.1.2 多粒度空間中的不確定性變換 一般來(lái)說(shuō),高粒度層上的概念(信息和知識(shí))比低粒度層上的概念(信息和知識(shí))更具有不確定性。在大數(shù)據(jù)環(huán)境下,由于低粒度層是對(duì)對(duì)象的局部進(jìn)行描述,在低粒度層數(shù)據(jù)抽象為高粒度層信息的過(guò)程中,通常伴隨著不確定性的增長(zhǎng)。反之,在從高粒度層向低粒度層變換的問(wèn)題求解過(guò)程中,解的不確定性也可能相應(yīng)增加。
2.1.3 多粒度信息知識(shí)空間的動(dòng)態(tài)演化機(jī)制 現(xiàn)實(shí)世界的系統(tǒng)往往是動(dòng)態(tài)的。智能信息系統(tǒng)的數(shù)據(jù)、信息和知識(shí)也是動(dòng)態(tài)的。因此,需要研究多粒度知識(shí)空間中的動(dòng)態(tài)演化機(jī)制來(lái)處理動(dòng)態(tài)數(shù)據(jù)、信息和知識(shí)。
2.2.1 多粒度聯(lián)合計(jì)算模型與問(wèn)題求解機(jī)制 數(shù)據(jù)、信息和知識(shí)在同一個(gè)多粒度空間中進(jìn)行編碼,可以并行地解決問(wèn)題。例如,一個(gè)公司每天都在不同粒度層上同時(shí)作決策。對(duì)于不同粒度層上獨(dú)立或者相互依賴的決策,需要構(gòu)造多粒度空間聯(lián)合計(jì)算和決策機(jī)制。
2.2.2 變粒度有效漸進(jìn)式計(jì)算方法 通常,在高粒度層上花費(fèi)較小的時(shí)間代價(jià)能夠形成“較粗”的解,而在低粒度層上形成“更精確”的解則要花費(fèi)較大的時(shí)間代價(jià)。因此,許多復(fù)雜問(wèn)題可以首先在高粒度層上求出“較粗”的解,再在低粒度層上求出較精確解,這一有效的方法被稱為變粒度漸進(jìn)式計(jì)算。
2.2.3 智能計(jì)算前置 在一些實(shí)際應(yīng)用中,并不是所有數(shù)據(jù)在開(kāi)始時(shí)就全部可用,此時(shí),需要根據(jù)低粒度層上僅有的部分?jǐn)?shù)據(jù)做出初步的局部決策,再根據(jù)更多的數(shù)據(jù)輸入,在較高粒度層上形成改善的全局決策。
2.2.4 多粒度分布式機(jī)器學(xué)習(xí) 數(shù)據(jù)、信息和知識(shí)在同一個(gè)多粒度空間中進(jìn)行編碼,因此,可以進(jìn)行并行和分布式的學(xué)習(xí),而不需要逐層學(xué)習(xí)。
2.3.1 人類認(rèn)知機(jī)制與機(jī)器信息處理機(jī)制的融合 向上算子和向下算子是數(shù)據(jù)驅(qū)動(dòng)的粒認(rèn)知計(jì)算中的兩種基本算子,分別模擬了人類“由粗到細(xì)”的認(rèn)知機(jī)制和計(jì)算機(jī)“由細(xì)到粗”的信息處理機(jī)制,作為雙向認(rèn)知計(jì)算的一種推廣,需要設(shè)計(jì)一種融合雙向算子功能、便于多粒度空間層次轉(zhuǎn)換的計(jì)算模型。
2.3.2 帶遺忘的多粒度聯(lián)想記憶機(jī)制 計(jì)算機(jī)的信息儲(chǔ)存機(jī)制是機(jī)械的,信息在刪除后不能使用。而人腦中存在著遺忘與回憶的機(jī)制,可以通過(guò)一類雙向認(rèn)知計(jì)算模型實(shí)現(xiàn)[76]。在數(shù)據(jù)驅(qū)動(dòng)的多粒度認(rèn)知計(jì)算中,向上算子能夠通過(guò)信息從低粒度層到高粒度層的轉(zhuǎn)換來(lái)模擬人類的遺忘過(guò)程,向下算子能夠通過(guò)信息從高粒度層到低粒度層的轉(zhuǎn)換來(lái)模擬人類的聯(lián)想回憶過(guò)程。
不確定性是人類認(rèn)知過(guò)程的一個(gè)主要特性。云模型是一種重要的不確定性知識(shí)表示模型,它使用了3個(gè)參數(shù)(期望、熵、超熵)對(duì)知識(shí)進(jìn)行描述,融合人類認(rèn)知過(guò)程中隨機(jī)與模糊這兩種不確定性,實(shí)現(xiàn)知識(shí)內(nèi)涵與外延的相互轉(zhuǎn)換。相較于概率模型中的高斯混合模型(GMM),云模型的優(yōu)勢(shì)在于使用含混度刻畫知識(shí)的穩(wěn)定性,使得聚類過(guò)程能夠仿照人類的認(rèn)知,生成不同粒度層上的知識(shí),并通過(guò)含混度的約束選擇統(tǒng)一的、被廣泛接受的知識(shí)。圖9是通過(guò)云模型對(duì)ArnetMiner平臺(tái)上988 645位用戶年齡數(shù)據(jù)形成的多粒度概念[47]??梢钥闯?在第一層上形成的5個(gè)概念相互之間重疊嚴(yán)重、含混度高,而在第三層上形成的3個(gè)概念重疊少、含混度低,符合人類對(duì)年齡概念的認(rèn)知。
圖9 云模型形成的ArnetMiner用戶多粒度概念[47]Fig.9 Multi-granularity concept of ArnetMiner users formed by cloud model[47]
聚類是一種重要的數(shù)據(jù)粒化手段,層次聚類方法能夠充分反映數(shù)據(jù)的多粒度結(jié)構(gòu),不同粒度層上的數(shù)據(jù)聚類能夠模仿人類的認(rèn)知模式,形成不同粒度層上的概念。密度峰值方法是一種高效的聚類算法,它通過(guò)計(jì)算數(shù)據(jù)點(diǎn)的局部密度和高密度點(diǎn)間距離的乘積,選擇聚類中心點(diǎn)進(jìn)行聚類。相較于傳統(tǒng)聚類算法,該算法的聚類過(guò)程不需要進(jìn)行迭代運(yùn)算,在線性復(fù)雜度下能夠?qū)崿F(xiàn)數(shù)據(jù)的快速聚類,可以應(yīng)用在流媒體圖像識(shí)別、動(dòng)態(tài)網(wǎng)絡(luò)識(shí)別等許多在線學(xué)習(xí)的場(chǎng)景。此外,它也能對(duì)任意形狀數(shù)據(jù)進(jìn)行層次聚類。圖10是對(duì)人工數(shù)據(jù)集5Spiral上的層次聚類結(jié)果[48],可以看出,選擇不同的“階躍”點(diǎn),能夠形成不同粒度層上的聚類,并且根據(jù)聚類結(jié)果能夠形成新的數(shù)據(jù)點(diǎn),該結(jié)果與人工聚類結(jié)果基本一致。這一過(guò)程對(duì)數(shù)據(jù)的描述本質(zhì)上是“由細(xì)到粗”數(shù)據(jù)驅(qū)動(dòng)的認(rèn)知過(guò)程,而對(duì)知識(shí)的表達(dá)則是“由粗到細(xì)”的知識(shí)驅(qū)動(dòng)認(rèn)知過(guò)程。
圖10 5Spiral數(shù)據(jù)集上的密度峰值多粒度聚類[48]Fig.10 DenPEHC on the dataset "5Spiral"[48]
三支聚類(three-way clustering)是符合人類不確定性認(rèn)知的一種聚類方法。它將傳統(tǒng)聚類問(wèn)題中元素與集合的關(guān)系拓展為屬于、不屬于以及不確定三種情況,模仿人類在限制條件(時(shí)間、經(jīng)濟(jì)等)下,用不確定性聚類結(jié)果代替?zhèn)鹘y(tǒng)的確定性聚類結(jié)果的行為,從而提高聚類效率。從DGCC的角度看,三支聚類是一種“由細(xì)到粗”的計(jì)算方式。隨著網(wǎng)絡(luò)信息技術(shù)的發(fā)展,各行各業(yè)產(chǎn)生的海量高維復(fù)雜數(shù)據(jù)越來(lái)越多,屬性維度的上升導(dǎo)致計(jì)算量呈現(xiàn)指數(shù)級(jí)增長(zhǎng),于洪等人提出了面向高維數(shù)據(jù)的動(dòng)態(tài)隨機(jī)投影三支聚類模型[77]。它利用動(dòng)態(tài)高斯隨機(jī)投影方法,將原始數(shù)據(jù)集投影到多個(gè)不同粒度子空間中進(jìn)行三支聚類,再將各粒度層的聚類結(jié)果進(jìn)行匯總,得到全局聚類。由于不同粒度空間中,高斯隨機(jī)投影的數(shù)據(jù)聚類與全局?jǐn)?shù)據(jù)聚類的誤差不同,多粒度動(dòng)態(tài)投影三支聚類有效地平衡不同子空間的聚類結(jié)果與聚類時(shí)間。
在工業(yè)流程管控中,企業(yè)的各級(jí)管理層時(shí)刻都要面對(duì)不同的決策問(wèn)題。面對(duì)工業(yè)流程中的大量數(shù)據(jù),各級(jí)管理者往往根據(jù)個(gè)人經(jīng)驗(yàn)做出決策,這不僅忽視了流程中的全局信息,也使得決策過(guò)分依賴個(gè)人經(jīng)驗(yàn),缺乏統(tǒng)一標(biāo)準(zhǔn)。通過(guò)多粒度知識(shí)表達(dá)模型構(gòu)建流程工業(yè)知識(shí)的多粒度結(jié)構(gòu)和動(dòng)態(tài)演化模型,利用多源、深度信息構(gòu)建多粒度聯(lián)合決策模型,可以實(shí)現(xiàn)不同粒度層次的協(xié)同決策,完成流程工業(yè)知識(shí)的自動(dòng)化(圖11)。例如,在工業(yè)電解鋁過(guò)程控制中,對(duì)工業(yè)大數(shù)據(jù)的屬性進(jìn)行不同粒度層的約簡(jiǎn),通過(guò)粒度尋優(yōu)方法找出最優(yōu)粒度層屬性[78]。
圖11 基于大數(shù)據(jù)的流程工業(yè)知識(shí)自動(dòng)化Fig.11 Big Data-based fluid process industries knowledge automation
水質(zhì)檢測(cè)是衡量水資源質(zhì)量的一項(xiàng)重要方法。依據(jù)水質(zhì)檢測(cè)數(shù)據(jù)預(yù)測(cè)水質(zhì)變化趨勢(shì)是與人類生活休戚相關(guān)的一項(xiàng)工程。目前,水質(zhì)檢測(cè)的關(guān)鍵數(shù)據(jù)是來(lái)自于陸、水、空等多方位檢測(cè)平臺(tái),因此,水質(zhì)預(yù)測(cè)是一個(gè)跨領(lǐng)域、多層次的系統(tǒng)工程?;谒|(zhì)檢測(cè)大數(shù)據(jù),嚴(yán)胡勇等人提出多維云粗糙集混合模型對(duì)數(shù)據(jù)進(jìn)行多粒度建模和預(yù)測(cè)[79]。該方法能夠降低數(shù)據(jù)規(guī)模,提取定性規(guī)則,定量分析水體富營(yíng)養(yǎng)化的平均值、均勻性和穩(wěn)定性,相較于其他方法,該模型在對(duì)云貴高原湖泊富營(yíng)養(yǎng)化的預(yù)測(cè)中獲得了更準(zhǔn)確的預(yù)測(cè)結(jié)果(圖12),是水富營(yíng)養(yǎng)化信息系統(tǒng)的一個(gè)很有前景的替代方案,為公用事業(yè)管理部門和操作人員提供了水質(zhì)富營(yíng)養(yǎng)化的一個(gè)定量預(yù)測(cè)方法。
圖12 云貴高原湖泊營(yíng)養(yǎng)狀態(tài)云圖[79]Fig.12 Nutrient status of lake in Yunnan-Guizhou plateau[79]
時(shí)間序列預(yù)測(cè)是一種基于歷史觀測(cè)數(shù)據(jù)時(shí)序統(tǒng)計(jì)的規(guī)律,對(duì)事物發(fā)展趨勢(shì)做出預(yù)測(cè)判斷的方法。在股票市場(chǎng)預(yù)測(cè)、天氣預(yù)報(bào)和交通流量預(yù)測(cè)等領(lǐng)域有著廣泛的運(yùn)用。相較于傳統(tǒng)時(shí)間預(yù)測(cè)模型,模糊時(shí)間預(yù)測(cè)模型能夠更加方便地處理內(nèi)涵模糊以及不完整數(shù)據(jù),適應(yīng)性更強(qiáng)。結(jié)合多粒度聯(lián)合求解機(jī)制的模糊時(shí)間序列預(yù)測(cè)[80],首先通過(guò)自動(dòng)聚類算法在數(shù)據(jù)的主因子和其他次要因子上形成不同長(zhǎng)度的聚類區(qū)間,然后針對(duì)每個(gè)因子,采用模糊趨勢(shì)邏輯關(guān)系類(FTLRG)構(gòu)建模糊趨勢(shì)矩陣預(yù)測(cè)每個(gè)粒度層上的模糊趨勢(shì)。最后,使用粒子群優(yōu)化(PSO)算法將每個(gè)粒度層上的趨勢(shì)預(yù)測(cè)結(jié)果進(jìn)行整合,得到數(shù)據(jù)的全局趨勢(shì)預(yù)測(cè)。它能夠在不確定性問(wèn)題中得到高精度的預(yù)測(cè)結(jié)果。如圖13,用多粒度模糊時(shí)間序列分別對(duì)1991年至1999年間的臺(tái)灣加權(quán)股價(jià)指數(shù)(TAIEX)進(jìn)行預(yù)測(cè),其結(jié)果在目前流行的時(shí)間序列預(yù)測(cè)方法中均方根誤差(RMSE)最小,最為合理。
圖13 不同時(shí)間序列模型對(duì)1991年至1999年間TAIEX預(yù)測(cè)結(jié)果的RMSE比較[80]Fig.13 Comparison of the average RMSEs for different models for forecasting TAIEX from 1991 to 1999[80]
模仿人類的認(rèn)知機(jī)制,構(gòu)造智能計(jì)算模型是人工智能研究的重要方法。本文介紹了一種基于人類認(rèn)知機(jī)制的知識(shí)與數(shù)據(jù)雙向驅(qū)動(dòng)的多粒度計(jì)算模型——數(shù)據(jù)驅(qū)動(dòng)的粒認(rèn)知計(jì)算模型(DGCC),將兩種相互矛盾的認(rèn)知機(jī)制,即“大范圍優(yōu)先”的人類認(rèn)知機(jī)制和數(shù)據(jù)驅(qū)動(dòng)的“由細(xì)到粗”的計(jì)算機(jī)信息處理機(jī)制相結(jié)合。并從3個(gè)方面分析討論了數(shù)據(jù)與知識(shí)雙向驅(qū)動(dòng)、雙向變換的9個(gè)科學(xué)問(wèn)題。從實(shí)際應(yīng)用案例分析中可以看到,對(duì)于多粒度空間描述(3.1~3.3)和聯(lián)合求解(3.4~3.6)方面已經(jīng)有一些較為成熟的研究結(jié)果,但對(duì)于人機(jī)認(rèn)知機(jī)制結(jié)合方面仍有待進(jìn)一步研究。人類認(rèn)知除了具有多粒度認(rèn)知機(jī)制外,還具有復(fù)雜信息轉(zhuǎn)化、經(jīng)驗(yàn)學(xué)習(xí)、概念化、直覺(jué)、聯(lián)想記憶等特點(diǎn),如何使智能系統(tǒng)具備和人類相似的認(rèn)知行為能力,將是未來(lái)人工智能發(fā)展的方向。知識(shí)與數(shù)據(jù)雙向驅(qū)動(dòng)的多粒度認(rèn)知計(jì)算為大數(shù)據(jù)的知識(shí)發(fā)現(xiàn)研究提供了一個(gè)有效的粒認(rèn)知計(jì)算框架,目前已經(jīng)應(yīng)用在一些實(shí)際生活問(wèn)題中,如聚類、圖像處理、時(shí)間序列預(yù)測(cè)等。本文所討論的知識(shí)與數(shù)據(jù)雙向驅(qū)動(dòng)的多粒度認(rèn)知計(jì)算模型將有助于研究者提出新的大數(shù)據(jù)智能計(jì)算模型與系統(tǒng)。