汪培莊,曾繁慧,2,孫 慧,2,李興森,郭建威,孟祥福,何 靜
(1. 遼寧工程技術(shù)大學(xué) 智能工程與數(shù)學(xué)研究院,遼寧 阜新 123000;2. 遼寧工程技術(shù)大學(xué) 理學(xué)院,遼寧 阜新 123000;3. 廣東工業(yè)大學(xué) 可拓學(xué)及創(chuàng)新方法研究所,廣東 廣州 510006;4. 國(guó)家高性能計(jì)算中心 成都分中心,四川 成都 610094)
人工智能所面臨的一個(gè)迫切問(wèn)題是要有統(tǒng)一的人工智能理論[1-3];知識(shí)圖譜是當(dāng)前人工智能發(fā)展的熱點(diǎn)[4-5],在肯定其重大意義的同時(shí),要看到它在理論上的不完善,以及發(fā)展方向上的不明確。知識(shí)圖譜發(fā)展的最終目標(biāo)是要把數(shù)據(jù)庫(kù)構(gòu)建成為人腦知識(shí)生長(zhǎng)的同構(gòu)體,它不是被動(dòng)的僵化儲(chǔ)存所,而是主動(dòng)生長(zhǎng)的拓展體。本文提出了智能拓展庫(kù)的構(gòu)想,這是知識(shí)圖譜的升級(jí)版,是多層次的嵌入式圖數(shù)據(jù)庫(kù)系統(tǒng)。因素牽引的知識(shí)增長(zhǎng)表達(dá)式是知識(shí)譜系多支圖的基元,由此建成一個(gè)概念譜系圖網(wǎng)絡(luò),勾畫(huà)出有關(guān)領(lǐng)域的知識(shí)本體結(jié)構(gòu)?;谝蛩乇磉_(dá)事實(shí)作基元所生成的另外一個(gè)圖網(wǎng)絡(luò)則是進(jìn)行智能生成與工作的系統(tǒng),利用因素空間的理論和方法來(lái)輔助智能的開(kāi)拓。本文的結(jié)構(gòu):第1節(jié)對(duì)知識(shí)圖譜進(jìn)行簡(jiǎn)評(píng);第2節(jié)介紹因素空間對(duì)知識(shí)圖譜的拓展問(wèn)題的幫助;第3節(jié)對(duì)智能拓展庫(kù)進(jìn)行構(gòu)想,并介紹因素查詢(xún)語(yǔ)言;第4節(jié)說(shuō)明問(wèn)題和展望。
人工智能有2個(gè)截然不同的任務(wù):(1) 把人類(lèi)已有的知識(shí)從圖書(shū)、文件、信函中轉(zhuǎn)移給機(jī)器;(2) 讓機(jī)器模擬人腦認(rèn)識(shí)和改造世界。前者似乎是容易且該先做的事情,但事實(shí)恰好相反,它比后者更難而被長(zhǎng)期拖延。在2012年前后,“知識(shí)圖譜”的名稱(chēng)在谷歌叫響,掌握互聯(lián)網(wǎng)資源的幾家巨頭公司競(jìng)相用此技術(shù)來(lái)開(kāi)發(fā)新的搜索引擎?;ヂ?lián)網(wǎng)是傳遞信函的渠道,知識(shí)圖譜必須理解自然語(yǔ)言,因而也必然會(huì)加速自然語(yǔ)言理解的研究進(jìn)程,它的歷史貢獻(xiàn)首先是實(shí)現(xiàn)圖書(shū)、文件、信函的數(shù)字化。現(xiàn)在,它已使自然語(yǔ)言理解從數(shù)據(jù)驅(qū)動(dòng)的字頻統(tǒng)計(jì)方法轉(zhuǎn)向知識(shí)連同數(shù)據(jù)驅(qū)動(dòng)的研究途徑。圖數(shù)據(jù)網(wǎng)絡(luò)模型已經(jīng)在跨越同義字、反義字等類(lèi)歧義鴻溝方面取得了明顯成效。知識(shí)圖譜必會(huì)在機(jī)器模擬人腦認(rèn)識(shí)和改造世界方面取得卓越成效,它為智能化提供了網(wǎng)絡(luò)傳輸?shù)某岚?,其前景不可限量?/p>
在肯定其意義的同時(shí),也要看到其在基礎(chǔ)理論方面的不足。知識(shí)圖譜與傳統(tǒng)的知識(shí)表示的分界線在于它們所采用語(yǔ)言的分離:關(guān)系數(shù)據(jù)庫(kù)的查詢(xún)靠SQL語(yǔ)言(Structured Query Language);知識(shí)圖譜的查詢(xún)要靠SPARQL語(yǔ)言(Simple Protocol and RDF Query Language)。SQL叫做表庫(kù)語(yǔ)言,SPARQL叫做圖庫(kù)語(yǔ)言,圖數(shù)據(jù)庫(kù)的名稱(chēng)便由此而來(lái)。
知識(shí)表示的每一種方法都要表達(dá)事實(shí),無(wú)論差異如何,都要在語(yǔ)言上符合主、謂、賓的SPO表達(dá)形式,把主語(yǔ)和賓語(yǔ)視為節(jié)點(diǎn),把謂語(yǔ)視為有向邊,它們都是圖的基元。知識(shí)圖譜的數(shù)學(xué)定義是一個(gè)有向圖,有向圖的定義是在一組前節(jié)點(diǎn)H、一組有向邊G和一組后節(jié)點(diǎn)T之間所建立的特定關(guān)系,也就是笛卡爾乘積空間H×G×T中的一個(gè)特定子集。一張關(guān)系數(shù)據(jù)庫(kù)表是由對(duì)象、屬性名、屬性值所建立的一個(gè)三元關(guān)系,設(shè)三者所構(gòu)成集合分別是H,G,T,表中每個(gè)格子點(diǎn)所對(duì)應(yīng)的三元組就是H×G×T中的一個(gè)點(diǎn),一個(gè)用屬性名作邊的圖基元;整個(gè)表就是H×G×T中的一個(gè)子集,就是一個(gè)知識(shí)圖譜。所以,表數(shù)據(jù)庫(kù)與圖數(shù)據(jù)庫(kù)并沒(méi)有本質(zhì)的差別;數(shù)學(xué)上的“圖”并非生活當(dāng)中的圖,生活當(dāng)中的圖是看得見(jiàn)的繪制品,稱(chēng)SPARQL為圖數(shù)據(jù)庫(kù)語(yǔ)言,是因?yàn)閃eb是生活中的圖,有節(jié)點(diǎn)和邊。但Web圖其實(shí)并不符合圖的數(shù)學(xué)定義,SPARQL圖中的節(jié)點(diǎn)與Web節(jié)點(diǎn)的域名毫無(wú)關(guān)系。所以,知識(shí)圖譜從基礎(chǔ)上說(shuō)理論尚欠嚴(yán)謹(jǐn)。現(xiàn)在人們誤以為圖數(shù)據(jù)的特征是直觀可見(jiàn),這適用于小數(shù)據(jù),當(dāng)節(jié)點(diǎn)稍多時(shí),復(fù)雜一點(diǎn)的圖譜就不再直觀,這使可視化研究變得格外重要。
SPARQL語(yǔ)言并不是理想的語(yǔ)言,它的程序在閱讀和編寫(xiě)上極其繁瑣,它的查詢(xún)功能不像SQL語(yǔ)言那樣可進(jìn)行是非判斷和推理,只是回答給定的一個(gè)基元在不在庫(kù)中,進(jìn)而回答給定的一組基元是否與某個(gè)子庫(kù)同構(gòu)。SPARQL語(yǔ)言的推理功能更是無(wú)法與SQL語(yǔ)言相比,只能發(fā)現(xiàn)“叔侄”是“兄弟”和“父子”關(guān)系的疊加這一類(lèi)規(guī)則,盡管這種推理有其獨(dú)特作用,但都需要進(jìn)行提升和改進(jìn)。
SPARQL語(yǔ)言打破了人們的慣性思維,給編程帶來(lái)新的研究前景,開(kāi)源的知識(shí)圖譜可以在短短幾周的時(shí)間內(nèi)就發(fā)展到節(jié)點(diǎn)過(guò)億的規(guī)模。各種限制都可以考慮取消,新的設(shè)想和構(gòu)思不斷涌現(xiàn),但也要保持頭腦清醒,在大潮中求實(shí)求穩(wěn)。圖譜要大而不亂,活而不雜?,F(xiàn)在已經(jīng)發(fā)現(xiàn)有錯(cuò),也有糾錯(cuò)的算法,但是在龐大的圖譜中要搜尋迴路,可能是一個(gè)NP(Nondeterminism Polynomial)難問(wèn)題。圖譜要計(jì)算代價(jià)、講求效率、防止浪費(fèi),更要防止對(duì)環(huán)境可能帶來(lái)的污染。
在知識(shí)圖譜的發(fā)展方面,實(shí)踐一直發(fā)展在理論的前頭,現(xiàn)在需要加強(qiáng)基礎(chǔ)理論,尤其是數(shù)學(xué)理論。
人腦面對(duì)事物的第一反應(yīng)就是要回答“這是什么?”的問(wèn)題。神經(jīng)中樞把對(duì)象信息傳遞到記憶單元,查找該對(duì)象的存儲(chǔ)位置,或建立新檔,或用舊檔進(jìn)行對(duì)比判斷,迅速做出應(yīng)答。這是最基本的思維活動(dòng)環(huán)節(jié),其數(shù)學(xué)形式可表達(dá)為
這里e是對(duì)象或?qū)嶓w(包括物和事),p是一個(gè)概念(包括屬性,屬性是簡(jiǎn)單概念)。這種表達(dá)雖很自然但卻不能采用。難道人腦的反映如照鏡子般,一個(gè)對(duì)象就只有同一個(gè)映相?如果如此,思維的目的性怎樣體現(xiàn)?為了選拔舉重運(yùn)動(dòng)員,是否需要注意對(duì)象的面貌?為了選美,能否不注意對(duì)象的面貌?同是一個(gè)對(duì)象,不同的目的有不同的注意視角,得到不同的表相。注意的視角是認(rèn)知過(guò)程中最重要的元素,叫做因素。
因素在數(shù)學(xué)上被定義成一個(gè)映射f:D(f)→I(f),這里,D(f) 叫 做f的定義域或論域,I(f)叫 做f的相域或信息域。
例如,因素f=顏色,D(f)=樓前停的5輛車(chē){d1,d2,d3,d4,d5} ,I(f)={紅,白,黑}。顏色是把車(chē)變?yōu)檐?chē)色的映射,如f(d1) =紅,f(d2) =白,f(d3) =紅,f(d4)=黑,f(d5)=白。
知元表達(dá)式:
例如,“這輛車(chē)的顏色是紅的”。
從對(duì)象e變?yōu)閷?duì)象在某個(gè)因素f之下的相f(e),把注意引入思維描述,式(1)之所以是思維的元表達(dá)式,是因?yàn)樗M(jìn)了因素,因素是智能描述的元詞。智能科學(xué)于與物質(zhì)科學(xué)的根本區(qū)別就在于是否把因素引入思維的元描述。
可拓學(xué)[6]早就睿智地提出了“物元”和“事元”的概念,并在這方面做了很好的研究[7]。“知元”是對(duì)“物元”和“事元”的一種承襲,只是特別強(qiáng)調(diào)了因素的地位和作用。
記因素ζ=“自身”,這個(gè)因素把任何對(duì)象映射成自身:ζ (e)=e, 于是,“f(e)=p” 可以概括“eisp”。
關(guān)系也可以用因素來(lái)表示。例如,“張三是李四的妻子”表達(dá)的是李四和張三之間有夫妻關(guān)系。取因素f=“妻”,取D(f)為 某人群中的已婚男子,I(f)為該人群中的已婚女子,因素“妻”是從D(f) 到I(f)的映射。這句話可表為“f(李四)=張三”。表示關(guān)系的因素叫做關(guān)系因素。
因素的定義域D(f) 往 往被取為一個(gè)概念α 的外延,這樣的因素叫做譜系因素。概念α 叫 做因素f的被分概念;因素f叫做α 的 被定義因素;I(f)中的概念叫做因素f的生出概念;因素f叫做它們的導(dǎo)出因素。
單一對(duì)象也可以被視為概念,例如,“北京”只有一個(gè),也可以當(dāng)作概念。所以,關(guān)系因素也是譜系因素。
概念定義因素,因素導(dǎo)出概念,因素與概念是否一樣多?的確,同一個(gè)因素在對(duì)象的層次結(jié)構(gòu)中會(huì)產(chǎn)生眾多的后裔因素,例如,f=“形態(tài)”這一因素,當(dāng)D(f)=[人體]時(shí),相是頭、身和四肢的尺寸比例;當(dāng)D(f)=[面貌]時(shí),相是眼、眉、鼻、口等五官搭配。同是一個(gè)字根“形態(tài)”,以被分概念作前綴,就有許多派生因素。但是,字根因素并不多,從注意方向來(lái)分有3類(lèi):目標(biāo)、形式和效用;從人的感官來(lái)分有視、聽(tīng)、嗅、味、觸等。
因素的相是表示屬性、情感和意向的詞匯,也可以是表示形態(tài)或程度的數(shù)。相域I(f)不是相的隨機(jī)湊合,而是由因素f所統(tǒng)帥的整齊陣列。顏色統(tǒng)帥紅、黃、藍(lán)等色而不能混入“大”“高”“忙”等詞匯。因素是變項(xiàng),它在自己的相域中取值變化。
人的智能活動(dòng)不靠條件反射,而是靠人腦所具有的因果分析的能力。因素是因果分析的要素。因素非因,乃因之素?!坝炅砍渑妗笔侨〉谩昂檬粘伞钡脑?,但卻不是因素,這里的因素是降雨量。它是一個(gè)變量,其變化可以使農(nóng)作物豐收,也可以使之顆粒無(wú)收,顯示了它對(duì)收成有重要影響,這才使人斷定“雨量充沛”是取得“好收成”的原因。因果分析的核心思想不是從屬性或狀態(tài)層面孤立靜止地去尋找原因,而是要先從更深層面上去尋找對(duì)結(jié)果最有影響的因素,只有找到了這組因素,才能找到最佳的原因。從找原因到找因素是人腦認(rèn)識(shí)的一種升華,也是因果性科學(xué)的思想核心。
因素是定性的變項(xiàng),是廣義的變量。它可以把定性的相域嵌入毆氏空間的定量相域中去,轉(zhuǎn)化為普通的變量。前提是要把相域按一定目標(biāo)有序化。例如職業(yè)相域={工人,農(nóng)民,士兵,企業(yè)主,雇員,教師,醫(yī)生,律師,官員,···},這些職業(yè)之間沒(méi)有次序。但是在高考生報(bào)考志愿時(shí)就要對(duì)未來(lái)的職業(yè)排序。工資待遇、社會(huì)需要、興趣愛(ài)好、綜合加權(quán)各有不同排法。當(dāng)I(f)變成了全序或者偏序集合以后,定性相域就可以嵌入到一個(gè)實(shí)數(shù)區(qū)間或多維超矩形里。這個(gè)實(shí)空間可以選擇為 [0,1]或 者[ 0,1]n,這時(shí),所有相域都是對(duì)目標(biāo)的某種滿(mǎn)足度。而滿(mǎn)足度又可化為某種邏輯真值。嵌入實(shí)空間的相域是離散的??扇《迪嘤騃(f)={0,1}, 或三值相域I(f)={1,2,3} 或 { -1,0,+1}。離散值相域稱(chēng)為子架或托架。若把每個(gè)因素視為一個(gè)坐標(biāo)軸,多個(gè)因素就立定出一個(gè)坐標(biāo)架,形成的空間叫做因素空間,所有事物都可成為因素空間中的一個(gè)點(diǎn),為人工智能提供了普適性的事物描述框架。
因素有幾種特殊的叫法:(1) 兩極叫法,如“美丑”;(2) 后面加問(wèn)號(hào),如“美麗?”;(3) 前面加“有無(wú)”或“是否”,如“是否美麗”;(4) 后面加“性”字,如“美麗性”。
因素與屬性不能混淆。屬性能問(wèn)是非:“這花是紫的嗎?”因素不能問(wèn)是非:“這花是顏色嗎?”。屬性是被動(dòng)描述的靜態(tài)詞;因素是主動(dòng)牽引思維的動(dòng)態(tài)詞。“Attribute”在形式概念分析(Formal Concept Analysis,F(xiàn)CA)[8]中代表屬性值,如“紅”“黃”等;但在粗糙集(Rough Sets,RS)[9]中代表屬性名,如“顏色”等。在術(shù)語(yǔ)上出現(xiàn)了混亂。FCA和RS都是在1982年與因素空間(Factor Space,F(xiàn)S)[10]同年創(chuàng)立,協(xié)調(diào)的約定是:FCA中的“Attribute”=FS中的“屬性”;RS中的“Attribute”=FS中的“因素”。
因素比屬性高一個(gè)層次,因素統(tǒng)帥屬性。人腦是高效率的信息處理器,按因素來(lái)組織感覺(jué)神經(jīng)元。孟德?tīng)栐谶z傳學(xué)研究中苦于生物屬性的雜亂,在1865年提出了基因的概念,他所使用的英文名字就是Factor(約翰森在1909年才改名為Gene),基因就是生物屬性的質(zhì)根,因素是廣義的基因?;虼蜷_(kāi)了生命科學(xué)的大門(mén),因素是從數(shù)學(xué)上幫助打開(kāi)信息科學(xué)大門(mén)的一把鑰匙。
概念是一個(gè)二元組α =(a,[a]) ,其中,a是對(duì)概念α的描述語(yǔ)句,稱(chēng)為α 的內(nèi)涵,[a]是由滿(mǎn)足內(nèi)涵描述的全體對(duì)象的集合,稱(chēng)為α 的的外延。嬰兒出生的時(shí)候只有零概念,內(nèi)涵是零描述,外延是整個(gè)宇宙混沌一團(tuán)。人類(lèi)知識(shí)是從零概念開(kāi)始,經(jīng)過(guò)一步一步的概念團(tuán)粒分裂進(jìn)化而來(lái)的。每次分裂,外延縮小,內(nèi)涵描述的語(yǔ)句增加。
每個(gè)內(nèi)涵描述句都是由因素所表達(dá)的知元表示句,見(jiàn)式(1)。它們被外延中全體對(duì)象所滿(mǎn)足,也就是說(shuō),團(tuán)粒中的所有對(duì)象在有關(guān)因素下的相值均相同。當(dāng)目標(biāo)需求不滿(mǎn)足時(shí),知識(shí)就需要更新了。這時(shí),人的注意力就會(huì)根據(jù)目標(biāo)需求而確定一個(gè)新的因素,它在團(tuán)粒中能取不同的相值,按照它的不同相值來(lái)分類(lèi),概念團(tuán)粒就分裂了。因素就是概念團(tuán)粒細(xì)化的分化器,這是知識(shí)增長(zhǎng)的關(guān)鍵環(huán)節(jié),需要設(shè)立一種統(tǒng)一的表達(dá)形式。
知增表達(dá)式:
式(2)中,U是上位概念的外延,它被取為譜系因素f的定義域;α1,···,αk是上位概念所分化出來(lái)的一組下位概念名稱(chēng)。它們的外延之并等于U:[a1]+···+[ak]=U。這里,[aj]表 示概念[ αj]的外延。
例1 宇宙=D(虛實(shí))→I(虛實(shí))={精神,物質(zhì)}。
這是一個(gè)知增表達(dá)式,簡(jiǎn)稱(chēng)概念分化式。被分化的是零概念,它的概念團(tuán)粒是宇宙?!疤搶?shí)”是定義在宇宙萬(wàn)事萬(wàn)物上的一個(gè)因素。除了虛實(shí)之外是否能找到以宇宙為定義域的因素?“身高”是因素,但只對(duì)能直立起來(lái)的動(dòng)物有意義,對(duì)石頭則沒(méi)有意義?!爸亓俊笔且蛩兀粚?duì)物質(zhì)有意義,對(duì)精神界則沒(méi)有意義。因此能找到最普遍、最抽象的因素寥寥無(wú)幾。在某種意義,甚至是唯一的。例如“陰陽(yáng)”,它也是最具普遍意義的一個(gè)因素,但和虛實(shí)可以相互轉(zhuǎn)化。虛實(shí)這個(gè)因素把宇宙劃分成兩大類(lèi),零概念被分化為物質(zhì)與精神2個(gè)概念。
物質(zhì)=D(生命性)→I(生命性)={生物,非生物}。這又是一個(gè)分化式,被分化的是概念“物質(zhì)”?!吧浴笔嵌x在物質(zhì)上的一個(gè)因素。除了生命性之外,還有“體積”“質(zhì)量”“物態(tài)”等因素對(duì)所有物質(zhì)都有意義,也可以對(duì)物質(zhì)進(jìn)行分類(lèi)。生命性這個(gè)因素把物質(zhì)外延分成2個(gè)團(tuán)粒,生出生物和非生物2個(gè)下位概念。
精神=D(文理) →I(文理)={文科,理科};生物=D(動(dòng)植物) →I(動(dòng)植物)={動(dòng)物,植物};非生物=D(金屬?)→I(金屬?)={金屬,非金屬};動(dòng)物=D(脊椎?)→I(脊椎?)={脊椎,非脊椎};植物=D(高度)→I(高度)={喬木,灌木,草,苔};脊椎動(dòng)物=D(哺乳?)→I(哺乳?)={哺乳動(dòng)物,非哺乳脊椎動(dòng)物}。
例1說(shuō)明了因素是怎樣牽引著概念分化和知識(shí)增長(zhǎng)的。因素在劃分概念的過(guò)程中,也塑造出自己發(fā)展的譜系。因素被定義域所制約,在定義域之外,因素會(huì)失去意義。于是,在因素與因素之間出現(xiàn)了生與被生的關(guān)系:沒(méi)有虛實(shí)因素的劃分,就沒(méi)有物質(zhì)的概念,沒(méi)有物質(zhì)的外延,就沒(méi)有因素生命性的定義域,生命性就失去了生存的土壤。所以,因素虛實(shí)生出了因素生命性。
定義1[3]如果因素f的定義域D(f)真包含(不相等)因素g的 定義域D(g), 即D(f)?D(g) ,則稱(chēng)f是g的祖先而稱(chēng)g是f的后裔。
對(duì)譜系因素來(lái)說(shuō),一個(gè)因素f必對(duì)應(yīng)著一個(gè)概念α , 其外延[a]是f的定義域。顯然,因素的祖裔關(guān)系等價(jià)于概念的上下位關(guān)系,在因素之間稱(chēng)上下位,在概念之間稱(chēng)祖裔。也可以對(duì)因素和概念列出共享的祖裔關(guān)系表,叫做因素/概念譜系表。它是因素集或概念集上的關(guān)系,可寫(xiě)成一個(gè)0-1方陣C,cij=1當(dāng)且僅當(dāng)因素fi是 因素fj的祖因素;否則為0。
顯然,祖裔關(guān)系具有傳遞性,構(gòu)建C的傳遞閉包[C]: 記C2=C×C,這里,C×C是矩陣的模糊乘積,它仿照C與C的普通矩陣乘法,把數(shù)的加法改成取大,乘法改成取小。如果C2=C,則說(shuō)明是傳遞閉包,得到[C]=C;否則,計(jì)算C4=C2×C2,若C4=C2,則得到[C]=C2。如此下去,可得到傳遞閉包。
為了能畫(huà)出祖裔關(guān)系圖,需要先把祖裔表變?yōu)楦缸雨P(guān)系表,具體做法是:對(duì)C中的每個(gè)非零元素進(jìn)行甄別:設(shè)cij=1, 若存在k,使有cik=1且ckj=1,則改令cij=0。 記改后的矩陣為Co,它就是父子關(guān)系表。有父子關(guān)系表就能直接畫(huà)成一個(gè)圖,稱(chēng)為因素/概念譜系圖,見(jiàn)圖1,也稱(chēng)為知識(shí)譜系圖。由于圖1的基元都是從一個(gè)前節(jié)點(diǎn)分為多個(gè)后節(jié)點(diǎn),故是多支圖。知識(shí)譜系圖反映了相關(guān)知識(shí)的本體結(jié)構(gòu)。
圖1 因素/概念譜系Fig.1 Factor/concept spectrum
用記號(hào)“≥”來(lái)表示因素譜系的序關(guān)系,f≥g當(dāng)且僅當(dāng)因素f是g的祖因素或f與g是同一個(gè)因素?!啊荨睗M(mǎn)足反身性和傳遞性,要想使它成為偏序,還必須滿(mǎn)足反對(duì)稱(chēng)性:若f≥g且g≥f,則f=g。但是,同一個(gè)定義域上可以有多個(gè)不同的因素,要想使反對(duì)稱(chēng)性成立,唯有把定義域相同的因素都?xì)w為一類(lèi)。在任意一個(gè)因素集S中,如果D(f)=D(g) , 則記f~g。顯然“~”是S中的一個(gè)等價(jià)關(guān)系,取商空間(S*,≥)=S/~,序“≥”在類(lèi)之間保持不變,(S*,≥)便構(gòu)成一個(gè)偏序集。這個(gè)偏序集的圖與因素譜系圖是一樣的,只不過(guò)要把因素改為因素類(lèi)。如果一個(gè)類(lèi)只包含一個(gè)因素,它就是原來(lái)圖中所標(biāo)注的因素;如果一個(gè)類(lèi)包含多個(gè)因素,那就在該類(lèi)貼上一個(gè)花苞的標(biāo)簽,表示這里要開(kāi)花,所開(kāi)的花就是一個(gè)因素空間。
定義2 稱(chēng)IF=(E,F) 為論域E上的一個(gè)因素空間,如果F={f1,···,fn}是一組因素的集合,它們有共同的定義域:D(f1)=···=D(fn)=E。
記號(hào)IF表示一個(gè)以因素為足碼的信息空間。由于信息域經(jīng)常要定量化,因素空間也習(xí)慣地記為XF。
因素空間是智能活動(dòng)的平臺(tái),它在同定義域的因素之間定義了邏輯、數(shù)學(xué)和注意力權(quán)重等多方面的運(yùn)算,可以快捷地進(jìn)行識(shí)別、判斷、歸納、推理、預(yù)測(cè)、控制、評(píng)價(jià)、決策等智能活動(dòng)[10-15]。
如果說(shuō)粗糙集為關(guān)系數(shù)據(jù)庫(kù)提供了樣本理論,那么,因素空間就為粗糙集提供了母體理論。如前所述,粗糙集的屬性名就是因素,信息系統(tǒng)表就是因素分析表,表的每一行就是因素空間中的一個(gè)樣本點(diǎn)。信息決策表就是因果分析表,粗糙集的決策分析和分類(lèi)學(xué)習(xí)都在因果分析與決策方法之中。因素空間能完成粗糙集能做的事,而且做得更快,粗糙集不能做而因素空間能做的事情有6類(lèi)。
(1) 對(duì)因素(包括屬性名)的邏輯運(yùn)算給出了明確的數(shù)學(xué)定義。
(2) 提出了背景關(guān)系和背景分布的概念。給定因素空間IF=(U,F={f1,···,fn}), 這n個(gè)因素的聯(lián)合相域是n個(gè)因素相域的笛卡爾乘積空間,即I(F)=I(f1)×···×I(fn)。假定所有因素的相域都有3個(gè)相,分成3個(gè)格子,那么聯(lián)合相空間就有 3n個(gè)格子。這么多的格子不是都有樣本點(diǎn)出現(xiàn)。例如“氣溫”和“降雨量”是2個(gè)因素,由于它們彼此并非獨(dú)立而是互成正變,氣溫高且降雨量低和氣溫低且降雨量高這兩個(gè)格子就不可能出現(xiàn)樣本點(diǎn),把這兩個(gè)格子去掉,剩下的格子點(diǎn)所形成的集合有特別重要的意義。
定義3 給定因素空間IF=(E,F):F={f1,···,fn},記
R叫 做f1,···,fn之間的背景關(guān)系。
背景關(guān)系反映了因素之間的相互影響。當(dāng)背景關(guān)系沒(méi)有去掉任何格子點(diǎn)時(shí),因素就是獨(dú)立的。粗糙集沒(méi)有引進(jìn)背景關(guān)系,就只能表現(xiàn)獨(dú)立因素,而獨(dú)立因素之間不存在因果聯(lián)系,這就先天制約了它進(jìn)行因果分析的能力。
(3) 背景關(guān)系決定了因素之間的一切歸納與推理,它一般是凸集,可以由少數(shù)個(gè)頂點(diǎn)生成。這一組頂點(diǎn)的集合叫做背景基B。B中點(diǎn)的凸組合可以把R的點(diǎn)全部復(fù)原出來(lái),故可以用B取代R,這可以實(shí)現(xiàn)數(shù)據(jù)的大幅度壓縮,把大數(shù)據(jù)控制在一個(gè)小數(shù)水平,背景基是大數(shù)據(jù)的降龍罩。
(4) 將概率邏輯引入因果分析。
定義4 給定聯(lián)合相空間中的一組樣本點(diǎn){f1(e1),···,fn(em)}(e1,···,em∈E) ,記ri(1)···i(n)為落入格 子i(1)···i(n)中的樣本點(diǎn)頻率,與此頻率所對(duì)應(yīng)的概率分布叫做因素空間中的背景分布。
這個(gè)定義把概率邏輯引入了因素空間,貝葉斯的逆向推理可以從目標(biāo)倒逼條件,為問(wèn)題求解提供了便利。
(5) 將模糊邏輯引入識(shí)別與推理。
定義5 設(shè)背景分布的最大值為L(zhǎng),記
Ai(1)···i(n)稱(chēng) 為模糊背景分布在格子i(1)···i(n)中的樣本隸屬度。
因素空間是模糊數(shù)學(xué)的升級(jí)版,它所導(dǎo)出的模糊落影理論,把模糊度定義為隨機(jī)集的覆蓋概率,把模糊現(xiàn)象轉(zhuǎn)化為冪上的隨機(jī)現(xiàn)象。為主觀性測(cè)度建立了堅(jiān)實(shí)的理論基礎(chǔ)和可行的實(shí)踐方法。
(6) 通過(guò)定性坐標(biāo)的定量化、線性規(guī)劃等優(yōu)化理論可以進(jìn)入智能孵化的過(guò)程。
對(duì)概念名詞進(jìn)行編碼是自然語(yǔ)言理解最重要的工程。這一工程進(jìn)展不易的原因是沒(méi)有聘用因素。內(nèi)涵都是靠因素來(lái)敘述的,只有因素才能確定內(nèi)涵,靠因素來(lái)編碼就能看準(zhǔn)同義字、近義字和反義字,并確立國(guó)際語(yǔ)言的范本。
任何表名或圖名都是一個(gè)概念名詞,這些名詞必定組成一個(gè)概念譜系。下面涉及8個(gè)因素和它們所生出的19個(gè)概念,按祖裔的世代排列見(jiàn)圖2。
圖2 祖裔世代排列譜系Fig.2 Pedigree of ancestral generation arrangement
在始祖概念“宇宙”之下,18個(gè)概念按世代排成5行。
預(yù)備步驟為將所有因素的相分別編碼,加到括號(hào)中。
I(虛實(shí))={精神(0),物質(zhì)(1)};
I(生命性)={非生物(0),生物(1)};
I(文理)={文科(0),理科(1)};
I(動(dòng)靜)={植物(0),動(dòng)物(1)};
I(高度)={喬(1),灌(2),草(3),苔(4)};
I(金屬?)={非金屬(0),金屬(1)};
I(脊椎?)={非脊椎動(dòng)物(0),脊椎動(dòng)物(1)};
I(哺乳?)={非哺乳脊椎動(dòng)物(0),哺乳動(dòng)物(1)}。
它們的編碼為
物質(zhì):1;精神:0;
生物:1I; 非生物:10;文科:00;理科:01;
動(dòng)物:111; 植物:110;金屬:101; 非金屬:100;
脊椎:1111;非脊椎:1110;喬:1101;灌:1102;
草:1103;苔:1104;
哺乳動(dòng)物:11111;非哺乳的脊椎動(dòng)物:11110。
宇宙是始祖,不編碼。其他概念的編碼原則是:以概念的世代來(lái)定碼位,再按各因素相域的編碼來(lái)填入碼值。碼的位數(shù)越少,碼字越短,概念的輩分越高,概念團(tuán)粒越大。子概念必須繼承父概念的編碼,在父碼之后加上自己對(duì)其生出因素的相值碼。
例如,排在第一行的精神由宇宙的被定義因素“虛實(shí)”所分出,在虛實(shí)相域中的編號(hào)為0。因它是宇宙的第一代子概念,就把0排在第一位。又如,理科是因素“文理”所分,它在相域中的編號(hào)為0,因?qū)儆诘?代,將0填入第2位。因它是精神的子概念,第一位照寫(xiě)0,故其編碼為00。又如,苔是因素“植物高度”所分,它在相域中的編號(hào)為4,因?qū)儆诘?代,將4填入第4位。因它是植物的子概念,前3位照寫(xiě)110,故其編碼為1104。
編碼根本意義在于把內(nèi)涵數(shù)字化,這蘊(yùn)含著難以想見(jiàn)的應(yīng)用。最顯眼的應(yīng)用是查詢(xún)。在包含大量概念的圖中要找出其中的一個(gè),先按第一足碼縮小搜索范圍,再查第二足碼縮小范圍,直到該概念被查出,這是最快的方式。值得指出的是,例1的概念譜系圖是一顆倒樹(shù),由于目標(biāo)的不同,會(huì)得到不同的倒樹(shù),這樣所得到的林,會(huì)打亂世代次序,兩樹(shù)的交點(diǎn)會(huì)有不同的編碼。但就像圖書(shū)目錄有多種查號(hào)一樣,能有多種編碼,但不能一個(gè)編碼對(duì)應(yīng)著多個(gè)不同義的概念,如果是那樣,就需要尋找新的因素增加碼位。
編碼的意義除了快速查詢(xún)之外,另一個(gè)重要應(yīng)用是快速進(jìn)行演繹推理。
命題1 若概念乙的編碼是概念甲編碼的前一部分,則推理句“甲 →乙”必真。
證明 若概念乙的編碼是概念甲編碼的前一部分,則概念乙必是概念甲的祖先,概念甲的外延必被概念乙的外延所包含,按集合論中著名的Stone表現(xiàn)定理知,邏輯的蘊(yùn)含就是外延的被包含,故推理句“甲 →乙”必真。
樹(shù)狀圖編碼有明確的世代,多樹(shù)成林,會(huì)出現(xiàn)亂代現(xiàn)象,編碼不唯一,但像人的家譜一樣,沒(méi)有害處。
智能拓展庫(kù)是由一系列知識(shí)譜系圖所構(gòu)成的系統(tǒng)。每張知識(shí)譜系圖的基元就是一個(gè)多支圖。圖與圖之間存在著層次關(guān)系,形成嵌套結(jié)構(gòu)。
(1) 子庫(kù)的嵌入和編碼。以圖1為例,“理科”位于圖的末端,稱(chēng)為足概念。它在主庫(kù)中有碼01,但若不滿(mǎn)足這個(gè)概念,還想知道有多少不同的理科,這就可以把理科當(dāng)做按鍵,一按就開(kāi)出一個(gè)窗口,里面亮出一個(gè)以理科為始祖的子庫(kù)。由數(shù)、理、化、代數(shù)、幾何、分析等6個(gè)概念組成。編碼原則是層層負(fù)責(zé),子庫(kù)要對(duì)它所屬的全部6個(gè)節(jié)點(diǎn)進(jìn)行編碼:數(shù)1、理2、化3、代數(shù)11、幾何12、分析13。
但是,子表不能給自己的表名編碼。因?yàn)樽颖砻褪巧霞?jí)足概念節(jié)點(diǎn)之名,都叫做“理科”,所以子表表名的編碼已經(jīng)被上級(jí)定為01,子表中各節(jié)點(diǎn)全名等于子表名下接表內(nèi)名:數(shù) 011、理012、化013、代數(shù)0111、幾何0112、分析0113。這就叫做圖的嵌入和編碼的層層負(fù)責(zé)制。
(2) 概念查詢(xún)。假定有一概念,已知其編碼,要在總庫(kù)中查出來(lái),則在總表中尋找具有該概念碼的第一位碼的節(jié)點(diǎn),直到無(wú)法下移,點(diǎn)擊按鍵進(jìn)入下層子表。繼續(xù)查詢(xún),直到查獲為止。
(3) 因素空間藤。知識(shí)譜系圖中有一些帶花的節(jié)點(diǎn),在那些概念上同時(shí)定義多個(gè)因素形成因素空間。帶有因素空間的譜系就叫做因素空間藤。對(duì)每個(gè)花苞,都必須在窗口下存放一張因果分析表。因果分析圖的職責(zé)是實(shí)現(xiàn)因素空間所能做的一切工作:識(shí)別、歸納、推理、預(yù)測(cè)、評(píng)價(jià)、決策、規(guī)劃等智能活動(dòng)。
FQL和SQL語(yǔ)言一樣,具有4種功能:數(shù)據(jù)定義、數(shù)據(jù)操縱、數(shù)據(jù)控制和數(shù)據(jù)查詢(xún)。下文分述不同之處。
1) 數(shù)據(jù)定義語(yǔ)言
數(shù)據(jù)定義的任務(wù)是根據(jù)目標(biāo)從主庫(kù)中建立子庫(kù)的知識(shí)譜系圖。
生成知識(shí)譜系圖的前提是要靠專(zhuān)家先給編程員一張因素詞表,表上用自然語(yǔ)言寫(xiě)出所有要用到的因素名稱(chēng),并在每一個(gè)因素f下面寫(xiě)出它的定義域D(f)的名稱(chēng),并把該名稱(chēng)所屬的要用到的對(duì)象填入括號(hào)。例如,若在主庫(kù)中有知元式:
字號(hào)(周瑜)=公瑾,字號(hào)(關(guān)羽)=云長(zhǎng),······
則必須由專(zhuān)家輸入:因素“字號(hào)”,D=中國(guó)古人={周瑜,關(guān)羽,···}
D不能再大,不能擴(kuò)大為中國(guó)人,因?yàn)楝F(xiàn)代中國(guó)人沒(méi)有字號(hào),也不宜縮小為三國(guó)時(shí)代人。
在這份表中還要注明定義域之間的包含關(guān)系,例如:[人]?[中國(guó)古人],[脊椎動(dòng)物]?[哺乳動(dòng)物]等。
如果輸入的名單足夠充分,編程員就可以操作如下:(1) 在因素之間定義祖裔關(guān)系:f是g的先祖,g是f的后裔,記作f>g,如果D(f)?D(g)。(2) 建立從因素到因素的祖裔關(guān)系矩陣M,rij=1, 如果fi>fj;否則rij=0。 (3) 計(jì)算矩陣乘法:M2,M4,···直 到Mk=M2k=M*,M*是傳遞閉包,它使祖裔成為一種偏序關(guān)系,這時(shí)用圖來(lái)表示,節(jié)點(diǎn)祖通過(guò)因素祖裔指向后裔節(jié)點(diǎn),這就是所要的因素譜系圖。
寫(xiě)出因果分析表的過(guò)程與關(guān)系數(shù)據(jù)庫(kù)表的一樣。
2) 數(shù)據(jù)的查詢(xún)
規(guī)定1 對(duì)于給定的子庫(kù),數(shù)據(jù)查詢(xún)的基本任務(wù)是:給定一個(gè)域名,要寫(xiě)出子庫(kù)的因素譜系圖;對(duì)任意一個(gè)輸入的因素,要回答它在不在主庫(kù)中。若在,則找到所在的因果分析表進(jìn)行查詢(xún),其查詢(xún)方式同于關(guān)系數(shù)據(jù)庫(kù)的查詢(xún)。
給定因果分析表D,若F(D) 是個(gè)單因素f,稱(chēng)(xi,[xi])是 一個(gè)單因素概念,這里,[xi]是xi在論域中的原像,即 [xi]={u∈U|f(u)=xi} ;若F(D)=f1∧···∧fn,設(shè)x=(x1,···,xn)在I(F)中出現(xiàn)的頻數(shù)不接近于零,則稱(chēng)(x,[x]) 是 一個(gè)原子概念。[x]是x在 論域U中的原像,即[x]={u∈U|F(u)=x}。
FQL概念生成器要實(shí)現(xiàn)的功能是:(1) 給定多因素的因果分析表,生成原子概念集;(2) 按因素的分辨度從高到低,對(duì)論域進(jìn)行劃分,得到概念格。
框架中的槽,就是一組因素,一個(gè)側(cè)面就是一個(gè)因素,到了側(cè)面就沒(méi)法再往下走了。因素譜系把框架思想發(fā)展了。
因素庫(kù)語(yǔ)言可以描寫(xiě)狀態(tài)空間,可以與圖數(shù)據(jù)庫(kù)的知識(shí)圖譜相互轉(zhuǎn)化,只不過(guò)把傳統(tǒng)的知識(shí)圖譜劃分為非關(guān)系因素表和關(guān)系圖譜,這樣才能提高數(shù)據(jù)庫(kù)的效能;盲目的混合開(kāi)源擴(kuò)張不宜渲染。FQL能融合SQL和知識(shí)表示的各種語(yǔ)言。
知識(shí)圖譜構(gòu)建的目標(biāo)是為系統(tǒng)性、全面性認(rèn)識(shí)事物、提高決策水平和解決問(wèn)題等服務(wù)。從被動(dòng)的凝固儲(chǔ)存體到智能拓展、主動(dòng)生長(zhǎng)是知識(shí)圖譜發(fā)展的內(nèi)在要求。本文提出了知識(shí)圖譜智能孵化庫(kù)的基本概念和構(gòu)想,并用因素空間理論探討實(shí)現(xiàn)智能判斷、推理、評(píng)價(jià)、決策、規(guī)劃等問(wèn)題的基本策略,使知識(shí)圖譜數(shù)據(jù)庫(kù)變?yōu)橹悄芊趸?、智能拓展的活體。
后續(xù)的研究將進(jìn)一步與可拓學(xué)理論結(jié)合,進(jìn)行知識(shí)圖譜智能拓展的交叉研究,研究大數(shù)據(jù)環(huán)境下知識(shí)圖譜拓展庫(kù)的的拓展、變換算法,研究知識(shí)圖譜的基元-因素化表達(dá)及其運(yùn)算,進(jìn)一步提升知識(shí)圖譜在問(wèn)題處理等領(lǐng)域的智能化程度。本文提到的拓展還很不成熟,離可拓學(xué)的拓展還有一定距離,需繼續(xù)努力。
展望未來(lái),希望智能拓展庫(kù)可以進(jìn)一步實(shí)現(xiàn)智能孵化器的作用,自上而下與自下而上相結(jié)合地開(kāi)展智能孵化的全民工程。實(shí)現(xiàn)分布式多智能體想實(shí)現(xiàn)的系列功能。