陳 莊,荊于勤
(重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶 400054)
信息化咨詢[1]也稱為IT咨詢,是管理咨詢的一種。信息化咨詢是管理咨詢和信息化技術(shù)相結(jié)合的產(chǎn)物[2-3]。在信息化咨詢過(guò)程中,咨詢專家需要對(duì)企業(yè)進(jìn)行充分的調(diào)研和需求分析,甚至要對(duì)管理流程重新設(shè)計(jì),將企業(yè)的核心問(wèn)題歸納出來(lái),分析企業(yè)需要怎樣的管理方和管理軟件。在企業(yè)信息化過(guò)程中,咨詢專家的作用不可低估,而且在信息系統(tǒng)交付使用后,專家還要定期進(jìn)行系統(tǒng)運(yùn)行效率評(píng)估。專家的參與保障了項(xiàng)目的順利進(jìn)行和項(xiàng)目效益的最大化。因此,面對(duì)存儲(chǔ)在專家?guī)熘懈鱾€(gè)領(lǐng)域眾多的專家信息,如何選取合適的專家對(duì)項(xiàng)目進(jìn)行咨詢,選取怎樣的專家組合才能保證咨詢工作的公正性、科學(xué)性和合理性,從而達(dá)到最佳的匹配效果是非常重要的?,F(xiàn)階段,對(duì)于專家的選擇一般是通過(guò)簡(jiǎn)單的隨機(jī)抽取,或者應(yīng)用均衡隨機(jī)抽取模型。這種匹配方式屬于簡(jiǎn)單的基于關(guān)鍵字的匹配,不能較好地利用專家的動(dòng)態(tài)信息(如專家的領(lǐng)域成就、經(jīng)驗(yàn)經(jīng)歷等信息),不能保障項(xiàng)目與專家匹配的科學(xué)性。
針對(duì)這一問(wèn)題,本文引入本體的概念,通過(guò)分析項(xiàng)目描述與專家信息,計(jì)算其語(yǔ)義相似度,按照相似度的大小確定項(xiàng)目與專家匹配與否,從而提高了項(xiàng)目與專家的匹配度和咨詢?cè)u(píng)審的科學(xué)性[4-9]。
基于本體的語(yǔ)義相似度計(jì)算主要有2個(gè)比較經(jīng)典的方法:基于點(diǎn)的計(jì)算方法(node-based approach)和基于邊的計(jì)算方法(edge-based approach)。基于點(diǎn)的相似度計(jì)算方法也叫作信息容量法[4]。信息容量通過(guò)量化概念及其實(shí)例對(duì)象的權(quán)重或者出現(xiàn)的概率,反映出概念和其實(shí)例對(duì)象的語(yǔ)義的內(nèi)容大小。在本體樹(shù)形結(jié)構(gòu)中,一個(gè)點(diǎn)表示一個(gè)概念,即表示了相關(guān)的語(yǔ)義內(nèi)容。概念的抽象程度隨著所在層次的提高而提高,因此反映出的信息內(nèi)容隨著抽象程度的提高而減少;相反,信息內(nèi)容隨著具體程度的提高反映得越多,則層次越往下走,概念所表示的含義越細(xì)化、具體。即如果概念c1的結(jié)構(gòu)層次高于概念c2的結(jié)構(gòu)層次,則用公式表示為
因此,存在信息內(nèi)容IC(c1)>IC(c2)。
對(duì)于任意概念節(jié)點(diǎn)c的信息內(nèi)容IC(c)可通過(guò)式(2)計(jì)算。
其中:freq(c)表示其出現(xiàn)頻率;N取所有頻率的最大值?;谝陨系亩x和公式,可以計(jì)算概念c1和c2的相似度,如式(3)所示。
其中Sup(c1,c2)表示概念c1和c2所有的共同的父概念的集合。同樣,對(duì)于所有的概念 c,都有Concept(c).child(i)={c1,c2}。在將文檔中的詞語(yǔ)概念化的過(guò)程中,會(huì)發(fā)現(xiàn)一個(gè)詞語(yǔ)通常對(duì)應(yīng)了幾個(gè)概念,即存在一詞多義的問(wèn)題,導(dǎo)致在構(gòu)建的概念樹(shù)上雖然是同一結(jié)點(diǎn),但位于樹(shù)的不同分支上。針對(duì)這一問(wèn)題,在計(jì)算2個(gè)詞語(yǔ)之間相似度時(shí),先找出詞語(yǔ)的所有概念形式,計(jì)算所有概念形式的相似度,并選擇最大值作為計(jì)算結(jié)果。
基于邊的相似度計(jì)算方法的基本思想是通過(guò)分析2個(gè)概念在本體樹(shù)中路徑的長(zhǎng)度來(lái)計(jì)算它們之間的語(yǔ)義距離。2個(gè)詞語(yǔ)之間的相似度隨著語(yǔ)義距離的增加而降低,隨著語(yǔ)義距離的減少而增加。由于2個(gè)結(jié)點(diǎn)之間可能存在多條路徑且邊數(shù)不唯一,可以利用最短路徑來(lái)表示概念間的相似度,公式為
其中:sen(w)表示詞語(yǔ)w的所有概念的表示形式;len(c1,c2)表示2個(gè)概念之間的距離;dmax表示2個(gè)概念的層次的最大值。
通過(guò)分析基于點(diǎn)和基于邊的2種經(jīng)典的語(yǔ)義相似度計(jì)算方法,并且針對(duì)信息化咨詢項(xiàng)目與領(lǐng)域?qū)<移ヅ涞膯?wèn)題,提出了需要改進(jìn)的幾點(diǎn):
1)雖然基于點(diǎn)的方法充分運(yùn)用了概率統(tǒng)計(jì)和信息論的一些相關(guān)知識(shí),而且實(shí)施起來(lái)也比較簡(jiǎn)單,但是在計(jì)算的過(guò)程中對(duì)2點(diǎn)之間的距離對(duì)相似度的影響缺乏考慮。
2)對(duì)于基于邊的方法只是單純地考慮了樹(shù)結(jié)構(gòu)中結(jié)點(diǎn)之間的距離,即最短路徑,沒(méi)有結(jié)合一詞多義現(xiàn)象中概念出現(xiàn)頻率所傳達(dá)出的信息(出現(xiàn)的頻率越高,表示它的重要性越大),因此相應(yīng)的相似度計(jì)算結(jié)果也會(huì)不同。
3)基于點(diǎn)和基于邊的方法都只是局限于對(duì)一棵數(shù)中結(jié)點(diǎn)的計(jì)算,而未考慮到不同樹(shù)中的2點(diǎn)和樹(shù)與樹(shù)之間相似度的計(jì)算。而本文要解決的匹配問(wèn)題是計(jì)算項(xiàng)目信息和專家信息的相似度,即樹(shù)與樹(shù)之間相似度的計(jì)算。
混合語(yǔ)義相似度計(jì)算方法通過(guò)設(shè)置權(quán)重來(lái)表示概念點(diǎn)的重要性,并聯(lián)系到概念詞于本體樹(shù)中所處的區(qū)域的密集度和所在深度,將2個(gè)概念點(diǎn)的最短路徑邊上的權(quán)重值相加,代替簡(jiǎn)單累計(jì)2個(gè)概念點(diǎn)間所擁有的邊數(shù)量,從而得到2個(gè)概念點(diǎn)的距離。同時(shí),不僅計(jì)算同一棵樹(shù)中2結(jié)點(diǎn)的語(yǔ)義相似度和不同樹(shù)中2結(jié)點(diǎn)的語(yǔ)義相似度,還計(jì)算不同樹(shù)之間的語(yǔ)義相似度。為了便于計(jì)算相似度,先將描述項(xiàng)目和專家信息的非結(jié)構(gòu)文檔進(jìn)行結(jié)構(gòu)化處理,即將文本文檔轉(zhuǎn)化成了概念樹(shù)的形式。每個(gè)文本文檔用一維概念向量來(lái)表示概念樹(shù),用一維權(quán)重向量來(lái)表示相應(yīng)的權(quán)重。
例如文檔D1描述的是信息化項(xiàng)目的信息,D2描述的是信息化領(lǐng)域?qū)<业男畔?,則形式化后的概念向量為分別為:D1={c11,c22,…,c1m},D2={c21,c22,…,c2n},其相應(yīng)的權(quán)重向量分別為:W1={w11,w12,…,w1m},W2={w21,w22,…,w2n}。對(duì)于2個(gè)概念點(diǎn)c1i和c2j的父概念點(diǎn)C可以表示為C={ci|ci.child(x)=c1∧ci.child(y)=c2},同時(shí)滿足c={ci|ci∈C∧min[len(ci,c1)+len(ci,c2)]},那么,概念c1i和c2j的相似度計(jì)算公式為
其中w'1i和w'2j為2個(gè)概念點(diǎn)歸一化計(jì)算后的權(quán)重。進(jìn)而,兩文檔的相似度計(jì)算公式為
在信息化咨詢項(xiàng)目和領(lǐng)域?qū)<业钠ヅ渲?,需要處?類信息:一類是項(xiàng)目信息,從項(xiàng)目需求、說(shuō)明等材料中獲取,其基本信息包括項(xiàng)目名稱、研究屬性、申請(qǐng)日期等;另一類是專家信息,可通過(guò)專家所發(fā)表的論文、經(jīng)歷、榮譽(yù)等方面獲取,其基本信息包括姓名、性別、出生日期、聯(lián)系方式和單位等,還包括專家的學(xué)術(shù)研究領(lǐng)域、成果和經(jīng)歷等。
首先指定一個(gè)需要匹配的項(xiàng)目,并選擇若干個(gè)候選專家計(jì)算相似度,根據(jù)計(jì)算的結(jié)果排序。項(xiàng)目與專家匹配主要包括4個(gè)步驟:構(gòu)建本體模型、標(biāo)注本體、計(jì)算相似度、確定匹配專家。
1)構(gòu)建本體模型。本文選定科學(xué)研究領(lǐng)域?yàn)楸倔w的構(gòu)建領(lǐng)域,其概念源于學(xué)術(shù)研究中比較常用的詞匯和短語(yǔ)。選用 protégé3.4.4 版本建立本體概念模型,再將概念數(shù)據(jù)存入數(shù)據(jù)庫(kù)中。
2)標(biāo)注本體。一些通過(guò)Web方式輸入的信息生成的是結(jié)構(gòu)化的信息,而也有一些是導(dǎo)入的非結(jié)構(gòu)化的包含專家和項(xiàng)目信息的文檔。首先,將這些非結(jié)構(gòu)化的信息用本體中包含的概念和表達(dá)的層次關(guān)系來(lái)描述,每一個(gè)概念結(jié)點(diǎn)對(duì)應(yīng)于文檔信息中的一個(gè)知識(shí)要點(diǎn),然后利用語(yǔ)法結(jié)構(gòu)對(duì)文檔進(jìn)行標(biāo)注。
3)計(jì)算相似度。形式化后得到的是一個(gè)樹(shù)型知識(shí)結(jié)構(gòu),通過(guò)本文介紹的混合語(yǔ)義相似度計(jì)算方法,將知識(shí)結(jié)構(gòu)轉(zhuǎn)換為知識(shí)向量,先計(jì)算項(xiàng)目和專家之間每一個(gè)概念之間的相似度,再計(jì)算項(xiàng)目概念樹(shù)和專家概念樹(shù)的相似度。
4)確定匹配專家。待選專家按所計(jì)算的相似度結(jié)果從大到小排序。例如該項(xiàng)目需要5位專家,就選擇排序后的前5位專家作為該項(xiàng)目的匹配專家。
為了驗(yàn)證上述方法的有效性,選取若干項(xiàng)目和專家組作為實(shí)驗(yàn)對(duì)象。首先,由本領(lǐng)域?qū)<蚁雀鶕?jù)個(gè)人判斷給出每個(gè)項(xiàng)目與候選專家的相似度S2,即對(duì)它們的相似度作一個(gè)主觀判斷評(píng)價(jià)。然后利用混合語(yǔ)義相似度計(jì)算方法進(jìn)行相似度計(jì)算,得到S1。為了方便對(duì)比分析,將S1與S2的值相比得到擬合度F,如表1所示。
表1 相似度計(jì)算結(jié)果比較
這里需要說(shuō)明的是,由于通過(guò)計(jì)算得出的值和專家給定的值不是一個(gè)數(shù)量級(jí),所以,表里給出的是經(jīng)過(guò)歸一化后的計(jì)算結(jié)果。項(xiàng)目A和項(xiàng)目B的平均擬合度分別為82.18%和79.80%,這說(shuō)明利用本文提出的方法進(jìn)行項(xiàng)目與專家的匹配是比較合理、科學(xué)的。
為了保障專家咨詢工作的公正性、科學(xué)性和合理性,選取匹配的項(xiàng)目專家組合,本研究規(guī)避了現(xiàn)階段存在的簡(jiǎn)單隨機(jī)抽取或者均衡隨機(jī)抽取方法的弊端,解決了基于關(guān)鍵字的專家選擇缺乏語(yǔ)義理解的問(wèn)題。引入了本體的概念,通過(guò)分析項(xiàng)目描述與專家信息,計(jì)算其語(yǔ)義相似度,按照相似度的大小確定項(xiàng)目與專家匹配與否,從而為項(xiàng)目找到最合適的專家,提高了咨詢?cè)u(píng)審的科學(xué)性。實(shí)例分析結(jié)果表明,本文提出的計(jì)算2顆概念樹(shù)的相似度計(jì)算方法較全面地考慮了應(yīng)用特點(diǎn),相比傳統(tǒng)的方法,結(jié)果更精確合理。并且,將本體的應(yīng)用引入這一領(lǐng)域,為以后專家抽取的研究提供了新思路。
[1]丁秋林.企業(yè)信息化咨詢[M].北京:華夏出版社,2003.
[2]劉紅.中小企業(yè)的信息化問(wèn)題與對(duì)策[J].經(jīng)濟(jì)論壇,2004,22:23-25.
[3]Van Leeuwen J.Approaches in machine learning[M].[S.l.]:ALGORITHMS IN AMBIENT INTELLIGENCE,2004:151-166.
[4]吳江寧,楊光飛.基于本體的項(xiàng)目和領(lǐng)域?qū)<移ヅ湓拖到y(tǒng)[J].計(jì)算機(jī)應(yīng)用研究,2009,26(10):3787-3790.
[5]姜華.一種基于本體的概念語(yǔ)義相似度計(jì)算研究[J].計(jì)算機(jī)應(yīng)用與軟件,2009,26(7):143-145.
[6]劉宏哲,須德.基于本體的語(yǔ)義相似度和相關(guān)度計(jì)算研究綜述[J].計(jì)算機(jī)科學(xué),2012,39(2):8-13.
[7]康文寧,楊志強(qiáng).相似度計(jì)算在智能答疑系統(tǒng)中的研究及應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010,20(2):71-74.
[8]L i S J,Zhang J,Huang X,et al.Semantic computation in Chinese question-answering system[J].Comput Sci Tech,2002,17(6):933-939.
[9]Ristad E S,Yianilos P N.Learning string-edit distance[J].IEEE PAM I,1998,20(5):522-532.