劉培奇,黃 苗+,封 昊,周 偉
1.西安建筑科技大學(xué) 信息與控制工程學(xué)院,西安 710055 2.陜西彩虹電子玻璃有限公司,陜西 咸陽(yáng) 712000
模糊概念圖匹配的語(yǔ)用推理研究*
劉培奇1,黃 苗1+,封 昊1,周 偉2
1.西安建筑科技大學(xué) 信息與控制工程學(xué)院,西安 710055 2.陜西彩虹電子玻璃有限公司,陜西 咸陽(yáng) 712000
針對(duì)目前計(jì)算機(jī)在自動(dòng)語(yǔ)用分析中不能解析出整個(gè)話語(yǔ)深層含義的問(wèn)題,設(shè)計(jì)了基于模糊概念圖匹配的關(guān)聯(lián)推理算法。該算法針對(duì)漢語(yǔ)語(yǔ)用分析中的特定對(duì)話模式,用模糊概念圖表示說(shuō)話人的話語(yǔ)和認(rèn)知語(yǔ)境知識(shí),并從計(jì)算機(jī)學(xué)科出發(fā)進(jìn)行關(guān)聯(lián)推理,解決了話語(yǔ)深層含義的語(yǔ)用分析問(wèn)題。經(jīng)過(guò)實(shí)驗(yàn)分析,該算法準(zhǔn)確率達(dá)78%。該算法已應(yīng)用到輿情分析和IRC聊天室社會(huì)網(wǎng)絡(luò)挖掘中,采用該算法對(duì)大量會(huì)話文本預(yù)處理,有效降低了基于多特征融合的Mutton方法和AdaBoost方法的漏報(bào)率和誤報(bào)率,提高SBV極性傳遞算法的準(zhǔn)確率,有效推出了對(duì)話者文本的深層含義。
語(yǔ)用分析;關(guān)聯(lián)推理;模糊概念圖;認(rèn)知語(yǔ)境
語(yǔ)用分析主要是分析話語(yǔ)在不同語(yǔ)境下的不同具體含義[1],以及語(yǔ)言的隱含意義。在雙方交談中,有時(shí)出于禮貌、幽默和委婉等原因,話語(yǔ)的意圖沒(méi)有直接說(shuō)出來(lái),話語(yǔ)真正傳遞的實(shí)際上是另外一種深層次含義[2]。例如:A說(shuō)“你在網(wǎng)上買的電腦運(yùn)行快不?”,B回答“跟螞蟻爬一樣!”,“螞蟻爬”僅僅是B所說(shuō)話語(yǔ)的表面含義,真正含義是“在網(wǎng)上買的電腦運(yùn)行速度很慢”。如果在計(jì)算句子傾向性或僅用文本的表面含義,則會(huì)降低文本理解的準(zhǔn)確率。因此,語(yǔ)用分析對(duì)理解話語(yǔ)深層含義具有十分重要的意義。
語(yǔ)用分析是自然語(yǔ)言理解的重要領(lǐng)域,國(guó)內(nèi)外學(xué)者在這一方面展開(kāi)了廣泛研究。在國(guó)外,Grice的會(huì)話含義理論[3],首次對(duì)語(yǔ)用學(xué)進(jìn)行了系統(tǒng)闡述和剖析,提出了語(yǔ)用分析的4個(gè)合作原則,但該原則存在模糊性和重疊性。后來(lái),Horn把4個(gè)合作原則簡(jiǎn)化為兩個(gè)[4]。Levinson指出Horn兩原則的不合理性,并在總結(jié)多位語(yǔ)言學(xué)家研究的基礎(chǔ)上概括出會(huì)話含義分析三原則[4],建立了新Grice會(huì)話含義理論基礎(chǔ)。Sperber&Wilson在上述研究的基礎(chǔ)上,提出了關(guān)聯(lián)理論,構(gòu)成了新Grice會(huì)話含義理論[2]。會(huì)話含義分析的基礎(chǔ)是對(duì)話語(yǔ)的語(yǔ)用推理。近年,國(guó)外對(duì)會(huì)話語(yǔ)用推理進(jìn)行了大量研究。在文獻(xiàn)[5]中,為了便于非合作對(duì)話的理解,Brain Pluss從對(duì)話者語(yǔ)言的直接意義定義了DNC(degree of non-cooperative dialogue),提出非合作對(duì)話計(jì)算模型,便于對(duì)話者之間語(yǔ)言理解。但是在DNC中,僅計(jì)算語(yǔ)言表面詞匯意義,沒(méi)有涉及語(yǔ)言更深層次的意義。在文獻(xiàn)[6]中,F(xiàn)ranke 在有限理性模型基礎(chǔ)上,針對(duì)博弈中雙方信息(經(jīng)過(guò)信息可靠性語(yǔ)用推理)的理解和響應(yīng)問(wèn)題,提出了IBR(iterated best respones)模型。但是IBR 模型是建立在會(huì)話者的意義聚焦假設(shè)和有限合理性假設(shè)下,一般情況下,這兩個(gè)假設(shè)很難滿足,因此推理效果有限。
與國(guó)外的研究相比,國(guó)內(nèi)學(xué)者更傾向于語(yǔ)用學(xué)應(yīng)用研究。國(guó)內(nèi)最早引入語(yǔ)用分析的是沈家煊,他對(duì)關(guān)聯(lián)理論進(jìn)行了系統(tǒng)闡述和分析[7];熊學(xué)亮對(duì)語(yǔ)用分析進(jìn)行了深入研究,細(xì)化了關(guān)聯(lián)推理,總結(jié)了話語(yǔ)分析的關(guān)聯(lián)推理模式[2];趙彥春將語(yǔ)用分析應(yīng)用到翻譯領(lǐng)域,創(chuàng)建了指導(dǎo)翻譯的理論模型關(guān)聯(lián)翻譯[8]。但是他們僅從語(yǔ)言學(xué)或哲學(xué)角度進(jìn)行理論研究,并沒(méi)有從計(jì)算機(jī)科學(xué)方面研究語(yǔ)用分析與推理的算法和實(shí)現(xiàn)。由于語(yǔ)用分析中語(yǔ)境因素繁多而且是動(dòng)態(tài)變化的,在計(jì)算機(jī)中很難設(shè)計(jì)語(yǔ)境庫(kù),并且不同話語(yǔ)很難和語(yǔ)境庫(kù)中繁多語(yǔ)境信息匹配,因?yàn)橛?jì)算語(yǔ)用學(xué)發(fā)展緩慢,相關(guān)文獻(xiàn)相對(duì)較少。在現(xiàn)有文獻(xiàn)中,劉根輝[9]對(duì)計(jì)算語(yǔ)用學(xué)進(jìn)行了較完整研究,并構(gòu)建了基于語(yǔ)境的自然語(yǔ)言理解模型,根據(jù)語(yǔ)境信息較好地解決了漢語(yǔ)中一詞多義問(wèn)題,但該系統(tǒng)并沒(méi)有對(duì)整個(gè)話語(yǔ)的深層含義進(jìn)行理解。文獻(xiàn)[10]把語(yǔ)用信息用于關(guān)鍵字?jǐn)U展、專利語(yǔ)料庫(kù)構(gòu)建、專利檢索中,在一定程度上提高了檢索答案的準(zhǔn)確率,但該系統(tǒng)對(duì)語(yǔ)境信息考慮較少,僅僅涉及用戶信息,沒(méi)有做到對(duì)整個(gè)話語(yǔ)深層含義的解析。文獻(xiàn)[11]提出了一個(gè)基于語(yǔ)用信息的候選答案排序模型,提高了問(wèn)答系統(tǒng)的準(zhǔn)確率,但該模型中涉及的語(yǔ)境信息也僅僅為答案提供者的信息和用戶對(duì)答案提供者所提供答案的評(píng)價(jià)信息,也沒(méi)有做到理解整句話的深層含義。
目前,在語(yǔ)用分析領(lǐng)域主要有Grice的會(huì)話含義理論和Sperber&Wilson的關(guān)聯(lián)理論,其中關(guān)聯(lián)理論是對(duì)Grice會(huì)話含義理論的繼承和批判,是為推導(dǎo)出交際意圖而尋找能滿足[新信息+關(guān)聯(lián)信息]組合的相關(guān)假設(shè),并且在特定的場(chǎng)合中推導(dǎo)出話語(yǔ)的深層含義。關(guān)聯(lián)理論主要涉及會(huì)話分析、傳媒話語(yǔ)、文學(xué)、翻譯和言語(yǔ)幽默等領(lǐng)域,本文主要討論話語(yǔ)分析問(wèn)題。
在計(jì)算機(jī)的話語(yǔ)分析中,模糊概念圖知識(shí)表示方法既有準(zhǔn)確而嚴(yán)格的語(yǔ)義定義,又能表示深層語(yǔ)義知識(shí)和實(shí)現(xiàn)多種匹配推理。本文在模糊概念圖表示話語(yǔ)和認(rèn)知語(yǔ)境基礎(chǔ)上,設(shè)計(jì)了基于模糊概念圖匹配的關(guān)聯(lián)推理算法(relevance inference algorithm based on fuzzy conceptual graph matching,RIAFM),解決了特定對(duì)話模式(即對(duì)話者A是一個(gè)問(wèn)句,而回答者B對(duì)A沒(méi)有正面回答)的語(yǔ)用推理問(wèn)題,推導(dǎo)出對(duì)話者B話語(yǔ)的深層含義,并對(duì)A的問(wèn)題進(jìn)行正面回答。本文以QQ聊天記錄中對(duì)話為基本數(shù)據(jù),對(duì)RIAFM算法理解對(duì)話的正確性進(jìn)行了實(shí)驗(yàn)分析,對(duì)話語(yǔ)理解的準(zhǔn)確率得到明顯提高。最后,將本文算法應(yīng)用于句子傾向性計(jì)算和聊天室社會(huì)網(wǎng)絡(luò)挖掘中,本文算法明顯提高了計(jì)算句子傾向性分析和社會(huì)網(wǎng)絡(luò)挖掘的準(zhǔn)確率。
概念圖(conceptual graph,CG)是美國(guó)計(jì)算機(jī)科學(xué)家Sowa提出的一種基于語(yǔ)義分析的知識(shí)表示方法[12-13]。由于概念圖具有表示形式直觀,表達(dá)能力強(qiáng),推理簡(jiǎn)單,語(yǔ)言功能強(qiáng)等優(yōu)點(diǎn),目前已成為一種理想的知識(shí)表示方式。
定義1概念圖是由概念節(jié)點(diǎn)、關(guān)系節(jié)點(diǎn)、有向弧組成的有向連通圖,即:
其中,Concept={C1,C2,…,Cm}為概念節(jié)點(diǎn)集,表示實(shí)體、動(dòng)作、狀態(tài)和事件等;Relation={R1,R2,…,Rn}為關(guān)系節(jié)點(diǎn)集,表示概念節(jié)點(diǎn)間的關(guān)系;F=(Concept×Relation)?(Relation×Concept)為有向弧集[14]。
在概念圖的線性表示中,用方括號(hào)表示概念節(jié)點(diǎn),用圓括號(hào)表示關(guān)系節(jié)點(diǎn)。例如,語(yǔ)句“A dog eats the meat with the paw.”可線性表示為:
為了表示和處理模糊知識(shí),Morton和Wuwongse等人結(jié)合模糊數(shù)學(xué)理論,研究了模糊概念圖[15-16]。
定義2設(shè)Le為實(shí)體子類,I為標(biāo)記集合,則概念C的模糊度 ρ:Le×I→[0,1],模糊概念C可表示為[t:x|ρ]。其中 t=type(C);t∈Le,x=referent(C),x∈I。如果ρ為1,則可以省略[17]。
定義3由模糊概念集合、關(guān)系集合和有向弧組成的有向二分圖,稱為模糊概念圖。
例如,一個(gè)年輕的女孩為L(zhǎng)ucy的可能性為0.8可表示為:
在概念圖中,匹配算法主要包括完全匹配、投影匹配和最大連接匹配。
定義4設(shè)概念節(jié)點(diǎn)C1,C2∈C,若C1≤C2,則稱C2是 C1的概化,C1是 C2的特化[18]。
定義5如果概念節(jié)點(diǎn)C1和C2有最大公共子類C3,即對(duì)任意的概念節(jié)點(diǎn)C,若C≤C1,C≤C2,都有C≤C3,則稱概念節(jié)點(diǎn)C1和C2相容[19]。
定義6對(duì)于概念圖u、v和w,若w中的關(guān)系是u和v的并集,w中的概念是u和v中相容概念,則稱w是u和v的最大連接概念圖,記為w=u?v[18]。
例如:
則u和v的最大連接概念圖w為:
定義7對(duì)于模糊概念圖u、v和w,如果w中的關(guān)系是u和v的并集,w中的概念是u和v中相容的概念集合,且w中相容概念的模糊度為u和v中相容概念模糊度最小值,則稱w是u和v的最大連接模糊概念圖,記為w=u?v。
關(guān)聯(lián)推理的本質(zhì)是語(yǔ)言交際者對(duì)交際意圖的表達(dá)和識(shí)別。本文通過(guò)關(guān)聯(lián)推理模式對(duì)特定對(duì)話模式進(jìn)行推理。
定義8關(guān)聯(lián)推理模式就是在理解交際者話語(yǔ)的過(guò)程中,搜索滿足[新信息+關(guān)聯(lián)信息]組合的相關(guān)語(yǔ)境假設(shè)[20],即:對(duì)話者A和對(duì)話者B談話時(shí),當(dāng)B說(shuō)完話時(shí),A對(duì)B的話語(yǔ)有關(guān)聯(lián)期待,就值得A花費(fèi)努力去加工和推理B所說(shuō)的話語(yǔ),即B所說(shuō)的話語(yǔ)會(huì)激活A(yù)大腦中原有的相關(guān)知識(shí)結(jié)構(gòu)(對(duì)A話語(yǔ)的各種假設(shè))和推理,然后在具體的交際場(chǎng)合內(nèi)互動(dòng)。
通過(guò)對(duì)語(yǔ)境因素的研究,包羅萬(wàn)象的語(yǔ)境歸納成為物理語(yǔ)境、語(yǔ)言語(yǔ)境、認(rèn)知語(yǔ)境三大范疇[20]。認(rèn)知語(yǔ)境庫(kù)作為心理構(gòu)建體,和心理學(xué)上的構(gòu)建一樣,都強(qiáng)調(diào)主體基于原有的知識(shí)與經(jīng)驗(yàn)對(duì)新信息意義的構(gòu)建,它是新輸入的信息與大腦中已有信息相互作用、相互整合而凸顯的結(jié)果[21]。本文的認(rèn)知語(yǔ)境知識(shí)庫(kù)(cognitive context knowledge library,CCKL)是專家通過(guò)訓(xùn)練大量該特定對(duì)話模式樣本,總結(jié)并建立很多特定主題詞的各種相關(guān)假設(shè)。由于人與人所處的物理環(huán)境不同,記憶能力和認(rèn)知結(jié)構(gòu)也明顯不同,他們大腦中認(rèn)知語(yǔ)境信息則不一樣。當(dāng)兩個(gè)人處在同一個(gè)語(yǔ)境中,受到相同的明示刺激,他們做出的反應(yīng)與激活的認(rèn)知語(yǔ)境知識(shí)塊也不同。正因?yàn)檫@種不存在“共有知識(shí)”,交際一方對(duì)另一方所說(shuō)話語(yǔ)的理解,充其量只是給交際的成功提供了可能,但絕對(duì)無(wú)法保證交際雙方達(dá)到百分之百的準(zhǔn)確理解[20]。在本算法中,認(rèn)知語(yǔ)境知識(shí)庫(kù)中每個(gè)主題詞的相關(guān)知識(shí)都用模糊概念圖集合表示,其中每一條相關(guān)知識(shí)的假設(shè)為集合中一個(gè)模糊概念圖,該模糊概念圖標(biāo)注了該種假設(shè)成功交際的可能性。每一條相關(guān)知識(shí)假設(shè)都有一個(gè)模糊度,該模糊度是通過(guò)訓(xùn)練大量談話事件,從中找出提問(wèn)和回答都一樣的談話記錄,并記錄回答者涉及該談話的實(shí)際情況。設(shè)某特定的相同提問(wèn)和回答的談話記錄有m對(duì),實(shí)際結(jié)果為第一種情況的有n個(gè),為第二種情況的有k個(gè),則該相關(guān)知識(shí)假設(shè)的模糊度α為:
實(shí)際上α是一種先驗(yàn)概率,表示對(duì)于某個(gè)特定的回答,而最終是某個(gè)特定實(shí)際情況的概率。
根據(jù)人們理解話語(yǔ)的思維過(guò)程,決定了語(yǔ)用推理的過(guò)程就是對(duì)話雙方話語(yǔ)的模糊概念圖和認(rèn)知語(yǔ)境知識(shí)庫(kù)中模糊概念圖的匹配過(guò)程。根據(jù)以上思想,本文設(shè)計(jì)了RIAFM算法。
設(shè)對(duì)話者A的話語(yǔ)生成的模糊概念圖為u,回答者B的話語(yǔ)生成的模糊概念圖為v,w中概念節(jié)點(diǎn)集合為Cw,w中概念節(jié)點(diǎn)個(gè)數(shù)為k,與Cwt相連的關(guān)系節(jié)點(diǎn)集合為Rwtc,在CCKL中關(guān)于Cwi的主題詞的模糊概念圖集合為Q,q∈Q中概念節(jié)點(diǎn)集合為Cq,與Cqt相連的關(guān)系節(jié)點(diǎn)集合為Rqtc。RIAFM算法流程如圖1所示。
算法RIAFM
輸入:u,v,談話雙方話語(yǔ)生成的模糊概念圖;
CCKL,認(rèn)知語(yǔ)境知識(shí)庫(kù);
Cu0,概念圖u中模糊度為0的概念節(jié)點(diǎn)。
輸出:Cu0?ρ,概念圖u中模糊度為0的概念節(jié)點(diǎn)的新模糊度。
Begin
1.w=u?v;
2.Cw={Cwi|Cwi為w中概念節(jié)點(diǎn)};
Rw={rwi|rwi為w中關(guān)系節(jié)點(diǎn)};
3.(?Cwi)Cwi∈ Cw;Cwi?ρ=0;
4.foreach(Cwiiscontainof(CCKL)){//判斷 CCKDB 中主題詞是否包含概念節(jié)點(diǎn)Cwi
5.Q=search(Cwi)//在CCKL中主題詞c的模糊概念圖集合為Q
Fig.1 Flow chart of RIAFM algorithm圖1RIAFM算法流程
6.(?Qi)Qi∈ Q
7.q=Qi;
8.Cq={Cqi|Cqi為q中概念節(jié)點(diǎn)};
Rq={rqi|rqi為q中關(guān)系節(jié)點(diǎn)};
9.Cqt=Cwt=Cwi;Cq=Cq-Cwi;temp1=1;temp2=1;
10.while(?(r)r∈Rw∧CwtrCwj∧Cwt,Cwj∈Cw∧r∈Rq∧CqrrCqj∧Cqt,Cqj∈Cq){
11.if(Cwj=Cqj∨CwjisHomonym(Cqj)){//如果 Cw和 Cqj相等或互為近義詞
12. if(Cwi?ρ=0){temp1=Cqi?ρ}
13. else{temp2=min(Cwi?ρ,Cqi?ρ)}}
14. if(Cq!=null){
15. Cq=Cq-Cqi;
16. if(Cq!=null){Cwt=Cwj;Cqt=Cqj;
free(Cwj,Cqj);重復(fù)執(zhí)行(10);}
17. else{Cu0?ρ=temp1*temp2;return;}}}
18.elseif(CwjisAntonym(Cqj)){//如果 Cw和 Cqj互為反義詞
19. if(Cwj?ρ){temp1=-Cqj?ρ}
20. else{temp2=-min(Cwj?ρ,Cqj?ρ)}
21. if(Cq!=null){
22. Cq=Cq-Cqi;
23. if(Cq=null){Cwi?ρ=temp1*temp2;break;}
24. else{break;}}}
25.else{break;}
26.Cu0?ρ=min(Cwi?ρ)(i=1,2,…,n)//n 為 w 中概念節(jié)點(diǎn)數(shù)}
End
在RIAFM算法中,輸入是談話雙方話語(yǔ)生成的模糊概念圖u、v,認(rèn)知語(yǔ)境庫(kù)中相關(guān)主題的概念圖集合和概念圖u中模糊度為0的概念節(jié)點(diǎn)Cu0;輸出是概念圖u中模糊度為0的概念節(jié)點(diǎn)的新模糊度。從第3步開(kāi)始,循環(huán)u和v的最大連接概念圖w中的概念節(jié)點(diǎn),設(shè)w的概念節(jié)點(diǎn)數(shù)為m;從第5步開(kāi)始,為w中概念節(jié)點(diǎn)Ci搜索認(rèn)知語(yǔ)境庫(kù)中關(guān)于Ci主題詞的概念圖集合Q,設(shè)認(rèn)知語(yǔ)境庫(kù)中主題詞數(shù)為n;從第6步開(kāi)始,循環(huán)Q中每個(gè)概念圖q,Q中概念圖數(shù)為h;從第10步開(kāi)始,w和Q中概念圖q進(jìn)行匹配,只有q中的所有概念節(jié)點(diǎn)都與w中概念圖匹配時(shí),算法匹配成功,而temp1×temp2的值才能正確地賦給Cu0。因此算法最多執(zhí)行m×n×h次,最壞情況下時(shí)間復(fù)雜度為O(mnh)。
RIAFM算法空間復(fù)雜度為存儲(chǔ)模糊概念圖u、v、w和CCKL主題詞索引占用的空間,再加上臨時(shí)變量占用空間,因此該算法空間復(fù)雜度為| Ru|+| Rv|+|Rw|+| Cu|+| Cv|+| Cw|+h| Rq|+h| Cq|+n+3。對(duì) 二 元 關(guān) 系的模糊概念圖,算法近似存儲(chǔ)空間大約為2(| Ru|+|Rv|+| Rw|)+2h| Rq|+n+3,因此該算法總的空間復(fù)雜度為O(n)。
例如:
A:Tom個(gè)頭高嗎?
B:Tom以前是籃球隊(duì)的!
步驟1經(jīng)過(guò)命題充實(shí)后,生成模糊概念圖為:
u:[人:Tom|1]→(PART)→[個(gè)頭|1]→(ATTR)→[高|0].
v:[以前|1]←(TIME)←[籃球隊(duì)|1]←[CONS]←[人:Tom|1].
步驟2w=u?v。
w:[以前|1]←(TIME)←[籃球隊(duì)|1]←[CONS]←[人:Tom|1]→(PART)→[個(gè)頭|1]→(ATTR)→[高|0].
步驟3w中概念節(jié)點(diǎn)只有[籃球隊(duì)]在認(rèn)知語(yǔ)境知識(shí)庫(kù)中的“籃球隊(duì)”主題詞的概念圖集合Q中概念圖 q匹配成功,則 Cu0?ρ=temp1×temp2=0.9×1=0.9,q的概念圖如下:
[籃球隊(duì)|1]←[CONS]←[隊(duì)員|1]—(PART)→
[身高|1]→(ATTR)→[高|0.9].
步驟4w和q匹配后,輸出Cu0為[高|0.9],再用Cu0替換u中對(duì)應(yīng)概念節(jié)點(diǎn),最后得出u的概念圖為:
u:[人:Tom|1]→(PART)→[個(gè)頭|1]→(ATTR)→[高|0.9].
從u中得出,對(duì)話者B的意思為:Tom個(gè)頭高的可能為0.9。
本文主要研究針對(duì)特定對(duì)話模式的話語(yǔ)自動(dòng)關(guān)聯(lián)推理,推導(dǎo)出對(duì)話者B話語(yǔ)的深層含義,即對(duì)A的正面回答。本文實(shí)驗(yàn)中,在Intel Core i5計(jì)算機(jī)Windows 7環(huán)境下用Java語(yǔ)言設(shè)計(jì)了RIAFM程序,并從QQ聊天軟件中收集到的10 372對(duì)聊天記錄中人工篩選出172對(duì)符合該特定模式的對(duì)話記錄進(jìn)行了實(shí)驗(yàn)分析。
首先,實(shí)驗(yàn)選取172對(duì)該特定模式的對(duì)話記錄進(jìn)行測(cè)試,部分原始數(shù)據(jù)對(duì)話記錄測(cè)試結(jié)果見(jiàn)表1。
Table 1 Experimental results of partial raw data表1 部分原始數(shù)據(jù)實(shí)驗(yàn)結(jié)果
表1中,人工標(biāo)注結(jié)果一欄為測(cè)試實(shí)驗(yàn)結(jié)果的準(zhǔn)確性而人工表示的正確結(jié)果,實(shí)驗(yàn)結(jié)果一欄表示RIAFM算法運(yùn)行的結(jié)果。實(shí)驗(yàn)中,當(dāng)人工標(biāo)注的模糊度為+1而實(shí)驗(yàn)結(jié)果標(biāo)注的模糊度為正數(shù)時(shí),或人工標(biāo)注的模糊度為-1而實(shí)驗(yàn)結(jié)果標(biāo)注的模糊度為負(fù)數(shù)時(shí),實(shí)驗(yàn)結(jié)果正確;當(dāng)人工標(biāo)注的模糊度為+1而實(shí)驗(yàn)結(jié)果標(biāo)注的模糊度為負(fù)數(shù)時(shí),或人工標(biāo)注的模糊度為-1而實(shí)驗(yàn)結(jié)果標(biāo)注的模糊度為正數(shù)時(shí),實(shí)驗(yàn)結(jié)果錯(cuò)誤??倢?duì)話數(shù)S=172對(duì);正確的對(duì)話數(shù)T=134對(duì);錯(cuò)誤的對(duì)話數(shù)F=9對(duì);未識(shí)別對(duì)話數(shù)U=29對(duì),則準(zhǔn)確率、錯(cuò)誤率和未識(shí)別率如下:
實(shí)驗(yàn)中前50條的運(yùn)行結(jié)果如圖2所示。
Fig.2 Partial experimental results and error values圖2 部分實(shí)驗(yàn)結(jié)果及其誤差值
通過(guò)實(shí)驗(yàn)分析,本系統(tǒng)對(duì)對(duì)話者B的話語(yǔ)文本較長(zhǎng)或B與A的話語(yǔ)關(guān)聯(lián)性不大的文本的匹配成功率不高。究其原因:其一是本文算法中話語(yǔ)模糊概念圖和認(rèn)知語(yǔ)境知識(shí)庫(kù)中模糊概念圖匹配規(guī)則過(guò)于嚴(yán)格,降低了匹配成功率;其二是認(rèn)知語(yǔ)境庫(kù)中相關(guān)知識(shí)不全面,需進(jìn)一步建設(shè)認(rèn)知語(yǔ)境知識(shí)庫(kù)。
算法的可靠性可通過(guò)標(biāo)準(zhǔn)誤差計(jì)算,在實(shí)驗(yàn)中,匹配成功的對(duì)話總數(shù)目為n,人工標(biāo)注結(jié)果的模糊度為a,實(shí)驗(yàn)結(jié)果的模糊度為b,則標(biāo)準(zhǔn)誤差σ為:
在本實(shí)驗(yàn)中,除去匹配不成功的31對(duì)對(duì)話,對(duì)129對(duì)實(shí)驗(yàn)結(jié)果正確的對(duì)話和12對(duì)實(shí)驗(yàn)結(jié)果錯(cuò)誤的對(duì)話進(jìn)行計(jì)算,標(biāo)準(zhǔn)誤差為0.298。
搜集新浪微博關(guān)于某公司的6 000多條評(píng)論,其中“手機(jī)”主題1 683條、“贈(zèng)品”主題1 257條、“物流”主題1 039條、“客服”主題953條和“假貨”主題1 117條。先用SBV極性傳遞算法對(duì)該素材進(jìn)行計(jì)算,計(jì)算出未經(jīng)RIAFM預(yù)處理的SBV算法準(zhǔn)確率。然后使用RIAFM計(jì)算出句子深層含義并替代原文本,再使用SBV極性傳遞算法計(jì)算句子傾向性,得出經(jīng)過(guò)RIAFM預(yù)處理的SBV算法準(zhǔn)確率。兩個(gè)準(zhǔn)確率對(duì)比如圖3所示。
Fig.3 Accuracy comparison圖3 準(zhǔn)確率對(duì)比圖
從圖3中可以看出,經(jīng)過(guò)RIAFM對(duì)評(píng)論文本預(yù)處理后的SBV算法的準(zhǔn)確率高于未經(jīng)過(guò)RIAFM對(duì)評(píng)論文本預(yù)處理的SBV算法的準(zhǔn)確率。經(jīng)過(guò)RIAFM預(yù)處理后的SBV算法的平均準(zhǔn)確率為85.3%,未經(jīng)RIAFM預(yù)處理后的SBV算法的平均準(zhǔn)確率為74.5%,經(jīng)過(guò)RIAFM預(yù)處理后的SBV算法的平均準(zhǔn)確率高出未經(jīng)RIAFM預(yù)處理后的SBV算法11個(gè)百分點(diǎn),說(shuō)明經(jīng)過(guò)RIAFM對(duì)文本預(yù)處理后能有效提高SBV極性傳遞算法的準(zhǔn)確率。
在IRC聊天室的社會(huì)網(wǎng)絡(luò)挖掘中,使用RIAFM進(jìn)行文本預(yù)處理,明確對(duì)話者B的話語(yǔ)隱含義,用基于多特征融合的Mutton方法和AdaBoost方法挖掘社會(huì)網(wǎng)絡(luò)[22]。在該程序中,寂靜時(shí)間閾值ST=120 s,響應(yīng)時(shí)間閾值RT=20 s,時(shí)間跨度閾值SPT=180 s,序列長(zhǎng)度閾值SN=5,相似度閾值SimT=0.2,時(shí)間片閾值TS=17 min。為了進(jìn)行量化分析,經(jīng)過(guò)人工分析得出社會(huì)網(wǎng)絡(luò)的數(shù)目為N,程序推斷出社會(huì)網(wǎng)絡(luò)的數(shù)目為M,程序挖掘出正確的社會(huì)網(wǎng)絡(luò)數(shù)目為TM,則漏報(bào)率和誤報(bào)率表示如下:
在IRC聊天室中,將每50 000條聊天記錄作為一篇文檔,收集了2 000篇文檔,將多特征融合的Mutton方法和AdaBoost方法,同使用RIAFM算法進(jìn)行文本預(yù)處理后得出隱含義,并用隱含義替代原聊天記錄后再用基于多特征融合的Mutton方法和AdaBoost方法進(jìn)行比較,其漏報(bào)率和誤報(bào)率如圖4和圖5所示。
Fig.4 Missed alarm rate圖4 漏報(bào)率
Fig.5 False alarm rate圖5 誤報(bào)率
從圖4中可以看出,經(jīng)過(guò)RIAFM預(yù)處理過(guò)的Mutton方法漏報(bào)率下降了16.1%,經(jīng)過(guò)RIAFM預(yù)處理過(guò)的AdaBoost方法漏報(bào)率下降了10.2%。從圖5中可以看出,經(jīng)過(guò)RIAFM預(yù)處理過(guò)的Mutton方法的誤報(bào)率下降了7.4%,經(jīng)過(guò)RIAFM預(yù)處理過(guò)的Ada-Boost方法的誤報(bào)率下降了3.8%。實(shí)驗(yàn)結(jié)果表明,經(jīng)過(guò)RIAFM預(yù)處理過(guò)的基于多特征融合的Mutton方法的漏報(bào)率和誤報(bào)率都有明顯的下降。
本文從自然語(yǔ)言理解語(yǔ)用分析的角度,利用計(jì)算機(jī)對(duì)特定對(duì)話模式自動(dòng)進(jìn)行語(yǔ)用分析,并設(shè)計(jì)了基于模糊概念圖匹配的關(guān)聯(lián)推理算法RIAFM,解決了用計(jì)算機(jī)自動(dòng)推導(dǎo)出整個(gè)話語(yǔ)深層含義的問(wèn)題。經(jīng)過(guò)試驗(yàn)分析,準(zhǔn)確率達(dá)78%,標(biāo)準(zhǔn)誤差為0.298,具有較好的可靠性。RIAFM在SBV極性傳遞算法的傾向性文本計(jì)算中,有效地提高了文本傾向性計(jì)算的準(zhǔn)確率。最后,將RIAFM應(yīng)用于基于多特征融合的Mutton方法和AdaBoost方法的聊天室社會(huì)網(wǎng)絡(luò)分析中,有效降低了漏報(bào)率和誤報(bào)率。本文首次將計(jì)算語(yǔ)用學(xué)和模糊概念圖的知識(shí)應(yīng)用到網(wǎng)絡(luò)聊天軟件的對(duì)話分析、微博評(píng)論文本的傾向性分析和聊天室的社會(huì)網(wǎng)絡(luò)挖掘中,對(duì)其他領(lǐng)域的話語(yǔ)深層次理解也有一定的參考價(jià)值。
[1]Leech G.N.Principles of pragmatics[J].Journal of Linguistics,1983,21(2):459-470.
[2]Xiong Xueliang.Inferences in language use[M].Shanghai:Shanghai Foreign Language Education Press,2007:51-60.
[3]Qin Shanshan.The study of the pragmatic reasoning of Grice's theory of conversational implicature[D].Chongqing:Southwest University,2014.
[4]Jiang Wangqi.My view on pragmatic inference[J].Modern Foreign Languages,2014,37(3):293-302.
[5]Pluss B.Towards a computational pragmatics for non-cooperative dialogue[D].Milton Keynes,UK:The Open University,2009.
[6]Franke M.Semantic meaning and pragmatic inference in non-cooperative conversation[C]//LNCS 6211:Proceedings of the 2008 International Conference on Interfaces:Explorations in Logic,Language and Computation,Hamburg,Germany,Aug 11-15,2008.Berlin,Heidelberg:Springer,2008:13-24.
[7]Yao Jigang,Wang Zhe.Mr.Shen Jiaxuan's academic studies for thirty years[J].Journal of Foreign Languages,2015(1):97-106.
[8]Zhao Yanchun.Relevance theory and the nature of Translation:a relevance theoretic interpretation of translation default[J].Journal of Sichuan International Studies University,2003,19(3):117-121.
[9]Liu Genhui.A study on computational pragmatics:theories and application[D].Wuhan:Huazhong University of Science and Technology,2005.
[10]Wu Liping.The Chinese patient retrieval system based on pragmatic information[D].Beijing:Beijing University of Posts and Telecommunications,2011.
[11]Sun Yueping.Comprehensive information based community question answering system[D].Beijing:Beijing University of Posts and Telecommunications,2014.
[12]Sowa J F.Conceptual structures:information processing in mind and machine[M].Addison-Wesley Publishing Company,1984.
[13]Sowa J F.Conceptual graphs for database interface[J].IBM Journal of Research&Development,1976,20(4):336-357.
[14]Liu Peiqi,Fan Xing,Duan Zhongxing.The research of conceptual graphs filtering technology for tendency text[J].Journal of Microelectronics and Computer,2012,29(12):84-87.
[15]Morton S.Conceptual graphs and fuzziness in artificial intelligence[D].Bristol:University of Bristol,1987.
[16]Wuwongse V,Manzano M.Fuzzy conceptual graph[C]//LNCS 699:Proceedings of the Conceptual Graphs for Knowledge Representation,Quebec City,Canada,Aug 4-7,1993.Berlin,Heidelberg:Springer,1993:430-449.
[17]Liu Peiqi,Zhang Linye.Study and implement of the knowledge representation of fuzzy conceptual graph[J].Journal of Microelectronics and Computer,2010,27(11):25-29.
[18]Liu Peiqi,Li Zengzhi,Zhao Yinliang.Knowledge representation of extended production rule[J].Journal of Xi’an Jiaotong University,2004,38(6):587-590.
[19]Liu Peiqi,Li Zengzhi.Research on knowledge representation and inference mechanisms about fuzzy conceptual graphs[J].Journal of Application Research of Computers,2010,27(6):2119-2122.
[20]Xiong Xueliang.Concise pragmatics tutorial[M].Shanghai:Fudan University Press,2008:76-95.
[21]Huang Huaxin,Hu Xia.Construction of cognitive context to explore[J].Journal of Modern Foreign Languages,2004,27(3):249-254.
[22]Zhang Wei,Cao Xianbin,Yin Hongzhang.Chat room socialnetwork mining based on multi-features fusion[J].Journal of University of Science and Technology of China,2009,39(5):540-546.
附中文參考文獻(xiàn):
[2]熊學(xué)亮.語(yǔ)言使用中的推理[M].上海:上海外語(yǔ)教育出版社,2007:51-60.
[3]秦姍姍.格萊斯會(huì)話含義理論的語(yǔ)用推理研究[D].重慶:西南大學(xué),2014.
[4]姜望琪.語(yǔ)用推理之我見(jiàn)[J].現(xiàn)代外語(yǔ),2014,37(3):293-302.
[7]姚吉?jiǎng)?王喆.沈家煊先生學(xué)術(shù)研究三十年[J].外國(guó)語(yǔ):上海外國(guó)語(yǔ)大學(xué)學(xué)報(bào),2015(1):97-106.
[8]趙彥春.關(guān)聯(lián)理論與翻譯的本質(zhì)-對(duì)翻譯缺省問(wèn)題的關(guān)聯(lián)論解釋[J].四川外語(yǔ)學(xué)院學(xué)報(bào),2003,19(3):117-121.
[9]劉根輝.計(jì)算機(jī)語(yǔ)用學(xué)基礎(chǔ)理論及其應(yīng)用研究[D].武漢:華中科技大學(xué),2005.
[10]武麗平.基于語(yǔ)用信息的中文專利檢索系統(tǒng)[D].北京:北京郵電大學(xué),2011.
[11]孫月憑.基于全信息的社區(qū)問(wèn)答系統(tǒng)研究[D].北京:北京郵電大學(xué),2014.
[14]劉培奇,凡星,段中興.傾向性文本的概念圖過(guò)濾技術(shù)的研究[J].微電子學(xué)與計(jì)算機(jī),2012,29(12):84-87.
[17]劉培奇,張林葉.模糊概念圖知識(shí)表示方法的研究與實(shí)現(xiàn)[J].微電子學(xué)與計(jì)算機(jī),2010,27(11):25-29.
[18]劉培奇,李增智,趙銀亮.擴(kuò)展產(chǎn)生式規(guī)則知識(shí)表示方法[J].西安交通大學(xué)學(xué)報(bào),2004,38(6):587-590.
[19]劉培奇,李增智.模糊概念圖知識(shí)表示及其推理機(jī)制研究[J].計(jì)算機(jī)應(yīng)用研究,2010,27(6):2119-2122.
[20]熊學(xué)亮.簡(jiǎn)明語(yǔ)用學(xué)教程[M].上海:復(fù)旦大學(xué)出版社,2008:76-95.
[21]黃華新,胡霞.認(rèn)知語(yǔ)境的建構(gòu)性探討[J].現(xiàn)代外語(yǔ),2004,27(3):249-254.
[22]張衛(wèi),曹先彬,尹紅章.基于多特征融合的聊天室社會(huì)網(wǎng)絡(luò)挖掘方法[J].中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào),2009,39(5):540-546.
劉培奇(1959—),男,陜西西安人,博士,西安建筑科技大學(xué)教授,主要研究領(lǐng)域?yàn)槿斯ぶ悄埽瑪?shù)據(jù)挖掘,模式識(shí)別,計(jì)算機(jī)網(wǎng)絡(luò)。發(fā)表學(xué)術(shù)論文50余篇,其中EI檢索16篇。
HUANG Miao was born in 1989.She is an M.S.candidate at Xi'an University of Architecture and Technology.Her research interests include machine learning and data mining.
黃苗(1989—),女,河南嵩縣人,西安建筑科技大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)槿斯ぶ悄?,?shù)據(jù)挖掘。
FENG Hao was born in 1994.He is an M.S.candidate at Xi'an University of Architecture and Technology.His research interests include machine learning and data mining.
封昊(1994—),男,陜西榆林人,西安建筑科技大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)槿斯ぶ悄埽瑪?shù)據(jù)挖掘。
ZHOU Wei was born in 1980.His research interests include industrial automation and process control.周偉(1980—),男,甘肅景泰人,電氣工程師,主要研究領(lǐng)域?yàn)楣I(yè)自動(dòng)化,過(guò)程控制。
Research on Pragmatic Inference of Fuzzy Conceptual Graph Matching*
LIU Peiqi1,HUANG Miao1+,FENG Hao1,ZHOU Wei2
1.School of Information and Control Engineering,Xi'an University of Architecture and Technology,Xi'an 710055,China 2.Shaanxi Caihong Electronic Glass Co.,Ltd.,Xianyang,Shaanxi 712000,China
Focused on the issue that computer cannot automatically carry out a pragmatic analysis of the deep meaning of whole discourse at present,this paper designs the relevance inference algorithm based on fuzzy conceptual graph.In the algorithm,aiming at the specific dialog mode of Chinese pragmatic analysis,the discourses of speakers and the knowledge of cognitive context are expressed in fuzzy conceptual graph,and the relevance inference is conducted from computer science.The problem that computer automatically deduces the deep meaning of whole discourse is resolved.Through the experimental analysis,accuracy can reach 78%.In addition,the algorithm has been applied in analyzing public opinion and mining social network.After the preprocessed discourses of speaker by this relevance inference algorithm based on fuzzy conceptual graph,this algorithm can reduce the missed alarm rate and false alarm rate of Mutton and AdaBoost methods based on multi-features fusion and increase the accuracy of SBV polar transfer algorithm.The algorithm can deduce the deeper meaning of answerer's discourse at specific dialog mode.
the Ph.D.degree from Xi'an Jiaotong University.New he is a professor at Xi'an University of Architecture and Technology.His research interests include artificial intelligence,data mining,pattern recognition and computer network.He has published more than 50 papers,including 16 papers indexed by EI.
2016-06, Accepted 2016-10.
A
TP181
+Corresponding author:E-mail:690765865@qq.com
LIU Peiqi,HUANG Miao,FENG Hao,et al.Research on pragmatic inference of fuzzy conceptual graph matching.Journal of Frontiers of Computer Science and Technology,2017,11(9):1513-1522.
10.3778/j.issn.1673-9418.1606027
*The National Natural Science Foundation of China under Grant No.51178373(國(guó)家自然科學(xué)基金);the Natural Science Foundation of Shaanxi Province under Grant No.2014JM2-6114(陜西省自然科學(xué)基金).
CNKI網(wǎng)絡(luò)優(yōu)先出版: 2016-10-31, http://www.cnki.net/kcms/detail/11.5602.TP.20161031.1650.002.html
Key words:pragmatic analysis;relevance inference;fuzzy conceptual graph;cognitive context