王思博,王裴巖,張桂平
(沈陽(yáng)航空航天大學(xué) 人機(jī)智能研究中心,遼寧 沈陽(yáng) 110136)
語(yǔ)義知識(shí)庫(kù)是一種重要的基礎(chǔ)性語(yǔ)言資源,可以為自然語(yǔ)言處理任務(wù)提供豐富的語(yǔ)義知識(shí),常被廣泛應(yīng)用于詞義消歧、機(jī)器翻譯、信息檢索以及自動(dòng)問(wèn)答等任務(wù)。目前,國(guó)內(nèi)外研究者已經(jīng)構(gòu)建了許多大規(guī)模語(yǔ)義知識(shí)庫(kù)。其中,國(guó)外被廣泛應(yīng)用的語(yǔ)義知識(shí)庫(kù)主要有WordNet、FrameNet、MindNet、OpenCYC等。國(guó)內(nèi)較為成熟的語(yǔ)義知識(shí)庫(kù)有HowNet (知網(wǎng))[1]、CCD(the Chinese Concept Dictionary,中文概念辭書(shū))[2]、CFN(Chinese FrameNet)[3]、《現(xiàn)代漢語(yǔ)述語(yǔ)動(dòng)詞機(jī)器詞典》[4]等。這些語(yǔ)義知識(shí)庫(kù)大多都面向通用領(lǐng)域,但在特定領(lǐng)域下則無(wú)法滿(mǎn)足自然語(yǔ)言處理任務(wù)對(duì)語(yǔ)義知識(shí)的需求。而垂直領(lǐng)域下的語(yǔ)義知識(shí)庫(kù)可以填補(bǔ)通用型知識(shí)庫(kù)的不足。
本文以HowNet為基礎(chǔ),按照HowNet的KDML語(yǔ)法體系、義原體系與動(dòng)態(tài)角色/特征體系構(gòu)建航空術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)。因此,該語(yǔ)義知識(shí)庫(kù)繼承了HowNet全部特點(diǎn)與優(yōu)勢(shì),便于計(jì)算機(jī)使用[5],能夠作為語(yǔ)義信息加入系統(tǒng)中,支撐面向航空領(lǐng)域文本理解任務(wù)的相似度計(jì)算、相關(guān)度計(jì)算等語(yǔ)義分析。
HowNet是一個(gè)以漢語(yǔ)和英語(yǔ)詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)[1],是公認(rèn)的規(guī)模最大、收錄詞語(yǔ)最多、提供信息最多的語(yǔ)義詞典。KDML(knowledge database mark-up language,知識(shí)系統(tǒng)描述語(yǔ)言)[6]是HowNet所使用的一種知識(shí)描述語(yǔ)言,具有明確的語(yǔ)言語(yǔ)法規(guī)則,規(guī)范了概念描述方式。最關(guān)鍵的一點(diǎn)是KDML是面向計(jì)算機(jī)的形式化描述方法,便于進(jìn)行相似度、相關(guān)度和情感傾向性計(jì)算等。正如文獻(xiàn)[7]所指出的:“知網(wǎng)的知識(shí)表達(dá)模式是針對(duì)計(jì)算機(jī)的信息處理特點(diǎn)而制定的?!贝送猓琀owNet秉承還原論思想,認(rèn)為詞語(yǔ)可以用更小的語(yǔ)義單元來(lái)描述。這種語(yǔ)義單元被稱(chēng)為義原(Sememe),即最基本、不宜再分割的最小語(yǔ)義單元,并構(gòu)成了一套義原體系。
文獻(xiàn)[8]和文獻(xiàn)[9]先后進(jìn)行了面向航空領(lǐng)域的術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)構(gòu)建的相關(guān)研究。它們都基于HowNet的義原體系、動(dòng)態(tài)角色/特征體系以及KDML語(yǔ)法理論,一定程度上了擴(kuò)大了HowNet的覆蓋范圍。文獻(xiàn)[8]根據(jù)HowNet的7條總規(guī)定延伸出針對(duì)航空術(shù)語(yǔ)知識(shí)庫(kù)構(gòu)建的5條基礎(chǔ)規(guī)則,主要包括義原和動(dòng)態(tài)角色/特征的使用規(guī)則與規(guī)范,對(duì)接下來(lái)的研究起到一定的指導(dǎo)作用。然而,根據(jù)文獻(xiàn)[7]所提出的知識(shí)庫(kù)構(gòu)建規(guī)則,若僅憑手工構(gòu)建,則需要巨大的時(shí)間和人力成本。為了提高構(gòu)建效率,文獻(xiàn)[9]在文獻(xiàn)[8]的基礎(chǔ)上提出了一種基于核心詞框架的知識(shí)庫(kù)構(gòu)建方法,即利用統(tǒng)計(jì)與規(guī)則相結(jié)合的方法對(duì)核心詞框架進(jìn)行獲取與補(bǔ)充,相比于手工構(gòu)建大幅提高了構(gòu)建效率,一定程度上實(shí)現(xiàn)了半自動(dòng)化構(gòu)建。但這種基于核心詞框架的構(gòu)建方法固定了術(shù)語(yǔ)核心詞與術(shù)語(yǔ)內(nèi)部其它詞語(yǔ)之間的語(yǔ)義關(guān)系,忽略了術(shù)語(yǔ)非核心詞語(yǔ)之間的語(yǔ)義關(guān)系。
本文考慮到術(shù)語(yǔ)內(nèi)部詞語(yǔ)之間具有一定的依存結(jié)構(gòu),并利用這種依存結(jié)構(gòu)信息進(jìn)行詞義消歧和術(shù)語(yǔ)DEF的生成。同時(shí),本文也提出了一種術(shù)語(yǔ)內(nèi)部動(dòng)態(tài)角色關(guān)系輔助判斷方法,明確了術(shù)語(yǔ)內(nèi)部核心詞與非核心詞之間以及非核心詞語(yǔ)之間的語(yǔ)義關(guān)系。這使得術(shù)語(yǔ)DEF能夠更充分地表示術(shù)語(yǔ)內(nèi)部詞語(yǔ)之間的語(yǔ)義關(guān)系,進(jìn)一步提高航空術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)構(gòu)建的自動(dòng)化程度。
針對(duì)術(shù)語(yǔ)DEF構(gòu)建任務(wù)的特點(diǎn),本文將整個(gè)構(gòu)建任務(wù)分成四個(gè)關(guān)鍵過(guò)程,分別為術(shù)語(yǔ)內(nèi)部依存結(jié)構(gòu)分析、術(shù)語(yǔ)內(nèi)部詞語(yǔ)義項(xiàng)輔助選擇、術(shù)語(yǔ)內(nèi)部動(dòng)態(tài)角色關(guān)系輔助判斷以及術(shù)語(yǔ)DEF生成。其整體框架如圖1所示。
圖1 航空術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)構(gòu)建框架圖
(1) 術(shù)語(yǔ)內(nèi)部依存結(jié)構(gòu)分析
本文對(duì)術(shù)語(yǔ)內(nèi)部的依存結(jié)構(gòu)分析,考慮更多的是術(shù)語(yǔ)內(nèi)部概念間語(yǔ)義層面上的依存關(guān)系。因此,可以通過(guò)術(shù)語(yǔ)內(nèi)部依存結(jié)構(gòu)分析,確定術(shù)語(yǔ)內(nèi)部詞語(yǔ)間的依存結(jié)構(gòu),從而得到具有語(yǔ)義依存關(guān)系的關(guān)聯(lián)詞對(duì)。本文將此依存關(guān)系表示為三元組,其中包括關(guān)聯(lián)單位、關(guān)系方向以及關(guān)聯(lián)類(lèi)型(關(guān)聯(lián)單位是具有依存關(guān)系的詞對(duì);關(guān)系方向是依存與被依存的方向;關(guān)系類(lèi)型被表示為HowNet的動(dòng)態(tài)角色/特征)。
(2) 術(shù)語(yǔ)內(nèi)部詞語(yǔ)義項(xiàng)輔助選擇
由于多義詞所處的上下文一定程度上決定著該詞語(yǔ)義項(xiàng)的選擇。因此,本文提出了一種基于依存結(jié)構(gòu)的詞義消歧方法,它將術(shù)語(yǔ)內(nèi)部的關(guān)聯(lián)單位視為詞語(yǔ)組合上具有相互搭配關(guān)系的詞對(duì),并根據(jù)這種詞語(yǔ)間搭配的同現(xiàn)關(guān)系進(jìn)行詞義消歧。
例如,航空術(shù)語(yǔ)“空氣循環(huán)冷卻系統(tǒng)”中的“空氣”一詞,在HowNet中對(duì)應(yīng)如下兩個(gè)義項(xiàng):
① DEF={gas|氣: {contain|含: OfPart={~}}, {inhale|吸入: agent={AnimalHuman|動(dòng)物}, patient={~}}}
② DEF={Occasion|場(chǎng)面: host={group|群體}{place|地方}}
第一個(gè)義項(xiàng)的第一義原是“gas|氣”,它所描述的“空氣”是一種物質(zhì),即氣;第二個(gè)義項(xiàng)的第一義原是“Occasion|場(chǎng)面”,所要描述的是一種場(chǎng)面。因?yàn)楫?dāng)前術(shù)語(yǔ)中的“空氣”是“循環(huán)”的對(duì)象,表示“氣”的“空氣”與“循環(huán)”的同現(xiàn)更易存在,所以選擇“空氣”的第一個(gè)義項(xiàng)更符合當(dāng)前術(shù)語(yǔ)內(nèi)部的語(yǔ)義環(huán)境,以使這里的“空氣”語(yǔ)義表示得更準(zhǔn)確,進(jìn)而將“gas|氣”作為“空氣”的DEF。
(3) 術(shù)語(yǔ)內(nèi)部動(dòng)態(tài)角色關(guān)系輔助判斷
針對(duì)術(shù)語(yǔ)內(nèi)部關(guān)系類(lèi)型的表示問(wèn)題,本文提出一種術(shù)語(yǔ)內(nèi)部動(dòng)態(tài)角色關(guān)系輔助判斷方法。HowNet應(yīng)用動(dòng)態(tài)角色/特征來(lái)標(biāo)注概念間的語(yǔ)義關(guān)系,每種動(dòng)態(tài)角色/特征關(guān)聯(lián)著無(wú)計(jì)其數(shù)個(gè)具有語(yǔ)義關(guān)系的關(guān)聯(lián)詞對(duì),其中HowNet包含100種不同的動(dòng)態(tài)角色/特征,面向通用領(lǐng)域涵蓋了較為全面的語(yǔ)義關(guān)系類(lèi)型,反映了豐富的語(yǔ)言現(xiàn)象。在航空術(shù)語(yǔ)中常用到的動(dòng)態(tài)角色/特征大約有20幾種,這些動(dòng)態(tài)角色/特征表示了航空領(lǐng)域語(yǔ)義空間所出現(xiàn)的各種語(yǔ)義關(guān)系。
通過(guò)(1)(2)兩步以及本過(guò)程(3),可以完成術(shù)語(yǔ)“空氣循環(huán)冷卻系統(tǒng)”DEF的結(jié)構(gòu)分析(如圖2所示),得到如下3個(gè)三元組,(空氣,patient,循環(huán))、(循環(huán),means,冷卻)、(冷卻,instrument,系統(tǒng)),以及術(shù)語(yǔ)內(nèi)部詞語(yǔ)DEF。對(duì)于三元組“(空氣,patient,循環(huán))”可做如下解釋?zhuān)喝M的關(guān)聯(lián)單位是“空氣”和“循環(huán)”,它們的關(guān)系方向是“空氣”依存于“循環(huán)”,其中的關(guān)系類(lèi)型是“patient”。
圖2 術(shù)語(yǔ)“空氣循環(huán)冷卻系統(tǒng)”DEF結(jié)構(gòu)分析
(4) 術(shù)語(yǔ)DEF生成
本文基于術(shù)語(yǔ)內(nèi)部依存結(jié)構(gòu)提出一種術(shù)語(yǔ)DEF生成算法,基于術(shù)語(yǔ)內(nèi)部依存結(jié)構(gòu),將術(shù)語(yǔ)內(nèi)部所有關(guān)系三元組映射成術(shù)語(yǔ)DEF,提高了航空術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)的構(gòu)建效率。
本節(jié)將詳細(xì)闡述術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)的構(gòu)建方法。
對(duì)術(shù)語(yǔ)內(nèi)部依存結(jié)構(gòu)的分析是本文構(gòu)建方法的基礎(chǔ),下文將進(jìn)一步介紹本文所指的術(shù)語(yǔ)內(nèi)部依存結(jié)構(gòu)以及本文所采用的術(shù)語(yǔ)內(nèi)部依存結(jié)構(gòu)分析方法。
3.1.1 術(shù)語(yǔ)內(nèi)部依存結(jié)構(gòu)
一般認(rèn)為,依存語(yǔ)法的理論研究始于法國(guó)語(yǔ)言學(xué)家特思尼耶爾(Lucien Tesnière)。他提出了依存語(yǔ)法的基本論點(diǎn)[10],即利用詞語(yǔ)之間的依存關(guān)系刻畫(huà)文本的語(yǔ)法結(jié)構(gòu)。依存語(yǔ)法提出至今,一直深遠(yuǎn)地影響著語(yǔ)言學(xué)的發(fā)展。本文的研究對(duì)象是術(shù)語(yǔ),術(shù)語(yǔ)內(nèi)部依存結(jié)構(gòu)是描述術(shù)語(yǔ)內(nèi)部詞法結(jié)構(gòu)的,也就是通過(guò)詞語(yǔ)間的“依存”使得術(shù)語(yǔ)內(nèi)部的詞語(yǔ)關(guān)聯(lián)起來(lái)。
3.1.2 術(shù)語(yǔ)內(nèi)部依存結(jié)構(gòu)分析方法
本文術(shù)語(yǔ)內(nèi)部依存結(jié)構(gòu)分析借鑒了文獻(xiàn)[11]對(duì)術(shù)語(yǔ)的依存分析模型。它利用了模型選擇策略為結(jié)構(gòu)化風(fēng)險(xiǎn)最小的SVM,在訓(xùn)練語(yǔ)料不十分充分的情況下模型依然能夠取得不錯(cuò)的效果。
在特征選擇上,選取了術(shù)語(yǔ)基本特征、術(shù)語(yǔ)內(nèi)部任一詞對(duì)之間的點(diǎn)互信息以及術(shù)語(yǔ)內(nèi)部詞語(yǔ)的HowNet義項(xiàng)的第一義原。模型根據(jù)詞對(duì)的依存強(qiáng)度輸出依存強(qiáng)度值,若為正值說(shuō)明預(yù)判斷的詞對(duì)存在依存關(guān)系,當(dāng)輸出值越大則說(shuō)明詞對(duì)的依存強(qiáng)度越大;若輸出值為負(fù)值說(shuō)明詞對(duì)不能構(gòu)成依存關(guān)系,當(dāng)值越小則說(shuō)明詞對(duì)越不可能存在依存關(guān)系。其中術(shù)語(yǔ)基本特征包括術(shù)語(yǔ)內(nèi)部詞、詞性、詞對(duì)之間的距離以及術(shù)語(yǔ)內(nèi)部上下文窗口為1的詞。點(diǎn)互信息度量的是變量間相互依賴(lài)的程度,在該模型中度量了術(shù)語(yǔ)內(nèi)部詞間的依賴(lài)度。術(shù)語(yǔ)內(nèi)部詞在HowNet中的第一義原作為特征的加入,有效減緩了數(shù)據(jù)稀疏的問(wèn)題。由于一條術(shù)語(yǔ)不僅是一個(gè)由詞語(yǔ)組成的序列,更是一個(gè)由語(yǔ)義依存關(guān)系連接而成的樹(shù)。因此對(duì)術(shù)語(yǔ)進(jìn)行依存結(jié)構(gòu)分析可得到術(shù)語(yǔ)內(nèi)部所有的關(guān)聯(lián)單位。
術(shù)語(yǔ)內(nèi)部詞語(yǔ)義項(xiàng)選擇是為術(shù)語(yǔ)內(nèi)部詞語(yǔ)選擇合適的概念描述(DEF),即采用HowNet的最小語(yǔ)義單元(義原)來(lái)表示。此輔助選擇過(guò)程將本文所提出的基于搭配詞的詞義消歧方法融入到詞義選擇的任務(wù)中來(lái)。以下兩小節(jié)將詳細(xì)介紹本文所指的搭配詞、搭配詞集、搭配詞典的相關(guān)概念,以及本文所提出的詞義消歧方法。
3.2.1 搭配詞、搭配詞集以及搭配詞典
(1) 搭配詞
所謂搭配詞,是指與多義詞同在一個(gè)關(guān)聯(lián)單位的詞語(yǔ),這些詞語(yǔ)與多義詞在語(yǔ)義層面上具有依存關(guān)系。在領(lǐng)域語(yǔ)義空間中多義詞與其搭配詞共現(xiàn),對(duì)應(yīng)多義詞確定的某一義項(xiàng)。
(2) 搭配詞集
顧名思義,搭配詞集是由多義詞的搭配詞構(gòu)成的集合。多義詞在領(lǐng)域語(yǔ)義空間中所出現(xiàn)的每個(gè)義項(xiàng)對(duì)應(yīng)一個(gè)詞語(yǔ)集合,即該多義詞的搭配子集,也意味著當(dāng)前多義詞的搭配子集對(duì)應(yīng)多義詞的某一義項(xiàng),多義詞的搭配子集構(gòu)成了搭配詞集。
(3) 搭配詞典
搭配詞典是由語(yǔ)料庫(kù)中所有多義詞、搭配詞集以及多義詞各個(gè)義項(xiàng)構(gòu)成的集合。
3.2.2 基于搭配詞的詞義消歧
基于搭配詞的詞義消歧是根據(jù)多義詞的搭配詞所屬搭配子集選取該多義詞的義項(xiàng)。術(shù)語(yǔ)內(nèi)部的多義詞在特定的語(yǔ)義約束下其表示的語(yǔ)義相對(duì)穩(wěn)定,符合術(shù)語(yǔ)單義性[12]的特點(diǎn)。本文從已有的航空術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)中分析并抽取出航空術(shù)語(yǔ)內(nèi)部詞語(yǔ)的搭配詞典。由于搭配詞與多義詞的共現(xiàn)對(duì)應(yīng)多義詞確定的某一義項(xiàng),只需判斷在搭配詞典中多義詞的搭配詞收錄于哪個(gè)搭配子集,搭配子集所對(duì)應(yīng)的義項(xiàng)即為該多義詞在當(dāng)前術(shù)語(yǔ)中表示的義項(xiàng)。若當(dāng)前搭配詞不在當(dāng)前多義詞的搭配詞集里,則將搭配詞與多義詞的搭配詞集的每個(gè)詞語(yǔ)進(jìn)行相似度計(jì)算,取與搭配詞最相似的詞語(yǔ)所屬搭配子集的對(duì)應(yīng)義項(xiàng)作為該多義詞義項(xiàng)。
綜上所述,本文將基于搭配詞的詞義消歧方法融入術(shù)語(yǔ)內(nèi)部詞義輔助選擇的任務(wù)中。術(shù)語(yǔ)內(nèi)部詞語(yǔ)義項(xiàng)輔助選擇方法的具體算法過(guò)程如下所示:
詞義輔助選擇算法輸入:待確定義項(xiàng)的詞語(yǔ)w及其搭配詞c輸出:當(dāng)前詞語(yǔ)w的義項(xiàng)S1. S =φ,配置資源初始化2. Case1: w?DictHowNetS←人工標(biāo)注3. Case2: w∈DictHowNet AND w?DictambigS←DictHowNet[w][0]4. Case3: w∈Dictambig AND w?DictmatchS←人工從Dictambig[w]選擇5. Case4: w∈Dictambig∩Dictmatchif c∈Dictmatch then S←c所屬的subsetmatch對(duì)應(yīng)的義項(xiàng)else 計(jì)算得到在w的搭配詞集setmatch中與c 語(yǔ)義最相似的c’; S←c’所屬的subsetmatch對(duì)應(yīng)的義項(xiàng)Endif6. EndCase7. 返回詞語(yǔ)w的義項(xiàng)S
本文基于HowNet將動(dòng)態(tài)角色/特征應(yīng)用到術(shù)語(yǔ)概念的描述中,使得術(shù)語(yǔ)內(nèi)部的簡(jiǎn)單概念通過(guò)動(dòng)態(tài)角色有機(jī)關(guān)聯(lián)起來(lái),從而構(gòu)成表示術(shù)語(yǔ)本身語(yǔ)義知識(shí)的復(fù)雜概念。其中,對(duì)于術(shù)語(yǔ)內(nèi)部的詞語(yǔ)w1和詞語(yǔ)w2之間存在語(yǔ)義關(guān)系,可以表示為某種動(dòng)態(tài)角色/特征,用三元組的形式表示:
(w1,EventRole/EventFeature,w2)
其中關(guān)聯(lián)單位是Relation(w1,w2),關(guān)系類(lèi)型為EventRole/EventFeature,關(guān)聯(lián)方向?yàn)閣1依存于w2。術(shù)語(yǔ)內(nèi)部所有的三元組表示了術(shù)語(yǔ)內(nèi)部詞語(yǔ)結(jié)構(gòu)。
本過(guò)程采用最大熵分類(lèi)器與基于相似度的動(dòng)態(tài)角色判斷方法相結(jié)合的方法輔助推薦動(dòng)態(tài)角色,以人工選擇標(biāo)注三元組的關(guān)系類(lèi)型。
3.3.1 基于最大熵分類(lèi)器的動(dòng)態(tài)角色判斷
本方法將動(dòng)態(tài)角色關(guān)系判斷轉(zhuǎn)化成一種對(duì)于關(guān)聯(lián)單位的分類(lèi)問(wèn)題,并且將關(guān)聯(lián)單位所對(duì)應(yīng)的動(dòng)態(tài)角色/特征作為分類(lèi)的標(biāo)簽。其中,最大熵分類(lèi)器以最大熵模型為理論基礎(chǔ),其基本思想是將所有滿(mǎn)足已知約束條件的概率模型中熵最大的模型視為最好的分類(lèi)模型[13]。最大熵分類(lèi)器能夠較容易地對(duì)多分類(lèi)問(wèn)題進(jìn)行建模,并對(duì)各個(gè)類(lèi)別輸出一個(gè)相對(duì)客觀的概率值[14]。與此同時(shí),最大熵的訓(xùn)練效率相對(duì)較高,相比于SVM,最大熵模型可以較容易地對(duì)多分類(lèi)任務(wù)建模。其中最大熵分類(lèi)器選擇以上兩過(guò)程獲得的結(jié)果作為特征,如表1所示。
表1 最大熵分類(lèi)器所選用的特征
最大熵分類(lèi)器為每種動(dòng)態(tài)角色給出概率值。因此,本方法基于概率值對(duì)候選動(dòng)態(tài)角色排序,得到概率值從大到小的動(dòng)態(tài)角色排序表,并從此排序表中選擇排序最高位的動(dòng)態(tài)角色。
3.3.2 基于相似度的動(dòng)態(tài)角色判斷
基于相似度的動(dòng)態(tài)角色判斷方法是將待判斷關(guān)系類(lèi)型的關(guān)聯(lián)單位與訓(xùn)練集中每一個(gè)三元組的關(guān)聯(lián)單位進(jìn)行相似度計(jì)算,并將此相似度值作為三元組的分值,從而在訓(xùn)練集中出現(xiàn)的每個(gè)動(dòng)態(tài)角色都對(duì)應(yīng)一個(gè)分值列表,如下所示:
其中“EventRole1、EventRole2、...、EventRolen”為表示三元組關(guān)系類(lèi)型的動(dòng)態(tài)角色;“[score11,score12…]”為動(dòng)態(tài)角色“EventRole1”的分值列表,“score11,score12”是關(guān)系類(lèi)型為“EventRole1”的三元組的分值。
本方法取動(dòng)態(tài)角色分值列表的最大值作為候選動(dòng)態(tài)角色的分值。根據(jù)分值從大到小對(duì)動(dòng)態(tài)角色從高到低排序,從而得到動(dòng)態(tài)角色排序表。按照預(yù)先設(shè)定的優(yōu)先級(jí)從排序表中選取未在答案集中排序最高的動(dòng)態(tài)角色。其中待判斷關(guān)系類(lèi)型的關(guān)聯(lián)單位U1(w11,w12)與訓(xùn)練集中三元組的關(guān)聯(lián)單位U2(w21,w22)間的相似度計(jì)算如式(1)所示,Simw(w1,w2)詳見(jiàn)文獻(xiàn)[15],此處不再贅述。
Simu(U1,U2)=Simw(w11,w21)*Simw(w12,w22)
(1)
3.3.3 最大熵分類(lèi)器與基于相似度方法相結(jié)合
最大熵分類(lèi)器利用使概率模型的條件熵趨于最大值的統(tǒng)計(jì)信息,給待判斷關(guān)系類(lèi)型的關(guān)聯(lián)單位的可能動(dòng)態(tài)角色關(guān)系打分;而基于相似度的方法,則利用詞語(yǔ)的語(yǔ)義信息,通過(guò)度量待判斷關(guān)系類(lèi)型的關(guān)聯(lián)單位與在訓(xùn)練集中關(guān)聯(lián)單位之間的相似度,為動(dòng)態(tài)角色打分。二者分別從統(tǒng)計(jì)和語(yǔ)義兩個(gè)不同層面進(jìn)行動(dòng)態(tài)角色判斷,存在一定的互補(bǔ)。
因此,本文采用最大熵分類(lèi)器與基于相似度方法相結(jié)合的動(dòng)態(tài)角色判斷方法,從兩者生成的動(dòng)態(tài)角色排序表中按照預(yù)先設(shè)定的推薦優(yōu)先級(jí)順序依次向答案集添加動(dòng)態(tài)角色,以供人工選擇。并在實(shí)驗(yàn)中證實(shí)了本方法的可行性,詳見(jiàn)第4.2節(jié)。
術(shù)語(yǔ)DEF生成是本文方法的最后一個(gè)過(guò)程,它根據(jù)KDML語(yǔ)法規(guī)則將以上三個(gè)過(guò)程分析得到的語(yǔ)義信息表示成HowNet的語(yǔ)義知識(shí)。以下兩小節(jié)將詳細(xì)介紹KDML的規(guī)定和本文所提出的術(shù)語(yǔ)DEF生成算法。
3.4.1 KDML規(guī)定
本文對(duì)航空術(shù)語(yǔ)語(yǔ)義知識(shí)的描述遵從KDML的規(guī)定,一定程度上保障了語(yǔ)義知識(shí)描述的復(fù)雜度、一致性以及準(zhǔn)確性。按照KDML的描述概念的主要規(guī)定[6]:
① 任一概念的描述都以“DEF=”為開(kāi)始。任一概念中出現(xiàn)的所有義原或符號(hào)必須是在HowNet的Taxonomy中定義的義原或符號(hào)或者由知網(wǎng)知識(shí)系統(tǒng)描述語(yǔ)言所規(guī)定的特定標(biāo)識(shí)符。
② HowNet概念描述的第一個(gè)義原必須指出該概念最基本的意義,并用事件、實(shí)體、屬性和屬性值這四類(lèi)義原中的一個(gè)標(biāo)注出來(lái)。
③ HowNet利用動(dòng)態(tài)角色/特征標(biāo)注復(fù)雜概念,表示簡(jiǎn)單概念之間的語(yǔ)義關(guān)系。
例如,本文所構(gòu)建的航空術(shù)語(yǔ)“空氣循環(huán)冷卻系統(tǒng)”DEF表示為:
DEF={part|部件: {cool|制冷: means={circulate|循環(huán): patient={gas|氣}},instrument={~}}}
它的第一義原是“part|部件”,是一個(gè)實(shí)體類(lèi)概念,對(duì)應(yīng)術(shù)語(yǔ)核心詞“系統(tǒng)”,反映了該術(shù)語(yǔ)最基本的意義。術(shù)語(yǔ)DEF中出現(xiàn)了“means”、“patient”和“instrument”三種動(dòng)態(tài)角色?!皃atient”說(shuō)明了空氣(gas|氣)是循環(huán)(circulate|循環(huán))的對(duì)象(patient);“means”說(shuō)明了系統(tǒng)冷卻的方式(means),即空氣循環(huán);“instrument”說(shuō)明了“系統(tǒng)”這個(gè)部件的功能,即冷卻(cool|制冷)的工具(instrument)。其中“~”特殊指示符代替了前一層的義原“part|部件”。
HowNet的KDML對(duì)概念的描述是有一定結(jié)構(gòu)的。按照KDML的規(guī)定,常用特定標(biāo)識(shí)符如下所述:
① 左括號(hào)“{”表示一個(gè)概念描述的開(kāi)始;
② 右括號(hào)“}”表示一個(gè)概念描述的結(jié)束;
③ 冒號(hào)“: ”后面的內(nèi)容是對(duì)冒號(hào)前面義原的具體描述;
④ 逗號(hào)“,”表示一個(gè)關(guān)系描述的結(jié)束;
⑤ 等號(hào)“=”表示一個(gè)動(dòng)態(tài)角色/特征所具有的值。
因此,從HowNet特定標(biāo)識(shí)符標(biāo)注的角度來(lái)看,HowNet復(fù)雜概念的描述是通過(guò)大括號(hào)之間的嵌套與冒號(hào)、等號(hào)等特殊標(biāo)識(shí)符的標(biāo)注來(lái)表示的。因此,本過(guò)程將術(shù)語(yǔ)內(nèi)部的三元組按照KDML對(duì)HowNet概念描述的規(guī)定解析成術(shù)語(yǔ)的DEF。
3.4.2 術(shù)語(yǔ)DEF生成算法
本文基于術(shù)語(yǔ)內(nèi)部依存結(jié)構(gòu)提出一種術(shù)語(yǔ)DEF生成算法,按照術(shù)語(yǔ)內(nèi)部依存結(jié)構(gòu),將術(shù)語(yǔ)內(nèi)部所有關(guān)系三元組映射成術(shù)語(yǔ)DEF。例如,術(shù)語(yǔ)“w1w2w3w4w5”生成DEF過(guò)程如圖3所示,通過(guò)前3個(gè)過(guò)程,得到了所有完整的三元組,包括: (w1, EventRole13,w3), (w2, EventRole23,w3), (w3, EventRole35,w5), (w4, EventRole45,w5);以及術(shù)語(yǔ)內(nèi)部詞語(yǔ)DEF,表示為{w1: DEF={S1},w2: DEF={S2},w3: DEF={S3},w4: DEF={S4},w5: DEF={S5}}。
本方法將術(shù)語(yǔ)內(nèi)部依存結(jié)構(gòu)表示成依存樹(shù)的形式,如下所示: {w5: [w3,w4],w3: [w1,w2],w4: [],w2: [],w1: []}。其中當(dāng)前術(shù)語(yǔ)的核心詞是w5,位于依存樹(shù)葉子節(jié)點(diǎn)的詞語(yǔ)為w4、w2以及w1。
圖3 術(shù)語(yǔ)DEF生成示意圖
圖3表示了術(shù)語(yǔ)依存樹(shù)轉(zhuǎn)換成術(shù)語(yǔ)DEF的映射過(guò)程,按照大箭頭的指示依次變換。示意圖中的起始框圖表示了術(shù)語(yǔ)“w1w2w3w4w5”依存樹(shù)結(jié)構(gòu)。其中依存樹(shù)節(jié)點(diǎn)之間的實(shí)線邊表示依存關(guān)系,由被依存對(duì)象指向依存對(duì)象;邊上符號(hào)表示節(jié)點(diǎn)之間的動(dòng)態(tài)角色關(guān)系,每個(gè)節(jié)點(diǎn)存儲(chǔ)當(dāng)前詞語(yǔ)的DEF??梢钥闯?,隨著依存樹(shù)的葉子節(jié)點(diǎn)向其父節(jié)點(diǎn)嵌入語(yǔ)義信息的過(guò)程演進(jìn),依存樹(shù)的結(jié)構(gòu)以及樹(shù)節(jié)點(diǎn)信息也隨之變化。其中節(jié)點(diǎn)之間的虛線表示將依存對(duì)象(子節(jié)點(diǎn))的DEF以及兩者之間的動(dòng)態(tài)角色按照KDML的規(guī)定嵌入到被依存對(duì)象(父節(jié)點(diǎn));葉子節(jié)點(diǎn)完成嵌入語(yǔ)義信息后,被剪枝;依存樹(shù)重復(fù)上一過(guò)程,每一次都是由當(dāng)前依存樹(shù)的葉子節(jié)點(diǎn)向其父節(jié)點(diǎn)嵌入語(yǔ)義信息,直至僅剩下根節(jié)點(diǎn);當(dāng)只剩下根節(jié)點(diǎn)時(shí),術(shù)語(yǔ)依存樹(shù)完成轉(zhuǎn)換術(shù)語(yǔ)DEF的映射過(guò)程,輸出根節(jié)點(diǎn)信息即可得到術(shù)語(yǔ)DEF。
術(shù)語(yǔ)DEF生成算法如下所述。
術(shù)語(yǔ)DEF生成算法輸入:術(shù)語(yǔ)內(nèi)部所有完整的三元組以及每個(gè)詞語(yǔ)DEF輸出:術(shù)語(yǔ)DEF1. 將三元組列表解析成依存樹(shù)2. 遍歷依存樹(shù),找到當(dāng)前依存樹(shù)的葉子節(jié)點(diǎn)3. 判斷當(dāng)前葉子節(jié)點(diǎn)是否為依存樹(shù)根節(jié)點(diǎn)。若為是,進(jìn)入步驟5;否則進(jìn)入步驟4。4. 將該葉子節(jié)點(diǎn)的DEF及該葉子節(jié)點(diǎn)和父節(jié)點(diǎn)之間的動(dòng)態(tài)角色,以KDML的規(guī)定嵌入到父節(jié)點(diǎn)的DEF中,刪除當(dāng)前葉子節(jié)點(diǎn),進(jìn)入步驟25. 輸出依存樹(shù)根節(jié)點(diǎn)信息,即為術(shù)語(yǔ)DEF
本文對(duì)術(shù)語(yǔ)內(nèi)部詞語(yǔ)義項(xiàng)輔助選擇、術(shù)語(yǔ)內(nèi)部動(dòng)態(tài)角色關(guān)系輔助判斷分別進(jìn)行了實(shí)驗(yàn)和實(shí)驗(yàn)結(jié)果分析;并通過(guò)相關(guān)性實(shí)驗(yàn),驗(yàn)證了本文構(gòu)建術(shù)語(yǔ)DEF方法的有效性。
本實(shí)驗(yàn)對(duì)1 000條術(shù)語(yǔ)進(jìn)行人工詞語(yǔ)義項(xiàng)標(biāo)注,選取HowNet中最符合術(shù)語(yǔ)概念的義項(xiàng),標(biāo)注內(nèi)容為已選義項(xiàng)的第一義原,將此作為實(shí)驗(yàn)語(yǔ)料。該實(shí)驗(yàn)語(yǔ)料的詞表中一共有996個(gè)詞語(yǔ),其中的268個(gè)詞語(yǔ)在HowNet中是多義詞。這些多義詞在搭配詞典中大多只有一個(gè)義項(xiàng),也有一些多義詞只有部分義項(xiàng)出現(xiàn)在搭配詞典里。對(duì)于那些不在搭配詞典中的多義詞,本實(shí)驗(yàn)無(wú)法給出該多義詞義項(xiàng)的選擇結(jié)果,記為選擇錯(cuò)誤。
本文將實(shí)驗(yàn)語(yǔ)料分成10等份,每份100條術(shù)語(yǔ),進(jìn)行10-fold交叉驗(yàn)證。采用平均準(zhǔn)確率P作為評(píng)價(jià)指標(biāo),其中P的計(jì)算公式如式(1)所示,n為測(cè)試的次數(shù)。
通過(guò)10-fold交叉驗(yàn)證所得到的平均正確率,為90.68%,其中不在HowNet中的詞語(yǔ)以及不在搭配詞典中的多義詞平均占測(cè)試集詞語(yǔ)的7%。剩下的接近3%是由于本方法處理錯(cuò)誤造成的。因此,為了使得知識(shí)庫(kù)的語(yǔ)義標(biāo)注結(jié)果更準(zhǔn)確,對(duì)未在搭配詞典里的多義詞與未在HowNet中的詞語(yǔ)進(jìn)行人工義項(xiàng)標(biāo)注。
本實(shí)驗(yàn)從人工標(biāo)注的航空術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)[14]中抽取475條航空術(shù)語(yǔ)DEF。人工將每條術(shù)語(yǔ)DEF分解成若干個(gè)三元組以及術(shù)語(yǔ)內(nèi)部詞語(yǔ)DEF,一共有1 550個(gè)三元組(也意味著本實(shí)驗(yàn)數(shù)據(jù)集包含1 550個(gè)樣本),一共出現(xiàn)27種動(dòng)態(tài)角色,其分布情況如圖4所示。將1 550個(gè)樣本平均分成10等份,進(jìn)行10-fold交叉驗(yàn)證。
圖4 數(shù)據(jù)集中動(dòng)態(tài)角色分布的情況
本次實(shí)驗(yàn)通過(guò)10-fold交叉驗(yàn)證,對(duì)最大熵分類(lèi)器和基于相似度方法進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2所示,顯示了每種方法3-best(最有可能為正確答案的3個(gè)動(dòng)態(tài)角色)中Top1、Top2以及Top3對(duì)應(yīng)的三個(gè)不同排序位置上動(dòng)態(tài)角色的平均準(zhǔn)確率P[見(jiàn)式(2)],以及最大熵分類(lèi)器和基于相似度方法推薦各自動(dòng)態(tài)角色排序表中3-best的平均準(zhǔn)確率P(當(dāng)待測(cè)三元組的正確動(dòng)態(tài)角色出現(xiàn)在候選答案集(3-best)中時(shí)即為判斷正確)。
表2 兩種方法的實(shí)驗(yàn)結(jié)果
從實(shí)驗(yàn)結(jié)果可以看出,當(dāng)最大熵分類(lèi)器和基于相似度方法分別從各自動(dòng)態(tài)角色排序表中向答案集推薦3-best時(shí),最大熵分類(lèi)器所得到的準(zhǔn)確率較高,而且它的動(dòng)態(tài)角色排序表中排在前三位的每個(gè)位置上準(zhǔn)確率均高于基于相似度方法。
通過(guò)對(duì)實(shí)驗(yàn)輸出結(jié)果的統(tǒng)計(jì),能夠得到兩種動(dòng)態(tài)角色排序表Top1~Top3不同位置之間,正確動(dòng)態(tài)角色的重復(fù)率。其中,兩排序表中Top1上同為正確動(dòng)態(tài)角色的重復(fù)率是6.8%,基于相似度方法的排序表Top1與最大熵分類(lèi)器的排序表Top2間正確動(dòng)態(tài)角色重復(fù)率為3.3%,可見(jiàn)當(dāng)同時(shí)推薦最大熵分類(lèi)器的排序表的動(dòng)態(tài)角色和基于相似度方法的排序表的動(dòng)態(tài)角色組成3-best時(shí),能夠得到更好的實(shí)驗(yàn)結(jié)果,因此從兩種關(guān)系判斷方法所得到的3-best動(dòng)態(tài)角色中按照一定的優(yōu)先級(jí)順序選擇動(dòng)態(tài)角色組成3-best結(jié)果如表3所示。
由于無(wú)論是橫向逐層(Top1~Top3的順序)依次從兩排序表中按照不同優(yōu)先順序選擇動(dòng)態(tài)角色;還是縱向以不同的優(yōu)先級(jí)順序從兩排序表中選擇動(dòng)態(tài)角色,最終都是要將如下兩種情況與最大熵分類(lèi)器推薦的3-best以及基于相似度方法推薦的3-best進(jìn)行實(shí)驗(yàn)對(duì)比。這兩種情況分別是,情況①: 在最大熵分類(lèi)器的動(dòng)態(tài)角色排序表中選擇2-best(最有可能為正確答案的2個(gè)動(dòng)態(tài)角色)以及在相似度方法的動(dòng)態(tài)角色排序表Top1~Top3中選擇一個(gè)未被選中(不重復(fù))的動(dòng)態(tài)角色,組成3-best;情況②在基于相似度方法的動(dòng)態(tài)角色排序中選擇2-best以及在最大熵分類(lèi)器的動(dòng)態(tài)角色排序表Top1~Top3中選擇一個(gè)未被選中的動(dòng)態(tài)角色,組成3-best。
因此本實(shí)驗(yàn)所按照推薦優(yōu)先級(jí)順序,分別為S1->S2->M1->M2->M3、S1->S2->M1->M2->S3、M1->M2->S1->S2->S3、M1->M2->S1->S2->M3。這四種優(yōu)先級(jí)順序覆蓋了上文所述的兩種情況(包括兩排序表Top1~Top2組成的2-best集合相同的情況),并將其與“S1->S2->S3”以及“M1->M2->M3”進(jìn)行對(duì)比實(shí)驗(yàn)。其中當(dāng)待測(cè)三元組的正確動(dòng)態(tài)角色出現(xiàn)在候選答案集(3-best)中時(shí)即為判斷正確。
表3 最大熵分類(lèi)器與基于相似度方法相結(jié)合的實(shí)驗(yàn)結(jié)果
從表3的實(shí)驗(yàn)結(jié)果可以看出,當(dāng)推薦次序?yàn)镸1->M2->S1->S2->M3時(shí),答案集出現(xiàn)正確動(dòng)態(tài)角色的準(zhǔn)確率最高。M1->M2->S1->S2->M3優(yōu)先級(jí)順序使得最大熵分類(lèi)器的2-best能夠優(yōu)先加入答案集、基于相似度方法的Top1能夠盡可能地加入答案集,使得兩方法得到良好的互補(bǔ)。因此,執(zhí)行此優(yōu)先級(jí)順序的準(zhǔn)確率能夠達(dá)到最高。
為了說(shuō)明術(shù)語(yǔ)DEF的有效性,本文進(jìn)行了驗(yàn)證實(shí)驗(yàn),其驗(yàn)證方法的基本思想是: 計(jì)算機(jī)根據(jù)術(shù)語(yǔ)DEF對(duì)術(shù)語(yǔ)的區(qū)分度越接近于人對(duì)術(shù)語(yǔ)的區(qū)分度,則說(shuō)明術(shù)語(yǔ)DEF越有效。計(jì)算機(jī)對(duì)術(shù)語(yǔ)的區(qū)分,一定程度上表現(xiàn)為術(shù)語(yǔ)間的語(yǔ)義距離,因此通過(guò)計(jì)算術(shù)語(yǔ)間的相似度得以實(shí)現(xiàn)。
因此,本文將人工標(biāo)注術(shù)語(yǔ)間的相似度與根據(jù)術(shù)語(yǔ)DEF計(jì)算術(shù)語(yǔ)間的相似度進(jìn)行相關(guān)性分析,即在本文方法構(gòu)建的知識(shí)庫(kù)中隨機(jī)抽取100對(duì)術(shù)語(yǔ)。并運(yùn)用文獻(xiàn)[15]的概念相似度計(jì)算方法對(duì)此100對(duì)術(shù)語(yǔ)DEF進(jìn)行相似度計(jì)算。另外,組織5個(gè)人對(duì)這100對(duì)術(shù)語(yǔ)的相似度進(jìn)行人工判斷,將術(shù)語(yǔ)間的相似程度分成6個(gè)等級(jí),記為0到5;取這5個(gè)人標(biāo)注結(jié)果的平均值,并將其映射到0到1之間;從而得到兩組相似度序列,這兩組相似度序列折線的整體趨勢(shì)對(duì)比如圖5所示。另外,對(duì)兩組序列進(jìn)行皮爾遜相關(guān)系數(shù)計(jì)算。若皮爾遜相關(guān)系數(shù)等于零,則說(shuō)明二者不相關(guān);若皮爾遜相關(guān)系數(shù)越接近1,則表明二者越趨近于正相關(guān);若皮爾遜相關(guān)系數(shù)越接近-1,則表明二者越趨近于負(fù)相關(guān)。
圖5 人工標(biāo)注結(jié)果與根據(jù)術(shù)語(yǔ)DEF計(jì)算結(jié)果趨勢(shì)圖
根據(jù)術(shù)語(yǔ)DEF計(jì)算得到的術(shù)語(yǔ)間相似度x與人工標(biāo)注的術(shù)語(yǔ)間相似度y之間的皮爾遜相關(guān)系數(shù)rxy的計(jì)算,如公式(4)所示。
(4)
通過(guò)實(shí)驗(yàn)得到的皮爾遜相關(guān)系數(shù)為0.878 6,大于零接近1,表明根據(jù)術(shù)語(yǔ)DEF計(jì)算術(shù)語(yǔ)間的相似度與人工判斷術(shù)語(yǔ)間的相似度是接近相關(guān)的。
另外,從這100對(duì)術(shù)語(yǔ)中隨機(jī)抽取12對(duì)術(shù)語(yǔ),組成4組,每組有3對(duì);表4顯示了術(shù)語(yǔ)DEF。每組相似度結(jié)果如表5所示,其中包括計(jì)算結(jié)果、人工標(biāo)注結(jié)果、減去平均值的計(jì)算結(jié)果以及減去平均值的人工標(biāo)注結(jié)果。
圖5中兩條折線的整體趨勢(shì)基本一致,可見(jiàn)兩術(shù)語(yǔ)相似度計(jì)算結(jié)果存在一定的正相關(guān)性;但圖5根據(jù)術(shù)語(yǔ)DEF計(jì)算結(jié)果的折線普遍高于人工標(biāo)注結(jié)果的折線,以及表5所示兩方法得到相似度結(jié)果(相似度計(jì)算結(jié)果、人工標(biāo)注結(jié)果)的絕對(duì)數(shù)值存在一定差異,這是由于兩種方法的評(píng)價(jià)標(biāo)準(zhǔn)不同造成的。
然而從皮爾遜相關(guān)系數(shù)(0.878 6)以及表5所示兩方法的相似度皆減去平均值的結(jié)果(減去平均值的計(jì)算結(jié)果、減去平均值的人工標(biāo)注結(jié)果)來(lái)看,兩種方法對(duì)不同術(shù)語(yǔ)的區(qū)分基本一致,驗(yàn)證了本文方法所構(gòu)建術(shù)語(yǔ)DEF的有效性。
表4 術(shù)語(yǔ)DEF
表5 相似度結(jié)果
本文基于HowNet的語(yǔ)義理論體系[4],全面闡述了一種輔助構(gòu)建航空術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)的方法,從術(shù)語(yǔ)的語(yǔ)義層次,按照自底向上的思想構(gòu)建航空術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù),并且將術(shù)語(yǔ)內(nèi)部的依存結(jié)構(gòu)信息,融入知識(shí)庫(kù)構(gòu)建中?;谛g(shù)語(yǔ)依存結(jié)構(gòu),提出了基于搭配詞的詞義消歧方法和術(shù)語(yǔ)DEF生成方法。同時(shí)提出了基于最大熵分類(lèi)器與關(guān)聯(lián)單位相似度方法相結(jié)合的動(dòng)態(tài)角色關(guān)系判斷方法,從語(yǔ)義和統(tǒng)計(jì)的層面,判斷術(shù)語(yǔ)內(nèi)部詞語(yǔ)間的關(guān)系類(lèi)型。最后利用術(shù)語(yǔ)間相似度的驗(yàn)證方法,通過(guò)兩相似度序列的皮爾遜相關(guān)系數(shù)以及人工標(biāo)注結(jié)果與根據(jù)術(shù)語(yǔ)DEF計(jì)算結(jié)果的對(duì)比,驗(yàn)證了本文方法所構(gòu)建術(shù)語(yǔ) DEF的有效性。
本文方法以構(gòu)建航空術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)為導(dǎo)向,結(jié)合自身所具有的語(yǔ)料資源,初步完成了語(yǔ)義知識(shí)庫(kù)閉環(huán)構(gòu)建任務(wù)。為了保障知識(shí)庫(kù)的準(zhǔn)確性,本文方法采用人機(jī)協(xié)同的方式構(gòu)建術(shù)語(yǔ)DEF。面向未來(lái),接下來(lái)的任務(wù)是: ①按照本文方法構(gòu)建更多高質(zhì)量的術(shù)語(yǔ)DEF;②從更加開(kāi)放的語(yǔ)料資源中抽取航空術(shù)語(yǔ)以及航空詞語(yǔ)間的語(yǔ)義關(guān)系,構(gòu)建豐富、高質(zhì)量的航空術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)。