劉高軍,方 曉,段建勇
(北方工業(yè)大學(xué)信息學(xué)院,北京 100144)
(?通信作者電子郵箱duanjy@ncut.edu.cn)
信息檢索任務(wù)執(zhí)行時(shí),經(jīng)常因輸入的查詢(xún)信息過(guò)少或過(guò)于冷門(mén)導(dǎo)致返回的檢索結(jié)果查全率低。查詢(xún)擴(kuò)展把與原查詢(xún)相關(guān)的詞語(yǔ)、概念等以邏輯或的方式添加到原查詢(xún)中,構(gòu)造一個(gè)新的查詢(xún),從而提高用戶的使用體驗(yàn),如圖1所示。
目前查詢(xún)擴(kuò)展的主要方法有基于關(guān)系和規(guī)則挖掘的方法、基于用戶日志的方法、基于全局文檔分析等方法,其中,基于全局文檔分析的方法利用已有語(yǔ)料分析詞語(yǔ)空間中詞與詞的相似關(guān)系,從而對(duì)查詢(xún)?cè)~進(jìn)行擴(kuò)展。分析方式可以通過(guò)使用相似字典等數(shù)據(jù)語(yǔ)料或使用語(yǔ)言模型在大規(guī)模語(yǔ)料數(shù)據(jù)中訓(xùn)練詞與詞的相似關(guān)系。
相似字典多是人為提煉,經(jīng)過(guò)多年沉淀,將中文語(yǔ)言學(xué)中詞與詞之間的相似性進(jìn)行概括。這種數(shù)據(jù)雖然擁有更強(qiáng)的語(yǔ)義相似性信息,但是由于人為提煉,數(shù)據(jù)中擁有許多語(yǔ)義孤島,無(wú)法將詞語(yǔ)空間中每個(gè)詞語(yǔ)進(jìn)行關(guān)聯(lián)。
圖1 查詢(xún)擴(kuò)展示意圖Fig.1 Schematic diagram of query extension
常用的語(yǔ)言模型,如Word2vec[1],可以根據(jù)文章中詞語(yǔ)的上下文關(guān)系獲取到詞語(yǔ)之間的語(yǔ)義、上下文關(guān)系[2],但是這一目標(biāo)并不一定是許多信息檢索任務(wù)的目標(biāo)[3]。
傳統(tǒng)語(yǔ)言模型是基于詞與詞的上下文相似度,所以相似性更多的由語(yǔ)法層面獲取而非語(yǔ)義層面,如:“北京”和“首都”相似度為0.24,而“成功”和“失敗”的相似度為0.65。在查詢(xún)擴(kuò)展任務(wù)中“北京”可以擴(kuò)展為“首都”,而“成功”卻絕對(duì)不應(yīng)該擴(kuò)展為“失敗”。
文獻(xiàn)[4]提出使用義原詞典,基于概念樹(shù)的方式獲取詞與詞之間的相似性。該方法可以獲取詞語(yǔ)間的較深層語(yǔ)義特征,從而提升查詢(xún)擴(kuò)展的效率。因?yàn)檎Z(yǔ)義概念樹(shù)是一種詞語(yǔ)含義的存儲(chǔ)結(jié)構(gòu),雖然與簡(jiǎn)單的近義詞林相比擁有更多的細(xì)節(jié)信息,但是依然無(wú)法解決詞語(yǔ)間的語(yǔ)義孤島問(wèn)題。
文獻(xiàn)[5]提出利用深度學(xué)習(xí)將用戶查詢(xún)上升到語(yǔ)義概念層次,使用Skip-gram 模型從大量網(wǎng)頁(yè)文檔中訓(xùn)練詞語(yǔ)相關(guān)性。其本質(zhì)是一種語(yǔ)言模型的應(yīng)用,提取出的語(yǔ)義相關(guān)性會(huì)過(guò)度考慮詞語(yǔ)間的上下文相似度,而忽略詞語(yǔ)本身的特性。
本文提出一種基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)義相關(guān)模型,結(jié)合語(yǔ)言模型與近義詞林、語(yǔ)言知識(shí)庫(kù)等語(yǔ)義語(yǔ)料,使模型在詞語(yǔ)特性層擬合相似度,學(xué)習(xí)到更深層的基于語(yǔ)義相似度的詞語(yǔ)關(guān)系。實(shí)驗(yàn)結(jié)果表明將該模型用于查詢(xún)擴(kuò)展任務(wù)可以取得不錯(cuò)的效果。
在查詢(xún)擴(kuò)展領(lǐng)域,目前常用的方法有:基于關(guān)系和規(guī)則挖掘的方法、基于用戶日志的方法、基于全局文檔分析的方法等[6]。無(wú)論是哪一種方法,查詢(xún)擴(kuò)展的核心內(nèi)容是統(tǒng)計(jì)與分析詞語(yǔ)間的相關(guān)性與可擴(kuò)展性從而建立擴(kuò)展詞庫(kù)。
三種方法分別利用不同的數(shù)據(jù)提取詞語(yǔ)間的相關(guān)性:1)基于關(guān)系和規(guī)則挖掘的方法通過(guò)從搜索引擎查詢(xún)?nèi)罩局刑崛∨c原查詢(xún)相關(guān)的詞語(yǔ)進(jìn)行擴(kuò)展,也可以利用文檔進(jìn)行全局或者局部的詞語(yǔ)間關(guān)系挖掘從而構(gòu)造擴(kuò)展詞庫(kù)[7];2)基于用戶查詢(xún)?nèi)罩镜姆椒ɡ糜脩舻牟樵?xún)?nèi)罩举Y源分析詞與詞之間的相關(guān)性,選擇相似度高的詞作為擴(kuò)展詞[8];3)基于全局文檔分析的方法是采用聚類(lèi)算法、潛在語(yǔ)義索引(Latent Semantic Indexing,LSI)[9-10]和相似詞典等技術(shù)計(jì)算文檔中詞語(yǔ)間的相關(guān)性。目前在中文領(lǐng)域,也有對(duì)于跨語(yǔ)言信息檢索的研究,基于跨語(yǔ)言詞向量模型實(shí)現(xiàn)語(yǔ)言統(tǒng)一和查詢(xún)擴(kuò)展的目的[11]??缯Z(yǔ)言信息檢索中使用潛在語(yǔ)義索引技術(shù)的基本思想建立不同語(yǔ)言的對(duì)應(yīng)關(guān)系[12],由此得到源語(yǔ)言與目標(biāo)語(yǔ)種的擴(kuò)展關(guān)系?;谥黝}模型的跨語(yǔ)言信息檢索[13-14],在原查詢(xún)?cè)~項(xiàng)的給定擴(kuò)展主題中提取概率較高的擴(kuò)展詞實(shí)現(xiàn)跨語(yǔ)言查詢(xún)擴(kuò)展。
建立擴(kuò)展詞庫(kù)的方法可以分為兩類(lèi):1)根據(jù)各種語(yǔ)言學(xué)知識(shí)和語(yǔ)義構(gòu)造的擴(kuò)展詞典,例如基于語(yǔ)義知識(shí)詞典的方法通常是使用HowNet、WordNet或同義詞林、翻譯詞典等語(yǔ)義知識(shí)詞典中所能挖掘的關(guān)系來(lái)選取擴(kuò)展詞。2)基于大規(guī)模通用語(yǔ)料庫(kù)的統(tǒng)計(jì)信息訓(xùn)練而成的擴(kuò)展詞庫(kù),例如使用Word2vec進(jìn)行大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練,獲取詞與詞之間的相關(guān)性從而獲得擴(kuò)展詞庫(kù)。
方法1 直接在包含語(yǔ)義信息的語(yǔ)料中獲取詞語(yǔ)間關(guān)系,詞庫(kù)模型可以獲取較強(qiáng)的語(yǔ)義信息;但是由于包含語(yǔ)義信息的語(yǔ)料多為人工匯總,擁有諸多語(yǔ)義孤島,模型很難學(xué)習(xí)到詞語(yǔ)間的深度特征與全局信息。方法2 基于詞嵌入方法獲取擴(kuò)展詞庫(kù),可以學(xué)習(xí)文檔中各個(gè)詞語(yǔ)的深層特征;但是這種方法依賴(lài)大量訓(xùn)練語(yǔ)料,并且傳統(tǒng)詞嵌入模型更多考慮詞共現(xiàn)而忽略其他因素,語(yǔ)義表達(dá)能力較弱[15]。
在全局文檔分析方法中,基于詞典的查詢(xún)擴(kuò)展方法是一種簡(jiǎn)單而有效的方法,該方法從包含詞語(yǔ)特性的近義詞林等數(shù)據(jù)中提取詞語(yǔ)間的相關(guān)性。文獻(xiàn)[16]以詞典為基礎(chǔ),使用查詢(xún)序列的最大匹配方法進(jìn)行查詢(xún)擴(kuò)展,但是該方法未能提取到語(yǔ)義空間中更深層的特性;文獻(xiàn)[17]提出了結(jié)合語(yǔ)義詞典與詞嵌入的方法進(jìn)行查詢(xún)擴(kuò)展,利用詞嵌入獲取語(yǔ)義空間的深層特征,但是該方法中詞嵌入占據(jù)主導(dǎo)作用;文獻(xiàn)[18]中嘗試使用谷歌搜索引擎替代字典等資源,并通過(guò)實(shí)驗(yàn)證明其可行性。本文方法基于全局文檔分析,結(jié)合深度學(xué)習(xí)與包含語(yǔ)義信息的語(yǔ)料,利用神經(jīng)網(wǎng)絡(luò)的深度挖掘能力解決語(yǔ)料中的語(yǔ)義孤島問(wèn)題,將局部詞語(yǔ)間關(guān)系擬合成全局詞語(yǔ)關(guān)系。
本文使用一種淺層神經(jīng)網(wǎng)絡(luò)以獲取每個(gè)詞語(yǔ)與語(yǔ)料中所有詞語(yǔ)間的可擴(kuò)展關(guān)系,可以被擴(kuò)展的詞稱(chēng)為可擴(kuò)展詞,將這種關(guān)系的集合稱(chēng)為全局可擴(kuò)展詞分布。本文從語(yǔ)料中提取部分詞語(yǔ)間的可擴(kuò)展關(guān)系,將這種關(guān)系稱(chēng)為局部可擴(kuò)展詞分布。
如圖2 所示,本文模型使用局部可擴(kuò)展詞分布提取層將多元語(yǔ)義語(yǔ)料抽象成局部可擴(kuò)展詞分布。局部可擴(kuò)展詞分布包含語(yǔ)料空間中諸多語(yǔ)義孤島信息,經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)層將這些信息迭代擬合為全局可擴(kuò)展詞分布,從而去除孤島信息,獲取語(yǔ)料空間中強(qiáng)連接可擴(kuò)展性信息。
圖2 所提模型總體結(jié)構(gòu)Fig.2 Overall structure of the proposed model
本文使用包含一個(gè)線性隱含層的前饋神經(jīng)網(wǎng)絡(luò),如圖3所示,這種結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)簡(jiǎn)單而有效。使用兩組嵌入?yún)?shù),Xi和Xw,前者可以將輸入的one-hot 詞向量映射到詞嵌入空間,而后者用于估計(jì)可擴(kuò)展詞分布。
圖3 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Neural network structure
模型的輸入為一個(gè)長(zhǎng)度為N 的one-hot 詞向量wi,如“成功”,其中N為出現(xiàn)在語(yǔ)料中的詞匯總數(shù)。該模型的隱含層使用式(1)將給定的輸入詞向量wi映射成一個(gè)詞嵌入向量w:
其中:Xi為N × d維的詞嵌入向量權(quán)重矩陣,d為嵌入維數(shù),網(wǎng)絡(luò)的輸出層為全連接層,使用式(2)獲取輸出擴(kuò)展詞分布:
其中:Xw為d × N 維的權(quán)重矩陣,bw為1× N 維的偏置矩陣,σ為激活函數(shù)。
模型的輸出為長(zhǎng)度為N 的分布向量,向量中包含了語(yǔ)料空間中所有詞語(yǔ)與輸入詞語(yǔ)間的可擴(kuò)展性權(quán)值。經(jīng)過(guò)全局分析,按照權(quán)值降序獲取應(yīng)當(dāng)擴(kuò)展的詞語(yǔ),如成就”“順利”,權(quán)值得分需高于閾值0.5,低于0.5的詞語(yǔ)不作為擴(kuò)展詞語(yǔ)候選。
在查詢(xún)擴(kuò)展任務(wù)中,待擴(kuò)展詞指等待進(jìn)行擴(kuò)展的查詢(xún)?cè)~,每一個(gè)待擴(kuò)展詞都與詞向量空間中的任何一個(gè)詞語(yǔ)存在關(guān)聯(lián)關(guān)系,如圖4 所示,將這些關(guān)聯(lián)關(guān)系的數(shù)值化參數(shù)的集合稱(chēng)作這個(gè)待擴(kuò)展詞的全局可擴(kuò)展詞分布。
圖4 可擴(kuò)展詞分布示意圖Fig.4 Schematic diagram of extensible word distribution
通過(guò)使用神經(jīng)網(wǎng)絡(luò),將局部的詞與詞之間的關(guān)系作為訓(xùn)練數(shù)據(jù),使得模型迭代學(xué)習(xí)整體的詞與詞之間的擴(kuò)展關(guān)系。每個(gè)輸入的待擴(kuò)展詞都可能成為另外一組擴(kuò)展中的輸出擴(kuò)展詞,所以與普通的擴(kuò)展詞庫(kù)檢索法相比,本文方法可以使模型學(xué)習(xí)到更深層的詞與詞之間的可擴(kuò)展性。
本文使用哈爾濱工業(yè)大學(xué)(哈工大)提出的“哈工大近義詞林?jǐn)U展版”以及“語(yǔ)言知識(shí)庫(kù)HowNet義原數(shù)據(jù)”作為提取局部詞與詞關(guān)系的數(shù)據(jù),在2.2.1節(jié)以及2.2.2節(jié)中將詳細(xì)介紹如何提取局部詞與詞關(guān)系作為訓(xùn)練數(shù)據(jù)。
2.2.1 近義詞林
本文使用“哈工大近義詞林?jǐn)U展版”作為基礎(chǔ)數(shù)據(jù),利用其中的近義詞關(guān)系獲取局部的詞與詞的可擴(kuò)展性?!肮ご蠼x詞林?jǐn)U展版”中,每組近義詞包含多個(gè)詞語(yǔ),這些詞語(yǔ)間存在近義關(guān)系,例如“人、士、人物、人士、人氏、人選”,這些近義詞組之間的詞語(yǔ)為最高級(jí)別的近義詞關(guān)系。同時(shí),如表1 所示,“哈工大近義詞林?jǐn)U展版”中給出了5 種級(jí)別的近義詞關(guān)系。隨著級(jí)別的遞增,詞義刻畫(huà)越來(lái)越細(xì),到了第5 層,每個(gè)分類(lèi)里詞語(yǔ)數(shù)量已經(jīng)不大,很多只有一個(gè)詞語(yǔ),已經(jīng)不可再分,被稱(chēng)為原子詞群、原子類(lèi)或原子節(jié)點(diǎn)。不同級(jí)別的分類(lèi)結(jié)果可以為自然語(yǔ)言處理提供不同的服務(wù)。例如第4 層的分類(lèi)和第5 層的分類(lèi)在信息檢索、文本分類(lèi)、自動(dòng)問(wèn)答等研究領(lǐng)域得到應(yīng)用。實(shí)驗(yàn)證明,對(duì)詞義進(jìn)行有效擴(kuò)展,或者對(duì)關(guān)鍵詞做同義詞替換可以明顯改善信息檢索、文本分類(lèi)和自動(dòng)問(wèn)答系統(tǒng)的性能。
表1 哈工大近義詞林?jǐn)U展版分級(jí)示意表Tab.1 HIT thesaurus(extended)classification table
本文將近義詞林中的數(shù)據(jù)格式化成所需的關(guān)系詞組,關(guān)系詞組中包含待擴(kuò)展詞以及若干個(gè)關(guān)系詞,關(guān)系詞是從近義詞林中尋找與待擴(kuò)展詞擁有指定近義等級(jí)的詞語(yǔ)。使用n代表選擇的近義等級(jí),m代表最大的關(guān)系詞數(shù)量:當(dāng)待擴(kuò)展詞的近義詞數(shù)量大于所需的m 值時(shí),使用隨機(jī)抽取的方法抽取m個(gè)詞語(yǔ)作為關(guān)系詞;若待擴(kuò)展詞的近義詞數(shù)量小于等于m 值時(shí),使用所有k個(gè)近義詞參與計(jì)算。
實(shí)驗(yàn)中為格式化好的關(guān)系詞組中出現(xiàn)的所有詞語(yǔ)創(chuàng)建one-hot向量,并使用式(3)將每個(gè)關(guān)系詞組中若干個(gè)關(guān)系詞的向量融合獲得待擴(kuò)展詞的局部可擴(kuò)展詞分布。
其中:R 為所求局部可擴(kuò)展詞分布;k 為該關(guān)系詞組中關(guān)系詞的數(shù)量(k ≤m);wi為第i個(gè)關(guān)系詞的one-hot向量。
2.2.2 義原分析
本文在語(yǔ)言知識(shí)庫(kù)HowNet 的義原標(biāo)注信息中提取具有語(yǔ)義相似的詞語(yǔ)集合作為可擴(kuò)展詞分布的數(shù)據(jù)。
HowNet 是董振東先生、董強(qiáng)先生父子畢三十年之功標(biāo)注的大型語(yǔ)言知識(shí)庫(kù),主要面向中文(也包括英文)的詞匯與概念。HowNet 認(rèn)為詞語(yǔ)可以用更小的語(yǔ)義單位來(lái)描述,這種語(yǔ)義單位被稱(chēng)為“義原”(Sememe),義原就是原子語(yǔ)義,是最基本的、不可再分割的最小語(yǔ)義單位[19]。
本文分析HowNet 義原標(biāo)注數(shù)據(jù)集,將2 188 個(gè)義原作為基準(zhǔn),把數(shù)據(jù)集中126 740 個(gè)詞語(yǔ)轉(zhuǎn)化為2 188 維的稀疏詞向量,使用式(4)計(jì)算每個(gè)詞語(yǔ)的義原關(guān)聯(lián)度:
其中:similarity 代表所求相似度;A、B 分別代表兩個(gè)稀疏詞向量,n代表向量維數(shù)。
實(shí)驗(yàn)中使用p 作為判斷詞語(yǔ)間相關(guān)聯(lián)的義原關(guān)聯(lián)度閾值,m 作為每組關(guān)系詞組的最大關(guān)系詞數(shù)量。使用2.2.1 節(jié)中同樣的方法從整理好的關(guān)系詞組中計(jì)算出待擴(kuò)展詞與其對(duì)應(yīng)的可擴(kuò)展詞分布。
語(yǔ)義相關(guān)模型基于全局文檔分析的方法,利用深度學(xué)習(xí)將語(yǔ)義語(yǔ)料中的局部關(guān)聯(lián)關(guān)系擬合為全局關(guān)聯(lián)關(guān)系。在實(shí)驗(yàn)中,為更好地評(píng)估全局可擴(kuò)展詞分布中詞語(yǔ)之間的關(guān)聯(lián)關(guān)系,本文基于搜索熱度抽取若干待擴(kuò)展詞,使用本文模型與傳統(tǒng)模型對(duì)這些詞進(jìn)行擴(kuò)展分析,并將返回結(jié)果標(biāo)注以計(jì)算擴(kuò)展分析的效率。
如2.2 節(jié)所介紹的,實(shí)驗(yàn)主要使用“哈工大近義詞林?jǐn)U展版”與“語(yǔ)言知識(shí)庫(kù)HowNet義原標(biāo)注數(shù)據(jù)”作為訓(xùn)練的準(zhǔn)備數(shù)據(jù)。通過(guò)局部可擴(kuò)展詞分布的提取從兩份數(shù)據(jù)中提取訓(xùn)練所需的數(shù)據(jù)。
為了更好地評(píng)估查詢(xún)擴(kuò)展中詞擴(kuò)展的效率,本文使用“搜狗實(shí)驗(yàn)室網(wǎng)頁(yè)搜索結(jié)果評(píng)價(jià)[20]”數(shù)據(jù)集,將30 天內(nèi)的用戶搜索日志進(jìn)行分詞統(tǒng)計(jì),抽取出用戶搜索最常使用的1 000個(gè)熱門(mén)搜索詞,對(duì)這1 000 個(gè)詞語(yǔ)的擴(kuò)展情況進(jìn)行評(píng)價(jià)。分析得出,查詢(xún)擴(kuò)展在熱門(mén)查詢(xún)?cè)~上的應(yīng)用效果并不明顯,因?yàn)樽懔康臄?shù)據(jù)已經(jīng)可以精確返回用戶所需的查詢(xún)結(jié)果。但是在不常用的搜索詞中,查詢(xún)擴(kuò)展反而體現(xiàn)了自身的價(jià)值。本文在“搜狗實(shí)驗(yàn)室網(wǎng)頁(yè)搜索結(jié)果評(píng)價(jià)”數(shù)據(jù)集中以同樣的方法抽取了用戶最不常用的1 000 個(gè)冷門(mén)搜索詞,對(duì)這1 000 個(gè)搜索詞進(jìn)行擴(kuò)展評(píng)估。
為充分論證語(yǔ)義相關(guān)模型在查詢(xún)擴(kuò)展任務(wù)上的作用,本文使用搜狗實(shí)驗(yàn)室的互聯(lián)網(wǎng)語(yǔ)料庫(kù)[21],該語(yǔ)料庫(kù)中包含超過(guò)1.3 億個(gè)原始網(wǎng)頁(yè),并提取了網(wǎng)頁(yè)的頁(yè)面原始內(nèi)容。使用該數(shù)據(jù)集作為實(shí)驗(yàn)的文檔集,測(cè)試查詢(xún)擴(kuò)展的效率。通過(guò)表2詳細(xì)展示本文的數(shù)據(jù)集使用情況。
表2 數(shù)據(jù)集詳細(xì)信息Tab.2 Dataset details
本文在評(píng)估擴(kuò)展結(jié)果的效率時(shí),選擇P@n 指標(biāo)、mAP(mean Average Precision)指標(biāo)以及vmAP(variable mAP)指標(biāo)。
P@n 指標(biāo)是指在返回的前n 個(gè)結(jié)果中的精確度,使用式(5)表示:
其中:P@n是所求的指標(biāo)結(jié)果,Nc是前n個(gè)結(jié)果中正確的結(jié)果個(gè)數(shù)。在本文實(shí)驗(yàn)中,重點(diǎn)留意P@1 指標(biāo),使用這個(gè)值代表至少能擴(kuò)展一個(gè)正確的擴(kuò)展詞的能力指標(biāo)。
mAP指標(biāo)是對(duì)平均精度再做均值,使用式(6)表示:
其中:r 是每個(gè)相關(guān)結(jié)果的排名,S 是相關(guān)結(jié)果的總數(shù),P@r 是前r 個(gè)返回得到的相關(guān)結(jié)果的精度。在查詢(xún)擴(kuò)展領(lǐng)域中,將查詢(xún)?cè)~的擴(kuò)展詞加入檢索關(guān)鍵詞中,從而提高檢索效率。在實(shí)際使用中往往不需要擴(kuò)展出過(guò)于大量的詞語(yǔ),因?yàn)殡S著擴(kuò)展詞數(shù)量的增加,會(huì)出現(xiàn)語(yǔ)義漂移的現(xiàn)象,造成擴(kuò)展詞與實(shí)際查詢(xún)中的詞語(yǔ)語(yǔ)義不符,反而降低了查詢(xún)效率。本文在mAP指標(biāo)中著重參考mAP@3,將這個(gè)值作為查詢(xún)擴(kuò)展的平均擴(kuò)展能力評(píng)估指標(biāo)。
上述兩個(gè)指標(biāo)是信息檢索領(lǐng)域常用的指標(biāo)。本文提出一種新的評(píng)估指標(biāo)vmAP,在mAP 的基礎(chǔ)上進(jìn)行改良,使用一組權(quán)值,根據(jù)擴(kuò)展詞出現(xiàn)的順位不同,對(duì)它們的得分進(jìn)行加權(quán)處理。使得高順位的擴(kuò)展詞對(duì)總得分的影響大于低順位的擴(kuò)展詞。本文在實(shí)驗(yàn)中重點(diǎn)使用vmAP@5作為評(píng)估模型擴(kuò)展大數(shù)量擴(kuò)展詞時(shí)的能力評(píng)估指標(biāo)。
以上給出查詢(xún)擴(kuò)展中詞擴(kuò)展階段的評(píng)估指標(biāo),在查詢(xún)擴(kuò)展任務(wù)中的綜合性能指標(biāo)使用mAP@10 與vmAP@10,并且使用Recall作為查全率指標(biāo),查全率的計(jì)算方式如式(7)所示:
其中:TP(True Positive)為返回文檔中有效的文檔數(shù)量,F(xiàn)N(False Negative)為未返回的文檔中有效文檔的數(shù)量。
由于查詢(xún)?nèi)蝿?wù)中對(duì)返回結(jié)果的標(biāo)記過(guò)程包含主觀性,并且查全率中FN的全量標(biāo)記任務(wù)量過(guò)大,本文在查全率計(jì)算時(shí)使用互聯(lián)網(wǎng)語(yǔ)料庫(kù)中的精簡(jiǎn)數(shù)據(jù)集作為測(cè)試集,并對(duì)返回前100內(nèi)的有效文檔均標(biāo)記為T(mén)P,記該評(píng)估標(biāo)準(zhǔn)為Recall@100。
首先使用“成功”一詞測(cè)試語(yǔ)義相關(guān)模型,其擴(kuò)展的前5順位的擴(kuò)展詞為“成就、順利、成事、有成、勝利”,而使用傳統(tǒng)Word2vec 擴(kuò)展的結(jié)果為“順利、失敗、嘗試、取得成功、獲取成功”。可以明顯看出,語(yǔ)義相關(guān)模型的擴(kuò)展方式是基于語(yǔ)義的,而Word2vec更多是根據(jù)詞語(yǔ)的上下文相似性。
在實(shí)驗(yàn)中,本文使用語(yǔ)義相關(guān)性模型與Word2vec 模型對(duì)熱門(mén)與冷門(mén)的1 000個(gè)查詢(xún)?cè)~進(jìn)行擴(kuò)展效果比對(duì)。
在熱門(mén)搜索詞的擴(kuò)展結(jié)果中,發(fā)現(xiàn)語(yǔ)義相關(guān)模型與Word2vec模型均可以表現(xiàn)出不錯(cuò)的性能,如表3所示,雖然兩種模型擴(kuò)展的風(fēng)格不同,但是作為擴(kuò)展詞均可以提供不錯(cuò)的應(yīng)用效果。但是由于語(yǔ)義相關(guān)模型所需的訓(xùn)練數(shù)據(jù)量遠(yuǎn)遠(yuǎn)小于Word2vec 的訓(xùn)練數(shù)據(jù),所以在部分詞語(yǔ)的擴(kuò)展結(jié)果上效果較差于Word2vec。
如表4 所示,語(yǔ)義相關(guān)模型在三種指標(biāo)下的得分較為平均,而Word2vec 模型在單一擴(kuò)展能力上擁有較高的性能。經(jīng)過(guò)實(shí)驗(yàn)比對(duì),在平均擴(kuò)展能力與大數(shù)量擴(kuò)展能力上,本文模型基本維持了與Word2vec 相同的水平能力,但是在單一擴(kuò)展的對(duì)比上效果不佳。
表4 熱門(mén)搜索詞擴(kuò)展評(píng)估對(duì)比 單位:%Tab.4 Popular search term extension evaluation comparison unit:%
在此基礎(chǔ)上,本文進(jìn)一步使用基于Word2vec、近義詞林以及語(yǔ)義相關(guān)模型的查詢(xún)擴(kuò)展方法在真實(shí)文檔集中進(jìn)行查詢(xún)擴(kuò)展性能評(píng)估實(shí)驗(yàn)。如表5中所示,基于Word2vec、近義詞林、語(yǔ)義相關(guān)模型的查詢(xún)擴(kuò)展方法得到的評(píng)分性能均高于不使用查詢(xún)擴(kuò)展時(shí)的評(píng)分性能,并且通過(guò)分析得到,使用語(yǔ)義相關(guān)模型方法的查全率提升略?xún)?yōu)于基于Word2vec的查詢(xún)擴(kuò)展方法。
表5 熱門(mén)搜索詞查詢(xún)擴(kuò)展綜合評(píng)估對(duì)比 單位:%Tab.5 Query extension comprehensive evaluation comparison for popular search terms unit:%
上述實(shí)驗(yàn)僅僅是在熱門(mén)搜索詞中的性能表現(xiàn),而查詢(xún)擴(kuò)展任務(wù)的應(yīng)用場(chǎng)景反而是在冷門(mén)查詢(xún)中,本文繼續(xù)使用最冷門(mén)的1 000個(gè)搜索詞作為數(shù)據(jù)進(jìn)行擴(kuò)展比對(duì)。
在冷門(mén)詞語(yǔ)中,發(fā)現(xiàn)Word2vec 的部分?jǐn)U展詞匯呈現(xiàn)出一種混亂的表現(xiàn),而本文模型卻表現(xiàn)依然穩(wěn)定,甚至更加出眾。如表6所示,當(dāng)對(duì)“馬虎”和“村寨”進(jìn)行擴(kuò)展時(shí),Word2vec的擴(kuò)展效果不盡如人意??梢钥闯?,由于冷門(mén)詞語(yǔ)在語(yǔ)料中出現(xiàn)的頻率較低,獲得的訓(xùn)練效果較差,并且Word2vec 傾向?qū)⒋龜U(kuò)展詞擴(kuò)展為訓(xùn)練語(yǔ)料中上下文相關(guān)的詞語(yǔ),如“村寨”與“少數(shù)民族”,此時(shí)語(yǔ)義相關(guān)模型的擴(kuò)展效果便更加突出。
通過(guò)表7 中的實(shí)驗(yàn)結(jié)果可以看出,在冷門(mén)數(shù)據(jù)中,語(yǔ)義相關(guān)模型依然保持了較高的擴(kuò)展水平,而Word2vec 由于受到冷門(mén)詞語(yǔ)的限制,擴(kuò)展效率大幅度降低。查詢(xún)擴(kuò)展任務(wù)往往在冷門(mén)查詢(xún)時(shí)急需,對(duì)于熱門(mén)查詢(xún),由于擁有足量的數(shù)據(jù)支持,已經(jīng)可以提供給用戶足夠的返回結(jié)果,所以并不需要查詢(xún)擴(kuò)展的過(guò)多介入。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),Word2vec 作為查詢(xún)擴(kuò)展模型對(duì)冷門(mén)查詢(xún)?cè)~進(jìn)行擴(kuò)展時(shí),擴(kuò)展性能急劇下降。而語(yǔ)義相關(guān)模型在面對(duì)冷門(mén)查詢(xún)時(shí)依然保持了較高的擴(kuò)展性能,遠(yuǎn)優(yōu)于傳統(tǒng)Word2vec模型。
表6 冷門(mén)搜索詞擴(kuò)展對(duì)比實(shí)驗(yàn)Tab.6 Unpopular search term extension comparison experiment
表7 冷門(mén)搜索詞擴(kuò)展評(píng)估對(duì)比 單位:%Tab.7 Unpopular search term extension evaluation comparison unit:%
根據(jù)表8 分析,在冷門(mén)搜索詞進(jìn)行查詢(xún)?nèi)蝿?wù)時(shí),整體查詢(xún)性能均有所降低,查全率下降尤其明顯。使用基于Word2vec的查詢(xún)擴(kuò)展方法對(duì)冷門(mén)搜索進(jìn)行擴(kuò)展時(shí)由于語(yǔ)義偏離較大,導(dǎo)致整體查詢(xún)性能降低。而使用語(yǔ)義相關(guān)模型進(jìn)行深度語(yǔ)義特征提取后,依然保持了較高的查詢(xún)擴(kuò)展性能。
表8 冷門(mén)搜索詞查詢(xún)擴(kuò)展綜合評(píng)估對(duì)比 單位:%Tab.8 Query extensions comprehensive evaluation comparison for unpopular search terms unit:%
如2.2 節(jié)所示,本文針對(duì)“哈工大近義詞林?jǐn)U展版”與“語(yǔ)言知識(shí)庫(kù)HowNet 義原標(biāo)注數(shù)據(jù)”進(jìn)行可擴(kuò)展詞分布的抽取。如表9 所示,本節(jié)將分別對(duì)兩種語(yǔ)義語(yǔ)料的可擴(kuò)展詞分布進(jìn)行訓(xùn)練,以此來(lái)分析兩種語(yǔ)料對(duì)模型整體效果的作用,使用1 000 個(gè)冷門(mén)查詢(xún)?cè)~作為測(cè)試數(shù)據(jù)。實(shí)驗(yàn)結(jié)果展示出兩種語(yǔ)義語(yǔ)料對(duì)模型均擁有很強(qiáng)的增強(qiáng)效果:在P@1與mAP@3兩個(gè)指標(biāo)中,近義詞林所提取的可擴(kuò)展詞分布對(duì)模型提升擁有更好的效果;vmAP@5 指標(biāo)中,兩種語(yǔ)義語(yǔ)料所提取的可擴(kuò)展詞分布效果相近,義原分析方法擁有輕微的優(yōu)勢(shì)。
表9 語(yǔ)義語(yǔ)料組合實(shí)驗(yàn)結(jié)果Tab.9 Experimental results of semantic corpus combination
將兩種語(yǔ)義語(yǔ)料組合進(jìn)行模型訓(xùn)練可以獲得更優(yōu)的結(jié)果,根據(jù)實(shí)驗(yàn)結(jié)果分析,近義詞林與義原分析均含有較強(qiáng)的語(yǔ)義信息,并且部分語(yǔ)義信息是重疊,但并非完全重疊。所以多語(yǔ)義語(yǔ)料組合訓(xùn)練時(shí),模型學(xué)習(xí)到了更多的語(yǔ)義信息。
在2.2.1 節(jié)中,使用兩種參數(shù)控制可擴(kuò)展詞分布的提取,其中n 代表選擇的近義等級(jí),m 代表最大的關(guān)系詞數(shù)量。當(dāng)待擴(kuò)展詞的近義詞數(shù)量大于所需的m 值時(shí),使用隨機(jī)抽取的方法抽取m個(gè)詞語(yǔ)作為關(guān)系詞。
近義等級(jí)有1 到5,共5 種級(jí)別,本文針對(duì)近義等級(jí)的差別分別進(jìn)行實(shí)驗(yàn),如表10 所示,隨著近義等級(jí)的提高,詞語(yǔ)間的語(yǔ)義相似性更加密切,P@1 指數(shù)獲得更好提升。但是隨著近義等級(jí)的提升,組內(nèi)近義詞數(shù)量迅速下降,導(dǎo)致vmAP@5指數(shù)降低。分析實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)降低近義等級(jí)可以提高vmAP@5 的評(píng)分,但是過(guò)低的近義等級(jí),如2 和1,會(huì)使得近義性過(guò)于泛化,致使vmAP@5降低。本文最終選擇使用近義等級(jí)為4作為最優(yōu)參數(shù)。
表10 近義等級(jí)選擇實(shí)驗(yàn)結(jié)果 單位:%Tab.10 Experimental results of proximity level selection unit:%
本文同樣對(duì)最大關(guān)系詞數(shù)量進(jìn)行比對(duì)實(shí)驗(yàn),如表11 所示,當(dāng)最大關(guān)系詞數(shù)量低于5時(shí),vmAP@5的得分急劇下降,當(dāng)最大關(guān)系詞數(shù)量低于3時(shí),mAP@3的得分開(kāi)始急劇下降。
表11 最大關(guān)系詞數(shù)量選擇實(shí)驗(yàn)結(jié)果 單位:%Tab.11 Experimental results of maximum number of relative words selection unit:%
實(shí)驗(yàn)表明,由于vmAP@5取前5順位的擴(kuò)展詞進(jìn)行得分計(jì)算,當(dāng)最大關(guān)系詞數(shù)量低于5 時(shí),得分下降非常明顯。同理mAP@3 在最大關(guān)系詞數(shù)量低于3 時(shí),得分下降明顯。P@1 值由于只需要擴(kuò)展一個(gè)詞語(yǔ),所以最大關(guān)系詞數(shù)量越低,反而精度更高。當(dāng)最大關(guān)系詞數(shù)量高于5 時(shí),由于語(yǔ)義產(chǎn)生泛化,三種得分均呈現(xiàn)不同程度的降低,最終選擇5 作為最大關(guān)系詞數(shù)量的取值。
在2.2.2 節(jié)中,對(duì)義原分析同樣提出了兩種參數(shù),其中使用p作為判斷詞語(yǔ)間相關(guān)聯(lián)的義原關(guān)聯(lián)度閾值,m作為每組關(guān)系詞組的最大關(guān)系詞數(shù)量。義原關(guān)聯(lián)度即通過(guò)義原值向量化后,兩個(gè)詞語(yǔ)的義原值向量間的余弦相似度。
本文使用一組特殊的數(shù)值作為實(shí)驗(yàn)數(shù)值,如表12所示。
表12 義原關(guān)聯(lián)度閾值選擇實(shí)驗(yàn)結(jié)果 單位:%Tab.12 Experimental results of sememe correlation degree threshold selection unit:%
義原關(guān)聯(lián)度閾值的提升會(huì)導(dǎo)致計(jì)算所得的義原關(guān)聯(lián)詞減少,最終導(dǎo)致mAP@3 與vmAP@5 這類(lèi)需要計(jì)算多個(gè)擴(kuò)展詞的指標(biāo)得分降低,而閾值的提高使得精度提升,會(huì)使P@1 得分提高。其中0.5 與0.67 兩個(gè)閾值的綜合得分較高,0.5 閾值的mAP@3 與vmAP@5兩組指標(biāo)得分有略微的提升,但是0.67閾值的P@1 得分更為突出,最終綜合考慮,使用義原關(guān)聯(lián)度閾值為0.67 作為最優(yōu)的參數(shù)選擇。在義原分析實(shí)驗(yàn)中,最大關(guān)系詞數(shù)量值m 與3.4 節(jié)中所做的最大關(guān)系詞數(shù)量實(shí)驗(yàn)結(jié)果相近,最終選擇最大關(guān)系詞數(shù)量為5作為最終的參數(shù)。
本文使用一種簡(jiǎn)單而有效的神經(jīng)網(wǎng)絡(luò)模型完成查詢(xún)擴(kuò)展任務(wù)。這種模型可以從近義詞林、語(yǔ)言知識(shí)庫(kù)等數(shù)據(jù)中抽取查詢(xún)?cè)~的局部可擴(kuò)展詞分布,并通過(guò)神經(jīng)網(wǎng)絡(luò)將其擬合為全局可擴(kuò)展詞分布,實(shí)現(xiàn)查詢(xún)擴(kuò)展功能。通過(guò)多組實(shí)驗(yàn)將本文模型與其他方法進(jìn)行對(duì)比,分析模型的優(yōu)勢(shì),并且進(jìn)行多組輔助實(shí)驗(yàn)對(duì)模型細(xì)節(jié)進(jìn)行設(shè)計(jì)與分析。語(yǔ)義相關(guān)模型的設(shè)計(jì)擁有可擴(kuò)展性,本文提到使用近義詞林與語(yǔ)言知識(shí)庫(kù)作為主要的訓(xùn)練語(yǔ)料,并且取得不錯(cuò)的實(shí)驗(yàn)效果;但是語(yǔ)義相關(guān)度的提煉可以使用更多的基礎(chǔ)語(yǔ)料。未來(lái)我們計(jì)劃進(jìn)一步增加可擴(kuò)展詞分布提取層面的工作,使用更多基礎(chǔ)語(yǔ)料獲取語(yǔ)義相關(guān)性。本文使用簡(jiǎn)單而有效的淺層神經(jīng)網(wǎng)絡(luò)將局部可擴(kuò)展詞分布訓(xùn)練擬合為全局可擴(kuò)展詞分布,未來(lái)計(jì)劃將該模塊接入到其他深度學(xué)習(xí)模型中,進(jìn)行實(shí)驗(yàn)論證,從而獲取更佳效果。