溫有奎(1. 中國(guó)科學(xué)技術(shù)信息研究所,北京 100038;2. 北京萬(wàn)方數(shù)據(jù)股份有限公司,北京 100038)
信息檢索系統(tǒng)的關(guān)聯(lián)關(guān)鍵詞推薦研究
溫有奎1,2
(1. 中國(guó)科學(xué)技術(shù)信息研究所,北京 100038;2. 北京萬(wàn)方數(shù)據(jù)股份有限公司,北京 100038)
目前的信息檢索系統(tǒng)對(duì)用戶(hù)是不透明的,用戶(hù)需要以猜想方式向系統(tǒng)提問(wèn)并反復(fù)瀏覽檢出結(jié)果來(lái)判斷信息價(jià)值。大數(shù)據(jù)加劇了用戶(hù)因篩選驚人文獻(xiàn)量而導(dǎo)致的精神上和時(shí)間上的壓力,且壓力隨著跨學(xué)科、多關(guān)聯(lián)度信息檢索需求的上升而越來(lái)越明顯。本文提出一種關(guān)鍵詞關(guān)聯(lián)推薦的方法,解決過(guò)去由用戶(hù)先猜想輸入一個(gè)覆蓋面大的檢索詞,再通過(guò)瀏覽縮小檢索范圍的方法,變?yōu)橛捎脩?hù)選擇系統(tǒng)推薦的內(nèi)部關(guān)鍵詞關(guān)聯(lián)組配的方式來(lái)提高檢索精確度。實(shí)驗(yàn)證明,這種關(guān)鍵詞關(guān)聯(lián)推薦方法大大提高了信息檢索系統(tǒng)的檢索精度,同時(shí)減輕了用戶(hù)的信息檢索壓力。
組配;關(guān)聯(lián)推薦;信息檢索
隨著我國(guó)科研投入的加大、創(chuàng)新步伐的加快,中國(guó)科研論文數(shù)量躍居世界第二。信息數(shù)量的急速增長(zhǎng)和跨學(xué)科創(chuàng)新研究的加劇,給科研工作者快速查明科技文獻(xiàn)的精準(zhǔn)信息帶來(lái)了精神上和時(shí)間上的極大壓力。目前的信息檢索系統(tǒng)大多基于用戶(hù)與系統(tǒng)的關(guān)鍵詞匹配的檢索原理,這種檢索方法簡(jiǎn)單、快速,但檢索系統(tǒng)對(duì)用戶(hù)來(lái)講是不透明的,這種檢索方式是一種猜想式的檢索,難以解決用戶(hù)與系統(tǒng)的透明、精確檢索要求。因此,需要開(kāi)發(fā)一種根據(jù)用戶(hù)搜索詞推薦關(guān)聯(lián)關(guān)鍵詞組配的透明檢索方法,將以往的用戶(hù)猜想檢索方式轉(zhuǎn)變?yōu)橛脩?hù)選擇關(guān)聯(lián)關(guān)系的檢索方式,以提高學(xué)術(shù)信息檢索系統(tǒng)的效率。
信息檢索的基本原理和機(jī)制是系統(tǒng)對(duì)信息集合與需求集合的匹配與選擇。經(jīng)典的信息檢索模型使用一組具有代表性的關(guān)鍵詞(索引詞)來(lái)描述數(shù)據(jù)庫(kù)中的每一篇文檔。關(guān)鍵詞由文檔中的一些能反映主題的簡(jiǎn)單單詞構(gòu)成,通過(guò)它們可以與數(shù)據(jù)庫(kù)中的文檔相聯(lián)系。經(jīng)典信息檢索模型主要包括布爾檢索模型、向量檢索模型及概率模型[1]。
目前的信息檢索系統(tǒng)大多基于經(jīng)典的信息檢索模型,用戶(hù)向系統(tǒng)輸入搜索詞,系統(tǒng)根據(jù)用戶(hù)搜索詞查找系統(tǒng)內(nèi)部的關(guān)鍵詞索引,如果關(guān)鍵詞索引與搜索詞有匹配,系統(tǒng)會(huì)給出關(guān)鍵詞所代表的檢索結(jié)果。這種檢索方法簡(jiǎn)單,但檢索系統(tǒng)對(duì)用戶(hù)來(lái)講是不透明的,這種檢索原理是一種猜想式的檢索方法。因此,在用戶(hù)檢索時(shí),用戶(hù)首先給出一個(gè)概念很大的搜索詞試探檢索,這樣系統(tǒng)會(huì)給出成千上萬(wàn)條檢索結(jié)果,需要用戶(hù)反復(fù)瀏覽檢索結(jié)果來(lái)調(diào)整檢索詞以便達(dá)到縮小檢索范圍的目的。為了提高海量數(shù)據(jù)檢索的精度,大多數(shù)學(xué)術(shù)文獻(xiàn)檢索系統(tǒng)增加了高級(jí)檢索功能,即設(shè)置了多個(gè)檢索詞來(lái)實(shí)現(xiàn)邏輯條件(與、或、非)的限定檢索方法。高級(jí)檢索方法的增加起到了一定的限定檢索范圍的作用,使得檢索精度有所提高,檢索結(jié)果的輸出有所專(zhuān)指,但這種方法并沒(méi)有改變用戶(hù)與檢索系統(tǒng)之間不透明的本質(zhì)。由于用戶(hù)與系統(tǒng)之間存在文獻(xiàn)信息組織的不透明,若用戶(hù)利用高級(jí)檢索功能使用多個(gè)假設(shè)的關(guān)鍵詞進(jìn)行邏輯(與、或、非)限定,用戶(hù)使用的自由詞與系統(tǒng)的標(biāo)引詞不一致,將會(huì)導(dǎo)致檢索結(jié)果為0的悲劇。其實(shí)系統(tǒng)里有與用戶(hù)搜索詞關(guān)聯(lián)的關(guān)鍵詞組合,只是用戶(hù)事先難以知道罷了。用戶(hù)事先難以了解信息檢索系統(tǒng)中他所需要的精確關(guān)聯(lián)信息,因此用戶(hù)也就難以給出一個(gè)理想的關(guān)鍵詞從信息檢索系統(tǒng)中找到滿(mǎn)意的文獻(xiàn)信息。尤其是,學(xué)術(shù)性檢索系統(tǒng)比社會(huì)網(wǎng)絡(luò)檢索系統(tǒng)要求的檢索精度要高,跨學(xué)科信息檢索越來(lái)越普遍,而目前海量數(shù)據(jù)常常給用戶(hù)搜索詞的選擇上帶來(lái)了時(shí)間上和精神上的極大壓力。
大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)技術(shù)的發(fā)展使得科技文獻(xiàn)的管理和獲取途徑大大提升,尤其是目前網(wǎng)絡(luò)搜索引擎推出的一鍵式訪(fǎng)問(wèn)模式給用戶(hù)帶來(lái)了極大便利,用戶(hù)只要輸入一個(gè)簡(jiǎn)單的關(guān)鍵詞,系統(tǒng)就會(huì)給出相關(guān)聯(lián)的足夠多的信息,用戶(hù)可以通過(guò)瀏覽選取所需信息。網(wǎng)絡(luò)信息大多是新聞和消息類(lèi)的信息,用戶(hù)瀏覽信息的多少并不影響用戶(hù)心情。但對(duì)于學(xué)術(shù)性信息檢索系統(tǒng),用戶(hù)的需求不僅僅是瀏覽,而是獲取精確的信息。因此,提高檢索的精準(zhǔn)性是學(xué)術(shù)信息檢索系統(tǒng)的重要目標(biāo)。而目前的學(xué)術(shù)信息檢索系統(tǒng)模仿了時(shí)髦的網(wǎng)絡(luò)檢索系統(tǒng)的一鍵式檢索模型,卻對(duì)精確檢索功能和深度挖掘功能沒(méi)有加以重視,因而在漸漸地失去用戶(hù)。美國(guó)霍普金斯大學(xué)張甲博士指出,“目前的發(fā)現(xiàn)系統(tǒng)雖然模仿了Google的一個(gè)檢索框,卻沒(méi)有抓住讀者點(diǎn)擊進(jìn)入后的知識(shí)過(guò)濾行為的特點(diǎn)和共性”[2]。車(chē)天文提出一種用戶(hù)檢索詞推薦的方法及系統(tǒng)[3],這種方法有一定的參考價(jià)值,但有其局限性,因?yàn)樗阉饕娲蠖嘁罁?jù)用戶(hù)日志文件進(jìn)行檢索詞推薦,不具有反映信息檢索系統(tǒng)信息關(guān)聯(lián)組合的全面性,因而其推薦會(huì)失去全面性功能。岑詠華等研究了用戶(hù)當(dāng)前檢索關(guān)鍵詞的關(guān)聯(lián)推薦方法[4],但該方法只推薦了單個(gè)關(guān)聯(lián)關(guān)鍵詞的概率,沒(méi)有給出關(guān)聯(lián)關(guān)鍵詞在數(shù)據(jù)庫(kù)中的組合信息,仍需要用戶(hù)使用展示的關(guān)鍵詞進(jìn)行組合以實(shí)現(xiàn)精細(xì)檢索,這樣仍然存在組配信息不明的問(wèn)題。并且,若用戶(hù)不使用組配檢索,只選用單個(gè)推薦詞,則會(huì)進(jìn)入另一個(gè)相關(guān)詞的領(lǐng)域,這樣就會(huì)偏離用戶(hù)最終目標(biāo)。本文提出信息檢索系統(tǒng)的關(guān)聯(lián)關(guān)鍵詞推薦思路,尋求解決用戶(hù)信息檢索過(guò)程壓力的方法,提高信息檢索系統(tǒng)的滿(mǎn)意度。
2.1 關(guān)聯(lián)關(guān)鍵詞推薦方法流程
關(guān)聯(lián)推薦方法在電子商務(wù)、在線(xiàn)音樂(lè)、在線(xiàn)新聞、社交網(wǎng)絡(luò)、個(gè)性化搜索等諸多方面表現(xiàn)出其不可替代的作用。由于其能夠?qū)崿F(xiàn)的可定制功能,使得可以針對(duì)不同的用戶(hù)提供個(gè)性化服務(wù),更能夠讓用戶(hù)從海量數(shù)據(jù)中更輕易地定位到自己所需的信息,提高使用體驗(yàn)。目前主要使用的推薦策略包括基于用戶(hù)的推薦、基于物品的推薦、關(guān)聯(lián)規(guī)則推薦、協(xié)同過(guò)濾推薦,等等[5]。
為解決信息檢索系統(tǒng)對(duì)用戶(hù)不透明引起的檢索壓力過(guò)大的問(wèn)題,本文采用基于用戶(hù)搜索詞的關(guān)聯(lián)關(guān)鍵詞推薦方法,提高檢索系統(tǒng)的透明度,提高信息檢索的精確度。本文的關(guān)聯(lián)關(guān)鍵詞推薦方法流程如圖1所示。
圖1 關(guān)聯(lián)關(guān)鍵詞推薦算法流程
具體步驟說(shuō)明:①用戶(hù)向信息檢索系統(tǒng)輸入檢索詞;②從信息檢索系統(tǒng)讀取用戶(hù)搜索詞;③經(jīng)詞匯分析器分析用戶(hù)搜索詞與信息檢索系統(tǒng)關(guān)鍵詞匹配情況,若匹配則直接推薦系統(tǒng)關(guān)鍵詞,否則,從信息檢索系統(tǒng)選擇能表達(dá)用戶(hù)搜索詞的系統(tǒng)關(guān)鍵詞;④從信息檢索系統(tǒng)讀取與用戶(hù)匹配的關(guān)鍵詞,放入關(guān)鍵詞選擇器;⑤將關(guān)鍵詞推薦給推薦域生成器;⑥從信息檢索系統(tǒng)讀取推薦域需要的關(guān)鍵詞和元數(shù)據(jù)ID號(hào);⑦將推薦域內(nèi)的關(guān)鍵詞送入關(guān)聯(lián)推薦算法進(jìn)行運(yùn)算;⑧將推薦結(jié)果送入推薦結(jié)果顯示器中;⑨用戶(hù)選擇關(guān)注度高的推薦結(jié)果存放在用戶(hù)關(guān)注度選擇器中;⑩將用戶(hù)選擇的推薦結(jié)果送入信息檢索系統(tǒng),信息檢索系統(tǒng)給出用戶(hù)滿(mǎn)意的檢索結(jié)果。
2.2 關(guān)聯(lián)關(guān)鍵詞推薦算法
①令A(yù)為輸入搜索詞;
②令B為系統(tǒng)匹配關(guān)鍵詞;
③若A≠B,則執(zhí)行用戶(hù)重新輸入搜索詞⑩;否則執(zhí)行④;
④建立以B為推薦域的事務(wù)數(shù)據(jù)庫(kù)T;
⑤設(shè)I={I1,I2,I3,…,Im}是一個(gè)有m個(gè)項(xiàng)的集合,事務(wù)是k個(gè)項(xiàng)組成的集合,記為所有t組成集合事務(wù)數(shù)據(jù)T,其中,
⑥計(jì)算支持度supp(X)=|τ(X)|/|T|;
⑧按照最小置信度倒序排列輸出推薦結(jié)果;用戶(hù)選擇推薦方案,轉(zhuǎn)入系統(tǒng)檢索,輸出推薦結(jié)果;
⑨推薦系統(tǒng)結(jié)束;
⑩請(qǐng)用戶(hù)更換搜索詞。
2.3 頻繁項(xiàng)集挖掘算法
關(guān)聯(lián)規(guī)則推薦最重要的是尋找置信度大于置信度閾值的頻繁項(xiàng)集,這個(gè)過(guò)程包含兩個(gè)步驟:(1)找出交易數(shù)據(jù)庫(kù)中所有支持度滿(mǎn)足支持度閾值的頻繁項(xiàng);(2)找出頻繁項(xiàng)集中置信度大于置信度閾值的項(xiàng)集,即尋找強(qiáng)關(guān)聯(lián)規(guī)則。相比于步驟(1),步驟(2)在執(zhí)行上所需的內(nèi)存、I/O和時(shí)間都比較小,因此,主要的工作是如何高效地從巨大的數(shù)據(jù)集中挖掘出頻繁項(xiàng)集。本文使用兩種方法實(shí)現(xiàn)頻繁項(xiàng)集挖掘。
(1)采用FP-樹(shù)頻集算法。針對(duì)Apriori算法的固有缺陷,采用FP-樹(shù)頻集算法分而治之的策略,在經(jīng)過(guò)第一遍掃描之后,把數(shù)據(jù)庫(kù)中的頻集壓縮進(jìn)一棵頻繁模式樹(shù)(FP-tree),同時(shí)保留其中的關(guān)聯(lián)信息,隨后再將FP-tree分化成一些條件庫(kù),每個(gè)庫(kù)和一個(gè)長(zhǎng)度為1的頻集相關(guān),然后再對(duì)這些條件庫(kù)分別進(jìn)行挖掘。
(2)采用Lucene實(shí)現(xiàn)頻繁項(xiàng)集。Lucene是一個(gè)全文檢索引擎框架,框架內(nèi)包括完整的檢索及索引模塊。利用Lucene的工具包,使用該工具包構(gòu)建事務(wù)(關(guān)鍵詞、文摘號(hào))庫(kù)T的索引功能和索引檢索功能實(shí)現(xiàn)關(guān)聯(lián)算法的頻繁項(xiàng)集挖掘。
3.1 搜索詞推薦系統(tǒng)界面比較
首先將本推薦系統(tǒng)與國(guó)內(nèi)著名的學(xué)術(shù)信息檢索系統(tǒng)“CNKI中國(guó)知網(wǎng)”和“百度學(xué)術(shù)”的搜索詞推薦功能界面進(jìn)行比較。實(shí)驗(yàn)數(shù)據(jù)都采用期刊庫(kù),檢索字段采用關(guān)鍵詞,用戶(hù)檢索詞采用“知識(shí)管理”?!癈NKI中國(guó)知網(wǎng)”檢索推薦界面如圖2所示,“百度學(xué)術(shù)”檢索推薦界面如圖3所示,本系統(tǒng)的關(guān)聯(lián)關(guān)鍵詞推薦界面如圖4所示。
圖2 “CNKI中國(guó)知網(wǎng)”檢索詞推薦界面
圖3 “百度學(xué)術(shù)”檢索詞推薦界面
圖4 本文的關(guān)聯(lián)關(guān)鍵詞推薦界面
3.2 搜索詞推薦系統(tǒng)功能比較
3.2.1 推薦詞對(duì)用戶(hù)搜索詞范圍限定功能測(cè)試
(1)“CNKI中國(guó)知網(wǎng)”的推薦詞。用戶(hù)使用“知識(shí)管理”檢索,“CNKI中國(guó)知網(wǎng)”獲取10 938條結(jié)果;采用系統(tǒng)推薦詞“知識(shí)管理系統(tǒng)”檢索,獲取2 117條結(jié)果;采用系統(tǒng)推薦詞“知識(shí)管理模型”檢索,獲取269條結(jié)果。由此可見(jiàn),“CNKI中國(guó)知網(wǎng)”推薦詞有限定檢索范圍的功能。
(2)“百度學(xué)術(shù)”的推薦詞。用戶(hù)使用“知識(shí)管理”檢索,獲取相關(guān)結(jié)果約352 000個(gè);采用系統(tǒng)推薦詞“知識(shí)管理系統(tǒng)”檢索,獲取相關(guān)結(jié)果約1 100 000個(gè)。使用推薦詞獲取的結(jié)果數(shù)量是使用原檢索詞獲取結(jié)果數(shù)量的3.125倍。使用系統(tǒng)推薦詞“知識(shí)管理模型”檢索,獲取相關(guān)結(jié)果約257 000個(gè)。由此可見(jiàn),“百度學(xué)術(shù)”推薦系統(tǒng)不具有對(duì)用戶(hù)搜索詞進(jìn)行范圍限定的功能。
3.2.2 推薦詞與檢索詞組配功能測(cè)試
(1)“CNKI中國(guó)知網(wǎng)”的推薦詞。使用系統(tǒng)推薦的組配檢索式“知識(shí)管理-顯性知識(shí)”進(jìn)行檢索,獲取結(jié)果數(shù)為0,即“CNKI中國(guó)知網(wǎng)”的推薦詞沒(méi)有與用戶(hù)檢索詞進(jìn)行組配檢索的功能。
(2)“百度學(xué)術(shù)”的推薦詞。使用系統(tǒng)推薦的組配檢索式“知識(shí)管理-顯性知識(shí)”進(jìn)行檢索,獲取相關(guān)結(jié)果約25 300個(gè)?!鞍俣葘W(xué)術(shù)”的推薦詞具有與用戶(hù)檢索詞進(jìn)行組配檢索的功能,但組配檢索不止限定在關(guān)鍵詞字段,而是限定在標(biāo)題、關(guān)鍵詞、文摘等多個(gè)字段。
3.2.3 “CNKI中國(guó)知網(wǎng)”“百度學(xué)術(shù)”與本推薦系統(tǒng)功能比較
(1)“CNKI中國(guó)知網(wǎng)”和“百度學(xué)術(shù)”的系統(tǒng)推薦功能具有以下特點(diǎn):①推薦了包含用戶(hù)檢索詞的左右字符串?dāng)U展詞匯;②擴(kuò)大了檢索詞的各種字面表達(dá)形式;③推薦詞與用戶(hù)搜索詞檢索范圍無(wú)關(guān);④推薦詞不是對(duì)用戶(hù)搜索詞進(jìn)行精確限定;⑤選擇推薦詞可能會(huì)偏離用戶(hù)最初目標(biāo)。
(2)本系統(tǒng)的關(guān)聯(lián)關(guān)鍵詞推薦的特點(diǎn):①界定了檢索詞所覆蓋的文獻(xiàn)范圍,即確定了標(biāo)引檢索詞的所有文摘號(hào);②揭示了信息檢索系統(tǒng)內(nèi)部關(guān)鍵詞多元關(guān)聯(lián)組配關(guān)系和數(shù)量;③揭示了內(nèi)容層面的關(guān)聯(lián)關(guān)系;④實(shí)現(xiàn)了細(xì)粒度的精確檢索;⑤實(shí)現(xiàn)了用戶(hù)按關(guān)聯(lián)度選擇所需信息。
通過(guò)上述分析可以看出,本系統(tǒng)的關(guān)聯(lián)關(guān)鍵詞推薦功能可限定搜索詞的推薦域,針對(duì)用戶(hù)搜索詞的推薦域給出了推薦域內(nèi)的關(guān)鍵詞組合信息。這樣解決了系統(tǒng)檢索的透明性問(wèn)題,因而提高了檢準(zhǔn)率;解決了試探性檢索轉(zhuǎn)為選擇性檢索的方法問(wèn)題,縮短了檢索操作的時(shí)間,減輕了用戶(hù)的檢索壓力。
本文采用基于用戶(hù)搜索詞的關(guān)聯(lián)關(guān)鍵詞推薦方法,提高檢索系統(tǒng)的透明度,提升信息檢索的精確度。與目前學(xué)術(shù)信息檢索系統(tǒng)的推薦功能比較,本文基于學(xué)術(shù)信息檢索系統(tǒng)進(jìn)行的數(shù)據(jù)挖掘和關(guān)聯(lián)關(guān)鍵詞推薦方法,優(yōu)點(diǎn)在于針對(duì)用戶(hù)的搜索詞,系統(tǒng)以關(guān)聯(lián)關(guān)鍵詞組配的方式進(jìn)行推薦,在解決信息檢索系統(tǒng)的透明性問(wèn)題、提高海量文獻(xiàn)信息檢索的準(zhǔn)確度、減少用戶(hù)信息檢索的壓力方面,做了初步的嘗試。
[1] 孫建軍.信息檢索技術(shù)[M].北京:科學(xué)出版社,2004.
[2] 秦鴻.關(guān)于發(fā)現(xiàn)系統(tǒng)的問(wèn)題與思考[J].數(shù)字圖書(shū)館論壇, 2012(7):17-20.
[3] 車(chē)天文,雷大偉,石志偉,等.一種用戶(hù)檢索詞推薦的方法及系統(tǒng):中國(guó),201310119667[P]. 2013-06-12.
[4] 岑詠華,鄧三鴻,王昊.關(guān)聯(lián)推薦及其在學(xué)術(shù)資源檢索網(wǎng)站中的應(yīng)用研究[J].圖書(shū)情報(bào)工作,2009,53(6):41-45,99.
[5] 孫明.基于語(yǔ)義的信息檢索與關(guān)聯(lián)推薦關(guān)鍵技術(shù)研究[D].成都:電子科技大學(xué),2015.
Information Retrieval Method of Association Keywords Recommendations
WEN YouKui1,2
(1. Institute of Scientific and Technical Information of China, Beijing 100038, China; 2. Beijing Wanfang Data Co., Ltd, Beijing 100038, China)
The current information retrieval system is opaque to the user, the user needs to guess the way to browse the system and repeatedly questioning the results of detection to determine the value of the information. Big data exacerbated the user filter amazing amount of literature which led to mental pressure and time, with the cross-disciplinary, multi-Correlation gradually increased demand for information retrieval, the pressure will be more and more obvious. This paper proposes a keyword associated with the method recommended in the past by the user to solve the conjecture enter a search term covering a large surface, narrow your search by browsing method, the user selects becomes automatic internal keyword group associated with ways to improve the retrieval Accuracy. Experiments prove that keyword association recommended method greatly improves the retrieval accuracy of information retrieval systems, while reducing the user's information retrieval pressure.
Match; Association Recommendations; Information Retrieval
G202
10.3772/j.issn.1673-2286.2016.4.002
溫有奎,男,1951年生,博士,教授,研究方向:文本挖掘、知識(shí)發(fā)現(xiàn),E-mail:wykui123@126.com。
2016-04-02)