李瑞霞 劉仁金 周先存
以目標(biāo)節(jié)點(diǎn)為導(dǎo)向的XML關(guān)鍵詞查詢和排序
李瑞霞 劉仁金 周先存
(皖西學(xué)院信息工程學(xué)院 安徽 六安 237012)
為了準(zhǔn)確推斷用戶的查詢意圖,提出一個(gè)XML關(guān)鍵詞查詢和排序的方法。該方法首先根據(jù)XML文檔結(jié)構(gòu)和語義,分別建立標(biāo)簽信息表和文本信息表表示文檔的結(jié)構(gòu)和數(shù)據(jù),然后通過標(biāo)簽和文本兩個(gè)指標(biāo)確定查詢關(guān)鍵詞和目標(biāo)節(jié)點(diǎn)的相似性得分,給出排序方法。同時(shí)給出該方法實(shí)現(xiàn)的算法,并通過實(shí)驗(yàn)驗(yàn)證了該方法的有效性。實(shí)驗(yàn)結(jié)果表明,該方法可以更準(zhǔn)確地推斷用戶查詢的目標(biāo)節(jié)點(diǎn)。
XML
查詢 排序 目標(biāo)節(jié)點(diǎn)
XML因其結(jié)構(gòu)靈活并易于擴(kuò)展,已成為當(dāng)前數(shù)據(jù)表示的主流形式。對于XML的關(guān)鍵詞查詢也是許多學(xué)者的研究熱點(diǎn),借助查詢語言XPath、XQery可以進(jìn)行準(zhǔn)確的查詢,但要求用戶對XML文檔結(jié)構(gòu)有所了解,并熟悉其語法,該方法未能廣泛應(yīng)用。針對XML的關(guān)鍵詞查詢因其簡單易用,已成為主要的信息檢索方法。XML關(guān)鍵詞查詢方面有大量的研究工作。文獻(xiàn)[1]把XML看作一個(gè)樹結(jié)構(gòu),通過計(jì)算LCA,專門提出“meer operator”的概念進(jìn)行查詢,其結(jié)果類型依賴XML文檔的實(shí)例。文獻(xiàn)[2]要求用戶了解XML文檔的部分知識(shí)實(shí)現(xiàn)查詢,設(shè)計(jì)了MLCS算法。2005年文獻(xiàn)[3]提出了SLCA的概念并且設(shè)計(jì)了三種有效的算法實(shí)現(xiàn)了一個(gè)XKSearch搜索系統(tǒng)。2007年文獻(xiàn)[4]基于SLCA,同時(shí)結(jié)合了“AND”、“OR”操作進(jìn)行關(guān)鍵字查詢。文獻(xiàn)[5]提出了XSeek,通過驗(yàn)證查詢關(guān)鍵詞和XML結(jié)構(gòu)的匹配模式獲得返回節(jié)點(diǎn)。文獻(xiàn)[6,7]利用多個(gè)指標(biāo)識(shí)別用戶的搜索意圖并進(jìn)行了結(jié)果排序,但是該方法沒有考慮包含文本節(jié)點(diǎn)的葉子節(jié)點(diǎn)的作用,因此并不能準(zhǔn)確地識(shí)別目標(biāo)節(jié)點(diǎn)。對于結(jié)果排序方面,2003年文獻(xiàn)[8]提出了XRank方法,計(jì)算LCAs處理XML關(guān)鍵字相似性查詢。該方法返回的結(jié)果是XML文檔的部分片段。文獻(xiàn)[9]返回的是具有語義關(guān)系的片段,但是由于該方法要求用戶需了解文檔的結(jié)構(gòu),因此該方法有其局限性。文獻(xiàn)[10]利用TF-IDF結(jié)合文檔結(jié)構(gòu)進(jìn)行異構(gòu)數(shù)據(jù)查詢及排序。文獻(xiàn)[11]利用統(tǒng)計(jì)學(xué)的思想進(jìn)行檢索結(jié)果排序。以上方法都是基于LCA及其變體,并沒有從根本上解決用戶的搜索意圖及結(jié)果排序的問題。
在XML關(guān)鍵字查詢中準(zhǔn)確地識(shí)別用戶的搜索意圖并將最相關(guān)的結(jié)果進(jìn)行排序已經(jīng)成為一個(gè)具有挑戰(zhàn)性的問題。由于在XML關(guān)鍵詞查詢結(jié)果中包含大量目標(biāo)節(jié)點(diǎn),導(dǎo)致提供給用戶的結(jié)果并不能滿足其需求,而且可能漏掉相關(guān)的結(jié)果。本文的目標(biāo)是要推斷符合用戶查詢意圖的目標(biāo)節(jié)點(diǎn)并且返回最相關(guān)的結(jié)果。該方法中,首先分別構(gòu)建一個(gè)標(biāo)簽信息表用來存儲(chǔ)文檔的元素和屬性節(jié)點(diǎn),一個(gè)文本信息表用來存儲(chǔ)文檔的元素和屬性的取值;然后通過檢索兩個(gè)表初步推斷目標(biāo)節(jié)點(diǎn)的類型,最后計(jì)算目標(biāo)節(jié)點(diǎn)和關(guān)鍵詞的相似性得分,并給出結(jié)果排序方法。
在文中XML文檔可以用一個(gè)帶有根節(jié)點(diǎn)的標(biāo)簽樹表示t=(r,NE,NV)。其中,r表示根節(jié)點(diǎn);NE為元素節(jié)點(diǎn)和屬性節(jié)點(diǎn)的集合;NV代表元素節(jié)點(diǎn)和屬性節(jié)點(diǎn)的取值的集合。根據(jù)XML文檔所包含的結(jié)構(gòu)和語義信息[12,13],本文作如下定義:
定義1 (標(biāo)簽節(jié)點(diǎn))XML文檔中的元素節(jié)點(diǎn)和屬性節(jié)點(diǎn)的總稱,存儲(chǔ)標(biāo)簽節(jié)點(diǎn)相關(guān)信息的表稱為標(biāo)簽信息表。
定義2 (文本節(jié)點(diǎn))XML文檔中的表示元素節(jié)點(diǎn)和屬性節(jié)點(diǎn)的取值,存儲(chǔ)文本節(jié)點(diǎn)相關(guān)信息的表稱為文本信息表。
定義3 (前綴路徑)XML文檔中用前綴路徑表示從根節(jié)點(diǎn)到當(dāng)前節(jié)點(diǎn)的所經(jīng)過的路徑,用path表示,存儲(chǔ)在標(biāo)簽信息表中。
如圖1所示,XML文檔包含若干節(jié)點(diǎn),其中″dblp″可以看作是根節(jié)點(diǎn),″phdthesis″、″proceedings″等表示文檔結(jié)構(gòu)的節(jié)點(diǎn)就是標(biāo)簽節(jié)點(diǎn),″title″、″publishing″等為葉子節(jié)點(diǎn),而″280″、″1998″等則表示葉子節(jié)點(diǎn)或者屬性的取值,也稱文本節(jié)點(diǎn)。
圖1 一個(gè)XML文檔樹的例子
關(guān)鍵詞查詢的目標(biāo)是從XML文檔集中找到與給定關(guān)鍵詞最相關(guān)的文檔或片段。本文提出的方法利用匹配XML文檔的標(biāo)簽和文本兩個(gè)指標(biāo)來識(shí)別目標(biāo)節(jié)點(diǎn),進(jìn)而綜合兩個(gè)指標(biāo)的相似性得分,最后給出了排序方法。主要分為如下幾個(gè)步驟:
(1) 為了在查詢過程中能夠識(shí)別用戶查詢目標(biāo)是標(biāo)簽還是文本,對XML文檔分別建立標(biāo)簽信息表和文本信息表;
(2) 對于一個(gè)給定的查詢,利用兩個(gè)指標(biāo)進(jìn)行匹配確定目標(biāo)節(jié)點(diǎn)類型;
(3) 利用對數(shù)函數(shù)和概率函數(shù)計(jì)算查詢關(guān)鍵詞和標(biāo)簽的相似性找到相關(guān)的目標(biāo)節(jié)點(diǎn);
(4) 計(jì)算包含文本節(jié)點(diǎn)的葉子節(jié)點(diǎn)和查詢關(guān)鍵字之間的相似性,進(jìn)一步識(shí)別目標(biāo)節(jié)點(diǎn);
(5) 通過綜合兩個(gè)指標(biāo)的相似性得分,對查詢結(jié)果進(jìn)行排序。
下面分別介紹各個(gè)步驟的實(shí)現(xiàn)方法。
2.1 兩個(gè)指標(biāo)
在文獻(xiàn)[6,7]中提到了頻率表,但是沒有確定查詢關(guān)鍵字是結(jié)構(gòu)節(jié)點(diǎn)還是文本節(jié)點(diǎn),所以導(dǎo)致查詢變得更復(fù)雜。為了克服該問題,本文提出的方法確定了兩個(gè)指標(biāo),即標(biāo)簽和文本。對于某特定的XML文檔,標(biāo)簽信息表存儲(chǔ)了相應(yīng)的標(biāo)簽信息(標(biāo)簽名tsn,標(biāo)簽在目標(biāo)節(jié)點(diǎn)及其子樹中出現(xiàn)的次數(shù)ft,目標(biāo)節(jié)點(diǎn)的前綴路徑path)。同樣,文本信息表里存儲(chǔ)了相應(yīng)的文本節(jié)點(diǎn)信息(文本值d,包含該文本節(jié)點(diǎn)的葉子節(jié)點(diǎn)的標(biāo)簽名tln,該文本節(jié)點(diǎn)在葉子節(jié)點(diǎn)中出現(xiàn)的次數(shù)fd)。由此看出,文本信息表里也包含了葉子節(jié)點(diǎn)的信息,所以兩個(gè)表共享XML文檔的信息。為了簡化查詢過程,本文分別對標(biāo)簽和文本來處理。
2.2 確定目標(biāo)節(jié)點(diǎn)的類型
對于一個(gè)給定的XML查詢,首先在標(biāo)簽信息表里查找匹配的關(guān)鍵詞,如果查找成功,則該查詢的目標(biāo)是標(biāo)簽記為Kt,同時(shí)可以從標(biāo)簽信息表獲得標(biāo)簽名tsn,標(biāo)簽在目標(biāo)節(jié)點(diǎn)及其子樹中出現(xiàn)的次數(shù)ft,目標(biāo)節(jié)點(diǎn)的前綴路徑path等信息;否則就從文本信息表里查找,如果匹配成功,則該查詢的目標(biāo)是文本信息記為Kd,包含該文本的葉子節(jié)點(diǎn)tln可以從該表獲得,而該葉子節(jié)點(diǎn)的其他信息ft,和path則從標(biāo)簽信息表獲得。
2.3 相似性得分
XML關(guān)鍵詞查詢中,關(guān)鍵詞可能在標(biāo)簽或者文本中出現(xiàn)一次或者一次以上,若找到一個(gè)以上的匹配結(jié)果,則需要找到最優(yōu)的目標(biāo)節(jié)點(diǎn)。因此本文借助對數(shù)函數(shù)和統(tǒng)計(jì)學(xué)的思想,計(jì)算檢索關(guān)鍵詞和目標(biāo)節(jié)點(diǎn)的相似性得分如下:
(1)
式中,k表示某查詢q中的某個(gè)關(guān)鍵詞,Tt表示標(biāo)簽信息里的標(biāo)簽,D表示文本信息里的文本值,f(tk)表示在每個(gè)前綴路徑上標(biāo)簽和關(guān)鍵詞匹配的次數(shù),f(td)表示關(guān)鍵詞匹配的文本值在葉子節(jié)點(diǎn)中出現(xiàn)的次數(shù),f(tk,td)表示在查詢中標(biāo)簽和文本值結(jié)合的次數(shù),rf是[0,1]之間的衰減因子,d(T)表示XML文檔中目標(biāo)節(jié)點(diǎn)的所在的層次,rfd(T)的作用是為了減少多層次嵌套帶來的影響。
從式(1)分析可以看出,該相似性得分并沒有考慮文本節(jié)點(diǎn)及其所在的葉子節(jié)點(diǎn)的作用,因此通過下面的處理進(jìn)一步查找最優(yōu)的目標(biāo)節(jié)點(diǎn)。
在文本信息表中查找匹配的文本,進(jìn)而可以找到包含該文本值的葉子節(jié)點(diǎn),因此我們借助標(biāo)簽信息表選擇節(jié)點(diǎn)所在的前綴路徑上出現(xiàn)次數(shù)最多的節(jié)點(diǎn)作為目標(biāo)節(jié)點(diǎn)。通過如下的方法計(jì)算前綴路徑上找到的目標(biāo)節(jié)點(diǎn)和查詢關(guān)鍵詞之間的相似性。
(2)
于是,最后的目標(biāo)節(jié)點(diǎn)和查詢關(guān)鍵詞相似性得分可以通過下式表示:
Similarity Score=Mscore+S(X)
(3)
由此可以看出,相似性函數(shù)綜合了標(biāo)簽和文本兩個(gè)指標(biāo)進(jìn)行匹配,從而可以獲得最優(yōu)的目標(biāo)節(jié)點(diǎn)。
2.4 排 序
通常,我們認(rèn)為和查詢關(guān)鍵詞相似性得分較高的節(jié)點(diǎn)應(yīng)該是最相關(guān)的結(jié)果,應(yīng)該優(yōu)先呈現(xiàn)給用戶。因此,本文通過如下的方法確定最終目標(biāo)節(jié)點(diǎn)。
G=Max{Mscore+S(x)}
(4)
下式表示目標(biāo)節(jié)點(diǎn)的排序方法:
(5)
3.1 主要實(shí)現(xiàn)算法
本文首先解析XML文檔,抽取文檔中元素或者屬性節(jié)點(diǎn)的標(biāo)簽名tsn、該節(jié)點(diǎn)的前綴路徑path、文本節(jié)點(diǎn)的前綴路徑path、節(jié)點(diǎn)值d、標(biāo)簽在目標(biāo)節(jié)點(diǎn)及其子樹中出現(xiàn)的次數(shù)ft、包含該文本節(jié)點(diǎn)的葉子節(jié)點(diǎn)的標(biāo)簽名tln以及該文本節(jié)點(diǎn)在葉子節(jié)點(diǎn)中出現(xiàn)的次數(shù)fd等信息,進(jìn)而獲得標(biāo)簽和文本信息,構(gòu)建標(biāo)簽信息表的的方法命名為tag_info table。構(gòu)建文本信息表的方法命名為data_info table,另外一個(gè)存儲(chǔ)前綴路徑信息的方法命名為path_info table。其中的空間復(fù)雜度為O(Nsn),而Nsn則和XML文檔中標(biāo)簽節(jié)點(diǎn)和文本節(jié)點(diǎn)的數(shù)量高度相關(guān)。主算法見算法1,分別包括三個(gè)程序:首先,通過get_IndexInfo獲得關(guān)鍵詞匹配標(biāo)簽和包含了文本的葉子節(jié)點(diǎn)的信息;對于每個(gè)前綴路徑,程序get_MutualScore計(jì)算匹配的標(biāo)簽和葉子節(jié)點(diǎn)的綜合相似性得分;最后,程序get_SimilarityScore計(jì)算出葉子節(jié)點(diǎn)和查詢關(guān)鍵詞的相似性,從而通過排序的方法得到目標(biāo)節(jié)點(diǎn)。
算法1 關(guān)鍵詞查詢中的目標(biāo)節(jié)點(diǎn)計(jì)算方法
輸入:包含了n個(gè)關(guān)鍵詞的查詢Q
1 get_IndexInfo(query keywords)
2 get_MutualScore(keyword match)
3 get_SimilarityScore(data keywords)
算法2檢索標(biāo)簽信息表和文本信息表確定檢索目標(biāo)是標(biāo)簽還是文本,同時(shí)獲得檢索到的標(biāo)簽名、出現(xiàn)次數(shù)等信息。程序Get_IndexInfo檢查標(biāo)簽信息表中是否包含查詢關(guān)鍵詞,同時(shí),通過調(diào)用dataExist檢查文本信息表中是否包含查詢關(guān)鍵詞(1-5行)。然后,對于每個(gè)標(biāo)簽關(guān)鍵詞kt調(diào)用了getFromTaginfo得到關(guān)鍵詞匹配的標(biāo)簽節(jié)點(diǎn)相關(guān)信息,存儲(chǔ)于taglist和slist(6-10行)。同樣,對于文本關(guān)鍵詞調(diào)用getFromDatainfo得到包含該節(jié)點(diǎn)的葉子節(jié)點(diǎn)的相關(guān)信息,并存儲(chǔ)于datalist和slist。
算法2 Get_IndexInfo(query)
input: Query Q containing n keywords
1 for each keyword ki ∈Query do
2 if taglist(ki)= true then
3 { kiis a tag keyword}
4 else if dataExist(ki) = true then
5 { kiis a data keyword}
6 for each tag keyword∈Query do
7 rs = getFromTaginfo (tki)
8 while ( rs.next)
9 result = tsn+ft+path
10 taglist(result); slist(result)
11 for each data keyword∈Query do
12 rs=getFromDatainfo(ai)
13 while (rs.next)
14 result = tln+fti十path
15 datalist (result); slist (result)
16 return slist0:
對于一個(gè)查詢Q,若包含了n個(gè)關(guān)鍵詞,則算法2的時(shí)間復(fù)雜度最壞的情況可以表示為O(n+nt×kmt+nd×kmd),n表示查詢關(guān)鍵詞的數(shù)量,nt和kmt分別代表標(biāo)簽節(jié)點(diǎn)和可以匹配的標(biāo)簽關(guān)鍵詞的數(shù)量;同樣,nd和kmd表示文本節(jié)點(diǎn)和可以匹配的葉子節(jié)點(diǎn)的數(shù)量。
算法3綜合標(biāo)簽和文本兩個(gè)方面得到目標(biāo)節(jié)點(diǎn)和關(guān)鍵詞之間的相似性得分。
算法3 Get_MutualScore(query,keyword match)
1 for each keyword matching tag ∈ Query do
2 f(tk) =getTagFrequency (query)
3 for each keyword matching data value ∈ Query do
4 f(td)=getDataFrequency(query)
5 Based on combination of tag and data in query, assign a value to cvalue
6 for each result ∈ slist() do
7 Splitpath from slist(); tagpath(path)
8 Based on cvalue. Construct queryStringqueries(queryString)
9 for (each queryString ∈ queries()) do
10 d = getCombinedFrequency (queryString)
11 f(tk,td) + = d
12 msum = lg(f(tk,td)/lg(f(tk)*f(td))
13 mscore = Msum*rdepth(T)
14 mlist(path, mscore)
15 retum mlist0:
算法4檢索文本信息表,進(jìn)一步計(jì)算了文本節(jié)點(diǎn)所在的葉子節(jié)點(diǎn)和查詢之間的相似性,結(jié)合算法3進(jìn)行了最終相似性得分的計(jì)算,并給出了排序的方法。
算法4 Get_similarityScore(data keyword)
1 for each datakeywords E Query do
2 rs = getFromData _info(dki)
3 while ( rs.next)
4 result = d +fd+tln+ id
5 dsimilar(result)
6 for each result ∈dsimilar() do
7 Get tag with biggest frequency; ltag= tln+fd+id
8 stag(ltag)
9 for each ltag ∈ stag do
10 rs = caIIReferences(id)
11 while (rs.next)
12 Get frequency fdGet path of ltag from path_info
13 for each data ∈ mlist do
14 if path in mList =poth from path_info then
15 Get mscore from mList
16 f=fd
17 S(x) =f + Lg(f)
18 SimilarityScore = mscore +S(x) ;
19 Grading = Max(SimilarityScore)
20 retum SimilarityScore
通過分析可以看出,在本方法中標(biāo)簽信息表最壞的空間復(fù)雜度為O(Nsn),文本信息表最壞的空間復(fù)雜度為O(D×Nln)。在Xreal中頻率表最快空間復(fù)雜度為O(K×N),式中K表示不同的關(guān)鍵詞的數(shù)量,N表示節(jié)點(diǎn)類型的數(shù)量,因此本文的空間復(fù)雜度比Xreal降低了。
3.2 實(shí)驗(yàn)分析
我們利用Java語言實(shí)現(xiàn)了基于前述算法的一個(gè)推斷目標(biāo)節(jié)點(diǎn)的XML關(guān)鍵詞檢索原形系統(tǒng)。對比算法選擇了Xreal,測試數(shù)據(jù)集使用實(shí)際的DBLP數(shù)據(jù)集(127 MB),實(shí)驗(yàn)平臺(tái)是Intel 2.8 GHz Pentium D 處理器,1 GB RAM,Windows 7操作系統(tǒng)。測試選取了70篇文檔。表1表示其中10組數(shù)據(jù)的測試結(jié)果,對比結(jié)果表明本文提出的方法能更準(zhǔn)確的推斷用戶的查詢意圖。圖2對比了二者的查全率和查準(zhǔn)率。圖2中(a)和(b)橫坐標(biāo)代表測試的7組數(shù)據(jù),縱坐標(biāo)分別代表每組數(shù)據(jù)的查全率和查準(zhǔn)率。由圖2 可見,本文提出的方法效果更優(yōu)。
表1 DBLP數(shù)據(jù)集上的測試結(jié)果
圖2 DBLP上的檢索性能
本文提出了XML關(guān)鍵詞查詢中推斷目標(biāo)節(jié)點(diǎn)的方法。首先構(gòu)建了標(biāo)簽信息表和文本信息表用來存儲(chǔ)XML文件的元素節(jié)點(diǎn)和文本節(jié)點(diǎn),通過分別匹配兩個(gè)表識(shí)別查詢目標(biāo)是標(biāo)簽還是文本,以此解決查詢關(guān)鍵詞二義性的問題。然后借鑒對數(shù)函數(shù)和概率函數(shù)的思想分別對標(biāo)簽信息和文本信息計(jì)算得到綜合相似性得分,最后對得分結(jié)果進(jìn)行排序。給出了該方法實(shí)現(xiàn)的主要算法,并通過實(shí)驗(yàn)驗(yàn)證了該方法的可行性。結(jié)果表明,利用該方法可以得到理想的檢索目標(biāo)。今后將進(jìn)一步優(yōu)化算法,并結(jié)合其中的語義進(jìn)行研究[14,15],以期能得到更好的結(jié)果。
[1] Schmidt A,Kersten M,Windhouwer M.Querying XML documents made easy:Nearest concept queries[C]//Proceedings of the 17th International Conference on Data Engineering (ICDE),Heidelberg,April 2-4,2001,IEEE Computer Society,2001.
[2] Li Y,Yu C,Jagadish H V.Schema-free XQuery[C]//Proceedings of the 30th International Conference on Very Large Data Bases(VLDB),Toronto,August 30-September 3,2004,Morgan Kaufmann Press,2004.
[3] Xu Y,Papakonstantinou Y.Efficient keyword search for smallest LCAs in XML databases[C]//Proceedings of the ACM SIGMOD International Conference on Management of Data (SIGMOD),Baltimore,June 13-16,2005,ACM Press,2005.
[4] Sun C,Chan C Y,Goenka A K.Multiway SLCA-based keyword search in XML data[C]//Williamson C L eds: Proceedings of the 16th International Conference on World Wide Web(WWW),Banff,May 8-12,2007,ACM Press,2007.
[5] Liu Z,Chen Y.Identifying meaningful return information for XML keyword search[C]//Proceedings of the ACM SIGMOD International Conference on Management of Data(SIGMOD),Beijing,June 11-14,2007,ACM Press,2007.
[6] Bao Z,Ling T W,Chen B,et al.Effective XML keyword search with relevance oriented ranking[C]//Proceedings of the 25th International Conference on Data Engineering(ICDE), Shanghai, March 29 - April 2,2009,IEEE Press,2009.
[7] Bao Z,Lu J,Ling T W.XReal:AN interactive XML keyword searching[C]//Proceedings of the 19th ACM Conference on Information and Knowledge Management(CIKM),Tronto,October 26-30,2010,ACM Press,2010.
[8] Guo L,Shao F,Botev C,et al.XRANK:Ranked keyword search over XML documents[C]//Proceedings of the 2003 ACM SIGMOD Conference on Management of Data,California,June 9-12,2003,ACM Press,2003.
[9] Cohen S,Mamou J,Kanza Y Sagiv.XSEarch: A semantic search engine for XML[C]//Proceedings of the 29th International Conference on Very Large Data Bases(VLDB),Berlin,September 9-12,2003,Morgan Kaufmann Press,2003.
[10] Li G,Ooi B C,Feng J,et al.EA SE:An effective 3-in-l keyword search method for unstructured,semi-structured and structured data[C]//Proceedings of the International Conference on Management of Data(SIGMOD),Vancouver,June 9-12,2008,ACM Press,2008.
[11] Termehchy A,Winslett M.Using structural information in XML keyword search effectively[J].ACM Trans on Database System(TODS),2011,36(1):1-35.
[12] 郭文琪,陳群,婁穎.一種推斷XML關(guān)鍵字檢索目標(biāo)節(jié)點(diǎn)的方法[J].計(jì)算機(jī)工程,2012,38(8):41-49.
[13] 張欣毅.XML簡明教程[M].北京:清華大學(xué)出版社,2009:46-55.
[14] 黃瑞,史忠植.一種新的Web異構(gòu)語義信息搜索方法[J].計(jì)算機(jī)研究與發(fā)展,2008,45(8):1338-1345.
[15] 李瑞霞,蘇守寶,周先存.一種基于語義相關(guān)度的XML關(guān)鍵字查詢排序方法[J].吉林大學(xué)學(xué)報(bào):理學(xué)版,2013,51(6):1118-1122.
TARGET NODE-ORIENTED XML KEYWORD QUERY AND RANKING
Li Ruixia Liu Renjin Zhou Xiancun
(SchoolofInformationEngineering,WestAnhuiUniversity,Lu’an237012,Anhui,China)
In order to accurately conclude user’s query intent, we proposed an XML keyword query and ranking method. First, according to the structure and semantics of XML document, the method sets up tag_info table and text_info table respectively to represent the document structure and data, then determines the score of similarity between querying keywords and target node by two indicators of label and text, and gives the sorting approach as well as the algorithm to implement the method. Finally, we verified the effectiveness of the method through experiment; experimental results showed that the proposed method could more accurately conclude the target node of users query.
XML
2014-08-24。國家自然科學(xué)基金青年基金項(xiàng)目(6130 3209);安徽省高等學(xué)校省級(jí)自然科學(xué)研究重點(diǎn)項(xiàng)目(KJ2013A255)。李瑞霞,副教授,主研領(lǐng)域:智能數(shù)據(jù)挖掘及應(yīng)用。劉仁金,教授。周先存,副教授。
TP301
A
10.3969/j.issn.1000-386x.2016.04.008
query Sorting Target node