• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      時態(tài)信息的語義抽取與排序方法研究及系統(tǒng)實現(xiàn)*

      2014-09-13 12:44:11舒忠梅左亞堯張祖?zhèn)?/span>
      計算機工程與科學(xué) 2014年8期
      關(guān)鍵詞:搜索引擎時態(tài)表達式

      舒忠梅,左亞堯,張祖?zhèn)?/p>

      (1.中山大學(xué)教育學(xué)院,廣東 廣州 510275;2.廣東工業(yè)大學(xué)計算機學(xué)院,廣東 廣州 510006)

      時態(tài)信息的語義抽取與排序方法研究及系統(tǒng)實現(xiàn)*

      舒忠梅1,左亞堯2,張祖?zhèn)?

      (1.中山大學(xué)教育學(xué)院,廣東 廣州 510275;2.廣東工業(yè)大學(xué)計算機學(xué)院,廣東 廣州 510006)

      針對通用搜索引擎缺乏對網(wǎng)頁內(nèi)容的時態(tài)表達式的準確抽取及語義查詢支持,提出時態(tài)語義相關(guān)度算法(TSRR)。在通用搜索引擎基礎(chǔ)上添加了時態(tài)信息抽取和時態(tài)信息排序功能,通過引入時態(tài)正則表達式規(guī)則,抽取查詢關(guān)鍵詞和網(wǎng)頁文檔中的時態(tài)點或時態(tài)區(qū)間等時態(tài)表達式,綜合計算網(wǎng)頁內(nèi)容的文本相關(guān)度和時態(tài)語義相關(guān)度,從而得到網(wǎng)頁的最終排序評分。實驗表明,應(yīng)用TSRR算法可以準確而有效地匹配與時態(tài)表達式相關(guān)的關(guān)鍵詞查詢。

      時態(tài)語義;信息抽??;排序;搜索引擎

      1 引言

      在互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展的今天,網(wǎng)絡(luò)信息成幾何倍數(shù)遞增,百度、Google、Bing等搜索引擎工具為人們在網(wǎng)上查找信息提供了便捷。時間是信息的重要屬性之一,許多網(wǎng)頁的內(nèi)容與時態(tài)信息密切相關(guān),如新聞報道、出版信息、網(wǎng)店商品折扣等。用戶常常需要根據(jù)時態(tài)檢索請求準確地找到相應(yīng)的網(wǎng)頁,因此時態(tài)信息是搜索引擎系統(tǒng)必須考慮的重要因素之一。

      學(xué)者們逐漸開始關(guān)注時態(tài)給Web信息處理帶來的問題,Alonso O等[1]從時態(tài)信息的意義出發(fā),認為將抽取出的時態(tài)信息應(yīng)用于當(dāng)前的搜索引擎,將會大大提升搜索引擎產(chǎn)品的性能,肯定了時態(tài)信息在檢索領(lǐng)域的研究意義。Whiting S、Choi J等學(xué)者[2,3]從Web頁面的發(fā)布時間或最后更新時間進行研究,嘗試將時態(tài)偽關(guān)聯(lián)反饋應(yīng)用到微博檢索,分別基于提取出的前N個關(guān)聯(lián)反饋的時態(tài)配置文件和用戶行為,通過偽關(guān)聯(lián)反饋改進初始檢索,以提升檢索的有效性,但是缺乏對網(wǎng)頁內(nèi)容的時態(tài)語義檢索支持。因此,Strotgen J、Kuzey E、Dakka W等學(xué)者[4~6]從Web頁面內(nèi)容中抽取時態(tài)信息,Strotgen J、Kuzey E[4,5]分別通過函數(shù)計算和時態(tài)本體構(gòu)建方式,探索了識別文檔中高相關(guān)時態(tài)表達式和從維基百科中抽取時態(tài)信息的方法;Dakka W等人[6]提出了一個自動檢索文本中用戶感興趣的時間點或時態(tài)區(qū)間的通用框架;而Kage T等[7]則探討了時間粒度限制在小時級別的一個商用的時間搜索系統(tǒng),但不支持如“圣誕節(jié)”、“國慶節(jié)”這類具體時間的查詢。

      另一方面,學(xué)者們希望搜索引擎不僅能夠意識到嵌入在文檔中的時態(tài)信息,也能根據(jù)時態(tài)上下文返回時態(tài)排序的搜索結(jié)果。Li F等[8]提出一種SEB-tree的簡單索引結(jié)構(gòu)支持時態(tài)排序檢索,但并未充分考慮Web頁面內(nèi)容的時態(tài)語義相關(guān)度。為此,Campos R等學(xué)者[9]提出一種將查詢與相關(guān)日期結(jié)合起來的時態(tài)相似性度量方法;Kanhabua N等學(xué)者[10]基于學(xué)習(xí)排名技術(shù)提出了時間感知的排名模型。

      綜上所述,現(xiàn)有的研究多限于從時態(tài)信息的某一個側(cè)面進行探討,缺乏較為系統(tǒng)的應(yīng)用。本文則從兩方面入手,研究時態(tài)信息的抽取與排序問題。現(xiàn)有的搜索引擎通常提供針對網(wǎng)頁更新時間的查詢,缺乏對網(wǎng)頁內(nèi)容的時態(tài)語義檢索支持,往往基于鏈接進行網(wǎng)頁分析并針對網(wǎng)頁文本相關(guān)度進行排序,未充分考慮網(wǎng)頁內(nèi)容的時態(tài)語義相關(guān)度。另一方面,現(xiàn)有的搜索系統(tǒng)在處理時態(tài)相關(guān)查詢時不能完全地抽取時態(tài)表達式,如將“上午9點”分解為“上午”、“9點”,將“5月9日至12日”分解為“5月9日”、“12日”等進行一般文本的搜索匹配,割裂并丟失了原有表達式的時態(tài)語義。

      為解決上述問題,引入時態(tài)正則表達式規(guī)則,提出時態(tài)語義相關(guān)度算法TSRR(Temporal Semantic Relevancy Ranking),抽取查詢關(guān)鍵詞和網(wǎng)頁文檔中的時態(tài)點或時態(tài)區(qū)間等時態(tài)表達式,并在搜索排序階段通過TSRR算法對搜索結(jié)果進行二次處理,計算網(wǎng)頁的時態(tài)語義相關(guān)度,使返回結(jié)果按時態(tài)語義相關(guān)度與文本相關(guān)度的綜合排序后再顯示給用戶。

      2 時態(tài)語義相關(guān)度排序算法

      搜索引擎為響應(yīng)用戶提交的檢索需求,從互聯(lián)網(wǎng)上搜集信息,并對所收集的信息進行處理,將用戶檢索的相關(guān)信息作為檢索結(jié)果返回給用戶。在進行網(wǎng)頁內(nèi)容時態(tài)信息的擴展檢索時,TSRR算法采用兩階段設(shè)計方法:第一階段抽取出網(wǎng)頁中包含的所有時態(tài)信息;第二階段為所有的網(wǎng)頁計算最終排序分數(shù)。

      2.1 網(wǎng)頁內(nèi)容時態(tài)信息的抽取

      2.1.1 時態(tài)表達式及其模板規(guī)則

      現(xiàn)實生活中的時態(tài)信息表達形式靈活多樣,有時間、日期、時態(tài)區(qū)間和“今天”、“后天”、“前天”等時間詞,以及通過時態(tài)定位詞和介詞等組合形成復(fù)雜的時間短語,如“昨天晚上11點30分”、“自2010年8月1日起至2011年8月1日止”等。將網(wǎng)頁中的時態(tài)表達式分為時態(tài)點和時態(tài)區(qū)間兩大類,為表述方便,這里將時間Time、日期Date、時間詞TW(Temporal Word)和時間短語TP(Temporal Phrase)等表達的時態(tài)點和時態(tài)區(qū)間統(tǒng)稱為時態(tài)表達式(Temporal Equation),如模板規(guī)則中的規(guī)則1所示。

      現(xiàn)有的分詞系統(tǒng)不能完全地抽取時態(tài)表達式,如將“上午9點”分解為“上午”、“9點”,將“5月9日至12日”分解為“5月9日”、“12日”,割裂并丟失了原有的時態(tài)語義。為準確而完整地識別較為復(fù)雜的時態(tài)表達式,基于規(guī)則匹配方法,采用正則表達式形式,預(yù)先定義好符合漢語時間表達習(xí)慣的模板規(guī)則,如下所示:

      時間正則表達式的模板規(guī)則:

      (1)TE→t|I;

      (2)t→Time|Date|TW|TP;

      (3)I→[t,t]TP+TPr+TP;

      (4)Time→(Digits+時){Digits+時}*+{Digits+分}*+{Digits+秒}*|{Digits+時}*+{Digits+分}{Digits+分}*+{Digits+秒}*|{Digits+時}*+{Digits+分}*+{Digits+秒}{Digits+秒}*;

      (5)Date→{Digits+年}{Digits+年}*+{Digits+月}*+{Digits+日}*|{Digits+年}*+{Digits+月}{Digits+月}*+{Digits+日}*|{Digits+年}*+{Digits+月}*+{Digits+日}{Digits+日}*;

      (6)Digits→(1|2|3|4|5|6|7|8|9)+(1|2|3|4|5|6|7|8|9)*;

      (7)TW→去年|今年|夏天|勞動節(jié)|昨晚|…;

      (8)TP→Date+(TW|Time)|(Date|Time|TW|Dur)+TL|TW+(Date|Time|TW|Dur)+TL|TPr+(Date|Time|TW|Dur)+TL|TPr+Date+TW|TPr+{TW}++Time|TPr+TW+Date+TL;

      (9)Dur→{Digits+年}*+{Digits+月}*+{Digits+天}*{Digits+小時}*+{Digits+分鐘}*+{Digits+秒}*;

      (10)TL→前|之前|以前|后|之后|以后|期間|…;

      (11)TPr→到|于|在|自|從|…。

      正則表達式表述的規(guī)則中,符號“|”表示“或”關(guān)系,標號“{}*”表示括號中的內(nèi)容可以出現(xiàn)零次或多次,“{}+”表示括號中的內(nèi)容至少出現(xiàn)一次或多次;Dur表示時態(tài)跨度,TPr表示時態(tài)介詞;TL表示時態(tài)定位詞,據(jù)統(tǒng)計在漢語中總共有105個位置名詞,其中六個可以引入時間表示:末、末期、以來、之際、前夕和期間,此外還有21個具有時間和地點的雙重含義:前、后、之前、之后等,為此建立相應(yīng)的時態(tài)表達式詞典。

      2.1.2 時態(tài)表達式的識別

      要找到網(wǎng)頁中所包含的時態(tài)信息,使用時態(tài)正則表達式和中文分詞相結(jié)合的方式將網(wǎng)頁的時態(tài)表達式識別出來。段落是由句子組成的,確定時間描述的具體內(nèi)容,分詞和詞性標注是時態(tài)表達式識別的基礎(chǔ)。首先基于開源軟件IKAnalyzer分詞系統(tǒng)[11],對網(wǎng)頁正文文本進行詞性標注;同時,采用時態(tài)正則表達式識別并修正,盡可能準確而完整地發(fā)現(xiàn)頁面文本中所包含的時態(tài)信息。

      通常,一個網(wǎng)頁包含多個TE,需要從中選擇一個準確的參考時間,其他參照該參考時間進行推理計算??梢愿鶕?jù)網(wǎng)頁內(nèi)容的發(fā)布時間來確定網(wǎng)頁參考時間,進而對網(wǎng)頁內(nèi)容的“昨天”、“去年”等隱性或非規(guī)范的時態(tài)點和時態(tài)區(qū)間推理規(guī)范為標準化格式時間,其形式為:“×年×月×日”、“×?xí)r×分×秒”。為方便時態(tài)語義相關(guān)度計算和排序,將從網(wǎng)頁中抽取的時態(tài)表達式分為時態(tài)點集合{t1,t2,…,tn}和時態(tài)區(qū)間集合{I1,I2,…,Im},其中Ij=[Ij,s,Ij,e],Ij,s、Ij,e分別表示時態(tài)區(qū)間Ij的起點和終點,Ij的長度表示為|Ij|=Ij,e-Ij,s+1。

      2.2 時態(tài)語義相關(guān)度的確定

      基于網(wǎng)頁內(nèi)容的時態(tài)語義相關(guān)度TSRR算法根據(jù)查詢關(guān)鍵字返回的查詢結(jié)果,綜合考慮網(wǎng)頁內(nèi)容的文本相關(guān)度和時態(tài)語義相關(guān)度計算網(wǎng)頁的最終排序得分。網(wǎng)頁的文本相關(guān)度指用戶的查詢關(guān)鍵字和網(wǎng)頁關(guān)鍵字的相關(guān)度。網(wǎng)頁的時態(tài)語義相關(guān)度根據(jù)用戶查詢中的時態(tài)信息和網(wǎng)頁內(nèi)容中的時態(tài)信息計算得到。

      TSRR算法和其他現(xiàn)有的排序算法的不同之處在于結(jié)合了網(wǎng)頁內(nèi)容的時態(tài)語義和發(fā)布時間進行排序,其關(guān)鍵是計算網(wǎng)頁內(nèi)容的時態(tài)語義相關(guān)度,記為TSR(q,D),計算步驟如下所示:

      Step1計算查詢時態(tài)點tq與網(wǎng)頁文檔D的時態(tài)語義相關(guān)度R(tq,D)。

      對于一個輸入的查詢時態(tài)點tq和根據(jù)文本相關(guān)度搜索返回的一個網(wǎng)頁內(nèi)容D,tq與D的時態(tài)語義相關(guān)度表示為R(tq,D):

      (1)

      其中,num(tq)是查詢時態(tài)點tq在D中出現(xiàn)的次數(shù);[Ij,s,Ij,e]是D中包含查詢時態(tài)點tq的時態(tài)區(qū)間Ij,tq∈[Ij,s,Ij,e]當(dāng)且僅當(dāng)Ij,s≤tq≤Ij,e;|Ij|=Ij,e-Ij,s+1;{I1,I2,…,Im}是D中所有包含查詢時態(tài)點tq的時態(tài)區(qū)間集合。

      Step2計算查詢時態(tài)區(qū)間Iq與網(wǎng)頁文檔D的時態(tài)語義相關(guān)度R(Iq,D)。

      令I(lǐng)q為用戶輸入的查詢時態(tài)區(qū)間,Iq=[Iq,s,Iq,e],Id為返回結(jié)果集中D所包含的時態(tài)區(qū)間,Id=[Id,s,Id,e]。Iq與D的時態(tài)語義相關(guān)度表示為R(Iq,D):

      (2)

      Step2.1比較Iq和Id的起始端點Iq,s和Id,s判斷Iq和Id相交:(Iq,s≥Id,s)∧(Iq,e≥Id,s)∨(Iq,s≤Id,s)∧(Id,e≤Iq,s)?Iq∩Id≠?;否則,Iq和Id不相交,|Iq∩d|=0。

      Step2.2根據(jù)Iq和Id的相交關(guān)系計算Iq∩d的長度:(Iq,s≥Id,s)∧(Iq,e≥Id,s)∧(Iq,e

      Step2.3根據(jù)Iq和Id的包含關(guān)系計算Iq∩d的長度:(Iq,s≥Id,s)∧(Iq,e≥Id,s)∧(Iq,e≥Id,e)?|Iq∩d|=Id,e-Id,s+1;(Iq,s≤Id,s)∧(Id,e≥Iq,s)∧(Id,e

      Step3計算查詢q與網(wǎng)頁文檔D的時態(tài)語義相關(guān)度TSR(q,D)。

      一個查詢q與網(wǎng)頁文檔D的時態(tài)語義相關(guān)度TSR(q,D)為該查詢q中時態(tài)點tq和時態(tài)區(qū)間Iq在返回結(jié)果集中與D的時態(tài)語義相關(guān)度之和,計算公式為:

      (3)

      2.3 基于文本相關(guān)度和時態(tài)語義相關(guān)度的網(wǎng)頁排序

      當(dāng)用戶提交查詢后,搜索引擎動態(tài)計算網(wǎng)頁最終排序分數(shù)后進行網(wǎng)頁排序。網(wǎng)頁文本相關(guān)度排序分數(shù)采用公式(4)所表示的Lucene評分機制,該公式組合使用了信息檢索的向量空間模型和布爾模型計算[12]。

      Score(q,D)=coord(q,D)*queryNorm(q)*

      d.getBoost()*norm(d,D)

      (4)

      其中,coord(q,D)為評分因子,是文檔D中出現(xiàn)查詢q的個數(shù);queryNorm(q)為q的標準查詢形式;freq(dinD)為項頻率,d∈q,指項d在文檔D中出現(xiàn)的次數(shù);docFreq為文檔頻率,指出現(xiàn)項d的文檔數(shù);d.getBoost()為查詢時為項d指定的權(quán)值;norm(d,D)返回建索引時的參數(shù)計算值,封裝了一些索引權(quán)值和長度數(shù)值。

      根據(jù)公式(3)和公式(4),給定查詢〈q,tq,Iq〉,網(wǎng)頁D的最終排序得分計算方式為:

      TSRR(q,D)=Score(q,D)*TSR(q,D)=

      (5)

      3 基于TSRR的搜索引擎系統(tǒng)實現(xiàn)

      3.1 系統(tǒng)架構(gòu)

      基于文本相關(guān)度和時態(tài)語義相關(guān)度的搜索引擎系統(tǒng)TTSRR(TextsandTemporalSemanticsRelevancyRanking)架構(gòu)如圖1所示。實現(xiàn)了信息采集、信息抽取、信息索引和信息檢索等基本功能,并添加了時態(tài)信息抽取模塊和時態(tài)信息排序模塊。TTSRR系統(tǒng)基于網(wǎng)絡(luò)爬蟲工具Nutch和搜索應(yīng)用服務(wù)器Solr,采用Java語言設(shè)計開發(fā)。其中,爬蟲模塊和預(yù)處理模塊由Nutch提供,索引模塊和檢索模塊由Solr提供,系統(tǒng)重點實現(xiàn)時態(tài)信息抽取模塊和時態(tài)信息排序模塊。

      Figure 1 Architecture of TTSRR system圖1 基于時態(tài)語義的搜索引擎系統(tǒng)架構(gòu)圖

      時態(tài)信息抽取模塊針對預(yù)處理后的網(wǎng)頁發(fā)布時間和內(nèi)容時間進行分析,提取其中的時態(tài)信息,抽取時態(tài)點集合{t1,t2,…,tn}和時態(tài)區(qū)間集合{I2,I2,…,Im}。此外,時態(tài)信息抽取模塊還對用戶的查詢請求進行分析,提取其中的查詢時態(tài)點tq和時態(tài)區(qū)間Iq,供時態(tài)信息排序模塊使用。

      時態(tài)信息排序模塊按照TSRR算法計算、返回結(jié)果網(wǎng)頁內(nèi)容D和查詢q的時態(tài)語義相關(guān)度TSR(q,D),對搜索結(jié)果按文本相關(guān)度和時態(tài)語義相關(guān)度計算網(wǎng)頁的最終排序得分TSRR(q,tq,Iq),按新的分數(shù)排序后返回給用戶,實現(xiàn)基于時態(tài)語義排序的搜索功能。

      3.2 搜索結(jié)果示例

      TTSRR系統(tǒng)搜索界面和通用搜索引擎類似,分為三個部分:查詢輸入框和搜索按鈕、搜索結(jié)果數(shù)目顯示及搜索結(jié)果列表,下面列舉了分別在TTSRR系統(tǒng)和百度輸入查詢關(guān)鍵詞搜索的實驗示例。

      (1)q=“訪問5月10日”,查詢時態(tài)點tq=“5月10日”,搜索結(jié)果表明TTSRR系統(tǒng)能夠進行tq與網(wǎng)頁文檔D中時態(tài)區(qū)間Id的匹配,如圖2和圖3所示。

      Figure 2 Results of searching “Visiting Tenth, May” in TTSRR圖2 TTSRR系統(tǒng)搜索“訪問5月10日”結(jié)果

      Figure 3 Results of searching “Visiting Tenth, May” in Baidu圖3 百度搜索“訪問5月10日”結(jié)果

      從圖2可以看到TTSRR系統(tǒng)返回一個結(jié)果,“5月9日至12日”被標紅,說明與輸入的時態(tài)點tq=“5月10日”匹配成功,在時態(tài)信息抽取時“5月9日至12日”被轉(zhuǎn)換成時態(tài)區(qū)間Id=“[2013年5月9日,2013年5月12日]”;而查詢時態(tài)點tq=“5月10日”被轉(zhuǎn)換成規(guī)范形式“2013年5月10日”,正好落在時態(tài)區(qū)間,因此該網(wǎng)頁被作為搜索結(jié)果返回。而圖3搜索結(jié)果表明,百度只是簡單匹配“5月10日”,而沒有出現(xiàn)“5月9日至12日”這種時態(tài)區(qū)間的匹配。

      (2)q=“地震 2009年到2013年”,搜索結(jié)果表明TTSRR系統(tǒng)能夠進行查詢時態(tài)區(qū)間Iq與網(wǎng)頁文檔D中時態(tài)點td及時態(tài)區(qū)間Id的匹配,如圖4和圖5所示。

      Figure 4 Results of searching “Earthquake from Year 2009 to Year 2013” in TTSRR圖54 TTSRR系統(tǒng)搜索“地震2009年到2013年”

      Figure 5 Results of searching “Earthquake from Year 2009 to Year 2013”in Baidu圖5 百度搜索“地震2009年到2013年”

      從圖4可以看到,TTSRR系統(tǒng)搜索返回五個結(jié)果,“2013年4月20日”、“ 2013年4月20日到2013年4月21日”、“2011年10月23日”、“1月12日”被標紅,說明與輸入的時態(tài)區(qū)間Iq=“2009年到2013年”匹配成功。“2013年4月20日”、“2011年10月23日”和“1月12日”等時態(tài)點td都落在時態(tài)區(qū)間Id中。特別地,“1月12日”之所以落在時態(tài)區(qū)間Iq中,是因為第五個網(wǎng)頁的網(wǎng)頁發(fā)布時間是“2010-01-15”,該時間是在時態(tài)信息抽取模塊從網(wǎng)頁源代碼中得到的網(wǎng)頁發(fā)布時間,并以此做為該網(wǎng)頁的參考時間,進而對網(wǎng)頁內(nèi)容D的時態(tài)點td=“1月12日”進行時態(tài)推理得到規(guī)范時間“2013年1月12日”。“ 2013年4月20日到2013年4月21日”時態(tài)區(qū)間Id也落在時態(tài)區(qū)間Iq中。根據(jù)TSRR算法,第一個網(wǎng)頁的時態(tài)語義相關(guān)度為4,第二個網(wǎng)頁的時態(tài)語義相關(guān)度為3.5,第三個網(wǎng)頁的時態(tài)語義相關(guān)度為3,分別乘上各自的文本相關(guān)度分數(shù),按從大到小順序顯示。而從圖5中可以看出,百度只是把“2009年到2013年”當(dāng)成普通文本進行搜索,返回結(jié)果也只是與2009年或2013匹配成功,沒有出現(xiàn)和“2010年”、“2011年”或“2012年”等匹配成功的情形。

      3.3 系統(tǒng)性能

      TTSRR系統(tǒng)對Nutch搜索引擎的返回結(jié)果進行二次開發(fā),查全率、查準率都與Nutch一致,TTSRR系統(tǒng)暫未對其進行具體測試,Nutch的索引文檔數(shù)量在100萬以下時,查詢響應(yīng)快速,不超過0.5秒,因而適合專業(yè)的垂直搜索引擎應(yīng)用領(lǐng)域。以網(wǎng)易新聞(http:∥news.163.com/)網(wǎng)站數(shù)據(jù)進行了測試,分別用不同關(guān)鍵詞和相同時態(tài)信息進行檢索,統(tǒng)計結(jié)果如表1所示。從表1可以看出,返回結(jié)果并沒有影響查詢時間,查詢響應(yīng)的平均時間為320ms。

      Table 1 Statistics of response time for searching表1 檢索響應(yīng)時間統(tǒng)計

      4 結(jié)束語

      時態(tài)屬性,作為刻畫事物的一個重要維度,對時態(tài)信息檢索、時態(tài)數(shù)據(jù)庫、時態(tài)知識推理、時態(tài)數(shù)據(jù)挖掘等研究領(lǐng)域均有深遠的影響[13~15]。針對通用搜索引擎缺乏對網(wǎng)頁內(nèi)容中時態(tài)表達式的準確抽取及語義查詢支持,在通用搜索引擎架構(gòu)基礎(chǔ)上添加了時態(tài)信息抽取和時態(tài)信息排序功能,引入時態(tài)正則表達式規(guī)則結(jié)合分詞系統(tǒng)準確而完全地抽取網(wǎng)頁中的時態(tài)表達式;并提出時態(tài)語義相關(guān)度算法,綜合計算網(wǎng)頁內(nèi)容的文本相關(guān)度和時態(tài)語義相關(guān)度,按網(wǎng)頁的最終排序得分對搜索結(jié)果進行二次處理。實驗表明,應(yīng)用TSRR算法可以準確而有效地匹配與時態(tài)表達式相關(guān)的關(guān)鍵詞查詢。

      [1] Alonso O, Gertz M, Baeza-Yates R. On the value of temporal information in information retrieval[J]. ACM SIGIR Forum, 2007, 41(2):35-41.

      [2] Whiting S, Klampanos I A, Jose J M. Temporal pseudo-relevance feedback in microblog retrieval [C]∥Proc of the 34th European Conference on Advances in Information Retrieval,2012:522-526.

      [3] Choi J, Croft W B. Temporal models for microblogs[C] ∥Proc of the 21st ACM International Conference on Information and Knowledge Management, 2012:2491-2494.

      [4] Strotgen J, Alonso O, Gertz M. Identification of top relevant temporal expressions in documents [C]∥Proc of the 2nd ACM Temporal Web Analytics Workshop, 2012:33-40.

      [5] Kuzey E, Weikum G. Extraction of temporal facts and events from Wikipedia [C]∥Proc of the 2nd ACM Temporal Web Analytics Workshop, 2012:25-32.

      [6] Dakka W, Gravano L, lpeirotis P G. Answering general time sensitive queries[C]∥Proc of the 17th ACM Conference on Information and Knowledge Management, 2008:1437-1438.

      [7] Kage T, Sumiya K. A Web search method based on the temporal relation of query keywords[C]∥Proc of the 7th International Conference on Web Information Systems Engineering, 2006:5-15.

      [8] Li F, Yi K, Le W. Top-kqueries on temporal data [J]. The VLDB Journal, 2010, 19(5):715-733.

      [9] Campos R, Dias G, Jorge A, et al. Enriching temporal query understanding through date identification:How to tag implicit temporal queries?[C] ∥Proc of the 2nd ACM Temporal Web Analytics Workshop, 2012:41-48.

      [11] Zhang Qi-yu,Zhu Ling,Zhang Ya-ping.Summing-up of studies on Chinese segmentation arithmetic[J].Information Resea-

      rch,2008(11):53-56.(in Chinese)

      [12] McCandless M, Hatcher E, Gospodnetic O. Lucene in action[M].2nd ed. USA:Manning Publications Co.,2010.

      [13] Zuo Ya-yao, Tang Yong, Shu Zhong-mei. Method of the subtraction operation between temporal points with granularities based on granularity hierarchy mapping[J]. Journal of Computer Research and Development, 2012,49(11):2320-2327.(in Chinese)

      [14] Zuo Ya-yao, Shu Zhong-mei, Tang Yong. Exploration into granularity constraints and standardization of temporal primitives[J]. Journal of Chinese Computer Systems,2013,34(5):1070-1075.(in Chinese)

      [15] Zuo Ya-yao,Shu Zhong-mei,Tang Yong.Research on qualitative relationship among temporal elements with temporal granularities constraint[J]. Computer Engineering and Science,2013,35(2):34-40.(in Chinese)

      附中文參考文獻:

      [11] 張啟宇,朱玲,張雅萍.中文分詞算法研究綜述[J].情報探索,2008(11):53-56.

      [13] 左亞堯,湯庸,舒忠梅.基于粒度層次映射轉(zhuǎn)換的時態(tài)粒點差運算方法[J].計算機研究與發(fā)展,2012,49(11):2320-2327.

      [14] 左亞堯,舒忠梅,湯庸.時態(tài)原語的粒度約束與規(guī)范化問題探討[J].小型微型計算機系統(tǒng),2013,34(5):1070-1075.

      [15] 左亞堯,舒忠梅,湯庸.時態(tài)粒度約束下的時態(tài)元素定性關(guān)系探討[J].計算機工程與科學(xué),2013,35(2):34-40.

      SHUZhong-mei,born in 1974,PhD,lecturer,her research interests include data warehouse, business intelligence, and institutional intelligence.

      左亞堯(1974-),男,湖北荊州人,博士,副教授,CCF會員(E200011215M),研究方向為數(shù)據(jù)倉庫與數(shù)據(jù)挖掘,Web信息處理。E-mail:13808815212@139.com

      ZUOYa-yao,born in 1974,PhD,associate professor,CCF member(E200011215M),his research interests include data warehouse and data mining,web information processing.

      Studyonextractionandrankingoftemporalsemanticsandsystemimplementation

      SHU Zhong-mei1,ZUO Ya-yao2,ZHANG Zu-chuan2

      (1.School of Education,Sun Yat-Sen University,Guangzhou 510275;2.Faculty of Computer,Guangdong University of Technology,Guangzhou 510006,China)

      General search engine lacks of extraction and retrieval of temporal semantic from the text content of the Web pages. To address the temporal query problem, the Temporal Semantic Relevancy Ranking (TSRR) algorithm is proposed by integrating the temporal information extraction and ranking functions. Firstly, the rule of the temporal regular expression is introduced to extract the temporal points or temporal intervals from the query keywords and the text content of the web pages. Secondly, the scores of web pages are re-evaluated and the returned results are ranked according to the text relevancy and the temporal semantic relevancy. Experiments show that the TSRR algorithm precisely and effectively matches the keywords queries related to the temporal expression.

      temporal semantic;information extraction;ranking;search engine

      1007-130X(2014)08-1609-06

      2013-05-28;

      :2013-09-29

      國家自然科學(xué)基金資助項目(60970044);廣東省自然科學(xué)基金資助項目(S2011040004281)

      TP391.3

      :A

      10.3969/j.issn.1007-130X.2014.08.033

      舒忠梅(1974-),女,湖北荊門人,博士,講師,研究方向為數(shù)據(jù)倉庫、商業(yè)智能和院校智能。E-mail:issszm@mail.sysu.edu.cn

      通信地址:510275 廣東省廣州市中山大學(xué)大鐘樓312

      Address:Room 312,Dazhong Building,Sun Yat-Sen University,Guangzhou 510275,Guangdong,P.R.China

      猜你喜歡
      搜索引擎時態(tài)表達式
      超高清的完成時態(tài)即將到來 探討8K超高清系統(tǒng)構(gòu)建難點
      一個混合核Hilbert型積分不等式及其算子范數(shù)表達式
      表達式轉(zhuǎn)換及求值探析
      過去完成時態(tài)的判定依據(jù)
      淺析C語言運算符及表達式的教學(xué)誤區(qū)
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      廣告主與搜索引擎的雙向博弈分析
      現(xiàn)在進行時
      海外英語(2013年4期)2013-08-27 09:38:00
      議C語言中循環(huán)語句
      商(2012年11期)2012-07-09 19:07:55
      锡林郭勒盟| 洪江市| 岳阳县| 临高县| 宾阳县| 漠河县| 鹰潭市| 环江| 商河县| 额尔古纳市| 城步| 宣化县| 金塔县| 门头沟区| 历史| 盈江县| 邵东县| 沈丘县| 建宁县| 涟水县| 文水县| 漾濞| 东莞市| 宿州市| 时尚| 蒙山县| 芜湖县| 和顺县| 古交市| 延安市| 横峰县| 全椒县| 泸水县| 泊头市| 东兰县| 镶黄旗| 林周县| 黑河市| 通江县| 阿图什市| 清流县|