• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向食品安全領(lǐng)域的個(gè)性化知識(shí)搜索系統(tǒng)研究

      2017-09-22 09:28:20袁培森任吳北任守綱朱淑鑫徐煥良
      關(guān)鍵詞:偏序搜索引擎本體

      袁培森,任吳北,任守綱,2,朱淑鑫,徐煥良,2

      (1.南京農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院,南京210095; 2.江蘇省肉類(lèi)生產(chǎn)與加工質(zhì)量安全控制協(xié)同創(chuàng)新中心,南京210095)

      面向食品安全領(lǐng)域的個(gè)性化知識(shí)搜索系統(tǒng)研究

      袁培森1,任吳北1,任守綱1,2,朱淑鑫1,徐煥良1,2

      (1.南京農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院,南京210095; 2.江蘇省肉類(lèi)生產(chǎn)與加工質(zhì)量安全控制協(xié)同創(chuàng)新中心,南京210095)

      大數(shù)據(jù)時(shí)代,從海量的數(shù)據(jù)中發(fā)現(xiàn)對(duì)用戶(hù)有用的知識(shí)成為研究領(lǐng)域重要的問(wèn)題.通過(guò)集成多個(gè)搜索引擎的查詢(xún)結(jié)果,實(shí)現(xiàn)食品安全領(lǐng)域中搜索信息的集成和個(gè)性化自適應(yīng)排序.本文設(shè)計(jì)基于元搜索技術(shù)、知識(shí)本體和自適應(yīng)的排序?qū)W習(xí)技術(shù),實(shí)現(xiàn)多個(gè)搜索引擎相關(guān)查詢(xún)結(jié)果集成,在對(duì)用戶(hù)點(diǎn)擊的標(biāo)注和知識(shí)本體的基礎(chǔ)上,利用基于監(jiān)督學(xué)習(xí)的排序技術(shù),實(shí)現(xiàn)對(duì)食品安全領(lǐng)域信息的個(gè)性化自適應(yīng)排序.系統(tǒng)實(shí)現(xiàn)了集成多個(gè)搜索引擎的食品安全相關(guān)知識(shí)的提取和相關(guān)結(jié)果的重新排序.本研究不僅實(shí)現(xiàn)了多個(gè)搜索引擎食品安全信息查詢(xún)相關(guān)的結(jié)果集成,而且能夠根據(jù)用戶(hù)的偏好實(shí)現(xiàn)結(jié)果的自適應(yīng)排序.

      食品安全搜索;個(gè)性化排序;搜索集成;領(lǐng)域本體

      0 引言

      隨著信息技術(shù)的迅猛發(fā)展,各種信息查詢(xún)?cè)谌藗兊纳钪姓紦?jù)了重要地位,已經(jīng)成為互聯(lián)網(wǎng)在日常生活中的重要應(yīng)用之一.中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心第37次發(fā)布的調(diào)查報(bào)告顯示,截至2016年6月,我國(guó)搜索引擎用戶(hù)達(dá)7.10億,年增長(zhǎng)率約為3.1%[1],其中涉農(nóng)的用戶(hù)占比31.7%,規(guī)模達(dá)2.25億,顯示出農(nóng)業(yè)搜索快速增長(zhǎng)的勢(shì)頭.搜索引擎成為除即時(shí)通信應(yīng)用之外使用率最高的互聯(lián)網(wǎng)應(yīng)用.近幾年中,中國(guó)網(wǎng)民的規(guī)模持續(xù)擴(kuò)大,而搜索引擎作為基礎(chǔ)應(yīng)用,其用戶(hù)規(guī)模也持續(xù)增加,同時(shí),搜索引擎的功能逐漸完善并各具特色,發(fā)展也更加多元化.

      農(nóng)業(yè)信息化是我國(guó)信息化的重要領(lǐng)域之一.信息作為現(xiàn)代農(nóng)業(yè)發(fā)展的核心要素,貫穿農(nóng)業(yè)生產(chǎn)全過(guò)程,在知識(shí)傳播、技術(shù)咨詢(xún)、決策支持等方面起著關(guān)鍵作用.目前,面向農(nóng)業(yè)的信息服務(wù)資源建設(shè)得到突飛猛進(jìn)的發(fā)展,農(nóng)業(yè)搜索服務(wù)于農(nóng)業(yè)專(zhuān)業(yè)需求的特定人群,其社區(qū)化特點(diǎn)明顯,特定人群的價(jià)值決定了農(nóng)業(yè)搜索的價(jià)值.目前,國(guó)內(nèi)外在農(nóng)業(yè)領(lǐng)域的搜索研究,主要集中在垂直搜索引擎[2-3],它具備“專(zhuān)、精、深”的特點(diǎn)[4],但是農(nóng)業(yè)搜索不僅需要“專(zhuān)、精、深”,更需要“記憶模型”,記住用戶(hù)的查詢(xún)偏好,讓用戶(hù)更快捷地找到信息,直達(dá)全面、系統(tǒng)的結(jié)果.國(guó)外現(xiàn)有的農(nóng)業(yè)搜索引擎主要有agnic(http://www.agnic.org/)、agrisearch (http://www.agrisearch.org/)、agriscape(http://agriscape.com/)等.當(dāng)前,國(guó)內(nèi)專(zhuān)注農(nóng)業(yè)領(lǐng)域的搜索發(fā)展迅速,典型的系統(tǒng)有中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所的“SDD農(nóng)搜”[5],“搜農(nóng)”(http://www.sounong.net/),cast(http://www.cast.net.cn/)等,但是這些搜索系統(tǒng)功能相對(duì)單一,缺少個(gè)性化查詢(xún)功能,查詢(xún)的結(jié)果缺少系統(tǒng)的知識(shí)水平的抽取.

      食品安全是農(nóng)業(yè)領(lǐng)域的重要問(wèn)題之一,關(guān)系到國(guó)計(jì)民生,但是相關(guān)的信息和知識(shí)查詢(xún)?nèi)狈ο嚓P(guān)的專(zhuān)業(yè)查詢(xún)系統(tǒng).文獻(xiàn)[6]提出了基于本體的農(nóng)業(yè)信息服務(wù)個(gè)性化推薦框架,但是缺少系統(tǒng)實(shí)現(xiàn);文獻(xiàn)[7]研究了基于本體學(xué)習(xí)的食品安全網(wǎng)絡(luò)輿情信息的構(gòu)建技術(shù),文獻(xiàn)[8]介紹了本體學(xué)習(xí)的相關(guān)技術(shù).

      本文在食品安全智能化、知識(shí)化和個(gè)性化搜索需求背景下,以提供更加精確和更加貼近用戶(hù)要求的搜索結(jié)果為目的,提供智能化、知識(shí)化和個(gè)性化農(nóng)業(yè)綜合信息查詢(xún).本文利用元搜索引擎和機(jī)器學(xué)習(xí)排序技術(shù),設(shè)計(jì)了農(nóng)業(yè)領(lǐng)域面向食品安全的個(gè)性化搜索排序系統(tǒng)(Personalized Re-ranking Of food Safety Knowledge system,簡(jiǎn)稱(chēng)PROSK),PROSK系統(tǒng)從多個(gè)搜索引擎獲取基礎(chǔ)的查詢(xún)結(jié)果,根據(jù)用戶(hù)的查詢(xún)歷史和日志,生成用戶(hù)輪廓,結(jié)合用戶(hù)輪廓和知識(shí)本體,對(duì)結(jié)果進(jìn)行集成和自適應(yīng)排序,滿(mǎn)足不同用戶(hù)查詢(xún)結(jié)果的個(gè)性化和查詢(xún)結(jié)果的知識(shí)化、系統(tǒng)化.個(gè)性化服務(wù)針對(duì)用戶(hù)的不同提供的信息也是不相同的,它通過(guò)挖掘用戶(hù)瀏覽行為,找到用戶(hù)感興趣的知識(shí).

      本文的第1節(jié)首先介紹基礎(chǔ)知識(shí)和相關(guān)技術(shù);第2節(jié)介紹了系統(tǒng)的排序原理和過(guò)程;第3節(jié)介紹了系統(tǒng)的實(shí)現(xiàn)及查詢(xún);最后,第4節(jié)對(duì)本文進(jìn)行了總結(jié)和展望.

      1 本體與元搜索集成

      1.1 本體知識(shí)

      本體是指一種“形式化的,對(duì)于共享概念體系的明確而又詳細(xì)的說(shuō)明”,是一種數(shù)據(jù)和知識(shí)集成的重要技術(shù)[8-10].本體提供特定領(lǐng)域中存在著的對(duì)象類(lèi)型或概念及其屬性和相互關(guān)系,它是對(duì)特定領(lǐng)域之中相關(guān)概念及其相互關(guān)系的形式化表達(dá),用于描述對(duì)象類(lèi)型、屬性以及關(guān)系類(lèi)型所構(gòu)成的世界.

      本體可以用五元組O=〈C,R,H,rel,A〉形式化表達(dá),其中,C為概念集;R為關(guān)系集合; H表示概念層次,即概念之間的分類(lèi)關(guān)系;rel為概念間的非分類(lèi)關(guān)系,A表示本體公理[11].

      本體的核心在于它能夠?qū)︻I(lǐng)域內(nèi)的概念以及概念之間的關(guān)系進(jìn)行定義,具有良好的概念層次、表達(dá)特點(diǎn),能夠在概念間建立豐富的語(yǔ)義聯(lián)系,便于實(shí)現(xiàn)知識(shí)整合.本文使用本體進(jìn)行食品安全領(lǐng)域的知識(shí)建模和搜索知識(shí)集成共享,屬于領(lǐng)域本體[8,10].

      食品安全本體集成框架(Food Safety Onlology Integration Framework)可以表示為三元組Fs=〈G,S,M〉,其中,G為全局本體,S為局部本體,M為G和S之間的映射.

      1.2 元搜索集成

      搜索引擎一般分為獨(dú)立搜索和元搜素(Meta-search)[12].獨(dú)立搜索引擎基于Robot技術(shù),它使用Robot程序從網(wǎng)絡(luò)中發(fā)現(xiàn)信息并且建立索引數(shù)據(jù)庫(kù).搜索時(shí),它首先檢索索引數(shù)據(jù)庫(kù),得到數(shù)據(jù)庫(kù)中的相關(guān)內(nèi)容,最后根據(jù)內(nèi)容搜索到相應(yīng)的信息或鏈接站點(diǎn)并提供給用戶(hù).

      相對(duì)于獨(dú)立搜索的元搜索技術(shù),根據(jù)用戶(hù)的搜索需求,將查詢(xún)提交給多個(gè)獨(dú)立型搜索引擎,從多個(gè)搜索引擎的搜索結(jié)果,并對(duì)多個(gè)引擎返回的結(jié)果集中處理,最后將處理后的搜索結(jié)果返回給用戶(hù)[13-14].元搜索引擎(Meta Search Engine,MSE)從多個(gè)搜索引擎得到查詢(xún)結(jié)果,由于不同搜索引擎結(jié)果不盡一致且排序標(biāo)準(zhǔn)不統(tǒng)一,因此如何根據(jù)用戶(hù)的特點(diǎn)對(duì)結(jié)果重新排序成為一個(gè)重要的研究課題.元搜索引擎的關(guān)鍵是對(duì)查詢(xún)結(jié)果的集成和排序.即指對(duì)其調(diào)用的多個(gè)成員搜索引擎所返回的結(jié)果集成、去重等,然后按照一定的準(zhǔn)則排序,將排序結(jié)果按一定順序展現(xiàn)給用戶(hù)的過(guò)程[13].如何對(duì)元搜索引擎的結(jié)果進(jìn)行個(gè)性化的排序?qū)τ脩?hù)排序結(jié)果的滿(mǎn)意度至關(guān)重要.

      定義1元搜索查詢(xún)(Meta Search Engine Query)是一個(gè)四元組,MSEQ=〈E,Q,T,C〉,其中,E是元搜索引擎集合,Q為查詢(xún)集合,T是排序方法,C是查詢(xún)結(jié)果的選擇標(biāo)準(zhǔn).

      給定E={E1,E2,…,Em},對(duì)于查詢(xún)q∈Q,搜索引擎Ei(1≤i≤m)產(chǎn)生的原始結(jié)果,為則MSEQ的查詢(xún)結(jié)果集合為其中R(q)中的結(jié)果去除掉了多個(gè)搜索引擎不滿(mǎn)足條件C的結(jié)果.

      PROSK系統(tǒng)采用元搜索技術(shù),從多個(gè)綜合搜索引擎獲取相關(guān)結(jié)果,并對(duì)結(jié)果集成和排序,原因在于一方面現(xiàn)有的獨(dú)立搜索系統(tǒng)功能比較完善,具有互補(bǔ)優(yōu)勢(shì),可以很好地利用現(xiàn)有的獨(dú)立搜索引擎,避免系統(tǒng)從頭做的巨大代價(jià);另一方面,可以博采多個(gè)獨(dú)立搜索引擎結(jié)果,并對(duì)多個(gè)獨(dú)立搜索引擎結(jié)果進(jìn)行高效集成和智能排序.PROSK系統(tǒng)如圖1所示.

      2 PROSK系統(tǒng)的個(gè)性化排序

      2.1 個(gè)性化查詢(xún)

      個(gè)性化查詢(xún)服務(wù)是一種有效的信息服務(wù)方式,這種服務(wù)方式的實(shí)現(xiàn)主要是根據(jù)用戶(hù)的需求特征,通過(guò)對(duì)信息進(jìn)行收集、整理、分類(lèi)、分析,向用戶(hù)提供最可能需要的信息,以滿(mǎn)足用戶(hù)對(duì)信息的需求[15-16].個(gè)性化查詢(xún)服務(wù)也是未來(lái)搜索引擎發(fā)展的一個(gè)重要內(nèi)容,它面向不同的用戶(hù)查詢(xún),返回個(gè)性化的搜索信息并對(duì)結(jié)果的重要性根據(jù)個(gè)人偏好進(jìn)行排序.PROSK系統(tǒng)的個(gè)性化查詢(xún)主要體現(xiàn)在對(duì)查詢(xún)結(jié)果的排序方面.

      圖1 PROSK系統(tǒng)示意圖Fig.1 Illustration of query processing of PROSK

      定義2基于元搜索的個(gè)性化查詢(xún)可以表示為一個(gè)五元組:〈E,Q,T,C,P〉,其中E是元搜索引擎集合,Q為查詢(xún)集合,T是排序方法,C是查詢(xún)結(jié)果的選擇標(biāo)準(zhǔn),P為查詢(xún)的用戶(hù)輪廓.

      2.2 排序?qū)W習(xí)及Ranking SVM原理

      基于學(xué)習(xí)的排序技術(shù)運(yùn)用了機(jī)器學(xué)習(xí)的概念,能夠利用特征集合產(chǎn)生訓(xùn)練模型,并根據(jù)模型自動(dòng)學(xué)習(xí)對(duì)結(jié)果進(jìn)行自適應(yīng)排序.排序?qū)W習(xí)算法數(shù)據(jù)由三部分構(gòu)成:查詢(xún)、與該查詢(xún)相對(duì)應(yīng)的文檔特征序列,以及由人工標(biāo)注的查詢(xún)與文檔之間的相關(guān)度[17].

      現(xiàn)有的排序?qū)W習(xí)算法根據(jù)訓(xùn)練樣例的不同分為三類(lèi):Pointwise、Listwise和Pairwise方法[18].Pointwise方法假設(shè)相關(guān)度是查詢(xún)無(wú)關(guān)的(Query Independent),查詢(xún)和樣本對(duì)存在一個(gè)相關(guān)的排序分值,該方法將排序問(wèn)題轉(zhuǎn)化為多類(lèi)分類(lèi)問(wèn)題或回歸問(wèn)題,例如McRank[19]. Listwise方法利用目標(biāo)函數(shù)直接對(duì)文檔的排序結(jié)果進(jìn)行優(yōu)化,利如ListNet[20].Pairwise方法利用有序數(shù)據(jù)之間的二元偏序關(guān)系將排序問(wèn)題轉(zhuǎn)化為二元分類(lèi)學(xué)習(xí)問(wèn)題,常見(jiàn)的有RankNet[21],RankBoost[22],Ranking SVM[23]等.

      鑒于Pointwise方法的假設(shè)局限性和Listwise優(yōu)化困難,以及Pairwise方法直觀和高效,用戶(hù)的點(diǎn)擊選擇反映了用戶(hù)對(duì)查詢(xún)結(jié)果的偏好,這些點(diǎn)擊數(shù)據(jù)能很方便地形成成對(duì)的排序關(guān)系,因此,PROSK系統(tǒng)采用了基于Pairwise的排序技術(shù).

      Pairwise的排序可以用L(f(xq,x),yq)=I(f(xq,xi)≥f(xq,xj))表示.給定查詢(xún)q,I為標(biāo)識(shí)函數(shù),如果對(duì)象xi比對(duì)象xj更接近,則為+1,否則為–1.Ranking SVM是由T.Joachims提出的基于支持向量機(jī)SVM的排序?qū)W習(xí)算法[23],該方法將排序問(wèn)題轉(zhuǎn)化為監(jiān)督學(xué)習(xí)的分類(lèi)問(wèn)題,通過(guò)用對(duì)機(jī)器學(xué)習(xí)中的支持向量機(jī)進(jìn)行訓(xùn)練[18]獲得模型.Ranking SVM的基本原理是使用訓(xùn)練所得的分類(lèi)模型對(duì)所有偏序?qū)M(jìn)行分類(lèi),得到數(shù)據(jù)集的一個(gè)偏序關(guān)系,根據(jù)偏序關(guān)系實(shí)現(xiàn)查詢(xún)結(jié)果的排序.

      定義3樣本參考關(guān)系:給定樣本的輸入空間X?Rn,其中n為特征數(shù)量.Y= {r1,r2,…,rk}是由標(biāo)簽表示的rank值空間,其中k代表rank值個(gè)數(shù).如果rank值之間存在一個(gè)偏序關(guān)系r1?r2?…?rq,則存在一個(gè)函數(shù)f∈F,使得兩個(gè)樣本xi,xj之間的參考關(guān)系可以由公式(1)表示.

      假設(shè)f是公式(2)形式表示的線(xiàn)性函數(shù),Herbrich[24]將上述問(wèn)題歸結(jié)為對(duì)成對(duì)樣本進(jìn)行分類(lèi)的問(wèn)題.

      其中,w表示權(quán)重向量,〈·,·〉表示內(nèi)積.將公式(1)和公式(2)相減,得到以下公式.

      其中,xi,xj之間的關(guān)系xi?xj可以表示成向量xi-xj的形式.據(jù)此,可以根據(jù)任意兩個(gè)樣本之間的關(guān)系構(gòu)造出新的樣本向量和新的標(biāo)簽,對(duì)數(shù)據(jù)集所有樣本實(shí)現(xiàn)配對(duì).給定兩個(gè)樣本x1和x2,則y1和y2分別表示兩個(gè)樣本相應(yīng)的rank值,可得

      其中

      由給定訓(xùn)練數(shù)據(jù)集S,根據(jù)公式(4)創(chuàng)建新的數(shù)據(jù)集合S′,則S′包含l個(gè)標(biāo)簽向量,即把集合中z所對(duì)應(yīng)的向量x1-x2作為類(lèi)標(biāo)記,如果兩者是順序?qū)?則標(biāo)號(hào)z為+1,若是逆序?qū)?則標(biāo)號(hào)z為-1.獲得了標(biāo)簽數(shù)據(jù)S′之后,可以采用監(jiān)督學(xué)習(xí)SVM模型.

      給定查詢(xún)q,因此上述排序問(wèn)題轉(zhuǎn)化為公式(5)的優(yōu)化目標(biāo),可以形式化為QP問(wèn)題[18]:

      使得對(duì)任意(di,dj)∈r?,滿(mǎn)足w(q,di)≥w(q,dj)+1-ξi,j,其中r?為查詢(xún)q的目標(biāo)排序結(jié)果,表示S中有序?qū)Φ膫€(gè)數(shù),ξ為松弛因子,C>0為懲罰參數(shù).對(duì)同一訓(xùn)練集合,順序?qū)湍嫘驅(qū)κ顷P(guān)于坐標(biāo)原點(diǎn)對(duì)稱(chēng)的,因此S′上構(gòu)造的偏序關(guān)系只需選取順序?qū)η蠼鈁23].

      通過(guò)拉格朗日對(duì)偶和二次規(guī)劃問(wèn)題求解[18],可以計(jì)算出公式(5)中最優(yōu)解α和最優(yōu)權(quán)向量w.給定新樣本q,Ranking SVM算法的排序函數(shù)的計(jì)算序列可以通過(guò)公式(6)進(jìn)行[18].

      2.3 PROSK系統(tǒng)的結(jié)果集成

      PROSK系統(tǒng)通過(guò)集成多個(gè)搜索引擎的結(jié)果,集成過(guò)程采用全局為中心的(Global Centric)領(lǐng)域本體來(lái)完成.由食品安全本體集成框架Fs=〈G,S,M〉,把各個(gè)搜索引擎結(jié)果映射到一致的語(yǔ)義空間,G采用E-R關(guān)系模型,S采用關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ).其中映射M是框架的核心,M通過(guò)形式為〈C,V,sound〉的一組對(duì)應(yīng)關(guān)系表表示,其中,C為概念集合,V為查詢(xún), sound表示語(yǔ)義模型和局部模型之間語(yǔ)義的完備性[25].

      2.4 PROSK系統(tǒng)的排序過(guò)程

      對(duì)于用戶(hù)的查詢(xún)輸入Q,PROSK系統(tǒng)首先返回多個(gè)搜索引擎的n個(gè)結(jié)果R= {r1,r2,…,rn},并記錄查詢(xún)和用戶(hù)的點(diǎn)擊序列,用于創(chuàng)建用戶(hù)的輪廓(Prof i le).假設(shè)用戶(hù)在查詢(xún)結(jié)果上的點(diǎn)擊序列T={ri,ri+1,…,ri+m}.用戶(hù)對(duì)查詢(xún)結(jié)果的點(diǎn)擊,表明用戶(hù)比較關(guān)注相關(guān)的內(nèi)容,把相關(guān)的內(nèi)容作為刻畫(huà)用戶(hù)特征的數(shù)據(jù)集.PROSK系統(tǒng)使用點(diǎn)擊序列在結(jié)果集合R上構(gòu)造偏序集合.對(duì)于任意r′∈T和r′′∈R-T,可以得出r′?r′′,因此,對(duì)于集合T和R可以構(gòu)造偏序集合P={r′?r′′|r′∈T,r′′∈R-T}.

      系統(tǒng)記錄用戶(hù)的點(diǎn)擊序列,并構(gòu)造偏序集P.根據(jù)偏序集合P,可以構(gòu)造支持向量機(jī)的訓(xùn)練集,如果ri?rj,則標(biāo)號(hào)為+1,否則為–1.訓(xùn)練Ranking SVM模型M.PROSK系統(tǒng)對(duì)用戶(hù)的相同查詢(xún)結(jié)果的排序作為使用模型M的預(yù)測(cè)過(guò)程.對(duì)用戶(hù)再次查詢(xún)Q,使用學(xué)習(xí)到的模型M對(duì)查詢(xún)結(jié)果R進(jìn)行新的偏序關(guān)系預(yù)測(cè),獲得新的偏序P′,進(jìn)而計(jì)算出新的查詢(xún)結(jié)果的序列關(guān)系.

      3 系統(tǒng)實(shí)現(xiàn)

      3.1 查詢(xún)處理流程

      PROSK系統(tǒng)的查詢(xún)處理流程分為在線(xiàn)計(jì)算和離線(xiàn)計(jì)算兩個(gè)步驟,如圖2所示.系統(tǒng)的離線(xiàn)數(shù)據(jù)采用MySQL數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ).

      圖2 PROSK系統(tǒng)處理流程Fig.2 Processing procedure of PROSK

      在線(xiàn)計(jì)算步驟,主要完成了集成m個(gè)搜索引擎Ei(1≤i≤m)的查詢(xún)結(jié)果,記錄用戶(hù)的點(diǎn)擊記錄情況,并從本體庫(kù)中檢索和查詢(xún)相關(guān)的概念.離線(xiàn)計(jì)算步驟,主要完成兩方面的工作:1.對(duì)查詢(xún)結(jié)果的頁(yè)面數(shù)據(jù)進(jìn)行解析,提取頁(yè)面的內(nèi)容,對(duì)頁(yè)面的中文分詞,建立頁(yè)面文檔模型;2.使用獲得的Ranking SVM模型,根據(jù)用戶(hù)的點(diǎn)擊數(shù)據(jù),預(yù)測(cè)用戶(hù)查詢(xún)結(jié)果的順序.

      3.2 系統(tǒng)數(shù)據(jù)分析流程

      PROSK系統(tǒng)通過(guò)多個(gè)搜索引擎返回結(jié)果的URL獲取Web頁(yè)面數(shù)據(jù),對(duì)Web頁(yè)面數(shù)據(jù)采用Gson和HtmlParser分別對(duì)URL、標(biāo)題和網(wǎng)頁(yè)內(nèi)容作解析,獲取基本的數(shù)據(jù)內(nèi)容.對(duì)于中文頁(yè)面數(shù)據(jù),系統(tǒng)采用ICTCLAS 2016[26]系統(tǒng)完成中文分詞、詞性標(biāo)注和命名實(shí)體識(shí)別等工作,ICTCLAS具有較高的正確率和速度.

      由于ICTCLAS可以完成對(duì)詞性標(biāo)注,系統(tǒng)使用農(nóng)業(yè)名詞等具有明確意義的詞進(jìn)行建模,因此對(duì)于頁(yè)面中詞的權(quán)重,采用TF因子模型:其中,|Ct|為詞t在頁(yè)面中出現(xiàn)的次數(shù),是文檔中所有詞出現(xiàn)次數(shù)的總和.

      3.3 用戶(hù)查詢(xún)

      目前,PROSK系統(tǒng)集成了百度(http://www.baidu.com/)、好搜(http://www.haosou. com/)和有道搜索(http://www.youdao.com/)三個(gè)典型的搜索引擎首頁(yè)返回的相關(guān)查詢(xún)結(jié)果,后臺(tái)記錄用戶(hù)的點(diǎn)擊情況,系統(tǒng)查詢(xún)頁(yè)面如圖3所示.系統(tǒng)根據(jù)輸入查詢(xún)“安全溯源系統(tǒng)”,查詢(xún)結(jié)果如圖3(a)所示,根據(jù)用戶(hù)的點(diǎn)擊,系統(tǒng)對(duì)查詢(xún)結(jié)果新的自適應(yīng)排序結(jié)果如圖3(b)所示.

      圖3 個(gè)性化查詢(xún)結(jié)果對(duì)比示例Fig.3 Illustration of personalized query results comparison

      3.4 查詢(xún)性能

      系統(tǒng)采用Java實(shí)現(xiàn),測(cè)試的運(yùn)行環(huán)境為Win7,CPU為i5-3210M,JVM內(nèi)存512 MB, Ranking SVM實(shí)現(xiàn)采用SVMrank版本1.00[27],參數(shù)使用默認(rèn)設(shè)置.

      系統(tǒng)的查詢(xún)性能分為在線(xiàn)計(jì)算和離線(xiàn)查詢(xún)的響應(yīng)時(shí)間.在線(xiàn)查詢(xún)的響應(yīng)時(shí)間主要是根據(jù)用戶(hù)的偏好輪廓進(jìn)行個(gè)性化的預(yù)測(cè)時(shí)間及排序開(kāi)銷(xiāo);離線(xiàn)的響應(yīng)時(shí)間包括從多個(gè)搜索引擎對(duì)查詢(xún)結(jié)果集成、Ranking SVM訓(xùn)練及預(yù)測(cè)時(shí)間.離線(xiàn)的Web頁(yè)面數(shù)20萬(wàn)條.表1是使用系統(tǒng)對(duì)5個(gè)典型查詢(xún)進(jìn)行5次查詢(xún)的平均時(shí)間開(kāi)銷(xiāo),時(shí)間單位為毫秒.

      通過(guò)性能測(cè)試,可以看出系統(tǒng)的主要時(shí)間開(kāi)銷(xiāo)在離線(xiàn)計(jì)算階段頁(yè)面的解析和建模方面,平均為8~9 s左右,因?yàn)椴樵?xún)系統(tǒng)的查詢(xún)需要在線(xiàn)獲取多個(gè)引擎返回的結(jié)果,并對(duì)結(jié)果頁(yè)面進(jìn)行數(shù)據(jù)解析.后期的工作將在該方面進(jìn)行性能優(yōu)化,采用后臺(tái)進(jìn)程對(duì)頁(yè)面進(jìn)行分析,以縮短離線(xiàn)的查詢(xún)時(shí)間.Ranking SVM的訓(xùn)練時(shí)間和預(yù)測(cè)時(shí)間都在毫秒級(jí),能夠滿(mǎn)足查詢(xún)的需求.

      表1 PROSK查詢(xún)性能Tab.1 Query performance of PROSK

      4 結(jié)論

      本文研究了農(nóng)業(yè)信息領(lǐng)域中的食品安全領(lǐng)域的個(gè)性化搜索PROSK系統(tǒng),該系統(tǒng)采用元搜索技術(shù)集成多個(gè)搜索引擎的相關(guān)結(jié)果,通過(guò)結(jié)合本體庫(kù)和機(jī)器學(xué)習(xí)的排序算法,實(shí)現(xiàn)了查詢(xún)食品安全領(lǐng)域相關(guān)知識(shí)的個(gè)性化自適應(yīng)排序.鑒于系統(tǒng)的數(shù)據(jù)規(guī)模和離線(xiàn)處理時(shí)間較長(zhǎng)的問(wèn)題,未來(lái)的工作是把系統(tǒng)移植到分布式spark計(jì)算平臺(tái)上,優(yōu)化離線(xiàn)分析與處理,實(shí)現(xiàn)對(duì)海量食品安全數(shù)據(jù)的智能化查詢(xún)和管理,對(duì)結(jié)果的質(zhì)量評(píng)測(cè)將作為未來(lái)的主要工作.

      [1]中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心,2016.

      [2]彭玉容,楊捧,高媛.農(nóng)業(yè)搜索引擎的發(fā)展現(xiàn)狀及關(guān)鍵技術(shù)研究[J].安徽農(nóng)業(yè)科學(xué),2010,38(20):10971-10973.

      [3]王超,李書(shū)琴,肖紅.基于本體的旱區(qū)農(nóng)業(yè)垂直搜索引擎研究[J].農(nóng)機(jī)化研究,2013,35(8):184-187.

      [4]李雷.基于Nutch的農(nóng)業(yè)信息搜索引擎實(shí)現(xiàn)和優(yōu)化[D].長(zhǎng)春:吉林大學(xué),2011.

      [5]SDD農(nóng)搜.[EB/OL].[2016-05-01].http://www.sdd.net.cn/.

      [6]喬波,聶笑一,方逵.基于本體的農(nóng)業(yè)信息服務(wù)個(gè)性化推送研究[J].安徽農(nóng)業(yè)科學(xué),2013,41(27):11213-11214.

      [7]李宏偉,林萍,洪小娟.食品安全網(wǎng)絡(luò)輿情本體學(xué)習(xí)研究[J].南京郵電大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2013,15(4):72-77.

      [8]杜小勇,李曼,王珊.本體學(xué)習(xí)研究綜述[J].軟件學(xué)報(bào),2006,17(9):1837-1847.

      [9]GRUBER T R.A translation approach to portable ontology specif i cations[J].Knowledge Acquisition.1993, 5(2):199-220.

      [10]楊月華,杜軍平,平源.基于本體的智能信息檢索系統(tǒng)[J].軟件學(xué)報(bào),2015,26(7):1675-1687.

      [11]NOY N F.Semantic integration:A survey of ontology-based approaches[J].ACM Sigmod Record,2004,33(4): 65-70.

      [12]吳小蘭,汪琪.元搜索引擎研究綜述[J].圖書(shū)情報(bào)工作,2009,53(9):46-49.

      [13]曹林,韓立新,吳勝利.元搜索引擎排序技術(shù)綜述[J].計(jì)算機(jī)應(yīng)用研究,2009,26(2):411-414.

      [14]陽(yáng)小華,劉振宇,譚敏生,等.元搜索引擎系統(tǒng)合成算法的約束條件[J].軟件學(xué)報(bào),2002,13(7):1264-1270.

      [15]胡宜敏.農(nóng)業(yè)搜索個(gè)性化平臺(tái)的研究與設(shè)計(jì)[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2009.

      [16]曾春,邢春曉,周立柱.個(gè)性化服務(wù)技術(shù)綜述[J].軟件學(xué)報(bào),2002,13(10):1952-1961.

      [17]花貴春,張敏,鄺達(dá),等.面向排序?qū)W習(xí)的特征分析的研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(17):122-127.

      [18]LI H.A short introduction to learning to rank[J].Ieice Transactions on Information&Systems,2011,94(10): 1854-1862.

      [19]LI P,BURGES C J C,WU Q.McRank:Learning to rank using multiple classif i cation and gradient boosting[C]// International Conference on Neural Information Processing Systems.Curran Associates Inc,2007:897-904.

      [20]CAO Z,QIN T,LIU T Y,et al.Learning to rank:From pairwise approach to listwise approach[C]//Proceedings of the 24th International Conference on Machine Learning.ACM,2007:129-136.

      [21]BURGES C,SHAKED T,RENSHAW E,et al.Learning to rank using gradient descent[C]//Proceedings of the 22nd International Conference on Machine Learning.ACM,2005:89-96.

      [22]FREUND Y,IYER R,SCHAPIRE R E,et al.An effi cient boosting algorithm for combining preferences[J]. Journal of Machine Learning Research,2003,4:933-969.

      [23]JOACHIMS T.Optimizing search engines using clickthrough data[C]//Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2002:133-142.

      [24]HERBRICH R,GRAEPEL T,OBERMAYER K.Large margin rank boundaries for ordinal regression[J].Advances in Neural Information Processing Systems,2000,10(3):115-132.

      [25]CALVANESE D,DE GIACOMO G,LENZERINI M.A framework for ontology integration[C]//Proceedings of the First International Conference on Semantic Web Working.2001:303-316.

      [26]ICTCLAS.[EB/OL].[2017-02-01].http://ictclas.nlpir.org/.

      [27]SVMrank.[EB/OL].[2016-09-01].https://www.cs.cornell.edu/people/tj/svm light/svm rank.html.

      (責(zé)任編輯:林磊)

      Research of personalized knowledge search for food safety system

      YUAN Pei-sen1,REN Wu-bei1,REN Shou-gang1,2,ZHU Shu-xin1,XU Huan-liang1,2
      (1.College of Information Science and Technology,Nanjing Agricultural University, Nanjing 210095,China; 2.Jiangsu Collaborative Innovation Center of Meat Production and Processing, Quality and Safety Control,Nanjing 210095,China)

      In the era of big data,knowledge discovery from the mass of data is an important research problem,especially for the user’s customized knowledge.In this paper, an integrated search system aiming at personalized re-ranking of food safety knowledge system,PROSK for short,is designed and implemented.Firstly,using the existing search engines,the meta-search engine technique is employed for integrating the results of multiple search engines;then according to the results of the users’click through and the ontology of food safety domain,ranking-based learning algorithm is applied to sort search results adaptively according to the preference prof i les.The system integrates the agriculturalinformation from multi-engineers and ranks the query results adaptively and intelligently. This study proposes a feasible solution for ranking of information and knowledge of food safety from multi-engineers adaptively.

      food safety search;personalized ranking;search engine integration; domain ontology

      TP391

      A

      10.3969/j.issn.1000-5641.2017.05.011

      1000-5641(2017)05-0117-08

      2017-06-28

      國(guó)家自然科學(xué)基金(61502236);中央高?;究蒲袠I(yè)務(wù)費(fèi)專(zhuān)項(xiàng)資金(KJQN201651, KYZ201752,KYZ201551);國(guó)家科技支撐計(jì)劃(2015BA1105000);江蘇省重點(diǎn)研發(fā)計(jì)劃(BE2016803)

      袁培森,男,博士,講師,研究方向?yàn)橹悄苡?jì)算與海量數(shù)據(jù)管理. E-mail:peiseny@njau.edu.cn.

      朱淑鑫,女,碩士,副教授,研究方向?yàn)檗r(nóng)業(yè)信息化.E-mail:zsx@njau.edu.cn.

      猜你喜歡
      偏序搜索引擎本體
      Abstracts and Key Words
      對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
      基于有限辛空間的一致偏序集和Leonard對(duì)
      相對(duì)連續(xù)偏序集及其應(yīng)用
      可消偏序半群的可消偏序擴(kuò)張與商序同態(tài)
      《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      偏序群S上S-偏序系的內(nèi)射包*
      基于Nutch的醫(yī)療搜索引擎的研究與開(kāi)發(fā)
      廣告主與搜索引擎的雙向博弈分析
      涿鹿县| 青田县| 佛教| 汉阴县| 邯郸市| 教育| 湖南省| 田阳县| 通榆县| 渭南市| 山西省| 句容市| 嘉禾县| 浦北县| 宜丰县| 靖安县| 繁峙县| 泰兴市| 墨竹工卡县| 兰考县| 栾川县| 寻甸| 鲜城| 泸西县| 兖州市| 高陵县| 陕西省| 巴里| 丰都县| 平利县| 隆尧县| 淮南市| 额尔古纳市| 沾化县| 淳化县| 右玉县| 元阳县| 古田县| 蕉岭县| 嘉义县| 蓬莱市|