• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于水利對象分類標簽的分面推薦方法研究

      2015-11-25 02:59:16杜丙帥李士進唐志賢孔盛球
      計算機與現(xiàn)代化 2015年12期
      關鍵詞:檢索標簽水利

      杜丙帥,李士進,馮 鈞,唐志賢,孔盛球

      (河海大學計算機與信息學院,江蘇 南京 211100)

      0 引言

      隨著計算機技術的發(fā)展與普及,以及以物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)和RS 等技術為基礎的智慧水利規(guī)劃的實施,水利領域迎來了數(shù)據(jù)的爆炸式增長。國家基礎地理資源中心水利資源數(shù)據(jù)分中心建設的8個專題庫,以及第一次全國水利普查的成果庫都極大地豐富了水利行業(yè)的大數(shù)據(jù)集[1]。由于水利數(shù)據(jù)資源具有多點采集、分散處理、獨立異構的特點,致使其服務目標單一、利用率低下,資源共享問題突出,如何高效地管理和有效地利用這些寶貴的數(shù)據(jù)資源,成為水利行業(yè)關注的主要問題。

      為了實現(xiàn)信息化資源的共建共享和深度開發(fā)利用,水利部水利信息中心提出了水利數(shù)據(jù)資源整合與共享方案,期望通過規(guī)范化的數(shù)據(jù)資源管理實現(xiàn)各級水利部門之間、各應用系統(tǒng)之間的數(shù)據(jù)交換與共享,滿足不同用戶對于水利信息資源的需求,為水行政管理提供豐富的信息資源服務和決策支持。通過對水利業(yè)務和基礎數(shù)據(jù)的梳理,構建了統(tǒng)一的數(shù)據(jù)模型,為實現(xiàn)上述目標奠定了基礎。

      在水利數(shù)據(jù)資源的整合與共享平臺建設過程中,提供數(shù)據(jù)資源發(fā)現(xiàn)和定位服務的信息資源目錄體系是數(shù)據(jù)資源共享的基礎。對于水利領域的專業(yè)用戶,他們確切地知道自己所需要的數(shù)據(jù)資源是什么,由關鍵字檢索即可實現(xiàn)這些數(shù)據(jù)資源的查詢訪問。隨著計算機技術的普及,水利數(shù)據(jù)資源不僅僅為水利領域?qū)I(yè)用戶服務,社會上的普通群眾和企業(yè)需要對水利數(shù)據(jù)資源進行發(fā)現(xiàn),而這些普通用戶,其檢索意圖往往并不明確,他們需要的是探索式的檢索,需要系統(tǒng)對其進行引導,此時關鍵字檢索,甚至是高級檢索便無法滿足這種需求。本文將分面檢索技術引入水利數(shù)據(jù)資源的整合與共享平臺,實現(xiàn)了導航式的檢索服務,提高了檢索效率,提升了用戶體驗。

      與此同時,不同用戶可能需要發(fā)掘不同維度的水利數(shù)據(jù),例如,水利業(yè)務單位需要從業(yè)務角度分析水利數(shù)據(jù),水利數(shù)據(jù)管理單位需要從管理機構角度對水利數(shù)據(jù)進行管理,而普通用戶可能只是從相關領域?qū)λ麛?shù)據(jù)進行查詢。為了滿足不同用戶的不同需求,本文基于水利對象對水利數(shù)據(jù)資源分類打標簽,對于同一類型的水利數(shù)據(jù)資源從不同維度對其進行聚類,滿足不同用戶的查詢需求。

      1 分面檢索技術

      分面檢索[2](Faceted Search)是一種在圖書館學領域中常用的正交多維劃分信息空間的分類體系,是一種基于分面理論的在數(shù)據(jù)集上的探索性的檢索技術[3]。它具有很強的檢索結果分類能力,用戶可以僅關注所感興趣類別中的檢索結果,通過與分面目錄的交互不斷對檢索結果進行細化或泛化,忽略其它不感興趣類別的檢索結果,從而能有效緩解信息過載問題[4]。同時分面檢索的導航功能也可以引導用戶進行檢索,有效地避免了檢索結果為空的情況[5-6]。

      由于上述特點,分面檢索成為近些年來信息檢索中的熱點研究方向,并在電子商務網(wǎng)站、電子政務網(wǎng)站、多媒體數(shù)據(jù)庫、圖書文獻網(wǎng)站、軟件開發(fā)等多個領域得到廣泛應用。

      但是當數(shù)據(jù)項的分面術語較多時,受到界面尺寸的限制,有必要按照某些原則選擇出分面術語的子集構成分面檢索界面,為用戶提供合適的面和值?,F(xiàn)有的一些系統(tǒng),如eBay Express,它是基于分面術語的頻率向用戶顯示一個手動選擇面的子集排名,再如Flamenco[7],該系統(tǒng)只是簡單地按照字母表的順序顯示前幾個分面,所以分面推薦排序的問題并沒有被很好地解決。

      國內(nèi)外學者對分面推薦算法進行了相關的研究,提出了許多自動推薦分面機制。文獻[8]給出了分面推薦應該遵循的3 個基本原則:1)支持結果集中覆蓋率高的分面;2)支持分面值分布熵比較高的分面;3)合并那些有共同值的分面。Eyal Oren 等人在文獻[9]中提出在RDF 數(shù)據(jù)中使用分面導航理論,以及自動評價RDF 屬性導航能力的算法。該算法受信息空間規(guī)模的限制,同時沒有充分利用RDF 元數(shù)據(jù),因而丟失了RDF 數(shù)據(jù)的內(nèi)在語義信息。王莉等人在文獻[10]中提出了一種基于分面瀏覽技術的持久化RDF語義數(shù)據(jù)的存儲策略,利用統(tǒng)計的方法提取關鍵詞,利用層次聚類的方法考察屬性的導航能力。

      當前的分面推薦排序方法只考慮了單個分面的導航能力,并且也基本都是針對結構化的數(shù)據(jù)進行檢索,而在半結構的XML 數(shù)據(jù)中,分面之間是有相關性的[11],以上方法并沒有考慮到XML 分面之間的相關性。

      由于水利信息資源目錄服務系統(tǒng)的用戶眾多,用戶對于水利信息資源關注的層次和維度各不相同,對于水利領域知識的熟識度也不盡相同,很大程度上,用戶要在自己所關注的數(shù)據(jù)維度進行探索式的檢索,此時分面檢索技術愈顯重要。同時水利信息資源數(shù)據(jù)量大、數(shù)據(jù)結構復雜的特點,導致在目錄服務系統(tǒng)中需使用半結構化的XML 數(shù)據(jù)作為水利信息資源構建目錄的載體,而當前的分面檢索技術均集中于結構化數(shù)據(jù)和非結構化數(shù)據(jù)上,因此急需一種針對半結構化XML 數(shù)據(jù)的分面檢索技術來實現(xiàn)目錄服務系統(tǒng)的分面檢索。同時根據(jù)水利領域人員制定的分面分類標準,構建分面分類體系,以支持多維度的數(shù)據(jù)視圖。本文主要是在前人研究的基礎上,根據(jù)水利數(shù)據(jù)半結構化的特點,提出一種基于區(qū)分度的分面推薦算法,用以支持水利數(shù)據(jù)目錄的分面檢索,并將該算法應用到實際應用系統(tǒng)中,以滿足用戶的檢索需求。

      2 基于區(qū)分度的相關性分面推薦算法

      水利數(shù)據(jù)信息涉及面廣泛,通常用戶的檢索都是探索式的檢索,這就需要對用戶的檢索進行導航。在用戶第一次進行檢索的時候,首先基于用戶輸入的關鍵字進行檢索,根據(jù)關鍵字的匹配度將覆蓋率高的分面推薦給用戶;當用戶與系統(tǒng)有交互之后,即用戶選擇分面之后,系統(tǒng)會根據(jù)用戶選擇的分面為用戶展示檢索結果以及可能再次選擇的分面。

      系統(tǒng)首先推薦與用戶輸入關鍵字匹配度較高的分面,即那些包含用戶輸入關鍵字的分面,其計算公式如下:

      其中,ns(k)表示包含關鍵字k 的元數(shù)據(jù)信息總數(shù),ns表示元數(shù)據(jù)信息總數(shù),f(k)表示關鍵字k 的覆蓋率。

      分面推薦的思想是用戶以最少的檢索次數(shù)(分面選擇次數(shù))檢索到期望的結果。具體來說,如果將數(shù)據(jù)集構建成一棵檢索樹,樹的節(jié)點為數(shù)據(jù)的屬性,每條邊表示該屬性的不同屬性值,樹的葉子節(jié)點為某個具體的數(shù)據(jù)記錄,則從根節(jié)點到葉子節(jié)點的路徑即為該條數(shù)據(jù)記錄的完整數(shù)據(jù),系統(tǒng)所需要做的就是將深度最低的樹的結構信息抽取出來,其中的內(nèi)部節(jié)點作為分面推薦給用戶。當數(shù)據(jù)項的分面術語較多時,受到界面尺寸的限制,則將某幾個深度較低的子樹的根節(jié)點作為分面推薦給用戶,以確保用戶所做選擇最少。

      圖1 檢索樹示例

      檢索樹的個數(shù)根據(jù)數(shù)據(jù)集分面數(shù)的大小而確定。如圖1 所示,是由屬性1 作為根節(jié)點生成的檢索樹,以其不同的屬性值分割其子樹,直至到達一個數(shù)據(jù)記錄,整棵樹的深度即為該屬性下的最高檢索深度,這樣在生成了所有的檢索樹后,將可以引導用戶以最小代價檢索到結果的屬性分面優(yōu)先推薦,也即可以將檢索結果區(qū)分出來的屬性分面優(yōu)先推薦。

      構建檢索樹的偽代碼描述如下:

      在通過上述算法構建完檢索樹后,可以得到每棵檢索樹的深度length,length 越小說明該屬性節(jié)點的區(qū)分度越高,則系統(tǒng)優(yōu)先推薦length 最小的分面。同時考慮半結構化XML 數(shù)據(jù)的特點,每種XML 數(shù)據(jù)都有其Schema,系統(tǒng)可以預先計算每個分面的相關性[11]:

      其中,XiYj表示第i 個面與第j 個面同時出現(xiàn)在一篇文檔中的文檔總數(shù)。Xi表示包含第i 個面的文檔總數(shù),Yj表示包含第j 個面的文檔總數(shù)。

      在區(qū)分度相同時,根據(jù)相關性計算公式預先計算的分面相關性,優(yōu)先推薦與用戶所選分面相關性高的分面,完成分面的建立。

      3 基于水利對象分類標簽的分面檢索系統(tǒng)

      3.1 分面檢索在應用系統(tǒng)中的應用

      本文以某水利委員會目錄檢索子系統(tǒng)為基礎,將分面檢索技術引入其中,并通過分面推薦算法為用戶提供分面選擇。其檢索模塊的結構框架如圖2 所示。

      圖2 檢索模塊結構框架圖

      3.2 分類標簽設計

      在水利數(shù)據(jù)資源的整合與共享平臺建設中,形成了由業(yè)務數(shù)據(jù)庫、基礎數(shù)據(jù)庫、專題產(chǎn)品庫和元數(shù)據(jù)庫構成的中心共享數(shù)據(jù)庫,這些數(shù)據(jù)由于集中存儲在同一物理節(jié)點,也稱為物理集中的水利數(shù)據(jù)資源。同時還有大量的水利數(shù)據(jù)資源分布地存儲在各級水利行政單位,由于前期水利業(yè)務系統(tǒng)的設計并沒有統(tǒng)一的標準規(guī)范,這些水利數(shù)據(jù)資源無法像物理集中的水利數(shù)據(jù)資源進行集中存儲,只能是分布存儲在各級水利行政單位,也稱邏輯集中的水利數(shù)據(jù)資源[12]。

      對于物理集中的以對象為單位的數(shù)據(jù)資源根據(jù)其對象分類標準建立分類,對于邏輯集中的數(shù)據(jù)資源根據(jù)現(xiàn)有部頒標準[13]建立分類,為了滿足不同用戶的查詢需求建立分類標簽庫,對水利數(shù)據(jù)資源進行添加標簽的管理。通過上述3 個層次對水利數(shù)據(jù)資源進行分類,建立水利數(shù)據(jù)資源的不同維度,為實現(xiàn)水利數(shù)據(jù)資源的高效管理和有效共享打下基礎。

      對于物理集中和邏輯集中的數(shù)據(jù)資源,均可依據(jù)相關標準構建分類,這里不再贅述。

      對于為了滿足不同領域用戶的查詢需求而建立的分類標簽庫,本文只給出一級分類標簽,二級分類標簽及其子分類標簽可由系統(tǒng)管理者進行相應的增加,對于同一類型不同緯度的分類亦可以建立多組分類標簽,但是其必須在由本文給出的一級分類標簽框架下。水利數(shù)據(jù)資源的一級分類標簽見表1。

      表1 一級分類標簽

      為了便于標簽的管理,同時能夠以最小的系統(tǒng)維護開銷支持分面標簽的擴展,將分類標簽庫設計為獨立的表。以二級標簽庫表為例,一級標簽庫用于存儲一級分類標簽內(nèi)容,二級標簽庫用于存儲二級分類標簽內(nèi)容,并通過外鍵的方式與一級標簽庫建立關聯(lián),標簽索引庫用于存儲元數(shù)據(jù)與標簽之間的對應關系。這樣可以在不影響原系統(tǒng)表結構的情況下實現(xiàn)分類標簽的功能擴展,適應性高。分類標簽的存儲結構見圖3。

      圖3 分類標簽存儲結構圖

      3.3 檢索模塊設計

      檢索模塊包含3 個子模塊:關鍵字檢索模塊、分面檢索模塊和檢索結果排序模塊。用戶首次檢索需要輸入關鍵字進行關鍵字檢索,系統(tǒng)給出初步檢索結果集,此后用戶便可以通過選擇分面進行分面檢索,每次的分面檢索結果都經(jīng)由檢索結果排序模塊展示給用戶。其中的分面檢索模塊,包括分面推薦和分面排序,分面推薦可以基于分面推薦原則把最有價值的分面推薦給用戶,分面排序可以基于水利領域的特殊性把用戶最期望獲取的檢索結果所在分面優(yōu)先排列向用戶展示。

      1)分面推薦。

      在用戶第一次進行檢索的時候,首先基于用戶輸入的關鍵字進行檢索,根據(jù)關鍵字的匹配度將覆蓋率高的分面推薦給用戶;然后用戶選擇分面,根據(jù)用戶選擇的分面將對用戶所選分面區(qū)分度高的分面推薦給用戶以備用戶再次選擇,如此往復,直到用戶檢索到所需的數(shù)據(jù)資源信息。

      分面推薦的流程見圖4。

      圖4 分面推薦流程圖

      第2 章介紹了基于區(qū)分度的分面推薦算法,將該分面推薦算法應用到系統(tǒng)中,實現(xiàn)分面的推薦導航。

      2)分面排序。

      根據(jù)前期調(diào)研發(fā)現(xiàn),用戶對于水利數(shù)據(jù)的關注點集中在水利數(shù)據(jù)類型、數(shù)據(jù)更新時間、數(shù)據(jù)來源單位、數(shù)據(jù)負責人等幾個分面。在系統(tǒng)中如果用戶不進行關鍵字的檢索,則提供以上幾個默認分面供用戶選擇。當用戶與系統(tǒng)產(chǎn)生交互后便由系統(tǒng)根據(jù)用戶選擇進行分面的推薦排序。

      3)檢索結果排序。

      為了保證檢索的效率,在對檢索結果進行排序時,根據(jù)水利業(yè)務的特點,用戶一般都是為了獲取最新的信息而進行檢索的,所以,在對檢索結果進行排序時使用聯(lián)合域排序,關鍵字匹配程度作為第一個域,時間作為第二個域。

      3.4 系統(tǒng)實現(xiàn)展示

      將本文提出的基于保持率的分面推薦算法應用到實際項目中,開發(fā)一套面向水利領域的目錄服務系統(tǒng),系統(tǒng)最終效果如圖5 和圖6 所示。

      圖5 系統(tǒng)截圖展示1

      圖6 系統(tǒng)截圖展示2

      與之前系統(tǒng)相比,引入分面檢索技術的系統(tǒng)在大部分檢索過程中可以減少用戶的檢索次數(shù),并且檢索過程中也沒有出現(xiàn)信息過載和檢索結果為空的情況,提高了用戶的檢索效率,提升了用戶體驗。

      4 結束語

      本文提出的基于區(qū)分度的分面推薦算法,通過構建檢索樹,將不同的導航路徑推薦給用戶,其原則是使用戶所做選擇最少。為了驗證算法的有效性,本文將算法應用到實際業(yè)務應用系統(tǒng)中,并給出了系統(tǒng)實現(xiàn)展示,效果良好。本文還有諸多不足,比如算法的效率問題、排序方法的改進等。下一步的工作是對檢索樹構建算法進行改進以提升其效率,并在檢索結果排序模塊中考慮多重因素的影響,由用戶配置用戶期望的排序方式,在結果排序的方式上滿足不同用戶的需求。

      [1]馮鈞,許瀟,唐志賢,等.水利大數(shù)據(jù)及其資源化關鍵技術研究[J].水利信息化,2013(4):6-9.

      [2]Hai Zhuge,Wilks Y.Faceted search,social networkingand interactive semantics[J].World Wide Web,2014,17(4):589-593.

      [3]Kashyap A,Hristidis V,Petropoulos M.FACeTOR:Costdriven exploration of faceted query results[C]// Conference on Information and Knowledge Management,CIKM.2010:1-12.

      [4]高建忠,何緋娟.分面檢索模型與關鍵技術綜述[J].圖書館論壇,2012,32(6):112-116.

      [5]何超,程學旗,郭嘉豐.面向分面導航的層次概念格模型及挖掘算法[J].計算機學報,2011,34(9):1589-1602.

      [6]陳波.基于開源全文檢索系統(tǒng)Solr 的OPAC 分面瀏覽[J].現(xiàn)代圖書情報技術,2007,2(11):72-75.

      [7]Hearst M A.Clustering versus faceted categories for information exploration[J].Communications of the ACM,2006,49(4):59-61.

      [8]Daniel Tunkelang.Faceted Search:Synthesis Lectures on Information Concepts,Retrieval,and Services[M].Morgan &Claypool Publishers Series,2009:47-51.

      [9]Oren E,Delbru R,Decker S.Extending faceted navigation for RDF data[M]// The Semantic Web-ISWC 2006.Springer Berlin Heidelberg,2006:559-572.

      [10]王莉,高仲利.基于分面導航理論的RDF 數(shù)據(jù)的持久化研究[J].計算機工程與應用,2010,46(9):130-133.

      [11]李新葉,郭力潔,李丹丹,等.分面搜索的分面推薦方法研究[J].計算機應用與軟件,2013,30(6):75-78.

      [12]成建國,馮鈞,楊鵬,等.水利數(shù)據(jù)資源目錄服務關鍵技術研究[J].水利信息化,2014(6):18-21.

      [13]中華人民共和國水利部SL701-2014,水利信息分類[S].

      [14]陳波.基于開源全文檢索系統(tǒng)Solr 的OPAC 分面瀏覽[J].現(xiàn)代圖書情報技術,2007(11):72-75.

      [15]Niu N,Mahmoud A,Yang X.Faceted navigation for software exploration[C]// 2011 IEEE 19th International Conference on Program Comprehension(ICPC).2011:193-196.

      [16]Li Chengkai,Yan Ning,Roy S B,et al.Facetedpedia:Dynamic generation of query-dependent faceted interfaces for wikipedia[C]// Proceedings of the 19th International Conference on World Wide Web,ACM.2010:651-660.

      [17]Basu Roy S,Wang H,Das G,et al.Minimum-effort driven dynamic faceted search in structured databases[C]//Proceedings of the 17th ACM Conference on Information and Knowledge Management,ACM.2008:13-22.

      [18]Hahn R,Bizer C,Sahnwaldt C,et al.Faceted Wikipedia search[C]// Lecture Notes in Business Information Systems,Springer.2010:1-11.

      猜你喜歡
      檢索標簽水利
      為奪取雙勝利提供堅實水利保障(Ⅱ)
      為奪取雙勝利提供堅實水利保障(Ⅰ)
      水利工會
      2019年第4-6期便捷檢索目錄
      無懼標簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      標簽化傷害了誰
      基于多進制查詢樹的多標簽識別方法
      計算機工程(2015年8期)2015-07-03 12:20:27
      水利
      江蘇年鑒(2014年0期)2014-03-11 17:09:39
      定远县| 密云县| 九台市| 县级市| 霍邱县| 衡阳县| 板桥市| 贵阳市| 萍乡市| 巩留县| 娄底市| 芒康县| 崇阳县| 贵州省| 翁牛特旗| 土默特右旗| 麻江县| 梁平县| 钟祥市| 永济市| 奉节县| 平定县| 东平县| 馆陶县| 昌平区| 堆龙德庆县| 二连浩特市| 东平县| 白玉县| 林周县| 四会市| 微山县| 苗栗市| 马龙县| 万全县| 昌图县| 瓮安县| 体育| 抚州市| 静宁县| 额济纳旗|