• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于屬性提取的水利防災信息檢索模型

      2023-03-14 06:01:08
      水利技術監(jiān)督 2023年2期
      關鍵詞:信息檢索防災文檔

      楊 丹

      (北京東華合創(chuàng)科技有限公司,北京 110190)

      當前,越來越多防災防汛部門意識到現(xiàn)代化信息技術能夠為防汛抗洪帶來巨大的幫助,適當?shù)牟捎眯畔⒓夹g有利于設計出高效、可靠的水利防災信息檢索模型,可以在發(fā)生洪水等災難時,迅速地掌握災情狀況,并預測關于暴雨、洪水等災難的信息,以便更加科學、有效地制定防汛抗洪方案,提前發(fā)布警報,在有限的工程條件下減少災難帶來的損失。目前已存在大量信息檢索方法用于水利防災領域[1]。文獻[2]基于貝葉斯網(wǎng)絡的信息檢索方法是通過對檢索關鍵詞代表的所有主題領域進行泛化訓練,將得到的訓練模型與自然語言模型相結(jié)合,構(gòu)建雙重信息檢索模型;文獻[3]基于關聯(lián)規(guī)則挖掘的信息檢索方法通過數(shù)據(jù)匹配,挖掘檢索數(shù)據(jù)與數(shù)據(jù)庫中信息的關聯(lián)度,將具有相似語義的信息整合在一起,構(gòu)成具有邏輯關系的內(nèi)部數(shù)據(jù)庫,進而實現(xiàn)信息檢索。但上述兩種方法是否適用于多尺度、大規(guī)模的信息檢索中還需進一步研究。本文提出的基于屬性提取的水利防災信息檢索模型,結(jié)合信息屬性參數(shù)和映射連接關系,完成水利防災信息的屬性提取。以數(shù)據(jù)信息屬性為基礎,采用二叉樹算法構(gòu)建信息檢索模型?;跈z索模型,將用戶檢索行為發(fā)生的時間作為檢索控制標準,輸出最佳檢索結(jié)果,為當今大數(shù)據(jù)時代的檢索任務提供了一種可行的解決方案。

      1 水利防災信息快速檢索方法設計

      1.1 水利防災信息屬性提取

      若想實現(xiàn)信息的快速檢索,則需要對系統(tǒng)數(shù)據(jù)庫中的信息進行屬性提取,包括信息的主鍵、索引字段以及索引類型等,按照水利防災屬性數(shù)據(jù)庫檢索方式,按照信息屬性對關鍵詞、代表領域等進行劃分[4]。水利防災屬性數(shù)據(jù)庫及主要信息見表1。

      表1 水利防災信息屬性數(shù)據(jù)庫及主要信息

      服務器后臺數(shù)據(jù)庫共由19個表組成,假設在計算機中,數(shù)據(jù)庫中的信息數(shù)據(jù)均處在多維度的空間內(nèi),在此基礎上,提出了一種基于二進制的方法,并對其進行了逆向表示;在系統(tǒng)中,通過使用本體庫來替代用戶在搜索過程中所輸入的關鍵字,用來描述系統(tǒng)內(nèi)的大量信息[5]。在此基礎上,利用服務器上的索引信息,對數(shù)據(jù)進行連接映射處理。處理過程中,可以通過在資源信息終端和接收端間建立鏈表以實現(xiàn)初始檢索。資源信息與接收端口的映射連接如圖1所示。

      圖1 資源信息與接收端口的映射連接圖

      水利信息與接收端通過關系組連接,由于信息來源是多渠道的,數(shù)據(jù)信息結(jié)構(gòu)也不相同,因此,利用節(jié)點平滑公式對多源信息的節(jié)點進行平滑化,計算公式如下:

      (1)

      式中,τ—檢索信息時的時延,s;X—檢索信息的字節(jié)長度;p—在檢索過程中受到節(jié)點變化的影響參數(shù);n—用戶檢索信息時提供的端口數(shù)量;i—端口序號。

      通過以上計算與處理過程,結(jié)合信息屬性參數(shù)和映射連接關系,實現(xiàn)水利防災信息的屬性映射和信息屬性數(shù)據(jù)的提取。

      1.2 基于二叉樹算法構(gòu)建信息檢索模型

      本文以數(shù)據(jù)信息屬性為基礎,參照信息檢索框架,建立信息檢索模型。信息檢索框架如圖2所示。

      圖2 信息檢索框架

      在信息檢索系統(tǒng)中,話題根據(jù)不同文檔的屬性特征進行隨機組合,組合后的話題依據(jù)文檔中的先驗知識生成信息源,因此,本文利用二叉樹算法根據(jù)第一層的信息源建立信息檢索模型。二叉樹算法示意圖如圖3所示。

      圖3 二叉樹算法示意圖

      根據(jù)圖3,隨著系統(tǒng)中信息源上的窗口隨機滑動,下面的信息解析層和信息表現(xiàn)層也隨之改變。當信息源當前窗口中有8個數(shù)據(jù)時,信息解析層就包含4個數(shù)據(jù),信息表現(xiàn)層就包含2個數(shù)據(jù)[6]。而窗口的滑動會造成數(shù)據(jù)越界情況發(fā)生,因此,該模型將各層滑窗的分解結(jié)果暫存在臨時數(shù)組中,當信息源窗口有新信息進入時,對應的臨時數(shù)組也隨之更新,由此一來,就防止了數(shù)據(jù)越界對模型的干擾。

      根據(jù)二叉樹在臨時數(shù)組中對數(shù)據(jù)的存儲結(jié)構(gòu),可以得知,當二叉樹分解出j個分支時,在下一層上就包含2j個分支,同時也表示該層的信息數(shù)據(jù)共有2j組合方式。

      水利信息的對象層包括道路層、居民地及地名注記層、行政區(qū)劃層、等高線層、風險地帶層、水工程層、水庫層、河流層和水情測報站層。以上9層的位置始終保持不變,當用戶進行信息檢索時,可以自行決定是否對單一圖層進行裝載與是否標注關鍵信息。當用戶選擇需要檢索的圖層時,當前選中記錄集會產(chǎn)生相應的變化,此時,信息解析層根據(jù)時間順序依次讀取檢索記錄,生成檢索字段的值,并將更新的值插入到原隊列中,取代原有字段,以保證用戶在下次檢索時,查詢到的信息是代表當前檢索環(huán)境的信息[7]。另外,用戶在查找信息記錄時,當找到表現(xiàn)層中對應的信息記錄時,可以根據(jù)該記錄信息的位置與范圍將圖層定位到包含該信息的位置。

      在對信息檢索的過程中,檢索到的主題和文件所表達的信息也是不確定的。對于其中的每一個詞項,信息檢索模型所產(chǎn)生的詞項都是一種隨機的事件,其產(chǎn)生的幾率可以表示該種可能的大小。同時,在信息檢索模式中,查詢主題中的詞項是互相獨立的[8]。因此,利用二叉樹算法對信息數(shù)據(jù)進行解析后構(gòu)建的信息檢索模型可表示為:

      P(w|D)=(1-λ)τPLM(w|D)+

      λPLM(w|coll)τ+PLightLDA(w|D)

      (2)

      式中,PLM(w|D)—檢索關鍵詞w在文檔D中出現(xiàn)的頻率;PLM(w|coll)—檢索關鍵詞w在整個信息數(shù)據(jù)集中出現(xiàn)的頻率;λ—加權系數(shù);τ—信息接收的延遲時長(s);PLightLDA(w|D)—在主題信息下的文檔表示。

      PLightLDA(w|D)的計算同樣是利用二叉樹算法,同時結(jié)合數(shù)據(jù)并行化和模型并行化技術,對于某篇文檔PLightLDA(w|D)的生成過程如下:

      在系統(tǒng)中的數(shù)據(jù)庫中從超參數(shù)為α的信息數(shù)據(jù)分布中隨機抽取部分數(shù)據(jù),構(gòu)成名為di的文檔,該文檔服從多項式分布θi;在話題組合中再次隨機抽取部分數(shù)據(jù)生成詞項文檔,文檔中的第k個詞對應的話題zik;在從超參數(shù)為β的信息數(shù)據(jù)分布中抽取數(shù)據(jù)構(gòu)建話題zik對應的索引詞分布φzik;在φzik中采樣最終得到詞項wik。重復以上步驟,將上述分布主體與分布詞項進行整合,即可生成所需文檔PLightLDA(w|D)。生成PLightLDA(w|D)的圖模型結(jié)構(gòu)如圖4所示。

      圖4 生成PLightLDA(w|D)的圖模型結(jié)構(gòu)

      圖4中,α表示整個信息數(shù)據(jù)集的線性組合系數(shù),通常通過人工選擇確定;β表示信息在窗口內(nèi)滑過的點數(shù);Z表示文檔中檢索的主題;φ表示詞項的多項式分布;K表示文檔中包含的主題數(shù)量;θ表示主題的多項式分布;w表示某一個詞項;N表示信息數(shù)據(jù)集中包含的文檔數(shù)量;Nd表示該文檔中包含的詞項數(shù)量。

      對信息檢索進行建模,PLightLDA(w|D)的生成是信息檢索的關鍵部分,在信息主題容量較大的情況下,通過調(diào)節(jié)文檔相關參數(shù),既可以使模型精確地表示出不同話題組合,也可以提高檢索性能。

      1.3 信息檢索輸出

      基于構(gòu)建的信息檢索模型,本文根據(jù)用戶進行檢索時利用的信息檢索關鍵詞出現(xiàn)的頻數(shù),將其看作用戶檢索的感興趣方向,并根據(jù)頻率高低賦予其相應的權重。故為實現(xiàn)信息檢索輸出結(jié)果的準確性和具有代表性,需要對系統(tǒng)中信息數(shù)據(jù)進行歸類,明確其中的分布規(guī)律[9]。在歸類過程中,信息應當遵循這樣的規(guī)律,即假設Q表示系統(tǒng)中的全部信息內(nèi)容,T代表用戶在檢索時輸入的關鍵詞,因此,在出現(xiàn)的第一個信息數(shù)據(jù)Q1,T在里面屬于第一價值信息;在Q2與Q3信息中,T屬于中間價值信息;而在Qn信息中,T屬于不重要信息。所以,參照上述規(guī)律,可將系統(tǒng)中信息數(shù)據(jù)按照價值重要性進行歸類描述,具體計算公式如下:

      (3)

      式中,M—按照重要性排序的信息構(gòu)成的數(shù)據(jù)集;S—用戶輸入的關鍵詞中索引類型的排列;t—滿足條件可執(zhí)行快速檢索行為發(fā)生的時間,s;i—用戶檢索次數(shù);P(w|D)—信息檢索模型。

      則水利防災信息數(shù)據(jù)檢索輸出結(jié)果可表示為:

      Tcg=M×(ko)+Z(zf,zt)bf

      (4)

      式中,M—信息綜合特征參數(shù),ko={0,1,…,x};Z—文檔中檢索的主題;(zf,zt)—信息數(shù)據(jù)適應度參量;bf—最小化增量拉格朗日函數(shù)。

      根據(jù)以上分析與計算過程,將用戶檢索行為發(fā)生的時間t作為快速檢索控制標準,對檢索關鍵詞進行優(yōu)先級排序,當排序完成后,執(zhí)行信息檢索操作[10]。利用信息檢索模型在系統(tǒng)中檢索所需主題下的所有相關文檔,將系統(tǒng)中檢索出的多種資源信息進行疊加,并以此作為依據(jù),將重疊數(shù)據(jù)置亂重構(gòu),作為尋找到的信息集合的參考項,輸出信息檢索結(jié)果[11- 12],進而完成對水利防災信息的快速檢索。信息檢索流程如圖5所示。

      圖5 信息快速檢索流程圖

      在檢索的整體過程中,若檢索結(jié)果沒有滿足用戶的需求,用戶可以在上述的結(jié)果中選擇感興趣的文檔,然后系統(tǒng)通過對該文檔進行分析,獲得用戶的偏好,并對此進行存檔,以豐富系統(tǒng)信息主題內(nèi)容,對用戶的需求進行進一步的優(yōu)化,然后再次利用優(yōu)化后的需求進行檢索,直到檢索結(jié)果滿足用戶的需求,將結(jié)果輸出。

      2 實驗論證

      為證明本文設計的水利防災信息快速檢索方法能夠滿足實際應用需求,分別采用文獻[2]基于貝葉斯網(wǎng)絡的信息檢索方法(方法1)、文獻[3]基于關聯(lián)規(guī)則挖掘的信息檢索方法(方法2)與所提方法進行實驗對比分析。

      2.1 實驗準備

      本實驗選擇了某水利部門的防旱防澇單位作為實驗對象,其工作原理是利用江河流域的自動監(jiān)測站收集水位數(shù)據(jù),再發(fā)送給數(shù)據(jù)通信衛(wèi)星,由衛(wèi)星將數(shù)據(jù)傳輸給防汛抗旱指揮部,在通過衛(wèi)星數(shù)據(jù)接收設備轉(zhuǎn)換后傳送到計算機數(shù)據(jù)庫服務器,并保證系統(tǒng)每隔10s對數(shù)據(jù)庫進行一次訪問,以獲取最新的數(shù)據(jù)并對數(shù)據(jù)進行分析和處理,最后使用GIS技術將結(jié)果以多種形式表示出來。以上各項功能均可在內(nèi)網(wǎng)企業(yè)網(wǎng)內(nèi)進行,并可利用Internet網(wǎng)遠程或?qū)嵉乩脽o線網(wǎng)絡進行實時查詢水災或災難情況。選用服務器數(shù)據(jù)庫中的5個數(shù)據(jù)集,在這些數(shù)據(jù)集中,查找數(shù)據(jù)庫中水利防災話題的標題,借助TREC檢索會議系統(tǒng)搜索出相關文檔集合,并進行相關性判斷。若在一個數(shù)據(jù)集中,某個檢索項在相關文檔集合中沒有所屬文檔,則在該數(shù)據(jù)集中剔除該檢索項。數(shù)據(jù)集的統(tǒng)計信息見表2。

      表2 數(shù)據(jù)集統(tǒng)計信息

      在實驗中,采用Windows Server 2008 R2 Enterprise服務器2臺。1臺主要用于訓練主題信息;另1臺主要用于做檢索模型實驗。采用Java語言的軟件環(huán)境,Lucene開源項目與微軟開源的LightLDA。在此平臺上進行信息檢索模型測試,可以有效驗證本文方法的實用性。

      2.2 實驗說明

      由于實際檢索時,用戶往往只輸入少量的關鍵字進行檢索,對此,在上述實驗平臺的基礎上,本實驗只采用查詢信息中的標題作為查詢關鍵詞來檢索文檔。在預處理過程中,我們采用了通用的停用詞集合,詞干則采用Porter Stemmer算法。

      實驗前經(jīng)過數(shù)據(jù)訓練以及計算,確定本文設計的檢索模型中的加權系數(shù)λ取為50,數(shù)據(jù)集線性組合系數(shù)α取為0.01,主題數(shù)目K取400,訓練主題信息時的迭代次數(shù)為500。因為很多關鍵詞具有不同的特征,所以實驗中的信息檢索主要為多尺度查詢,查詢示例如圖6所示。

      圖6 多尺度查詢主題匯總信息文件中的內(nèi)容

      如圖6所示,文檔開頭的“0”沒有任何實際的含義,之后按照文檔,主題,詞項信息等從0開始依次遞增。在此實驗中指定了400個主題,因此在結(jié)束后的最后一個編號是399,這個文檔記錄的是從0,1,2,…到399是對應的被標記詞項的總數(shù)。

      2.3 信息檢索查準率實驗分析

      在信息檢索、分類、識別等領域中,查準率是評價檢索方法性能優(yōu)劣的最基本的指標,即輸出的檢索結(jié)果中與檢索相關文檔的信息數(shù)量與檢索到的所有信息數(shù)量的比值(%),查準率越高,表明該方法信息檢索準確率越高。為了直觀地比較出3種檢索方法在不同數(shù)據(jù)集上的查準率,分別將3種方法應用于上述5種數(shù)據(jù)集,得到的統(tǒng)計結(jié)果及對比如圖7所示。

      圖7 實驗對比結(jié)果

      由圖7可以看出,在不同類型的數(shù)據(jù)集上,方法1的檢索準確率均相對較低,主要成因是該方法建立的檢索模型對參數(shù)的敏感性較高,初始參數(shù)的設置對模型的穩(wěn)定性會產(chǎn)生一定影響,該方法在實驗前需要進行多次主題信息訓練,以獲取Markov鏈的最佳值,從而確定模型相關參數(shù),計算量較大,不利于檢索容量較大的信息數(shù)據(jù)集;方法2的檢索準確率較于方法1有明顯提高,雖然整體呈上升趨勢,但是在數(shù)據(jù)集4上準確率較低,主要是因為該數(shù)據(jù)集是網(wǎng)頁性質(zhì)的水利防災信息數(shù)據(jù)集,存在一定噪音,且數(shù)據(jù)稀疏,話題分散,因此說明方法2不適用于質(zhì)量較低的數(shù)據(jù)集檢索中;而本文方法在5種實驗數(shù)據(jù)集上的檢索準確率均高于其他2種方法,檢索性能優(yōu)勢比較明顯,驗證了所提方法在信息檢索中的可行性。

      3 結(jié)語

      在上述數(shù)據(jù)信息屬性的基礎上,進行節(jié)點平滑處理,并采用二叉樹算法根據(jù)第一層的信息源建立信息檢索模型。基于構(gòu)建的信息檢索模型,根據(jù)用戶進行檢索時利用的信息檢索關鍵詞出現(xiàn)的頻數(shù),根據(jù)頻率高低賦予其相應的權重。最后輸出最佳檢索結(jié)果,實現(xiàn)信息快速檢索。利用對比實驗對所提方法進行了性能驗證,結(jié)果表明,本文設計的信息檢索方法的檢索準確率更高,在信息檢索應用中是可行有效的,能夠滿足實際需求。但在許多方面還不夠完善,例如如何提高用戶的檢索效率,和提高用戶對檢索結(jié)果的可讀性,是本文需要結(jié)合相關技術進一步研究的方向。

      猜你喜歡
      信息檢索防災文檔
      地質(zhì)災害防災避險小常識
      防災減災 共迎豐收之季
      故宮防災的“超強鎧甲”
      軍事文摘(2021年16期)2021-11-05 08:49:12
      有人一聲不吭向你扔了個文檔
      “防火防災”大作戰(zhàn)
      基于RI碼計算的Word復制文檔鑒別
      醫(yī)學期刊編輯中文獻信息檢索的應用
      新聞傳播(2016年18期)2016-07-19 10:12:06
      基于神經(jīng)網(wǎng)絡的個性化信息檢索模型研究
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      教學型大學《信息檢索》公選課的設計與實施
      河南科技(2014年11期)2014-02-27 14:10:19
      永春县| 大悟县| 武强县| 综艺| 河东区| 白城市| 于都县| 宜州市| 玉田县| 荆门市| 新化县| 普格县| 师宗县| 龙游县| 丰原市| 孝义市| 神木县| 西畴县| 乐东| 连江县| 鹤峰县| 镶黄旗| 始兴县| 淮南市| 成都市| 石嘴山市| 东辽县| 陈巴尔虎旗| 福清市| 潼南县| 美姑县| 镇康县| 瑞安市| 远安县| 龙州县| 丹阳市| 海城市| 宜阳县| 郴州市| 收藏| 新郑市|