• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    多源異構(gòu)土地基礎(chǔ)數(shù)據(jù)一體化管理檢索方法研究

    2018-09-10 09:50:00張書瑜張定祥王榮彬季宏偉
    關(guān)鍵詞:分詞檢索實(shí)體

    張書瑜,張定祥,王榮彬 ,季宏偉

    (1. 浙江大學(xué) 地球科學(xué)學(xué)院, 浙江 杭州 310027; 2. 中國土地勘測規(guī)劃院, 北京100035)

    0 引 言

    我國在土地調(diào)查、監(jiān)測和評(píng)價(jià)項(xiàng)目中已積累了海量基礎(chǔ)數(shù)據(jù),涵蓋土地利用、變更、監(jiān)測、評(píng)價(jià)、規(guī)劃等方面,涉及土地、測繪與遙感、自然地理、社會(huì)經(jīng)濟(jì)統(tǒng)計(jì)等多個(gè)專題分類. 海量數(shù)據(jù)成果為國家土地管理和宏觀決策提供了有力的數(shù)據(jù)支撐,但其海量性和多源異構(gòu)性也對(duì)數(shù)據(jù)管理的有效性和數(shù)據(jù)檢索的快捷性提出了巨大的挑戰(zhàn). 基于ArcGIS、SuperMap[1]實(shí)現(xiàn)的土地管理信息系統(tǒng)可對(duì)傳統(tǒng)的土地時(shí)空數(shù)據(jù)進(jìn)行有效的管理和檢索,但對(duì)數(shù)量和復(fù)雜程度呈幾何級(jí)數(shù)增長的多源異構(gòu)土地時(shí)空大數(shù)據(jù)而言,這些方法易導(dǎo)致計(jì)算效率低、擴(kuò)展檢索難等問題. 文獻(xiàn)[2]設(shè)計(jì)的基于Hadoop集群計(jì)算的土地時(shí)空大數(shù)據(jù)集成平臺(tái)框架可大大提升海量數(shù)據(jù)的管理、處理和服務(wù)性能,但在用戶檢索模塊中缺乏靈活的數(shù)據(jù)搜索引擎. 因此,開發(fā)更加實(shí)用高效的土地時(shí)空大數(shù)據(jù)管理檢索一體化框架是一個(gè)重要的研究課題.

    垂直搜索是專門為某一學(xué)科或主題的數(shù)據(jù)而設(shè)計(jì)的信息查詢方式,適用于解決針對(duì)性強(qiáng)和精確度要求高的實(shí)際查詢問題. 垂直搜索較綜合搜索具有更高的查準(zhǔn)率和相關(guān)度,通?;谠紨?shù)據(jù)提取后的結(jié)構(gòu)化信息進(jìn)行檢索,檢索結(jié)果排序方式可由用戶設(shè)定[3]. 垂直信息檢索在電子商務(wù)、影視娛樂、教育資源、旅游等行業(yè)的應(yīng)用越來越廣泛,而在土地?cái)?shù)據(jù)領(lǐng)域的應(yīng)用還較少. 構(gòu)建垂直搜索引擎時(shí)對(duì)結(jié)構(gòu)化信息進(jìn)行進(jìn)一步的分類和去重處理有助于提高檢索的效率和準(zhǔn)確度[4],元數(shù)據(jù)技術(shù)是實(shí)現(xiàn)海量數(shù)據(jù)資源結(jié)構(gòu)化信息提取的主要手段,有助于快速搜索、提供關(guān)鍵信息、管理和維護(hù)、數(shù)據(jù)共享等[5],但針對(duì)多源異構(gòu)的土地基礎(chǔ)數(shù)據(jù)進(jìn)行規(guī)范化元數(shù)據(jù)提取的研究較少. 基于數(shù)據(jù)庫技術(shù)實(shí)現(xiàn)的土地管理系統(tǒng)[6]在信息檢索方面存在模糊匹配不精確和無相似度排序等不足,而基于全文索引技術(shù)實(shí)現(xiàn)的垂直搜索引擎[7],可通過中文分詞、反向索引和相似度算法較好地實(shí)現(xiàn)信息檢索,但對(duì)于信息提取后的結(jié)構(gòu)化土地?cái)?shù)據(jù)而言,直接應(yīng)用全文索引技術(shù)仍存在不同字段信息之間相對(duì)權(quán)重差異無法體現(xiàn)、土地領(lǐng)域一義多詞現(xiàn)象檢索不全的問題. 基于關(guān)鍵詞匹配的傳統(tǒng)自然語言檢索模型,文獻(xiàn)[8]通過本體概念擴(kuò)展策略提高了信息檢索的查全率和查準(zhǔn)率;文獻(xiàn)[9]通過術(shù)語同義詞擴(kuò)展提高了信息檢索的性能. 但對(duì)于海量土地基礎(chǔ)數(shù)據(jù)而言,構(gòu)建完整的領(lǐng)域本體模型及邏輯計(jì)算體系難度很大,且易導(dǎo)致模型計(jì)算復(fù)雜和檢索效率低下. 所以,同義詞擴(kuò)展方式的適用性更強(qiáng).

    本文研究適合海量多源異構(gòu)土地基礎(chǔ)數(shù)據(jù)的管理檢索一體化方法框架,旨在提高管理和檢索過程中信息的融合程度、計(jì)算效率、檢索準(zhǔn)確率和查全率. 基于元數(shù)據(jù)技術(shù)和土地?cái)?shù)據(jù)標(biāo)準(zhǔn)規(guī)范實(shí)現(xiàn)復(fù)雜土地?cái)?shù)據(jù)的結(jié)構(gòu)化信息提取,并采用反向索引技術(shù)進(jìn)行信息加權(quán)優(yōu)化,實(shí)現(xiàn)更為精準(zhǔn)的土地?cái)?shù)據(jù)檢索計(jì)算和排序;通過同義詞擴(kuò)展方式,結(jié)合地名和土地?cái)?shù)據(jù)層實(shí)體,實(shí)現(xiàn)靈活有效的土地?cái)?shù)據(jù)檢索過濾和匹配,以此管理檢索一體化方法框架,推動(dòng)土地時(shí)空大數(shù)據(jù)共享服務(wù)平臺(tái)的建設(shè)和發(fā)展.

    1 元數(shù)據(jù)信息提取

    土地基礎(chǔ)數(shù)據(jù)包括空間與非空間數(shù)據(jù)集,空間信息以矢量、柵格、空間數(shù)據(jù)庫為主,記錄了土地利用現(xiàn)狀、土地規(guī)劃布局、遙感監(jiān)測影像等與空間位置相關(guān)的數(shù)據(jù),包括shp、shx、sbn、sbx、prj、img、tif、tiff、dxf、tfw、gdb等多種文件格式;非空間信息以文檔、統(tǒng)計(jì)表、非空間數(shù)據(jù)庫為主,記錄了行政區(qū)劃土地統(tǒng)計(jì)、土地業(yè)務(wù)標(biāo)準(zhǔn)規(guī)范、土地調(diào)查報(bào)告等非空間數(shù)據(jù),包括doc、docx、pdf、xls、xlsx、mdb、txt、psd、xml等多種文件格式. 這些數(shù)據(jù)文件來自多個(gè)地方國土部門和多個(gè)土地業(yè)務(wù)流程,存在格式多樣、目錄結(jié)構(gòu)不一、分布不均勻等問題. 元數(shù)據(jù)是說明數(shù)據(jù)的數(shù)據(jù),可以描述土地基礎(chǔ)數(shù)據(jù)的內(nèi)容信息、地理覆蓋范圍、數(shù)據(jù)質(zhì)量、數(shù)據(jù)所有者和分發(fā)者、數(shù)據(jù)格式等多方面的信息. 應(yīng)用元數(shù)據(jù)技術(shù)從多源異構(gòu)的土地基礎(chǔ)數(shù)據(jù)中提取結(jié)構(gòu)化信息,需要基于國家地理信息標(biāo)準(zhǔn)和土地領(lǐng)域元數(shù)據(jù)規(guī)范進(jìn)行實(shí)體圖和數(shù)據(jù)表結(jié)構(gòu)設(shè)計(jì)[5].

    本研究中,土地基礎(chǔ)數(shù)據(jù)共享元數(shù)據(jù)的設(shè)計(jì)參考《地理信息元數(shù)據(jù)》GB/T 19710-2005、《國土資源信息核心元數(shù)據(jù)元素列表標(biāo)準(zhǔn)》TD/T 1016-2003、《地理信息共享元數(shù)據(jù)國家標(biāo)準(zhǔn)(附錄K)》GB/T 19333.15-200X/ISO 19115: 2003等標(biāo)準(zhǔn)規(guī)范. 由于土地基礎(chǔ)共享數(shù)據(jù)包括空間信息和非空間信息,在文檔和統(tǒng)計(jì)表等非空間數(shù)據(jù)的元數(shù)據(jù)描述中并不涉及空間參照系統(tǒng)等空間信息,因此,部分空間實(shí)體和屬性是可選的. 核心元數(shù)據(jù)聚合實(shí)體包括: 標(biāo)識(shí)信息、數(shù)據(jù)質(zhì)量信息、內(nèi)容信息3個(gè)必選實(shí)體,以及分發(fā)信息、空間參照系統(tǒng)信息2個(gè)可選實(shí)體,核心元數(shù)據(jù)聚合實(shí)體本身,包括日期和負(fù)責(zé)單位信息2個(gè)必選要素. 標(biāo)識(shí)信息實(shí)體中,對(duì)矢量和柵格數(shù)據(jù)而言,除共同的地理范圍和地理描述屬性外,描述空間信息的屬性是條件必選的,矢量數(shù)據(jù)具備表示方式和比例尺屬性描述,柵格數(shù)據(jù)具備空間分辨率、衛(wèi)星類型、影像類型、影像軌道表示和垂向范圍信息屬性描述. 內(nèi)容信息實(shí)體中,矢量描述屬性包含了圖層名稱、要素類型名稱和屬性列表,而柵格描述屬性包括了柵格影像內(nèi)容描述.

    以土地基礎(chǔ)矢量數(shù)據(jù)為例,共享元數(shù)據(jù)設(shè)計(jì)框圖如圖1所示.

    圖1 土地基礎(chǔ)矢量數(shù)據(jù)共享元數(shù)據(jù)設(shè)計(jì)框圖Fig.1 Design of sharing metadata entities of land basic vector data

    2 基于元數(shù)據(jù)的加權(quán)索引

    信息檢索中常用的索引和匹配方法為基于向量空間模型和TF-IDF算法[10],從原文件文本中提取特征向量表示該文檔,選擇索引詞并計(jì)算權(quán)重. 通過建立專業(yè)領(lǐng)域詞典和停用詞典簡化分詞和識(shí)別詞組,并高效獲取候選特征詞集[11]. 本研究基于采集的多源異構(gòu)土地基礎(chǔ)數(shù)據(jù)的結(jié)構(gòu)化元數(shù)據(jù)信息進(jìn)行索引構(gòu)建和數(shù)據(jù)檢索,從而解決了多種數(shù)據(jù)格式,尤其是復(fù)雜的時(shí)空數(shù)據(jù),不便于提取特征向量和構(gòu)建索引的問題.

    首先,采用文獻(xiàn)[12]中的層次隱馬爾可夫模型(HMM)進(jìn)行中文詞法分析和分詞切分,并導(dǎo)入經(jīng)整理的土地基礎(chǔ)數(shù)據(jù)字典和地理行政單元字典,以提高土地專題數(shù)據(jù)名詞和地理名詞識(shí)別的完整性和準(zhǔn)確率. 其中,采用N-最短路徑作為切分排歧策略,在初始階段保留切分概率最大的N個(gè)結(jié)果,詞法分析后通過評(píng)價(jià)函數(shù)計(jì)算真正的最優(yōu)結(jié)果. 該思想是最少切分方法和全切分方法的泛化和綜合. 在基于類的隱馬爾可夫模型中,最終取概率最大的分詞結(jié)果. 利用貝葉斯公式和一階HMM展開,得到計(jì)算公式:

    (1)

    其中,W=(w1,w2,…,wn)為一個(gè)可能的分詞結(jié)果,W=(c1,c2,…,cn)為對(duì)應(yīng)的類別序列,W#為最終的分詞結(jié)果.

    其次,考慮到TF-IDF算法無法全面反映特征詞條在各文本分類中的分布,本文采用引入了信息熵因子的TF-IDF算法[13],以反映特征詞條在不同級(jí)別土地專題分類文本中的分布情況,其計(jì)算公式為

    Wj(ti)=TF(ti)×IDF(ti)×μ(I(p)),

    (2)

    其中,

    TF(ti)為特征詞條ti的詞頻值,即ti在文檔j中出現(xiàn)的次數(shù)占該文檔總詞數(shù)的比例;IDF(ti)為逆文檔概率值,即包含ti的文檔數(shù)占總文檔數(shù)比例的倒數(shù)再取對(duì)數(shù)值;μ(I(p))為信息熵因子值,即ti分布信息熵的倒數(shù),而分母是不能為0的,因此在分母上加上詞條信息熵的次小值[13].

    另一方面,如果直接對(duì)土地基礎(chǔ)數(shù)據(jù)的所有元數(shù)據(jù)字段進(jìn)行分詞、TF-IDF值計(jì)算和構(gòu)建索引,會(huì)導(dǎo)致不同字段信息的相對(duì)權(quán)重差異無法體現(xiàn),因?yàn)樵獢?shù)據(jù)字段中有重要的必選字段和次重要的可選字段. 例如一個(gè)數(shù)據(jù)的標(biāo)題中包含用戶檢索的查詢?cè)~匯,而另一個(gè)數(shù)據(jù)只在內(nèi)容描述中包含該詞匯,顯然,標(biāo)題中包含查詢?cè)~匯的數(shù)據(jù)與用戶檢索的相關(guān)度更高,因此,需要根據(jù)元數(shù)據(jù)中字段的重要性對(duì)分詞TF-IDF權(quán)重值進(jìn)行加權(quán)計(jì)算,使查詢效果更符合用戶的檢索需求. 在空間、時(shí)間和內(nèi)容3個(gè)維度的所有元數(shù)據(jù)字段信息中,因空間和時(shí)間維度信息較重要,會(huì)基于識(shí)別和提取的方式對(duì)其主要的時(shí)間名詞和地理名詞構(gòu)建相應(yīng)的反向索引表;而內(nèi)容維度中的標(biāo)題和關(guān)鍵詞字段信息較文件摘要和內(nèi)容描述等字段信息更重要,可簡明扼要地概括數(shù)據(jù)的主題內(nèi)容. 采用以下公式計(jì)算每一條元數(shù)據(jù)記錄的特征向量的TF-IDF權(quán)重:

    TF_IDF*(ti)=TF_IDF(ti)×Wc(Cj(ti)),

    (3)

    其中,TF_IDF*(ti)是考慮元數(shù)據(jù)字段重要性加權(quán)后的新TF-IDF權(quán)重,TF_IDF(ti)是未考慮重要性加權(quán)的原TF-IDF權(quán)重,Cj是ti詞匯所出現(xiàn)的相對(duì)較重要的字段,Wc是Cj字段相對(duì)重要的權(quán)重,該權(quán)重值可以使不同元數(shù)據(jù)記錄中出現(xiàn)在不同字段的同一個(gè)特征分詞具有差異.

    3 基于實(shí)體同義詞的檢索擴(kuò)展

    3.1 地名實(shí)體的提取和匹配

    在土地基礎(chǔ)數(shù)據(jù)的空間維度信息中,除了用地理坐標(biāo)表示的空間位置和地理范圍外,還有數(shù)據(jù)文件對(duì)應(yīng)的地理行政單元信息,對(duì)于土地業(yè)務(wù)用戶而言,地理行政單元是其更為關(guān)注和常用的檢索詞匯. 地理行政單元體系是非扁平化和非單一化的,既存在省、市、縣等相互之間的層級(jí)包含關(guān)系,也存在同一地名實(shí)體有不同文本表達(dá)的復(fù)雜性(例如,“杭州”“杭州市”“330100”,都表示杭州這個(gè)地名實(shí)體),因此,需要構(gòu)建地名實(shí)體模型,對(duì)土地基礎(chǔ)數(shù)據(jù)和用戶檢索語句中對(duì)應(yīng)的地名實(shí)體進(jìn)行明確表達(dá),并對(duì)兩者之間地名實(shí)體匹配進(jìn)行精確的關(guān)聯(lián)計(jì)算.

    文獻(xiàn)[14]利用地名語義實(shí)現(xiàn)了Web地震事件的空間信息提取,通過構(gòu)建地名本體庫和標(biāo)準(zhǔn)化地名提取地震事件的地點(diǎn)信息,并通過語義庫和推理機(jī)制搜索地名標(biāo)定范圍內(nèi)的地震事件. 本文構(gòu)建的地名實(shí)體庫亦基于2條基本的推理規(guī)則: 地理行政單元的層級(jí)包含規(guī)則和地名實(shí)體的同義表達(dá)規(guī)則. 只是在同義表達(dá)規(guī)則中增加了地理行政編碼表達(dá)方式,盡管用戶一般不會(huì)采用地理編碼方式查詢語句,但土地基礎(chǔ)數(shù)據(jù)中有大量矢量和柵格數(shù)據(jù)是以地理編碼方式表達(dá)地理信息的,因此,地理編碼方式對(duì)于從數(shù)據(jù)中提取地理信息必不可少. 基于國家地理行政單元體系的地名本體庫結(jié)構(gòu)如圖2所示,其中“包含”層級(jí)為“父類”,“被包含”層級(jí)為“子類”.

    圖2 地名實(shí)體庫結(jié)構(gòu)圖[14]Fig.2 Structure of toponym entity database

    對(duì)地名實(shí)體進(jìn)行提取時(shí),需要明確其邊界范圍,利用地名語義庫、詞性、句法和詞法分析以識(shí)別同等邊界范圍的地名實(shí)體. 例如,“浙江省杭州市”的等價(jià)地名實(shí)體是杭州,而不是“浙江”或“浙江和杭州”;“浙江省和杭州市”則指浙江和杭州這2個(gè)地名實(shí)體,而非只浙江或杭州一個(gè)地名實(shí)體. 因此,首先利用中文分詞技術(shù)對(duì)字段文本進(jìn)行切分,分別標(biāo)注名詞、動(dòng)詞、形容詞、副詞、介詞等,對(duì)其中的名詞細(xì)化標(biāo)注為普通名詞和地名等;然后將其中的地名與地名語義庫進(jìn)行匹配,并根據(jù)文本中介詞的邏輯語義得到同等地名實(shí)體.

    3.2 專題數(shù)據(jù)層的提取和匹配

    土地基礎(chǔ)數(shù)據(jù)中的矢量和柵格數(shù)據(jù)大多具有規(guī)范化的命名規(guī)則. 土地利用、管制、整治或規(guī)劃圖等的數(shù)據(jù)命名規(guī)則為“地理行政編碼+專題數(shù)據(jù)層縮寫詞”,例如,“500232024TDZZGHT.JPG”為重慶武隆縣土地整治規(guī)劃柵格圖數(shù)據(jù),“500242JQXZDW.shp”為重慶酉陽縣鄉(xiāng)級(jí)基期線狀地物矢量數(shù)據(jù). 對(duì)于圖層內(nèi)容類土地專題數(shù)據(jù)層縮寫詞,單純進(jìn)行字面匹配對(duì)于信息檢索而言是不夠精確的,因此需要構(gòu)建土地專題及數(shù)據(jù)層的語義庫進(jìn)行同義轉(zhuǎn)換. 以縣級(jí)土地利用目標(biāo)年規(guī)劃數(shù)據(jù)為例,整理的專題數(shù)據(jù)層縮寫詞如圖3所示.

    圖3 縣級(jí)土地利用目標(biāo)年規(guī)劃專題數(shù)據(jù)層縮寫詞Fig.3 Thematic data layer acronym of land use planning for target year at county level

    土地基礎(chǔ)數(shù)據(jù)可根據(jù)專題領(lǐng)域劃分為層級(jí)式的專題結(jié)構(gòu),包括一級(jí)專題和二級(jí)專題. 一級(jí)專題主要涵括土地詳查、土地資源大調(diào)查、城鎮(zhèn)地籍調(diào)查、全國土地調(diào)查、土地利用總體規(guī)劃、城鄉(xiāng)土地價(jià)格監(jiān)測、土地利用變更調(diào)查及其監(jiān)測核查八方面. 不同專題包含的數(shù)據(jù)文件格式和類型不同,其中矢量和柵格數(shù)據(jù)多以地理行政單元編碼和土地專題數(shù)據(jù)層縮寫詞命名. 以年度土地利用變更調(diào)查成果一級(jí)專題為例,包括基礎(chǔ)地理要素、土地權(quán)屬要素、基本農(nóng)田要素、土地利用要素、柵格要素、其他要素等. 其中,空間要素采用分層(層名稱及各層要素)的方法進(jìn)行組織管理,每個(gè)空間數(shù)據(jù)層都有原詞和縮寫詞2種名稱,以構(gòu)建土地專題及數(shù)據(jù)層的語義庫,在信息檢索時(shí)進(jìn)行同義轉(zhuǎn)換,提高數(shù)據(jù)檢索的查準(zhǔn)率和查全率.

    4 管理檢索一體化方法框架

    在本研究的開發(fā)實(shí)踐中,基于Visual Studio 2010(.NetFramework 4.0)開發(fā)環(huán)境,采用C#語言,利用Arc Engine 10.1和DevExpress 13.1開發(fā)了土地基礎(chǔ)數(shù)據(jù)半自動(dòng)化元數(shù)據(jù)采集工具. 使用該元數(shù)據(jù)采集工具,從北京市2015年的多源異構(gòu)土地基礎(chǔ)數(shù)據(jù)中提取元數(shù)據(jù)信息,并整理入庫,數(shù)據(jù)庫采用MySQL 5.5軟件. 在元數(shù)據(jù)字段的相對(duì)重要性權(quán)重計(jì)算中,標(biāo)識(shí)信息的權(quán)重設(shè)置較數(shù)據(jù)質(zhì)量信息和內(nèi)容信息等的權(quán)重高,數(shù)據(jù)文件的標(biāo)題和關(guān)鍵詞字段的權(quán)重較摘要和概述等的權(quán)重高. 基于提取的土地基礎(chǔ)數(shù)據(jù)元數(shù)據(jù)信息進(jìn)行中文分詞和加權(quán)TF-IDF值計(jì)算,構(gòu)建分詞的反向索引表數(shù)據(jù)庫.

    在用戶進(jìn)行土地基礎(chǔ)數(shù)據(jù)的檢索查詢時(shí),首先對(duì)用戶查詢語句進(jìn)行分詞處理,并基于專題數(shù)據(jù)層和地名實(shí)體同義詞庫進(jìn)行檢索擴(kuò)展,對(duì)于地名實(shí)體,可考慮是否選擇父子類地名擴(kuò)展查詢,即檢索結(jié)果中是否包含上下級(jí)行政地名的土地基礎(chǔ)數(shù)據(jù),若包含,則上下級(jí)地名與檢索條件的相關(guān)度低于原地名,用擴(kuò)展的地名條件進(jìn)行檢索可以獲得更加全面和精確的結(jié)果. 然后,根據(jù)擴(kuò)展的檢索語句分詞在索引庫中搜索和過濾相關(guān)的土地?cái)?shù)據(jù)記錄,并采用向量空間模型的余弦相似性原理計(jì)算檢索分詞向量與數(shù)據(jù)特征向量之間的相關(guān)度,最后按相關(guān)度從高到低進(jìn)行排序,并將檢索結(jié)果返回給用戶. 檢索流程如圖4所示.

    圖4 土地基礎(chǔ)數(shù)據(jù)檢索流程Fig.4 Retrieval process of land basic data

    實(shí)踐證明,本文提出的基于元數(shù)據(jù)的管理檢索一體化方法的框架有助于實(shí)現(xiàn)多源異構(gòu)土地基礎(chǔ)數(shù)據(jù)的統(tǒng)一管理和精確檢索,在檢索效率和滿足用戶需求方面都有很大的提升.

    5 結(jié) 論

    結(jié)合土地領(lǐng)域?qū)I(yè)知識(shí)和用戶實(shí)際需求,提出了適用于多源異構(gòu)土地基礎(chǔ)數(shù)據(jù)信息管理檢索一體化方法的框架,以實(shí)現(xiàn)多源異構(gòu)的復(fù)雜土地基礎(chǔ)數(shù)據(jù)的統(tǒng)一管理和精確檢索. 針對(duì)元數(shù)據(jù)信息提取,根據(jù)國家元數(shù)據(jù)標(biāo)準(zhǔn)和土地領(lǐng)域元數(shù)據(jù)規(guī)范的相關(guān)文件,設(shè)計(jì)了土地基礎(chǔ)數(shù)據(jù)的實(shí)體圖和元數(shù)據(jù)表結(jié)構(gòu),并開發(fā)了元數(shù)據(jù)采集工具;在基于元數(shù)據(jù)的加權(quán)索引中,在傳統(tǒng)的TF-IDF向量權(quán)重計(jì)算基礎(chǔ)上考慮了元數(shù)據(jù)不同字段的相對(duì)重要性以及信息熵因子,使結(jié)果更符合土地領(lǐng)域知識(shí)和用戶檢索需求;在基于實(shí)體同義詞的檢索擴(kuò)展中,構(gòu)建了地名實(shí)體同義詞庫和專題數(shù)據(jù)層實(shí)體同義詞庫,較好地實(shí)現(xiàn)了用戶查詢語句的檢索擴(kuò)展,提高了檢索的全面性和準(zhǔn)確率;最后,將這些適用于多源異構(gòu)土地基礎(chǔ)數(shù)據(jù)的優(yōu)化改進(jìn)方法集成于管理檢索一體化方法框架中,開發(fā)了相應(yīng)的檢索應(yīng)用系統(tǒng).測試表明,對(duì)于多源異構(gòu)的復(fù)雜土地基礎(chǔ)數(shù)據(jù),本文提出的基于元數(shù)據(jù)的管理檢索一體化方法框架,較于傳統(tǒng)的通用信息檢索框架,具有更好的適用性和更高的準(zhǔn)確率.

    猜你喜歡
    分詞檢索實(shí)體
    前海自貿(mào)區(qū):金融服務(wù)實(shí)體
    中國外匯(2019年18期)2019-11-25 01:41:54
    結(jié)巴分詞在詞云中的應(yīng)用
    2019年第4-6期便捷檢索目錄
    實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
    兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
    振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
    值得重視的分詞的特殊用法
    專利檢索中“語義”的表現(xiàn)
    專利代理(2016年1期)2016-05-17 06:14:36
    高考分詞作狀語考點(diǎn)歸納與疑難解析
    論英語不定式和-ing分詞的語義傳承
    清水县| 开平市| 汤原县| 广昌县| 容城县| 深泽县| 三门县| 儋州市| 灵璧县| 芦山县| 保康县| 渭源县| 文化| 桦川县| 盘锦市| 磴口县| 石家庄市| 枣庄市| 宝丰县| 通江县| 团风县| 玉溪市| 资中县| 铅山县| 磴口县| 盈江县| 重庆市| 贵州省| 胶州市| 阿合奇县| 揭西县| 仪陇县| 佛教| 辽宁省| 莎车县| 沅江市| 景德镇市| 安西县| 呼伦贝尔市| 墨江| 长葛市|