李諾夫
(廣東省測繪產(chǎn)品質(zhì)量監(jiān)督檢驗(yàn)中心,廣東廣州510075)
GIS數(shù)據(jù)質(zhì)量控制方法探討
李諾夫
(廣東省測繪產(chǎn)品質(zhì)量監(jiān)督檢驗(yàn)中心,廣東廣州510075)
從GIS數(shù)據(jù)質(zhì)量要素構(gòu)成出發(fā),研究GIS數(shù)據(jù)質(zhì)量控制方法,提出幾種數(shù)據(jù)質(zhì)量的檢驗(yàn)方法,包括圖形質(zhì)量檢查、屬性數(shù)據(jù)質(zhì)量檢查和拓?fù)錂z查等。通過研究GIS數(shù)據(jù)質(zhì)量控制的方法,利用當(dāng)今先進(jìn)的計(jì)算機(jī)技術(shù),可大大提高數(shù)據(jù)成果的質(zhì)量和質(zhì)量檢查的效率。
GIS;數(shù)據(jù)檢查;數(shù)據(jù)質(zhì)量
在GIS中,數(shù)據(jù)是作為GIS的血液而存在的,數(shù)據(jù)的規(guī)范、完整和正確是GIS能夠可靠應(yīng)用的前提,是實(shí)現(xiàn)GIS高級功能的基礎(chǔ)。GIS數(shù)據(jù)質(zhì)量的好壞能直接影響到空間數(shù)據(jù)庫所帶來的經(jīng)濟(jì)效益和社會效益,影響到所有基于該空間數(shù)據(jù)庫的應(yīng)用、分析、決策的正確性和可靠性。但是,在對數(shù)據(jù)進(jìn)行數(shù)字化的過程中由于人為的或者非人為的原因,生產(chǎn)出來的數(shù)據(jù)總會與源數(shù)據(jù)產(chǎn)生偏差,并且數(shù)據(jù)加工的過程中由于誤差傳播會進(jìn)一步地?cái)U(kuò)大誤差。因此,對數(shù)據(jù)質(zhì)量進(jìn)行控制就顯得尤為重要。
當(dāng)前,在GIS數(shù)據(jù)數(shù)字化過程中,數(shù)據(jù)的規(guī)范性、正確性、完備性等完全依賴于制圖人員和質(zhì)量檢查人員,空間數(shù)據(jù)采集的高效率與相對落后的數(shù)據(jù)質(zhì)量檢查手段形成了較大反差,圖形屬性一體化的GIS數(shù)據(jù)成果質(zhì)量已不是人工檢查所能完全勝任的,空間數(shù)據(jù)質(zhì)量控制成為制約地理信息產(chǎn)業(yè)發(fā)展的瓶頸。因此,研究GIS數(shù)據(jù)質(zhì)量控制的方法,充分利用當(dāng)今先進(jìn)的計(jì)算機(jī)技術(shù),提高數(shù)據(jù)成果的質(zhì)量和質(zhì)量檢查的效率就顯得十分必要。
1.GIS數(shù)據(jù)質(zhì)量的定義
GIS數(shù)據(jù)質(zhì)量是指GIS數(shù)據(jù)適用于不同應(yīng)用的能力。通常用GIS數(shù)據(jù)的誤差和正確率來度量。主要包括屬性精度、數(shù)據(jù)源、點(diǎn)位精度、要素完整性和屬性完整性、數(shù)據(jù)邏輯一致性、數(shù)據(jù)現(xiàn)勢性等??臻g位置、專題特征以及時間是表達(dá)現(xiàn)實(shí)世界空間變化的3個基本要素。GIS數(shù)據(jù)是有關(guān)空間位置、專題特征以及時間信息的符號記錄。而數(shù)據(jù)質(zhì)量則是基礎(chǔ)地理數(shù)據(jù)在表達(dá)這3個基本要素時所能夠達(dá)到的準(zhǔn)確性、一致性、完整性,以及它們?nèi)咧g統(tǒng)一性的程度。只有了解GIS數(shù)據(jù)質(zhì)量之后才能判斷GIS數(shù)據(jù)對某種應(yīng)用的適宜性。
數(shù)據(jù)質(zhì)量是數(shù)據(jù)對特定用途的分析和操作的適用程度,但這只是數(shù)據(jù)使用者的觀點(diǎn),數(shù)據(jù)質(zhì)量的概念對于數(shù)據(jù)生產(chǎn)領(lǐng)域和數(shù)據(jù)使用領(lǐng)域有著不同的含義。對于數(shù)據(jù)生產(chǎn)者來說,GIS數(shù)據(jù)質(zhì)量是通過真實(shí)標(biāo)記的原則將地理信息產(chǎn)品的特性和特征通過一定的方式進(jìn)行標(biāo)記;對于數(shù)據(jù)使用者來說,數(shù)據(jù)質(zhì)量是按滿足指定應(yīng)用需求的原則進(jìn)行標(biāo)記。因此,數(shù)據(jù)質(zhì)量可以全面地理解為地理信息產(chǎn)品滿足特定需要的特性和特征的總和或提供應(yīng)用服務(wù)的能力。
2.GIS數(shù)據(jù)質(zhì)量元素
GIS數(shù)據(jù)質(zhì)量元素是指記錄數(shù)據(jù)集質(zhì)量的定量成分,它是產(chǎn)品滿足用戶要求和使用目的的基本特性。按數(shù)據(jù)質(zhì)量特性的詳細(xì)程度,數(shù)據(jù)質(zhì)量可分為一級質(zhì)量元素、二級質(zhì)量元素(一級質(zhì)量元素的子元素)、三級質(zhì)量元素(二級質(zhì)量元素的子元素),依此類推[1]。
GIS數(shù)據(jù)質(zhì)量由數(shù)據(jù)質(zhì)量元素來描述。如圖1所示,數(shù)據(jù)質(zhì)量元素分為兩類:數(shù)據(jù)質(zhì)量的定量元素和數(shù)據(jù)質(zhì)量的非定量元素。其中,數(shù)據(jù)質(zhì)量定量元素包括數(shù)據(jù)質(zhì)量定量元素子元素,用于描述數(shù)據(jù)集滿足預(yù)先設(shè)定的質(zhì)量標(biāo)準(zhǔn)要求及指標(biāo)的程度,并提供定量的質(zhì)量信息。數(shù)據(jù)質(zhì)量非定量元素則提供綜述性的、非定量的質(zhì)量信息。
圖1 空間數(shù)據(jù)質(zhì)量信息組成
3.數(shù)據(jù)質(zhì)量檢查的主要內(nèi)容
GIS數(shù)據(jù)的質(zhì)量檢查內(nèi)容主要體現(xiàn)在以下幾方面[2]。
1)數(shù)據(jù)檔案:即數(shù)據(jù)的情況說明。數(shù)據(jù)檔案需要對基礎(chǔ)地理數(shù)據(jù)的來源、處理及相關(guān)數(shù)據(jù)信息等方面進(jìn)行全面和詳盡的描述,基礎(chǔ)地理數(shù)據(jù)的數(shù)據(jù)檔案通常以地理數(shù)據(jù)元數(shù)據(jù)的形式來表示,主要包括數(shù)據(jù)名稱、生產(chǎn)日期、地理坐標(biāo)系、高程基準(zhǔn)、比例尺等。
2)定位精度:也稱作空間位置精度,主要是指數(shù)據(jù)的地理定位精度,即空間數(shù)據(jù)庫實(shí)體的坐標(biāo)信息與真實(shí)地理位置的幾何誤差。由于通常以具有三維地理坐標(biāo)的點(diǎn)、線、面作為研究對象并進(jìn)一步表達(dá)空間實(shí)體,因此定位精度常表現(xiàn)為空間三維坐標(biāo)數(shù)據(jù)的精度。定位誤差包括數(shù)據(jù)平面誤差、高程誤差、數(shù)據(jù)接邊誤差等。
3)屬性精度:是指空間實(shí)體的屬性值與真實(shí)值的相符程度??臻g實(shí)體的屬性數(shù)據(jù)與地理數(shù)據(jù)的類型和定位精度緊密相關(guān),屬性精度包括要素分類和編碼的準(zhǔn)確性、要素名稱的準(zhǔn)確性、屬性字段和屬性值的準(zhǔn)確性等。
4)邏輯一致性:是指地理數(shù)據(jù)元素之間邏輯關(guān)系的一致性,包括數(shù)據(jù)結(jié)構(gòu)、拓?fù)潢P(guān)系、空間特征、時間特征以及屬性特征的一致性。
5)數(shù)據(jù)完備性:是指地理數(shù)據(jù)在范圍、內(nèi)容及結(jié)構(gòu)等方面的完整程度,包括數(shù)據(jù)范圍、地理數(shù)據(jù)類型、數(shù)據(jù)庫及表結(jié)構(gòu)、實(shí)體空間關(guān)系、屬性分類、空間實(shí)體描述、屬性字段描述、實(shí)體與屬性對應(yīng)關(guān)系的完整性等。
6)數(shù)據(jù)現(xiàn)勢性:即數(shù)據(jù)的時間精度,是指地理數(shù)據(jù)時間信息的可靠性。地理數(shù)據(jù)的更新周期較長,因此歷史數(shù)據(jù)和實(shí)際數(shù)據(jù)存在一定差異,這直接影響了地理數(shù)據(jù)的有效應(yīng)用,可以通過記錄數(shù)據(jù)更新的時間和頻率等來表示。
從理論上講,GIS是按一定的數(shù)據(jù)模型和數(shù)據(jù)結(jié)構(gòu)組織數(shù)據(jù)的,圖形與屬性、圖形與圖形、屬性與屬性之間存在一定的邏輯關(guān)系和規(guī)律。因此,通過設(shè)計(jì)模型和算法,開發(fā)相應(yīng)的計(jì)算機(jī)程序,可以將數(shù)據(jù)中不符合規(guī)律、邏輯關(guān)系矛盾的要素挑選出來,實(shí)現(xiàn)對GIS數(shù)據(jù)的自動檢查。下面是一些常見的GIS數(shù)據(jù)缺陷的質(zhì)量檢查方法。
1.定位精度質(zhì)量檢查
定位精度檢查方法是采集一定數(shù)量的檢測點(diǎn)和檢測邊長與空間數(shù)據(jù)中相應(yīng)的點(diǎn)或邊長比對,將比對的差值進(jìn)行統(tǒng)計(jì)。
平面中誤差計(jì)算
式中,(x'i,y'i)為檢測點(diǎn)坐標(biāo)值;(xi,yi)為空間數(shù)據(jù)中同名點(diǎn)的坐標(biāo)值;n為檢測點(diǎn)個數(shù);mx、my以及mp分別為在坐標(biāo)軸方向上的中誤差和點(diǎn)位中誤差。
相對邊長中誤差的計(jì)算
式中,mS為空間數(shù)據(jù)邊長中誤差;S'i和Si分別為檢測邊長和空間數(shù)據(jù)中相應(yīng)的同一邊長值;n為檢測邊數(shù)。
高程位置中誤差的計(jì)算
式中,mH為檢測點(diǎn)高程中誤差;H'i和Hi分別為檢測點(diǎn)高程和空間數(shù)據(jù)中同名點(diǎn)的高程;n為檢測點(diǎn)個數(shù)。
定位精度質(zhì)量檢查一般采用測量檢測點(diǎn)的坐標(biāo),然后與同名點(diǎn)坐標(biāo)比對計(jì)算點(diǎn)位中誤差的方法。這里介紹采用檢測邊長比對的方法,質(zhì)量檢查由于有一定的滯后性,在特殊的情況下(如控制點(diǎn)被破壞或密集居民區(qū)內(nèi)部等)測量點(diǎn)的坐標(biāo)是困難的,這時采用邊長比對的方法是較實(shí)用的。從工作效率來說,丈量一條邊比測量兩個點(diǎn)坐標(biāo)要容易得多。
2.圖形質(zhì)量檢查
(1)回頭線檢查
回頭線是檢查線段有無打折的現(xiàn)象,以及是否存在角度比較小的褶皺。產(chǎn)生此錯誤的可能原因是數(shù)字化員在數(shù)字化線狀地物時手抖動造成的。如圖2所示,一條線的連續(xù)兩段間夾角小于一定角度時認(rèn)為此曲線存在回頭現(xiàn)象,這種線叫回頭線。
圖2 回頭線
回頭線檢查的方法如下:
設(shè)一線上的連續(xù)3點(diǎn)為point1、point2、point3,判斷point3是否為回頭點(diǎn)的步驟如下:
1)確定point3在以point1為起點(diǎn)、point2為終點(diǎn)的線段上的投影點(diǎn)pointProjection。
2)計(jì)算 point3和 pointProjection之間的距離d1。
3)根據(jù)輸入的檢查條件:3點(diǎn)形成的限差角度(3點(diǎn)形成的角度小于這個值就可認(rèn)為3點(diǎn)中有個點(diǎn)為回頭點(diǎn)),求出point3到以point1為起點(diǎn)、point2為終點(diǎn)的線段的垂直限差距離d2。
4)如果d1≤d2,則point3即為回頭點(diǎn)。
(2)有向線方向檢查
有向線方向檢查主要是針對有特定方向的線地物進(jìn)行的,如河流只能從高向低流,若反過來即為錯誤。錯誤產(chǎn)生的原因可能是在數(shù)字化河流等有向線時因粗心而造成。
河流方向的檢查方法如下:
1)根據(jù)高程點(diǎn)構(gòu)造出TIN網(wǎng)。
2)計(jì)算河流起點(diǎn)和終點(diǎn)的高程。
3)比較兩點(diǎn)的高程得出方向是否正確。
3.屬性數(shù)據(jù)質(zhì)量檢查
(1)結(jié)構(gòu)一致性檢查
根據(jù)項(xiàng)目系統(tǒng)設(shè)計(jì)要求建立數(shù)據(jù)模板,參考數(shù)據(jù)模板,首先檢查圖層的完整性(是否有多余圖層或缺少圖層);針對已有圖層,檢查字段順序、字段個數(shù)(是否有多余字段或缺少字段);針對字段,檢查字段長度、字段類型、字段可否為空等設(shè)置是否正確。
(2)編碼合法性檢查
參考數(shù)據(jù)模板,遍歷各層對象的屬性字段,檢查是否符合數(shù)據(jù)規(guī)定的內(nèi)容要求(如屬性編碼值域、屬性組合正確性、要素邏輯關(guān)系等),是否有非本層要素及其他非法值存在。
(3)屬性填寫完整性
主要檢查一些具體要素的屬性項(xiàng)是否填寫完整,如公路橋的國標(biāo)碼、名稱、載重、層數(shù)均需填寫完整。
4.拓?fù)錂z查
(1)Geodatabase中基于規(guī)則的拓?fù)潢P(guān)系管理機(jī)制
空間數(shù)據(jù)的拓?fù)潢P(guān)系及其處理方法在高級的空間分析處理和空間數(shù)據(jù)庫數(shù)據(jù)質(zhì)量保證方面具有相當(dāng)重要的作用。隨著ArcInfo升級到8版本后,全新的空間數(shù)據(jù)模型Geodatabase被引入,其中對拓?fù)潢P(guān)系的管理和處理方法發(fā)生了重大的改變,引入了拓?fù)潢P(guān)系規(guī)則。
(2)拓?fù)潢P(guān)系規(guī)則
拓?fù)潢P(guān)系規(guī)則可作用于同一要素?cái)?shù)據(jù)集中的不同要素類或者同一要素類中的不同要素。用戶可以指定空間數(shù)據(jù)必須滿足的拓?fù)潢P(guān)系約束,如要素之間的相鄰關(guān)系、連接關(guān)系、覆蓋關(guān)系、相交關(guān)系、重疊關(guān)系等。所有這些關(guān)系都對應(yīng)相應(yīng)的規(guī)則。比較典型的拓?fù)湟?guī)則例子是:多邊形不能相互重疊(兩個建設(shè)用地地塊間不可相互重疊);點(diǎn)必須被多邊形邊線覆蓋(建設(shè)用地的界址點(diǎn)必須在用地紅線上);不能有懸掛結(jié)點(diǎn)(用地紅線不能有多余的出頭線段);兩個線層不能相交(地下管線和道路中心線不能有交叉點(diǎn))等。在ArcGIS中,總共給出25條可供選用的拓?fù)湟?guī)則。對一個要素?cái)?shù)據(jù)集,可以定義一個拓?fù)潢P(guān)系類,在拓?fù)潢P(guān)系類中,指定若干希望數(shù)據(jù)滿足的拓?fù)潢P(guān)系規(guī)則。當(dāng)然,通過修改拓?fù)潢P(guān)系類的定義,就能夠方便地改變對拓?fù)潢P(guān)系約束的要求,這給管理空間數(shù)據(jù)帶來了很大的靈活性。
(3)基于規(guī)則的拓?fù)錂z查
利用ArcGIS中提供的拓?fù)潢P(guān)系規(guī)則對空間數(shù)據(jù)的拓?fù)潢P(guān)系正確性進(jìn)行檢查。檢查結(jié)果會作為一個特殊的圖層加載到地圖文檔中供顯示,所有存在拓?fù)潢P(guān)系錯誤的地方都會在該層中以特定(可自定義)的顏色和符號明顯地顯示出來。
質(zhì)量控制是提高矢量地圖數(shù)據(jù)精度的重要手段。筆者借鑒了常規(guī)地圖生產(chǎn)的經(jīng)驗(yàn)和檢查繪圖軟件的技術(shù)基礎(chǔ),對地圖數(shù)據(jù)的屬性精度、位置精度、拓?fù)潢P(guān)系、邏輯一致性、數(shù)據(jù)完整性等方面檢查與控制的原理、方法進(jìn)行了系統(tǒng)的研究和探索。實(shí)踐表明,通過改進(jìn)GIS數(shù)據(jù)質(zhì)量檢查的方法,能夠有效地提高質(zhì)量檢查的效率和數(shù)據(jù)質(zhì)量。
[1] 彭強(qiáng)勇.矢量基礎(chǔ)地理數(shù)據(jù)質(zhì)量評價研究[D].南京:南京師范大學(xué),2007.
[2] 詹美斌,賈濟(jì)紅,施志梅.GIS基礎(chǔ)地理數(shù)據(jù)質(zhì)量檢查及其監(jiān)控體系構(gòu)建[J].現(xiàn)代測繪,2007(4):14-15.
On GIS Data Quality Control Method
LI Nuofu
0494-0911(2011)08-0066-03
P208
B
2011-03-09;
2011-06-20
李諾夫(1961—),男,廣東韶關(guān)人,高級工程師,主要從事測繪產(chǎn)品質(zhì)量的監(jiān)督、檢驗(yàn)工作。