文/嚴(yán)偉銘 潘善亮
在本文中,我們嘗試著使用異常數(shù)據(jù)挖掘的方法來進(jìn)行國土行業(yè)的數(shù)據(jù)分析與策略支持研究,并希望該方法可以對未來的國土行業(yè)數(shù)據(jù)處理方面提供幫助。
在數(shù)據(jù)集中,通常會有一些不規(guī)律的數(shù)據(jù)我們稱之為異常數(shù)據(jù),在很長的時間里,大家一直把這類異常數(shù)據(jù)當(dāng)做噪聲或者是一些意外產(chǎn)生的數(shù)據(jù);但在一些實際應(yīng)用中,我們發(fā)現(xiàn)這些異常數(shù)據(jù)更有價值;對這些異常數(shù)據(jù)的分析被當(dāng)做是異常數(shù)據(jù)挖掘。
為了闡明異常數(shù)據(jù)挖掘,我們引入了一個概念:異常數(shù)據(jù)索引。
對于集合Q,有一個P屬于Q,我們將點d(P,x)定義為在P和x之間的距離(x屬于Q),在集合Q的這些數(shù)據(jù)點,我們將其按序列大小收集起來,即(d(p,x),d(p,x)_d(p,x))。我們把d(P,x)的距離k稱為k(p)。而如果有一個點(屬于集合Q),它離點p的距離小于k(P),我們稱之為p點的近鄰;也就是說,:
定義1:對于給定的整數(shù)k,屬于集合Q的點p的可訪問距離可以被定義為:
定義2:定義點p和k-鄰位之間的可訪問的平均距離為點p的k-鄰位的分布密度,也就是:
指的是k-鄰位的5個點,而Rd k(p)指的是分布密度p點周圍的點。
定義3:指數(shù)的異常值。
它可以從異常值的定義中清楚地說明它提出了一個相對的異常值的定義。它利用了相鄰點的密度和密度之間的比值點的密度來定義具有不同分布密度的異常值的數(shù)據(jù)組。在相鄰與相鄰點之間的密度和它的數(shù)據(jù)點之間的密度應(yīng)該大于其他正常數(shù)據(jù)點。這就是為什么異常值可以有效的定義異常值的原因。
異常數(shù)據(jù)挖掘。該方法基于國土風(fēng)險管理數(shù)據(jù)的特點,我們設(shè)計了三個關(guān)鍵步驟,將異常數(shù)據(jù)挖掘與土地風(fēng)險管理相結(jié)合。首先,收集和整理數(shù)據(jù)。其次,挖掘異常數(shù)據(jù)。最后,分析我們從這一步得到的異常數(shù)據(jù)。
最后,我們得出如下結(jié)論:
(1)每集的輸入點P,獲得通過k鄰點斑點,并保存所有k鄰點每個點和點之間的距離P;
(2)對于每一個輸入集點P,K鄰點獲得每個景點之間的距離和點P,在序列的大小和范圍;
(3)數(shù)據(jù)點p,計算它的可訪問距離和密度以及它的k-鄰居5;
(4)計算每個數(shù)據(jù)點的離群值,并在大小序列中進(jìn)行范圍;
(5)將前n的位置設(shè)置為離群值數(shù)據(jù)點集并返回集合。根據(jù)離群值的時間序列數(shù)據(jù),該算法可以大致劃分為兩個部分:一個是對數(shù)據(jù)點的k-鄰居的查詢;另一種是對離群值的計算。對數(shù)據(jù)點的k鄰居的查詢是基于MDIT的,時間的復(fù)雜性基于索引的算法是O(nlgn)。然后通過定義l和定義2,獲得位置5 k鄰居,計算朝臣的索引,算法的時間復(fù)雜度為0(n)。
國土行業(yè)是犯罪的高發(fā)區(qū),主要是企業(yè)與政府內(nèi)部貪腐造成的。具體表現(xiàn)如下:
(1)地價異常:某塊區(qū)域的地價呈現(xiàn)過低或者過高的表現(xiàn)。
(2)土地用途的異常:國土用地主要分為三類:建設(shè)用地、農(nóng)用地、未利用地,三類用途的土地所需繳的費用不同,很多企業(yè)利用土地用途的變化進(jìn)行犯罪。
表1
表2:異常數(shù)據(jù)點
圖1:價格位置分布圖
圖2:聚類點
(3)招拍掛異常:土地拍賣需要進(jìn)行招拍掛,而對參與招拍掛的企業(yè)國土部門可以設(shè)置各類的準(zhǔn)入條件,這種準(zhǔn)入條件有時會被腐敗分子故意設(shè)置成篩選指定企業(yè)的工具,造成符合條件能參與招拍掛的企業(yè)只有極少數(shù),從而造成招拍掛流程的弄虛作假。
(4)三公用費異常:這類異常主要是因為三公經(jīng)費出現(xiàn)不符合規(guī)定的使用情況。
因此,國土部門應(yīng)找到一種加強(qiáng)監(jiān)管的正確和有效的途徑,對土地系統(tǒng)內(nèi)部的數(shù)據(jù)進(jìn)行分析,對國土行業(yè)內(nèi)部的各類數(shù)據(jù)進(jìn)行全面的了解,再根據(jù)這些了解分析來防范土地犯罪的產(chǎn)生。
數(shù)據(jù)來源:本文所使用的數(shù)據(jù)是寧波某地區(qū)的土地數(shù)據(jù),本文選取了典型的31個樣本,用于模型試驗。
實證結(jié)果:我們可以通過對異常數(shù)據(jù)的分析和建模來進(jìn)行土地數(shù)據(jù)的風(fēng)險識別和評估。
根據(jù)圖1、圖2和表1、表2我們可以發(fā)現(xiàn),通過對土地數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,我們得到一些異常數(shù)據(jù),而這些異常數(shù)據(jù)的分析可以很清晰幫我們發(fā)現(xiàn)這些數(shù)據(jù)的重點。
(1)我們選擇兩個風(fēng)險變量作為異常數(shù)據(jù)挖掘的輸出,即土地價格和土地位置。在接下來的階段,我們需要使用異常數(shù)據(jù)挖掘技術(shù)來分析數(shù)據(jù)。
(2)首先,我們將土地的價格和位置分配到圖1中,我們可以看到每塊地的的分布。其次,根據(jù)這些基本數(shù)據(jù),我們發(fā)現(xiàn)異常的值并不超過五個,于是我們設(shè)n=O k=3,接著再自由地選擇6個沒有標(biāo)記的點進(jìn)行數(shù)據(jù)收集,并計算它們的離群值。找出異常值的位置是最小的,并將其放入正常的數(shù)據(jù)收集中。在原始的集合中標(biāo)記位置。找到在新標(biāo)記的區(qū)域周圍的周圍區(qū)域的其他區(qū)域。同樣的,把它放在非離群值的集合中,并記住標(biāo)記它。最后,我們在表2中獲得了4個異常值。
(3)通過數(shù)據(jù)挖掘技術(shù),我們得到表2中的4個離群值數(shù)據(jù)點。后通過對異常數(shù)據(jù)的分析,我們發(fā)現(xiàn)表2中的數(shù)據(jù)1和數(shù)據(jù)2的價格太低了。
我們可以推斷出他們是異常土地塊,我們的國土部門應(yīng)該進(jìn)一步調(diào)查。因此,該模型可用于幫助風(fēng)險管理確定。
結(jié)合土地風(fēng)險管理的理論與實踐,全面介紹了異常值和異常數(shù)據(jù)挖掘的風(fēng)險識別與評價指標(biāo)。首先,我們收集并組織一些有價值的數(shù)據(jù),為下一步的工作奠定基礎(chǔ)。其次,我們利用離群挖掘技術(shù)找出四個異常數(shù)據(jù)。最后,我們測試上述情感作用模型實證分析。通過這種方式,可以有效的提高國土資源的監(jiān)管。