基于空間占有度的主導并置模式挖掘

2022-02-11 13:32:24王麗珍王曉璇楊培忠

計算機研究與發(fā)展 2022年2期

方圓王麗珍王曉璇楊培忠

1(云南大學數(shù)學與統(tǒng)計學院昆明 650500) 2(云南大學西南天文研究所昆明 650500) 3(云南大學信息學院昆明 650500)

空間并置模式(spatial co-location patterns, SCPs)代表一組不同類型的空間特征的組合，該組特征的實例在空間中頻繁地共存.作為空間數(shù)據(jù)挖掘及空間關聯(lián)規(guī)則挖掘領域的一個重要分支，空間并置模式挖掘(以下簡稱為SCPs挖掘)旨在發(fā)掘隱藏在空間復雜分布中的有趣知識，揭示空間特征之間的相關性，在生態(tài)學研究、公共衛(wèi)生服務、基于位置的模式推薦、城市規(guī)劃、決策支持等領域有著廣泛的應用.

經(jīng)典的SCPs挖掘過程首先收集位于同一鄰域(實例間滿足兩兩鄰近關系)且屬于同一特征組的實例組(并置實例)，而后通過參與度-參與率度量提取頻繁的空間并置模式.圖1(a)顯示了一個簡單的分布數(shù)據(jù)集，其中6個空間特征

和

的實例分別用不同形狀的頂點表示，實例之間的邊代表2個實例之間有鄰近關系.圖1(b)列出了圖1(a)數(shù)據(jù)集中模式{

}的并置實例，以及模式的特征參與率(participation ratio,

)和參與度(participation index,

).假設頻繁性閾值設置為0.3，則{

}是一個頻繁的SCP.

Fig. 1 An explanatory example圖1 一個說明性示例

在某些空間并置模式的應用場景中，只考慮模式的頻繁性，將參與度高的模式推薦給用戶已不能滿足用戶的需求.例如，在城市公共基礎設施規(guī)劃中，頻繁的空間并置模式代表了一組公共設施類型在城市區(qū)域分布中的普遍性.然而，這項應用更關心在模式代表的并置實例具有普遍性的基礎上，盡量提供全面的公共基礎設施，為居民的城市生活提供便利.因此，為了保證合理規(guī)劃，規(guī)劃者希望得到既具有普遍性又能較為全面地反映城市居民需求的一組公共基礎設施類型，用以指導新城區(qū)的規(guī)劃建設.在這項應用中，推薦給用戶的模式需要結合并置模式的頻繁性和完整性2方面的信息，才能更好地為用戶提供決策支持.

經(jīng)典的SCPs挖掘方法采用的參與度-參與率度量很好地體現(xiàn)了空間并置模式代表的一組空間特征共存的強度.然而，高階SCPs的參與度往往比它的低階子模式的參與度要低.因此，在要求模式的高參與度時，往往損失了模式代表的地理空間中特征信息的完整度.為了提高并置模式的可用性，我們引入了頻繁項集挖掘中“占有度”的概念，來衡量空間并置模式的完整性，并結合空間占有度和參與度，提出了挖掘主導空間并置模式(dominant spatial co-location patterns, DSCPs)挖掘.與一般的SCPs模式只考慮模式的頻繁性相比，DSCPs同時考慮了模式的頻繁性和完整度，是一類可用性更高、信息更全面的高質量并置模式.

本文的主要貢獻包括3個方面:

1) 提出了一種等價關系，稱為實例間的連通關系，對并置模式的實例進行劃分.基于該劃分定義了空間占有率和空間占有度的概念，作為衡量并置模式完整性的指標;

2) 通過結合參與度和占有度指標，形式化定義了主導并置模式挖掘問題，并提供占有度和參與度之間的權重參數(shù)，讓用戶根據(jù)不同的偏好獲得期望的挖掘結果.然后開發(fā)了一種稱為DSCPMA算法(主導空間并置模式挖掘算法)來解決DSCPs挖掘問題;

3) 在DSCPMA算法的基礎上探索了空間占有度度量的上限.此外，設計了一種新的數(shù)據(jù)結構，稱為并置鄰域表來存儲實例，提出了一系列剪枝策略改進DSCPMA算法效率.

通過在具有不同數(shù)據(jù)密度和數(shù)據(jù)規(guī)模的幾個合成數(shù)據(jù)集上改變參數(shù)設置的實驗，測試了不同參數(shù)和所提出的剪枝策略對算法的影響.在不同數(shù)據(jù)集上的實驗結果表明我們提出的DSCPMA算法可以有效地挖掘主導并置模式.

1 相關工作

并置模式挖掘在空間數(shù)據(jù)挖掘領域有著重要的作用.基于占有度度量的頻繁項集挖掘也都有著廣泛的應用和重要的研究意義.接下來，我們概述已有的部分空間并置挖掘方法及其在不同條件下的應用.

空間并置模式表示不同類型的空間特征子集的頻繁共現(xiàn).由于空間的連續(xù)性和復雜性，空間并置模式挖掘中缺乏事務數(shù)據(jù)庫中頻繁項集挖掘的事務概念.因此，Huang等人提出使用用戶指定的鄰域代替事務項來指定空間項集，并且還定義了一個頻繁性度量，該度量具有理想的反單調性，即參與度(率)，以衡量空間特征集的實例的共現(xiàn)頻率.同時，開發(fā)了一種稱為Join-base算法的類Apriori算法來發(fā)現(xiàn)所有頻繁的并置模式.之后，鑒于join-base算法進行了大量的instance-join查詢操作，為降低其在密集數(shù)據(jù)集上的計算開銷，提出了一系列方法來提高基于連接的算法的效率.同時，隨著并置模式挖掘的廣泛應用，其應用場景變得愈加多樣和復雜，為進一步提高并置模式挖掘的可用性，研究者從數(shù)據(jù)驅動和領域驅動2個方面對現(xiàn)有的模式挖掘方法進行改進及拓展.數(shù)據(jù)驅動方法側重于在不同數(shù)據(jù)類型上挖掘并置模式，例如針對不確定數(shù)據(jù)、模糊對象、擴展對象、時空數(shù)據(jù)等不同數(shù)據(jù)類型的并置模式挖掘以及并置模式的壓縮表示.并置模式壓縮表示包括使用極大并置模式挖掘方法的有損壓縮方法和使用閉的并置模式的無損壓縮方法.同時，一些針對特定挖掘目的或領域知識約束的并置模式挖掘被相繼提出，用以滿足各種領域應用的需求.例如挖掘高效用并置模式、含主導特征的并置模式、區(qū)域并置模式、動態(tài)并置模式、具有特定關系的并置模式等.

作為一個有趣的新度量，“占有率”的概念由Tang等人提出，旨在捕獲挖掘頻繁項集模式的完整性，用于衡量模式(項集)在其支持事務中占據(jù)的比例.文獻[38]將占有率度量擴展到序列數(shù)據(jù)，以挖掘高質量的序列模式.文獻[39]將占有率概念引入到高效用模式挖掘中，提出了一種稱為效用占有率的度量來衡量模式在支持事務中的貢獻.Shen等人根據(jù)用戶在頻繁度、效用和占有率方面的偏好來挖掘高效用占有模式.由于每個項在實際應用中可能具有不同的重要性，因此Zhang等人將不同事務項的權重納入占有率，挖掘具有頻繁性和權重占有率的高質量模式.與使用模式的絕對大小作為約束的傳統(tǒng)最大模式相比，占有率度量模式與其支持事務的相對大小，可以被視為一種更靈活的度量方法，并成功應用于許多需要挖掘結果的完整性信息的實際應用中，例如網(wǎng)頁區(qū)域推薦、網(wǎng)絡打印任務推薦、旅行路線推薦、商品匹配推薦等.

主導空間并置模式挖掘的任務看起來類似于基于占有率的項集挖掘問題，但實際上由于空間數(shù)據(jù)集中缺乏獨立的事務概念，二者在挖掘方法上并不相同：1)空間數(shù)據(jù)占有率(度)度量與頻繁項集挖掘工作的占有率度量定義不同.頻繁項集挖掘工作中的傳統(tǒng)占有率度量基于事物概念，事務數(shù)據(jù)庫中的各項事務彼此獨立.然而，空間特征的實例天然嵌入在連續(xù)空間中，并且彼此共享各種空間關系(例如鄰居關系).因此，我們?yōu)榭臻g并置模式挖掘開發(fā)了一種新的空間占有率(度)度量.2)挖掘目標不同.傳統(tǒng)的基于占有率的事物數(shù)據(jù)挖掘旨在尋找頻繁并占據(jù)其大部分支持事物的模式.然而，DSCPs挖掘旨在找到一組代表空間鄰域中實例的大部分實例分布且特征之間具有強烈關聯(lián)的并置模式.3)挖掘DSCPs的技術不同于基于占有率的事務數(shù)據(jù)模式挖掘的技術.DSCPs挖掘框架基于空間實例之間的鄰近關系，而不是基于事務數(shù)據(jù)中獨立的事務項，因此需要基于空間數(shù)據(jù)的特性，為DSCPs挖掘開發(fā)新的算法和新的數(shù)據(jù)結構.此外，空間占用率(度)度量不滿足單調或反單調特性，因此需要探索新的剪枝策略來提高DSCPs挖掘的效率.

2 主導空間并置模式

2.1 基礎概念

本節(jié)給出并置模式挖掘的一些基本概念和定義.由于符號較多，為了便于讀者閱讀，表1顯示了本文對符號及其含義的統(tǒng)一描述.

Table 1 List of Notations

在空間數(shù)據(jù)庫中，每個空間對象都被看作一個空間實例，且屬于一個特定的事物類型(特征)

給定一個空間特征的集合

…,

}和一個空間實例集合

∪

∪…∪

(

(1≤

≤

)是特征

的實例集合)，一個空間并置模式

…,

}是空間特征集

的子集,

，模式中包含的特征個數(shù)

稱為并置模式的階

包括所有

的特征且在給定的鄰近關系

下形成團的

個實例組成的集合稱為

的并置實例，所有并置實例的集合稱為

的表實例，記為

(

)

如圖1(a)所示，{

1}是{

}的一個并置實例，{

}的表實例如圖1(b)所示

值得一提的是，單個特征可以看作是階數(shù)為1的頻繁并置模式，其表實例是該特征的所有實例的集合

給定用戶指定的頻繁性閾值

min

，如果

(

)≥

min

，則

是一個頻繁的空間并置模式，一般來說，頻繁的空間并置模式往往簡稱為空間并置模式(spatial co-location patterns, SCPs)或并置模式

如圖1(b)所示，

({

})=4

6，假設

min

3，則{

}是一個頻繁共置模式

引理1.

參與率(度)的反單調性.參與率和參與度隨著模式階數(shù)的增加而單調遞減.

2.2 相關定義

定義1.

實例的鄰域

給定一個空間特征的集合

…,

}及空間實例集

，

為特征

(

∈

)的實例，則實例

的鄰域定義為

(

)={

∈

)∨((

≠

)∧

(

))},

(1)

其中，

為特征

(

∈

)的實例，

為空間鄰近關系

定義2.

并置實例的鄰域

給定一個

階的空間并置模式

…,

}，對于

的任一并置實例

,…,

}，并置實例

的鄰域定義為

(2)

相應地，

的表實例鄰域定義為

所有并置實例鄰域的集合：

(

)={

(

),…,

(

)}

對于圖1(b)所示的空間并置模式{

}的表實例，其表實例鄰域如表2所示

圖2(a)中的實線代表實例之間的鄰近關系

，圓圈內區(qū)域展示了{

}的并置鄰域，可以看到，模式的并置實例在空間上相互重疊

Table 2 Table Instance Neighborhoods of {A,B,C}

Fig. 2 Sample distribution data sets of {A,B,C}圖2 {A,B,C}的數(shù)據(jù)分布樣例

定義3.

連通關系及連通鄰域

給定一個空間實例集

，對于任意2個空間實例

和

(

∈

)，在鄰近關系

下，若存在至少一條

連通到

的路徑，那么

和

滿足連通關系，記為

(

)

形式化定義如下：

(

))?{

(

1),

(

2),…,

(

)},

(3)

其中，

2,…,

∈

若一組空間實例的子集

,…,

}(

)中的所有實例滿足兩兩連通關系，則

稱為一個連通鄰域

定理1.

連通關系是一個空間實例集

上的等價關系

證明

1) 自反性

對于任意實例

(

∈

)，容易證明

(

)

2) 對稱性

對于任意2個空間實例

和

(

∈

)，容易證明

(

)

3) 傳遞性

對于任意3個空間實例

(

∈

)，若滿足

(

)和

(

)，則：

(

)?{

(

1),

(

2),…,

(

)},

(

)?{

(

1),

(

2),…,

(

)},

那么,

{

(

1),…,

(

1),…,

(

)}?

(

)

連通關系滿足自反性、對稱性和傳遞性，是空間實例集

上的等價關系

證畢

引理2.

給定一個

階的空間并置模式

…,

}和表實例

(

)={

,…,

}，對于

(

)的任一并置實例

,…,

}(

∈

(

))，

中的所有實例都屬于連通關系下的一個等價類

證明

設2個空間實例

和

(

∈

)滿足

(

)，根據(jù)定理1，

(

)，因此

中的所有實例都屬于連通關系下的同一等價類

證畢

引理3.

給定一個

階的空間并置模式

…,

}和表實例

(

)={

,…,

}，對于

(

)的并置實例

(

∈

(

))，若

∩

≠?，則

∪

中的所有實例都屬于連通關系下的一個等價類

證明

假設

∩

}，根據(jù)定理1中連通關系的傳遞性，任何

和

中的實例都通過與

滿足連通關系而相互滿足連通關系，因此，

∪

中的所有實例都屬于連通關系下的一個等價類

證畢

定義4.

并置實例的劃分

給定一個

階的空間并置模式

…,

}，表實例

(

)={

,…,

}在連通關系上的劃分表示為并置實例等價類的集合：

(

)={

,…,

},其中，

,…,

}(

∈

(

))代表

(

)的一個并置實例等價類,

∩

=?,1≤

≤

相應地，任一并置實例等價類

(

∈

(

))的實例集合

∪

∪,…,∪

}稱為并置模式

的一個實例分區(qū)，則

的實例分區(qū)集合定義為

CIP

(

)={

,…,

}

的實例分區(qū)滿足3個條件：1)

的任一分區(qū)中的所有實例都相互滿足連通關系

2) 屬于

的不同分區(qū)的2個實例

和

，不滿足連通關系

(

)的任何實例都必須屬于且僅屬于

的一個分區(qū)

請注意，

(

)是并置實例等價類的集合，其等價類中的元素是并置實例，而

CIP

(

)是實例等價類的集合，其等價類中的元素是實例

定義5.

實例分區(qū)鄰域

給定一個

階的空間并置模式

,…,

}，表實例在連通關系上的等價類集合

(

)={

,…,

}，及并置模式

的實例分區(qū)

CIP

(

)={

,…,

}，則對于任一并置實例等價類

(

∈

(

))，其對應的實例分區(qū)

(

∈

CIP

(

))的鄰域定義為

(4)

同樣地，并置模式

的實例分區(qū)鄰域定義為

的實例分區(qū)的鄰域集合：

(

)={

,…,

}

例如：并置模式{

}的實例鄰域及分區(qū)鄰域如表2所示,模式{

}的表實例劃分為

({

})={{

},{

}},{

}的實例分區(qū)鄰域的集合為

({

})={

(

)∪

(

)∪

(

)={

1}，

2}，

如圖2(b)所示，實例之間的實線代表模式{

}的實例之間的連通關系，圓圈內區(qū)域展示了{

}模式的實例分區(qū)鄰域，可以看到，實例的連通關系劃分解決了并置模式的并置實例及其鄰域的重疊問題

在此基礎上，我們給出了空間占有率及占有度的定義

定義6.

空間占有率及空間占有度

給定一個

階并置模式

，

的實例分區(qū)集合

CIP

(

)={

,…,

}及實例分區(qū)的鄰域集合

(

)={

,…,

}，則任一實例分區(qū)

(

∈

CIP

(

))的空間占有率定義為

(5)

空間占有度定義為并置模式

所有實例分區(qū)的空間占有率的最小值，即：

(6)

定義7.

模式質量

給定一個

階并置模式

，一個用戶指定的權重參數(shù)

，則并置模式

的質量定義為

Quality

(

ωPI

(

)+(1-

)

(

)

(7)

例如：假設權重參數(shù)

4，則并置模式{

}的質量值為

Quality

({

})=0

4×0

67+0

6×0

75=0

718

2.3 主導空間并置模式挖掘問題

定義8.

主導空間并置模式

給定一個空間特征集

，空間實例集合

，鄰近關系

，模式頻繁性閾值

min

(0≤

min

≤1)，占有度閾值

min

occ

(0≤

min

occ

≤1)，對于一個

階的空間并置模式

，當滿足：1)

(

)≥

min

，2)

(

)≥

min

occ

時，

稱為一個主導空間并置模式(dominant spatial co-location patterns, DSCPs)

主導空間并置模式挖掘的目的是發(fā)現(xiàn)同時滿足

min

和

min

occ

條件的所有并置模式，并按質量值對結果進行降序輸出

由于空間數(shù)據(jù)缺乏明確的事務概念，因此與傳統(tǒng)的占有率定義不同，在空間數(shù)據(jù)上需要重新定義空間占用率(度)的概念，來衡量并置模式的完整性.本文提出一種等價關系——連通關系，給出了連通關系上的并置實例的劃分，解決了空間并置實例及其鄰域的重疊問題.基于模式的實例分區(qū)和實例分區(qū)鄰域定義，我們提出了空間占有率(度)度量，用于評估并置模式的完整性并形式化了主導空間并置模式(DSCPs)挖掘問題.與事務數(shù)據(jù)的占有率度量一樣，空間占有度度量也不滿足單調或反單調性質，因此第3節(jié)將探討空間占有度的2個上界，以提高DSCPs挖掘的效率.

此外，讀者可能對DSCPs挖掘和極大并置模式挖掘之間的區(qū)別感興趣.這2項工作在挖掘目的和方法上都有不同點.極大并置模式挖掘旨在挖掘所有并置模式的代表性模式，挖掘過程仍基于實例的鄰近關系，根據(jù)極大并置模式集可推導出挖掘結果中的所有頻繁模式，可以看作SCPs模式挖掘結果的壓縮表示.DSCPs挖掘旨在找到一組同時考慮頻繁性與完整性的高質量并置模式集，根據(jù)空間占有率及占有度的定義，盡管高占有度似乎意味著并置模式的階數(shù)更高，但當并置實例的鄰域中有大量鄰居時，一個極大并置模式仍可能具有較低的空間占有率.此外，DSCPs模式的完整性的評估過程考察了并置實例鄰域中其他特征實例對并置實例的影響，因此DSCPs的特征之間更可能存在強烈的關聯(lián).

通過將頻繁性和完整性結合，DSCPs的挖掘結果在實際應用中更具有針對性，我們將在實驗部分對DSCPs應用實例進行分析和闡述.

3 DSCPs挖掘算法

3.1 基本算法

本節(jié)中，我們首先提出一個基礎算法對主導并置模式進行挖掘.

算法1.

主導并置模式挖掘基本算法(Basic_DSCPMA).輸入：空間特征集

、空間實例集

、鄰近關系距離閾值

、頻繁性閾值

min

、占有度閾值

min

occ

、質量權重

；輸出：主導空間并置模式集

set.

①

find

ins

neighbors

(

)；②

=2,

set

=?;③ while (

-1≠?)④

gen

candi

location

(

-1);

*引理1*

⑤ for each

∈

⑥

(

gen

table

ins

(

);⑦ if (

cal

(

))≥

min

⑧

←

;⑨

(

find

neighbors

(

);⑩ Initialize

(

)←

(

);

*對表實例進行連通關系上的劃分*

該算法的具體流程總結如下：

1) 將輸入空間數(shù)據(jù)物化為定義2中給出的實例鄰域模型(行①)

這個過程可以看作是文獻[6]提到的星型鄰居實例模型的一個變體

2) 生成候選DSCPs(行②～④)

根據(jù)參與度的定義將所有特征初始化為1階并置模式

從

-1階頻繁并置模式集

-1(引理1)生成

階(

>1)候選模式

對于一個候選模式

，如果

的任一

-1子模式不頻繁，則該候選模式將被剪枝(行④)

3) 候選模式的頻繁性過濾(行⑤～⑧)

由于空間鄰近關系是對稱的，因此可以直接從每個并置實例的第1個特征的實例鄰域中獲得二階候選并置實例

對于3階以上的候選模式，則需要在生成表實例之前檢查實例之間的團關系(行⑥)

接下來計算候選者的參與率和參與度，如果參與度超過閾值

min

，將這個候選者加入

階頻繁并置模式集

(行⑦～⑧)

算法2.

并置實例劃分算法(

divide

instance

(

)))

輸入：候選模式的表實例

(

)；輸出：候選模式在連通關系上的劃分

(

)，

CIP

(

)

①

Flag

=True;② for each pair of

∈

(

)③ if (

∩

≠?)④

Flag

=False;⑤ delete

from

(

);⑥

(

)←

Union

(

);⑦ if (

Flag

)⑧

CIP

(

)←

get

ins

set

(

));⑨ return

(

CIP

(

);

⑩ else

3.2 剪枝策略

在本節(jié)中，我們探索了空間占有度的2個上限以幫助修剪DSCPs的搜索空間，并設計了一種新的數(shù)據(jù)結構來提高DSCPs挖掘的效率.

3.2.1 并置鄰居表

為了提高DSCPs挖掘過程的效率，縮減模式存儲的冗余信息，本文設計了一種新的數(shù)據(jù)結構：并置鄰居表，用于存儲模式的并置實例鄰域中的實例.基于這種新的數(shù)據(jù)結構，我們可以建立特征之間的映射關系，以加快對候選DSCPs的參與度和占有度的計算過程.

定義9.

并置鄰居表

給定一個

階并置模式

，

的并置鄰居表(co-location neighborhood table,

CNT

)由下列3部分組成：①

的表實例鄰域：

(

)={

(

),…,

(

)}及并置模式的索引；② 模式的特征集

,…,

}及出現(xiàn)在表實例鄰域中的鄰居特征集，記為

(

)={

+1,

+2,…,

∈

；③ 表實例鄰域中的所有特征的實例個數(shù)統(tǒng)計

如圖3所示，并置鄰居表列出了并置實例及其鄰域中的所有實例，并置實例的鄰居實例按其特征類型分組并存儲為枚舉結構

在接下來的挖掘過程中，我們將展示這種新的數(shù)據(jù)結構如何在各個DSCPs挖掘階段提高挖掘效率

Fig. 3 Co-location neighborhood table圖3 并置鄰居表數(shù)據(jù)結構示例

2 基于參與度的剪枝剪枝策略1

給定一個

階并置模式

，

的鄰居特征集

(

)，對于任一

+1階候選模式

+1=

∪

∈

，若滿足：|

(

CNT

(

))|

(

)|≤

min

，則根據(jù)引理1，該候選模式可以被剪枝

為在不生成表實例的情況下直接計算所有

+1階候選模式參與率及參與度，我們提出一組特征映射函數(shù)建立特征之間的映射關系

在給出特征映射函數(shù)的定義之前，為方便描述，本文首先引入文獻[44]中集合信息函數(shù)的定義，描述特征和并置實例鄰域之間的關系

其中,函數(shù)

表示行實例集合對某一特征的實例集合的映射，函數(shù)

表示某一特征的實例集對一組行實例集合的映射

基于集合信息函數(shù)

和

，我們給出空間特征映射函數(shù)的定義

定義10.

特征映射函數(shù)

給定一個

階并置模式

，其并置鄰居表

CNT

(

)中的特征

到

的映射函數(shù)定義為

(8)

例如：對于頻繁并置模式{

}，該模式的鄰居特征

在并置鄰居表

CNT

({

})中的實例集合表示為：

(

CNT

({

}))={

5}，而與特征

的實例位于同一并置實例的特征

的實例可直接通過映射函數(shù)表示為

→({

5})=

(

{

5})=

({

})={

給定一個

階并置模式

及其鄰居特征集

(

)，對于任意

+1階候選模式

+1=

∪

∈

(

)，

+1的參與度可以直接計算為

其中，

∈

(

)

基于定義8，我們可以修剪頻繁并置模式的搜索空間，并直接從并置鄰居表

CNT

(

)計算所有以

為前綴的

+1階候選模式的參與度而無需生成它們的表實例

3 基于空間占有度的剪枝盡管空間占有度度量不滿足單調性或反單調性，但我們仍然可以探索占有度度量的上限，以在挖掘DSCPs時減小搜索空間

引理4.

空間占有度上界

給定一個

階并置模式

，

的實例分區(qū)集

CIP

(

)={

,…,

}，

的實例分區(qū)鄰域

(

)={

,…,

}，空間占有度

(

)存在一個上界：

∈

CIP

(

∈

(

)

證明

(9)

根據(jù)情形1和情形2的討論，當

+1時式(9)成立

證畢

剪枝策略2

給定一個

階候選模式

，

的實例分區(qū)集合

CIP

(

)={

,…,

}，

的實例分區(qū)鄰域

(

)={

,…,

}及空間占有度閾值

min

occ

，根據(jù)引理4，若

Upp

occ

(

)≤

min

occ

，則該候選模式可以被剪枝

同時，基于

的并置鄰居表

CNT

(

)，空間占有度上界

Upp

occ

(

)可簡單地通過下式直接計算:

基于引理4，DSCPs挖掘過程中生成實例分區(qū)鄰域的過程可以通過剪枝策略2縮減候選模式搜索空間來減少計算開銷.然而，表實例劃分算法的遞歸過程仍然需要大量的計算.在實例分區(qū)過程之前對候選模式進行再一次過濾將能夠進一步限制DSCPs的搜索空間，因此我們還為空間占有度計算了一個寬松的上限.

引理5.

寬松的空間占有度上界

給定一個

階并置模式

，

的實例分區(qū)集

CIP

(

)={

,…,

}，

的實例分區(qū)鄰域

(

)={

,…,

}，空間占有度

(

)存在一個寬松的上界：

證明

根據(jù)引理4：

證畢

剪枝策略3

給定一個

階候選模式

，

的實例分區(qū)集合

CIP

(

)={

,…,

}，

的實例分區(qū)鄰域

(

)={

,…,

}及空間占有度閾值

min

occ

，根據(jù)引理5，寬松的空間占有度上界，若

Loose

Upp

occ

(

)≤

min

occ

，則該候選模式可以被剪枝

3.3 改進算法

根據(jù)3.2節(jié)中提出的并置鄰居表數(shù)據(jù)結構和3個剪枝策略，本文提出DSCPs的改進挖掘算法，表示為DSCPMA_IA算法，該算法在候選模式的生成、頻繁性過濾和及占有度過濾步驟中都進行了剪枝操作和基于并置鄰居表結構的快速計算.算法3對改進的DSCPMA_IA算法進行了詳細描述.

1) 生成候選并置模式

對于頻繁的并置模式

-1，其從

-1擴展的候選

階并置模式可以從

-1的并置鄰居表

CNT

(

-1)中進行選擇

根據(jù)剪枝策略1，我們通過測試直接從

CNT

(

-1)獲得的每個擴展特征的參與率過濾

階的候選模式

2) 頻繁性過濾

我們計算從

CNT

(

-1)擴展的

階候選模式的參與度

根據(jù)定義10，我們可以計算

階候選模式的參與度，而無需生成候選表實例

3) 完整性過濾

使用剪枝策略3，候選模式

可以通過其寬松的上界

Loose

Upp

occ

(

)進行過濾

然后進一步使用剪枝策略2修剪DSCPs的搜索空間，從而避免消耗為空間占有率上界低于占有度閾值的候選模式生成進行表實例劃分及實例分區(qū)的成本

算法3.

改進的主導并置模式挖掘算法(DSCPMA_IA).輸入：空間特征集

、空間實例集點

、鄰近關系距離閾值

、頻繁性閾值

min

、占有度閾值

min

occ

、質量權重

；輸出：主導空間并置模式集

set.

①

find

ins

neighbors

(

)；②

=2,

set

=?;③ while (

-1≠?)④ for each

∈

Neighbor

Feature

(

CNT

(

-1))⑤

-1∪

;⑥ if (|

(

CNT

(

-1))|

(

({

}))|≥

min

)⑦

(

calculate

(

CNT

(

-1),

);⑧ if (

(

)≥

min

)⑨

←

;⑩

CNT

(

generate

CNT

(

CNT

(

-1),

);

min

occ

)

(

CIP

(

));

(

));

(

));

(

));

3.4 算法復雜性分析

本節(jié)比較了2種算法Basic_DSCPMA(以下簡稱BA)和改進的算法DSCPMA_IA(以下簡稱IA).2種算法都涉及5個階段：1)將空間數(shù)據(jù)物化為實例鄰域模型；2)生成候選DSCPs；3)候選模式的頻繁性過濾；4)候選模式的完整性過濾；以及5)按質量值對DSCPs進行排序輸出.整個算法過程的大部分計算時間用于2)～4)三個階段.因此，下面我們將詳細分析2種算法在生成候選DSCPs、候選模式頻繁性過濾和候選模式完整性過濾3個主要算法過程中的時間及空間耗費.

1) 生成候選DSCPs過程.在BA中，該進程只根據(jù)引理1進行過濾，從而避免生成不必要的表實例.在IA中，對于頻繁的并置模式

-1，

-1的并置鄰居表

CNT

(

-1)提供剪枝和過濾所有由

-1擴展的候選

階并置模式所需的信息，因此無需生成非頻繁模式的表實例

這個過程節(jié)省了不必要的并置候選參與度計算及其表實例的存儲空間

同時，從

-1的并置鄰居表

CNT

(

-1)生成

的并置鄰居表

CNT

(

)的過程無需再進行團實例檢查，而可以通過特征映射函數(shù)，以

CNT

(

-1)的行號為索引生成新的

CNT

(

)，該過程減少了大量團關系查詢工作，生成新并置鄰居表的過程僅需要

(

)，

為新并置鄰居表的行數(shù).2) 候選模式頻繁性過濾過程.在IA中，對于每個候選

-1∪

，

的參與率可以直接從

CNT

(

-1)得到，其他特征在

中的參與率可以通過映射函數(shù)計算，所以它只需要

(

)，

是含有實例鄰居的擴展特征的并置實例的行數(shù).因此，在改進算法中，我們節(jié)省了用于生成表實例和計算候選模式參與度的存儲空間與計算量.3) 候選模式完整性過濾過程.我們計算空間占有度的上限來修剪搜索空間，基于存儲參與表實例的特征投影的

CNT

(

-1)的最后一行，寬松的占有度上界可以被直接計算(剪枝策略2)，復雜度為

(1).我們開發(fā)的剪枝策略的計算成本是恒定的.因此，這些剪枝策略不僅可以在挖掘過程中修剪DSCPs的搜索空間，而且促進了算法的效率.

4 實驗評估

在本節(jié)中，我們在合成數(shù)據(jù)集和真實數(shù)據(jù)集上進行了實驗，從多個方面評估了所提出算法的運行表現(xiàn)和挖掘效果.所有算法均使用Visual C#語言進行開發(fā)并在2.4 GHz、8 GB內存和Intel Core i7的PC機上運行.

4.1 實驗數(shù)據(jù)集

我們在實驗中使用3個真實數(shù)據(jù)集和一系列合成數(shù)據(jù)集來評估算法的效率和有效性.

1) 合成數(shù)據(jù).合成數(shù)據(jù)集采用類似于文獻[6]的方法生成合成數(shù)據(jù).具體過程如下：首先，給定模擬數(shù)據(jù)的特征集合

以及實例總數(shù)

，并對特征集合中的特征依次編碼，以便于下一步生成各個特征的相應實例；然后，給定一個平均階數(shù)設定值

(本文中設

=5)，使用泊松采樣從特征集中生成階數(shù)為

的

個模式作為初始模式(本文中設

=20)，在空間中為

個初始模式隨機生成

個并置實例的實例集合(本文選取

為實例總數(shù)

的1%)；之后，為每個初始模式的并置實例生成空間分布：為模擬空間實例的分布范圍，

的區(qū)域被網(wǎng)格化為

大小的單元(

為給定的鄰近距離閾值)，隨機選擇一個單元網(wǎng)格，在給定網(wǎng)格大小范圍內進行隨機采樣，以生成一組并置實例的空間位置.接著，我們再將剩余的實例點隨機分配特征類型，并在

的區(qū)域隨機采樣生成實例的空間位置.Dataset-1,Dataset-2和Dataset-3在1 000×1 000空間中生成，Dataset-4在2 000×2 000空間中生成，Datasets-5～Datasets-12在100 000×100 000空間中生成.請注意，盡管Dataset-2包含的實例比Dataset-3少,但由于分布范圍更小，Dataset-2的密度高于Dataset-3.

Fig. 4 Real-1 dataset distribution圖4 Real-1數(shù)據(jù)分布

2) 真實數(shù)據(jù).3個真實數(shù)據(jù)集的分布范圍如圖4～6所示.Real-1數(shù)據(jù)集是北京POI(point of interest)數(shù)據(jù)的空間分布數(shù)據(jù)集，如圖4所示，該數(shù)據(jù)集包含大約26 546個實例和16個特征，其實例分布均勻且密集，不同特征的實例數(shù)量差異很大，成簇狀分布.Real-2是云南“三江并流”保護區(qū)的植被分布數(shù)據(jù)集，如圖5所示，包含25個特征和13 350個實例，在空間中呈塊狀分布.Real-3數(shù)據(jù)集是云南“三江并流”保護區(qū)珍稀植物數(shù)據(jù)集，如圖6所示，包含32個特征，只有355個實例，在空間中呈明顯的帶狀分布.表3出了我們實驗中使用的所有真實數(shù)據(jù)集的分布范圍和默認參數(shù).

Fig. 5 Real-2 dataset distribution圖5 Real-2數(shù)據(jù)分布

Fig. 6 Real-3 dataset distribution圖6 Real-3數(shù)據(jù)分布

Table 3 The Experimental Data Sets and Default Parameters

4.2 算法性能評估

本節(jié)考察Basic_DSCPMA(以下簡稱BA)和改進的DSCPMA_IA(以下簡稱IA)這2種算法在一系列合成數(shù)據(jù)集上的效率.討論在變化的距離閾值、最小頻繁閾值、占有度閾值和權重參數(shù)上2種算法的性能表現(xiàn).

1) 頻繁閾值對算法的影響

BA和IA在4個不同的最小頻繁閾值(

min

)下分別在4個數(shù)據(jù)集上的運行時間比較如圖7所示.BA和IA的結果分別用實線和虛線表示.不同的形狀標記代表不同數(shù)據(jù)集的結果，例如BA-1展示了BA在Dataset-1上的性能.對于每個數(shù)據(jù)集，BA和IA的運行時間都隨著

min

的增加而減少.請注意，對于Dataset-1,Dataset-2,Dataset-3，在

min

=0.6時BA和IA的運行時間相似，在

min

=0.8時BA比IA更有效.這是因為較高的

min

約束會導致生成較少的頻繁并置模式，并且其中大部分是低階模式.由于剪枝策略對2階模式?jīng)]有貢獻，IA的計算開銷反而大于BA.對于Dataset-1和Dataset-2，隨著特征數(shù)量的增加，算法效率隨之降低，所以Dataset-2的運行時間比Dataset-1長.Dataset-3的運行時間比Dataset-4長，表明效率主要受數(shù)據(jù)密度的影響.與實例數(shù)和特征數(shù)對算法的影響相比，數(shù)據(jù)密度對算法的影響更為顯著.參與度閾值

min

對算法性能的影響在Dataset-3上體現(xiàn)得尤為明顯，因為低閾值和密集數(shù)據(jù)導致產(chǎn)生的大量高階模式候選，因此剪枝策略性能優(yōu)勢更明顯.

min

越低，修剪策略越有效，尤其是在密集數(shù)據(jù)集上.

Fig. 7 The effect of min_prev variation on different data sets圖7 頻繁性閾值變化在不同數(shù)據(jù)集上對算法性能的影響

Fig. 8 The effect of distance variation on different data sets圖8 距離閾值變化在不同數(shù)據(jù)集上對算法性能的影響

2) 距離閾值對算法的影響

圖8展示了BA和IA在Datasets-1～Datasets-4上的運行時間分別相對于它們的距離閾值變化的比較.較高的距離閾值對算法性能的影響尤為明顯，說明算法的性能主要受數(shù)據(jù)密度的影響.對于Dataset-1和Dataset-2，在

=12時運行時間相似，這意味著當距離閾值較低時，BA和IA的效率差異很小.隨著距離閾值的不斷增加，由于IA中的一系列修剪策略有效地避免了為所有候選模式生成表實例，然后重復劃分模式的過程.IA算法的性能逐漸變得比BA的效率更高.Dataset-3上的運行時間遠大于Dataset-4上的運行時間，這表明所開發(fā)的算法對數(shù)據(jù)密度敏感，而實例數(shù)對算法影響不大.

3) 空間占有度閾值對算法的影響

圖9顯示了BA和IA算法在Datasets-1～Datasets-4這4個數(shù)據(jù)集上的各自運行時間，相對于占有度閾值(

min

occ

)的變化.比較4個數(shù)據(jù)集上的運行時間，隨著每個數(shù)據(jù)集上占有度閾值的增加，運行時間沒有明顯變化.這是因為占有度度量不滿足單調性或反單調性.如果一個并置模式的參與度不小于

min

，即使這個并置模式的占有度小于

min

occ

，仍然需要計算它的擴展模式的頻繁性.對于每個數(shù)據(jù)集，IA比BA更有效，因為IA可以通過使用2個上限來過濾許多候選模式，并減少模式在連通關系上的劃分過程的計算開銷.對于Dataset-1和Dataset-2，Dataset-1的計算效率優(yōu)于Dataset-2，因為Dataset-2中的特征數(shù)量比Dataset-1多，但效率差異并不明顯.Dataset-3和Dataset-4的結果表明，在密集數(shù)據(jù)集上，IA算法的性能優(yōu)勢尤為明顯.

Fig. 9 The effect of min_occ variation on different data sets圖9 不同數(shù)據(jù)集上占有度閾值變化對算法性能的影響

4) 算法的可伸縮性和擴展性

本節(jié)評估了BA和IA在不同情況下，即在合成數(shù)據(jù)集Dataset-5～Dataset-12上，通過在具有不同數(shù)量的空間實例和空間特征的數(shù)據(jù)上測試算法的可擴展性.

如圖10所示，當空間實例數(shù)達到400 000時，BA與IA的運行時間開始呈指數(shù)增長，當空間實例數(shù)達到500 000時，IA的運行時間仍然明顯優(yōu)于BA.這意味著隨著實例的增加，IA比BA更有效.而在前期數(shù)據(jù)量較小或數(shù)據(jù)分布較為稀疏時，IA的剪枝策略效果不明顯.

Fig. 10 The effect of the number of instance variation圖10 實例個數(shù)變化對算法性能的影響

圖11顯示了BA和IA在隨著特征數(shù)量的增加算法的運行時間的變化.在特征數(shù)較少時，單個模式的并置實例數(shù)量巨大，并置鄰居表的快速生成和剪枝策略對候選模式的快速過濾使IA算法較之BA更高效.然而，當特征數(shù)量達到50時，由于空間實例的總數(shù)是固定的，單個特征的實例個數(shù)減少，則單個模式的行實例數(shù)降低，更難產(chǎn)生高階的DSCPs.大量高階候選并置模式在子模式頻繁性檢測階段就直接被淘汰，因此運行時間快速減少，IA的性能則與BA相近.這說明并置模式挖掘的主要瓶頸在于生成高階模式時的并置實例檢查，而本文提出的剪枝策略及數(shù)據(jù)結構有效地促進了這個階段算法的效率.

Fig. 11 The effect of the number of features variation圖11 特征數(shù)變化對算法性能的影響

Fig. 12 The effect of min_prev on real-world data sets圖12 真實數(shù)據(jù)集上min_prev對挖掘結果的影響

4.3 算法的有效性評估

頻繁性閾值

min

和距離閾值

是影響算法效率的主要因素.在本節(jié)中，我們將討論影響算法有效性的參數(shù)，并解釋DSCPs挖掘在真實數(shù)據(jù)集上的實際應用.實驗中使用了3個真實數(shù)據(jù)集來證明我們算法的有效性.與合成數(shù)據(jù)相比，真實數(shù)據(jù)集上的挖掘結果通常更有實際意義.空間占有度的概念可以看作是一個有趣的新度量和約束.根據(jù)DSCPs的定義，DSCPs需要滿足頻繁性和空間占有度約束，因此可以很容易地推斷出在相同的

min

和

下，

min

occ

=0的DSCPs的挖掘結果與傳統(tǒng)的頻繁空間并置模(SCPs)的挖掘結果是完全一致的.因此，我們通過改變頻繁性閾值(即

min

)、占有度閾值(即

min

occ

)和權重(即

)來進行實驗，以揭示參數(shù)設置對DSCPs挖掘結果的影響.1)

min

對挖掘結果的影響如圖12中的實驗所示，我們設置

min

occ

=0來獲得3個真實數(shù)據(jù)集上的SCPs，我們設置

min

occ

1來獲得Real-1和Real-2數(shù)據(jù)集上的DSCPs結果.我們設置

min

occ

=0.2以獲得Real-3數(shù)據(jù)集上的SCPs結果，其他默認參數(shù)如表3所示.在圖12中，我們展示了具有不同

min

的SCPs和DSCPs的挖掘結果，并記錄了每個挖掘結果的不同大小模式的數(shù)量.可以看出，在每個數(shù)據(jù)集上，DSCPs和SCPs的數(shù)量都隨著

min

的增加而減少，并且在相同

min

下，SCPs挖掘結果的數(shù)量遠遠多于DSCPs挖掘結果的數(shù)量.值得注意的是，隨著

min

的增加，SCPs結果中低階模式的比例越來越高.對于每個數(shù)據(jù)集，高階和低階的DSCPs的數(shù)量都較少，而中等階數(shù)的DSCPs的比例最大.2)

min

occ

對挖掘結果的影響圖13展示了在相同頻繁性閾值下，

min

occ

不同的優(yōu)勢SCPs的挖掘結果，其中

min

=0.2，其他默認參數(shù)如表3所示.對于圖13所示實驗結果中的每個數(shù)據(jù)集，SCPs挖掘結果由一個堆疊列表示，其中

min

occ

=0，不同的條紋表示不同的模式大小.可以看出，對于每個數(shù)據(jù)集，DSCPs的數(shù)量隨著

min

occ

的增加而迅速減少，尤其是對于較低階的模式.相反，隨著

min

occ

的增加，高階模式繼續(xù)保留在DSCPs結果中，表明即使空間占有度量不是嚴格單調的，模式階數(shù)越高，其空間占有度可能越高.圖13所示的實驗結果可以進一步解釋圖12中SCPs和DSCPs挖掘結果之間的差異.對于每個數(shù)據(jù)集，即使一些高階的模式被頻繁性閾值過濾，但大多數(shù)低階數(shù)的模式也被空間占有度閾值過濾.3) 權重參數(shù)

對挖掘結果的影響圖14顯示了使用不同權重(即改變

)的DSCPs挖掘結果的變化.根據(jù)定義7，權重參數(shù)

僅參與DSCPs挖掘過程的質量值計算部分.因此，它只能影響DSCPs結果的排序表示，而不會影響DSCPs挖掘結果.在圖14所示的實驗中，我們只選取了質量值最高的前20個DSCPs來觀察權重對DSCPs挖掘排序結果的影響，其中

min

2，

min

occ

對于每個數(shù)據(jù)集，隨著

的增加，前20位挖掘結果中，高階的DSCPs的比例減少，而挖掘結果中低階的DSCPs的比例增加.此外，在

min

和

min

occ

相同的情況下，高

導致前20個DSCPs結果與按參與度排序的top-20個SCPs結果相似.例如，

=0.8時，圖14(a)中的DSCPs結果中不同階數(shù)的模式比例與圖13(a)中的SCPs結果相似；當

=0.2時，不同階數(shù)的DSCPs在圖14(c)中

min

occ

=0.3時的比例相似.顯然，

越高，參與度對DSCPs的貢獻比重越大.這表明

的作用在于調整空間占有度和參與度對DSCPs質量的貢獻以及對DSCPs挖掘結果進行排序，提高模式的可用性.

Fig. 13 The effect of min_occ on real-world data sets圖13 真實數(shù)據(jù)集上min_occ對挖掘結果的影響

Fig. 14 The effect of ω on real-world data sets圖14 真實數(shù)據(jù)集上ω對挖掘結果的影響

4.4 DSCPs挖掘方法應用實例分析

為進一步驗證DSCPs挖掘方法在實際應用中的有效性，我們接下來介紹在珍稀植物數(shù)據(jù)集上的DSCPs挖掘應用實例分析.

表4列出了真實數(shù)據(jù)集Real-2(珍稀植物)上按質量值降序輸出的top-5個DSCPs挖掘結果，表5列出了真實數(shù)據(jù)集Real-2輸出的top-5個按參與度值降序輸出的SCPs挖掘結果.

Table 4 The Results of top-5 DSCPs on Real-3 Data Set

Table 5 The Results of top-5 SCPs on Real-3 Data Set

與傳統(tǒng)的頻繁SCPs挖掘結果相比，表5中前5個參與度最高的模式都是低階模式，且都是表4中出現(xiàn)的模式的子集.以表4中的模式{云南楓楊(A),天女花(D)，三分三(I)，麗江雪膽(M)}為例，該模式在空間中的分布如圖15所示.可以看到模式的實例在其區(qū)域中都具有高的空間占有度，說明該組特征不僅在區(qū)域中具有很強的共存關系，且考慮了特征的多樣性，向植物學家提供參考性更強的模式，便于植物學家進一步研究DSCPs代表的一組空間特征在區(qū)域中組成的生物群落及不同植物類型之間的相關性.

Fig. 15 Spatial distribution of a DSCP圖15 一個DSCP的空間分布

5 結論

目前，主流的空間并置模式挖掘的研究都將一組空間特征的實例在空間中共現(xiàn)的頻繁性，即參與率-參與度度量作為興趣度挖掘并置模式.然而，在一些并置模式的應用實例中，用戶不僅對共置模式的頻繁性感興趣，而且還關注模式的完整性，希望得到該區(qū)域內較為全面的空間特征的并置信息.為解決以上問題，我們引入了一種新的空間占用度度量來評估共置模式的完整性，并通過結合模式的頻繁性和完整性來制定主導空間并置模式(DSCPs)挖掘問題.為了解決經(jīng)典并置模式(SCPs)挖掘過程中并置實例重疊問題，我們提出一種等價關系——連通關系將并置實例劃分為不重疊的實例分區(qū)集.我們還設計了一種有效的算法 DSCPMA 來發(fā)現(xiàn)DSCPs，并通過探索空間占用度的2個上界和一個數(shù)據(jù)結構來實施一系列剪枝，有效地減少了DSCPs的搜索空間.最后，我們在合成數(shù)據(jù)集和3個真實數(shù)據(jù)集上評估了算法的效率和有效性.將DSCPs挖掘方法在珍稀植物數(shù)據(jù)集上的應用結果表明，DSCPs挖掘結果解釋性更強，意義更明確，在實際應用中能夠為用戶提供更具有指導意義的知識.

作者貢獻聲明

：方圓提出了算法思路和實驗方案，完成實驗并撰寫論文；王麗珍提出指導性意見并修改論文；王曉璇負責收集實驗數(shù)據(jù)和完善實驗方案；楊培忠負責完善實驗方案和修改論文.

基于空間占有度的主導并置模式挖掘

1 相關工作

2 主導空間并置模式

2.1 基礎概念

2.2 相關定義

2.3 主導空間并置模式挖掘問題

3 DSCPs挖掘算法

3.1 基本算法

3.2 剪枝策略

3.3 改進算法

3.4 算法復雜性分析

4 實驗評估

4.1 實驗數(shù)據(jù)集

4.2 算法性能評估

4.3 算法的有效性評估

4.4 DSCPs挖掘方法應用實例分析

5 結 論

5 結論