李新廣,范明虎,杜 武
武漢大學(xué)測(cè)繪遙感信息工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,湖北武漢430079
空間信息智能分發(fā)是主動(dòng)空間信息服務(wù)技術(shù)的重要組成部分[1],近年來得到了廣泛關(guān)注。20世紀(jì)90年代以來,以美國(guó)為代表的西方國(guó)家就開始研發(fā)空間信息智能分發(fā)系統(tǒng)。1996年,美國(guó)開始研發(fā)戰(zhàn)場(chǎng)警覺及數(shù)據(jù)分發(fā)系統(tǒng)[2-3],1999年開始實(shí)施全球信息柵格項(xiàng)目[4]。2001年美國(guó)提出“智能節(jié)點(diǎn)”的概念,并于2003年結(jié)合“網(wǎng)絡(luò)中心戰(zhàn)”的思想開始在軍事決策系統(tǒng)中投入使用[5-7]。2004年,美國(guó)啟動(dòng)戰(zhàn)術(shù)級(jí)作戰(zhàn)人員信息網(wǎng)項(xiàng)目[8]。在國(guó)內(nèi),近幾年也出現(xiàn)了一些相關(guān)研究,但主要集中在分發(fā)系統(tǒng)架構(gòu)層面,且多是對(duì)國(guó)外相關(guān)研究的一些介紹[9-11]??傮w而言,由于空間信息的獨(dú)特性及復(fù)雜性,用戶偏好模型的構(gòu)建及其效用度評(píng)估算法一直是制約空間信息智能分發(fā)研究取得進(jìn)展的關(guān)鍵瓶頸。
夏宇針對(duì)遙感數(shù)據(jù)的分發(fā),探索性地采用區(qū)間數(shù)表達(dá)具有區(qū)間范圍特征的經(jīng)度、緯度、時(shí)間、頻譜和空間分辨率等指標(biāo)的用戶檢索特征[12],并通過對(duì)TOPSIS方法加以擴(kuò)展進(jìn)而構(gòu)建用戶偏好模型[13],較好地解決空間數(shù)據(jù)各屬性特征的表達(dá)問題,不過該方法仍存在空間范圍定位不夠準(zhǔn)確、效用度估計(jì)存在偏差、特征值分布過于集中、模型缺少完整的動(dòng)態(tài)化機(jī)制等不足[9-11]。為此,本文作出以下擴(kuò)展:①為便于存儲(chǔ)和計(jì)算,將不規(guī)則子區(qū)間進(jìn)一步分割為基本區(qū)間單元,用于記錄頻譜、空間分辨率和時(shí)間偏好特征;②引入?yún)^(qū)域數(shù)以準(zhǔn)確表達(dá)空間范圍,將最小區(qū)域范圍分割為基本區(qū)域單元,用于記錄空間范圍偏好特征;③將三元組模型擴(kuò)展為四元組模型,用以完整記錄用戶偏好;④引入興趣度密度、興趣度的概念和相應(yīng)算法,以便均衡、合理地反映目標(biāo)區(qū)間(區(qū)域)范圍內(nèi)用戶各次檢索的貢獻(xiàn);⑤增加用戶信息反饋、基于權(quán)值衰減函數(shù)的權(quán)值衰減因子等動(dòng)態(tài)化機(jī)制,使模型完全動(dòng)態(tài)化。試驗(yàn)表明,本文的模型能夠隨著用戶興趣的轉(zhuǎn)移更為及時(shí)、準(zhǔn)確地自行調(diào)整。
目前,一些非空間信息智能分發(fā)系統(tǒng)已經(jīng)考慮到模型的動(dòng)態(tài)化因素,其原理是通過引入權(quán)值衰減函數(shù),使不同時(shí)段的訪問信息在表達(dá)用戶偏好的過程中被賦予不同的權(quán)重[14-15]。斯坦福大學(xué)的FAB自適應(yīng)文檔推薦系統(tǒng)是非空間信息智能分發(fā)系統(tǒng)的典型代表,它通過引入一個(gè)簡(jiǎn)單的權(quán)值衰減函數(shù) h(t)=0.97t對(duì)不同時(shí)段用戶的信息獲取進(jìn)行加權(quán),即系統(tǒng)每天晚上均將用戶全部特征乘以一個(gè)衰減系數(shù)0.97,從而實(shí)現(xiàn)“古老”信息與“最新”信息相比權(quán)重較低[16]。
模型的動(dòng)態(tài)化因素沒有得到充分考慮是當(dāng)前空間信息智能分發(fā)研究共有的局限。現(xiàn)有的智能分發(fā)系統(tǒng)主要通過不斷更新用戶檢索記錄,以建立和修正用戶偏好模型的方式使模型動(dòng)態(tài)化。由于用戶檢索記錄的時(shí)間跨度往往較大,同時(shí)用戶的偏好特征也會(huì)隨著時(shí)間和需要的變化出現(xiàn)一定波動(dòng),因而,即便對(duì)于同一用戶,他在不同時(shí)段的檢索記錄對(duì)于其偏好特征的表達(dá)也會(huì)有不同貢獻(xiàn),應(yīng)賦予不同權(quán)值。另外,模型缺少完善的用戶信息反饋機(jī)制也是現(xiàn)有模型動(dòng)態(tài)化的薄弱環(huán)節(jié)。僅根據(jù)用戶的檢索記錄生成的偏好模型雖然能在一定程度上反映用戶的偏好特征,但這種偏好模型卻難以及時(shí)反映用戶偏好特征的變化。引入用戶信息反饋機(jī)制能夠彌補(bǔ)這一缺陷。由于用戶在獲得分發(fā)結(jié)果之后,會(huì)根據(jù)自己的判斷選擇一些較理想的結(jié)果,打開或者下載其中的數(shù)據(jù),而這一行為反映了用戶的興趣偏好[17]。
綜上所述,空間信息智能分發(fā)的動(dòng)態(tài)化模型主要包括三個(gè)方面的動(dòng)態(tài)化分量:①通過隱式或顯式地獲取用戶檢索記錄,不斷地對(duì)用戶模型進(jìn)行修正,這是現(xiàn)有模型都已實(shí)現(xiàn)的模型動(dòng)態(tài)化分量;②是通過引入權(quán)值衰減函數(shù),對(duì)不同時(shí)段的用戶行為進(jìn)行加權(quán)求和的模型動(dòng)態(tài)化分量;③通過用戶信息反饋引入的模型動(dòng)態(tài)化分量。第一種分量已蘊(yùn)含在用戶的每一次檢索記錄中,本文重點(diǎn)討論后兩種情況。為便于討論,①中所建模型稱為靜態(tài)模型,考慮②、③因素的模型稱為動(dòng)態(tài)模型。
用戶模型采用四元組形式
式中,X={x1,…,xi,…,xs};W={w1,…,wi,…,ws};R={R1,…,Ri,…,Rs};V={V1,…,Vi,…,Vs}。xi依次為空間范圍、頻譜范圍、時(shí)間范圍、空間分辨率范圍等元素項(xiàng),s為元素項(xiàng)個(gè)數(shù)(注:僅考慮具有連續(xù)變化范圍的元素項(xiàng),傳統(tǒng)類型的解決方案見文獻(xiàn)[9—11]),wi為xi的權(quán)值。Ri為xi的分布范圍和步長(zhǎng),分兩種情況:對(duì)空間范圍,Ri=[XminXmaxXstepYminYmaxYstep],i= 1,其中,Xmin、Xmax、Xstep、Ymin、Ymax、Ystep分別為檢索區(qū)域經(jīng)緯度分量的分布范圍的最小值、最大值、步長(zhǎng);②對(duì)頻譜范圍、時(shí)間范圍、空間分辨率范圍等區(qū)間類型,Ri=[XminXmaxXstep],i=2,3,4,其中,Xmin、Xmax、Xstep分別為分布范圍的最小值、最大值、步長(zhǎng)。Vi為反映xi分布特征的數(shù)值矩陣或向量,分三種情況:①對(duì)于空間范圍,Vi={ρg,k| g=1,2,…,m,k=1,2,…,t},i=1,是數(shù)值矩陣, ρg,k為空間范圍內(nèi)對(duì)應(yīng)基本區(qū)域單元上的分布密度值,m、t分別為經(jīng)、緯度方向基本區(qū)域單元的個(gè)數(shù);②對(duì)于頻譜范圍i=2是數(shù)值向量,ρg為頻譜范圍內(nèi)對(duì)應(yīng)基本區(qū)間單元上的分布密度值,m為頻譜范圍內(nèi)的基本區(qū)間單元個(gè)數(shù);③對(duì)于時(shí)間和空間分辨率,Vi=是數(shù)值向量,νi,g為時(shí)間、空間分辨率分布范圍內(nèi)對(duì)應(yīng)基本區(qū)間單元上出現(xiàn)的頻率值,mi為相應(yīng)元素項(xiàng)分布范圍內(nèi)基本區(qū)間單元的個(gè)數(shù)。
用戶對(duì)空間信息的獲取通常在一段時(shí)期內(nèi)反復(fù)進(jìn)行,其信息的獲取記錄是時(shí)間的函數(shù)。假定用戶的偏好特征在一定時(shí)間內(nèi)相對(duì)穩(wěn)定,且隨著時(shí)間的推移小幅波動(dòng),則有理由認(rèn)為,對(duì)于一組不同時(shí)間內(nèi)獲取的數(shù)據(jù),獲取的時(shí)間距現(xiàn)在愈近,愈能反映用戶當(dāng)前的需要,反之,亦然。也就是說,用戶檢索記錄的權(quán)值是時(shí)間的函數(shù),時(shí)間距現(xiàn)在愈久,權(quán)值愈小,反之,則愈大。若將以后的檢索記錄也包括在內(nèi),則權(quán)值衰減函數(shù)的曲線類似于圖1。圖中,權(quán)值曲線 h(t)是一支在當(dāng)前時(shí)間(t=tn)取最大值,在tn兩側(cè)逐漸遞減的單峰值曲線,h(t)=0及 h(t)=h(tn)是其漸近線。假設(shè)以后(t>tn)的檢索記錄存在,則可以認(rèn)為,包括過去和將來的所有檢索記錄的全體整體上反映了用戶目前的偏好特征。事實(shí)上,只能得到以前(t≤tn)的記錄,因而,權(quán)值曲線應(yīng)該取 t≤tn時(shí)的左半支,即認(rèn)為到目前為止的所有檢索記錄的全體整體上反映用戶的偏好特征(圖2)。
圖1 權(quán)值衰減函數(shù)曲線特征Fig.1 Characteristic of weight attenuation function curve
圖2 權(quán)值衰減函數(shù)曲線Fig.2 Weight attenuation function curve
正態(tài)分布的密度函數(shù)較好地符合了圖1所示的權(quán)值曲線的特征。據(jù)此,本文對(duì)其概念加以拓展,用以定量描述用戶檢索記錄的權(quán)值。如下式
式中,tn代表當(dāng)前時(shí)間;σ為衡量用戶檢索記錄貢獻(xiàn)的時(shí)間均方差。假設(shè)對(duì)于某一用戶,時(shí)間段Δt以前的檢索記錄對(duì)現(xiàn)在的偏好建模沒有貢獻(xiàn),根據(jù)h(t)函數(shù)的特點(diǎn),可以取σ=Δt/3,這是因?yàn)閇tn-3σ,tn]區(qū)間內(nèi)的權(quán)值積累達(dá)到了總權(quán)值的99.74%,此時(shí)可以忽略 t 權(quán)值向量的確定采用文獻(xiàn)[9—11]的方法,但考慮模型動(dòng)態(tài)化的影響,步驟如下: (1)各元素項(xiàng)檢索和反饋的頻率統(tǒng)計(jì) 式中,di表示第i個(gè)元素項(xiàng)各檢索和反饋記錄的權(quán)值之和;dt表示全部檢索和反饋記錄的權(quán)值之和;s為元素項(xiàng)的個(gè)數(shù);pi表示第i個(gè)元素項(xiàng)基于權(quán)值衰減函數(shù)的檢索和反饋頻率。 (2)檢索和反饋頻率歸一化 式中,p′i表示第i個(gè)元素項(xiàng)的基于權(quán)值衰減函數(shù)的歸一化的檢索和反饋頻率。 (3)權(quán)值為歸一化的檢索和反饋頻率 由于空間范圍包含經(jīng)、緯度兩個(gè)數(shù)據(jù)項(xiàng)的信息,故步驟(2)中計(jì)算空間范圍的歸一化的檢索和反饋頻率時(shí),pi應(yīng)取經(jīng)、緯度頻率之和,使計(jì)算出的空間范圍的權(quán)值為經(jīng)緯度權(quán)值之和。 3.4.1 區(qū)域數(shù) 對(duì)區(qū)間數(shù)的概念加以拓展,引入?yún)^(qū)域數(shù)用以表達(dá)空間范圍這一二維區(qū)間,它表示一片沿 X、Y軸均有一定連續(xù)范圍的矩形區(qū)域。形式如下: [[a,b],[c,d]]表示分別沿 X、Y軸方向的區(qū)間[a,b]和[c,d]圍成的矩形區(qū)域;[[a,b),[c,d)]表示分別沿 X、Y軸方向的區(qū)間[a,b)和[c,d)圍成的矩形區(qū)域;[(a,b),(c,d)]表示分別沿 X、Y軸方向的區(qū)間(a,b)和(c,d)圍成的矩形區(qū)域。其他情況依此類推。 3.4.2 基本區(qū)域單元 式中,m、t分別為D沿X、Y方向分割的區(qū)域單元的個(gè)數(shù)。則以下條件恒成立:① Xmin+m× Xstep=Xmax,Ymin+t×Ystep=Ymax;②對(duì)于任一樣本值 Zk的經(jīng)度的上下限ξg、緯度的上下限ηk,均存在唯一的 i、j,滿足 Xmin+i×Xstep=ξg,Ymin+ j×Ystep=ηk。則當(dāng) Xstep、Ystep均取最大值時(shí),稱Ui,j為空間范圍D上的基本區(qū)域單元。 3.4.3 基本區(qū)間單元 式中,m為I分割為區(qū)間單元的個(gè)數(shù)。則以下條件恒成立:①Xmin+m×Xstep=Xmax;②對(duì)于任一樣本值 Zk的上下限ξg,均存在唯一的i,滿足 Xmin+i×Xstep=ξg。則當(dāng) Xstep取最大值時(shí),稱 Ii為區(qū)間范圍I上的基本區(qū)間單元。 頻譜范圍元素項(xiàng)用區(qū)間數(shù)表達(dá),采用文獻(xiàn)[9, 18—19]的符號(hào)數(shù)據(jù)分析法,用戶的每一個(gè)檢索樣本都代表了用戶在tk時(shí)刻的一次檢索意圖,相對(duì)于當(dāng)前時(shí)刻tn而言,可以認(rèn)為這些樣本的權(quán)值為 h(tk)。樣本區(qū)間長(zhǎng)度愈短,用戶的檢索目標(biāo)愈集中,單位區(qū)間長(zhǎng)度上凝聚用戶愈多的檢索意圖;反之,亦然。因此,若令代表所有頻譜范圍樣本的權(quán)值之和,則元素項(xiàng)的分布特征可由經(jīng)驗(yàn)密度函數(shù)式(10)表達(dá)。其中,對(duì)應(yīng)每一個(gè)ξi的函數(shù)值都代表區(qū)間[ξi,ξi+Δ ξ],Δ ξ→+0上用戶對(duì)相應(yīng)信息的關(guān)注程度 式中,Ik(·)是示性函數(shù),表示ξ是否存在于 Zk中,ξ為頻譜值;‖·‖表示區(qū)間寬度。式(11)表達(dá)用戶對(duì)區(qū)間 Ix上信息的關(guān)注程度 據(jù)此,引入興趣度、興趣度密度的概念,用于所述關(guān)注程度的數(shù)學(xué)表達(dá),定義如下。 興趣度:根據(jù)興趣度密度式(10)的定義,由式(11)定義的函數(shù)即為興趣度函數(shù),在某一給定區(qū)間 Ix上,由該函數(shù)求得的函數(shù)值即表達(dá)了用戶對(duì)相應(yīng)區(qū)間信息的偏好程度,定義為興趣度。 4.2.1 分布特征 空間范圍元素項(xiàng)用區(qū)域數(shù)表示,用戶的每一個(gè)空間范圍檢索樣本都代表了用戶的一次檢索意圖,相對(duì)于當(dāng)前時(shí)刻tn而言,可以認(rèn)為這些樣本值的權(quán)值為 h(tk)。樣本區(qū)域面積愈小時(shí),用戶的檢索目標(biāo)愈集中,單位區(qū)域面積上凝聚用戶愈多的檢索意圖;反之,亦然。因此,若令 h=代表所有空間范圍樣本觀測(cè)值的權(quán)值之和,則元素項(xiàng)的分布特征可由經(jīng)驗(yàn)密度函數(shù)式(12)表達(dá)。其中,對(duì)應(yīng)每一個(gè)(ξi,ηj)的函數(shù)值ρz(ξi,ηj),都代表區(qū)域[[ξi,ξi+Δ ξ],[ηi,ηi+Δ η]], Δ ξ→+0,Δ η→+0上用戶對(duì)相應(yīng)信息的關(guān)注程度 式中,Ik(·)是示性函數(shù),表示(ξ,η)是否存在于Zk中,(ξ,η)為空間范圍中的某一點(diǎn);‖·‖表示區(qū)域面積。式(13)表達(dá)用戶對(duì)區(qū)域Dx,y上信息的關(guān)注程度 則表達(dá)相應(yīng)關(guān)注程度的興趣度、興趣度密度定義如下。 興趣度:根據(jù)興趣度密度式(12)的定義,由式(13)定義的函數(shù)即為興趣度函數(shù),在某一給定區(qū)域Dx,y上,由該函數(shù)求得的函數(shù)值即表達(dá)了用戶對(duì)相應(yīng)區(qū)域信息的偏好程度,定義為興趣度。 4.2.2 興趣度的分解 由式(13)計(jì)算的興趣度包含了經(jīng)、緯度兩個(gè)元數(shù)據(jù)項(xiàng)的信息,需將其沿經(jīng)、緯度方向進(jìn)行分解。興趣度的取值同時(shí)受用戶偏好模型和待分發(fā)數(shù)據(jù)空間范圍的影響,情況較為復(fù)雜,很難精確量化,但可以基于以下假設(shè)求其近似值:①通常在檢索次數(shù)足夠多的情況下,偏好模型的空間范圍因素在經(jīng)、緯度方向的分量分布特征應(yīng)相對(duì)穩(wěn)定,興趣度基本上反映目標(biāo)區(qū)間上的用戶偏好程度;②若將空間范圍分解為兩個(gè)獨(dú)立的沿經(jīng)、緯度方向的區(qū)間變量,則借鑒4.1節(jié)式(10)、式(11)的方法,可以計(jì)算經(jīng)、緯度區(qū)間變量上的興趣度,由于本模型中此處經(jīng)緯度的興趣度通過對(duì)目標(biāo)區(qū)間內(nèi)的興趣度密度積分求得,它反映用戶偏好的分布特征,故可近似反映空間范圍內(nèi)經(jīng)、緯度方向興趣度分量的相對(duì)關(guān)系;③空間范圍的興趣度沿 X、Y方向的分量之間的比值可近似由之間的比值表達(dá)。據(jù)此,空間范圍的興趣度在經(jīng)、緯度方向的分量近似為 和頻譜范圍一樣,在根據(jù)時(shí)間和空間分辨率進(jìn)行數(shù)據(jù)檢索的過程中,用戶也常用區(qū)間數(shù)來表達(dá)需求范圍,但元數(shù)據(jù)表達(dá)上有所不同:①時(shí)間元數(shù)據(jù)雖然也表現(xiàn)為一個(gè)區(qū)間范圍,但由于遙感成像幾乎是瞬時(shí)完成的,故在進(jìn)行效用度計(jì)算時(shí),時(shí)間更適合作為一個(gè)點(diǎn)來處理;②空間分辨率則直接表現(xiàn)為一個(gè)或幾個(gè)離散點(diǎn)。有些遙感數(shù)據(jù)一景影像中的各個(gè)波段空間分辨率是一致的,也有些波段較多的影像中,一景影像存在著幾個(gè)不同的分辨率。據(jù)此,在建立偏好模型時(shí),可用區(qū)間數(shù)來表達(dá)用戶檢索中時(shí)間和空間分辨率的偏好情況,而在進(jìn)行效用度估計(jì)時(shí),則應(yīng)當(dāng)作為一個(gè)或幾個(gè)離散點(diǎn)來處理。 對(duì)于時(shí)間和空間分辨率,采用文獻(xiàn)[9, 18—19]的符號(hào)數(shù)據(jù)分析法。用戶的每一個(gè)檢索樣本值都代表了用戶在tk時(shí)刻的一次檢索意圖,相對(duì)于當(dāng)前時(shí)刻 tn而言,可以認(rèn)為這些樣本值的權(quán)值為h(tk)。若令代表所有時(shí)間范圍或空間分辨率范圍樣本觀測(cè)值的權(quán)值之和,并采用νg(各基本區(qū)間單元的基于權(quán)值衰減函數(shù)的加權(quán)頻率)表達(dá)各基本區(qū)間單元的分布情況,以此表達(dá)用戶的偏好特征,則對(duì)于給定遙感數(shù)據(jù)的元數(shù)據(jù)項(xiàng),其成像時(shí)間和空間分辨率所對(duì)應(yīng)的用戶偏好模型中相應(yīng)元素項(xiàng)的值,客觀上反映了用戶對(duì)相應(yīng)數(shù)據(jù)的關(guān)注程度,即興趣度。則興趣度函數(shù)為 式中,x為時(shí)間或空間分辨率元素項(xiàng)的屬性值,且x在基本區(qū)間單元 Ig上。對(duì)于一景影像存在數(shù)個(gè)空間分辨率的情況取分辨率對(duì)應(yīng)的最大頻率值。 采用文獻(xiàn)[9—11]的方法,從決策理論角度出發(fā),將待分發(fā)信息集作為方案集,其決策矩陣如表1。 表1 決策矩陣Tab.1 Decision matrix 其中,Sj為備選方案;xi為元素項(xiàng);γji為Sj相應(yīng)于 xi的屬性值。對(duì)于空間范圍,γji為區(qū)域數(shù)其中為備選方案的經(jīng)度下、上限為緯度下、上限。對(duì)于頻譜范圍,γji為區(qū)間數(shù)對(duì)于時(shí)間或單一空間分辨率,γji為一數(shù)值,對(duì)多分辨率數(shù)據(jù), γji為空間分辨率的集合。 根據(jù)式(11)、(14)、(15)和(16),分別計(jì)算頻譜范圍、空間范圍、時(shí)間和空間分辨率的興趣度。 備選方案Sj的效用度μj為各個(gè)元素項(xiàng)的興趣度的加權(quán)和,由下式計(jì)算 式中,wi為元素項(xiàng)xi的權(quán)值;ψi為xi的興趣度。 在獲取效用度之后,便可以根據(jù)效用度的大小對(duì)信息進(jìn)行分發(fā)。具體操作上分推送模式和拉取模式兩種情況,其思路略有不同[16]。 (1)推送模式??梢愿鶕?jù)用戶設(shè)定的閾值 Tr進(jìn)行分發(fā),即當(dāng)μj≥Tr時(shí),將數(shù)據(jù)分發(fā)給相應(yīng)的用戶,否則不分發(fā)。或者,首先對(duì)最近的某一個(gè)時(shí)期內(nèi)用戶檢索的數(shù)據(jù)進(jìn)行效用度計(jì)算,找出其中最小的效用度,以此作為默認(rèn)閾值,決定是否分發(fā)。 (2)拉取模式。首先,根據(jù)用戶的檢索條件,獲取滿足要求的方案集。比如,對(duì)于區(qū)間數(shù)或區(qū)域數(shù)類型的元素項(xiàng),可以檢索與用戶輸入的區(qū)間數(shù)或區(qū)域數(shù)相交的備選方案,而對(duì)于點(diǎn)(或點(diǎn)集)類型的元素項(xiàng),可以檢索出落入檢索區(qū)間內(nèi)的備選方案。然后,計(jì)算上一步結(jié)果集各方案的效用度,根據(jù)效用度大小排序,并以此作為數(shù)據(jù)推薦的優(yōu)先次序。 檢索記錄并不能完整地反映用戶的真實(shí)需求,同時(shí)由于檢索記錄相對(duì)較少,這導(dǎo)致所生成的用戶模型較為粗糙和相對(duì)滯后,難以準(zhǔn)確、及時(shí)地反映用戶的偏好特征及其變化。通過收集用戶的信息反饋能夠彌補(bǔ)這一不足。本文通過記錄用戶打開、下載的數(shù)據(jù)的特征,并據(jù)此對(duì)原有模型進(jìn)行修正,從而使模型能夠根據(jù)用戶興趣的轉(zhuǎn)移及時(shí)做出調(diào)整。鑒于用戶檢索和信息反饋是一種反復(fù)迭代的動(dòng)態(tài)過程,對(duì)兩者一并考慮,算法如下: (1)在信息分發(fā)過程中,記錄用戶每次打開、下載數(shù)據(jù)的各元素項(xiàng)的值。 (2)將每次的記錄結(jié)果反饋給系統(tǒng),修正原有模型,步驟如下。 對(duì)于空間范圍。首先,根據(jù)式(12)計(jì)算用戶檢索數(shù)據(jù)的偏好模型。然后,根據(jù)式(12)并結(jié)合上一步的計(jì)算結(jié)果,計(jì)算用戶反饋數(shù)據(jù)的空間范圍對(duì)用戶偏好模型的貢獻(xiàn)(注:由于用戶反饋數(shù)據(jù)的空間范圍有可能不是規(guī)則的矩形,在此情況下,反饋數(shù)據(jù)的空間范圍并不參與基本區(qū)域單元的分割,而只參與計(jì)算偏好模型的興趣度密度值)。反饋數(shù)據(jù)的空間范圍和此前各次檢索的空間范圍的全體的興趣度密度函數(shù),作為空間范圍元素項(xiàng)修正后的用戶偏好模型。此時(shí),興趣度密度公式為 式中,E′為用戶檢索記錄和反饋數(shù)據(jù)空間范圍樣本的集合;h′為 E′中各樣本時(shí)間權(quán)值之和;Z′k, k∈E′為檢索或反饋的空間范圍樣本;h′(tk)為 tk時(shí)刻樣本的權(quán)值;I′k(·)為示性函數(shù),表示是否在Z′k中,(ξ,η)為空間范圍中的某一點(diǎn),‖·‖表示區(qū)域面積。考慮用戶反饋后的興趣度計(jì)算方法類似于式(13),其原理為對(duì)給定的空間范圍目標(biāo)區(qū)域內(nèi)的興趣度密度(見式(18))進(jìn)行積分求和。興趣度沿 X、Y方向的分量類似于式(14)和式(15),分解原理同4.2節(jié)。 對(duì)于頻譜范圍。反饋的頻譜范圍采用與原模型用戶檢索的頻譜范圍相同的方式參與基本區(qū)間單元的分割和興趣度密度的計(jì)算。此時(shí),興趣度密度公式為 式中,E′為用戶檢索記錄和反饋數(shù)據(jù)頻譜范圍樣本的集合;h′為E′中各樣本的權(quán)值之和;Z′k,k∈E′為檢索或反饋的頻譜范圍樣本;h′(tk)為 tk時(shí)刻樣本的權(quán)值;I′k(·)為示性函數(shù),表示ξ是否在Z′k中,ξ為頻譜值,‖·‖表示區(qū)間寬度??紤]用戶反饋后的興趣度計(jì)算方法類似于式(11),其原理為對(duì)給定的空間范圍目標(biāo)區(qū)間內(nèi)的興趣度密度(見式(19))進(jìn)行積分求和。 對(duì)于時(shí)間。首先,根據(jù)式(16)計(jì)算用戶檢索數(shù)據(jù)的偏好模型。然后,根據(jù)式(20)計(jì)算用戶反饋數(shù)據(jù)的時(shí)間屬性對(duì)用戶偏好模型的貢獻(xiàn)(由于用戶反饋數(shù)據(jù)的時(shí)間屬性為點(diǎn)值,故反饋數(shù)據(jù)的時(shí)間值并不參與基本區(qū)間單元的分割,而只參與模型修正)。 式中,E′為用戶反饋的時(shí)間樣本集合;Ig是基本區(qū)間單元;h′為時(shí)間元素項(xiàng)的反饋數(shù)據(jù)和原模型中檢索記錄的權(quán)值之和;Tk,k∈E′,為第 k次反饋數(shù)據(jù)的生成時(shí)間;h′(tk)為 tk時(shí)刻樣本的權(quán)值; I′k(·)為示性函數(shù),表示 Tk是否在 Ig中。式(16)與式(20)之和即為修正后的時(shí)間元素項(xiàng)的偏好模型,如下 式中,h′為時(shí)間元素項(xiàng)的反饋數(shù)據(jù)和原模型中檢索記錄的權(quán)值之和,其他參數(shù)含義同上。取為考慮用戶反饋后的時(shí)間元素項(xiàng)的興趣度,它體現(xiàn)了用戶對(duì)目標(biāo)時(shí)間點(diǎn)的空間信息的關(guān)注程度。 對(duì)于空間分辨率。其偏好模型的計(jì)算方法類似于時(shí)間,區(qū)別在于若空間分辨率不唯一時(shí),需要遍歷計(jì)算所有分辨率值的貢獻(xiàn)。 (3)根據(jù)修正后的模型,計(jì)算備選方案的效用度,根據(jù)效用度的大小對(duì)方案進(jìn)行優(yōu)劣排序,并據(jù)此進(jìn)行下一次的信息分發(fā)。 (4)重復(fù)執(zhí)行以上步驟。 試驗(yàn)數(shù)據(jù)源于文獻(xiàn)[9]:①根據(jù)文獻(xiàn)[9]中4.5.2.4節(jié)的用戶檢索數(shù)據(jù)生成用戶模型,為了生成動(dòng)態(tài)模型,對(duì)原始數(shù)據(jù)增添了檢索時(shí)間;②選取文獻(xiàn)[9]中5.2.2.3節(jié)方案1~8的數(shù)據(jù)作為備選方案。 根據(jù)數(shù)據(jù)①,分別建立靜態(tài)用戶模型和動(dòng)態(tài)用戶模型。兩種模型的元素項(xiàng)的權(quán)值見表2。根據(jù)兩種模型,分別計(jì)算②中備選方案的效用度:根據(jù)靜態(tài)模型算得的備選方案的效用度見表3;根據(jù)動(dòng)態(tài)模型算得的備選方案的效用度見表4;文獻(xiàn)[9]中備選方案的效用度見表5。 表2 用戶偏好模型元素項(xiàng)的權(quán)值Tab.2 Element weights of user profile model 表3 基于靜態(tài)模型的待分發(fā)方案的效用度及各元素項(xiàng)的興趣度Tab.3 Utility degrees of items to be distributed and interest degrees of each element based on static model 表4 基于動(dòng)態(tài)化模型的待分發(fā)方案的效用度及各元素項(xiàng)的興趣度Tab.4 Utility degrees of items to be distributed and interest degrees of each element based on dynamic model 表5 文獻(xiàn)[9]中方案的效用度Tab.5 Utility degrees of items in the literature[9] 表2顯示,兩種算法所生成的權(quán)值有一定的差異,這是由于權(quán)值衰減函數(shù)引入前后,模型的動(dòng)態(tài)化因素對(duì)權(quán)值有著不同程度影響,后者中模型的時(shí)效性得到了進(jìn)一步加強(qiáng)。顯然,相較于前者,動(dòng)態(tài)模型更能反映用戶當(dāng)前的信息偏好。 表3和表5均基于靜態(tài)模型算得。對(duì)比兩表可以看出,兩種方法中效用度計(jì)算結(jié)果相差較大,但總體趨勢(shì)相近,原因如下三種:文獻(xiàn)[9]以特征值代替頻率值作為計(jì)算效用度的依據(jù),人為地增大了取值較小的各元素項(xiàng)的相似度值;文獻(xiàn)[9]以與頻譜范圍的目標(biāo)區(qū)間相交的各不規(guī)則子區(qū)間的特征值中的最大值作為相似度,而不考慮同時(shí)與其相交的其他子區(qū)間的影響,這也在一定程度上增大了效用度的取值;經(jīng)、緯度范圍在存在第二種誤差的同時(shí),也存在一些不相關(guān)的緯、經(jīng)度樣本值的影響。因?yàn)?一些在二維空間上根本不相交的空間范圍,其在經(jīng)、緯度上的分量卻可能是相交的,這會(huì)對(duì)效用度的計(jì)算產(chǎn)生影響。從表3可以看出,空間范圍的興趣度普遍較小,這是因?yàn)檫@些待分發(fā)的數(shù)據(jù)在二維經(jīng)緯度空間上與用戶檢索頻繁的空間位置重疊較少。 對(duì)比表3、表4可以發(fā)現(xiàn),相較于前者,后者的興趣度和效用度值大多存在不同程度的變化,變化方向也不一致,這是由不同原因造成的。權(quán)值衰減函數(shù)的引入對(duì)發(fā)生在不同時(shí)段的用戶檢索和反饋信息的建模貢獻(xiàn)進(jìn)行了不同程度的拉伸或抑制,因此,相對(duì)于文獻(xiàn)[9]和本文的靜態(tài)模型而言,引入了動(dòng)態(tài)化因素的建模算法,使得模型更能體現(xiàn)用戶近期的行為特征。較于表3、表4中元素項(xiàng)的興趣度存在以下特征:①頻譜范圍興趣度均有一定程度的微幅減小,這主要是因?yàn)橛糜谟脩羝媒5念l譜范圍檢索行為主要集中在較早時(shí)段,而在近期較少發(fā)生(用戶檢索時(shí)該元素項(xiàng)缺省),這導(dǎo)致頻譜范圍元素項(xiàng)的興趣度密度經(jīng)驗(yàn)函數(shù)取值整體偏低;②空間分辨率的興趣度則同時(shí)存在小幅度的增大和減小兩種情況,這是因?yàn)?相較于用戶檢索行為的發(fā)生時(shí)間而言,用于偏好建模的空間分辨率范圍檢索數(shù)據(jù)的各區(qū)間分布較為均勻,在根據(jù)權(quán)值衰減函數(shù)進(jìn)行加權(quán)建模時(shí),雖然部分檢索行為的建模貢獻(xiàn)被抑制,但另外一部分卻得到了拉伸,這使得在各備選方案的分布位置的興趣度經(jīng)驗(yàn)密度值波動(dòng)不大,但同時(shí)也存在一定的此消彼長(zhǎng);③時(shí)間元素項(xiàng)的興趣度同時(shí)存在增大、減小和不變?nèi)N情況,其中,方案1、2、3和5興趣度大小不變,這是因?yàn)檫@些方案的值均介于用戶檢索的時(shí)間范圍建模數(shù)據(jù)的分布區(qū)間之內(nèi),基于權(quán)值衰減函數(shù)的加權(quán)建模對(duì)興趣度取值無影響,方案4、6、7和8均位于建模數(shù)據(jù)分布區(qū)間兩端,且僅受部分檢索記錄不同程度、不同方向的影響,故同時(shí)存在增大和減小的情況;④空間范圍元素項(xiàng)中的經(jīng)度和緯度指標(biāo)的分布存在較多情況,方案7和8在表3和表4中均取值為0,這是因?yàn)閮煞桨傅目臻g范圍取值與用戶所有的檢索建模數(shù)據(jù)分布范圍均不相交,這種情況在文獻(xiàn)[9—11]的算法中無法得到體現(xiàn)。方案1~6則均同時(shí)存在增大和減小的情況,原因類似于②和③中分析的情況,區(qū)別在于空間范圍的經(jīng)度和緯度之間存在著相關(guān)性,兩者是以區(qū)域數(shù)(基本區(qū)域單元)的形式作為整體參與運(yùn)算的;⑤在①~④中各因素的綜合作用下,各方案的效用度均出現(xiàn)不同程度增減。 表3、表4的對(duì)比結(jié)果表明,各動(dòng)態(tài)化因素對(duì)于各元素項(xiàng)的興趣度以及最終的效用度都有比較明顯的影響,該影響基本上能夠更為真實(shí)地反映用戶當(dāng)前的偏好特征。 現(xiàn)有的空間信息智能分發(fā)的理論研究和系統(tǒng)實(shí)現(xiàn)存在著空間范圍定位不夠準(zhǔn)確、效用度計(jì)算存在偏差等缺陷,且大多仍停留在非完全動(dòng)態(tài)化的層面,它們往往只關(guān)注用戶的檢索行為對(duì)偏好建模的貢獻(xiàn),很少注意到用戶反饋的作用,且均未考慮時(shí)間因素的影響,從而導(dǎo)致用戶偏好模型難以準(zhǔn)確、及時(shí)地反映用戶興趣特征的變化。鑒于此,本文對(duì)現(xiàn)有文獻(xiàn)的理論和算法進(jìn)行擴(kuò)展,通過引入?yún)^(qū)域數(shù)、興趣度、興趣度密度等概念和算法,并引入權(quán)值衰減函數(shù)和用戶信息反饋等動(dòng)態(tài)化因素,對(duì)以上問題予以解決。 試驗(yàn)表明,相較于靜態(tài)模型,本文模型能夠更為有效地反映用戶偏好特征的變化。本文算法為空間信息智能分發(fā)的用戶建模提供了一個(gè)可行的解決方案。 [1] WANG Zegen,HUA Yixin.Research on Technology of Active Spatial Information Service[J].Acta Geodaetica et Cartographica Sinica,2006,35(4):379-389.(王澤根,華一新.主動(dòng)空間信息服務(wù)技術(shù)研究[J].測(cè)繪學(xué)報(bào),2006, 35(4):379-389.) [2] DOUGLASS R J,MORK J,SURESH R.Battlefield Awareness and Data Dissemination(BADD)for the Warfighter[C]∥Proceedings of Digitization of the Battlefield II.Orlando:SPIE,1997:18-24. [3] STEPHENSON T P,DECLEENE B T,SPECKERT G,et al.BADD Phase II:DDS Information Management Architecture[C]∥Proceedings of Digitization of the Battlefield II.Orlando:SPIE,1997:49-58. [4] WU Wei.Development Assumption on Chinese Army’s New Generation Communication Network[J].Journal of CAEIT,2007,2(5):445-449,463.(吳巍.我軍新一代通信網(wǎng)絡(luò)發(fā)展設(shè)想[J].中國(guó)電子科學(xué)研究院學(xué)報(bào),2007, 2(5):445-449,463.) [5] DAWIDOWICZ E.Performance Evaluation of Network Centric WarfareOriented IntelligentSystems[C]∥ Proceedings of the Second InternationalWorkshop on Performanceand Intelligence of Intelligent Systems. Mexico:NIST,2001:73-79. [6] DAWIDOWICZ E,RODRIGU EZ A,LAN GSTON J. Intelligent Nodes in Knowledge Centric Warfare[C]∥Proceedings of the 7th International Command and Control Research and Technology Symposium.Monterey:[s. n.],2002. [7] DAWIDOWICZ E,JACKSON V.The Right Information and Intelligent Nodes[C]∥Proceedings of 8th International Command and Control Research and T echnology Symposium. Washington:[s.n.],2003. [8] GLOBALSECURITY.WIN-TCapabilities[EB/OL].[2011-6-18].http:∥www.globalsecurity.org/military/systems/ ground/win-t-cap.htm. [9] XIA Yu.The User Profile Model for Intelligent Delivery of SpatialInformation[D]. Wuhan:Wuhan University, 2009.(夏宇.面向空間信息智能分發(fā)的用戶偏好模型研究[D].武漢:武漢大學(xué),2009.) [10] XIA Yu,ZHU Xinyan,LI Deren,et al.A User Profile Model for Intelligent Delivery of Spatial Information[C]∥Proceedings of Geoinformatics 2008 and Joint Conference on GIS and Built Environment.Guangzhou:SPIE,2008. [11] XIA Yu,ZHU Xinyan,ZHANG Chunlin,et al.Towards IntelligentSpatialInformation Dissemination Based on User Profile Model[C] ∥Proceedings of International Conference on Earth Observation Data Processing and Analysis.Wuhan:SPIE,2008. [12] MOORE R E.Methods and Applications of Interval Analysis[M].Philadelphia:Society for Industrial and Applied Mathematics,1979. [13] HWANG C,YOON K.Multiple Attributes Decision Making:Methods and Applications[M].Berlin:Springer-Verlag,1981. [14] ASNICAR F A,TASSO C.ifWeb:a Prototype of User Models Based Intelligent Agent for Document Filtering and Navigation in the World Wide Web[C]∥Proceedings of 6th International Conference on User Modeling,Sardinia: [s.n.],1997. [15] ZHANGBingqi.The Representation,Acquisition and Inference of Personalized Requirements:A Case Study[D]. Beijing:Graduate University of Chinese Academy of Sciences,2005.(張丙奇.個(gè)性化需求的描述、獲取與推斷—案例研究[D].北京:中國(guó)科學(xué)院研究生院,2005.) [16] YAN Duanwu,WANG Yuefen.Information Acquisition and User Service[M].Beijing:Science Press,2010.(顏端武,王曰芬.信息獲取與用戶服務(wù)[M].北京:科學(xué)出版社,2010.) [17] ZANG Cheng.Research on Key Techniques of Privacy Preservation in Personalized Search[D]. Hangzhou: Zhejiang University,2008.(臧鋮.個(gè)性化搜索中隱私保護(hù)的關(guān)鍵問題研究[D].杭州:浙江大學(xué),2008.) [18] BILLARD L,DIDAY E.Symbolic Data Analysis:Definitions and Examples[EB/OL].[2011-6-18].http:∥aaron. stat.uga.edu/people/faculty/BILLARD/tr_symbolic.pdf. [19] BILLARD L.Symbolic Data Analysis,What is It?[C]∥Proceedings of Computational Statistics:17th Symposium. Rome:IASC,2006:261-269.3.3 權(quán)值向量
3.4 基本區(qū)域(區(qū)間)單元
4 基于權(quán)值衰減函數(shù)的模型動(dòng)態(tài)化
4.1 頻譜范圍元素項(xiàng)的分布特征
4.2 空間范圍元素項(xiàng)的分布特征
4.3 時(shí)間、空間分辨率元素項(xiàng)的分布特征
5 空間信息的分發(fā)決策
5.1 構(gòu)造決策矩陣
5.2 計(jì)算備選方案的效用度
5.3 備選方案的分發(fā)
6 用戶反饋引入的模型動(dòng)態(tài)化
7 實(shí)例分析
8 結(jié)束語(yǔ)