龍 恩,呂守業(yè),岑鵬瑞,楊宇科,韋二龍,白 龍
1.北京市遙感信息研究所,北京 100011;2.中國電子科技集團(tuán)公司第五十四研究所, 河北 石家莊 050081
近年來,隨著我國各類衛(wèi)星井噴式發(fā)射及遙感數(shù)據(jù)無償使用等多個利好政策,國內(nèi)各類遙感用戶衛(wèi)星圖像需求多樣化、個性化、大眾化特點(diǎn)日趨突出[1]。但受傳統(tǒng)意義上衛(wèi)星資源少、產(chǎn)品昂貴、普及度不夠等眾多因素影響,我國各類天基遙感服務(wù)目前多為人工篩選而后推送模式,無法滿足服務(wù)的主動性、針對性、時效性等新型需求[2],須開展考慮用戶應(yīng)用特點(diǎn)、興趣特征、使用偏好等進(jìn)行個性化的主動推薦[3-4],促進(jìn)天基遙感產(chǎn)品更好地應(yīng)用于各個領(lǐng)域。
用戶畫像是大數(shù)據(jù)背景下實現(xiàn)產(chǎn)品主動個性化服務(wù)的前提,可以較好地刻畫用戶需求。該概念早期是以用戶為中心的服務(wù)理念提出的,隨后,文獻(xiàn)[5]進(jìn)一步對其相關(guān)含義進(jìn)行闡述。之后,該技術(shù)被相繼應(yīng)用于各類電商產(chǎn)品、圖書館服務(wù)、媒體信息服務(wù)等領(lǐng)域的主題推薦[6-13],用于解決各類產(chǎn)品服務(wù)的主動性、針對性不足問題。然而,在遙感產(chǎn)品服務(wù)領(lǐng)域,受限于各類用戶需求樣本積累匱乏、產(chǎn)品專業(yè)性強(qiáng)、空間屬性鮮明等原因,上述未考慮空間特性的常規(guī)畫像方法并不能直接適用遙感用戶畫像模型構(gòu)建。近年來,隨著遙感大數(shù)據(jù)、人工智能、智慧服務(wù)、在線服務(wù)等相關(guān)技術(shù)發(fā)展[14-25],在各類遙感產(chǎn)品大眾化需求日益迫切背景下,空間信息智能化服務(wù)已逐步成為研究熱點(diǎn)。文獻(xiàn)[24]采取區(qū)間數(shù)表示具有連續(xù)覆蓋屬性的元素特征。文獻(xiàn)[25]進(jìn)一步引入權(quán)值衰減函數(shù)來反映隨動態(tài)變化。文獻(xiàn)[21—22]引入?yún)^(qū)間數(shù)學(xué)建立用戶模型描述需求核心元數(shù)據(jù)分布特征等,均取得了較好的研究成果,但在區(qū)間長度設(shè)置、權(quán)重解算及離散元素區(qū)間表達(dá)等方面,仍存在區(qū)間零碎化、總樣本數(shù)欠考慮、離散元素表達(dá)不全等不足,需結(jié)合具體用戶優(yōu)化改進(jìn)。
鑒于以上我國天基遙感發(fā)展服務(wù)現(xiàn)狀及存在問題,本文面向各類天基遙感用戶新型服務(wù)需求,構(gòu)建融時間、空間、載荷、分辨率、產(chǎn)品級別5項核心元素的可擴(kuò)展主題用戶畫像模型,挖掘用戶興趣特征,并將待分發(fā)遙感信息與用戶興趣特征關(guān)聯(lián),實現(xiàn)滿足用戶個性化需求的天基遙感信息主動推薦。
有別于常規(guī)電商產(chǎn)品,天基遙感產(chǎn)品部分屬性具有一定的區(qū)域覆蓋特性,需通過一個范圍進(jìn)行描述。本文根據(jù)用戶需求單主題詞,采用四元組模型,綜合文獻(xiàn)[20,24]的優(yōu)勢加以改進(jìn),模型結(jié)構(gòu)為
M={X,W,R,V}
(1)
式中,X={x1,x2,x3,x4,x5},xi為主題元素項;W={w1,w2,w3,w4,w5},wi為主題元素xi權(quán)重值;R={r1,r2,r3,r4,r5},描述各元素分布值域和區(qū)間長度;V={v1,v2,v3,v4,v5},vi為元素xi分布特征。流程如圖1所示。
圖1 用戶畫像模型構(gòu)建流程
主題元素一般是基于用戶需求訂單或檢索記錄對用戶關(guān)心的核心元素項進(jìn)行抽取,不同用戶一般具有不同的主題元素項,且元素個數(shù)可擴(kuò)展。這里主要選取各類遙感用戶關(guān)注相對較多的5個常規(guī)遙感產(chǎn)品共性元素:拍攝時間x1、空間范圍x2、載荷x3、分辨率x4及產(chǎn)品級別x5。
用戶興趣隱含于需求記錄中,一組需求記錄中需求頻率越高的元素對用戶興趣貢獻(xiàn)越大,反之越小[22]?;谠撍枷耄撐脑O(shè)計綜合考慮各元素項與總樣本的檢索頻次關(guān)系計算方法,具體為:將用戶在過去一段時間內(nèi)的需求記錄分成m組,每組需求記錄總數(shù)Mi,分別統(tǒng)計每一組內(nèi)用戶對n個主題元素的需求次數(shù),并且用一個矩陣B=(bij)m×n進(jìn)行記錄,則各主題元素xj的權(quán)重wj為
(2)
式中
依據(jù)覆蓋連續(xù)性,這里將主題元素時間x1、空間x2、載荷x3、分辨率x4、產(chǎn)品級別x5歸為3類。
1.4.1 一維連續(xù)覆蓋元素區(qū)間單元
(3)
1.4.2 一維離散覆蓋元素區(qū)間
載荷x3和產(chǎn)品級別x5兩元素在一維空間上為某一定值,且個數(shù)有限,不具備連續(xù)性,因此,對于該類元素其區(qū)間單元可直接根據(jù)元素值進(jìn)行劃分。用戶k個需求單,ai為第i個樣本值,則存在
(4)
1.4.3 二維連續(xù)覆蓋元素項表示
(5)
(6)
式中,i=1,2,…,h,j=1,2,…,t。h、t分別為沿經(jīng)緯度方向Ix、Iy分割的二維區(qū)間單元的個數(shù)。
以主題元素分布特征值表征用戶需求分布特征,對各區(qū)間單元用戶需求出現(xiàn)頻率進(jìn)行線性變換,并映射到一定取值范圍[24],用于體現(xiàn)用戶需求對不同區(qū)間的重要程度。
1.5.1 一維連續(xù)/離散覆蓋元素分布特征值
時間x1、載荷x3、分辨率x4、產(chǎn)品級別x54個元素各區(qū)間單元/各分量Ii在k個需求記錄中的分布特征值vi計算式為
式中,fi表示第i個區(qū)間單元或分量在k個需求記錄中的出現(xiàn)頻率,fi的計算方法為
式中,At為第t個樣本值;Ii為第i個區(qū)間單元;IA(·)為示性函數(shù),當(dāng)At∩Ii非空時為1,空集時為0。
區(qū)間單元Ii對應(yīng)分布特征值vi越大,意味著Ii在用戶需求記錄中出現(xiàn)越頻繁。定義一維分布特征函數(shù)描述特征值隨區(qū)間的分布為
(7)
式中,I包含k個樣本所有樣本值的最小區(qū)間。
1.5.2 二維連續(xù)覆蓋特性元素分布特征值
對于空間元素x2,計算二維區(qū)間單元Dij在k個需求記錄中的分布特征值vij
式中,fij為二維區(qū)間單元Dij在k個需求記錄中的出現(xiàn)頻率,計算方法為
式中,At為第t個樣本值;Ixi為經(jīng)度向第i個區(qū)間單元;Iyj為緯度向第j個區(qū)間單元;Ik(·)為示性函數(shù),當(dāng)(At∩Ixi)∩(At∩Iyj)非空時為1、空集時為0。
對于用戶建模,定義二維分布特征函數(shù)來描述特征值隨二維區(qū)間的分布情況為
(8)
式中,Ix表示包含k個需求樣本中所有樣本經(jīng)度值的最小二維區(qū)間;Iy表示包含k個需求樣本中所有樣本緯度值的最小二維區(qū)間。
基于用戶畫像模型,對待分發(fā)數(shù)據(jù)進(jìn)行推薦度解算,最終將推薦度高的數(shù)據(jù)推送給用戶。流程主要包括理想解確定、興趣關(guān)聯(lián)度計算、推薦度求解及推薦度排序等環(huán)節(jié)(圖2)。
圖2 推薦度解算流程
興趣特征值這里定義為各主題元素分布特征值中滿足其需求的較大特征值域。各元素項在子區(qū)間分布特征值V越大,則該子區(qū)間值越符合用戶實際需求,由n個元素對應(yīng)的興趣特征值區(qū)間單元組成的集合為興趣特征值域A*,表達(dá)為
(9)
(10)
對主題元素信息標(biāo)準(zhǔn)化處理,基于空間拓?fù)潢P(guān)系解算待分發(fā)數(shù)據(jù)與興趣特征值間的關(guān)聯(lián)度,刻畫各個元素項上待分發(fā)數(shù)據(jù)對用戶興趣的滿足程度。
2.3.1 一維離散元素興趣關(guān)聯(lián)度
2.3.2 一維連續(xù)元素關(guān)聯(lián)函數(shù)
Z=(vB·(a+-a-))/(max(a+,b)-min(a-,b))
2.3.3 二維覆蓋元素關(guān)聯(lián)函數(shù)
式中,B′為B線性變換后的表達(dá),即
Interest(A)、Interest(B)、Interest(B′)分別是興趣特征值域A,待分發(fā)數(shù)據(jù)B和變換后B′的興趣度,對于二維區(qū)間〈[a,b],[c,d]〉,凝聚在該區(qū)間的興趣度為在該區(qū)間上的分布特征函數(shù)做定積分,如式(11)所示
(11)
推薦度ui表示待推選數(shù)據(jù)與興趣特征值域之間的貼近程度,推薦度越大越能滿足用戶興趣需求[22-23],其計算公式為各元素關(guān)聯(lián)度的加權(quán)和,具體為
(12)
式中,Zij為第i個待選數(shù)據(jù)在元素項xj的興趣關(guān)聯(lián)度,Wj為元素項xj的權(quán)重。
以我國遙感系列衛(wèi)星數(shù)據(jù)滿足用戶需求情況為例,選取重大專項任務(wù)中對遙感系列衛(wèi)星數(shù)據(jù)需求相對較多的國家減災(zāi)中心、北京市公安局禁毒總隊兩個用戶,分別整理近3年的60條和45條真實需求訂單,主題元素均為前述5個共性元素項(表1)。其中,80%訂單作為訓(xùn)練數(shù)據(jù)集,20%用于測試數(shù)據(jù)集,模擬生成測試數(shù)據(jù)的30%與真實訂單有較大差異的需求訂單作為測試集的負(fù)樣本。
表1 部分訂單主題元素項(X)的值
其中,模擬訂單的生成方法主要是根據(jù)用戶各主題元素屬性特征隨機(jī)生成模擬訂單的各元素值,判斷訂單的各元素值是否屬于用戶相應(yīng)元素區(qū)間范圍,屬于則為正樣本,不屬于則為負(fù)樣本。
3.2.1 國家減災(zāi)中心用戶
3.2.1.1 用戶主題元素特征分布
基于國家減災(zāi)中心真實訂單訓(xùn)練數(shù)據(jù)集,分析年內(nèi)月特征,時間元素x1的最小區(qū)間I1=[1,12],取固定區(qū)間長度r1=1,則劃分12個區(qū)間,代表一年12個月,根據(jù)式(7),則其分布特征v1如圖3(a)所示;空間元素x2最小二維區(qū)間I2=〈[93.5°E,123.0°E],[21.5°N,52.5°N]〉,取經(jīng)緯度區(qū)間長度均為r2=0.5,則共劃分為59×62=3658個區(qū)間單元,據(jù)式(8),其分布特征v2如圖3(c)所示;載荷元素x3最小區(qū)間I3=[CCD,MSS,IRS,HSI,SAR],共劃分為5個區(qū)間,據(jù)式(7),其分布特征v3如圖3(b)所示;分辨率元素x4最小區(qū)間I4=[0.1,20],結(jié)合遙感系列數(shù)據(jù)實際,采取不定長區(qū)間長度,劃分7個區(qū)間,區(qū)間長度分別為r4=0.2,0.2,0.5,2,2,5,10,據(jù)式(7),其分布特征v4如圖3(d)所示;產(chǎn)品級別元素x5最小區(qū)間I5=[1,2,3,4],劃分4個區(qū)間,據(jù)式(7),其分布特征v5如圖3(e)所示。
3.2.1.2 推薦度
取特征值Eij為0.9,據(jù)式(9)、式(10)及圖3得A*={[7,8],〈[98.0,99.0],[31.0,31.5]〉,[CCD,SAR],[0.5,3],[2]},即為國家減災(zāi)中心興趣特征值域。將訓(xùn)練集隨機(jī)分成4組,統(tǒng)計各組各主題元素的需求頻次,依據(jù)1.3節(jié)得到各元素權(quán)重W(表2)。將測試集作為待推薦數(shù)據(jù),依據(jù)2.3節(jié)計算每個待分發(fā)數(shù)據(jù)與各元素的興趣關(guān)聯(lián)度,依據(jù)2.4節(jié)計算相應(yīng)推薦度,并給出推薦排序(表3)。
表2 各主題元素項需求頻次及權(quán)重
表3 待分發(fā)數(shù)據(jù)推薦度及各元素的關(guān)聯(lián)度(國家減災(zāi)中心)
3.2.1.3 結(jié)果分析
圖3為用戶主題元素分布特征,由圖3可知,時間興趣特征具有明顯的集中特征,主要集中于每年的7、8月;空間興趣特征具有一定程度的聚集效應(yīng),主要集中于西南川貴及東南沿海一帶;載荷興趣特征SAR偏好明顯,全色次之;分辨率興趣特征主要集中于0.5~3 m之間。進(jìn)一步分析該結(jié)論可發(fā)現(xiàn),該特征一方面與減災(zāi)中心職責(zé)相吻合,符合實際應(yīng)用情況,即洪水、泥石流、火災(zāi)、地震等災(zāi)情監(jiān)測及排查,時間上正值我國7、8月多雨季節(jié),空間上主要為分布泥石流多發(fā)的西南川貴地震帶上、洪澇頻發(fā)于東南沿海及冬季林火高發(fā)的東北區(qū)域等,載荷上不受氣象條件影響的SAR優(yōu)勢凸顯;另一方面與遙感系列衛(wèi)星本身數(shù)據(jù)特點(diǎn)相關(guān),該時期分辨率主要集中于0.5~3 m之間,紅外、高光譜整體偏少,產(chǎn)品級別主要為系統(tǒng)自動化生產(chǎn)的2級產(chǎn)品。
圖3 各主題元素分布特征(國家減災(zāi)中心)
由表3可知,12條正樣本(即真實訂單)具有較高推薦度,均高于0.48,相比而言,4條負(fù)樣本推薦度均相對較低,最大僅為0.108,二者之間推薦度差異較大,存在較好的自然斷點(diǎn),誤推薦個數(shù)為0,整體推薦排序符合該用戶實際需求情況。
3.2.2 北京市公安局禁毒總隊(簡稱“禁毒總隊”)用戶
3.2.2.1 用戶主題元素特征及推薦度
基于該用戶訓(xùn)練數(shù)據(jù)集分別解算各主題元素特征值(圖4)及各主題元素權(quán)重,進(jìn)而基于測試數(shù)據(jù)集,求取各條測試數(shù)據(jù)相應(yīng)的推薦度,最后給出各數(shù)據(jù)的推薦排序(表4)。取特征值Eij為0.9,則該用戶的興趣特征值域為:A*={[4,5],〈[116.50,116.60],[40.80,40.85]〉,[MSS],[0.1,0.5],[2]}權(quán)重分別為W={0.299,0.276,0.201,0.157,0.068}。
表4 待分發(fā)數(shù)據(jù)推薦度及各元素的關(guān)聯(lián)度(禁毒總隊)
3.2.2.2 結(jié)果分析
由圖4可知,該用戶主要表現(xiàn)為:時間上有明顯的集中特征,主要集中于4、5月;空間具有一定的聚集效應(yīng),主要環(huán)北京周邊山區(qū)一帶;載荷MSS偏好明顯,CCD次之;分辨率集中于0.1~0.5 m之間。分析該特征產(chǎn)生原因,主要與禁毒總隊進(jìn)行北京罌粟非法種植衛(wèi)星監(jiān)測任務(wù)密切相關(guān),且符合實際情況。具體為:北京地區(qū)罌粟開花季節(jié)主要集中于4、5月,是遙感監(jiān)測的較好時相;罌粟是國家禁止種植作物,一般屬于非法種植,因此,空間上多位于人工不便到達(dá)的周邊山區(qū);罌粟衛(wèi)星監(jiān)測,圖像數(shù)據(jù)需具備光譜信息和高分辨率特征,才能支持室內(nèi)檢測;產(chǎn)品級別主要為系統(tǒng)自動化生產(chǎn)的2級產(chǎn)品。
圖4 各主題元素分布特征(禁毒總隊)
由表4可知,9條正樣本(即真實訂單)具有較高推薦度,均優(yōu)于0.5,而3條負(fù)樣本推薦度均較低,推薦排序最后,最大值為0.063,二者之間差異較大,存在明顯自然斷點(diǎn),誤推薦個數(shù)為0,推薦排序符合該用戶實際需求。禁毒總隊用戶的各主題元素特征及推薦排序試驗結(jié)果,進(jìn)一步驗證了本文方法的科學(xué)性、可行性及泛化性。
3.2.3 各用戶推薦精度
為進(jìn)一步驗證本文方法對其他用戶的適用性,本文在前兩個用戶基礎(chǔ)上,進(jìn)一步補(bǔ)充了國家海洋局海洋環(huán)境預(yù)報中心、環(huán)保部衛(wèi)星環(huán)境應(yīng)用中心及交通部交通信息中心等不同用戶,對近兩年各用戶遙感系列衛(wèi)星數(shù)據(jù)的實際訂單進(jìn)行了整理,共錄入117條(表5中各用戶組號為0的數(shù)據(jù)),并在此基礎(chǔ)上根據(jù)各用戶實際訂單情況,分別模擬各用戶時間、空間、載荷、分辨率及產(chǎn)品級別數(shù)據(jù)上千條,分別隨機(jī)抽取2400條數(shù)據(jù),構(gòu)建各用戶3組不同規(guī)模模擬訓(xùn)練數(shù)據(jù)集,然后基于本文方法進(jìn)行試驗。從推薦結(jié)果可以發(fā)現(xiàn)(表5):①基于本文方法整體推薦度較高,平均精度優(yōu)于94%;②專項任務(wù)中,基于少量需求訂單即可對用戶進(jìn)行初步畫像并開展主動推薦,精度優(yōu)于85%;③實際訂單越多,推薦精度越高,各用戶真實訂單中(0號組數(shù)據(jù)),推薦精度達(dá)100%;④推薦精度與樣本數(shù)整體呈正相關(guān),樣本越多,畫像越精準(zhǔn),推薦精度越高。
表5 主要用戶推薦精度情況
本文針對目前我國天基遙感信息服務(wù)個性化保障不足的問題,在現(xiàn)有遙感用戶需求模型的基礎(chǔ)上,對模型要素及其解算方法改進(jìn)優(yōu)化,設(shè)計了一種應(yīng)用用戶畫像模型的天基遙感信息主動推薦方法。采用時間、空間、載荷、分辨率、產(chǎn)品級別5個核心主題元素,使得畫像模型要素考慮更為全面;采取不等長區(qū)間長度劃分方法,有效避免區(qū)間單元過度破碎化;提出考慮總樣本數(shù)的頻率占比權(quán)重確定法,提高運(yùn)算效率及結(jié)果連續(xù)性;制定涵蓋離散/連續(xù)元素的興趣關(guān)聯(lián)度計算方法,提升推薦準(zhǔn)確度。試驗結(jié)果表明,本文方法構(gòu)建的主題元素分布特征符合用戶實際應(yīng)用需求,計算簡便,推薦準(zhǔn)確度高,研究成果為實現(xiàn)天基遙感信息個性化服務(wù)及智能推薦提供了模型。
本文在進(jìn)行用戶畫像及推薦過程中,為確保能夠準(zhǔn)確判斷推薦結(jié)果是否符合用戶真實需求,主要采用真實訂單數(shù)據(jù)進(jìn)行模型構(gòu)建及推薦實驗。后續(xù)研究中,隨著各系列衛(wèi)星數(shù)據(jù)智能服務(wù)網(wǎng)站的研制及投入使用,可在本文研究基礎(chǔ)上進(jìn)一步引入用戶查詢、瀏覽、操作等隱含信息,同時結(jié)合用戶反饋信息,進(jìn)行用戶畫像精化迭代,采用“用戶需求-初步畫像-主動推薦-用戶反饋-畫像精化-精準(zhǔn)推薦”模式,不斷循環(huán)逼近用戶精準(zhǔn)需求,持續(xù)提升天基遙感數(shù)據(jù)服務(wù)保障水平。