鄭忠剛,付 琨,徐崇彥,巫震宇,周長(zhǎng)飛
(1. 北京遙感信息研究所, 北京 100192; 2. 中國(guó)科學(xué)院 電子學(xué)研究所, 北京 100190)
自1959 年由Mark Ⅱ Reentry Vehicle人造衛(wèi)星上發(fā)回第一張地球相片開(kāi)始,半個(gè)多世紀(jì)來(lái)的遙感技術(shù)發(fā)展異常迅速,尤其是近十多年來(lái),其發(fā)展速度明顯加快,當(dāng)今的遙感隨著太空技術(shù)、計(jì)算機(jī)和地球科學(xué)的發(fā)展,已經(jīng)產(chǎn)生了質(zhì)的飛躍,從航空遙感發(fā)展到以衛(wèi)星為主的航天遙感,目前的遙感應(yīng)用領(lǐng)域越來(lái)越廣泛,遙感技術(shù)應(yīng)用于農(nóng)業(yè)可以進(jìn)行農(nóng)作物識(shí)別分類與面積估算;應(yīng)用于搶險(xiǎn)救災(zāi)可以對(duì)森林火險(xiǎn)進(jìn)行預(yù)警,對(duì)火點(diǎn)發(fā)生地精確定位;應(yīng)用于國(guó)民經(jīng)濟(jì)建設(shè)領(lǐng)域,可以實(shí)現(xiàn)目標(biāo)觀測(cè)和遙感救災(zāi)。隨著遙感影像應(yīng)用效果的展現(xiàn),目前,各行各業(yè)對(duì)遙感影像數(shù)據(jù)的需求也越來(lái)越多,雖然因應(yīng)用目的不同,各用戶的遙感數(shù)據(jù)需求存在多樣性,但不同用戶之間也會(huì)存在相似或相同需求,特別是在發(fā)生熱點(diǎn)事件和自然災(zāi)害事件時(shí),各個(gè)參與單位會(huì)同時(shí)申請(qǐng)熱點(diǎn)地區(qū)和受災(zāi)區(qū)域的遙感影像數(shù)據(jù),這些需求往往會(huì)有相同或相似的需求。如何融合來(lái)自不同用戶的需求,實(shí)現(xiàn)最大效率地利用衛(wèi)星觀測(cè)資源、地面接收資源、地面數(shù)據(jù)傳輸資源、降低衛(wèi)星對(duì)地觀測(cè)系統(tǒng)的任務(wù)負(fù)荷,需要開(kāi)展需求融合歸并技術(shù)研究,將相同或相似的遙感用戶需求進(jìn)行歸并處理。
另外,用戶在需求遙感影像時(shí)大多要受限于專業(yè)門(mén)戶或軟件的要求,需要填寫(xiě)專業(yè)的制式表單,表單中包含與平臺(tái)、傳感器等相關(guān)的專業(yè)參數(shù),這對(duì)用戶的遙感影像專業(yè)知識(shí)要求相對(duì)較高,普通用戶更習(xí)慣于使用自然語(yǔ)言表達(dá)遙感影像需求。為此,首先需要將自然語(yǔ)言描述的用戶需求轉(zhuǎn)變?yōu)楦袷交b感影像需求。為了解決上述問(wèn)題,本文提出了一種基于自然語(yǔ)言處理的需求融合方法。
其基本原理如圖1所示,包括關(guān)鍵信息抽取、需求轉(zhuǎn)義和融合歸并處理環(huán)節(jié),涉及信息抽取知識(shí)庫(kù)、需求轉(zhuǎn)義知識(shí)庫(kù)和融合知識(shí)庫(kù)。
圖1 基于自然語(yǔ)言處理的需求融合Fig.1 User request fusion based on natural language processing
在關(guān)鍵信息抽取環(huán)節(jié),利用自然語(yǔ)言處理技術(shù)基于規(guī)則的信息抽取方法,從用戶需求文本中抽取出時(shí)間范圍、地域范圍、任務(wù)、傳感器類型要求等參數(shù)信息。
在需求轉(zhuǎn)義環(huán)節(jié),在用戶需求關(guān)鍵信息抽取的基礎(chǔ)上,對(duì)抽取結(jié)果進(jìn)行規(guī)范,使其滿足標(biāo)準(zhǔn)化和精確化的要求,達(dá)到可與衛(wèi)星傳感器性能指標(biāo)相匹配的目的。
在融合歸并環(huán)節(jié),設(shè)計(jì)了用戶需求相似度度量方法,利用聚類技術(shù)對(duì)批量用戶需求進(jìn)行聚類分析,找出其中潛在的相同或者相似的需求[1-3]。
用戶需求中的關(guān)鍵信息抽取步驟主要解決從用戶提出需求的文本中抽取遙感影像關(guān)鍵信息元素的問(wèn)題,抽取的信息包括:時(shí)間范圍、地域范圍、任務(wù)、影像參數(shù)(空間分辨率、傳感器類型和波段)。實(shí)際上,關(guān)鍵信息抽取實(shí)現(xiàn)的是用戶需求的淺層語(yǔ)義分析,主要利用抽取規(guī)則實(shí)現(xiàn)關(guān)鍵信息的識(shí)別和抽取[4]。
基于自然語(yǔ)言處理(Natural Language Processing, NLP)的方法是早期的信息抽取方法,一般效率較低,現(xiàn)已較少使用。
每個(gè)用戶的需求描述通常遵循某種習(xí)慣模式,且具有一定規(guī)律性,這種模式和規(guī)律性使得采用基于規(guī)則的方法進(jìn)行關(guān)鍵信息抽取成為可能,因此,在本項(xiàng)目中采用基于規(guī)則的方法進(jìn)行關(guān)鍵信息抽取,主要是針對(duì)不同關(guān)鍵信息文本片段內(nèi)部組成的特征規(guī)律建立抽取規(guī)則,實(shí)現(xiàn)關(guān)鍵信息的識(shí)別和抽取。
下面就幾種典型的關(guān)鍵信息要素如“時(shí)間”“地理名稱”“經(jīng)緯度”等的表現(xiàn)方式進(jìn)行具體的展開(kāi)說(shuō)明。
1)時(shí)間。時(shí)間關(guān)鍵信息文本片段內(nèi)部會(huì)出現(xiàn)“年、月、日、時(shí)、分、秒”等單位,通過(guò)對(duì)遙感影像用戶需求的分析,常見(jiàn)的表現(xiàn)方式是:
方式1:年份數(shù)字+“年”+月份數(shù)字+“月”;
方式2:年份數(shù)字+“年”+月份數(shù)字+“月”+日數(shù)字+“日”;
方式3:年份數(shù)字+“年”+月份數(shù)字+“月”+日數(shù)字+“日”+小時(shí)數(shù)字+“時(shí)”;
方式4:年份數(shù)字+“年”+月份數(shù)字+“月”+日數(shù)字+“日”+小時(shí)數(shù)字+“時(shí)”+分鐘數(shù)字+“分”;
方式5:年份數(shù)字+“年”+月份數(shù)字+“月”+日數(shù)字+“日”+小時(shí)數(shù)字+“時(shí)”+分鐘數(shù)字+“分”+秒數(shù)字+“秒”。
另外,在用戶需求中也會(huì)出現(xiàn)相對(duì)時(shí)間概念,例如,“11月20日”,對(duì)于這種情況,需要根據(jù)上下文線索,確定具體指的是哪一年。
2)地理名稱。代表國(guó)家地區(qū)的地理名稱以及地物名稱,例如用戶需求“天壇5 m全色影像”中的天壇,“澳大利亞大堡礁10 m多光譜影像”中的“澳大利亞大堡礁”。另外,用戶需求描述中還會(huì)出現(xiàn)一些地理名稱和目標(biāo)名稱的縮寫(xiě)形式,例如,“日北海道3 m全色影像”中的“日”,它的常見(jiàn)表現(xiàn)形式是:
方式1:國(guó)家地區(qū)名稱或者目標(biāo)名稱;
方式2:作為國(guó)家的縮寫(xiě)出現(xiàn)時(shí),例如代表“日本”的“日”,其前面不會(huì)出現(xiàn)數(shù)字,其后會(huì)緊隨所代表國(guó)家的地理名稱或者所屬目標(biāo)的名稱。
另外,在用戶需求中也會(huì)出現(xiàn)相對(duì)位置概念,例如,“海南島東北海域”“海南島以北海域”,對(duì)于這種情況,需要依據(jù)領(lǐng)域知識(shí)經(jīng)驗(yàn),以海南島為中心推定一個(gè)合理的位置。
3)經(jīng)緯度。經(jīng)緯度關(guān)鍵信息文本片段內(nèi)部格式主要有兩種,一種是如“東經(jīng)120度,北緯23度”,另一種是“120°E23°N”。上述兩種格式特征可以表示為:
方式1:“東經(jīng)|西經(jīng)”+經(jīng)度數(shù)字+“度,”+“北緯|南緯”+緯度數(shù)字;
方式2:經(jīng)度數(shù)字+ “E|W”+緯度數(shù)字+“N|S”。
另外,通過(guò)建立映射關(guān)系,地理名稱與經(jīng)緯度之間可以實(shí)現(xiàn)相互轉(zhuǎn)換。
4)任務(wù)類型。任務(wù)類型通常是一些業(yè)務(wù)術(shù)語(yǔ),例如,“水下地形探測(cè)”“農(nóng)作物估產(chǎn)”“水污染監(jiān)測(cè)”“水資源調(diào)查”“冬小麥估產(chǎn)”等。其常見(jiàn)表現(xiàn)形式是:“2016年7月中上旬華北冬小麥估產(chǎn)”中的“冬小麥估產(chǎn)”,出現(xiàn)業(yè)務(wù)術(shù)語(yǔ)詞匯的上下文中通常沒(méi)有“任務(wù)類型”這樣的引導(dǎo)詞。
5)影像參數(shù)。遙感影像需求中的影像參數(shù)包括:分辨率、傳感器類型、幅寬,通過(guò)對(duì)遙感影像用戶需求的分析,上述參數(shù)常見(jiàn)的表現(xiàn)方式是:
①分辨率。
方式1:“分辨率:”+ 數(shù)字+“-”+數(shù)字+“m”,例如,“分辨率:1-10 m”;
方式2:“分辨率:”+ 數(shù)字+“-”+數(shù)字+“米”,例如,“分辨率:1-10米”;
方式3:“分辨率:”+ 數(shù)字+ “m”,例如,“分辨率:10 m”;
方式4:“分辨率:”+ 數(shù)字+ “米”,例如,“分辨率:10米”。
②傳感器類型。
方式1:“傳感器類型:”+ 傳感器類型名稱,例如,“傳感器類型:多光譜” ;
方式2:傳感器類型名稱,例如,“美國(guó)關(guān)島10 m多光譜影像”中的“多光譜”。
③波段。
方式1:“波段包含” + 波段名稱 + “(”+ 數(shù)字+“-”+ 數(shù)字+“nm)”,例如,“波段包含近紅外(400-760 nm)”;
方式2:“波段包含”+ 波段名稱 + “和”波段名稱,例如,“波段包含可見(jiàn)光和多光譜”;
方式3:“波段:”+ 波段名稱+“、”+ 波段名稱,例如,“波段:可見(jiàn)光、紅外”;
方式4:“波段含有”+數(shù)字+“-”+數(shù)字+ “nm”,例如,“波段含有2000-3500 nm”。
④幅寬。
方式1:“幅寬不低于”+ 數(shù)字 +“km”,例如,“幅寬不低于200 km”;
方式2:“幅寬不低于”+ 數(shù)字 +“公里”,例如,“幅寬不低于200公里”;
方式3:“幅寬”+“十里級(jí)/百里級(jí)/千里級(jí)”+“的影像”,例如,“幅寬百里級(jí)的影像”;
方式4:“十里級(jí)/百里級(jí)/千里級(jí)”的幅寬,例如,“百里級(jí)的幅寬”;
方式5:“百公里級(jí)”的幅寬,例如,“幅寬200公里以上”。
為了使抽取規(guī)則可被計(jì)算機(jī)理解和執(zhí)行,需要對(duì)信息抽取規(guī)則前提條件中的特征謂詞邏輯(特征詞信息和命名實(shí)體信息)進(jìn)行格式化表達(dá),為此采用正則表達(dá)式技術(shù)實(shí)現(xiàn)規(guī)則前提條件的格式化表達(dá)。
以時(shí)間關(guān)鍵信息為例,相關(guān)的抽取規(guī)則示例如下:
1)時(shí)間信息實(shí)體抽取規(guī)則1。
正則表達(dá)式:(\d){4}(-)(\d){2}(-)(\d){2};
示例: 抽取形如“2013-10-29”的時(shí)間信息實(shí)體。
2)時(shí)間信息實(shí)體抽取規(guī)則2。
正則表達(dá)式:
(\d){4}(.)(\d){2}(.)(\d){2}(-)(\d){1,2}(:)(\d){1,2};
示例:抽取形如“2013.10.29-20:50”的時(shí)間信息實(shí)體。
3)時(shí)間信息實(shí)體抽取規(guī)則3。
正則表達(dá)式:
(\d){4}(-)(\d){2}(-)(\d){2}(\d){1,2}(:)(\d){1,2} (:)(\d){1,2};
示例:抽取形如“2013-10-29 20∶50∶12”的時(shí)間信息實(shí)體。
4)時(shí)間信息實(shí)體抽取規(guī)則4。
正則表達(dá)式:
(\d){4}(年)(\d){2}(月)(\d){2}(日) (\d) {1,2}(時(shí))(\d){1,2}(分)(\d){1,2}(秒);
示例:抽取形如“2013年10月29 日20時(shí)50分12秒”的時(shí)間信息實(shí)體。
5)時(shí)間信息實(shí)體抽取規(guī)則5。
正則表達(dá)式:
(\d) {1,2}(時(shí))(\d){1,2}(分)(\d){1,2}(秒);
示例:抽取形如“20時(shí)50分12秒”的時(shí)間實(shí)體。
從上述分析可以看出,用戶對(duì)于需求中各種關(guān)鍵信息描述方式是多種多樣的,所對(duì)應(yīng)的抽取規(guī)則業(yè)務(wù)也是多種多樣的,為了有效地組織和管理關(guān)鍵信息的抽取規(guī)則,采用了知識(shí)本體的方法,形成了信息抽取知識(shí)庫(kù)[5]。
一個(gè)用戶遙感需求通常包含4項(xiàng)概念要素:時(shí)間范圍、地域范圍、任務(wù)、影像參數(shù),如圖2所示。
圖2 用戶需求概念組成Fig.2 Concept of user request
本體包含五個(gè)基本的建模元語(yǔ)(modeling primitives),這些元語(yǔ)是:類/概念(classes/concepts)、關(guān)系(relations)、公理(axioms)、函數(shù)(functions) 和實(shí)例(instances),每一個(gè)概念由關(guān)系、函數(shù)、公理和實(shí)例來(lái)界定,如圖3所示。
圖3 概念要素的本體描述Fig.3 Description of ontology concepts
圖4是“時(shí)間”概念的本體描述,“時(shí)間”與“用戶需求”之間存在隸屬關(guān)系,“時(shí)間”是“用戶需求”的概念要素之一;“公理”是從用戶需求文本中抽取時(shí)間信息的具體信息抽取規(guī)則,正則表達(dá)式的形式為“(\d){2,4}+(年)(\d){1,2}(月)(\d){1,2}(日)”;“時(shí)間”的實(shí)例是各種時(shí)間的具體表達(dá)形式,例如“09年8月10日”“2009年8月10日”等;“函數(shù)”是時(shí)間轉(zhuǎn)換函數(shù),其作用是將非標(biāo)準(zhǔn)的時(shí)間轉(zhuǎn)變?yōu)闃?biāo)準(zhǔn)的時(shí)間,例如將“09”轉(zhuǎn)變?yōu)檎礁袷健?009”。
圖4 概念要素的本體描述實(shí)例Fig.4 Description of instances of concepts
本體知識(shí)庫(kù)的建立涉及兩個(gè)方面:一方面,通過(guò)對(duì)用戶需求歷史數(shù)據(jù)進(jìn)行觀察分析,識(shí)別出其中的概念術(shù)語(yǔ)以及相互關(guān)系,確定本體知識(shí)庫(kù)架構(gòu);另一方面,通過(guò)對(duì)用戶需求歷史數(shù)據(jù)中時(shí)間范圍、地域范圍、任務(wù)、影像參數(shù)等關(guān)鍵信息出現(xiàn)的上下文特征、關(guān)鍵信息自身特征,關(guān)鍵信息在整個(gè)文檔中位置特征的分析,形成各個(gè)關(guān)鍵信息(概念)的抽取規(guī)則,抽取規(guī)則作為每個(gè)概念的公理存在,實(shí)現(xiàn)本體概念與抽取規(guī)則的結(jié)合和統(tǒng)一管理[6-7],如圖 5所示。
圖5 本體知識(shí)庫(kù)的構(gòu)建與應(yīng)用Fig.5 Construction and application of ontology
通過(guò)對(duì)用戶需求文本的分析,識(shí)別出各種關(guān)鍵信息的觸發(fā)詞、上下文約束條件、區(qū)位特征、句子特征、句內(nèi)特征,基于這些知識(shí)構(gòu)建由特征詞匯構(gòu)成的用戶需求解析規(guī)則,給定一個(gè)用戶需求文本,利用特征詞匯形成的模式結(jié)構(gòu),結(jié)合前述四種要素的抽取模式,對(duì)需求文本進(jìn)行解析,確定分別包含時(shí)間、地域、任務(wù)和傳感器參數(shù)的文本子串,以及各個(gè)文本子串中包含的具體時(shí)間信息、地域信息、任務(wù)信息、影像參數(shù)信息。
例如,用戶需求“2016年4月下旬安徽省小麥紋枯病監(jiān)測(cè),采用高光譜影像,空間分辨率優(yōu)于5 m”,可利用下面的模式進(jìn)行解析,【時(shí)間】+“對(duì)” 【地域】+ “進(jìn)行”+ 【任務(wù)】+ “采用”+ 【影響類型】+【空間分辨率】,解析出的時(shí)間信息、地域信息、任務(wù)信息、影像參數(shù)信息如表 1所示。
表1 關(guān)鍵信息抽取示例
需求轉(zhuǎn)義是在用戶需求關(guān)鍵信息抽取的基礎(chǔ)上,對(duì)抽取結(jié)果進(jìn)行規(guī)范,使其滿足標(biāo)準(zhǔn)化和精確化的要求,實(shí)際上,需求轉(zhuǎn)義實(shí)現(xiàn)的是用戶需求的深層語(yǔ)義分析。
1)時(shí)間信息轉(zhuǎn)義。將識(shí)別出來(lái)的各種格式的時(shí)間轉(zhuǎn)變?yōu)闃?biāo)準(zhǔn)格式。
2)地域信息轉(zhuǎn)義。將識(shí)別出來(lái)的地域范圍轉(zhuǎn)變?yōu)橛梢幌盗薪?jīng)緯度值定義的多邊形。
3)任務(wù)信息轉(zhuǎn)義。將任務(wù)描述轉(zhuǎn)變?yōu)榫唧w的影像參數(shù),任務(wù)名稱轉(zhuǎn)義基于需求轉(zhuǎn)義知識(shí)庫(kù),知識(shí)庫(kù)中包含任務(wù)與影像參數(shù)之間的映射關(guān)系,反映的是完成某種任務(wù)用戶所需的影像參數(shù),適用于各用戶的需求轉(zhuǎn)義知識(shí)庫(kù)示例如表 2所示。
表2 需求轉(zhuǎn)義知識(shí)庫(kù)示例
需求融合歸并是在統(tǒng)一、標(biāo)準(zhǔn)化的時(shí)間、地域、影像參數(shù)格式的基礎(chǔ)上進(jìn)行的,融合歸并的用戶需求既包括格式化的需求也包括非格式化的需求。
融合歸并是在融合知識(shí)庫(kù)的支持下完成的,融合知識(shí)庫(kù)中包含著多種融合規(guī)則。
根據(jù)時(shí)間、地域、傳感器類型、光譜分辨率、空間分辨率、幅寬等方面對(duì)用戶需求之間的相似度進(jìn)行分析計(jì)算,根據(jù)計(jì)算結(jié)果進(jìn)行需求融合歸并。
需求的融合歸并問(wèn)題實(shí)際上是用戶需求的聚類過(guò)程,經(jīng)過(guò)聚類運(yùn)算將一批用戶需求聚為若干個(gè)簇,簇內(nèi)的用戶需求在時(shí)間、地域、傳感器類型、光譜分辨率、空間分辨率、幅寬等方面相同或者相似。
為了計(jì)算需求之間的相似度,需要確定時(shí)間、地域、傳感器類型、光譜分辨率、空間分辨率、幅寬等方面相似度的量化標(biāo)準(zhǔn)。
為了計(jì)算需求之間的相似度,需要對(duì)需求在時(shí)間T、地域A、傳感器類型S、光譜分辨率V、空間分辨率P、幅寬W等指標(biāo)上的相似度進(jìn)行量化處理,實(shí)現(xiàn)在統(tǒng)一量綱下的相似度評(píng)估,量化處理的示例見(jiàn)表 3,可以根據(jù)具體情況改變量化方法。
表3 需求指標(biāo)相似度量化標(biāo)準(zhǔn)
表3(續(xù))
相似度的計(jì)算公式為:
Similarity=T×λ1+A×λ2+S×λ3+V×λ4+
P×λ5+W×λ6
其中:λ1,λ2,λ3,λ4,λ5和λ6是權(quán)重系數(shù);λ1+λ2+λ3+λ4+λ5+λ6=1。
相似度的確定是需求融合歸并的關(guān)鍵,確定了相似度的值才能通過(guò)聚類算法進(jìn)一步得出類內(nèi)用戶之間合適的總體內(nèi)聚度。
進(jìn)一步采用的聚類算法是基于類內(nèi)用戶需求間相似度值柱狀圖進(jìn)行的,相似度值柱狀圖是類內(nèi)所有用戶需求相似度的簡(jiǎn)潔表示。算法的基本思想是,保證在聚類運(yùn)算過(guò)程中類內(nèi)用戶需求之間的總體內(nèi)聚度盡可能高??傮w內(nèi)聚度是通過(guò)計(jì)算類內(nèi)兩兩用戶需求之間的相似度并觀察相似度值的分布而得出的。把相似度值劃歸到幾個(gè)值的區(qū)間,每個(gè)區(qū)間用一個(gè)長(zhǎng)方柱表示,落在每個(gè)區(qū)間內(nèi)相似度值的數(shù)量代表該區(qū)間在整個(gè)分布中的比重,長(zhǎng)方柱高度與落入?yún)^(qū)間內(nèi)的相似度值數(shù)量成正比,包含較大相似度值區(qū)間的比重越大,說(shuō)明該類的內(nèi)聚度越大。
假定n是某一聚類內(nèi)的用戶需求數(shù)量,那么就有m=n(n-1)/2個(gè)需求之間的相似度值。設(shè)S={s1,s2, …,sm}是m個(gè)相似度值集合。把這些相似度值劃歸到B個(gè)區(qū)間,H={h1,h2,…,hB}表示所有相似度值在B個(gè)區(qū)間內(nèi)的分布情況。
類內(nèi)需求間值的內(nèi)聚度C可由下式計(jì)算,即
其中,ST為相似度閾值(設(shè)定一個(gè)閾值,需求間的相似度超過(guò)這一閾值則認(rèn)為它們是相似的),T為與相似度閾值對(duì)應(yīng)的相似度區(qū)間號(hào)。
在聚類過(guò)程中,要始終把保持較高的類內(nèi)聚度作為目標(biāo),為此,當(dāng)對(duì)一個(gè)新需求進(jìn)行歸類時(shí),要對(duì)這一需求的加入對(duì)該類造成的影響進(jìn)行評(píng)估。如果由于新需求加入導(dǎo)致類的相似度值分布明顯變壞,就不能把新需求分至該類。當(dāng)然也可以采取更為嚴(yán)格的條件,即要求新需求的加入必須使該類的相似度分布有所改善,也就是要好于原來(lái)的情況才允許新需求加入??量虠l件帶來(lái)的負(fù)面影響是,即使新需求與某個(gè)類中大部分的需求都相似,此類也會(huì)拒絕新需求的加入。在實(shí)際應(yīng)用中可以不采取這樣嚴(yán)格的條件,即允許相似度分布有所變壞,但通過(guò)設(shè)定一些附加條件,防止情況發(fā)生大的變化。
如前所述,希望保持每個(gè)類的C值越大越好,但實(shí)際應(yīng)用中一個(gè)新需求的加入可能使相似度值分布略有變壞。所以,一個(gè)類的C值有可能隨新需求的不斷加入變得越來(lái)越低。為了防止由于C值連續(xù)降低,最終導(dǎo)致類的內(nèi)聚度持續(xù)變壞的情況發(fā)生,為C設(shè)置一個(gè)最低值限制。如果一個(gè)新需求的加入會(huì)使C值小于設(shè)置的最低值,那么就拒絕新需求加入該類。另外,即使一個(gè)新需求的加入未使C值降低到小于設(shè)置的最低值,但C值的降幅過(guò)大(超出某個(gè)設(shè)定的閾值)也不能把新需求加入該類。這樣就可以防止由于一個(gè)需求的原因?qū)е乱粋€(gè)類的內(nèi)聚度急劇變壞。
其中:CMin表示要求的最小類內(nèi)聚度;CNew表示新文檔加入后類的內(nèi)聚度;COld表示新文檔加入前類的內(nèi)聚度;ε表示允許的內(nèi)聚度降低限度。
聚類算法如算法1所示。算法1的描述,對(duì)于每一個(gè)新需求,都計(jì)算假定新需求加入一個(gè)現(xiàn)有類后的C值,并將其與原來(lái)的C值相比較。若新C值大于或等于舊C值,則把新需求加入該類。如果新C值小于舊C值,但降低量小于ε且新C值大于C值最小要求值,也可以把新需求加入該類。若不是上述情況,則不能把新需求加入該類。如果一個(gè)新需求不能被分給任何一個(gè)現(xiàn)有類,則創(chuàng)建一個(gè)新類,并把它放在這個(gè)新類中。
算法1 聚類算法
與傳統(tǒng)常用的K最近鄰分類(K-Nearest Neighbor, K-NN)算法相比,相似度柱狀圖方法能夠更準(zhǔn)確地表示類內(nèi)需求的相似程度,以及新需求給類的內(nèi)聚度帶來(lái)的影響。
構(gòu)建遙感數(shù)據(jù)用戶需求融合處理原型系統(tǒng),原型系統(tǒng)的組成如圖6所示。
圖6 遙感數(shù)據(jù)用戶需求融合處理原型系統(tǒng)組成Fig.6 Composition of remote sensing request fusion system
關(guān)鍵信息抽取模塊負(fù)責(zé)抽取用戶需求文本中的時(shí)間、地理范圍、任務(wù)、傳感器參數(shù)等關(guān)鍵信息;需求轉(zhuǎn)義模塊負(fù)責(zé)將抽取出的關(guān)鍵信息轉(zhuǎn)變?yōu)闃?biāo)準(zhǔn)化和精確化的指標(biāo)要求;融合歸并模塊負(fù)責(zé)將相同或者相似的用戶需求合并;知識(shí)庫(kù)管理模塊負(fù)責(zé)維護(hù)管理信息抽取知識(shí)庫(kù)、需求轉(zhuǎn)義知識(shí)庫(kù)和需求融合歸并知識(shí)庫(kù)。
利用農(nóng)業(yè)生產(chǎn)、國(guó)土資源、防災(zāi)減災(zāi)領(lǐng)域各100份用戶需求,共計(jì)300份需求進(jìn)行了需求融合試驗(yàn),試驗(yàn)結(jié)果表明,融合歸并的正確率大于90.2%。表4是部分用戶需求關(guān)鍵信息抽取、需求轉(zhuǎn)義及最終融合歸并結(jié)果示例[8]。
表4 用戶需求關(guān)鍵信息抽取、需求轉(zhuǎn)義及最終融合歸并結(jié)果示例Tab.4 Examples of request key information extraction, semantic translation and request fusion
需求融合完成了提高需求處理效率的第一步,為了進(jìn)一步增加需求融合的效率,需要對(duì)用戶長(zhǎng)期累積的歷史需求及潛在的需求進(jìn)行挖掘分析,并與現(xiàn)有的用戶需求進(jìn)行融合。
對(duì)累積的用戶遙感任務(wù)需求和用戶遙感影像數(shù)據(jù)需求進(jìn)行挖掘分析,發(fā)現(xiàn)需求的來(lái)源、對(duì)地觀測(cè)區(qū)域范圍、對(duì)地觀測(cè)時(shí)間、傳感器類型等參數(shù)之間的關(guān)聯(lián)規(guī)律。依據(jù)這些知識(shí)規(guī)律可以事先自動(dòng)生成用戶需求,實(shí)現(xiàn)用戶需求的自動(dòng)智能提交,保證用戶的規(guī)律性需求能夠盡早提交到衛(wèi)星管控部門(mén)。
由于用戶需求數(shù)量眾多,具體內(nèi)容多種多樣,如何從海量用戶需求中找出用戶的特點(diǎn)和規(guī)律是一個(gè)難點(diǎn)問(wèn)題。其難點(diǎn)在于,代表需求參數(shù)之間關(guān)聯(lián)關(guān)系的規(guī)律是隱式的,而不是顯式的,需要對(duì)數(shù)據(jù)進(jìn)行復(fù)雜的數(shù)據(jù)分析才能發(fā)現(xiàn),特別是在海量數(shù)據(jù)規(guī)模條件下解決上述問(wèn)題就顯得尤其復(fù)雜。數(shù)據(jù)挖掘技術(shù)能夠從海量數(shù)據(jù)中發(fā)現(xiàn)潛在的、有價(jià)值的規(guī)律和知識(shí),是分析海量數(shù)據(jù)的有效工具,是解決上述問(wèn)題的有效技術(shù)手段。
根據(jù)遙感任務(wù)需求的數(shù)據(jù)特點(diǎn),設(shè)計(jì)了挖掘分析算法,算法分為兩步進(jìn)行:第一步,根據(jù)遙感任務(wù)需求數(shù)據(jù)庫(kù)生成一棵FP-tree;第二步,根據(jù)第一步生成的FP-tree,利用觀測(cè)任務(wù)需求挖掘分析算法生成所有頻繁項(xiàng)目集。下面分別介紹如何建立FP-tree和如何使用觀測(cè)任務(wù)需求挖掘分析算法[9-11]。
FP-tree的定義如下:
1)它有一個(gè)標(biāo)記為“null”的根節(jié)點(diǎn),它的子節(jié)點(diǎn)為一個(gè)項(xiàng)前綴子樹(shù)(item prefix subtree)的集合,還有一個(gè)頻繁項(xiàng)(frequent item)組成的頭表(header
Table)。
2)每個(gè)項(xiàng)前綴子樹(shù)的節(jié)點(diǎn)有三個(gè)域:item-name,count,node_link。item-name記錄了該節(jié)點(diǎn)所代表的項(xiàng)的名稱;count記錄了所在路徑代表的交易(transaction)中達(dá)到此節(jié)點(diǎn)的交易個(gè)數(shù);node_link指向下一個(gè)具有同樣的item-name域的節(jié)點(diǎn),要是沒(méi)有這樣一個(gè)節(jié)點(diǎn),就為null。
3)頻繁項(xiàng)頭表的每個(gè)表項(xiàng)(entry)由兩個(gè)域組成:item-name;node_link。node_link指向FP-tree中具有與該表項(xiàng)相同item-name域的第一個(gè)節(jié)點(diǎn)。
根據(jù)一個(gè)數(shù)據(jù)庫(kù)建立一棵FP-tree算法的形式化描述如算法2所示。
算法2 FP-tree算法
函數(shù)insert_tree([p|P],T)的功能如下:
如果T有一個(gè)子結(jié)點(diǎn)N,其中N.item-name=p.item-name,則將N的count域值增加1;否則,創(chuàng)建一個(gè)新節(jié)點(diǎn)N,使它的count為1,使它的父節(jié)點(diǎn)為T(mén),并且使它的node_link和那些具有相同item-name域串起來(lái)。如果P非空,則遞歸調(diào)用insert_tree(P,N)。
FP-tree是一個(gè)壓縮的數(shù)據(jù)結(jié)構(gòu),它用較少的空間存儲(chǔ)了后面頻繁項(xiàng)集挖掘所需要的全部信息。
第二步以第一步產(chǎn)生的FP-tree為基礎(chǔ)。它會(huì)遞歸調(diào)用自己,并且反復(fù)調(diào)用新產(chǎn)生的FP-tree。觀測(cè)需求挖掘算法如算法3所示。
算法3 需求挖掘分析算法
隨著我國(guó)在軌衛(wèi)星數(shù)量和質(zhì)量的逐步提升,遙感數(shù)據(jù)的應(yīng)用也日益成熟和擴(kuò)展,遙感用戶需求的數(shù)量和來(lái)源也越來(lái)越廣泛。為了提高衛(wèi)星的應(yīng)用效益,對(duì)遙感用戶的需求進(jìn)行融合處理已成為必然。本文利用自然語(yǔ)言處理技術(shù)、需求分析技術(shù)和聚類技術(shù)對(duì)遙感數(shù)據(jù)用戶需求進(jìn)行分析,在分析的基礎(chǔ)上,對(duì)相同或者相似的需求進(jìn)行融合歸并,實(shí)現(xiàn)了一圖多用的目的,提高了對(duì)地觀測(cè)資源的利用率,實(shí)驗(yàn)結(jié)果表明,該方法能夠有效地對(duì)自然語(yǔ)言形式的用戶需求進(jìn)行融合歸并處理,在衛(wèi)星任務(wù)管控領(lǐng)域具有應(yīng)用價(jià)值。