吳郁文,林杰*
融合遙感與社會(huì)感知數(shù)據(jù)的城市土地利用分類(lèi)方法
吳郁文1,2,林杰1,2*
(1.浙江大學(xué) 地球科學(xué)學(xué)院,浙江 杭州 310027; 2.浙江大學(xué) 地理與空間信息研究所,浙江 杭州 310027)
傳統(tǒng)的土地利用分類(lèi)方法大多基于對(duì)資料或影像的人工解譯,存在一定的局限性。近年來(lái),結(jié)合空間大數(shù)據(jù)和自然語(yǔ)言處理技術(shù)進(jìn)行低成本快速的土地資源管理已成為研究熱點(diǎn)。以美國(guó)紐約市曼哈頓區(qū)為例,提出了融合遙感影像和社會(huì)感知數(shù)據(jù)的城市土地利用分類(lèi)方法。從遙感影像中提取光譜特征、從推特?cái)?shù)據(jù)中提取用戶(hù)活動(dòng)時(shí)空和主題特征,基于隨機(jī)森林法和深度神經(jīng)網(wǎng)絡(luò)法,構(gòu)建了細(xì)粒度的城市土地利用分類(lèi)模型。通過(guò)對(duì)比不同特征組合分類(lèi)方法的精度,得到結(jié)合光譜特征和用戶(hù)活動(dòng)時(shí)空、主題特征的深度神經(jīng)網(wǎng)絡(luò)方法的結(jié)果最優(yōu),總體精度達(dá)82.65%,Kappa系數(shù)為70.1%。結(jié)果表明,社會(huì)感知數(shù)據(jù)中隱含的用戶(hù)活動(dòng)時(shí)空模式和活動(dòng)主題信息均有助于提高城市土地利用分類(lèi)的精度,而神經(jīng)網(wǎng)絡(luò)法可有效融合多源數(shù)據(jù),為快速、低成本獲取城市土地利用信息提供了新的途徑。
土地利用分類(lèi);遙感;社會(huì)感知;隨機(jī)森林;深度神經(jīng)網(wǎng)絡(luò)
城市土地利用信息一定程度上反映社會(huì)的經(jīng)濟(jì)功能,細(xì)粒度的城市土地利用數(shù)據(jù)在城市土地規(guī)劃、自然災(zāi)害監(jiān)測(cè)、環(huán)境脆弱性評(píng)估等領(lǐng)域有重要應(yīng)用[1]。傳統(tǒng)的細(xì)粒度土地利用數(shù)據(jù)大多來(lái)自人工解譯圖像或?qū)嵉乜疾?,獲取較耗時(shí),不適合用于監(jiān)測(cè)土地利用變化。隨著遙感技術(shù)的快速發(fā)展,大量遙感影像精細(xì)提取后可作為城市土地利用信息[2]。然而,由于基于像元的遙感影像分類(lèi)方法得到的結(jié)果在空間上不連續(xù),不能很好地表征城市土地利用格局[3]。而且城市中相同類(lèi)型的土地可能具有不同的物理性質(zhì)(如頂棚覆蓋材料不同的房屋),而不同類(lèi)型的土地也可能呈現(xiàn)相同或相似的光譜特征(例如瀝青道路和停車(chē)場(chǎng)),僅采用影像分類(lèi)易造成誤判。由于遙感影像只反映土地的物理信息,無(wú)法反映城市社會(huì)經(jīng)濟(jì)活動(dòng)與土地利用類(lèi)型的相互作用[4]。因此,僅使用遙感影像進(jìn)行土地利用分類(lèi)的方法難以適應(yīng)種類(lèi)多樣、結(jié)構(gòu)復(fù)雜的城市地塊分類(lèi)問(wèn)題。
近年來(lái),GPS設(shè)備的普及和基于位置的服務(wù)快速發(fā)展,產(chǎn)生了許多與位置相關(guān)的大數(shù)據(jù)。這些社會(huì)感知數(shù)據(jù)因能有效捕捉社會(huì)經(jīng)濟(jì)特征,可作為遙感數(shù)據(jù)的補(bǔ)充[5]。其中,社交媒體數(shù)據(jù)因包含了豐富的人群社會(huì)經(jīng)濟(jì)活動(dòng)信息,常被輔助用于城市土地利用分類(lèi)[6]。社交媒體推特(Twitter),因用戶(hù)體量大、活躍度高,且數(shù)據(jù)開(kāi)源,可免費(fèi)實(shí)時(shí)獲取,故用帶有地理標(biāo)記的推特?cái)?shù)據(jù)進(jìn)行低成本、高效的城市土地利用分類(lèi)逐漸成為近年的研究熱點(diǎn)。如JIANG等[7]比較了基于推特和基于谷歌社區(qū)手機(jī)定位2種方式挖掘得到的人群移動(dòng)模式,發(fā)現(xiàn)二者的結(jié)果類(lèi)似,說(shuō)明可以從推特?cái)?shù)據(jù)中提取人群活動(dòng)時(shí)空信息進(jìn)行土地利用分類(lèi)。KOZLOWSKA等[8]按照預(yù)定義的關(guān)鍵詞將推特劃分為不同主題類(lèi)別,觀察用戶(hù)在不同土地利用類(lèi)型地塊的活動(dòng)主題屬性差異。IRANMANESH等[9]用核密度估計(jì)法描繪推特在時(shí)間和語(yǔ)義(關(guān)鍵詞標(biāo)注)上的分布,與真實(shí)土地類(lèi)型做相關(guān)分析后發(fā)現(xiàn),結(jié)合推特的時(shí)空分布和語(yǔ)義特征有助于區(qū)分城市土地類(lèi)型。盡管推特?cái)?shù)據(jù)越來(lái)越多地被用于城市土地利用分類(lèi),但是大多研究只利用社交媒體數(shù)據(jù)的時(shí)空分布揭示人群的流動(dòng)模式[10-12],或利用關(guān)鍵詞標(biāo)簽粗略劃分推特語(yǔ)義信息[8-9]。而結(jié)合自然語(yǔ)言處理技術(shù)的土地利用分類(lèi)研究大多基于POI語(yǔ)義特征[13-15],或是對(duì)推特的位置預(yù)測(cè)[16],得到的結(jié)果空間尺度較大,不能滿(mǎn)足細(xì)粒度的城市土地利用分類(lèi)的數(shù)據(jù)要求。
為填補(bǔ)上述相關(guān)工作的空缺,本文提出了融合遙感與社會(huì)感知數(shù)據(jù)的城市土地利用分類(lèi)方法。如圖1所示,該方法主要分三部分,分別為數(shù)據(jù)獲取及預(yù)處理、特征提取與分析、分類(lèi)結(jié)果與分析。雖然推特具有開(kāi)源、易獲取、體量大、用戶(hù)活躍度高等優(yōu)勢(shì),但其數(shù)據(jù)質(zhì)量良莠不齊,需要設(shè)計(jì)專(zhuān)門(mén)的處理方案。受推特?cái)?shù)據(jù)所限,研究難點(diǎn)有二:第一,因用戶(hù)發(fā)布帶有地理標(biāo)記推特的喜好和習(xí)慣不同,導(dǎo)致數(shù)據(jù)中隱含的用戶(hù)人群活動(dòng)時(shí)空記錄相對(duì)不完整,干擾時(shí)空特征的提取。有些用戶(hù)非常頻繁地發(fā)布帶有地理標(biāo)記的推特,有些用戶(hù)發(fā)布的頻率較低或很少附地理標(biāo)記,使得經(jīng)常發(fā)布帶有地理標(biāo)記推特的用戶(hù)其訪(fǎng)問(wèn)過(guò)的地塊所包含的推特?cái)?shù)量較大,而其余地塊包含的推特?cái)?shù)量較少,即使是相同土地利用類(lèi)型的地塊,所包含的推特?cái)?shù)量差異也很大。為排除這一干擾,本文基于用戶(hù)連續(xù)發(fā)布的推特推斷每個(gè)用戶(hù)的移動(dòng)軌跡,以此挖掘用戶(hù)活動(dòng)的時(shí)空特征。第二,推特內(nèi)容具有主觀性,難以提取其隱含的用戶(hù)活動(dòng)主題類(lèi)型信息。推特文本由用戶(hù)生成,不僅存在很多俚語(yǔ)、網(wǎng)絡(luò)用語(yǔ),而且包含的語(yǔ)義信息欠明確。已有研究嘗試?yán)迷~向量技術(shù)對(duì)推特文本進(jìn)行分類(lèi),但仍存在大量無(wú)法分類(lèi)的文本,影響分類(lèi)效果[17]。無(wú)法分類(lèi)的文本,可能是包含了多個(gè)主題的交叉類(lèi)別推特,也可能是不包含與用戶(hù)活動(dòng)類(lèi)型相關(guān)信息的無(wú)效推特。對(duì)此,本文設(shè)計(jì)了一種從推特文本中提取用戶(hù)活動(dòng)主題類(lèi)型信息的方法。用傳統(tǒng)的主題概率模型Labeled-LDA代替復(fù)雜的詞向量模型,用Foursquare評(píng)論文本作為L(zhǎng)abeled-LDA模型的訓(xùn)練集,用Foursquare地點(diǎn)類(lèi)型作為文本標(biāo)簽,這樣既避免了人工標(biāo)注推特文本帶來(lái)的人為影響,也考慮了同一土地利用類(lèi)型地塊可能存在多主題類(lèi)別推特的問(wèn)題,并可根據(jù)推特的主題概率分布值方便地過(guò)濾無(wú)效推特,降低篩選工作量。
圖1 城市土地利用分類(lèi)框架
本文的主要貢獻(xiàn)如下:
(1)將自然語(yǔ)言處理技術(shù)應(yīng)用于城市土地利用分類(lèi)研究,設(shè)計(jì)了一種從社交媒體文本中挖掘與土地利用類(lèi)型相關(guān)的語(yǔ)義信息方法。以Foursquare評(píng)論文本為參照,訓(xùn)練Labeled-LDA監(jiān)督模型,從推特文本中提取用戶(hù)活動(dòng)主題類(lèi)型,并刪除無(wú)效推特文本。該方法在數(shù)據(jù)集研究中取得了較好的效果,可推廣至不同城市和社交媒體平臺(tái)。
(2)提出了融合遙感與社會(huì)感知數(shù)據(jù)的城市土地利用分類(lèi)方法。將從推特?cái)?shù)據(jù)中提取的用戶(hù)活動(dòng)時(shí)空特征和主題特征相結(jié)合,用于城市土地利用分類(lèi)。通過(guò)對(duì)比不同特征組合模型的精度,發(fā)現(xiàn)時(shí)空特征和主題特征均有助于提高城市土地利用分類(lèi)精度。充分挖掘了社交媒體數(shù)據(jù)在城市土地利用分類(lèi)中的應(yīng)用潛力。
(3)方法在紐約市曼哈頓區(qū)的土地利用分類(lèi)應(yīng)用中,總體精度達(dá)82.65%,具有實(shí)際意義。對(duì)比了不同數(shù)據(jù)和特征的貢獻(xiàn)重要度,量化分析了特征對(duì)區(qū)分各土地利用類(lèi)型的作用;對(duì)比分析了隨機(jī)森林模型和深度神經(jīng)網(wǎng)絡(luò)模型的分類(lèi)結(jié)果。
地塊數(shù)據(jù)來(lái)自紐約市開(kāi)放數(shù)據(jù)網(wǎng)站,均為當(dāng)?shù)卣畡澏ǖ囊?guī)劃功能一致的稅收地塊。經(jīng)裁剪后得到曼哈頓區(qū)共42 808個(gè)地塊,根據(jù)建筑物類(lèi)別將所有地塊劃分為11個(gè)土地利用類(lèi)型,分別為政府機(jī)關(guān)用地、商業(yè)服務(wù)用地、文化設(shè)施用地、商務(wù)辦公用地、教育用地、工業(yè)倉(cāng)儲(chǔ)用地、醫(yī)療衛(wèi)生用地、住宅用地、公園與綠地、交通運(yùn)輸用地和待建成地。對(duì)包含混合功能建筑類(lèi)別的地塊(如低層商鋪高層住宅樓),用地塊內(nèi)POI主要類(lèi)型定義其土地利用類(lèi)型。
本研究使用的推特?cái)?shù)據(jù)由基于GESIS網(wǎng)站的紐約市所有帶地理標(biāo)記的推特ID收集得到。共收集了曼哈頓區(qū)713 767條帶有地理坐標(biāo)的推特,涉及95 836個(gè)用戶(hù)。每條推特均含時(shí)間戳、地理坐標(biāo)、文本內(nèi)容及用戶(hù)ID信息。為確保后續(xù)分析的正確性,對(duì)推特文本進(jìn)行了預(yù)處理。
1.3Foursquare評(píng)論數(shù)據(jù)
用Foursquare場(chǎng)所API在曼哈頓區(qū)收集了65 686個(gè)場(chǎng)所信息和335 929條用戶(hù)對(duì)場(chǎng)所的評(píng)論反饋,這些評(píng)論可體現(xiàn)被評(píng)論場(chǎng)所的功能屬性??紤]Foursquare的原分類(lèi)體系存在交叉和重復(fù),根據(jù)其可能涉及的活動(dòng)類(lèi)型,將所有場(chǎng)所重新劃分為20種類(lèi)型,并對(duì)評(píng)論文本進(jìn)行預(yù)處理。
2.1.1地塊光譜特征提取
從美國(guó)地質(zhì)勘探局網(wǎng)站下載了曼哈頓區(qū)2014年4月10日的Landsat-8遙感衛(wèi)星影像,云覆蓋率低于5%。對(duì)影像進(jìn)行大氣校正后,提取了該地塊的4個(gè)歸一化指數(shù):歸一化植被指數(shù)NDVI,土壤調(diào)節(jié)植被指數(shù)SAVI,歸一化建筑物指數(shù)NDBI和歸一化裸地指數(shù)NDBAI,計(jì)算式為:
2.1.2用戶(hù)活動(dòng)時(shí)空特征提取
城市人群在不同功能地塊間的流動(dòng)具有規(guī)律性。本文參考了FALCONE等[18]的研究方法,由同一用戶(hù)連續(xù)發(fā)布的推特,挖掘用戶(hù)訪(fǎng)問(wèn)地塊的時(shí)空模式,計(jì)算了用戶(hù)活動(dòng)時(shí)空特征的6個(gè)指標(biāo),見(jiàn)表1。
表1 用戶(hù)活動(dòng)時(shí)空特征指標(biāo)
2.1.3用戶(hù)活動(dòng)主題類(lèi)型特征提取
用戶(hù)發(fā)表的推特內(nèi)容通常與用戶(hù)當(dāng)前正在進(jìn)行的活動(dòng)關(guān)聯(lián)度很大[19],而用戶(hù)的活動(dòng)類(lèi)型與用戶(hù)當(dāng)前所在地塊的功能屬性密切相關(guān),因此推特中潛在的用戶(hù)活動(dòng)類(lèi)型信息可用于土地利用分類(lèi)。推特和Foursquare平臺(tái)具有相似性,F(xiàn)oursquare評(píng)論可作為推特文本的參照[20-21]。研究中使用的主題模型為L(zhǎng)abeled-LDA,其是一種改進(jìn)的LDA模型,通過(guò)將主題限定為已分配的訓(xùn)練文檔的標(biāo)簽進(jìn)行有監(jiān)督的主題挖掘[22]。已有研究表明,Labeled-LDA模型適用于短且主題分布稀疏的文本[23-24]。
首先將所有的Foursquare評(píng)論文本按地點(diǎn)劃分或合并為多個(gè)文檔,每個(gè)地點(diǎn)對(duì)應(yīng)一個(gè)文檔,并用該地點(diǎn)類(lèi)型作為文檔標(biāo)簽。然后將文檔集作為輸入,訓(xùn)練Labeled-LDA模型,預(yù)測(cè)推特的主題概率分布。研究清理了主題概率分布值小于0.1的推特,以排除不包含用戶(hù)活動(dòng)類(lèi)型信息的無(wú)效推特的干擾,計(jì)算每個(gè)地塊所屬推特的主題概率均值,將其作為該地塊的用戶(hù)活動(dòng)主題特征。為避免分類(lèi)時(shí)變量的共線(xiàn)性對(duì)模型的影響,刪除了其中一個(gè)主題變量。
2.2分類(lèi)模型
隨機(jī)森林法,由多個(gè)學(xué)習(xí)器結(jié)合完成任務(wù),即使其中一個(gè)學(xué)習(xí)器的結(jié)果錯(cuò)誤,其他學(xué)習(xí)器也可能將其糾正,具有較高的精確度;此外,對(duì)原始數(shù)據(jù)集進(jìn)行有放回的隨機(jī)采樣,既增加了基學(xué)習(xí)器的多樣性,也避免了模型過(guò)擬合,具有較高的穩(wěn)定性。同時(shí),方法的計(jì)算開(kāi)銷(xiāo)較小,可解釋性強(qiáng),能評(píng)估變量的重要性。
圖2 BP神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
Fig.2 Architecture of back propagation neural network
通過(guò)分層抽樣方法將地塊數(shù)據(jù)集劃分為兩部分,將80%的地塊樣本作為訓(xùn)練集,另20%作為測(cè)試集。由3種特征組合和2種分類(lèi)方法,共構(gòu)建了6個(gè)模型,用測(cè)試集的分類(lèi)混淆矩陣評(píng)價(jià)模型分類(lèi)精度,評(píng)價(jià)指標(biāo)包括用戶(hù)精度、生產(chǎn)者精度、值、總體精度和Kappa系數(shù)。
圖3展示了6個(gè)模型分類(lèi)結(jié)果中各類(lèi)型地塊的用戶(hù)精度和生產(chǎn)者精度。其中,特征組合Ⅰ僅使用了光譜特征,特征組合Ⅱ使用了光譜特征和用戶(hù)活動(dòng)時(shí)空特征,特征組合Ⅲ使用了光譜特征、用戶(hù)活動(dòng)時(shí)空特征和用戶(hù)活動(dòng)主題特征。3個(gè)隨機(jī)森林模型均經(jīng)過(guò)網(wǎng)格搜索進(jìn)行參數(shù)調(diào)優(yōu),深度神經(jīng)網(wǎng)絡(luò)中也加入了L2正則懲罰,為避免過(guò)擬合,設(shè)定學(xué)習(xí)率為0.001。從總體精度看,基于BP神經(jīng)網(wǎng)絡(luò)的3種特征組合總體精度分別為61.89%,75.56%和82.65%,基于隨機(jī)森林的3種特征組合總體精度分別為58.59%,75.32%和81.55%,BP神經(jīng)網(wǎng)絡(luò)的總體精度相對(duì)較高,2種方法的總體精度較接近,均能較好地區(qū)分土地利用類(lèi)型。隨機(jī)森林方法是比較成熟的集成模型,穩(wěn)定性好、精度較高、運(yùn)行速度快。深度神經(jīng)網(wǎng)絡(luò)模型相較傳統(tǒng)邏輯演算機(jī)器學(xué)習(xí)模型的優(yōu)勢(shì)是,對(duì)數(shù)據(jù)分布沒(méi)有任何限制,可以很好地捕捉特征與城市土地利用類(lèi)型之間的復(fù)雜非線(xiàn)性關(guān)系,但隨著隱藏層數(shù)量的增加,計(jì)算時(shí)間復(fù)雜度增加。由于BP神經(jīng)網(wǎng)絡(luò)模型的分類(lèi)精度更高,所以后續(xù)在進(jìn)行不同特征組合對(duì)比和特征重要度計(jì)算時(shí)均采用BP神經(jīng)網(wǎng)絡(luò)模型的分類(lèi)結(jié)果。
圖3 不同特征組合和分類(lèi)方法的分類(lèi)精度比較
基于BP神經(jīng)網(wǎng)絡(luò)的特征組合Ⅰ模型分類(lèi)結(jié)果的總體精度為61.89%,Kappa系數(shù)為29.30%。表2為該模型的分類(lèi)結(jié)果混淆矩陣。在所有土地利用類(lèi)型中,住宅的分類(lèi)精度最高,其次是待建成地和公園綠地。被誤分類(lèi)為住宅的地塊數(shù)量最多,政府機(jī)關(guān)用地、文化設(shè)施用地、商務(wù)辦公用地、商業(yè)服務(wù)用地、教育用地、工業(yè)倉(cāng)儲(chǔ)用地、醫(yī)療衛(wèi)生用地和交通運(yùn)輸用地中有一半以上被誤分為住宅。被誤分為商業(yè)服務(wù)地塊的數(shù)量位居第二。這說(shuō)明由遙感影像提取的歸一化植被、建筑物和裸地指數(shù)對(duì)區(qū)分綠地和待建成地效果明顯,但對(duì)其他功能地塊的區(qū)分能力較弱。
表2 僅用光譜特征作為輸入向量的分類(lèi)結(jié)果混淆矩陣
表3 用光譜特征和用戶(hù)活動(dòng)時(shí)空特征作為輸入向量的分類(lèi)結(jié)果混淆矩陣
注*表示該特征組合的準(zhǔn)確度在顯著性水平為0.05、自由度為1時(shí)的卡方檢驗(yàn)較表2有明顯提升。
基于BP神經(jīng)網(wǎng)絡(luò)的特征組合Ⅱ模型分類(lèi)結(jié)果的總體精度為75.56%,Kappa系數(shù)58.06%。表3為該模型的分類(lèi)結(jié)果混淆矩陣。將特征組合Ⅱ結(jié)果與特征組合I結(jié)果進(jìn)行配對(duì)卡方檢驗(yàn),結(jié)果顯示,增加了用戶(hù)活動(dòng)時(shí)空特征后,住宅用地、商務(wù)辦公用地、商業(yè)服務(wù)用地的分類(lèi)精度顯著提高。政府機(jī)關(guān)用地、文化設(shè)施用地、公園與綠地的分類(lèi)精度也有一定提升,說(shuō)明這些場(chǎng)所的人群流動(dòng)規(guī)律特征比較明顯。相對(duì)地,工業(yè)倉(cāng)儲(chǔ)用地、醫(yī)療衛(wèi)生用地、教育用地、交通運(yùn)輸用地的分類(lèi)精度改善不大,待建成地的分類(lèi)精度有所下降。圖4(a)顯示的為推特用戶(hù)數(shù)在不同類(lèi)型地塊之間的差異,可以看出,公園與綠地、商業(yè)服務(wù)用地和文化設(shè)施用地的用戶(hù)數(shù)較其他地塊類(lèi)型多,教育用地、醫(yī)療衛(wèi)生用地和工業(yè)倉(cāng)儲(chǔ)用地3種類(lèi)型之間的差距不大。圖4(b)顯示的為推特用戶(hù)周末停留時(shí)長(zhǎng)比例在不同類(lèi)型地塊之間的差異,可知,公園與綠地和商業(yè)服務(wù)用地的用戶(hù)周末停留比例較其他地塊類(lèi)型高,商務(wù)辦公用地的用戶(hù)周末停留比例較其他地塊類(lèi)型低,其他類(lèi)型地塊之間的差距都不大。根據(jù)用戶(hù)活動(dòng)時(shí)空特征,社交媒體數(shù)據(jù)中體現(xiàn)人群數(shù)量的特征(如推特用戶(hù)總量)可用于區(qū)分商業(yè)用地、公園與綠地和文化設(shè)施用地這些休閑娛樂(lè)場(chǎng)所,而社交媒體數(shù)據(jù)中體現(xiàn)人群流動(dòng)模式的特征(如推特用戶(hù)周末時(shí)段停留比例)可用于區(qū)分商務(wù)辦公用地。將這兩類(lèi)特征結(jié)合可更好地進(jìn)行城市土地利用分類(lèi)。但從社交媒體數(shù)據(jù)中提取的這兩類(lèi)特征均不能很好地區(qū)分其他非娛樂(lè)或辦公性質(zhì)的功能地塊,如教育用地、醫(yī)療衛(wèi)生用地、工業(yè)倉(cāng)儲(chǔ)用地。原因是用戶(hù)經(jīng)常訪(fǎng)問(wèn)這些日常生活、辦公和休閑娛樂(lè)場(chǎng)所,如文化設(shè)施用地、商業(yè)服務(wù)用地、商務(wù)辦公用地、住宅用地、公園與綠地、政府機(jī)關(guān)用地和教育用地,所以這些地塊包含帶有地理標(biāo)記的推特?cái)?shù)量更多,研究提取的人群活動(dòng)時(shí)空特征更具代表性。而用戶(hù)訪(fǎng)問(wèn)工業(yè)倉(cāng)儲(chǔ)用地、醫(yī)療衛(wèi)生用地、交通運(yùn)輸用地和待建成地的概率較小,導(dǎo)致所提取的用戶(hù)活動(dòng)時(shí)空特征噪聲較大,影響模型的分類(lèi)效果。
圖4 典型用戶(hù)活動(dòng)時(shí)空特征在各土地利用類(lèi)型上的分布
基于BP神經(jīng)網(wǎng)絡(luò)的特征組合Ⅲ模型分類(lèi)結(jié)果的總體精度為82.65%,Kappa系數(shù)為70.1%。表4為該模型的分類(lèi)結(jié)果混淆矩陣。增加了用戶(hù)活動(dòng)主題特征后,所有類(lèi)型地塊的分類(lèi)精度均有所提高。其中,住宅用地的分類(lèi)精度最高,1指數(shù)達(dá)87.1%;其次是公園與綠地和文化設(shè)施用地,1指數(shù)分別為86.71%和85.71%;商務(wù)辦公用地和商業(yè)服務(wù)用地的1指數(shù)接近,分別為79.86%和79.01%;政府機(jī)關(guān)用地、教育用地、工業(yè)倉(cāng)儲(chǔ)用地、醫(yī)療衛(wèi)生用地、交通運(yùn)輸用地和待建成地的分類(lèi)精度均很高,達(dá)到90%以上,有許多被誤分為住宅和商業(yè)服務(wù)用地。與特征組合Ⅱ的分類(lèi)結(jié)果做配對(duì)卡方檢驗(yàn),發(fā)現(xiàn)政府機(jī)關(guān)用地、文化設(shè)施用地、教育用地、交通運(yùn)輸用地和醫(yī)療衛(wèi)生用地的分類(lèi)精度均有顯著提高,說(shuō)明這些地塊包含的推特文本主題類(lèi)型與地塊功能類(lèi)型匹配度高。觀察推特文本數(shù)據(jù)集后發(fā)現(xiàn),某些政府機(jī)構(gòu)會(huì)發(fā)布一些政務(wù)新聞或?qū)崟r(shí)道路信息,醫(yī)療衛(wèi)生機(jī)構(gòu)和私人診所也會(huì)發(fā)布健康宣傳專(zhuān)欄,大學(xué)的社團(tuán)或?qū)W生組織會(huì)發(fā)布校園活動(dòng)信息,博物館和美術(shù)館會(huì)發(fā)布展覽預(yù)告,這些信息均含明顯的主題指向,因此推特文本的主題屬性可幫助判斷地塊的功能類(lèi)型。
表4 用光譜和用戶(hù)活動(dòng)時(shí)空、主題特征作為輸入向量的分類(lèi)結(jié)果混淆矩陣
注*表示該特征組合的準(zhǔn)確度在顯著性水平為0.05、自由度為1時(shí)的卡方檢驗(yàn)較表3有明顯提升。
除對(duì)分類(lèi)結(jié)果進(jìn)行整體評(píng)估外,本文還比較了局部區(qū)域的真實(shí)值和預(yù)測(cè)值,以深入分析分類(lèi)模型的性能。選取曼哈頓區(qū)中城和上東2個(gè)典型區(qū)域,分類(lèi)結(jié)果如圖5所示。總體而言,特征組合的局部分類(lèi)性能與基于全局指標(biāo)的分類(lèi)性能一致。
中城是曼哈頓區(qū)的中心,是世界上最大的中央商務(wù)區(qū),也是全美最大的商業(yè)、娛樂(lè)、媒體中心和不斷發(fā)展的金融中心。中城有一些著名的建筑,如帝國(guó)大廈、克萊斯勒大廈、聯(lián)合國(guó)總部、中央車(chē)站和洛克菲勒中心以及百老匯和時(shí)代廣場(chǎng)等旅游景點(diǎn)。從真實(shí)的土地利用分布圖中可以看出,中城(圖5(a)大圈區(qū)域)主要是商業(yè)服務(wù)和商務(wù)辦公用地,夾雜一些住宅、文化設(shè)施用地、交通運(yùn)輸用地和政府機(jī)關(guān)用地。基于特征組合Ⅰ的模型(圖5(b)大圈區(qū)域)誤將大部分商業(yè)服務(wù)和商務(wù)辦公用地劃分為住宅用地,而且未能區(qū)分文化設(shè)施用地、交通運(yùn)輸用地和政府機(jī)關(guān)用地?;谔卣鹘M合Ⅱ的模型(圖5(c)大圈區(qū)域)因?yàn)樘砑恿送铺氐臅r(shí)空分布特征,并將其作為輸入向量,在對(duì)上述類(lèi)型區(qū)分上比基于特征組合Ⅰ的模型好。大部分商業(yè)服務(wù)用地和商務(wù)辦公用地能被正確分類(lèi),但是不能準(zhǔn)確區(qū)分文化設(shè)施用地,交通運(yùn)輸用地和政府機(jī)關(guān)用地在此特征組合的分類(lèi)結(jié)果中仍然缺失。基于特征組合Ⅲ的模型(圖5(d)大圈區(qū)域)表現(xiàn)最好,所有土地利用類(lèi)型有相當(dāng)比例的地塊被正確分類(lèi),包括住宅用地、商業(yè)服務(wù)用地、醫(yī)療衛(wèi)生用地、政府機(jī)關(guān)用地、工業(yè)倉(cāng)儲(chǔ)用地和教育用地。
圖5 不同特征組合的分類(lèi)結(jié)果局部分析
上東(圖5(a)小圈區(qū)域)左靠中央公園,有適合散步的公園大道和豪華的戰(zhàn)前建筑物,右毗鄰依斯特河,有優(yōu)美的水景,是著名的富人區(qū),配備了許多學(xué)校和醫(yī)院。中央公園前第五大道周邊有許多博物館。麥迪遜大道是高級(jí)商業(yè)街,兩側(cè)有許多時(shí)裝店、精品店、豪華酒店。因此,上東的土地利用類(lèi)型主要為住宅,穿插一些商務(wù)辦公用地、文化設(shè)施用地、教育用地、商業(yè)服務(wù)用地和交通運(yùn)輸用地。在基于特征組合Ⅰ的模型(圖5(b)小圈區(qū)域)中,大部分住宅用地都被正確分類(lèi),部分住宅用地被誤分為商務(wù)辦公用地,有1個(gè)教育用地和1個(gè)政府機(jī)關(guān)用地被正確分類(lèi),有近一半的商業(yè)服務(wù)用地被誤分。在基于特征組合Ⅱ的模型(圖5(c)小圈區(qū)域)中,幾乎所有地塊都被劃分為住宅和商業(yè)服務(wù)用地,教育用地、醫(yī)療衛(wèi)生用地和政府機(jī)關(guān)用地類(lèi)型缺失?;谔卣鹘M合Ⅲ的模型(圖5(d)小圈區(qū)域)得到的土地利用空間分布最接近于真實(shí)情況,大部分地塊都被正確分類(lèi)了。
為進(jìn)一步驗(yàn)證地理標(biāo)記推特?cái)?shù)據(jù)在城市土地利用分類(lèi)研究中的可用性,基于BP神經(jīng)網(wǎng)絡(luò)模型計(jì)算了各特征對(duì)分類(lèi)模型的貢獻(xiàn)度。雖然隨機(jī)森林法的可解釋性很強(qiáng),可通過(guò)計(jì)算基尼不純度得到各變量的重要度,但得到的特征重要度偏向于跨度大的數(shù)值特征或基數(shù)高的類(lèi)別特征,因?yàn)檫@些變量可用于分割數(shù)據(jù)的中間節(jié)點(diǎn)較多[30],只能作為相對(duì)參考值。本文采用排列特征重要度方法確定各變量的重要度[31]。通過(guò)打亂各輸入對(duì)象某一特征值的順序,令計(jì)算模型精度下降,精度下降越多,說(shuō)明該特征對(duì)分類(lèi)的貢獻(xiàn)度越大。
圖6為每個(gè)特征的貢獻(xiàn)度,縱軸表示打亂特征順序后模型的平均精度下降值,不同顏色代表不同的特征類(lèi)型。圖7為各特征對(duì)土地利用類(lèi)型的分類(lèi)重要度熱力圖,重要度已按行(即各土地利用類(lèi)型)進(jìn)行了數(shù)據(jù)歸一化。從整體上看,重要度最高的是地塊的光譜特征,其次是推特?cái)?shù)據(jù)隱含的用戶(hù)活動(dòng)時(shí)空特征和主題特征。光譜特征中的NDVI均值和SAVI均值的重要度很高,特別是關(guān)于商務(wù)辦公用地、公園與綠地、工業(yè)倉(cāng)儲(chǔ)用地和待建成地的分類(lèi)。NDBI對(duì)住宅用地、商務(wù)辦公用地和待建成地的分類(lèi)重要度也較高。NDBAI對(duì)公園與綠地和待建成地的分類(lèi)重要度較高。在社會(huì)感知數(shù)據(jù)提取的特征中,與住宅相關(guān)的主題特征在分類(lèi)中的貢獻(xiàn)度最大,其次是與寫(xiě)字樓、餐館和酒吧相關(guān)的主題信息。從圖7中可以看出,這些主題特征關(guān)于住宅用地、商業(yè)服務(wù)用地和商務(wù)辦公用地的重要度較高。其余的主題特征在識(shí)別與其相關(guān)的土地利用類(lèi)型時(shí)也表現(xiàn)出較高的重要度。但是娛樂(lè)場(chǎng)所、運(yùn)動(dòng)場(chǎng)館和旅館這3個(gè)相關(guān)主題的重要度較低,說(shuō)明在這3種類(lèi)型場(chǎng)所發(fā)布的推特主題復(fù)雜程度較高。在時(shí)空特征方面,用戶(hù)總數(shù)和周末停留時(shí)長(zhǎng)比例這2個(gè)特征起重要作用,它們對(duì)區(qū)分文化設(shè)施用地、商業(yè)服務(wù)用地、商務(wù)辦公用地和待建成地有重要作用。訪(fǎng)問(wèn)熵特征對(duì)區(qū)分住宅用地有重要作用。而用戶(hù)日均停留時(shí)長(zhǎng)和夜間周末停留比例這2個(gè)變量的貢獻(xiàn)較其他變量小,可能原因是部分用戶(hù)發(fā)布推特時(shí)未附地理坐標(biāo),導(dǎo)致數(shù)據(jù)不完整,不能很好地體現(xiàn)以日為單位的人群流動(dòng)規(guī)律。但是當(dāng)以周末或更大時(shí)間尺度為單位時(shí),部分?jǐn)?shù)據(jù)的缺失對(duì)觀察人群流動(dòng)模式的影響將減小。
圖6 特征重要度比較
圖7 在土地利用分類(lèi)中特征的重要度比較
基于開(kāi)源數(shù)據(jù),提出了融合遙感影像和社會(huì)感知數(shù)據(jù)的低成本高效城市土地利用分類(lèi)方法。以紐約市曼哈頓區(qū)為例,從遙感影像中提取地塊的光譜特征,從推特?cái)?shù)據(jù)分布中提取人群社會(huì)經(jīng)濟(jì)活動(dòng)的時(shí)空特征,從推特文本內(nèi)容中提取用戶(hù)活動(dòng)的主題類(lèi)型。分別用隨機(jī)森林和BP神經(jīng)網(wǎng)絡(luò)2種分類(lèi)方法,構(gòu)建并比較了6個(gè)城市土地利用分類(lèi)模型。其中,僅考慮光譜特征的分類(lèi),混淆程度最高,隨機(jī)森林法和BP神經(jīng)網(wǎng)絡(luò)法的總體精度分別為58.59%和61.89%。加入人群活動(dòng)的時(shí)空分布特征后,總體精度分別提高至75.32%和75.56%。再加入用戶(hù)活動(dòng)主題特征后,總體精度分別可達(dá)81.55%和82.65%。結(jié)果表明,社會(huì)感知數(shù)據(jù)可輔助用于城市土地利用分類(lèi)。其中,社交媒體數(shù)據(jù)中隱含的用戶(hù)活動(dòng)時(shí)空特征可顯著提高住宅用地、商務(wù)辦公用地、商業(yè)服務(wù)用地和文化設(shè)施用地的分類(lèi)精度,社交媒體文本中隱含的用戶(hù)活動(dòng)主題特征對(duì)區(qū)分政府機(jī)關(guān)用地、教育用地、交通運(yùn)輸用地和醫(yī)療衛(wèi)生用地有一定幫助。隨機(jī)森林法和BP神經(jīng)網(wǎng)絡(luò)法在本研究區(qū)域均能較好地融合不同數(shù)據(jù)特征進(jìn)行城市土地利用分類(lèi),BP神經(jīng)網(wǎng)絡(luò)法的分類(lèi)精度略高,隨機(jī)森林法的時(shí)間復(fù)雜度低且模型的可解釋性強(qiáng)。同時(shí),還進(jìn)一步對(duì)比了不同特征組合模型的分類(lèi)效果變化情況,用于量化特征的重要度,所得結(jié)論可為其他類(lèi)似城市的土地利用分類(lèi)研究做參考。
本文創(chuàng)新性地將自然語(yǔ)言處理技術(shù)中的主題概率模型遷移至城市土地利用分類(lèi)中,設(shè)計(jì)了一種從推特文本中提取與城市土地利用類(lèi)型相關(guān)的語(yǔ)義信息方法。將與推特文本相似的Foursquare評(píng)論文本作為推文的參照,用監(jiān)督主題模型Labeled-LDA從發(fā)布的推特文本中提取用戶(hù)正在進(jìn)行的活動(dòng)類(lèi)型信息。實(shí)驗(yàn)結(jié)果表明,該方法考慮了相同類(lèi)型地塊可能存在多種主題類(lèi)別的推特,刪除了不能體現(xiàn)地塊功能類(lèi)型的無(wú)關(guān)推特,有效地提取了推特文本中與用戶(hù)活動(dòng)類(lèi)型相關(guān)的主題信息。
城市建筑通常具有混合社會(huì)經(jīng)濟(jì)功能,本研究雖然對(duì)研究區(qū)域政府提供的稅收地塊進(jìn)行了細(xì)致分割,但仍存在一些混合功能類(lèi)型的建筑物。未來(lái)可結(jié)合其他高精度室內(nèi)定位數(shù)據(jù)做進(jìn)一步研究,或者為建筑物分配多個(gè)類(lèi)型標(biāo)簽,構(gòu)建分類(lèi)模型。另外,本文不涉及社交媒體的用戶(hù)屬性信息,如用戶(hù)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和用戶(hù)標(biāo)簽,該類(lèi)特征對(duì)城市土地利用類(lèi)型分類(lèi)精度的影響尚待進(jìn)一步研究。
[1] 王協(xié),章孝燦,蘇程. 基于多尺度學(xué)習(xí)與深度卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像土地利用分類(lèi)[J]. 浙江大學(xué)學(xué)報(bào)(理學(xué)版), 2020, 47(6): 715-723. DOI:10.3785/j.issn.1008-9497.2020.06.009
WANG X, ZHANG X C, SU C, et al. Land use classification of remote sensing images based on multi-scale learning and deep convolution neural network[J]. Journal of Zhejiang University (Science Edition), 2020, 47(6): 715-723. DOI:10.3785/j.issn.1008-9497.2020.06.009
[2] 周珂,楊永清,張儼娜,等. 光學(xué)遙感影像土地利用分類(lèi)方法綜述[J]. 科學(xué)技術(shù)與工程, 2021, 21(32): 13603-13613. DOI:10.3969/j.issn.1671-1815.2021. 32.001
ZHOU K, YANG Y Q, ZHANG Y N, et al. Review of land use classification methods based on optical remote sensing images[J]. Science Technology and Engineering, 2021, 21(32): 13603-13613. DOI:10. 3969/j.issn.1671-1815.2021.32.001
[3] JOZDANI S E, JOHNSON B A, CHEN D. Comparing deep neural networks, ensemble classifiers, and support vector machine algorithms for object-based urban land use/land cover classification[J]. Remote Sensing, 2019, 11(14): 1713. DOI:10.3390/rs11141713
[4] LI X T, HU T Y, GONG P, et al. Mapping essential urban land use categories in Beijing with a fast area of interest (AOI)-based method[J]. Remote Sensing, 2021, 13(3): 477. DOI:10.3390/rs13030477
[5] LIU Y, LIU X, GAO S, et al. Social sensing: A new approach to understanding our socioeconomic environments[J]. Annals of the Association of American Geographers, 2015, 105(3): 512-530. DOI:10.1080/00045608.2015.1018773
[6] 陳子龍,王芳,李少英,等. 基于多源數(shù)據(jù)的縣域主導(dǎo)功能類(lèi)型劃分及其空間結(jié)構(gòu)模式識(shí)別[J]. 地球信息科學(xué)學(xué)報(bào), 2021, 23(12): 2215-2231.
CHEN Z L, WANG F, LI S Y, et al. Classification of county leading function types and pattern recognition of its spatial structure based on multi-source data[J]. Journal of Geo-Information Science, 2021, 23(12): 2215-2231.
[7] JIANG Y Q, HUANG X, LI Z L. Spatiotemporal patterns of human mobility and its association with land use types during COVID-19 in New York city[J]. ISPRS International Journal of Geo-Information, 2021, 10(5): 344. DOI:10.3390/ijgi10050344
[8] KOZLOWSKA A, STEINNOCHER K. Urban activity detection using geo-located Twitter data[J]. GI_Forum, 2020, 2020(8): 15-31.
[9] IRANMANESH A, C?MERT N Z, HO?KARA ? ?. Reading urban land use through spatio-temporal and content analysis of geotagged Twitter data[J]. GeoJournal, 2021: 1-18. DOI:10.1553/giscience2020_01_s15
[10]王潤(rùn)澤,周鵬,潘悅,等. 基于大數(shù)據(jù)的城市功能區(qū)人口時(shí)空聚散模式研究[J]. 地理與地理信息科學(xué), 2022, 38(1): 45-50. DOI:10.3969/j.issn.1672-0504. 2022.01.007
WANG R Z, ZHOU P, PAN Y, et al. Study on spatiotemporal aggregation and dispersion patterns of population in different urban functional areas based on big data[J]. Geography and Geo-Information Science, 2022, 38(1): 45-50. DOI:10.3969/j.issn. 1672-0504.2022.01.007
[11]YIN J J, CHI G Q. Characterizing people's daily activity patterns in the urban environment: A mobility network approach with geographic context-aware twitter data[J]. Annals of the American Association of Geographers, 2021, 111(7): 1967-1987. DOI:10.1080/24694452.2020.1867498
[12]CHEN B, XU B, GONG P. Mapping essential urban land use categories (EULUC) using geospatial big data:Progress, challenges, and opportunities[J]. Big Earth Data, 2021, 5(3): 410-441. DOI:10.1080/24694452.2020.1867498
[13]ZHAI W, BAI X Y, SHI Y, et al. Beyond word2vec: An approach for urban functional region extraction and identification by combining place2vec and POIs[J]. Computers, Environment and Urban Systems, 2019, 74: 1-12. DOI:10.1016/j.compenvurbsys.2018.11.008
[14]ANDRADE R, ALVES A, BENTO C. POI mining for land use classification: A case study[J]. ISPRS International Journal of Geo-Information, 2020, 9(9): 493.
[15]吳琳琳,李曉燕,毛德華,等. 基于遙感和多源地理數(shù)據(jù)的城市土地利用分類(lèi)[J]. 自然資源遙感, 2022, 34(1): 127-134. DOI:10.6046/zrzyyg.2021061
WU L L, LI X Y, MAO D H, et al. Urban land use classification based on remote sensing and multi-source geographic data[J]. Remote Sensing for Natural Resources, 2022, 34(1): 127-134. DOI:10. 6046/zrzyyg.2021061
[16]TIAN H C, ZHANG M, LUO X Y, et al. Twitter user location inference based on representation learning and label propagation[C]// Proceedings of the Web Conference 2020. New York: Association for Computing Machinery, 2020: 2648-2654. DOI:10. 1145/3366423.3380019
[17]H?BERLE M, WERNER M, ZHU X X. Geo-spatial text-mining from Twitter: A feature space analysis with a view toward building classification in urban regions[J]. European Journal of Remote Sensing, 2019, 52(supp2): 2-11. DOI:10.1080/22797254.2019.1586451
[18]FALCONE D, MASCOLO C, COMITO C, et al. What is this place? Inferring place categories through user patterns identification in geo-tagged tweets[C]// 6th International Conference on Mobile Computing, Applications and Services. Austin: IEEE, 2014: 10-19. DOI:10.4108/icst.mobicase. 2014.257683
[19]CUI R H, AGRAWAL G, RAMNATH R. Tweets can tell: Activity recognition using hybrid long short-term memory model[C]// Proceedings of the 2019 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. Vancouver: Association for Computing Machinery, 2019: 164-167.
[20]LEE K, GANTI R K, SRIVATSA M, et al. When twitter meets foursquare: Tweet location prediction using foursquare[C]// Proceedings of the 11th International Conference on Mobile and Ubiquitous Systems: Computing, Networking and Services. London: ICST, 2014: 198-207.
[21]HALIMI A, AYDAY E. Profile matching across online social networks[C]// International Conference on Information and Communications Security. Copenhagen: Springer, 2020: 54-70.
[22]RAMAGE D, HALL D, NALLAPATI R, et al. Labeled LDA: A supervised topic model for credit attribution in multi-labeled corpora[C]// Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. Singapore: Association for Computational linguistics, 2009: 248-256. DOI:10.5555/1699510.1699543
[23]王瑞,龍華,邵玉斌,等. 基于Labeled-LDA模型的文本特征提取方法[J]. 電子測(cè)量技術(shù), 2020, 43(1): 141-146. DOI:10.19651/j.cnki.emt.1903246
WANG R, LONG H, SHAO Y B, et al. Text feature extract method based on Labeled-LDA mode[J]. Electronic Measurement Technology, 2020, 43(1):141-146. DOI:10.19651/j.cnki.emt.1903246
[24]QUERCIA D, ASKHAM H, CROWCROFT J. TweetLDA: Supervised topic classification and link prediction in twitter[C]// Proceedings of the 4th Annual ACM Web Science Conference. 2012: 247-250. DOI:10.1145/2380718.2380750
[25]朱曉霞,寧曉剛,王浩,等. 高精度地表覆蓋數(shù)據(jù)優(yōu)化分割的土地利用分類(lèi)[J]. 測(cè)繪科學(xué), 2021, 46(6): 140-149.
ZHU X X, NING X G, WANG G, et al. Land use classification for optimization segmentation based on high-precision land cover data[J]. Science of Surveying and Mapping, 2021, 46(6): 140-149.
[26]李敏,劉國(guó)棟,譚凌. 基于隨機(jī)森林的土地利用分類(lèi)與景觀格局分析[J]. 地理空間信息, 2022, 20(2): 51-56. DOI:10.3969/j.issn.1672-4623.2022.02.010
LI M, LIU G D, TAN L. Land use classification and landscape pattern analysis based on random forest method[J]. Geospatial Information, 2022, 20(2): 51-56. DOI:10.3969/j.issn.1672-4623. 2022.02.010
[27]段宇英,湯軍,劉遠(yuǎn)剛,等. 基于隨機(jī)森林的山西省柳林縣黃土滑坡空間敏感性評(píng)價(jià)[J]. 地理科學(xué), 2022, 42(2): 343-351.
DUAN Y Y, TANG J, LIU Y G, et al. Spatial sensitivity evaluation of loess landslide in Liulin county, Shanxi based on random forest[J]. Scientia Geographica Sinica, 2022, 42(2): 343-351.
[28]靖娟利,劉兵,徐勇,等. 基于多特征融合的反向傳播神經(jīng)網(wǎng)絡(luò)高分影像分類(lèi)與變化檢測(cè)[J]. 科學(xué)技術(shù)與工程, 2021, 21(36): 15378-15385.
JING J L, LIU B, XU Y, et al. High-resolution remote sensing image classification and change detection based on back propagation neural network with multi-feature fusion[J]. Science Technology and Engineering, 2021, 21(36): 15378-15385.
[29]張貝娜,馮震華,張豐,等. 基于時(shí)空多視圖BP神經(jīng)網(wǎng)絡(luò)的城市空氣質(zhì)量數(shù)據(jù)補(bǔ)全方法研究[J]. 浙江大學(xué)學(xué)報(bào)(理學(xué)版), 2019, 46(6): 737-744. DOI:10. 3785/j.issn.1008-9497.2019.06.016
ZHANG B N, FENG Z H, ZHANG F, et al. Urban air quality data completion method based on spatio-temporal multi-view BP neural network[J]. Journal of Zhejiang University (Science Edition), 2019, 46(6): 737-744. DOI:10.3785/j.issn.1008-9497. 2019.06.016
[30]SANDRI M, ZUCCOLOTTO P. A bias correction algorithm for the Gini variable importance measure in classification trees[J]. Journal of Computational and Graphical Statistics, 2008, 17(3): 611-628. DOI:10.1198/106186008X344522
[31]ALTMANN A, TOLO?I L, SANDER O, et al. Permutation importance: A corrected feature importance measure[J]. Bioinformatics, 2010, 26(10): 1340-1347. DOI:10.1093/bioinformatics/btq134
Integrating remotely sensed and social sensed data for urban land use classification
WU Yuwen1,2, LIN Jie1,2
(1,,310027,;2,310027,)
Traditional land use classification methods are mostly based on labor-intensive interpretation of image, which have certain limitations. In recent years, integrating big data and natural language processing technology to carry out low-cost and rapid land resource management has become a hot issue. Take Manhattan as an example, this paper studies the urban land use classification based on remotely sensed and social sensed data. The spectral features of remotely sensed image, the spatiotemporal pattern of twitter user trajectory and the latent topics of tweet content related to user activity are extracted. Two common classification methods, random forest and deep neural network, are applied to construct urban land use classification models. The highest accuracy is obtained by deep neural network method based on remotely sensed and social sensed data, with overall accuracy at 82.65%, and Kappa at 70.1%. The results show that both spatiotemporal and textual features extracted from social sensed data are of great importance in urban land use classification. And deep neural network can integrate information from multi-source data, which provides a potential way for effectively classifying urban land use with open-source data.
land use classification; remotely sensed; social sensed; random forest; deep neural network
P 237
A
1008?9497(2023)01?083?13
2021?12?08.
國(guó)家自然科學(xué)基金資助項(xiàng)目(41501423).
吳郁文(1996—),ORCID:https://orcid.org/0000-0002-8726-6287,女,碩士,主要從事時(shí)空地理數(shù)據(jù)分析與建模研究.
通信作者,ORCID:https://orcid.org/0000-0003-4106-7474,E-mail:jielin@zju.edu.cn.