徐甜雨,趙學(xué)勝,陳芳馨,楊藝
(中國礦業(yè)大學(xué)(北京)地球科學(xué)與測繪工程學(xué)院,北京 100083)
人口與自然環(huán)境、社會發(fā)展息息相關(guān),是推動自然地理特征形成和社會發(fā)展的重要因素[1-2]。目前,各國獲取人口數(shù)據(jù)的主要途徑是人口普查,但人口普查數(shù)據(jù)在統(tǒng)計和應(yīng)用過程中存在以下局限性:①數(shù)據(jù)更新慢,大部分國家通常十年或更長時間進行一次人口普查;②數(shù)據(jù)較為粗糙,無法在更小尺度(行政單元內(nèi))反映人口空間分布特征[3];③人口普查數(shù)據(jù)與其他環(huán)境數(shù)據(jù)(例如空氣污染物,溫度等)結(jié)合比較困難,阻礙了人類與環(huán)境系統(tǒng)之間的跨學(xué)科研究[4]。人口空間化是解決上述問題的有效方法之一,它通過相關(guān)的模型或者算法,結(jié)合影響人口分布的影響因子對人口普查數(shù)據(jù)進行空間離散化處理[5],其結(jié)果能夠極大程度地解決人口統(tǒng)計數(shù)據(jù)在計算分析時的界線限制問題,目前在疾病風(fēng)險評估、人類健康適應(yīng)性政策和防災(zāi)減災(zāi)等領(lǐng)域得到了廣泛應(yīng)用[6-8]。
隨著遙感和地理信息技術(shù)的快速發(fā)展,人口空間化研究進入快速發(fā)展階段,陸續(xù)出現(xiàn)面積權(quán)重法、多因素融合法和遙感估算法等[5]。但由于區(qū)域差異,不同的方法模型有不同的適用范圍。為了提高人口空間化的精度,研究者們嘗試以分類分區(qū)的方式對研究區(qū)進行建模,例如田永中等[9]劃分了農(nóng)業(yè)生態(tài)區(qū);Wang等[10]、王明明等[11]按城鄉(xiāng)分區(qū)建模。這些研究通過分區(qū)建模有效提高了人口空間化的精度,但在各分區(qū)采用了相同的人口分布指標(biāo),未考慮人口分布指標(biāo)在不同地區(qū)的空間差異性,僅通過構(gòu)建不同的數(shù)學(xué)模型體現(xiàn)各分區(qū)的差異。因此,一些研究者嘗試在不同的分區(qū)采用不同的人口分布指標(biāo),例如在城鄉(xiāng)分別采取夜間燈光和土地利用數(shù)據(jù)作為建模指標(biāo)[12]。但隨著人口急劇增長,人口分布區(qū)域逐漸呈現(xiàn)多元化,僅針對城鄉(xiāng)分區(qū)的建模指標(biāo)優(yōu)化已無法滿足人口空間化研究的需要。其次,由于數(shù)據(jù)和尺度的限制,這些指標(biāo)優(yōu)化往往忽略了功能區(qū)之間人口分布的空間差異性。因此本文從分區(qū)指標(biāo)選擇、細(xì)化功能區(qū)人口差異方面展開對大區(qū)域多元分區(qū)指標(biāo)優(yōu)化的相關(guān)研究。
近幾十年夜間燈光數(shù)據(jù)被廣泛應(yīng)用于各項人口產(chǎn)品及研究模型中[13-15],但由于數(shù)據(jù)限制,基于夜間燈光統(tǒng)一建模容易造成高光地區(qū)人口被低估、弱光地區(qū)被高估的現(xiàn)象[16]。其次,隨著人口的急劇增長,人地關(guān)系愈發(fā)緊張,地形地勢逐漸成為影響人口分布的重要因素[17]。本文通過分析“一帶一路”沿線國家的地理特征,提出了以夜間燈光和坡度控制的4類地理分區(qū)模式,即高光平原區(qū)、高光丘陵區(qū)、弱光平原區(qū)和弱光丘陵區(qū),采用差異化構(gòu)建人口分布指標(biāo)、融合功能區(qū)人口指數(shù)等措施探討多元分區(qū)中人口分布指標(biāo)優(yōu)化的可行性。并以塔吉克斯坦為研究區(qū)生成空間分辨率為30 m的人口密度圖,進而與多分區(qū)單一指標(biāo)建模結(jié)果進行對比,以期驗證本文多元分區(qū)建模指標(biāo)優(yōu)化的可行性。
人口空間化主要包括多元分區(qū)、人口分布指標(biāo)優(yōu)化、構(gòu)建動態(tài)回歸模型以及空間化結(jié)果誤差分析4個步驟??傮w框架如圖1所示,其中RE為相對誤差(relative error,RE),NTL_POP和HSI_POP分別為基于夜間燈光和宜居指數(shù)的模擬結(jié)果,TJK_POP為基于本文模型獲得的塔吉克斯坦30 m人口分布圖。
圖1 建模流程Fig.1 Modeling process
本文參考卓莉等[18]的研究通過計算各市燈光面積占居住面積的百分比確定燈光分區(qū)的閾值,當(dāng)超過60%時,將該區(qū)域設(shè)為高光區(qū),反之則為弱光區(qū)。坡度閾值則通過房屋密度隨坡度變化的曲線確定,將房屋密度隨坡度增大逐漸減小時的節(jié)點作為坡度分區(qū)的閾值。將上述閾值確定的高光平原區(qū)、高光丘陵區(qū)、弱光平原區(qū)以及弱光丘陵區(qū)作為本文研究多元分區(qū)指標(biāo)優(yōu)化的基礎(chǔ)區(qū)域。
1.2.1 功能區(qū)人口指數(shù)
功能區(qū)決定了人口分布的種類及密度,例如機場、火車站主要以流動人口為主,而居住區(qū)主要為常住人口。但目前功能區(qū)的獲取主要依賴于興趣點(point of interest,POI)數(shù)據(jù),受數(shù)據(jù)限制,研究多局限于國內(nèi)北京、上海等一線城市[19-20]。其次,僅依靠數(shù)學(xué)模型體現(xiàn)各功能區(qū)人口空間差異,可能出現(xiàn)多重共線性問題,造成某些功能區(qū)人口出現(xiàn)負(fù)值的現(xiàn)象[16]。為細(xì)化人口在不同功能區(qū)的差異,削弱流動人口帶來的影響。本文基于10 m空間分辨率的地表覆蓋數(shù)據(jù),結(jié)合功能區(qū)的社會屬性,提出了功能區(qū)人口指數(shù)。
10 m分辨率地表覆蓋數(shù)據(jù)包含耕地、森林、草地、人造地表等10個一級類和坑塘、河渠等21個二級類,其中與人口分布密切相關(guān)的人造地表又被細(xì)分為房屋建筑區(qū)、交通、機場等7個二級類。本文基于人造地表的二級類將各分區(qū)劃分為居住區(qū)、工業(yè)區(qū)、交通以及其他4類,其中居住區(qū)主要以居民建設(shè)用地為主,工業(yè)區(qū)包括各類工廠、采礦、倉儲業(yè)用地,交通涵蓋機場、車站、港口等,其他則包含一些無法確定其社會屬性的區(qū)域,如獨立施工區(qū)等。統(tǒng)計各市總?cè)丝谂c上述各類功能區(qū)面積,在SPSS軟件中構(gòu)建人口與各功能區(qū)的偏相關(guān)性分析,將偏相關(guān)系數(shù)作為各功能區(qū)人口指數(shù)(λ)。
1.2.2 構(gòu)建多元分區(qū)人口分布指標(biāo)
1)高光平原區(qū)。該區(qū)地勢平坦,人口分布受地形地勢影響較弱,且夜間燈光表現(xiàn)良好,無光區(qū)域較少,因此,直接以夜間燈光作為該區(qū)域的人口分布指標(biāo)。
2)高光丘陵區(qū)。在高光平原區(qū)的基礎(chǔ)上融合了坡度因子,提出了改進的坡度夜間燈光指數(shù)(slope adjusted nighttime light index,SNTLI)。將該區(qū)域的坡度每隔2°進行重分類,統(tǒng)計各等級坡度中居住區(qū)的面積占比作為該等級坡度的權(quán)重,融合夜間燈光與坡度權(quán)重建立SNTLI,即
SNTLI=NTL·Wslope,
(1)
式中:NTL為夜間燈光;Wslope為坡度權(quán)重。
3)弱光平原區(qū)。該區(qū)夜間燈光值較小,人口分布受能源供應(yīng)、植被覆蓋等因素的影響較大,僅使用夜間燈光估計人口分布是不準(zhǔn)確的[13],因此本文選擇宜居指數(shù)(human settlement index,HSI)作為人口分布指標(biāo),HSI利用16 d MODIS影像增強植被指數(shù)(enhanced vegetation index,EVI)產(chǎn)品和NPP/VIIRS圖像計算得出,公式為:
(2)
式中:EVImax為2015年的12張16 d MODIS EVI復(fù)合圖像的最大圖像;NTLnor為NPP/VIIRS圖像的規(guī)范化DN值。
4)弱光丘陵區(qū)。考慮到地形地勢的影響,在弱光平原區(qū)的基礎(chǔ)上融合了坡度因子,參考Sun等[13]提出的坡度修正的人類宜居指數(shù)(slope adjusted human settlement index,SAHSI)作為該區(qū)域指示人口分布的指標(biāo),公式為:
SAHSI=HSI(1-Slopenor),
(3)
式中Slopenor為坡度除以90°進行歸一化處理后的值,單位為(°)。
每個分區(qū)內(nèi)部由于社會背景、生活方式的不同,人口分布仍存在差異,為保證模型應(yīng)用的精確度,在各分區(qū)內(nèi)根據(jù)人口與分布指標(biāo)的實際分布關(guān)系進行動態(tài)分區(qū),適當(dāng)調(diào)整各分區(qū)的建模系數(shù)。具體過程如下:
1)結(jié)合上文提出的各分區(qū)人口分布指標(biāo)、功能區(qū)人口指數(shù)與人口普查數(shù)據(jù)構(gòu)建各分區(qū)人口回歸模型,得到人口初步模擬結(jié)果,公式為:
(4)
式中:popi為第i分區(qū)的人口;ai為第i分區(qū)模型權(quán)重;indexij為第i分區(qū)內(nèi)第j類功能區(qū)的人口分布指標(biāo)數(shù)值;λj為第j類功能區(qū)的人口指數(shù)。
2)統(tǒng)計各分區(qū)內(nèi)各市人口普查數(shù)據(jù)與初步人口模擬結(jié)果的RE,公式為:
RE=(POPm-POPs)/POPs×100%,
(5)
式中:POPm為模擬人口;POPs為人口普查數(shù)據(jù)。
3)對于RE=0或分區(qū)內(nèi)城市數(shù)量低于樣本總數(shù)10%(本研究設(shè)定市域數(shù)量小于6個)的區(qū)域,保留原來的回歸模型,其余區(qū)域則根據(jù)RE<0和RE>0劃分為兩個子區(qū)域,進行二次建模,并將二次建模結(jié)果作為最終各分區(qū)的人口回歸模型。
分別采用相對誤差絕對值|RE|和平均相對誤差(mean relative error,MRE)評估人口密度估計的準(zhǔn)確性。MRE計算公式為:
(6)
式中n為參與建模的城市個數(shù)。
此外,為了體現(xiàn)本文人口分布指標(biāo)優(yōu)化的可行性,分別從整體和局部兩個方面對比分析了本文模擬結(jié)果與基于夜間燈光和HSI指數(shù)單一指標(biāo)模擬結(jié)果的差異。
塔吉克斯坦是位于中亞東南部的內(nèi)陸國家,全國共包括3個州、1個區(qū)、一個直轄市,共59個地級市,總?cè)丝诩s900萬,國土面積為14.31萬km2,西部和北部分別與烏茲別克斯坦、吉爾吉斯斯坦接壤,東鄰中國新疆,南接阿富汗(圖2)。塔吉克斯坦境內(nèi)山地和高原占90%,有“高山國”之稱。近些年隨人口的急劇增長,山地丘陵逐漸成為居住地的選擇。另外,塔吉克斯坦作為中國“陸上絲綢之路”的重要通道,是中國與歐洲和撒哈拉地區(qū)經(jīng)濟聯(lián)系的橋頭堡,具有重要戰(zhàn)略地位。
圖2 塔吉克斯坦共和國行政區(qū)劃示意圖Fig.2 Administrative divisions of the Republic of Tajikistan
研究所涉數(shù)據(jù)源如表1所示。為保證面積變形最小,將所有數(shù)據(jù)源統(tǒng)一為Albers等面積圓錐投影(中央經(jīng)線設(shè)置為E71°,兩條緯線分別設(shè)置為N37.41°和N40.35°),柵格數(shù)據(jù)重采樣至30 m空間分辨率,并使用塔吉克斯坦行政邊界矢量數(shù)據(jù)將所有柵格數(shù)據(jù)裁剪至研究區(qū)范圍。
表1 數(shù)據(jù)源列表Tab.1 List of data sources
根據(jù)閾值法將塔吉克斯坦劃分4類地理分區(qū),計算各功能區(qū)人口指數(shù)(表2),建立各分區(qū)人口與人口分布指標(biāo)之間的回歸模型,得到初步人口模擬結(jié)果。根據(jù)公式(5)計算4類分區(qū)的RE,對滿足動態(tài)分區(qū)條件的分區(qū)進行二次建模,經(jīng)統(tǒng)計高光平原區(qū)和高光丘陵區(qū)由于建模數(shù)量較少,因此保留初步回歸模型,分別為A1,A2區(qū)域,弱光平原區(qū)和弱光丘陵區(qū)中RE>0和RE<0的區(qū)域分別組成A3—A6子區(qū)域,進行二次建模。將具有最高方程擬合度(R2)的擬合曲線作為最終的人口密度模型(表3)。
表2 功能區(qū)人口指數(shù)Tab.2 Functional zone population index
表3 建模結(jié)果Tab.3 Modeling results
由于模型誤差的影響,每個行政單元的初始人口模擬值和實際人口統(tǒng)計值不一致,因此建立各分區(qū)的修正公式,對網(wǎng)格的初始模擬結(jié)果進行調(diào)整,最后將調(diào)整后的網(wǎng)格人口數(shù)轉(zhuǎn)換成30 m柵格數(shù)據(jù)。修正公式為:
(7)
式中:popij為第i個行政單元內(nèi)第j個網(wǎng)格的模擬人口數(shù)量;popij0為第i個行政單元內(nèi)第j個網(wǎng)格的初始人口數(shù)量;Pi0為第i個行政單元初始模擬人口統(tǒng)計值;Pista為第i個行政單元人口統(tǒng)計值。
塔吉克斯坦人口分布具有明顯的空間差異性,TJK_POP(圖3)顯示,塔吉克斯坦人口分布整體呈現(xiàn)西多東少的分布格局,西部有錫爾河、阿姆河、瓦赫什河等河流穿境而過,水資源豐富,并且地勢相對平坦,分布有瓦赫什谷地、費爾干納盆地等,人口密度較大,其中高人口密度主要分布于杜尚別、苦盞、庫爾干秋別、庫洛布等資源豐富、經(jīng)濟發(fā)達的城市。而中部和東部則主要以山地丘陵為主,海拔較高,河流較少,人口分布相對稀疏,例如塔吉克斯坦東部的戈爾諾—巴達赫尚州面積占全國的44.6%,而人口僅占2.4%;其次,4類分區(qū)人口模擬結(jié)果(圖4)顯示,高光區(qū)人口(圖4(a)和(b))與弱光區(qū)(圖4(c)和(d))人口分布具有明顯的密度差異。高光區(qū)人口分布以高密度人口為主,并且人口呈塊狀分布,人口密度高低與距市中心的距離在分布趨勢上呈現(xiàn)近似正比關(guān)系,市中心人口聚集度最高,向外圍逐漸減少。而弱光區(qū)人口密度較低,大部分區(qū)域人口密度低于5人/柵格,人口沿河流呈零星分布,總體為較為雜亂的分布格局。
圖3 塔吉克斯坦30 m人口分布圖(TJK_POP)Fig.3 Tajikistan 30 m population distribution map(TJK_POP)
(a)高光平原區(qū) (b)高光丘陵區(qū)
為體現(xiàn)本文多元分區(qū)指標(biāo)優(yōu)化的可行性,本文以|RE|和MRE為依據(jù),分別從整體和局部對比了TJK_POP與NTL_POP、HSI_POP的精度,并以高光平原區(qū)為例分析了功能區(qū)人口指數(shù)的可行性。
整體上TJK_POP相較于NTL_POP和HSI_POP精度有明顯改進。經(jīng)統(tǒng)計TJK_POP的MRE為22.57%,相較于NTL_POP和HSI_POP,精度分別提高了16.98%和10.39%。其次,根據(jù)TJK_POP |RE|分布圖(圖5)可知,TJK_POP中|RE|<10%的城市數(shù)量占25.4%,主要分布于中西部,72.89%的城市|RE|在[-30%,30%]以內(nèi),|RE|>50%的城市數(shù)量僅占11.9%,主要分布于戈爾諾—巴達赫尚州,造成該州誤差較大的原因主要是該區(qū)域人口分布零散,居民區(qū)面積較小,造成很多區(qū)域人口被忽略。由此可見本文針對多元分區(qū)的指標(biāo)優(yōu)化在塔吉克斯坦具有可行性。
圖5 TJK_POP |RE|分布圖Fig.5 Absolute value of relative error distribution
TJK_POP在4類分區(qū)的精度相較NTL_POP和HSI_POP均有不同程度的提升。4類分區(qū)|RE|對比圖(圖6)顯示:①在高光平原區(qū)和弱光平原區(qū),TJK_POP分別與NTL_POP和HSI_POP呈相似的誤差分布趨勢,但經(jīng)統(tǒng)計在上述區(qū)域分別有88.9%和73.9%的城市,TJK_POP的精度高于另外兩類模擬結(jié)果,而誤差偏高的區(qū)域主要是由于缺少詳細(xì)的行政區(qū)劃數(shù)據(jù)造成基于市級樣本統(tǒng)一構(gòu)建的功能區(qū)人口指數(shù)忽略了各市之間的差異,因此造成某些城市人口被誤估;②高光丘陵區(qū)TJK_POP的MRE經(jīng)統(tǒng)計為19.33%,其中各城市的|RE|均低于NTL_POP和HSI_POP,精度有明顯提升,由此可見,隨著地形地勢對人口分布影響力的增加,融合夜間燈光與坡度的人口分布指標(biāo)更適合高光丘陵區(qū)域的人口空間化研究。③在弱光丘陵區(qū),TJK_POP與NTL_POP和HSI_POP三者的MRE經(jīng)統(tǒng)計分別為24.97%,54.13%和35.51%,TJK_POP與HSI_POP的精度要遠優(yōu)于NTL_POP,由此可見HSI指數(shù)更適合該類型區(qū)域的人口空間化,并且TJK_POP相較于HSI_POP大部分區(qū)域誤差集中分布于[10%,30%]之間,精度更高。
(a)NTL_POP&TJK_POP
功能區(qū)人口指數(shù)反映了人口的實際分布情況,減少了流動人口導(dǎo)致的人口誤估問題。選擇高光平原區(qū)北部區(qū)域作為驗證區(qū),根據(jù)驗證區(qū)的功能區(qū)人口指數(shù)優(yōu)化對比圖(圖7)可以發(fā)現(xiàn),TJK_POP和NTL_POP整體呈相似的人口分布趨勢,人口均主要分布于居住區(qū),但TJK_POP展現(xiàn)了更符合實際情況的人口分布信息,例如TJK_POP的居住區(qū)人口密度更高,車站、工業(yè)區(qū)人口較為稀疏。造成這種分布的主要原因是通過融合功能區(qū)人口指數(shù),TJK_POP減少了機場、車站、工業(yè)區(qū)等功能區(qū)的經(jīng)濟活動、人口流動對人口分布的影響,降低了這些區(qū)域的人口權(quán)重,從而使人口更多地集中分布于人口統(tǒng)計的居住區(qū)。
(a)NTL_POP (b)TJK_POP (c)高光平原區(qū)功能區(qū)分布
分區(qū)建模已成為人口空間化研究的必要過程,本文以高光平原區(qū)、高光丘陵區(qū)、弱光平原區(qū)以及弱光丘陵區(qū)4類分區(qū)為基礎(chǔ),通過構(gòu)建功能區(qū)人口指數(shù)、選擇適宜指標(biāo)、結(jié)合樣本動態(tài)建模等措施對多元分區(qū)指標(biāo)優(yōu)化進行了系統(tǒng)的研究,并以“一帶一路”沿線國家—塔吉克斯坦為研究區(qū)模擬了2015年30 m人口分布圖。通過與人口普查數(shù)據(jù)、NTL_POP和HSI_POP進行對比,發(fā)現(xiàn)本文針對這4類分區(qū)的指標(biāo)優(yōu)化具有顯著的效果,基本可以滿足大區(qū)域人口空間化研究的需要。同時針對一帶一路沿線部分國家特征提出的多元分區(qū)以及指標(biāo)優(yōu)化方法也對一帶一路人口空間化研究具有重要的現(xiàn)實意義。
1)基于夜間燈光和坡度提出的4類地理分區(qū)涵蓋了影響人口分布的經(jīng)濟和自然因素,對“一帶一路”沿線大部分國家都具有參考意義,相應(yīng)的針對不同分區(qū)提出的人口分布指標(biāo)也為類似國家人口空間化研究提供了一類普適性指標(biāo),加強了中國對“一帶一路”沿線國家人口的了解,對促進共同發(fā)展、實現(xiàn)共同繁榮的合作共贏之路具有重要的現(xiàn)實意義[21]。
2)“一帶一路”連接國家眾多,各國人口空間分布不但在宏觀區(qū)域差異巨大,城市內(nèi)部差異也比較明顯,功能區(qū)人口指數(shù)的應(yīng)用體現(xiàn)了城市內(nèi)部的人口分布差異,減少了通勤、出行的流動人口對實際居住人口分布的影響。
但由于數(shù)據(jù)限制,本研究尚有如下不足,需要在后續(xù)研究中完善:
1)由于缺少塔吉克斯坦精細(xì)的行政矢量數(shù)據(jù),本文是基于市級行政區(qū)劃展開研究,因此造成部分區(qū)域誤差超過50%。在今后的研究中,可以考慮以更加精細(xì)的行政數(shù)據(jù)為基礎(chǔ),提高人口空間化的精度。
2)由于城市數(shù)量的限制,本文基于樣本動態(tài)分區(qū)僅是基于RE的正負(fù)進行了二次分區(qū),因此造成研究區(qū)中部分區(qū)域擬合效果較差,誤差較大的現(xiàn)象,在后續(xù)研究中,可以嘗試更為細(xì)致的動態(tài)分區(qū)。
3)本文主要集中于研究人口數(shù)量與自然經(jīng)濟要素的關(guān)系,沒有反映年齡、性別及人口流動等人口結(jié)構(gòu)空間特性,因此,在后續(xù)研究中可以基于本文將人口空間化研究擴展為性別、年齡空間化專題。