魏姍姍,王 揚(yáng),徐 暢,王 琳
(1.山東省交通科學(xué)研究院,山東 濟(jì)南 250031;2.北京工業(yè)大學(xué),北京 100124)
隨著中國(guó)智慧城市建設(shè)的不斷推進(jìn)以及人口老齡化問(wèn)題的日益突出,對(duì)城市精細(xì)化規(guī)劃、治理,以及更好地為老年人提供社會(huì)服務(wù)都提出了新的挑戰(zhàn)。傳統(tǒng)上獲取城市人口空間分布結(jié)構(gòu)的方法主要是人口普查,而基于常住人口或戶(hù)籍人口的人口普查數(shù)據(jù)不但收集、更新成本高,而且普查間隔較長(zhǎng),僅能代表調(diào)查地區(qū)某一時(shí)間段的靜態(tài)人口數(shù)據(jù),不能表示潛在的人口數(shù)及實(shí)時(shí)的動(dòng)態(tài)人口數(shù)據(jù),已經(jīng)不能滿(mǎn)足智慧城市發(fā)展的需求。大數(shù)據(jù)分析不僅對(duì)城市管理者制定政策和規(guī)劃具有指導(dǎo)意義,而且可以為市民的日常出行或其他活動(dòng)提供更優(yōu)質(zhì)的服務(wù)。手機(jī)數(shù)據(jù)因其覆蓋人群廣、范圍大,持續(xù)性強(qiáng),并且能實(shí)時(shí)定位等特點(diǎn)被廣泛應(yīng)用。
相關(guān)研究表明手機(jī)數(shù)據(jù)在增強(qiáng)城市管理的創(chuàng)新應(yīng)用方面的適用性[1]。由于手機(jī)數(shù)據(jù)具有定位功能,可以根據(jù)手機(jī)數(shù)據(jù)推斷用戶(hù)的出行信息,研究居民的出行行為[2]。雖然手機(jī)數(shù)據(jù)在用戶(hù)出行相關(guān)方面的研究眾多,但是目前利用手機(jī)數(shù)據(jù)評(píng)估人口數(shù)量及識(shí)別特定人群的研究較少。因此,研究基于手機(jī)數(shù)據(jù)識(shí)別老年人群的方法,旨在未來(lái)的人口統(tǒng)計(jì)和城市規(guī)劃中,有可能使用手機(jī)數(shù)據(jù)進(jìn)行補(bǔ)充甚至替代人口調(diào)查,進(jìn)一步提高城市服務(wù)水平。
常用的手機(jī)數(shù)據(jù)可分為兩大類(lèi):一是基于手機(jī)內(nèi)置傳感器的數(shù)據(jù),二是基于蜂窩網(wǎng)絡(luò)的手機(jī)信令數(shù)據(jù)。采用數(shù)據(jù)為北京市基于蜂窩網(wǎng)絡(luò)的中國(guó)移動(dòng)手機(jī)信令數(shù)據(jù)。數(shù)據(jù)主要包括的字段見(jiàn)表1,每個(gè)手機(jī)號(hào)都有唯一標(biāo)識(shí)碼IMSI,數(shù)據(jù)中包含數(shù)據(jù)上傳時(shí)間、地點(diǎn)、觸發(fā)的基站名稱(chēng)、蜂窩編號(hào)、所處的交通小區(qū)以及觸發(fā)事件的類(lèi)型。
表1 通訊詳單數(shù)據(jù)各字段
通過(guò)定位技術(shù)采集到的手機(jī)數(shù)據(jù)由于傳輸或其它干擾因素,會(huì)存在噪音數(shù)據(jù),因此,需要對(duì)其進(jìn)行質(zhì)量控制,剔除“噪聲”數(shù)據(jù)。對(duì)于基于蜂窩網(wǎng)絡(luò)的定位數(shù)據(jù),噪聲數(shù)據(jù)主要包括重復(fù)數(shù)據(jù)和“乒乓數(shù)據(jù)”兩類(lèi)。
重復(fù)數(shù)據(jù)是指所有字段完全相同的兩條或兩條以上記錄數(shù)據(jù),對(duì)于重復(fù)數(shù)據(jù)只保留一條數(shù)據(jù)記錄,重復(fù)的記錄進(jìn)行刪除處理。針對(duì)重復(fù)數(shù)據(jù)的處理步驟:(1)根據(jù)所有字段,找到所有字段相同的記錄數(shù)據(jù);(2)針對(duì)Step1 得到的記錄數(shù)據(jù),根據(jù)用戶(hù)識(shí)別碼(IMSI)和時(shí)間字段(TIME),每個(gè)用戶(hù)在相同的時(shí)間僅保留一條記錄,刪除其它重復(fù)的記錄。
“乒乓數(shù)據(jù)”是指由信號(hào)漂移導(dǎo)致的錯(cuò)誤定位數(shù)據(jù),表現(xiàn)為在很短的時(shí)間內(nèi),手機(jī)信號(hào)從臨近基站切換到相對(duì)較遠(yuǎn)的基站,在一段時(shí)間后又切回到臨近基站。由于信號(hào)突然切換到較遠(yuǎn)的基站,位置變動(dòng)過(guò)大,這種數(shù)據(jù)可以根據(jù)設(shè)置速度閾值vmax,然后根據(jù)數(shù)據(jù)中前后三條數(shù)據(jù)之間的距離權(quán)重比f(wàn),進(jìn)行進(jìn)一步判斷。針對(duì)“兵乓數(shù)據(jù)”的處理步驟:(1)設(shè)初始值n=2,順序選取用戶(hù)IMSI中第n-1、n、n+1 三條數(shù)據(jù);(2)根據(jù)時(shí)間和經(jīng)緯度信息計(jì)算兩相鄰記錄之間的移動(dòng)速度vn;(3)設(shè)置速度閾值,vmax=100 km/h,若vn>vmax,則判定n為“兵乓數(shù)據(jù)”;(4)在上述情況下,計(jì)算n-1、n、n+1 相鄰三條記 錄之間 的距離差分別為△dn-1,n、△dn+1,n,f為兩個(gè)距離差的比值。判斷當(dāng)f>3 時(shí),則判定n為“兵乓數(shù)據(jù)”;(5)刪除上述不符合條件的數(shù)據(jù)。
按照上述的數(shù)據(jù)處理方法,可以得到高質(zhì)量、較為完整的手機(jī)信令數(shù)據(jù)。手機(jī)數(shù)據(jù)質(zhì)量控制流程見(jiàn)圖1。
圖1 手機(jī)數(shù)據(jù)質(zhì)量控制流程
以北京市為例,2019 年常住人口2 153.6 萬(wàn)人,外來(lái)人口數(shù)量也十分巨大,人口流動(dòng)性較大。北京市老年人口比例逐年增加,常住人口中60 歲及以上人口占比高達(dá)28.6%[3]。
北京市共有基站約1.4 萬(wàn)個(gè),六環(huán)以?xún)?nèi)的主城區(qū)基站分布更加密集,交通小區(qū)劃分更加精細(xì),且道路網(wǎng)密度較高,見(jiàn)圖1。
圖2 北京市基站及六環(huán)以?xún)?nèi)交通小區(qū)和路網(wǎng)分布
由于手機(jī)數(shù)據(jù)的隱私性要求,一般用于研究的手機(jī)信令數(shù)據(jù)會(huì)對(duì)用戶(hù)的姓名、年齡等私密信息進(jìn)行脫敏處理,所以無(wú)法直接通過(guò)手機(jī)信令數(shù)據(jù)得到用戶(hù)的年齡數(shù)據(jù)。要想通過(guò)手機(jī)信令數(shù)據(jù)識(shí)別老年人群,首先要找到典型的老年人行為特征,并且通過(guò)手機(jī)數(shù)據(jù)展現(xiàn)這些行為特征。
相關(guān)研究表明不同年齡的人群在出行距離、出行方式、出行次數(shù)等方面存在很大差異[4-5]。由于老年人已經(jīng)退休,并且身體狀況可能不佳,所以老年人更傾向于使用當(dāng)?shù)卦O(shè)施,從事非工作活動(dòng),這些特殊性導(dǎo)致老年人的出行和需求與一般人群有很大不同[6]。相關(guān)研究發(fā)現(xiàn)老年人出行的目的主要是休閑和購(gòu)物,出行方式以步行、公交和自行車(chē)為主[5]。盡管家庭中小汽車(chē)擁有量逐年上升,但是老年人因身體原因開(kāi)車(chē)的比例相對(duì)較少[6]。
常用的城市交通出行方式有步行、自行車(chē)、電動(dòng)車(chē)、公交車(chē)、地鐵、出租車(chē)、私家車(chē)、通勤班車(chē)等。將其歸類(lèi)為步行,非機(jī)動(dòng)車(chē)(自行車(chē)、電動(dòng)車(chē))和機(jī)動(dòng)車(chē)(公交、地鐵、出租車(chē)、私家車(chē)、通勤班車(chē))三類(lèi)出行方式,基于手機(jī)信令數(shù)據(jù)進(jìn)行出行方式辨識(shí)研究。
在出行特征調(diào)查中,調(diào)查了居民的出行次數(shù)、出行方式、每次的出行距離等信息。出行方式的調(diào)查日期為工作日,本次調(diào)查共發(fā)放402 份,有效份數(shù)310 份。
經(jīng)過(guò)對(duì)調(diào)查結(jié)果進(jìn)行統(tǒng)計(jì)分析發(fā)現(xiàn),老年人群和非老年人群在出行方式、出行次數(shù)及出行距離方面有明顯的差異,見(jiàn)圖3 ~圖5。數(shù)據(jù)結(jié)果顯示:老年人群1 d 出行次數(shù)主要集中在≤2 次或3 ~4 次,出行方式中步行和非機(jī)動(dòng)車(chē)占比高達(dá)80%,而且超過(guò)80%的老年人群?jiǎn)未巫畲蟪鲂芯嚯x≯3 km。而非老年人群的平均出行次數(shù)明顯高于老年人群,出行方式以機(jī)動(dòng)車(chē)為主,最大出行距離也明顯高于老年人群,超過(guò)60%的非老年人群出行距離≥5 km。
圖3 老年人群和非老年人群1 d 出行次數(shù)
圖5 老年人群和非老年人群出行距離
圖4 老年人群和非老年人群出行方式
綜合分析,把出行次數(shù)、出行方式以及出行距離作為主要出行特征來(lái)進(jìn)行老年人群識(shí)別。其中,出行方式的差異可以體現(xiàn)在不同交通方式的出行速度不同,因?yàn)槭謾C(jī)信令數(shù)據(jù)可以通過(guò)出行中的起始時(shí)間和距離估算出出行速度,所以可以根據(jù)劃分速度閾值的方法對(duì)出行方式進(jìn)行判別。
調(diào)查研究發(fā)現(xiàn)[7]:步行出行的平均出行速度范圍:0 ~5 km/h;自行車(chē)出行的平均出行速度范圍:5 ~15 km/h;公交車(chē)出行的平均出行速度范圍:10 ~20 km/h;小汽車(chē)出行的平均出行速度范圍:15 ~40 km/h;地鐵出行的平均出行速度范圍:10 ~30 km/h。結(jié)合以往居民出行調(diào)查的研究經(jīng)驗(yàn),設(shè)定的出行方式和出行速度的對(duì)應(yīng)關(guān)系見(jiàn)表2。
表2 出行方式和速度對(duì)照
用戶(hù)的出行次數(shù)和每次出行距離可以通過(guò)手機(jī)信令數(shù)據(jù)獲取,相關(guān)研究已經(jīng)比較成熟,具體方法在此處不贅述。
由于生活習(xí)慣的不同,非老年人群和老年人群可能在通話(huà)特征上存在差異,以問(wèn)卷的形式調(diào)查了居民的通話(huà)特征,包括工作日通話(huà)次數(shù)、周末通話(huà)次數(shù)、通話(huà)高峰時(shí)段等信息。
通過(guò)對(duì)問(wèn)卷結(jié)果的統(tǒng)計(jì)分析發(fā)現(xiàn),老年人群及非老年人群在工作日通話(huà)次數(shù)、周末通話(huà)次數(shù)、通話(huà)高峰時(shí)段方面存在明顯差異,分析結(jié)果見(jiàn)圖6 ~ 圖8。
圖6 通話(huà)次數(shù)(工作日)
圖7 通話(huà)次數(shù)(周末)
圖8 老年人群和非老年人群通話(huà)高峰時(shí)段
數(shù)據(jù)結(jié)果顯示:大多數(shù)老年人群在工作日通話(huà)次數(shù)≤2 次,最大≤5 次,在周末的通話(huà)次數(shù)也是以≤2 次為主,工作日通話(huà)高峰時(shí)段在07 00—11 00和11 00—15 00 的人數(shù)居多。而非老年人群在工作日和周末的通話(huà)次數(shù)都要明顯高于老年人群,并且非老年人群在周末的通話(huà)次數(shù)要略低于工作日的通話(huà)次數(shù)。在通話(huà)高峰時(shí)段方面,非老年人群主要集中在07 00—11 00 以及15 00—19 00 時(shí)段,并且有些非老年人群的通話(huà)高峰時(shí)段在23 00 以后。把工作日通話(huà)次數(shù)、周末通話(huà)次數(shù)以及通話(huà)高峰時(shí)段作為主要的通話(huà)特征來(lái)進(jìn)行老年人群識(shí)別。
老年人群和非老年人群在出行特征及通話(huà)特征方面存在明顯差異,以出行特征(出行次數(shù)、出行方式、最大出行距離)和通話(huà)特征(工作日通話(huà)次數(shù)、周末通話(huà)次數(shù)、通話(huà)高峰時(shí)段)為分類(lèi)特征,基于樸素貝葉斯分類(lèi)技術(shù),提出了基于手機(jī)信令數(shù)據(jù)的老年人群識(shí)別方法,具體流程見(jiàn)圖9。
圖9 基于貝葉斯分類(lèi)的老年人群識(shí)別流程
以出行次數(shù)、出行距離、出行方式、周末通話(huà)次數(shù)、工作日通話(huà)次數(shù)、通話(huà)高峰時(shí)段為特征屬性,選取調(diào)查樣本中310 個(gè)用戶(hù)的數(shù)據(jù),隨機(jī)抽取70%為訓(xùn)練數(shù)據(jù),其余為測(cè)試樣本,建成了樸素貝葉斯分類(lèi)器,并驗(yàn)證了其分類(lèi)精度。其分類(lèi)精度的混淆矩陣見(jiàn)表3,對(duì)測(cè)試樣本的分類(lèi)準(zhǔn)確性達(dá)到了91%。
表3 分類(lèi)器混淆矩陣分析結(jié)果
基于構(gòu)建的樸素貝葉斯分類(lèi)器,對(duì)北京市六環(huán)區(qū)域內(nèi),每個(gè)交通小區(qū)的老年人群進(jìn)行了識(shí)別。為驗(yàn)證識(shí)別結(jié)果的可靠性,根據(jù)人口統(tǒng)計(jì)數(shù)據(jù)對(duì)老年人群識(shí)別結(jié)果進(jìn)行了驗(yàn)證。人口統(tǒng)計(jì)數(shù)據(jù)是以街道為單位,每個(gè)街道包含多個(gè)交通小區(qū),而且可能包含交通小區(qū)的一部分,在進(jìn)行數(shù)據(jù)驗(yàn)證時(shí),當(dāng)某個(gè)交通小區(qū)的一部分屬于某街道時(shí),則按照屬于該街道這部分的面積占該交通小區(qū)總面積的比來(lái)計(jì)算落在該街道的人口數(shù)。因此,這種驗(yàn)證方式可能會(huì)存在一定的誤差。結(jié)合人口統(tǒng)計(jì)數(shù)據(jù),隨機(jī)選取了幾個(gè)典型地點(diǎn)分別進(jìn)行了驗(yàn)證,表4 列出了驗(yàn)證結(jié)果,平均百分誤差大約為31%。雖然平均由誤差左右,但所提出的基于手機(jī)數(shù)據(jù)識(shí)別老年人群的方法,相對(duì)于人口普查具有低成本和動(dòng)態(tài)估算等優(yōu)點(diǎn),適用于需要頻繁估計(jì)老年人口的場(chǎng)景。
表4 人口數(shù)量識(shí)別驗(yàn)證結(jié)果
基于傳統(tǒng)人口普查數(shù)據(jù)獲取成本高、耗時(shí)長(zhǎng)等不足,提出了一種可以通過(guò)挖掘手機(jī)信令數(shù)據(jù)中用戶(hù)出行和通話(huà)信息,進(jìn)行老年人群識(shí)別的方法,并通過(guò)實(shí)際統(tǒng)計(jì)數(shù)據(jù)驗(yàn)證了該方法的有效性。驗(yàn)證結(jié)果顯示,該方法在老年人群識(shí)別方面的準(zhǔn)確率在69%左右,盡管該識(shí)別方法存在一定誤差,但是可以作為傳統(tǒng)人口調(diào)查的補(bǔ)充,在城市精細(xì)化管理及提高老年人群服務(wù)水平等方面具有重要意義。