曹勁舟,武紅宇
(1.武漢大學(xué) 遙感信息工程學(xué)院,湖北 武漢 430079)
基于微博位置簽到數(shù)據(jù)的POI更新方法
曹勁舟1,武紅宇1
(1.武漢大學(xué) 遙感信息工程學(xué)院,湖北 武漢 430079)
POI的現(xiàn)勢性對于位置服務(wù)至關(guān)重要,但傳統(tǒng)人工實地調(diào)查效率低,現(xiàn)勢性無法滿足需求。以當(dāng)前用戶參與數(shù)眾多的微博社交網(wǎng)絡(luò)為數(shù)據(jù)平臺,提出了一種基于微博位置簽到數(shù)據(jù)的POI更新方法。首先,對微博位置簽到數(shù)據(jù)進(jìn)行預(yù)處理,剔除語義與空間位置不一致的噪聲點,在此基礎(chǔ)上提出一種基于RANSAC算法的位置簽到數(shù)據(jù)集地理配準(zhǔn)方法,實現(xiàn)位置簽到數(shù)據(jù)與已有地理數(shù)據(jù)庫的可靠配準(zhǔn);然后,將位置簽到數(shù)據(jù)集與已有POI數(shù)據(jù)庫進(jìn)行空間分析與匹配建模,對匹配不成功的位置簽到數(shù)據(jù)進(jìn)行有效性驗證,提取有效新增數(shù)據(jù)入庫用以更新POI;最后,以武漢市的街旁網(wǎng)位置簽到數(shù)據(jù)進(jìn)行POI更新實驗,能夠有效地發(fā)現(xiàn)新增POI和消失POI,為POI快速高效更新提供了全新的方式。
POI;微博;位置簽到數(shù)據(jù);更新
隨著Web2.0技術(shù)的日益成熟和普及,LBS(location based service)成為當(dāng)下發(fā)展最為迅猛的科技應(yīng)用之一[1]。隨著LBS的快速發(fā)展,其對位置信息時效性的要求也越來越高。POI(point of interest)作為當(dāng)前位置信息的重要載體,其實時性、數(shù)據(jù)來源的可靠性和廣泛性直接影響LBS業(yè)務(wù)的發(fā)展。傳統(tǒng)POI更新主要采用人工現(xiàn)場采集再入庫的方法[2],不僅費時費力、效率低下,其現(xiàn)勢性也無法滿足位置服務(wù)應(yīng)用的整體需求。依靠互聯(lián)網(wǎng)信息的語義理解成為POI抓取和解析的一個新的研究方向[3],但由于網(wǎng)絡(luò)信息的復(fù)雜性以及地理信息以描述性的文字存儲,因此難以進(jìn)行批量化、規(guī)范化的提??;利用電信企業(yè)庫中客戶信息資源和地址庫中空間信息資源,通過地址匹配技術(shù)實現(xiàn)POI的自動匹配更新雖已有一定的成果,但是沒有提出更大眾化的方法,仍然無法解決POI的快速更新難題[4]。
微博位置簽到數(shù)據(jù)由用戶通過帶有GPS定位的移動智能終端上傳,具有數(shù)據(jù)量大、現(xiàn)勢性高、帶有社會化屬性等特點,是實現(xiàn)POI高效高質(zhì)更新的一種潛在可用數(shù)據(jù)源。本文以當(dāng)前用戶參與數(shù)眾多的微博社交網(wǎng)絡(luò)為數(shù)據(jù)平臺,提出了一種基于微博位置簽到數(shù)據(jù)的POI更新方法。
微博位置簽到數(shù)據(jù)涵蓋了更新POI所必需的全部信息,可以實現(xiàn)POI的快速、準(zhǔn)確更新,其技術(shù)流程圖如圖1所示。
圖1 POI更新流程圖
以微博位置簽到數(shù)據(jù)作為數(shù)據(jù)源,必須先對其進(jìn)行預(yù)處理,剔除語義與空間位置不一致的噪聲點;再將位置簽到數(shù)據(jù)和已有POI數(shù)據(jù)庫進(jìn)行空間分析和匹配建模,匹配不成功的即是POI原有庫中所不具備的數(shù)據(jù),可以作為潛在的POI更新數(shù)據(jù)源,通過對其進(jìn)行有效性驗證,提取有效新增數(shù)據(jù)入庫用以更新POI。
微博位置簽到數(shù)據(jù)是大眾自愿上傳的,存在精度不高、數(shù)據(jù)冗余和格式不正確等[5,6]。所以,必須先對數(shù)據(jù)進(jìn)行預(yù)處理,剔除一些沒有意義、關(guān)注人數(shù)很少或者信息缺失的點,合并大量重復(fù)的點,通過與已有POI數(shù)據(jù)集配準(zhǔn)以提高數(shù)據(jù)精度,降低數(shù)據(jù)冗余度,滿足POI更新的要求。
微博位置簽到數(shù)據(jù)預(yù)處理主要包括以下內(nèi)容:
1)設(shè)置簽到次數(shù)和人數(shù)的閾值,以篩選剔除如表1第1條這樣一些沒有意義或者簽到次數(shù)很少、關(guān)注度低的數(shù)據(jù)。
2)檢查數(shù)據(jù)的屬性信息是否齊全。對于缺失的信息,需建立一個標(biāo)準(zhǔn)格式對需要保留的數(shù)據(jù)按照標(biāo)準(zhǔn)格式進(jìn)行修改。表1中第2條數(shù)據(jù)名稱屬性指示不全,全稱應(yīng)為“武漢長江大橋”。
3)對于大量的重復(fù)簽到數(shù)據(jù)進(jìn)行合并處理。該操作可以利用POI數(shù)據(jù)字典與微博位置簽到數(shù)據(jù)進(jìn)行比對,將對應(yīng)于同一地理目標(biāo)的不同別名、俗稱與標(biāo)準(zhǔn)名稱進(jìn)行合并[7,8],如表1中第3~5條數(shù)據(jù)便是這種情況。
(2)對我國現(xiàn)行糧食政策和管理產(chǎn)生影響。一是完成糧食增產(chǎn)目標(biāo)的難度進(jìn)一步加大。我國在“十三五”期間制定的糧食核心區(qū)增長目標(biāo)是到2020年新增糧食產(chǎn)能1000億斤。在制定該規(guī)劃目標(biāo)時,糧食統(tǒng)計口徑包括了谷物、薯類和豆類。如果統(tǒng)計口徑調(diào)整后,特別是對于方案一而言,糧食增產(chǎn)的任務(wù)全部落到了谷物上,而2015年以來,全國谷物總產(chǎn)量一直處于下降趨勢,要完成增長目標(biāo)的難度較大。
表1 微博位置簽到數(shù)據(jù)預(yù)處理統(tǒng)計表
由于移動智能終端的定位存在一定的誤差,導(dǎo)致微博位置簽到數(shù)據(jù)與已有POI數(shù)據(jù)集在空間上存在一定的偏移,因此要先將微博位置簽到數(shù)據(jù)進(jìn)行地理配準(zhǔn)。本文采用RANSAC算法對位置簽到數(shù)據(jù)和對應(yīng)POI數(shù)據(jù)的仿射變換關(guān)系進(jìn)行估算。RANSAC算法通過對數(shù)據(jù)集重復(fù)取樣來獲得基本子集,利用基本子集估算模型[9]。它根據(jù)一個容許誤差將匹配點對分為內(nèi)點和外點,利用內(nèi)點數(shù)據(jù)進(jìn)行參數(shù)估計[10]。進(jìn)行數(shù)據(jù)擬合需限定可以確定模型所需的最小數(shù)據(jù)集合。本文采用仿射變換模型,求解6個參數(shù)至少需要4個點對:
1)從點對集S中隨機選取4個點對樣本,利用間接平差初始化仿射變換模型構(gòu)建8個方程求解6個未知參數(shù),并得到擬合的精度誤差。初始化模型設(shè)為最優(yōu)模型,初始誤差設(shè)為最小誤差。
2)設(shè)置迭代次數(shù)閾值N,最少內(nèi)點數(shù)閾值Z。從數(shù)據(jù)集中繼續(xù)隨機取出點對樣本,如果內(nèi)點條件閾值diserror小于預(yù)設(shè)閾值,則認(rèn)為該點對屬于內(nèi)點集Si;若Si的大小超過了閾值Z,則用Si重新估計模型參數(shù)。如果得到的新擬合誤差小于最小誤差,則把當(dāng)前內(nèi)點集Si設(shè)為最優(yōu)內(nèi)點集,由它估計的模型為最優(yōu)模型。
3)在經(jīng)過N次迭代后,由最優(yōu)的內(nèi)點集Si估算得到的即為最優(yōu)模型,輸出模型參數(shù)[11]。
為了確定可用于更新POI的潛在數(shù)據(jù)集,需要將微博位置簽到數(shù)據(jù)與現(xiàn)有POI數(shù)據(jù)庫進(jìn)行匹配,將匹配成功的微博簽到數(shù)據(jù)剔除掉,匹配失敗的數(shù)據(jù)即可作為潛在的可用于POI數(shù)據(jù)更新的數(shù)據(jù)集。
位置簽到數(shù)據(jù)匹配建模包括空間匹配與屬性匹配。屬性匹配建立在空間幾何匹配的基礎(chǔ)上。
1)空間匹配。通過空間分析確定每一個微博位置簽到數(shù)據(jù)與已有POI數(shù)據(jù)庫的空間匹配關(guān)系。以微博位置簽到數(shù)據(jù)為中心,通過設(shè)定一定的距離建立緩沖區(qū),將緩沖區(qū)與現(xiàn)有的POI數(shù)據(jù)進(jìn)行疊置分析,同時關(guān)聯(lián)相應(yīng)屬性表??紤]到可能存在多個微博位置簽到數(shù)據(jù)對應(yīng)同一POI數(shù)據(jù)點,使得緩沖區(qū)間有重合,此時不應(yīng)將緩沖區(qū)合并。
2)屬性匹配。將微博位置簽到數(shù)據(jù)與緩沖區(qū)里面已有的POI數(shù)據(jù)集的屬性信息進(jìn)行匹配,主要是指要素名稱的匹配。字符串的匹配是一種有效的方法,其思路是將待匹配的名稱和標(biāo)準(zhǔn)名稱均視為字符串,檢查待匹配字符串中的字符是否在對應(yīng)的標(biāo)準(zhǔn)字符串中出現(xiàn),出現(xiàn)的視為有效字符,未出現(xiàn)的視為無效字符,以有效字符與無效字符數(shù)量的比值和規(guī)定的閾值比較確定是否匹配成功。具體步驟如下:
②設(shè)定匹配閾值λ,與PS2S1相比較來判斷二者是否匹配。如果滿足式(4),則表示符合匹配條件:
③將微博位置簽到數(shù)據(jù)與其對應(yīng)的POI數(shù)據(jù)集都進(jìn)行匹配后,將符合式(3)的中的最大值所對應(yīng)的POI數(shù)據(jù)作為該微博位置簽到數(shù)據(jù)的匹配POI點;反之,則視為該微博位置簽到數(shù)據(jù)匹配失敗。
為了保證POI入庫數(shù)據(jù)的精度,必須對潛在POI數(shù)據(jù)進(jìn)行有效性驗證。POI更新主要基于2種原因:①原POI數(shù)據(jù)庫中沒有包含該地理目標(biāo),但該目標(biāo)已經(jīng)具備加入POI的條件,此時只需直接將位置簽到數(shù)據(jù)入庫存儲;②POI所對應(yīng)的地理目標(biāo)位置發(fā)生改變,此時需通過對位置簽到數(shù)據(jù)的簽到次數(shù)、簽到人數(shù)、時間標(biāo)簽等信息進(jìn)行統(tǒng)計分析以確定需要更改或刪除POI。通過對簽到次數(shù)與簽到人數(shù)的比進(jìn)行驗證,分析簽到次數(shù)的聚集程度,從而選擇符合要求的簽到數(shù)據(jù)作為合格的POI進(jìn)行更新。
本文使用式(5)作為判定條件:
式中,λtt12是新時序t2與舊時序t1之間的簽到次數(shù)增長率;Ct2與Ct1分別是新舊時刻的簽到次數(shù);|t2?t1|是時間跨度;ρ是簽到次數(shù)與人數(shù)的比值;C是簽到次數(shù);U是簽到人數(shù);T與T'是預(yù)設(shè)的閾值。
POI對應(yīng)的地理目標(biāo)位置發(fā)生改變后,利用舊地理目標(biāo)位置進(jìn)行簽到的會逐漸減少,而利用新地理目標(biāo)位置進(jìn)行簽到的會逐漸增多。通過對一定時間跨度的簽到數(shù)據(jù)進(jìn)行增長率的統(tǒng)計,即可以判斷原POI是否需要刪除以及新POI是否需要增加。
本實驗使用的數(shù)據(jù)街旁網(wǎng)2011年9月和10月2個時序的位置簽到數(shù)據(jù)集,覆蓋范圍包括整個武漢地區(qū)。數(shù)據(jù)的屬性信息主要包括名稱、簽到次數(shù)、簽到用戶數(shù)量、唯一標(biāo)示符、城市名以及經(jīng)緯度等。已有POI數(shù)據(jù)庫為2011年版四維圖新導(dǎo)航數(shù)據(jù),其屬性信息包括名稱、字大以及類型編碼等。
實驗采用微博位置簽到數(shù)據(jù)與已有POI數(shù)據(jù)名稱屬性完全匹配的188條數(shù)據(jù)進(jìn)行精度分析。在迭代次數(shù)設(shè)為20,判斷內(nèi)點條件閾值設(shè)為0.003,最少內(nèi)點數(shù)閾值設(shè)為100的情況下,提取出有效內(nèi)點集120條。對這120條數(shù)據(jù)按最優(yōu)仿射變換模型進(jìn)行變換,對變換前后的匹配點與對應(yīng)POI的距離偏差進(jìn)行統(tǒng)計,配準(zhǔn)后的距離偏差整體比配準(zhǔn)前要小,配準(zhǔn)后的偏差均值和標(biāo)準(zhǔn)差(見表2)也明顯減小,說明地理配準(zhǔn)使位置簽到數(shù)據(jù)的精度得到顯著提高,如圖2所示。
圖2 配準(zhǔn)前后簽到數(shù)據(jù)與對應(yīng)POI距離偏差統(tǒng)計
表2 配準(zhǔn)前后簽到數(shù)據(jù)與對應(yīng)POI的距離偏差均值和標(biāo)準(zhǔn)差/m
本實驗按照式(4)利用新時序2011年10月的簽到數(shù)據(jù)計算潛在更新POI的平均簽到增長率以及簽到聚集程度。閾值設(shè)定為簽到增長率0.3次/天,簽到聚集度10次/人。最后,統(tǒng)計出1 424條潛在更新POI可以入庫,更新率為31.1%。
新增POI空間分布和類型統(tǒng)計表可以體現(xiàn)不同區(qū)域、不同類別的發(fā)展?fàn)顩r[13]。由表3可以看出,餐飲行業(yè)因其流動性較大,地理位置容易發(fā)生變化,所以新增比例高;而政府機關(guān)不會經(jīng)常變化其地理位置,所以新增比例低。
表3 新增POI類型分布統(tǒng)計表
圖3 新增POI空間分布圖
由圖3可知,武漢地區(qū)新增POI集中于江岸區(qū)、光谷、武昌火車站以及長江大橋周邊等人流量大的繁華區(qū)域。圖4表示消失POI的空間分布,從圖中可以看出消失的POI數(shù)量相對較少,所占比例極低。
圖4 消失POI空間分布圖
傳統(tǒng)的POI獲取方式效率低,現(xiàn)勢性已無法滿足LBS的應(yīng)用需求。本文提出一種利用微博位置簽到數(shù)據(jù)作為數(shù)據(jù)源進(jìn)行POI更新的方法,通過對來自大眾自發(fā)上傳的、帶有位置信息的簽到數(shù)據(jù)的預(yù)處理和地理配準(zhǔn),并與已有的POI數(shù)據(jù)庫進(jìn)行匹配分析,能夠快速發(fā)現(xiàn)新增POI,找出已有數(shù)據(jù)庫中已經(jīng)消失的POI。通過對來自街旁網(wǎng)微博位置簽到數(shù)據(jù)集的POI更新實驗,結(jié)果表明,基于微博位置簽到數(shù)據(jù)的POI更新技術(shù)流程合理可行,微博位置簽到數(shù)據(jù)內(nèi)容類型豐富,屬性信息完整,在對定位偏差進(jìn)行改正后精度基本達(dá)到要求,進(jìn)行POI更新具有較高的可行性,具有廣泛的應(yīng)用前景。
[1] 梁力予,任露凌,萬艷華.“基于LBS的社交網(wǎng)絡(luò)”在城市公共空間管理與運營中的應(yīng)用[J].信息安全與技術(shù),2011(7):56-59
[2] 韓向春,呂艷霞.基于Wiki技術(shù)的Web GIS數(shù)據(jù)更新[J].計算機工程,2008,34(11):283-285
[3] Zhang H. Structed POI Data Extraction from Internet News [C].Beijing, 2010
[4] 戴冬冬.基于地址匹配方法的POI數(shù)據(jù)更新研究[J].電腦知識與技術(shù),2010,6(1):1-2
[5] Goodchild M F. Citizens as Sensors: the World of Volunteered Geography [J]. Geo Journal,2007(4): 211-221
[6] Goodchild M F, Glennon J A. Crowdsourcing Geographic Information for Disaster Response: A Research Frontier[J].International Journal of Digital Earth,2010, 3(3): 231-241
[7] 毋一舟,賴俊陶,吳煜暉.基于LBS簽到數(shù)據(jù)更新POI的數(shù)據(jù)預(yù)處理研究[J].計算機與數(shù)字工程,2010,40(8):87-88
[8] 杜萍,劉勇.基于本體的中文地名識別[J].西北師范大學(xué)學(xué)報:自然科學(xué)版,2011,47(6):87-93
[9] 單欣,王耀明,董建萍.基于RANSAC算法的基本矩陣估計的匹配方法[J].上海電機學(xué)院學(xué)報,2006,9(4):66-69
[10] 周劍軍,歐陽寧,張彤,等.基于RANSAC的圖像拼接方法[J].計算機工程與設(shè)計,2009,30(24):5 692-5 694
[11] 曲天偉,安波,陳桂蘭.改進(jìn)的RANSAC算法在圖像配準(zhǔn)中的應(yīng)用[J].計算機應(yīng)用,2010,30(7):1 849-1 851
[12] 李玉森,張雪英,袁正午.面向GIS的地理命名實體識別研究[J].重慶郵電大學(xué)學(xué)報:自然科學(xué)版,2008,20(6):719-724
[13] 趙衛(wèi)鋒,李清泉,李必軍.利用城市POI數(shù)據(jù)提取分層地標(biāo)[J].遙感學(xué)報,2011,15(5):973-988
[14] 王文韜,謝陽群.LBS與社交網(wǎng)絡(luò)聯(lián)合應(yīng)用的新模式研究[J].中國市場,2011(36):85-86
[15] 周春輝,朱欣焰,蘇科華,等.基于LBS的興趣點查詢與更新機制研究[J].微計算機信息,2009,25(7):143-145
Update Approach of POIs Based on Weibo Position Check-in Data
byCAO Jinzhou
The latest tendency of POI is critical for location-based services. The traditional POIs collecting based on on-the-spot investigation is inefficient. However, the fact is that it is unable to meet the demands of the location-based service applications. In this paper, a POIs update approach based on Weibo that involved the largest number users was proposed. Firstly, by preprocessing Weibo check-in data, coarse error points that were semantically and spatially inconsistent were removed, on the basis of which, a geo-referencing method based on Weibo check-in data in RANSAC algorithm was proposed for the purpose of fulfilling reliability of Weibo position checkin data with existing geo-database. Secondly, spatial analysis and matching modeling of check-in data set and the existing POIs database was implemented. After validation of unmatched data, extraction of valid new data as an updated POI into database was implemented.Finally, a POIs update experiment of Wuhan Jiepang position checkin data was implemented with the proposed approach. The experiment results show that the proposed approach can meet the requirements and effectively find new POIs and disappeared POIs. It provides a new way to update POIs quickly and efficiently and has a good prospect of application.
POI,Weibo,position check-in data,update
P208
B
1672-4623(2013)02-0015-04
10.11709/j.issn.1672-4623.2013.02.004
2012-12-17。
項目來源:國家自然科學(xué)基金資助項目(61172175)。
曹勁舟,主要從事3S集成與應(yīng)用研究。