• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于LBS簽到事件的數(shù)據(jù)挖掘研究

      2015-05-30 10:48:04黃喜發(fā)等
      軟件工程 2015年8期
      關(guān)鍵詞:數(shù)據(jù)挖掘社交用戶

      黃喜發(fā)等

      摘 要:隨著社會信息大爆炸和大量數(shù)據(jù)的產(chǎn)生,數(shù)據(jù)挖掘成了廣泛關(guān)注的話題。本文從Check-in簽到事件的數(shù)據(jù)出發(fā),回顧了基于LBS的數(shù)據(jù)分析和挖掘現(xiàn)狀。通過對Gowalla數(shù)據(jù)處理與分析,統(tǒng)計簽到事件的數(shù)據(jù)分布規(guī)律,分析用戶的簽到行為,發(fā)現(xiàn)Check-in的時間戳具有明顯的規(guī)律性,體現(xiàn)了人們的工作休閑活動特點,進一步探討了簽到數(shù)據(jù)在用戶的行為習(xí)慣分析及興趣發(fā)現(xiàn)等方面的應(yīng)用。

      關(guān)鍵詞:數(shù)據(jù)挖掘;地理位置服務(wù);簽到

      中圖分類號:TP311.52 文獻標識碼:A

      Abstract:Along with the social information explosion as well as the production of large amounts of data,data mining has become prevalent interest.This paper reviews the development and application of check-in data based on LBS.We draw check-in data statistical distribution and analyze users behavior based on Gowalla data processing and analysis.The conclusions based on experiment indicate that the obvious regularity of check-in time stamp reflects individual's work and leisure activities.In addition,the paper has also discussed how to utilize check-in data in the field of user's behavior analysis and interest discovery.

      Keywords:data mining;location-based service;check-in

      1 引言(Introduction)

      近年來,數(shù)據(jù)挖掘引起了學(xué)術(shù)界和產(chǎn)業(yè)界的極大關(guān)注,其主要原因是隨著社會發(fā)展產(chǎn)生的大量數(shù)據(jù),缺乏有效的利用,迫切需要從這些數(shù)據(jù)中發(fā)掘有用的隱含信息和知識。因此,在數(shù)據(jù)量飛速增長背景下,如何從大量數(shù)據(jù)中挖掘有用的信息是一個相當熱門的研究話題。

      目前,國外流行諸多基于Loction-base Service(LBS,基于地理位置服務(wù))服務(wù)的應(yīng)用軟件,例如Foursquare、Facebook、Twitter、Gowalla和Brightkite等。國內(nèi),也有互聯(lián)網(wǎng)公司開發(fā)基于位置的在線應(yīng)用,例如,騰訊QQ空間、微信朋友圈和陌陌等。這些軟件或者應(yīng)用程序能夠記錄用戶活動或者事件發(fā)生的地理位置信息,通過用戶分享將這些信息推送給朋友用戶。

      2 基于簽到數(shù)據(jù)分析的研究現(xiàn)狀(Review onanalysis based on check-in)

      Check-in是基于LBS的應(yīng)用服務(wù),它把分享的信息從虛擬世界延伸到現(xiàn)實,并且提供真正和參與者密切相關(guān)的有用信息,這使得LBS展現(xiàn)了其巨大的吸引力和潛在價值[1]。在簽到(Check-in)事件的分析應(yīng)用方面,有研究者在用戶價值理論的基礎(chǔ)上,融合技術(shù)接受模型,探討了用戶價值、感知易用性與服務(wù)體驗等因素對用戶持續(xù)使用意愿的影響進行了分析[2]?;贚BS的社交網(wǎng)絡(luò)用戶,是比較愿意分享簽到數(shù)據(jù)和自己的活動情況,并希望能通過簽到提高更好的服務(wù)體驗[3]。北京大學(xué)的陰紅志通過挖掘時間信息、空間信息以及時空信息,提出了一種結(jié)合上下文信息的用戶模型和推薦算法,用來改善社會化媒體中的推薦效果和提高用戶體驗水平[4]。武漢大學(xué)的曹勁舟還提出一種基于微博數(shù)據(jù)的方法,對其簽到事件的POI數(shù)據(jù)更新開展了研究工作[5]。基于位置簽到數(shù)據(jù)還被用于及時準確地獲取城市層次性空間知識,有學(xué)者提出了一種基于簽到屬性顯著度的差異,從位置簽到數(shù)據(jù)中提取城市分層地標的方法,從位置簽到數(shù)據(jù)中的簽到次數(shù)、簽到用戶數(shù)和用戶影響因子等方面,討論影響POI顯著度的因素[6]。胡慶武提出一種基于社交網(wǎng)絡(luò)位置簽到數(shù)據(jù)的城市熱點探測與商圈挖掘方法,對位置簽到數(shù)據(jù)進行了空間自相關(guān)檢驗,發(fā)現(xiàn)武漢市商圈分布與城市規(guī)劃商圈具有強相關(guān)性[7]。還有學(xué)者在傳統(tǒng)基于社交網(wǎng)絡(luò)的好友推薦算法的基礎(chǔ)上,結(jié)合用戶的歷史行為的GPS地理簽到信息,提出用戶社交位置距離的概念用于改善推薦效果[8]。

      本文針對國外基于LBS的社交網(wǎng)絡(luò)Gowalla的Check-in數(shù)據(jù)進行了深度挖掘和分析,探討了用戶的行為習(xí)慣及朋友關(guān)系發(fā)現(xiàn)等問題。

      3 基于Gowalla數(shù)據(jù)的統(tǒng)計分析(Statistical analysis on Gowalla)

      本文采用的Gowalla數(shù)據(jù)集,由斯坦福大學(xué)的研究學(xué)者從Gowalla網(wǎng)站爬取,并進行了初步整理,數(shù)據(jù)下載網(wǎng)址:http://snap.stanford.edu/data/loc-gowalla.html,數(shù)據(jù)以txt文件格式存放。每個基本數(shù)據(jù)項包含用戶ID,簽到時間,簽到經(jīng)緯度,簽到地點ID等數(shù)據(jù)項。

      3.1 數(shù)據(jù)預(yù)處理

      斯坦福大學(xué)公開的Gowalla數(shù)據(jù)集,文件較大,用MATLAB或者Java語言編程讀取,存在內(nèi)存溢出等問題。本文采用SQL語句讀取數(shù)據(jù)記錄存入MySQL數(shù)據(jù)庫。首先,在數(shù)據(jù)讀入后,刪除極個別可能出現(xiàn)重大誤差的數(shù)據(jù)。其次,根據(jù)預(yù)處理的數(shù)據(jù),編寫SQL語句命令進行分類統(tǒng)計,統(tǒng)計的結(jié)果導(dǎo)入Excel。然后,根據(jù)相關(guān)的數(shù)據(jù)分析結(jié)果和規(guī)律,可以進行相關(guān)的深度挖掘分析。

      預(yù)處理后的數(shù)據(jù),是對原數(shù)據(jù)的數(shù)據(jù)項進行了拆分,方便后期處理分析。數(shù)據(jù)包含字段:用戶ID、簽到時間、星期、時間點、緯度、經(jīng)度和地點編號。

      3.2 統(tǒng)計用戶的Check-in數(shù)的概率分布

      數(shù)據(jù)集合的概率分布統(tǒng)計,可以更直觀的了解整個數(shù)據(jù)大致分布和基本情況。先將所有的基本用戶數(shù)和用戶編號寫入數(shù)據(jù)庫的基本表,根據(jù)基本表統(tǒng)計簽到的數(shù)量及其概率分布,進一步可以得到每個簽到次數(shù)的分布。

      根據(jù)數(shù)據(jù)的分布可以得到散點圖如圖1所示。

      根據(jù)平均簽到次數(shù)對應(yīng)的人數(shù),可以計算出前面百分比量級的人平均Check-in次數(shù),如圖2所示。

      3.3 統(tǒng)計用戶在不同時段的簽到習(xí)慣

      通過統(tǒng)計用戶在每個小時的時間段內(nèi)的簽到次數(shù),如圖3所示,可以初步了解用戶的簽到習(xí)慣。

      從圖4的結(jié)果分析,白天簽到的地方有一定的聚集時間段,比如說黃昏的時候,簽到的人數(shù)比較多,即大多數(shù)用戶選擇簽到的時間。

      簽到高峰期在傍晚,可以推斷大多數(shù)人是在下班時間進行工作簽到,而簽到低谷在早晨,這與現(xiàn)實生活情況比較吻合,在早上剛起床的時間段內(nèi)簽到人數(shù)比較少,隨著時間推移,活動的人數(shù)逐漸增多,簽到數(shù)量也在逐漸增大。

      當然還可以按照月份統(tǒng)計,如圖5和圖6根據(jù)兩年內(nèi)(按照12個月統(tǒng)計)的簽到次數(shù)大致可以看出簽到次數(shù)在9月達到了簽到的高峰期,金秋9月天氣逐漸轉(zhuǎn)涼,正是出行的絕佳時機,大部分人選擇出行,并在出行的過程中簽到。

      3.4 根據(jù)簽到的地理位置分析用戶習(xí)慣

      根據(jù)簽到數(shù)據(jù)中的地理位置,按照地理的緯度將全球以南北回歸線和南北極圈做分割。將簽到地點大致分為三個板塊,即南北極圈內(nèi),回歸線到南北極圈之間,南北回歸線之間?;静僮魇沁x擇簽到地點在南極圈和北極圈內(nèi)的簽到用戶(即Check-in緯度大于66.5度或者小于-66.5度),具體分布詳見表格1。

      從表1結(jié)果分析,有1%的用戶在南北極圈里面進行過簽到,2%的用戶在南北回歸線之間簽過,說明這部分人具有探險精神,喜歡旅行與探險,并希望將自己獨特的簽到地點分享給他人,希望與周圍人分享自己的旅行路線。

      3.5 根據(jù)簽到的時間段統(tǒng)計和分析

      工作日和雙休日的簽到情況反映用戶的作息規(guī)律。在周一到周五的11:00—13:00時間段,即中午午休時間段,分析公共交通場所的簽到數(shù)據(jù),可以推斷出擁堵程度。根據(jù)統(tǒng)計的簽到分布規(guī)律,可以找出的工作地點周圍的交通樞紐地帶。

      因為周末可能有些人不上班,統(tǒng)計工作日比較有代表性。通過對排名的統(tǒng)計,可以推斷出在哪些交通樞紐比較擁擠。排名靠前的前三位詳見表2。

      4 基于統(tǒng)計數(shù)據(jù)的挖掘與分析(Data mining and analysis on statistical data)

      4.1 興趣相同朋友發(fā)現(xiàn)

      根據(jù)用戶的簽到地點的地理位置信息,分析地點的現(xiàn)實社會屬性,可以發(fā)現(xiàn)具有相同興趣的朋友。例如,在南極有簽到信息的用戶ID為117874,在2010-09-21T12:53:52Z到達某地(經(jīng)緯度為-90,-139.266667),記錄見下表3。

      然后根據(jù)簽到地點,查詢ID為33843的用戶在之前去過南極,他同用戶117874可能具有諸多相同興趣愛好,他們交流去南極的心得體會,并可以交朋友,分享經(jīng)驗等。

      在他到達南極的時候,可以根據(jù)簽到時間判斷是否有人跟他在同一天簽到的,如果有的話,且是同一天到達南極,可以聯(lián)系另一個人,共同探險,使得在南極這個氣候惡劣的地方能找到志趣相投的同伴。

      4.2 根據(jù)星期來推斷工作地點和休閑地點

      根據(jù)原始數(shù)據(jù)將簽到時間映射到的具體星期值,通過分析每個星期的簽到數(shù),結(jié)合相應(yīng)的信息,可以得出一個人基本的活動規(guī)律和生活圈子,以ID編號0的用戶為例。

      可以看到用戶0在地點420315(506 Congress Avenue、Austin、TX78701美國)簽到最多,然后根據(jù)地點編號420315找出所有在此處簽到的人。

      經(jīng)過對于之后的數(shù)據(jù)進行驗證,同樣在位置420315(506 Congress Avenue、Austin、TX78701美國)簽到的人有7、31、52、103749、10290、10300等。

      然而10152在420315處只簽到了1次,可以判斷出,0上班的公司的地點編號為420315,但是用戶10152到0的公司交流過,并在公司使用Gowalla簽到。

      而用戶66在420315處簽到次數(shù)為47次,并且是66簽到最多的地方,所以可以初步斷定用戶66和用戶0在同一棟辦公樓上班,極有可能就是同事,并且之間認識的可能性很大。

      5 結(jié)論(Conclusion)

      本文通過對簽到信息的分析,從數(shù)據(jù)上得到一些常規(guī)的統(tǒng)計信息,例如查看用戶簽到最多的地方,用戶簽到的時間、地點、頻率的統(tǒng)計,這些基本的統(tǒng)計有助于了解數(shù)據(jù)的總體分布情況。根據(jù)對Check-in的時間戳進行分析,發(fā)現(xiàn)簽到信息體現(xiàn)了人們的工作和休閑活動的規(guī)律特點。從多個用戶的共同簽到地點,可以推斷他們之間可能存在著共同的興趣和愛好。這些分析結(jié)果,可以為將來的用戶在指定旅行規(guī)劃路線時,進行個性化推薦奠定基礎(chǔ)。例如,在旅游出發(fā)前,查詢某旅游地點A信息,根據(jù)已有的好友中哪些已經(jīng)在A簽到過,從而進行推薦。還可以根據(jù)簽到的地點,得出可能的工作地點和家庭地點,從而推薦周邊餐廳或休閑場所等一系列信息。

      參考文獻(References)

      [1] 石安.切客盛行,誰將暢享LBS大餐?[J].軟件工程師,2010,(11):34-35.

      [2] 周永杰.LBS簽到服務(wù)中隱私關(guān)注及影響因素研究[D].大連海事大學(xué),2013:2-9.

      [3] 徐國虎,孫凌,許芳.網(wǎng)絡(luò)用戶移動簽到服務(wù)持續(xù)使用意愿研究[J].中南財經(jīng)政法大學(xué)學(xué)報,2013,(4):131-138.

      [4] 陰紅志.社會化媒體中若干時空相關(guān)的推薦問題研究[D].北京大學(xué),2014:6-12.

      [5] 曹勁舟,武紅宇.基于微博位置簽到數(shù)據(jù)的POI更新方法[J].地理空間信息,2013,11(2):15-18.

      [6] 王明,等.基于位置簽到數(shù)據(jù)的城市分層地標提取[J].計算機學(xué)報,2014,37(123):1-11.

      [7] 胡慶武,王明,李清泉.利用位置簽到數(shù)據(jù)探索城市熱點與商圈[J].測繪學(xué)報,2014,(3):314-321.

      [8] 劉乾.基于社交網(wǎng)絡(luò)和地理位置信息的好友推薦方法研究[D].浙江大學(xué),2013:16-21.

      作者簡介:

      黃喜發(fā)(1994-),男,本科生.研究領(lǐng)域:Web數(shù)據(jù)挖掘.

      劉興旺(1991-),男,碩士生.研究領(lǐng)域:機器學(xué)習(xí).

      孫 媛(1984-),女,碩士,實習(xí)研究員.研究領(lǐng)域:計算機輔助語料庫分析.

      徐 科(1981-),男,博士,講師.研究領(lǐng)域:機器學(xué)習(xí),社交網(wǎng)絡(luò).

      猜你喜歡
      數(shù)據(jù)挖掘社交用戶
      社交之城
      英語世界(2023年6期)2023-06-30 06:28:28
      社交牛人癥該怎么治
      意林彩版(2022年2期)2022-05-03 10:25:08
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      社交距離
      你回避社交,真不是因為內(nèi)向
      文苑(2018年17期)2018-11-09 01:29:28
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      關(guān)注用戶
      商用汽車(2016年11期)2016-12-19 01:20:16
      關(guān)注用戶
      商用汽車(2016年6期)2016-06-29 09:18:54
      關(guān)注用戶
      商用汽車(2016年4期)2016-05-09 01:23:12
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      会昌县| 泰宁县| 邵武市| 贺州市| 祁东县| 罗甸县| 宣汉县| 韩城市| 西和县| 凭祥市| 红河县| 沾益县| 澄城县| 辰溪县| 江门市| 广昌县| 二连浩特市| 吉水县| 木兰县| 时尚| 桐梓县| 兴仁县| 上蔡县| 安庆市| 玛纳斯县| 小金县| 亳州市| 永寿县| 金溪县| 甘德县| 蓝山县| 高青县| 西乌| 洞口县| 丰都县| 肇源县| 溆浦县| 巴塘县| 涿州市| 义乌市| 思南县|