摘 要:近年來,失信被執(zhí)行人的數(shù)量和被執(zhí)行金額都有所增加,因此案件的有效執(zhí)行成為了影響社會(huì)穩(wěn)定的重要因素。法院也針對(duì)該現(xiàn)狀逐步完善了相關(guān)立法和條規(guī),加強(qiáng)了對(duì)失信被執(zhí)行人的懲治措施和追查力度。本文為了幫助法院提高找人的效率,提出了一種基于用戶社交網(wǎng)絡(luò)信賴度的居住地位置推測(cè)PLRU(Predict Location Based on the Reliability of Social-online Users)模型。本文根據(jù)失信被執(zhí)行人的在線社交歷史進(jìn)行相關(guān)社交用戶的信賴度估計(jì)及篩選,然后對(duì)選取的用戶 社交聊天文本有關(guān)居住地維度權(quán)重的內(nèi)容提取并進(jìn)行估計(jì)。最后,結(jié)合失信被執(zhí)行人歷史居住地的用戶畫像來篩選得到居住地預(yù)測(cè)范圍。
關(guān)鍵詞:在線社交;居住地預(yù)測(cè);信賴度模型
隨著移動(dòng)設(shè)備、無線網(wǎng)絡(luò)和社交網(wǎng)絡(luò)的飛速發(fā)展,以聊天為主的各種軟件成為社交必備。目前典型的有微信、QQ、Twitter、LINE等,在社交聊天的過程中,用戶會(huì)在其朋友圈、空間中分享有關(guān)他們活動(dòng)的地理位置信息,這使得地理位置數(shù)據(jù)逐漸成為一種質(zhì)量極高的信息資源。同時(shí)社交網(wǎng)絡(luò)不僅包括了傳播信息,還包括用戶行為。我們的社會(huì)活動(dòng)是在不斷地與他人聯(lián)系和互動(dòng)中形成,所以很多情況下人的行為只有在情景上下文中才能得到理解。因此本文假設(shè),若一名失信被執(zhí)行人在面對(duì)法院追查的情況下,最大概率行為的是向其好友尋求幫助。其中好友并不僅代表朋友,是指以聊天軟件為基礎(chǔ)得出的信賴值排名較高的用戶。本文基于用戶信賴度提出的PLRU模型主要分為三塊內(nèi)容:用戶信賴度賦值、本地詞語提取和歷史居住地用戶畫像。
一、問題描述
本文的研究目標(biāo)是利用與好友的社交內(nèi)容來預(yù)測(cè)失信被執(zhí)行人的未來居住地信息。主要有以下幾個(gè)目標(biāo):①如何通過社交網(wǎng)絡(luò)來準(zhǔn)確得到可靠的用戶信賴度權(quán)重;②如何利用好友社交互動(dòng)提高地理關(guān)鍵詞的準(zhǔn)確性;③對(duì)居住地信息的用戶畫像維度權(quán)重的準(zhǔn)確計(jì)算。
本實(shí)驗(yàn)以微信、QQ、Twitter和LINE為信息來源,對(duì)被研究對(duì)象的聊天軟件互動(dòng)信息進(jìn)行研究,并進(jìn)行聊天好友用戶進(jìn)行信賴度估計(jì),選取高信賴度的好友聊天內(nèi)容進(jìn)行地理關(guān)鍵詞提取構(gòu)建本地詞語。最后結(jié)合居住地用戶畫像的維度評(píng)分來確定居住預(yù)測(cè)地。本文的重點(diǎn)在于提取高質(zhì)量的地理詞文本,但前提是需要提高已收集到的資料中文本提取的有效性以及提取范圍的可靠性。因此,本文通過以用戶信賴度的計(jì)算為前提進(jìn)行數(shù)據(jù)前期處理,有效縮小提取范圍并在提高運(yùn)行效率。
二、基于社交聊天的用戶信賴度估計(jì)
面對(duì)龐大的聊天文本數(shù)據(jù),要想提高對(duì)聊天文本中地理信息的關(guān)鍵詞提取的運(yùn)行效率以及質(zhì)量,就須劃分出有效的數(shù)據(jù)集,準(zhǔn)確縮小查找范圍。所以本文提出以用戶信賴度為基礎(chǔ)對(duì)數(shù)據(jù)文本劃分,進(jìn)行有效的內(nèi)容查找提高執(zhí)行效率。在測(cè)算好友信任度時(shí),可分為直接好友與間接好友分別進(jìn)行測(cè)算。Yang等提出一種基于朋友信賴圈的社會(huì)化標(biāo)簽推薦算法,與Ma、Wang等人都是通過給不同的好友賦予不同的權(quán)重來計(jì)算用戶之間的信賴值;潘一騰等人則是提出了信任隱含相似度為基礎(chǔ)進(jìn)一步對(duì)信任度的評(píng)分進(jìn)行改進(jìn)。馮宇等人則是以社會(huì)學(xué)六度分割理論為基礎(chǔ),計(jì)算對(duì)用戶的信任度。這些對(duì)信賴強(qiáng)度進(jìn)行探索的工作,很好的挖掘了社交關(guān)系中的隱含信息,但不能很好的處理評(píng)分和信賴數(shù)據(jù)稀疏的情況。本文主要針對(duì)這些工作的以下兩個(gè)不足之處進(jìn)行改進(jìn),在信賴數(shù)據(jù)稀疏的情況下,也能得到有效的結(jié)果,并對(duì)每組用戶間的信賴強(qiáng)度綜合進(jìn)行考量。
首先根據(jù)社交聊天收集到的實(shí)驗(yàn)數(shù)據(jù),本文以對(duì)失信被執(zhí)行人的社交好友進(jìn)行信賴度進(jìn)行估計(jì)。以聊天的頻率、內(nèi)容及社交時(shí)間等進(jìn)行數(shù)據(jù)采集估計(jì),得出的信賴值為(0,1)。其中,好友分為直接好友與間接好友,分別對(duì)其進(jìn)行用戶信賴度的計(jì)算,對(duì)間接好友的不同路徑產(chǎn)生的信賴度進(jìn)行加和。在選取的樣本量較大的前提下,我們可以發(fā)現(xiàn)用戶的信賴度總評(píng)分隨好友量的增加呈半曲線性遞減。選取信賴度有效并評(píng)分較高的前n個(gè),作為有效的篩選結(jié)果。
三、基于語義的地理特征詞以及情感詞的提取
在傳統(tǒng)的本地詞語提取方式中,主要有LDA模型、TF-IDF算法和基于共現(xiàn)詞的關(guān)鍵詞提取算法等。劉江華提出了一種基于kmeans聚類算法和LDA主題模型的文本檢索方法及有效性驗(yàn)證,但是缺乏情感詞的提取,無法反映出對(duì)不同地理詞態(tài)度。和志強(qiáng)則對(duì)基于詞共現(xiàn)的關(guān)鍵詞提取算法研究與改進(jìn),提出了一種優(yōu)于TF-IDF的算法,不過也沒有對(duì)情感類詞的提取進(jìn)行優(yōu)化。本文利用一種以DBSCAN聚類算法為基礎(chǔ)結(jié)合LDA主題模型的DDA模型來對(duì)文本檢索來進(jìn)行本地詞語R的提取以及得到相關(guān)的情感詞Z來顯示相關(guān)的態(tài)度,來得到情感偏好的主要地理位置。首先從文本數(shù)據(jù)集中得到相關(guān)的文本數(shù)據(jù),然后利用通過設(shè)置鄰域半徑與密度閾值 DT, 將滿足領(lǐng)域半徑的點(diǎn)分類匯集成一個(gè)中心群,能有效得將密度距離外的點(diǎn)進(jìn)行除噪工作,其中與DT如下所示:
由于計(jì)算每份文檔中每個(gè)字詞的詞頻(Term Freqiency,TF)與計(jì)算字詞的特殊性所用的文檔頻率(Dociment Freqiency,DF)都會(huì)導(dǎo)致字詞的權(quán)重計(jì)算結(jié)果不同,為了解決文檔的篇幅對(duì)詞語權(quán)重計(jì)算的影響,以及在文檔內(nèi)容中被遺漏而導(dǎo)致缺失的詞語內(nèi)容,利用公式:
Wij是修正過后字詞fj在文章中的權(quán)重,tfij為詞于聊天內(nèi)容中出現(xiàn)的次數(shù),N為集合聊天文本數(shù),nj為的字母數(shù)。maxT為文件集合中擁有最大詞頻的字詞總數(shù)之詞頻數(shù),用來解決較高詞頻的問題
四、基于模糊綜合分析法的權(quán)重模型
經(jīng)過上述實(shí)驗(yàn)流程之后,我們可以根據(jù)篩選出的信任用戶,即本文稱為的好友及與其之間的聊天內(nèi)容計(jì)算得到失信被執(zhí)行人常出現(xiàn)并情感偏好的幾個(gè)主要地理位置,這將成為實(shí)驗(yàn)預(yù)測(cè)居住地范圍的重要位置。同時(shí),我們還需要查找失信被執(zhí)行人的歷史居住地資料,包括身份證地址、房產(chǎn)證地址、租賃信息地址以及淘寶收貨地等,對(duì)其躲藏前的常駐地的居住地信息進(jìn)行居住地用戶畫像刻畫。
本文將失信被執(zhí)行人的居住地的歷史用戶畫像維度定義為U,l為維度數(shù), ? ? ? ? ? ? ? ? ? ? ? ? ? 。杜德斌、張小玉等人大致都將影響因素分為房價(jià)、交通、環(huán)境、就業(yè)可達(dá)性、工作地、家庭生命周期、居民社會(huì)屬性和收入。本文結(jié)合眾多學(xué)者從年齡段、是否為外來人口等不同角度對(duì)影響居住區(qū)選擇的因素研究,采用模糊綜合分析法可以避免憑經(jīng)驗(yàn)進(jìn)行目標(biāo)選擇所固有的主觀性,使并購決策更加科學(xué)合理等。對(duì)U進(jìn)行服務(wù)設(shè)施、交通條施件、環(huán)境狀況、房價(jià)和歸屬感五個(gè)維度的權(quán)重計(jì)算。同樣的,我們將得到的情感詞語Z按照相同的分類準(zhǔn)則進(jìn)行以上五個(gè)維度的劃分,通過各自維度的詞數(shù) ? ? ? ? ? 與總維度詞數(shù)af的比值分別得到不同維度的詞頻率,即得
其中 代表在聊天內(nèi)容中展示出的對(duì)不同維度的敏感程度,敏感程度越高,其代表的WZn可靠性越高,再結(jié)合其歷史居住地得到的維度權(quán)重評(píng)分Wbn,可以利用附近或類似的居住地評(píng)估報(bào)告得到相關(guān)權(quán)重評(píng)分,進(jìn)行加權(quán)得到最終的權(quán)重Wn。按照我們得到的維度打分表,對(duì)已得到的幾個(gè)關(guān)鍵地理位置進(jìn)行打分,從而得到評(píng)分最高的地理位置,即最終居住地預(yù)測(cè)點(diǎn)。
五、結(jié)果分析
本文利用法院以往的歷史案例存檔數(shù)據(jù)進(jìn)行了相應(yīng)的實(shí)驗(yàn)檢測(cè)。其中,用到的相關(guān)案例中的中帶有位置的聊天內(nèi)容共有708920條數(shù)據(jù),占全部數(shù)據(jù)的33%。利用本文提出的PLRU模型,進(jìn)行大數(shù)據(jù)實(shí)驗(yàn),并將實(shí)驗(yàn)結(jié)果與Flap模型,UGC-LI模型進(jìn)行實(shí)驗(yàn)效果對(duì)比,發(fā)現(xiàn)結(jié)果的準(zhǔn)確率得到了提高,運(yùn)行時(shí)間也相比各縮減了20%與13%,有效驗(yàn)證了本模型對(duì)居住地預(yù)測(cè)的有效性。對(duì)比結(jié)果如下所示:
在實(shí)驗(yàn)結(jié)果中選取其中部分實(shí)驗(yàn)結(jié)果進(jìn)行準(zhǔn)確度的對(duì)比,發(fā)現(xiàn)本模型下的實(shí)驗(yàn)準(zhǔn)確度較高。同時(shí),以Flap模型和UGC-LI模型為基準(zhǔn)進(jìn)行PLRU模型執(zhí)行效率的對(duì)比,發(fā)現(xiàn)本實(shí)驗(yàn)?zāi)P偷膱?zhí)行效率也都有顯著的提升。
針對(duì)居住地不明的失信被執(zhí)行人,本文利用網(wǎng)絡(luò)社交聊天,提出了一種基于用戶社交網(wǎng)絡(luò)信賴度的居住地位置推測(cè)PLRU模型。該模型有效的融合了社交網(wǎng)絡(luò)中的用戶信賴度與地理位置頻率,在失信被執(zhí)行人的居住地位置推斷預(yù)測(cè)過程中,不僅考慮了用戶之間的信賴度與聊天情感詞,同時(shí)引進(jìn)了居住地用戶畫像,更具有針對(duì)性的對(duì)可能的居住地進(jìn)行位置點(diǎn)篩選,有效得提高了結(jié)果準(zhǔn)確性。在追蹤失信被執(zhí)行人的過程中,失信被執(zhí)行人的用戶好友會(huì)發(fā)布實(shí)時(shí)動(dòng)態(tài),這些動(dòng)態(tài)能幫助我們及時(shí)更新本地詞語庫,更具時(shí)效性。
參考文獻(xiàn):
[1]潘一騰,何發(fā)智,于海平.一種基于信任關(guān)系隱含相似度的社會(huì)化推薦算法[J].計(jì)算機(jī)學(xué)報(bào),2018,41(01):65-81.
[2]馮宇,李愛萍,段利國.融合社交關(guān)系和位置影響的地點(diǎn)推薦算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2018,39(09):2934-2940.
[3]劉江華.一種基于kmeans聚類算法和LDA主題模型的文本檢索方法及有效性驗(yàn)證[J].情報(bào)科學(xué),2017,35(02):16-21+26.
[4]和志強(qiáng),王麗鵬,張鵬云.基于詞共現(xiàn)的關(guān)鍵詞提取算法研究與改進(jìn)[J].電子技術(shù)與軟件工程,2018(01):144-146.
[5]杜德斌,崔裴,劉小玲.論住宅需求、居住選址與居住分異[J].經(jīng)濟(jì)地理,1996,16(1):82-90.
[6]張小玉,張志斌.蘭州市居民居住區(qū)位偏好研究[J].干旱區(qū)資源與環(huán)境,2015,29(05):36-41.
作者簡介:
傅揚(yáng)嵐,1996年6出生,女,漢族,浙江金華人,研究生在讀,浙江財(cái)經(jīng)大學(xué)會(huì)計(jì)學(xué)院。
(浙江財(cái)經(jīng)大學(xué) 浙江 杭州 ?310018)