• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于用戶畫像技術(shù)的大數(shù)據(jù)偵查:一個框架的分析與設(shè)計

    2022-08-06 08:47:12李亞可郭樓祿
    關(guān)鍵詞:畫像標簽用戶

    商 瀑,李亞可,郭樓祿

    (1. 廣東警官學院,廣東 廣州 510230;2. 廣東省江門市公安局,廣東 江門 529000)

    在互聯(lián)網(wǎng)、電子計算機與移動手機尚未普及之前,刑事“畫像”研究就一直是偵查學界的熱點話題[1],只不過以往的研究范疇僅限于犯罪現(xiàn)場地理畫像、犯罪心理畫像和犯罪人體貌特征畫像,而非基于企業(yè)用戶數(shù)據(jù)的數(shù)字畫像。隨著金融服務(wù)模式、社會交往平臺和大眾消費方式的轉(zhuǎn)變,很多公司在大數(shù)據(jù)基礎(chǔ)建設(shè)上投入大量精力,不僅做了大批的業(yè)務(wù)數(shù)據(jù)報表,而且專門搭建了用戶數(shù)據(jù)倉庫,以便對企業(yè)用戶進行屬性分析與行為習慣分析,進而形成本企業(yè)獨享的用戶畫像資料。從這一層面上講,在利用數(shù)據(jù)回溯社會成員及敏感群體的特征上,刑事警察往往只扮演了一小部分角色,因此有學者指出,用戶畫像方法雖起源于公安情報,但卻在電子商務(wù)領(lǐng)域得到了發(fā)展與壯大[2]?;谟脩糍~號注冊資料及每次點擊、訪問、收藏所留下來的數(shù)據(jù)痕跡,企業(yè)可以對用戶做全方位的個性分析,進而復現(xiàn)用戶的各類屬性,使企業(yè)用戶畫像的落地場景不斷增多,其中,對于異常用戶的識別與評估即是用戶畫像方法在刑事偵查領(lǐng)域最直接的應用體現(xiàn)。

    當我們邁入大數(shù)據(jù)時代,用戶行為給金融機構(gòu)、互聯(lián)網(wǎng)公司、電商平臺的產(chǎn)品與服務(wù)帶來了一系列的改變和重塑,反過來講,正因為它們的存在,企業(yè)用戶的消費行為、金融活動和人際關(guān)系在產(chǎn)品服務(wù)商面前都是可追溯分析的。產(chǎn)品與服務(wù)的提供方留存了海量的用戶數(shù)據(jù),其中不乏用戶的訪問日志、訂單表、搜索記錄等重要信息,這些數(shù)據(jù)不僅是產(chǎn)品服務(wù)方經(jīng)營活動狀況的真實反映,同樣也是用戶行為的歷史記錄與數(shù)字痕跡。當它們轉(zhuǎn)化為警務(wù)數(shù)據(jù)后,一方面可以通過權(quán)重計算來識別可疑用戶,進而幫助公安機關(guān)完成對高危人員的控制和犯罪風險的預警;另一方面,能夠拓寬涉案線索的來源,為偵查人員提供可資研判與刑事畫像的情報資料。為促進個人數(shù)據(jù)、信息的合理合法使用,我國于2021 年陸續(xù)出臺配套規(guī)定,例如《數(shù)據(jù)安全法》第35 條給予公安機關(guān)附條件的數(shù)據(jù)調(diào)取權(quán),《個人信息保護法》則通過第13 條第3 款與第35 條之規(guī)定,明確了國家機關(guān)在履行告知義務(wù)后的個人信息處理權(quán)。由此可見,在法定手續(xù)完備的情況下,偵查機關(guān)有權(quán)調(diào)查分析涉案人員電子信息,那么如何充分利用這部分數(shù)據(jù)資源挖掘犯罪嫌疑人也就成為大數(shù)據(jù)偵查的關(guān)鍵所在。大數(shù)據(jù)是警務(wù)改革的必要因素,推動著警務(wù)工作模式的深刻轉(zhuǎn)型,2021 年王小洪同志在《學習時報》發(fā)表署名文章指出,要推進大數(shù)據(jù)智能化建設(shè),以實戰(zhàn)為導向,在數(shù)據(jù)整合分析、平臺體系建設(shè)、深化智能應用上下功夫[3]。隨著偵查數(shù)字技術(shù)的深入研究和推進,偵查學界有必要將關(guān)注點逐步聚焦到“用戶數(shù)字畫像”上來,而要做到精準畫像,首要前提是引入圖書情報與電子商務(wù)領(lǐng)域的用戶畫像理論,并設(shè)計一個偵查專用的分析框架,本文旨在解決這些問題。

    一、關(guān)于用戶畫像分析框架的文獻綜述

    用戶畫像即用戶信息的標簽化,它是指通過收集電子產(chǎn)品用戶的多維度數(shù)據(jù)對用戶的行為特征屬性、社會特征屬性、自然特征屬性等加以刻畫,進而抽象出用戶的數(shù)據(jù)全貌[4]。當某一用戶的數(shù)據(jù)畫像與案件特征相匹配,抑或是在用戶群中出現(xiàn)了異常數(shù)據(jù),那么就形成了偵查工作的切入點,因此用戶畫像可以視為大數(shù)據(jù)偵查的基礎(chǔ),是對犯罪嫌疑人進行數(shù)據(jù)摸排的前置條件。用戶畫像與傳統(tǒng)的犯罪地理、心理畫像在原理上存在異同點:就共性而言,作為勾勒犯罪情境輪廓的偵查技術(shù),三者都是在整合碎片化涉案信息的基礎(chǔ)上形成的輔助性偵查技術(shù),是整體性思路與合成研判理念在刑事偵查中的分別體現(xiàn);就個性來講,用戶刑事畫像依靠的信息資源是用戶自覺生產(chǎn)的海量數(shù)據(jù),犯罪地理畫像的研判資料來源于犯罪現(xiàn)場中的空間信息和環(huán)境信息[5],犯罪心理畫像的運作基礎(chǔ)是偵查對象的外顯反應,即行為、語言與表情[6]。一些學者曾對此作出過解釋和說明,他們認為,刑事畫像的著力點隨犯罪客觀形勢的變遷而調(diào)整,在面對新型網(wǎng)絡(luò)犯罪時,傳統(tǒng)的心理、地理畫像無力應對,但用戶畫像技術(shù)因能充分發(fā)揮數(shù)據(jù)重組功能,從而具有廣泛的應用空間[7]。目前國內(nèi)外關(guān)于這一領(lǐng)域的框架研究,主要圍繞“用戶產(chǎn)品服務(wù)類型”“用戶數(shù)據(jù)標簽類型”“用戶畫像技術(shù)方法”三個維度展開。

    (一)基于產(chǎn)品服務(wù)類型的分析框架

    在通訊類服務(wù)數(shù)據(jù)的使用方面,David D S[8]認為,網(wǎng)絡(luò)犯罪給刑事執(zhí)法工作帶來了巨大挑戰(zhàn):一方面,網(wǎng)絡(luò)犯罪組織大多具有跨國性;另一方面,該類犯罪不會形成現(xiàn)場勘查所用到的物理空間,從而導致傳統(tǒng)意義上的犯罪畫像失去了研判基礎(chǔ),不過慶幸的是犯罪人一旦使用郵件、微博或即時聊天工具,那么通訊記錄將會在服務(wù)提供者的數(shù)據(jù)管理系統(tǒng)中留下足跡,企業(yè)就可以通過追溯用戶群體的行為屬性、活動場景、常駐城市、賬號活躍度和賬號生命周期,形成標簽化的用戶畫像,進而幫助警方識別數(shù)據(jù)異常人員,因此贏得互聯(lián)網(wǎng)公司的支持與犯罪偵查工作有著緊密的關(guān)系。隨著移動用戶市場的逐漸飽和,電子通信用戶的穩(wěn)定性成為精準畫像的基礎(chǔ),利用他們留下來的通訊數(shù)據(jù)生成用戶標簽,也已成為行業(yè)的共識。例如鄒小軍[9]以通信用戶資料表、使用信息表、費用信息表作為原始數(shù)據(jù),構(gòu)建了通訊用戶偏好畫像的框架體系,其中包括短信偏好、終端偏好、應用偏好、接觸偏好等七項指標;而尤明輝等[10]則是通過用戶通話聊天、文字聊天記錄來挖掘他們的性別、社交圈、心理狀況等特性。除此之外,微信作為一款風靡全球的移動即時通信軟件,對大數(shù)據(jù)背景下的刑事畫像工作同樣產(chǎn)生了影響。王彬[11]指出,用戶畫像能讓犯罪嫌疑人成為大數(shù)據(jù)背景下的透明人,畫像維度包括身份信息、行為軌跡、消費習慣、經(jīng)濟狀況、家庭關(guān)系、興趣愛好與人際交往;而張升魁[12]認為,警方可以使用微信聊天記錄構(gòu)建犯罪嫌疑人的用戶畫像,標簽框架是外貌特征信息、心理特征信息、社會交往信息和職業(yè)技能信息。

    在金融類服務(wù)數(shù)據(jù)的利用方面,楊曉梅[13]認為,互聯(lián)網(wǎng)金融數(shù)據(jù)總量的增加有利有弊:一方面,企業(yè)從中得到了充足的數(shù)據(jù)情報,降低了用戶畫像的資料獲取成本;另一方面,“數(shù)據(jù)噪音”的出現(xiàn)直接導致用戶信息聚類能力不斷下降,因此需要優(yōu)化金融用戶畫像框架。在她看來,金融用戶畫像的維度可以劃分為用戶信息特征、用戶金融行為特征和用戶收支特征。其他類型指標體系包括:魏雪嫻[14]總結(jié)得到的“人口屬性、金融業(yè)務(wù)屬性、關(guān)聯(lián)屬性、風險屬性、價值屬性以及行為屬性”框架;林杰等學者[15]提出的“自然屬性、社會屬性、經(jīng)濟屬性和資產(chǎn)屬性”框架;Gottschalk P[16]歸納而成的“賬戶注冊信息、金融交易信息、資金流向信息和持卡信息”框架。

    在購物和交通類產(chǎn)品服務(wù)數(shù)據(jù)的使用方面,Beck A[17]指出,技術(shù)創(chuàng)新的一個意料之外的后果是增加了犯罪機會,尤其是支付模式的改變對犯罪產(chǎn)生了潛在的影響,因此大中型企業(yè)有義務(wù)采取行動減輕此類技術(shù)所帶來的消極后果。例如幫助職權(quán)部門完成對犯罪嫌疑人消費記錄的畫像、協(xié)助警方精準分析特定人群的交通數(shù)據(jù)等。相關(guān)研究成果有:馬慶斌[18]的“線上商城購買記錄、網(wǎng)上二手市場消費記錄、BBS 論壇求購記錄、微商平臺搜索記錄”框架;盧泰宏[19]的“網(wǎng)頁瀏覽記錄、商品搜索記錄、帶貨視頻觀看記錄、網(wǎng)上支付記錄”四要素框架;Guarino S[20]針對用戶交通畫像提出的“交通軌跡數(shù)據(jù)、車牌信息、車輛基本信息、路段通行頻次、通行時間”框架。

    (二)基于用戶數(shù)據(jù)標簽類型的分析框架

    用戶畫像作為一種大數(shù)據(jù)處理方法,需要通過標簽開發(fā)幫助專業(yè)社會工作提高服務(wù)精度[21]。在大數(shù)據(jù)偵查中,要實現(xiàn)對偵查資源的有效整合,必須優(yōu)先構(gòu)建用戶的數(shù)據(jù)標簽體系,并不斷擴展標簽類型。“用戶畫像”一詞最早由“交互設(shè)計之父”阿蘭·庫柏(Alan Cooper)提出,他將其定義為真實用戶的數(shù)據(jù)表達[22]。隨后,Amato G[23]將“用戶畫像”進一步定義為基于數(shù)據(jù)標簽而形成的用戶形象集合,借助這些個性化的形象標簽,用戶的真實需求、日常偏好、個人興趣都會呈現(xiàn)出來。在國外,用戶畫像標簽化的定義帶來多類學科知識的更新,對于用戶畫像的研究被當作是與犯罪學、社會學、傳播學、警察學密切相關(guān)的理論視角。犯罪學將“用戶畫像”界定為“人物角色構(gòu)造”,它關(guān)注用戶群體的日常生活資料,并通過人物標簽的收集來評估個體犯罪的可能性[24]。社會學關(guān)注人物角色的發(fā)展生涯,Turner P 圍繞企業(yè)用戶數(shù)據(jù)分析了個人的成長環(huán)境與社群標簽[25]。傳播學將新聞受眾的形象解讀為用戶原型,注重從用戶的話語結(jié)構(gòu)中分析他們的姓名、面孔、興趣和偏好[26];警察學以警務(wù)水平的提升策略為研究重點,它將警察群體畫像作為改善警務(wù)工作的突破口,所用到的人物標簽包括警察個人在社區(qū)內(nèi)的形象、人物性格、工作經(jīng)歷以及生活閱歷[27]。

    在國內(nèi),用戶畫像標簽研究主要集中在情報學與圖書館學。王娜[28]將用戶畫像標簽劃分為用戶基本信息、用戶行為偏好信息和用戶情境信息;王凱[29]則在這一基礎(chǔ)上細化了用戶標簽,他以BBS 論壇的用戶信息為數(shù)據(jù)來源,將用戶自然屬性劃分為注冊ID、性別、年齡與論壇等級,用戶興趣屬性劃分為偏好版塊和偏好強度,用戶情境屬性劃分為網(wǎng)友關(guān)系、發(fā)帖主題、評論內(nèi)容以及關(guān)注對象。在圖書館學領(lǐng)域,于興尚[30]將用戶畫像的標簽體系解構(gòu)為用戶靜態(tài)屬性(姓名、年齡、教育層次、身份證號),用戶動態(tài)行為屬性(網(wǎng)頁瀏覽軌跡、頁面訪問時長、信息檢索時長),用戶交互屬性(互動點評、信息收藏、點贊記錄),用戶偏好屬性(檢索痕跡、購物習慣、下載記錄);而王麗艷[31]拓展了這一標簽體系,認為用戶數(shù)據(jù)標簽應該由“用戶基本屬性”“用戶行為屬性”“用戶社交屬性”“用戶情境屬性”“用戶信用屬性”組成。在偵查學領(lǐng)域,由于精準的用戶畫像能夠為犯罪調(diào)查提供有價值的方向和線索,因此部分學者也對此展開了研究:諸如李蘊怡[32]從犯罪地理畫像出發(fā),將用戶數(shù)據(jù)地理標簽劃分為地理興趣點、活動軌跡與高頻停駐點;蔡藝生等[33]通過整合偵查對象數(shù)據(jù)信息,形成了一個包含偵查對象基本屬性、行為特征、心理特征、社會標識的多維度標簽體系。

    (三)基于用戶畫像方法的分析框架

    研究者對于用戶畫像方法的采用主要取決于用戶數(shù)據(jù)的類型[34]。國內(nèi)外關(guān)于用戶畫像技術(shù)的研究分為四個方面:其一是基于聚類方法的用戶行為畫像。在國內(nèi),吳寒[35]使用非商業(yè)化的數(shù)據(jù)挖掘工具分析了網(wǎng)絡(luò)用戶購物偏好、購物周期與操作規(guī)律;安璐[36]則通過聚類方法對恐怖主義事件情境下的微博用戶行為進行了對比分析。在國外,Godoy D[37]將聚類法作用于網(wǎng)頁痕跡數(shù)據(jù)來挖掘用戶的瀏覽偏好;而Iglesias J A 等[38]采用數(shù)據(jù)聚類方法刻畫了用戶群體行為畫像以分析目標之間的關(guān)聯(lián)。其二是基于關(guān)聯(lián)規(guī)則的用戶社交網(wǎng)絡(luò)關(guān)系畫像。賈志娟等[39]將社會網(wǎng)絡(luò)分析法運用于微博數(shù)據(jù)挖掘,并以此找出微博中潛在的詐騙團體;李曉丹[40]使用關(guān)聯(lián)規(guī)則分析了微信用戶線上和線下兩個維度的社會交往關(guān)系;而鄧智龍等[41]通過挖掘Web 數(shù)據(jù)以發(fā)現(xiàn)目標用戶偏好與社區(qū)群體興趣之間的關(guān)聯(lián)。在國外,基于關(guān)聯(lián)規(guī)則的用戶畫像研究主要集中在社交關(guān)系挖掘方面。例如Hulst R[42]將關(guān)聯(lián)規(guī)則視為用戶畫像技術(shù)與刑事偵查互通的橋梁,利用這一畫像方法能夠挖掘犯罪人員的社會資本關(guān)系;Schwartz D M[43]認為關(guān)聯(lián)規(guī)則能夠幫助警方摸清特殊用戶群體的社會網(wǎng)絡(luò)結(jié)構(gòu)和內(nèi)部組織結(jié)構(gòu)。其三是基于分類方法的用戶興趣挖掘。吳樹芳等[44]認為用戶興趣不是固定不變的,它具有時空性,可以分為歷史偏好和偏好轉(zhuǎn)移;吳劍云[45]則將用戶興趣細化為職業(yè)偏好和日常生活偏好;此外,部分學者以微博用戶作為分析對象,將用戶偏好分類為個體偏好和群體偏好[46]。其四是基于協(xié)同過濾方法的用戶畫像,協(xié)同過濾是指利用目標用戶所在群體的屬性特征來模擬成員個人的數(shù)字畫像。張濤等[47]以用戶群體的網(wǎng)頁瀏覽記錄作為研判數(shù)據(jù),運用協(xié)同過濾方法刻畫了目標用戶畫像;Nilashi[48]則根據(jù)小眾群體內(nèi)相似成員的交通數(shù)據(jù)和運動軌跡對目標用戶的地理位置進行精準畫像。

    綜上所述,在用戶畫像數(shù)據(jù)類型方面,主要包括通訊類服務(wù)數(shù)據(jù)、金融類服務(wù)數(shù)據(jù)、購物和交通類產(chǎn)品服務(wù)數(shù)據(jù);在用戶畫像的標簽類型方面,具體分為自然屬性標簽、行為屬性標簽、消費屬性標簽與社會關(guān)系標簽;在用戶畫像數(shù)據(jù)處理方法上,主要有數(shù)據(jù)聚類、標簽分類、關(guān)聯(lián)規(guī)則和協(xié)同過濾?;仡櫖F(xiàn)有文獻資料,還可以發(fā)現(xiàn)用戶畫像在不同領(lǐng)域的融合程度存在顯著差異:一方面是該技術(shù)在圖書館學、情報學、電子商務(wù)等領(lǐng)域的廣泛落地;另一方面是面對偵查需求時,表現(xiàn)出的應用維度過于單一、標簽設(shè)計不夠全面等難題。因此,既要拓展用戶畫像應用場景,將其延伸至偵查學領(lǐng)域,也要結(jié)合偵查活動內(nèi)容,充分開發(fā)企業(yè)的用戶數(shù)據(jù)標簽,進而提高用戶畫像的精準性。

    二、大數(shù)據(jù)偵查視角下用戶畫像的指標體系

    在過去十幾年間,諸如圖片、文本、視頻、地理信息等用戶數(shù)據(jù)大規(guī)模出現(xiàn),用戶數(shù)據(jù)類型日益豐富,數(shù)據(jù)結(jié)構(gòu)形式發(fā)生了巨大變化。非結(jié)構(gòu)化數(shù)據(jù)的爆發(fā)式增長,最為直接的動力來源于企業(yè)經(jīng)營模式的轉(zhuǎn)變。以往企業(yè)服務(wù)用戶的方式是通過組織信息對外發(fā)布,如今企業(yè)普遍采取用戶“自我服務(wù)”的運作流程,比較典型的應用有“微博”“微信”“抖音”等。無論是賬戶注冊時,還是在產(chǎn)品使用過程中,用戶皆非數(shù)據(jù)的使用者,而是數(shù)據(jù)的制造者。用戶身份的轉(zhuǎn)變?yōu)閭刹榛顒拥拈_展帶來了邏輯上的支撐,即數(shù)據(jù)由用戶下意識地創(chuàng)造和自我生產(chǎn),人們的“自愿參與”保證了數(shù)據(jù)的真實性。不過用戶數(shù)據(jù)的劇增也帶來了新問題,海量的數(shù)據(jù)儲存在服務(wù)器內(nèi)卻又雜亂無章,數(shù)據(jù)的價值密度驟降。于是我們需要借助用戶標簽來標識各類數(shù)據(jù),方便偵查機關(guān)搭建一個多維度的用戶數(shù)字畫像。用戶標簽是用戶數(shù)據(jù)分析的基礎(chǔ),它們集成了用戶特征,并區(qū)分了用戶,劃分了群體,同時強化了用戶與其所在群體的關(guān)聯(lián),因此標簽開發(fā)是用戶畫像體系搭建中最核心的環(huán)節(jié),一個周延的標簽設(shè)計有利于警方對異常用戶的辨識和鎖定(見表1)。

    表1 用戶畫像數(shù)據(jù)指標體系

    (一)自然屬性維度標簽

    自然屬性維度的標簽是用戶最為常見、最為基礎(chǔ)的特征指標,具體包括用戶的年齡、性別、職業(yè)、教育程度、用戶身份證明(UID)、賬號注冊時間、賬號狀態(tài)、戶籍、活躍城市等等。用戶自然屬性標簽是對用戶個人基本情況的概貌描述,這些信息來源于用戶自發(fā)的注冊和開戶行為。在過去,為了擴大用戶群體,企業(yè)通常會簡化注冊及開戶程序,用戶的個人基本信息僅限于國籍、性別、出生地、郵箱、賬號等,大部分企業(yè)甚至采取免注冊登錄機制,大大減少了用戶自然屬性維度的數(shù)據(jù)體量。因注冊成本低廉、操作簡單,用戶往往會頻繁更換賬號,從而導致該類數(shù)據(jù)的生命周期普遍較短,最終成為垃圾數(shù)據(jù)。但自2016 年《網(wǎng)絡(luò)安全法》以法律形式明確“網(wǎng)絡(luò)實名制”后,企業(yè)用戶賬號的注冊、開戶程序逐漸嚴格,并日趨規(guī)范化,身份證、手機號、年齡等個人基本信息的如實填報成為獲取企業(yè)服務(wù)權(quán)限的關(guān)鍵,用戶注冊或開戶行為一經(jīng)完成,自然屬性維度的數(shù)據(jù)便自動保存到企業(yè)服務(wù)器中,而且由于身份證號具有唯一性,圍繞這一資料建立起的個人基本信息簇在反饋給企業(yè)后,用戶很難通過注冊新賬號的方式對原有注冊信息作出改變。

    (二)用戶行為維度標簽

    用戶行為是用戶在使用企業(yè)產(chǎn)品與接受企業(yè)服務(wù)時產(chǎn)生的行為,用戶行為維度標簽是對用戶行為特征的刻畫。通過用戶行為所反映出的數(shù)據(jù)規(guī)律,警方既能挖掘用戶個體和群體活動偏好,也可以發(fā)現(xiàn)可疑用戶網(wǎng)上沖浪的高頻時間段。常見的行為維度指標包括用戶近30 日訪問的網(wǎng)站類型、各大網(wǎng)站的登入次數(shù)、網(wǎng)絡(luò)詞條的點擊量、網(wǎng)站活躍時長、第一次和最后一次訪問日期、平均訪問深度、點贊關(guān)注行為等。用戶的行為數(shù)據(jù)來自他們每一次使用電子設(shè)備的過程,企業(yè)為了優(yōu)化產(chǎn)品與服務(wù),會先行通過埋點①埋點是指企業(yè)在網(wǎng)站或者APP 中通過加載代碼的形式來監(jiān)測用戶的行為數(shù)據(jù),比如設(shè)置注冊按鈕、點擊瀏覽按鈕、下單按鈕、視頻加載按鈕等,通過埋點形式,企業(yè)可以掌握用戶在什么時間、哪一個地理位置進行了什么樣的操作。的方式收集用戶的行為信息,進而了解并還原用戶的活動偏好。在接受企業(yè)服務(wù)過程中,犯罪嫌疑人的產(chǎn)品使用行為同樣會生產(chǎn)用戶數(shù)據(jù),分析這些情報資料能夠復現(xiàn)他們使用產(chǎn)品的路徑、環(huán)境、偏好以及周期,例如在什么地點做了什么事,在某一個時間段內(nèi)對什么類型的詞條更感興趣,行為偏好發(fā)生了哪些改變。在偵查工作中,用戶的行為數(shù)據(jù)被定義為各種事件,分析目標人員的位置共享記錄,有助于查獲其空間運動軌跡,而研判異常用戶的打卡數(shù)據(jù)則可以挖掘其犯罪行為的時間序列特征,因此電子信息資源能夠反映出犯罪嫌疑人的活動情況,甚至能折射出犯罪活動的具體情節(jié)[49]。

    (三)用戶消費維度標簽

    消費維度標簽是指企業(yè)為了精準掌握用戶的消費需求,刻畫他們的消費行為軌跡和消費習慣所用到的數(shù)據(jù)分析指標,通常由商品檢索、瀏覽痕跡、收藏、下單、加購、評價與追評、歷史購買記錄等資料信息組成。用戶消費數(shù)據(jù)具有多態(tài)性,它既區(qū)分群體,也區(qū)分個人,因此能夠防止群體特征強加于個人,并反映用戶個體行為痕跡。例如在2018 年遼寧發(fā)生的周進制造車禍殺妻騙保案件中,因該起事故存在車輛垂直撞墻、瞬間提速、方向盤前放置抱枕、大量購買人身意外險保單等諸多疑點,駕駛?cè)酥苓M被確定有重大犯罪嫌疑,后續(xù)警方根據(jù)死者體內(nèi)提取到的氯氮平藥物成分,重點篩查了周進的微信交易記錄,發(fā)現(xiàn)其曾經(jīng)通過微信轉(zhuǎn)賬的方式購買過該類藥物,最終案件得以告破[50]?;诖?,部分學者認為,通過購物信息能夠識別出特殊人員的異常行為,這種帶有明確指向性的用戶數(shù)據(jù)將案件以故事線的形式還原,幫助警方回溯犯罪情節(jié)[51]。簡單來說,從用戶第一次使用鼠標點擊商品詳情到交易評價的后續(xù)完成,消費行為的每一個環(huán)節(jié)都記錄在案且形成了數(shù)據(jù)閉環(huán),消費維度標簽“相對靜態(tài)”地記錄了犯罪嫌疑人作為用戶所遺留下來的數(shù)據(jù)痕跡,異常的消費習慣與消費行為軌跡,都可能轉(zhuǎn)化為破獲案件的可靠線索。

    (四)用戶社交維度標簽

    社交屬性維度的標簽主要用于了解用戶的家庭關(guān)系、朋友圈、社交活躍度和資金鏈,這些信息建構(gòu)了目標群體的社會關(guān)系網(wǎng),并且凸顯了關(guān)系節(jié)點和關(guān)系紐帶,“節(jié)點”代表著社交網(wǎng)絡(luò)中的個人或組織(實體),“紐帶”體現(xiàn)了主體之間的關(guān)聯(lián)性和關(guān)聯(lián)強度(鏈接)。通過對用戶社交網(wǎng)絡(luò)的分析,他們與誰的關(guān)系最為親密、最關(guān)注哪一類群體、與他人是什么關(guān)系等,這些都可以進行可視化呈現(xiàn)。因此,數(shù)據(jù)直接觸碰到了用戶的社交關(guān)系,它將我們?nèi)粘I钪械臒o形元素提取出來,再轉(zhuǎn)化為業(yè)務(wù)拓展的新思路[52]。例如在電信網(wǎng)絡(luò)詐騙犯罪中,作案人熱衷于分流贓款,為擴大戰(zhàn)果,偵查機關(guān)可以通過金融機構(gòu)提供的用戶資金流水查找關(guān)聯(lián)賬戶;又比如在毒品犯罪中,“藥頭”通常不會和買家直接聯(lián)系,而是通過中間人來銷售毒品,調(diào)取買賣雙方及中間人的通聯(lián)記錄,可以查清主要涉案人員的角色和分工。社交關(guān)系的數(shù)據(jù)化將人與人之間的親密度進行了嚴格的分級和定位,進而確定了關(guān)聯(lián)用戶的重要程度,這一數(shù)據(jù)維度的標簽包括家庭成員情況、銀行賬戶往來關(guān)系、社區(qū)社群和興趣部落等。

    (五)地理信息維度標簽

    地理信息維度標簽是指根據(jù)用戶共享的地理空間數(shù)據(jù),客觀描述目標群體的實時地理位置、活躍地和停駐規(guī)律的標簽。手機用戶在使用滴滴出行、百度地圖、美團外賣、摩拜單車等APP 應用時,繞不開地理信息的共享,這些數(shù)據(jù)一經(jīng)生成便自動存入企業(yè)數(shù)據(jù)庫,其背后隱含著用戶在真實物理世界中的時空特性、行為軌跡和生活習慣,對案件偵查具有重要價值[53]。用戶的空間數(shù)據(jù)可以劃分為三類:一是挖掘類數(shù)據(jù),包括從地理位置的相似度上推算目標用戶是否聚集在一起,從垂直距離、水平距離和經(jīng)緯度三個方面計算用戶行為軌跡的相似度,根據(jù)用戶所在地標建筑、空間布局、環(huán)境特征判斷其具體方位;二是統(tǒng)計類數(shù)據(jù),主要包括用戶在某一地點出現(xiàn)的總頻次,近一個月內(nèi)賬號在某地的登入次數(shù),在城市某一地點停駐的時長等;三是規(guī)則類數(shù)據(jù),即結(jié)合偵查辦案業(yè)務(wù)需要,提煉目標用戶在地理位置上的規(guī)律性表達,比如熱點區(qū)域(家、工作單位、犯罪地點)、出行路線、流竄犯罪的時空軌跡等。

    三、大數(shù)據(jù)偵查視角下用戶畫像應用場景

    法學界所提到的用戶畫像一般是指“侵犯公民隱私權(quán)的行為”和“需要予以規(guī)制的行為”,從而給用戶畫像技術(shù)樹立了負面的形象[54]。實際上,用戶畫像的應用范圍非常廣泛,與其他信息技術(shù)一樣,有利于各學科的進步和發(fā)展,尤其在偵查領(lǐng)域,能夠幫助公安機關(guān)實現(xiàn)對犯罪活動的精準打擊,提高偵查破案的效率。例如蔣占卿教授在《數(shù)據(jù)偵查技術(shù)》一書中,通過對支付寶重點賬戶進行切片畫像,準確描述了網(wǎng)絡(luò)賭博犯罪嫌疑人的各類基本信息,并將此類偵查方法定義為畫像情報的綜合比對[55]。

    大數(shù)據(jù)已經(jīng)興起多年,對于偵查機關(guān)來說,已經(jīng)成為不可或缺的情報資源。然而,因網(wǎng)絡(luò)區(qū)域割據(jù)、業(yè)務(wù)割裂與硬件互斥,數(shù)據(jù)壁壘和信息孤島不斷產(chǎn)生[56],大量的非結(jié)構(gòu)化數(shù)據(jù)靜靜躺在服務(wù)器之中,難以發(fā)揮其應有的偵查價值。而用戶畫像技術(shù)可以幫助這些碎片化的資料走出數(shù)據(jù)倉庫,并針對目標人員進行時空分析、行為偏好分析、所用犯罪工具的溯源分析、所在群體特征分析,是大數(shù)據(jù)偵查落地應用的一個重要方向。

    (一)潛逃人員地理信息分析

    由于犯罪活動具有隱蔽性,在疊加犯罪嫌疑人的反偵查行為后,潛逃人員的地理位置預測一直以來都是偵查工作的難點之一[57]。伴隨著智能手機的頻繁使用,人們“機不離身”的生活現(xiàn)狀催生出大量的活動軌跡數(shù)據(jù),這些信息包含了用戶在某一地點的停留時間、路過某一地點的頻次、以什么類型的交通方式路過該地點、常駐點有哪些。犯罪嫌疑人的“時空數(shù)據(jù)”回答了用戶畫像應該做什么的問題,并定義了偵查人員的行動方式:首先,用戶的軌跡數(shù)據(jù)由空間信息和時間信息構(gòu)成,對于該類數(shù)據(jù),辦案人員可以作時間序列分析,用于解答犯罪嫌疑人在某個時間節(jié)點位于何處、某個時間段內(nèi)的運動路徑是什么樣的、運行軌跡是否具有規(guī)律性或周期性。其次,現(xiàn)階段的視頻監(jiān)控系統(tǒng)并不能完全覆蓋到城市與農(nóng)村的各個角落,在實務(wù)中,對于犯罪嫌疑人運動軌跡的捕捉往往會出現(xiàn)中斷的情況。作為視頻偵查的重要補充,用戶手機所產(chǎn)生的時空數(shù)據(jù)可以有效填補視頻軌跡中的間隙,刻畫出犯罪嫌疑人連續(xù)、完整的逃竄路線。例如在機動車盜竊案件中,“半路銷贓”情形多有發(fā)生,當視頻監(jiān)控缺位時,警方可以利用犯罪嫌疑人的手機GPS 數(shù)據(jù)抓取其長時間停駐點,①若犯罪嫌疑人關(guān)閉了GPS 定位系統(tǒng),手機內(nèi)部的各類傳感器,例如電子羅盤(記錄方位)、加速度傳感器(記錄加速度)、重力感應系統(tǒng)(計算步數(shù)和行程)、陀螺儀(記錄加速度),同樣會追蹤用戶的位置信息,也就是說,即使GPS 定位功能關(guān)閉,只要用戶的空間狀態(tài)發(fā)生改變,手機也會實時記錄其行蹤。這些位置作為銷贓地的可能性較高。其三,用戶手機產(chǎn)生的時空數(shù)據(jù)是海量的,位置節(jié)點眾多且十分密集,為了方便偵查人員進行蹲點守候,可以采用基于密度的DBSCAN 聚類算法,①基于密度的DBSCAN 聚類算法可以將用戶海量的位置節(jié)點,通過確定掃描半徑和最少包含點數(shù)的方式,轉(zhuǎn)化為“活動熱點區(qū)域”“區(qū)域核心點”“區(qū)域邊緣地帶”“離群點”四個維度的情報,有利于偵查機關(guān)實施精準抓捕。由點及面,推測犯罪嫌疑人的熱點活動區(qū)域、高頻停駐位置(熱點區(qū)域內(nèi)的核心點)、低頻停駐位置(熱點區(qū)域內(nèi)的邊緣點)與偶發(fā)停駐位置(熱點區(qū)域外的離群點)。

    (二)用戶的可疑行為規(guī)律分析

    數(shù)據(jù)是烙印用戶行為的重要載體,它會告訴你有誰點擊、瀏覽、深度訪問過涉事網(wǎng)頁,又有誰登錄過APP 賬號,操作了不當程序,甚至可以反映出可疑用戶的金融行為規(guī)律。用戶數(shù)據(jù)包括網(wǎng)絡(luò)數(shù)據(jù)和設(shè)備數(shù)據(jù),②網(wǎng)絡(luò)數(shù)據(jù)是指用戶在登錄線上商城、論壇、APP 狀態(tài)下的User id 數(shù)據(jù)(賬號ID),設(shè)備數(shù)據(jù)是指用戶在未登錄線上商城、論壇、APP 狀態(tài)下的Cookie id 數(shù)據(jù)。在其行為過程中,數(shù)據(jù)之間的互動異常頻繁:首先,同一賬號在多臺設(shè)備或不同類型的終端登錄后,電腦、手機、平板等設(shè)備之間會產(chǎn)生串聯(lián)數(shù)據(jù);其次,同一用戶在各大網(wǎng)頁、APP 應用、線上商城注冊登記后,各企業(yè)數(shù)據(jù)之間會產(chǎn)生串聯(lián);最后,用戶行為由網(wǎng)絡(luò)行為和設(shè)備操作行為所組成,因此網(wǎng)絡(luò)數(shù)據(jù)與設(shè)備數(shù)據(jù)之間也會產(chǎn)生串聯(lián)。兩類數(shù)據(jù)在偵查中的應用場景主要有以下三種情況:其一,行為頻率計算。頻率是描述目標人員作出相同行為的次數(shù),是挖掘犯罪規(guī)律的重要指標,通過收集用戶截止到當天的全量數(shù)據(jù)與當日的增量數(shù)據(jù),可以發(fā)現(xiàn)更具細粒度的用戶行為。例如用戶近30 日訪問某網(wǎng)站的天數(shù)、當日瀏覽某商品的頻次等。其二,歷史事件追蹤。它是指將離散事件按照先后發(fā)生的順序排列在時間軸上,進而重構(gòu)事件序列,在偵查過程中,辦案人員可以從文件系統(tǒng)元數(shù)據(jù)、系統(tǒng)日志或應用程序中獲得時間戳,進而串聯(lián)歷史事件、建立犯罪嫌疑人是否在場的證明以及這些事件在現(xiàn)實世界中的發(fā)生時間[58]。其三,挖掘重點人員網(wǎng)絡(luò)訪問行為偏好,例如點擊偏好、渠道偏好、設(shè)備類型使用偏好等,能用到的數(shù)據(jù)既包括歷史瀏覽記錄、訪問網(wǎng)頁的活躍時間、訪問深度、收藏夾中的網(wǎng)頁信息等賬號ID 數(shù)據(jù),還有埋點表、日志表等設(shè)備ID 相關(guān)的行為數(shù)據(jù)。這些數(shù)據(jù)能夠幫助偵查機關(guān)捕獲目標人員完整的網(wǎng)絡(luò)行為軌跡,解決設(shè)備數(shù)據(jù)與網(wǎng)絡(luò)數(shù)據(jù)之間的孤島問題。

    (三)犯罪工具溯源分析

    可疑人員消費行為的結(jié)構(gòu)性變化會導致涉案線索發(fā)生改變,進而影響到偵查機關(guān)收集、研判用戶數(shù)據(jù)的總體方向。隨著移動快捷支付的廣泛應用,線上商城、微商、第三方支付平臺迅猛發(fā)展,消費數(shù)據(jù)與交易信息開始快速向微信、支付寶、淘寶轉(zhuǎn)移,并集中于騰訊、阿里巴巴等公司的數(shù)據(jù)倉庫之中。商業(yè)數(shù)據(jù)的大規(guī)模遷徙,既反映出用戶群體的普遍選擇,也昭示出未來大數(shù)據(jù)偵查的發(fā)展方向:一方面,互聯(lián)網(wǎng)企業(yè)所擁有的用戶消費數(shù)據(jù)急劇增多,在體量上,遠遠超過了同期銀行、證券、保險等金融機構(gòu)掌握的交易資料;另一方面,傳感器與觸摸屏等交互設(shè)備改變了數(shù)據(jù)的輸入方式,用戶五指間無時無刻不在制造消費信息,商品瀏覽數(shù)據(jù)、收藏數(shù)據(jù)、下單數(shù)據(jù)、加購數(shù)據(jù)、評論數(shù)據(jù)充斥于各大購物平臺,通過用戶消費數(shù)據(jù),偵查人員就能知道要把精力放在哪些交易上。例如在“9·11”恐怖襲擊發(fā)生后,美國警方為了確定犯罪嫌疑人的身份信息,從商業(yè)機構(gòu)調(diào)取了高風險群體的交易記錄,他們計劃以涉案物品為線索來縮小偵查范圍[59]。過去關(guān)于犯罪工具的溯源工作,通常需要偵查人員實地走訪調(diào)查,不僅徒耗警力,而且收集到的交易記錄常有缺漏;現(xiàn)如今,用戶在移動設(shè)備上的每次點擊都將形成消費數(shù)據(jù),清晰地映射出重點人員完整的網(wǎng)購歷史。其主要作用體現(xiàn)在四個方面:其一,根據(jù)購物網(wǎng)站的用戶注冊信息,掌握重點人員的個人基本情況;其二,根據(jù)賣家提供的電子銷售記錄,查明犯罪工具的屬性與成分;其三,根據(jù)目標人員的交易信息,對其作需求分析,判斷他與案件的關(guān)聯(lián)程度;其四,根據(jù)目標用戶的消費數(shù)據(jù),挖掘上游犯罪的線索,例如非法經(jīng)營、非法買賣信用卡、倒賣電話卡等行為。

    (四)涉毒、涉網(wǎng)、涉藥犯罪重點人群特征分析

    就像同伙一樣,同伴之間也彼此聯(lián)系,并且從朋友提供的服務(wù)中受益。通過一系列的社交行為和言語上的互動,群體致力于將成員培養(yǎng)為滿足組織需要、服從組織規(guī)范的同伴,在這一過程中,個體也從社群中獲得了認同,并解決了自己的角色定位問題[60]。因此,群體與成員的關(guān)系較為穩(wěn)定,而且雙方的自然屬性特征和行為屬性特征穩(wěn)健地反映在社交互動數(shù)據(jù)之中。其偵查應用場景主要有四個方面:其一是群體自然屬性分析。用戶一旦注冊賬號并加入某個網(wǎng)絡(luò)社群,偵查機關(guān)就可以結(jié)合個人的基本信息推斷用戶所在社群的自然屬性,進而挖掘犯罪團伙。例如通過重點人員的職業(yè)圈、興趣圈等小眾圈子找到幫助犯,或者根據(jù)目標用戶的社交圈、微信朋友圈找到同案人員等。以網(wǎng)絡(luò)販毒案為例,2020 年桂林市公安局民警發(fā)現(xiàn),有人在微信朋友圈發(fā)布奇怪信息,公安機關(guān)隨后對該微信用戶進行了數(shù)據(jù)畫像,確定該用戶為女性、無固定職業(yè)、朋友圈信息發(fā)布具有周期性、發(fā)布時間為晚上10 點左右、發(fā)布朋友圈時喜歡用暗語、朋友圈內(nèi)有夜店酒吧圖片等,警方懷疑其涉嫌販毒,經(jīng)網(wǎng)上布控后,最終查獲其他兩名同案犯[61]。其二是群體行為屬性分析。當前,無論是貼吧、虎撲、知乎等BBS 論壇,抑或是嗶哩嗶哩、抖音、快手等視頻網(wǎng)站,都附帶多重社交功能,例如發(fā)彈幕、點贊、投幣、評論和關(guān)注,這些社交互動數(shù)據(jù)鏈接了包括重點用戶在內(nèi)的所有參與者,放眼全球,Twitter、Facebook、Instagram 等社交工具都附帶有類似的互動功能,用戶可以在這些平臺發(fā)帖交流,其中“語音留言”使用廣泛。對于此,多國刑事執(zhí)法機構(gòu)認為,語音回帖是一種開源、合法的線索來源,將社交媒體評論中的語音樣本,按照性別、年齡、職業(yè)、口音、文化程度與習慣用語進行過濾,能夠刻畫發(fā)帖群體的用戶畫像,在發(fā)現(xiàn)異常群體后,甚至可以將其語音樣本同語音檢材加以比對,進而鎖定重大可疑人員[62]。其三是犯罪集團組織結(jié)構(gòu)分析。通過研判通聯(lián)記錄、物流數(shù)據(jù)和微信數(shù)據(jù),可以找出上線用戶、中間用戶和下線用戶,以制售假藥案件偵查為例,將物流中的收發(fā)貨電話號碼與銀行留存的用戶號碼進行碰撞比對,能夠解析出犯罪團伙的層級結(jié)構(gòu)。其四是金融賬戶性質(zhì)分析。交易流水數(shù)據(jù)往往能夠反映可疑銀行賬號的類型,例如進賬與出賬金額相近的賬戶可能是過渡卡,周期性出賬且每次出賬金額相近的賬戶可定義為財務(wù)卡,一般為公司會計所有,主要用于發(fā)放工資。

    四、用戶畫像的警用平臺與工作機制

    警用平臺設(shè)計及其業(yè)務(wù)邏輯應當服從于它們所應用的場景,對可疑人員的角色畫像就是偵查場景下各種標簽和細節(jié)的綜合。在日常使用電腦、手機、平板時,我們總能接收到某官方精準推送過來的各類廣告,其中既有微信朋友圈中的商品推廣,也有瀏覽器頁面彈窗和實時短信。個性化消息的分類推送是基于用戶畫像所采取的信息服務(wù)手段,通過對每個用戶自然屬性特征和行為屬性特征的權(quán)重計算和規(guī)則挖掘,產(chǎn)品開發(fā)與服務(wù)方可以精準抓取用戶情報,異常賬號和敏感人群信息也都能從海量的數(shù)據(jù)中分離出來。用戶畫像的技術(shù)平臺通常由“數(shù)據(jù)層”“開發(fā)層”“應用層”三部分組成:數(shù)據(jù)層的核心內(nèi)容是元數(shù)據(jù)整合與原始資料庫的規(guī)劃;開發(fā)層的主要任務(wù)在于標簽體系的構(gòu)建;應用層負責用戶情報具體需求場景的開發(fā)(見圖1),其工作機制具體表達為“數(shù)據(jù)存儲→數(shù)據(jù)理解→業(yè)務(wù)理解”。對于大數(shù)據(jù)偵查來講,這一運作流程明確了各階段的關(guān)鍵產(chǎn)出,同時回答了用戶畫像技術(shù)如何在偵查中實現(xiàn)價值的問題。

    圖1 用戶畫像的警用平臺與工作機制

    (一)數(shù)據(jù)層

    用戶畫像不是數(shù)據(jù)的來源,而是利用數(shù)據(jù)的一種技術(shù)和方式。建立用戶畫像首先需要搭建數(shù)據(jù)倉庫,用以存儲各類數(shù)據(jù),這些數(shù)據(jù)庫共同構(gòu)成了數(shù)據(jù)層。作為用戶畫像的底層驅(qū)動力,數(shù)據(jù)層被用來支持警務(wù)人員的行動與決策。截至目前,偵查部門歷經(jīng)使用多種數(shù)據(jù)庫,其中最主要的數(shù)據(jù)庫類型是關(guān)系型數(shù)據(jù)庫與非關(guān)系型數(shù)據(jù)庫。關(guān)系型數(shù)據(jù)庫用于存儲居民身份證號、家庭固定電話號碼、車牌號等結(jié)構(gòu)化數(shù)據(jù),該類數(shù)據(jù)庫能夠及時響應偵查機關(guān)的業(yè)務(wù)咨詢,比如確認犯罪嫌疑人的身份信息、查詢涉案車輛的發(fā)動機號和車牌號、調(diào)取敏感人群的銀行賬號。非關(guān)系型數(shù)據(jù)庫則是用于存儲非結(jié)構(gòu)化數(shù)據(jù),例如監(jiān)控視頻錄像、企業(yè)用戶信息報表、資金流轉(zhuǎn)記錄以及地理位置數(shù)據(jù)等。對于企業(yè)而言,在過去,由于存儲技術(shù)不發(fā)達,年代久遠的數(shù)據(jù)會被企業(yè)刪除以騰出存儲空間,而現(xiàn)在存儲工藝水平的顯著提高,改變了企業(yè)的存儲習慣,它們傾向于將常用數(shù)據(jù)放置在高性能數(shù)據(jù)庫中,過時的數(shù)據(jù)則存儲于廉價的數(shù)據(jù)庫,這樣就可以在節(jié)省存儲成本的同時,盡可能多地保留用戶數(shù)據(jù),而重點人員和敏感人群的涉案數(shù)據(jù)往往留存其中。在企業(yè)數(shù)據(jù)庫中,大部分結(jié)構(gòu)化數(shù)據(jù)形成于用戶注冊之時,它包含了賬號信息(登錄名、登錄密碼、密碼提示問題、密碼提示答案)和個人信息(姓名、性別、民族、聯(lián)系電話、郵政編碼、通訊地址、工作單位、職業(yè))。而非結(jié)構(gòu)化數(shù)據(jù)來源于用戶與產(chǎn)品的交互過程,在用戶體驗產(chǎn)品和企業(yè)服務(wù)時,其操作行為和點擊習慣將由電子設(shè)備進行記錄、轉(zhuǎn)換并存儲,企業(yè)可以利用這些數(shù)據(jù)進行用戶畫像,以實現(xiàn)營銷信息的精準推送。而偵查機關(guān)在依職權(quán)調(diào)取目標人員的用戶數(shù)據(jù)后,也能通過畫像技術(shù)挖掘數(shù)據(jù)背后的涉案線索,這就是用戶數(shù)據(jù)偵查價值的再發(fā)現(xiàn)。目前,存儲用戶標簽數(shù)據(jù)的主流數(shù)據(jù)庫有四大類:其一是企業(yè)數(shù)據(jù)庫,例如阿里巴巴、騰訊、京東等公司自建的用戶數(shù)據(jù)庫;其二是專業(yè)數(shù)據(jù)庫,主要有圖書館數(shù)據(jù)庫、高校數(shù)據(jù)庫、醫(yī)療數(shù)據(jù)庫等;其三是行業(yè)數(shù)據(jù)庫,比如旅游業(yè)數(shù)據(jù)庫、公共交通數(shù)據(jù)庫、金融數(shù)據(jù)庫等;其四是政務(wù)數(shù)據(jù)庫,例如社保信息庫、企業(yè)工商信息庫、房屋登記信息庫、車輛登記信息庫等。

    (二)開發(fā)層

    存儲數(shù)據(jù)就是為了分析數(shù)據(jù),進而從數(shù)據(jù)中分離出有價值的情報,例如我們在超市購物后,商業(yè)系統(tǒng)會自動生成和存儲個人購物信息,這些數(shù)據(jù)能準確地反映出用戶的購物習慣和偏好。此外,患者在醫(yī)院就診后,醫(yī)療數(shù)據(jù)庫也會同時生成個人病史與購藥記錄,當其非正常死亡時,被害人的就診數(shù)據(jù)既可以用來引導案件初查工作,還可以用來驗證偵查人員的判斷。從本質(zhì)上講,醫(yī)療數(shù)據(jù)的偵查開發(fā)是將用戶的就醫(yī)歷史看成一個破案線索,并使用偵查話語將其通俗地描述為:什么人、他們具有哪些特殊屬性、該屬性與案情存在哪些矛盾之處。相比之下,用戶的網(wǎng)絡(luò)行為則被看作為一個事件,可將其解構(gòu)為:什么人、在什么地點、做了什么事情[63]。隨著手機的普及和APP 應用程序的大量開發(fā),人們已經(jīng)可以隨時隨地發(fā)布博客、微信、抖音在內(nèi)的各種信息,企業(yè)收集、存儲并研判這些用戶數(shù)據(jù),由此所得的商業(yè)情報將用于預測未來即將流行的商品類型和樣式。而在偵查領(lǐng)域,用戶數(shù)據(jù)可用于刻畫敏感人群的自然屬性、行為屬性、社交屬性和時空屬性,尤其在建立犯罪嫌疑人與其他用戶的關(guān)系上,它們發(fā)揮著越來越重要的作用,因此用戶數(shù)據(jù)的價值不會因為過度使用而有所減少,反而會因為不斷開發(fā)重組而產(chǎn)生更大的偵查價值。針對用戶數(shù)據(jù)的警用開發(fā),主要維度有四個方面:其一是數(shù)值統(tǒng)計,它是指計算敏感用戶行為的各類數(shù)值,描述其網(wǎng)絡(luò)行為樣態(tài),例如統(tǒng)計用戶訪問頻次、購買金額、購買次數(shù)來推斷目標人員的消費水平和消費層次;其二是特征抽取,主要從打點日志表和訪問日志表中提取用戶點擊行為、瀏覽行為、點贊行為、搜索行為、評論行為以及打賞行為特征;其三是實時數(shù)據(jù)分析,根據(jù)用戶設(shè)備彈窗痕跡、新人紅包發(fā)放、廣告推送等實時的網(wǎng)絡(luò)場景,推測用戶的瀏覽歷史、瀏覽偏好和訪問深度;其四是離線數(shù)據(jù)挖掘,在斷網(wǎng)狀態(tài)下,電子設(shè)備仍會產(chǎn)生用戶數(shù)據(jù),例如開機時長、時間戳、設(shè)備ID、設(shè)備訪問記錄、登錄賬號等,這些數(shù)據(jù)既可用來推測用戶操作行為的時序關(guān)系,也可以幫助警方完成不同設(shè)備的串聯(lián)。

    (三)應用層

    隨著移動通信5G 時代的全面開啟,將有更多的用戶成為網(wǎng)民,而汽車、電視、鬧鐘、家用攝像頭等各種設(shè)備也將接入互聯(lián)網(wǎng),數(shù)據(jù)爆炸已經(jīng)成為大數(shù)據(jù)時代的鮮明特征。在大數(shù)據(jù)的警用開發(fā)過程中,用戶畫像是場景化還原目標人員與敏感群體的應用方式?;陔娮赢嬒裣到y(tǒng)對研判對象做全方位的數(shù)據(jù)分析,警方可以快速將用戶數(shù)據(jù)應用到偵查活動之中,實現(xiàn)大數(shù)據(jù)偵查的場景落地。從偵查的角度來看,用戶畫像是重構(gòu)涉案數(shù)據(jù)后所得到的用戶呈現(xiàn)方式,它能開啟一個以重點用戶為核心牽引的偵查入口,通過分析用戶的電子設(shè)備操作情境和習慣,進而獲取目標人員及群體的特質(zhì)。用戶畫像技術(shù)的偵查應用范圍十分廣泛,其價值集中表現(xiàn)為聯(lián)系偵查需求與產(chǎn)品設(shè)計,從而將用戶數(shù)據(jù)轉(zhuǎn)化為偵查線索,這一方向的落地應用主要有以下三個方面:

    第一個方面是重點用戶的標簽管理。標簽化的用戶畫像不僅方便偵查人員理解和掌握用戶數(shù)據(jù),而且有助于計算機對用戶數(shù)據(jù)進行批量化和程序化處理。用戶數(shù)據(jù)標簽設(shè)計的第一層次是定義標簽和表示標簽,即合理分配用戶標簽類型、給各類標簽設(shè)置警用外觀標識、規(guī)定各類標簽的取值范圍;第二層次是解釋標簽,主要是結(jié)合警用術(shù)語去描述用戶數(shù)據(jù)標簽和解釋標簽功能;第三層次是整合標簽,主要是設(shè)計用戶標簽之間的關(guān)聯(lián)規(guī)則,整合用戶各個維度的標簽,構(gòu)建常規(guī)的用戶數(shù)據(jù)研判技戰(zhàn)法模型。

    第二個方面是可疑用戶的快速鎖定。用戶電子數(shù)據(jù)主要用于信息搜索和偵查決策咨詢,借助各類用戶數(shù)據(jù),警方可以勾勒用戶畫像,從而精準定位可疑人員。一個設(shè)計良好的用戶標簽檢索系統(tǒng)應當包含:1.警察友好型的檢索界面,通常而言,這一界面既要有各類標簽的索引信息,同時能讓警方輕松掌握用戶標簽的檢索功能;2.多樣化的用戶數(shù)據(jù)檢索方式,例如標識檢索、位置檢索、截詞檢索等;3.常態(tài)化的用戶標簽更新機制,主要是結(jié)合新型犯罪手法,及時更新涉案數(shù)據(jù)標簽。

    第三個方面是敏感用戶分群。在應用端,偵查機關(guān)不僅需要研判目標用戶,還應該運用群體標簽進行用戶關(guān)聯(lián)分析。群體畫像分析是對目標用戶社會關(guān)系的真實呈現(xiàn),旨在賦值各類標簽以計算用戶特征的相似度,并將具有類似特征的敏感用戶歸為同一群體,進而挖掘群體成員之間的社交關(guān)系。敏感用戶分群的主要流程依次是:用戶數(shù)據(jù)獲取、標簽權(quán)重設(shè)計、用戶畫像相似度算法設(shè)計、相似用戶聚類、關(guān)聯(lián)用戶挖掘、群體畫像生成。

    五、討論與結(jié)論

    在偵查領(lǐng)域,因用戶數(shù)據(jù)史無前例地生產(chǎn)和積累,互聯(lián)網(wǎng)世界里的警務(wù)開源情報也與日俱增,人們使用手機隨時隨地發(fā)布微博、朋友圈和位置信息,并同步上傳照片和視頻,提高了數(shù)字畫像偵查的可行性。如在用戶地理信息畫像中,偵查機關(guān)可以搜集用戶微信朋友圈的圖片,通過相冊信息的地理特征識別來找出他們的具體方位,其中有價值的地理信息包括涂鴉墻、標志性建筑、海岸線輪廓等。除開源數(shù)據(jù)的偵查應用外,非公開性質(zhì)的用戶數(shù)據(jù)同樣發(fā)揮著敏感人群的識別功能,例如通過銀行資金流水對可疑用戶進行消費水平畫像,或者是利用第三方支付平臺和線上商城數(shù)據(jù)來實現(xiàn)用戶消費習慣畫像。在未來,隨著電子簽名的普及,銀行留存的電子簽名筆跡同樣會轉(zhuǎn)化為用戶數(shù)據(jù),該類數(shù)據(jù)由筆壓、流暢度、簽名完成時間、簽名總長度、書寫速度等運動信息組成,它們能刻畫出銀行用戶的生理與心理狀況,進而反映用戶是否存在運動障礙(帕金森、小兒麻痹癥等)、精神問題(抑郁癥、強迫癥、阿爾茨海默病等)以及短暫性不適(醉酒、瞌睡)[64]。

    大數(shù)據(jù)偵查的核心動力來源于數(shù)據(jù)類型多樣化,而用戶畫像技術(shù)拓展了偵查可用的數(shù)據(jù)范圍,這一技術(shù)將“時空環(huán)境”“人際交往”“人類行為習慣”都轉(zhuǎn)化為數(shù)據(jù),并且全方位展現(xiàn)了異常用戶和敏感群體的各類屬性,形成了目標人員的全息檔案。在大數(shù)據(jù)時代,用戶畫像為偵查工作提供了新視野,偵查機關(guān)通過數(shù)據(jù)手段對用戶的身份標識進行鑒別,判斷其是否為案件關(guān)聯(lián)人員,因此用戶數(shù)字畫像在探求“是什么”,而非“為什么”,多數(shù)情況下,追求的是相關(guān)關(guān)系,而不是因果關(guān)系。

    猜你喜歡
    畫像標簽用戶
    威猛的畫像
    “00后”畫像
    畫像
    無懼標簽 Alfa Romeo Giulia 200HP
    車迷(2018年11期)2018-08-30 03:20:32
    不害怕撕掉標簽的人,都活出了真正的漂亮
    海峽姐妹(2018年3期)2018-05-09 08:21:02
    關(guān)注用戶
    商用汽車(2016年11期)2016-12-19 01:20:16
    關(guān)注用戶
    商用汽車(2016年6期)2016-06-29 09:18:54
    標簽化傷害了誰
    關(guān)注用戶
    商用汽車(2016年4期)2016-05-09 01:23:12
    基于多進制查詢樹的多標簽識別方法
    計算機工程(2015年8期)2015-07-03 12:20:27
    蚌埠市| 周宁县| 县级市| 娱乐| 兴文县| 宁陵县| 邓州市| 新闻| 松阳县| 兴宁市| 正宁县| 得荣县| 临湘市| 清流县| 井冈山市| 隆尧县| 云南省| 靖安县| 登封市| 江油市| 容城县| 香港 | 乐清市| 洪湖市| 五峰| 吉木乃县| 贵港市| 亚东县| 平遥县| 澄城县| 盐亭县| 鸡东县| 晋江市| 泽库县| 齐河县| 清苑县| 满城县| 平昌县| 沙田区| 许昌市| 深水埗区|