何博宇 潘洪志
摘要:隨著大數(shù)據(jù)技術(shù)的迅猛發(fā)展,位置軌跡數(shù)據(jù)的廣泛應(yīng)用為經(jīng)濟(jì)和社會帶來了巨大的價值。然而,在大數(shù)據(jù)環(huán)境下,位置軌跡的存儲涉及用戶隱私和數(shù)據(jù)安全等關(guān)鍵問題。為了解決傳統(tǒng)存儲系統(tǒng)在面對大規(guī)模數(shù)據(jù)和隱私泄露等挑戰(zhàn)時的不足,文章研究和實(shí)現(xiàn)了一種安全的位置軌跡存儲系統(tǒng),提出了一個安全存儲的架構(gòu),包括數(shù)據(jù)采集、存儲、訪問控制和加密等模塊,旨在分布式存儲環(huán)境下實(shí)現(xiàn)高效且安全的位置軌跡管理。通過實(shí)驗(yàn)評估,文章驗(yàn)證了系統(tǒng)在性能、安全性和隱私保護(hù)方面的有效性。結(jié)果表明,與現(xiàn)有系統(tǒng)進(jìn)行對比,新系統(tǒng)在保護(hù)用戶隱私方面具有顯著優(yōu)勢。
關(guān)鍵詞:位置軌跡;用戶隱私;數(shù)據(jù)安全;存儲系統(tǒng);訪問控制
中圖分類號:TP31 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2024)10-0077-04
0 引言
在當(dāng)今數(shù)字時代,大數(shù)據(jù)技術(shù)的迅猛發(fā)展使得位置軌跡數(shù)據(jù)成為大規(guī)模應(yīng)用領(lǐng)域的重要組成部分。隨著移動設(shè)備和傳感器技術(shù)的普及,個體的位置信息不斷被記錄和傳輸,為城市規(guī)劃、智能交通、個性化服務(wù)等領(lǐng)域提供了豐富的數(shù)據(jù)資源。然而,大數(shù)據(jù)應(yīng)用的不斷深入對位置軌跡的存儲、管理和分析提出了更高要求,特別是在涉及用戶隱私和數(shù)據(jù)安全的情況下。傳統(tǒng)的位置軌跡存儲系統(tǒng)在面對大規(guī)模數(shù)據(jù)、隱私泄露和數(shù)據(jù)安全等方面面臨諸多挑戰(zhàn)[1]。位置數(shù)據(jù)的集中存儲往往成為潛在的隱私泄露點(diǎn),而傳統(tǒng)系統(tǒng)的安全性機(jī)制在大數(shù)據(jù)環(huán)境下顯得愈發(fā)不足以應(yīng)對多變的威脅[2]。因此,為了更好地平衡大數(shù)據(jù)應(yīng)用的需求與用戶隱私的保護(hù),本研究致力于提出一種全新、高效且安全的位置軌跡存儲系統(tǒng)。
通過對相關(guān)工作的深入研究,我們發(fā)現(xiàn)現(xiàn)有系統(tǒng)在位置軌跡安全存儲方面存在一些不足,包括對隱私的忽視、安全性機(jī)制的薄弱以及在大規(guī)模數(shù)據(jù)處理方面的性能等問題[3]。鑒于此,本研究旨在設(shè)計(jì)一種新型的位置軌跡安全存儲系統(tǒng),以彌補(bǔ)現(xiàn)有系統(tǒng)的不足,實(shí)現(xiàn)對用戶隱私的更全面保護(hù),并確保數(shù)據(jù)在大規(guī)模環(huán)境中的高效存儲和管理。本文將詳細(xì)介紹系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)過程,并通過實(shí)驗(yàn)驗(yàn)證其有效性。這一研究將為大數(shù)據(jù)環(huán)境下位置軌跡存儲的安全性提供新的思路和解決方案,對于推動大數(shù)據(jù)應(yīng)用的發(fā)展、維護(hù)用戶隱私權(quán)具有重要的學(xué)術(shù)和實(shí)際價值。
1 相關(guān)工作
位置軌跡數(shù)據(jù)的存儲和安全性問題在大數(shù)據(jù)環(huán)境下備受關(guān)注[4]。傳統(tǒng)的位置軌跡存儲系統(tǒng),如Ha?doop Distributed File System(HDFS) 和一些關(guān)系型數(shù)據(jù)庫系統(tǒng),盡管在大規(guī)模數(shù)據(jù)處理方面表現(xiàn)出色,但它們在隱私保護(hù)方面存在局限[5]。這些系統(tǒng)通常缺乏針對位置數(shù)據(jù)的細(xì)粒度訪問控制和匿名化技術(shù),導(dǎo)致隱私泄露的風(fēng)險上升。為了解決位置數(shù)據(jù)的隱私問題,研究者提出了一系列隱私保護(hù)技術(shù)。差分隱私技術(shù)通過在數(shù)據(jù)中引入噪聲來保護(hù)隱私,但其在大規(guī)模數(shù)據(jù)環(huán)境下的應(yīng)用效果仍存在爭議。同態(tài)加密技術(shù)能夠在數(shù)據(jù)加密的同時進(jìn)行計(jì)算,但其性能開銷可能限制其在大數(shù)據(jù)場景的實(shí)際應(yīng)用。在分布式存儲領(lǐng)域,一些系統(tǒng)如Ceph和GlusterFS提供了強(qiáng)大的分布式存儲能力[6]。然而,這些系統(tǒng)在位置軌跡數(shù)據(jù)的安全性和隱私保護(hù)方面未能提供足夠支持,缺乏對用戶隱私的細(xì)粒度管理和多層次加密等關(guān)鍵特性。隨著大數(shù)據(jù)應(yīng)用的廣泛發(fā)展,一些國家和地區(qū)制定了涉及隱私保護(hù)的法規(guī),例如歐洲的通用數(shù)據(jù)保護(hù)條例(GDPR) 和美國的《加州消費(fèi)者隱私法案》等,對位置數(shù)據(jù)的合法收集和處理提出了更為嚴(yán)格的要求,為研究位置軌跡安全存儲系統(tǒng)提供了法律框架。
盡管已經(jīng)有一些關(guān)于位置軌跡數(shù)據(jù)存儲和隱私保護(hù)的研究,但現(xiàn)有工作在安全性、隱私保護(hù)和大規(guī)模數(shù)據(jù)處理方面仍存在不足。本研究旨在借鑒和改進(jìn)現(xiàn)有工作,設(shè)計(jì)一種更為全面、高效的位置軌跡安全存儲系統(tǒng),以適應(yīng)大數(shù)據(jù)環(huán)境下的復(fù)雜需求。
2 面向加密的軌跡安全存儲的系統(tǒng)總體框架設(shè)計(jì)
傳統(tǒng)數(shù)據(jù)存儲模型采用集中式存儲結(jié)構(gòu),數(shù)據(jù)存儲在單一的高端服務(wù)器上。這種架構(gòu)的擴(kuò)展性有限,隨著數(shù)據(jù)量的增長,性能和容量瓶頸問題越來越突出。而分布式存儲系統(tǒng)將數(shù)據(jù)分散存儲在多臺獨(dú)立的x86服務(wù)器上,通過通用的存儲協(xié)議對外部提供多種存儲接口。這種架構(gòu)使用若干臺存儲服務(wù)器共同分擔(dān)存儲壓力,采用IP和IB網(wǎng)絡(luò)結(jié)構(gòu),不僅提高了系統(tǒng)的穩(wěn)定性,也適應(yīng)了互聯(lián)網(wǎng)數(shù)據(jù)量增長的趨勢。因此,本文選擇分布式存儲模型來存儲位置軌跡數(shù)據(jù),并構(gòu)建系統(tǒng)總體框架,如圖1所示。
此框架中,用戶通過客戶端向外部發(fā)出請求。當(dāng)正常建立連接后,客戶端發(fā)起的相關(guān)數(shù)據(jù)操作會發(fā)送到資源調(diào)度中心。資源調(diào)度中心解析這些請求,并將任務(wù)調(diào)度到控制節(jié)點(diǎn),再由控制節(jié)點(diǎn)下發(fā)作業(yè)給計(jì)算節(jié)點(diǎn)執(zhí)行。這些節(jié)點(diǎn)會運(yùn)行MapReduce作業(yè),計(jì)算完成后,通過資源調(diào)度中心與HDFS文件系統(tǒng)交互,確認(rèn)是否有作業(yè)要求存儲。HDFS通過在多個服務(wù)器上分布式地存儲大文件的數(shù)據(jù)塊,每個數(shù)據(jù)塊會有多個副本分散存儲在不同的節(jié)點(diǎn)上,以確保數(shù)據(jù)的持久性和容錯性。在計(jì)算節(jié)點(diǎn)中,該系統(tǒng)可以運(yùn)行相關(guān)差分隱私算法,在數(shù)據(jù)聚合或分析過程中加入噪聲,根據(jù)數(shù)據(jù)類型和隱私需求選擇合適的噪聲,以確保其既有效又符合預(yù)期的隱私標(biāo)準(zhǔn)。
3 系統(tǒng)詳細(xì)設(shè)計(jì)
3.1 系統(tǒng)拓?fù)浣Y(jié)構(gòu)
為了滿足大數(shù)據(jù)環(huán)境下大量數(shù)據(jù)存儲的高可用性,該系統(tǒng)采用了樹型模型作為網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。該結(jié)構(gòu)中各節(jié)點(diǎn)均支持動態(tài)增刪節(jié)點(diǎn),當(dāng)某一控制節(jié)點(diǎn)出現(xiàn)故障時,只會影響該節(jié)點(diǎn)及其子節(jié)點(diǎn),不會影響其他分支節(jié)點(diǎn)的工作。由于故障較易隔離,因此采用此拓?fù)浣Y(jié)構(gòu)易于管理維護(hù),如圖2所示。
在圖2中,資源調(diào)度中心負(fù)責(zé)將作業(yè)下發(fā)到控制節(jié)點(diǎn)??刂乒?jié)點(diǎn)根據(jù)服務(wù)器資源環(huán)境對計(jì)算節(jié)點(diǎn)進(jìn)行集群安排以完成作業(yè)。整體結(jié)構(gòu)呈現(xiàn)為樹型模型,這種結(jié)構(gòu)無須對網(wǎng)絡(luò)進(jìn)行任何改動即可擴(kuò)充工作站。在系統(tǒng)運(yùn)行過程中,資源調(diào)度中心會監(jiān)控各節(jié)點(diǎn)的資源情況,并根據(jù)分類將作業(yè)輸送到相應(yīng)的控制節(jié)點(diǎn)。針對不同業(yè)務(wù)需求,系統(tǒng)生成相應(yīng)的作業(yè)命令,以達(dá)到預(yù)期的存儲效果??刂乒?jié)點(diǎn)作為拓?fù)浣Y(jié)構(gòu)中的重要組成部分,除了負(fù)責(zé)監(jiān)控節(jié)點(diǎn)資源和下發(fā)作業(yè)外,還具備數(shù)據(jù)處理后調(diào)度HDFS存儲數(shù)據(jù)的功能。根據(jù)用戶的需求,控制節(jié)點(diǎn)能夠?qū)崟r反饋進(jìn)度,具有較高的可用性。
3.2 系統(tǒng)描述
本系統(tǒng)采用樹狀分布式存儲架構(gòu),由多個節(jié)點(diǎn)構(gòu)成,每個節(jié)點(diǎn)均負(fù)責(zé)存儲和處理位置軌跡數(shù)據(jù)。通過引入元數(shù)據(jù)服務(wù)器來協(xié)調(diào)各節(jié)點(diǎn)的工作,實(shí)現(xiàn)對位置數(shù)據(jù)的全局視圖和元數(shù)據(jù)的可追溯性。數(shù)據(jù)存儲依賴于HDFS的Block存儲機(jī)制,采用分塊存儲的方式來確保數(shù)據(jù)的安全性。通過數(shù)據(jù)壓縮、去重和脫敏等技術(shù),高效的數(shù)據(jù)采集和預(yù)處理模塊在降低數(shù)據(jù)體積的同時保護(hù)敏感信息,確保數(shù)據(jù)質(zhì)量和隱私安全。系統(tǒng)引入了基于角色的訪問控制和細(xì)粒度訪問控制機(jī)制,結(jié)合訪問令牌和身份驗(yàn)證技術(shù),確保僅授權(quán)用戶能夠訪問特定的位置軌跡數(shù)據(jù)。同時,通過應(yīng)用同態(tài)加密和差分隱私技術(shù),系統(tǒng)在數(shù)據(jù)傳輸和存儲過程中保護(hù)了位置數(shù)據(jù)的隱私性并降低了其敏感性。系統(tǒng)通過并行計(jì)算、負(fù)載均衡和分布式緩存等技術(shù)優(yōu)化了性能,具備良好的可擴(kuò)展性,能夠輕松應(yīng)對不斷增長的位置軌跡數(shù)據(jù)和用戶數(shù)量??傮w而言,本系統(tǒng)設(shè)計(jì)充分考慮了隱私保護(hù)、性能優(yōu)化和可擴(kuò)展性等因素,為大數(shù)據(jù)環(huán)境下位置軌跡的安全存儲提供了全面有效的解決方案。
3.3 系統(tǒng)實(shí)現(xiàn)
系統(tǒng)實(shí)現(xiàn)過程包含架構(gòu)設(shè)計(jì)、數(shù)據(jù)存儲設(shè)計(jì)、位置軌跡數(shù)據(jù)采集與預(yù)處理、訪問控制和加密、性能優(yōu)化和可擴(kuò)展性、元數(shù)據(jù)管理等步驟。
1) 架構(gòu)設(shè)計(jì)。系統(tǒng)采用樹狀分布式存儲架構(gòu),由多個節(jié)點(diǎn)組成,每個節(jié)點(diǎn)負(fù)責(zé)存儲和處理位置軌跡數(shù)據(jù)。同時,引入元數(shù)據(jù)服務(wù)器,用以管理位置數(shù)據(jù)的元信息,并協(xié)調(diào)分布式系統(tǒng)中的各個節(jié)點(diǎn)。
2) 數(shù)據(jù)存儲設(shè)計(jì)。數(shù)據(jù)存儲主要依賴于HDFS的Block存儲機(jī)制,通過分塊存儲實(shí)現(xiàn)對位置軌跡數(shù)據(jù)的安全存儲操作。每個節(jié)點(diǎn)能夠有效管理自身分配的存儲空間,并實(shí)現(xiàn)數(shù)據(jù)的冗余備份,以確保數(shù)據(jù)的安全性。
3) 位置軌跡數(shù)據(jù)采集與預(yù)處理。系統(tǒng)實(shí)施高效的數(shù)據(jù)采集模塊,從多個源頭收集位置軌跡數(shù)據(jù)。通過數(shù)據(jù)壓縮、去重和脫敏等預(yù)處理技術(shù),降低數(shù)據(jù)體積,同時保護(hù)敏感信息,確保數(shù)據(jù)質(zhì)量和隱私安全。
4) 訪問控制和加密。引入基于角色的訪問控制(RBAC) 和細(xì)粒度訪問控制機(jī)制,允許管理員對用戶進(jìn)行權(quán)限管理。采用訪問令牌和身份驗(yàn)證技術(shù),確保只有合法授權(quán)的用戶能夠訪問特定的位置軌跡數(shù)據(jù)。同時,使用同態(tài)加密技術(shù)對位置數(shù)據(jù)進(jìn)行加密處理,并結(jié)合差分隱私技術(shù),提高隱私保護(hù)水平。
5) 性能優(yōu)化和可擴(kuò)展性。通過并行計(jì)算、負(fù)載均衡和分布式緩存等技術(shù),優(yōu)化系統(tǒng)性能,確保系統(tǒng)具備良好的可擴(kuò)展性,能夠輕松應(yīng)對不斷增長的位置軌跡數(shù)據(jù)和用戶數(shù)量,保持高效運(yùn)行。
6) 元數(shù)據(jù)管理。實(shí)現(xiàn)元數(shù)據(jù)服務(wù)器,存儲位置數(shù)據(jù)的元信息,包括數(shù)據(jù)的所有者、訪問權(quán)限等信息。通過元數(shù)據(jù)管理,實(shí)現(xiàn)對位置軌跡數(shù)據(jù)的全局視圖和元數(shù)據(jù)的可追溯性。
4 系統(tǒng)測試結(jié)果與分析
物理機(jī)采用Intel(R) Core(TM) i7-10700K CPU @3.8GHz,擁有32GB 內(nèi)存,運(yùn)行64 位Windows 操作系統(tǒng),其上裝有9臺CENTOS 7.9.2009虛擬機(jī)(Py3.7.9) ,每臺虛擬機(jī)配置為2核CPU、1GB內(nèi)存。本次實(shí)驗(yàn)測試主要是通過Hadoop集群環(huán)境模擬,對比在實(shí)際環(huán)境下傳統(tǒng)存儲方式與利用MapReduce對位置軌跡數(shù)據(jù)進(jìn)行差分隱私保護(hù)的分布式存儲在存儲效率和數(shù)據(jù)安全性的差異。實(shí)驗(yàn)數(shù)據(jù)來源于美國聯(lián)邦公路局的NGSIM數(shù)據(jù)采集項(xiàng)目,作為數(shù)據(jù)源模擬Hadoop分布式文件系統(tǒng)HDFS的基本操作。在數(shù)據(jù)存儲過程中,會創(chuàng)建存儲目錄,讀取給定數(shù)據(jù)源的數(shù)據(jù),并將文件數(shù)據(jù)分割成若干塊進(jìn)行存儲,每塊的大小由文件大小除以節(jié)點(diǎn)數(shù)量得出。此外,考慮到噪聲大小對數(shù)據(jù)的影響可能會干擾測試結(jié)果,我們通過對原始數(shù)據(jù)轉(zhuǎn)換數(shù)組后為每個元素添加拉普拉斯噪聲,并引入動態(tài)函數(shù),結(jié)合數(shù)據(jù)的字段數(shù)量動態(tài)調(diào)整噪聲大小值,即由epsilon參數(shù)控制。
4.1 測試結(jié)果分析
1) 存儲效率對比。實(shí)驗(yàn)通過對比傳統(tǒng)存儲方式與差分隱私分布式存儲的效率,相關(guān)測試結(jié)果如圖3 所示。
通過隨機(jī)抽查,本文對六臺服務(wù)器進(jìn)行測試,在給定相同數(shù)據(jù)量的前提下,對比了傳統(tǒng)集中式存儲和HDFS分布式存儲的性能。本文利用后臺日志數(shù)據(jù),計(jì)算了兩種不同架構(gòu)對額定數(shù)據(jù)量的存儲處理時間,并進(jìn)行了對比分析。在實(shí)驗(yàn)中,前兩組服務(wù)器進(jìn)行了單文件存儲測試,而后四組則進(jìn)行了多文件存儲測試。實(shí)驗(yàn)結(jié)果表明,在額定數(shù)據(jù)量下,HDFS分布式存儲的應(yīng)用效果更佳,顯著提升了存儲效率,符合系統(tǒng)開發(fā)性能要求。
2) 數(shù)據(jù)安全性對比。實(shí)驗(yàn)測試的主要目的是驗(yàn)證HDFS+Laplace架構(gòu)在存儲效率相較于傳統(tǒng)存儲更優(yōu)的情況下,其數(shù)據(jù)隱私保護(hù)的效果,實(shí)驗(yàn)結(jié)果如圖4 所示。
實(shí)驗(yàn)測試主要是通過對比傳統(tǒng)數(shù)據(jù)隱私保護(hù)和差分隱私數(shù)據(jù)保護(hù)在個體數(shù)據(jù)對總體數(shù)據(jù)影響的表現(xiàn)占比情況。在測試過程中,我們均保證了數(shù)據(jù)的有效存儲。傳統(tǒng)數(shù)據(jù)隱私保護(hù)采用匿名化數(shù)據(jù)加密對數(shù)據(jù)進(jìn)行隱私保護(hù),而差分隱私數(shù)據(jù)保護(hù)則通過添加拉普拉斯噪聲對位置軌跡數(shù)據(jù)進(jìn)行差分隱私保護(hù)。測試結(jié)果表明,通過添加噪聲,成功實(shí)現(xiàn)了數(shù)據(jù)隱私安全,顯著降低了個體數(shù)據(jù)對總體數(shù)據(jù)的影響,有效滿足了大數(shù)據(jù)環(huán)境下數(shù)據(jù)存儲的實(shí)際需求,并且不會對數(shù)據(jù)存儲操作的安全性造成負(fù)面影響。
當(dāng)存儲系統(tǒng)的前端和后端運(yùn)行完畢后,該系統(tǒng)主要利用數(shù)據(jù)采集模塊對位置軌跡數(shù)據(jù)進(jìn)行MapRe?duce分組聚合運(yùn)算,并進(jìn)行安全存儲。其中,該系統(tǒng)在后臺頁面添加了動態(tài)調(diào)整隱私保護(hù)強(qiáng)度的功能,主要是為了適應(yīng)實(shí)際環(huán)境的需要,并且限制單次允許的最大上傳文件大小,以提高系統(tǒng)穩(wěn)定性。當(dāng)用戶在系統(tǒng)前端提供設(shè)備數(shù)據(jù)接口給數(shù)據(jù)上傳模塊后,后臺將根據(jù)數(shù)據(jù)大小計(jì)算預(yù)計(jì)的存儲時間,用戶可以在存儲效率面板的選項(xiàng)卡中查看存儲完成的預(yù)計(jì)時間。后臺管理人員在此期間可在數(shù)據(jù)采集模塊下查看相關(guān)數(shù)據(jù)文件,監(jiān)測并觀察保護(hù)進(jìn)度。如若出現(xiàn)類似輸出,則表示一切正常,數(shù)據(jù)正在進(jìn)行安全計(jì)算處理。
5 結(jié)束語
本文圍繞位置軌跡數(shù)據(jù)隱私安全保護(hù)存儲系統(tǒng)的設(shè)計(jì)方案展開探究,主要針對位置軌跡數(shù)據(jù)在存儲方面的安全管控進(jìn)行設(shè)計(jì)。系統(tǒng)選取HDFS分布式存儲作為框架,構(gòu)建了系統(tǒng)整體框架。該系統(tǒng)以資源調(diào)度中心為管理工具,下發(fā)作業(yè)到控制節(jié)點(diǎn)進(jìn)行差分隱私保護(hù)計(jì)算,并利用MapReduce對數(shù)據(jù)進(jìn)行拉普拉斯噪聲的添加。測試結(jié)果顯示,在保證存儲效率明顯優(yōu)于傳統(tǒng)存儲效率的同時,該系統(tǒng)能夠有效地對數(shù)據(jù)進(jìn)行隱私保護(hù),可以作為位置軌跡數(shù)據(jù)存儲管理工具。
參考文獻(xiàn):
[1] 李樂彤,田源,胡舜欣,等.基于差分隱私的軌跡保護(hù)綜述[J].中國科技信息,2022(24):91-94.
[2] 吳萬青,趙永新,王巧,等.一種滿足差分隱私的軌跡數(shù)據(jù)安全存儲和發(fā)布方法[J].計(jì)算機(jī)研究與發(fā)展,2021,58(11):2430-2443.
[3] 劉雯雯.基于云計(jì)算環(huán)境下的計(jì)算機(jī)網(wǎng)絡(luò)安全存儲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦知識與技術(shù),2022,18(12):38-40.
[4] 秦呈旖,吳磊,魏曉超,等.位置軌跡相關(guān)性差分隱私保護(hù)技術(shù)研究與進(jìn)展[J].密碼學(xué)報,2023,10(6):1118-1139.
[5] 盛丹丹.基于大數(shù)據(jù)分析的隱私信息保護(hù)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].信息安全研究,2023,9(9):914-920.
[6] 王愛兵.基于區(qū)塊鏈的社區(qū)矯正系統(tǒng)數(shù)據(jù)分布式安全存儲方法[J].電腦知識與技術(shù),2023,19(28):63-65.
【通聯(lián)編輯:代影】