朱 侯 吳子帥 韋秉東
(中山大學(xué)信息管理學(xué)院,廣東 廣州 510006)
信息技術(shù)在人們的生活中逐漸滲透,與人們?nèi)粘I罹o密融為難以分割的整體。然而,大多數(shù)用戶并不太關(guān)心工具、設(shè)備背后的技術(shù)細節(jié),尤其是當(dāng)前日漸普遍的大數(shù)據(jù)技術(shù)與個性化服務(wù),使得人們在互聯(lián)網(wǎng)上留下的每一步足跡都為個人信息的泄露埋下隱患。生活的便利可能同時伴隨著個人隱私的犧牲。在第44次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》[1]對2019年上半年網(wǎng)絡(luò)安全問題的統(tǒng)計中,有24%是個人信息泄露問題。互聯(lián)網(wǎng)時代隱私泄露事件多發(fā)的一大原因在于,APP平臺方常以個性化推薦或提供服務(wù)為由,過度收集和利用用戶的隱私信息,大大增加了其被泄露的可能;更有甚者直接非法倒賣用戶隱私信息以謀利。隱私政策的出現(xiàn)則是對平臺保護用戶隱私的一個規(guī)則限制,是平臺對用戶信息合法收集和利用等處理行為的宣告。用戶隱私政策既是政府對互聯(lián)網(wǎng)企業(yè)發(fā)展的限制與規(guī)范,更是互聯(lián)網(wǎng)企業(yè)與用戶之間關(guān)于信息使用的契約。
隱私政策是用戶隱私保護的一道防線。但是,由于隱私政策篇幅較長,用戶常常不會仔細查看隱私政策,對其是否符合法律法規(guī)要求不夠在意。一些企業(yè)可能利用這點,使用冗長的隱私政策提高用戶的閱讀成本。這樣用戶在可能出現(xiàn)的法律糾紛中就會落于下風(fēng)。因此,平臺對用戶個人隱私的保護,首先就體現(xiàn)在對平臺制定的隱私政策是否合乎法規(guī),是否囊括應(yīng)說明的內(nèi)容,以及是否予以落實。
APP隱私政策是平臺方對用戶隱私信息處理舉措的明細直觀體現(xiàn),判斷隱私政策文本內(nèi)容是否闡明完整則是評判APP隱私政策是否合法的方向之一。通過對隱私政策的自動分類對隱私政策進行評價,能夠為用戶選擇對隱私保護更具力度的平臺提供輔助,也可以讓監(jiān)管人員和機構(gòu)更快速地了解該隱私政策是否囊括了法律規(guī)定應(yīng)在隱私政策中包含的內(nèi)容,減輕工作人員負擔(dān)。當(dāng)前并沒有通用的APP隱私政策完整性評判標(biāo)準(zhǔn),但我國《信息安全技術(shù) 個人信息安全規(guī)范》[50]和歐盟《通用數(shù)據(jù)保護條例》[49](General Data Protection Regulation,GDPR)等法律條例都對隱私政策中應(yīng)包含的內(nèi)容給出了相關(guān)規(guī)定,可以認為更完整和廣泛地覆蓋這些法律條例要求的隱私政策有著更高的完整性[48]。因此,本文引入融合上下文語義的文本分類方法,以相關(guān)法規(guī)中要求的隱私使用或保護措施為標(biāo)簽,對隱私政策文本進行自動分類檢測,并根據(jù)分類結(jié)果利用L2歸一化[54]的方法計算得到隱私政策的完整性得分,對不同APP隱私政策進行量化比較分析,以期規(guī)避傳統(tǒng)隱私政策評價方法的主觀性和局限性,推動隱私政策評價研究向自動化和智能化方向發(fā)展。
隱私泄露是近幾年社會關(guān)注的熱點問題,不少學(xué)者都針對提升國內(nèi)用戶隱私保護水平的方向進行探索研究。陸雪梅等[2]在通過典型案例、統(tǒng)計分析和系統(tǒng)分析等手段分析用戶隱私信息泄露的成因后,提出若要保護用戶隱私,則需要政府方對隱私保護進行立法,且企業(yè)方需從技術(shù)層面上加強前沿信息技術(shù)的應(yīng)用,建立行業(yè)自律規(guī)范等。徐藝心[3]詳細分析了互聯(lián)網(wǎng)生態(tài)環(huán)境的特點以及可能會對用戶隱私保護造成的影響,提出了用戶隱私保護的制度模式,除了政府需要監(jiān)管平臺外,也需要明確平臺方在保護用戶隱私信息上的義務(wù)與責(zé)任。謝珍等[4]提出,用戶畫像的建設(shè)必定需要用戶數(shù)據(jù),但平臺方必須要從安全性、匿名性、用戶同意、服務(wù)內(nèi)容與數(shù)據(jù)提供對等四大原則來平衡數(shù)據(jù)應(yīng)用與隱私保護之間的平衡方案,確保用戶的信息安全。以往研究中提出的優(yōu)化隱私保護建議常與推動完善隱私保護政策內(nèi)容和措施相關(guān),用戶隱私信息的安全性離不開法律規(guī)范和平臺方對隱私的保護。
用戶隱私信息的安全性離不開法律規(guī)范和平臺方對隱私的保護,而隱私政策是運營商和用戶就隱私收集和保護問題達成一致的重要契約。李卓卓等[5]利用內(nèi)容分析法調(diào)研我國APP隱私政策中保護用戶隱私信息的實際表現(xiàn),發(fā)現(xiàn)APP運營平臺方在數(shù)據(jù)利用相關(guān)內(nèi)容上的說明存在漏洞,如部分APP未告知平臺方將如何進行隱私數(shù)據(jù)處理,對信息的使用是否存在風(fēng)險,未聲明具體權(quán)限等。陸康等[6]建議圖書館應(yīng)以法律規(guī)范為標(biāo)準(zhǔn),構(gòu)建符合圖書館發(fā)展方向的隱私條款,制定具有行業(yè)特色的隱私保護制度。徐磊等[7]以圖書類APP隱私政策為研究對象,認為當(dāng)前隱私政策存在重點不明、規(guī)定模糊等問題,認為可以通過提升用戶在修訂隱私政策過程中的參與度,夯實隱私政策法律基礎(chǔ)等方法,提高隱私政策質(zhì)量。郭清玥等[8]采用文獻調(diào)研法、內(nèi)容分析法和LDA主題建模法,收集約200款A(yù)PP隱私政策文本進行分析,獲得國內(nèi)常用APP隱私政策的通用內(nèi)容框架,在經(jīng)過與國內(nèi)外法律政策文件的對比后,認為國內(nèi)APP隱私政策在個人信息主體權(quán)利和個人信息安全保護體系等方面內(nèi)容的介紹還有所欠缺,提出對我國APP隱私政策內(nèi)容框架的優(yōu)化方向。當(dāng)前APP隱私政策的內(nèi)容可能存在一定安全隱患,而隱私政策需要做到合理、合規(guī)、合法才能實質(zhì)性保護用戶隱私信息。
當(dāng)前部分隱私政策研究聚焦在不同隱私政策的對比方面,比如:不同國家(地區(qū))隱私政策的對比、不同網(wǎng)站隱私政策的對比和不同APP隱私政策的對比。有的學(xué)者選擇的是分類型收集不同平臺的隱私政策進行對比[9-11];有的學(xué)者則會專注某一領(lǐng)域的平臺,如圖書館與檔案[12-14]、電商[15-17]、政府平臺[18-21]和健康領(lǐng)域。不同領(lǐng)域內(nèi)又有不同功能平臺主題的具體細分,比如在健康類APP方向,馬騁宇等選擇的主題是不細分功能的多種健康類APP[22],O’Loughlin K等則專注于心理抑郁類的健康A(chǔ)PP[23],而Benjumea J等選擇了健康A(chǔ)PP中的癌癥類APP作為研究對象,從歐盟的GDPR法規(guī)(通用數(shù)據(jù)保護條例)出發(fā),改進了隱私政策評價量表[24]。
優(yōu)化隱私政策是提升用戶隱私保護力度的重要建議方向,國內(nèi)外學(xué)者常將隱私政策的完整性作為評估隱私政策是否符合法律規(guī)范的一大落腳點。國內(nèi)外對隱私政策完整性的評價研究常使用內(nèi)容分析、層次分析、文本編碼[25]等方法來觀察平臺的隱私政策有沒有涉及法律條款規(guī)定應(yīng)當(dāng)涉及的方面,并根據(jù)隱私政策中提到的對法律法規(guī)的遵守情況給出分數(shù)評價。常見的完整性評價體系包含個人信息收集、個人信息使用、Cookie技術(shù)、信息披露條件、數(shù)據(jù)保護、用戶權(quán)利、未成年人隱私保護等幾個方面[26]。朱穎還對APP是否有專門隱私政策、隱私保護政策名稱規(guī)范性、獲取隱私政策的便捷性、用戶接受政策的權(quán)利性、更新時間的標(biāo)注和企業(yè)是否提供聯(lián)系方式6種表現(xiàn)進行了分析[27]。徐雷等使用內(nèi)容分析法,評價國內(nèi)熱門APP隱私條款的獲取途徑、可讀性和文本內(nèi)容,既統(tǒng)計了APP在不同內(nèi)容類別表述上的整體表現(xiàn),也從70余款A(yù)PP中選取了表現(xiàn)突出的幾款進行具體說明[28]。
除了通過完整性來對隱私政策的合法性進行評價的常規(guī)分析,一些學(xué)者另辟蹊徑,使用其他方法來評估隱私政策。Mamakou X J等[29]關(guān)注的是如何評估網(wǎng)站遵守法律和道德準(zhǔn)則的情況,提出了基于模糊數(shù)理論和模糊德爾菲法的法律合規(guī)指數(shù)FLECI,對100個網(wǎng)站的合規(guī)程度進行了評分。Reidenberg J R等[30]專注于評價隱私政策的語義模糊性,他以隱私政策文本中的“May”“Will”“Generally”等詞作為模糊語義的標(biāo)志,對網(wǎng)站隱私政策的模糊性進行打分。邵國松等[31]除了從隱私政策的發(fā)布、個人信息收集的目的、信息保密性與安全保障、刪除權(quán)與更正權(quán)以及隱私政策的可見性5個角度對隱私政策進行完整性審核以外,還用技術(shù)手段監(jiān)測敏感信息類網(wǎng)站使用的追蹤Cookies、數(shù)據(jù)安全漏洞和侵入數(shù)據(jù)庫的可能性,來檢測這些網(wǎng)站是否兌現(xiàn)了隱私政策中所做的規(guī)定。姚勝譯等[32]從用戶視角來考慮對隱私政策的評價,認為隱私政策的友好度能夠提高用戶的閱讀意愿,從內(nèi)容可讀性和交互友好性來構(gòu)建APP隱私政策用戶友好度評價指標(biāo),在選取樣本后,運用問卷調(diào)查法和層次分析法進行評價分析,并對我國APP隱私政策的編寫提出優(yōu)化建議。
為實現(xiàn)對隱私政策自動分析和評估,一些學(xué)者借助自然語言處理技術(shù)對隱私政策進行研究,例如隱私政策自動摘要提取[33]、建立隱私政策本體[34]、針對隱私政策的語義框架[35]、隱私政策的自動生成36]等。其中,基于文本分類技術(shù)是實現(xiàn)隱私政策完整性評價的重要方向。Liu F等[37]使用隱馬爾可夫模型,試圖對解決相同隱私問題的段落進行識別與分類。Boldt M等[38]選用15種分類算法,對合法公司與違法公司的隱私政策進行分類,其中樸素貝葉斯算法的表現(xiàn)最好,研究發(fā)現(xiàn),違法公司的隱私政策覆蓋面比合法公司要低很多。Wilson S等[39]基于網(wǎng)站隱私政策的OPP115語料庫,應(yīng)用邏輯回歸的文本分類方法,實驗首先將注釋進行粗分類,再對每個粗粒度類別訓(xùn)練二元邏輯回歸分類器,實現(xiàn)了粗粒度與細粒度結(jié)合的文本分類方法。Zimmeck S等[40]基于GDPR框架構(gòu)建了移動APP的隱私政策語料庫App-350,并在此基礎(chǔ)上訓(xùn)練模型對大量Google應(yīng)用商店的APP進行了測評。
已有研究表明,隱私政策作為平臺使用和保護用戶個人信息的重要契約,其完整性、合法性及其評價問題已經(jīng)受到學(xué)界的廣泛關(guān)注。但已有研究大多基于內(nèi)容分析、質(zhì)性分析、調(diào)查研究等方法對其完整性、模糊性和合法性等進行評價。為推動隱私政策自動化評價,國外部分學(xué)者通過自然語言處理技術(shù)對隱私政策進行挖掘分析,但主要基于GDPR等法律框架和OPP115等國外隱私政策語料庫進行研究,缺乏對國內(nèi)隱私保護法律框架的研究和中文隱私政策文本的自動評價。
隱私政策完整合規(guī)的前提是其符合且滿足相關(guān)法規(guī)的要求。目前,歐盟GDRR、美國《聯(lián)邦貿(mào)易委員會法》[51](FTC Act)和日本《個人信息保護法》[52]等各國(地區(qū))法律法規(guī)均對個人信息的保護和使用方式給出了相應(yīng)規(guī)定。我國信息安全標(biāo)準(zhǔn)化技術(shù)委員會制定的《信息安全技術(shù) 個人信息安全規(guī)范》(GB/T 35273-2020)(以下簡稱《規(guī)范》)也規(guī)定了個人信息的收集、存儲和使用等活動應(yīng)遵循的原則和安全要求,并規(guī)定了互聯(lián)網(wǎng)制定和應(yīng)用隱私政策的方式,即隱私政策應(yīng)清晰完整地羅列出互聯(lián)網(wǎng)企業(yè)平臺方將如何處理用戶個人信息,并給出了隱私政策編寫范本與要求,是目前我國針對維護互聯(lián)網(wǎng)個人信息安全最權(quán)威的規(guī)定。
針對APP隱私政策的完整性,本研究首先根據(jù)《規(guī)范》的隱私政策要求,考慮信息的流轉(zhuǎn)生命周期[53],結(jié)合隱私政策主要內(nèi)容,提煉出信息收集、信息保存、信息使用和用戶權(quán)利4個大類和12個隱私文本分類類別,作為隱私政策文本數(shù)據(jù)集標(biāo)注的標(biāo)簽,如圖1所示。隨后利用神經(jīng)網(wǎng)絡(luò)構(gòu)造APP隱私政策分類模型對其進行分類實驗,實現(xiàn)隱私政策條款的自動分類識別,并在對分類結(jié)果進行評估后,利用L2歸一化對待測試APP的完整性得分進行量化計算。
圖1 隱私政策完整性內(nèi)容框架
分類實驗流程分為3個步驟:首先,收集并標(biāo)注APP隱私政策,作為實驗輸入數(shù)據(jù)集;其次,分別構(gòu)建一次性多分類法和雙層級聯(lián)分類法,用多個模型對隱私文本數(shù)據(jù)集進行訓(xùn)練與預(yù)測分類;最后,比對分類結(jié)果,選出效果最佳的分類模型,作為隱私政策自動分類評價的實證工具。
在模型選擇上,一次性多分類法和雙層級聯(lián)分類法都采用了word2vec[42]和Bert[41]兩種融合了語義的文本表示模型,并組合CNN[43]、LSTM[44]和BiLSTM[45]3種深度神經(jīng)網(wǎng)絡(luò)分類模型,進行隱私政策分類。Word2vec模型是谷歌開源的詞向量工具,是一種淺層神經(jīng)網(wǎng)絡(luò)模型,其利用詞語的上下文使得向量表示的語義含義更加豐富。其基本原理如圖2所示。
圖2 Word2vec算法原理
Bert是谷歌在大量文本資料上訓(xùn)練起來的預(yù)訓(xùn)練模型,其核心編碼器層是由多層Transformers編碼器組成的,如圖3所示。由于在直接用于下游任務(wù)前已經(jīng)獲得了對大量自然語言的了解,Bert模型進行訓(xùn)練時僅需要對其參數(shù)進行微調(diào),再添加上輸出層,就已經(jīng)可以獲得比以往傳統(tǒng)模型更好的結(jié)果。使用Bert模型可以直接獲得文本分類結(jié)果,也可以作為詞嵌入層獲取高維詞向量。
圖3 Bert模型結(jié)構(gòu)
CNN文本分類模型包含輸入層、卷積層、池化層、全連接層和Softmax輸出層。
長短時神經(jīng)記憶網(wǎng)絡(luò)(LSTM)和雙向長短記憶網(wǎng)絡(luò)(BiLSTM)可以將上一時刻的輸出信息和當(dāng)前數(shù)據(jù)的輸入作為當(dāng)前時刻的輸入信息,經(jīng)過處理,將當(dāng)前時刻的輸出信息再作為下一時刻的輸入信息,達成選擇性地記憶或遺忘信息的目的。
如圖4所示,一次性分類法分別使用Word2vec和Bert對隱私政策文本進行向量化表示,并后接3種分類模型進行隱私政策文本一次性十二分類。需要指出,Bert模型既可以作為文本表示方法輸出多維詞向量,也可以單獨作為文本分類方法實現(xiàn)多分類。
圖4 一次性多分類法
如圖5所示,雙層級聯(lián)分類法同樣分別采用Word2vec和Bert作為文本向量表示方法,依托于可分成兩層樹狀結(jié)構(gòu)的數(shù)據(jù)集,首層先將文本分為差異明顯的大類別,第二層中再將每個大類別下都細分小類。在模型設(shè)計中,先對首層的大類別實現(xiàn)文本粗分類,再對每個大類別下的細分類分別訓(xùn)練小分類器,最終獲得文本多分類的結(jié)果。
圖5 級聯(lián)多分類法
《規(guī)范》中提煉出的隱私政策內(nèi)容框架代表著一篇完整的隱私政策應(yīng)當(dāng)包含的內(nèi)容,完整合規(guī)的隱私政策應(yīng)當(dāng)在覆蓋《規(guī)范》要求的同時,盡可能詳細地陳述對用戶各項隱私信息收集和使用的方式,即各個分類標(biāo)簽下條款數(shù)目相對較多的隱私政策完整性更高。因此,本文將隱私政策完整性的評價量化為不同內(nèi)容類別數(shù)量的比較,即從不同APP隱私政策內(nèi)容出發(fā),將隱私政策文本各個類別的文本內(nèi)容相對含量作為APP隱私政策評價的判斷依據(jù)。研究利用L2范式歸一化(式(1))的思想,將對應(yīng)APP類型中不同標(biāo)簽的APP的隱私條款數(shù)進行歸一化處理后映射到(0,10)區(qū)間內(nèi)并求和,得到APP隱私政策完整性得分。
(1)
式中,xi,j表示同一分類下APPi(如18*郵箱)在隱私類別j(如未成年人信息)下的隱私政策條數(shù);Scorei表示APPi最終的完整性得分。
本文計劃選擇艾瑞數(shù)據(jù)APP應(yīng)用獨立設(shè)備排行榜下與用戶隱私強相關(guān)的8種類別中排名前列的APP,如表1所示,采用人工錄入的方式對隱私政策條款進行采集,共收集得到80個APP隱私政策的14 000余條政策條款。
表1 實驗收集隱私政策文本來源APP
在根據(jù)圖1隱私政策完整性內(nèi)容框架中的12種類別和4種大類作為分類標(biāo)簽,對采集到的APP隱私條款進行人工標(biāo)注和格式處理后,共獲得約14 000條無重復(fù)有標(biāo)簽文本作為初始數(shù)據(jù)集,如表2所示。
考慮到數(shù)據(jù)不平衡的問題,在進行過采樣處理后得到了以下包括約30 000條帶標(biāo)簽隱私政策條款的數(shù)據(jù)集,如表2所示。
對數(shù)據(jù)集的格式與分布進行基本處理后,為了進行詞嵌入,還需要對數(shù)據(jù)集進行文本預(yù)處理。由于Bert模型自帶文本預(yù)處理的特性,輸入Bert的數(shù)據(jù)集不需要預(yù)先進行太多調(diào)整。但Word2vec模型仍需要通過NLTK工具包[47]進行去停用詞、標(biāo)注詞性和分詞3個預(yù)處理步驟,才能獲得用于分類訓(xùn)練的詞向量。
實驗采用Python語言,主要使用Keras[46]深度學(xué)習(xí)框架,將預(yù)處理后的文本數(shù)據(jù)分別輸入一次性多分類模型和雙層級聯(lián)分類模型進行訓(xùn)練。在對模型結(jié)構(gòu)和參數(shù)進行多輪優(yōu)化調(diào)整后,得到不同模型的分類結(jié)果如表3、表4所示。
表3 一次性多分類法模型最佳結(jié)果
表4 雙層級聯(lián)分類法粗分類最佳結(jié)果
一次性多分類模型中,Bert作為文本向量表示模型的效果均優(yōu)于Word2vec,此外,單獨的Bert、Bert+CNN和Bert+att+BiLSTM 3種模型均能取得較高得分。
如表4所示,在級聯(lián)分類的第一層粗分類中,Bert的準(zhǔn)確率和F1值均最高,因此將Bert模型作為細分類文本向量表示的基礎(chǔ)。
基于粗分類的最佳模型結(jié)果,在細分類中,選擇CNN、LSTM和BiLSTM 3個模型來承接Bert模型輸出的向量,對4個粗分類下的子類別分別訓(xùn)練小分類器。最終細分類的準(zhǔn)確率與F1值由4個小分類器按類別權(quán)重合并計算得出,如表5、表6所示。
表5 雙層級聯(lián)分類法細分類中子分類器的最佳實驗結(jié)果
表6 雙層級聯(lián)分類法細分類最佳實驗結(jié)果
將粗分類和細分類的實驗評價指標(biāo)分別相乘,即可得到級聯(lián)分類的準(zhǔn)確率與F1值結(jié)果,如表7所示。
表7 雙層級聯(lián)分類法最佳實驗結(jié)果
可以看出,粗分類和細分類準(zhǔn)確率均較低,粗分類的準(zhǔn)確率最高僅有90%,除“信息使用”子分類器的分類準(zhǔn)確率在84%左右外,其他子分類器準(zhǔn)確率也均在90%左右。在本實驗中,無論是十二分類還是四分類,用Bert和Bert+CNN進行十二分類的實驗效果明顯比其他方法都好。在十二分類實驗中,Bert模型的準(zhǔn)確率比Bert+CNN稍低,但F1值比Bert+CNN略高。一次性進行十二多分類的實驗的效果遠好于雙層級聯(lián)分類,推測其原因是數(shù)據(jù)集標(biāo)注質(zhì)量的限制,導(dǎo)致首層粗分類的準(zhǔn)確率不及預(yù)期,對接下來的模型銜接產(chǎn)生了較大的負面影響?;谏衔闹刑岬降臏?zhǔn)確率可能存在的弊端,并且以四分類中Bert的準(zhǔn)確率與F1值都比Bert+CNN更高作為側(cè)面依據(jù),認為使用Bert進行一次性十二分類是在本次實驗中效果表現(xiàn)最佳的隱私文本分類方法。
基于之前分類模型的效果,實驗將選擇使用Bert模型從8種分類中分別選擇一個對應(yīng)的APP,如表8所示,用前文收集的共80個APP隱私政策文本作為訓(xùn)練集,對這8個APP的隱私政策文本進行分類預(yù)測并評價其隱私政策完整性。
表8 用于評價的隱私政策文本來源APP
利用Bert對待測APP進行分類后結(jié)果如表9所示。
表9 APP隱私政策文本分類結(jié)果
縱向?qū)Ρ仁侵阜謩e對8個APP在其所屬APP分類中的內(nèi)容含量水平對比。從標(biāo)注結(jié)果推測,不
同類別的APP隱私政策表現(xiàn)存在較大差異,因此實驗比較同類型的APP隱私政策文本相對數(shù)量,利用式(1)計算得到待測APP的完整性得分,如表10、圖6所示。
圖6 8個APP隱私政策完整性對比
表10 8個APP隱私政策完整性得分
可以看出,與同類型的APP進行比較,轉(zhuǎn)*的隱私政策所包含的內(nèi)容詳細且完整;18*郵箱和智*火車票在同類型APP中也處于領(lǐng)先地位,但少數(shù)內(nèi)容仍有一定欠缺;隨手*表現(xiàn)平平,能夠?qū)Α兑?guī)范》中提出的大部分隱私政策內(nèi)容進行詳細描述;而蝸*睡眠、天*社區(qū)、簡*和星巴*表現(xiàn)很差,部分條款大量缺失,亟需補充完善隱私政策。
本部分旨在對不同類別的APP隱私政策完整性進行比較分析。與縱向?qū)Ρ阮愃疲瑢嶒瀸Σ煌愋偷腁PP隱私政策文本數(shù)量平均值進行L2范式歸一化(式(1))后映射到(0,10)區(qū)間內(nèi)并求和,得到不同類別APP隱私政策完整性得分。結(jié)果如表11、圖7所示。
圖7 不同類別APP隱私政策完整性對比
表11 各類別APP隱私政策完整性得分
可以看出,不同類型的APP在隱私政策文本的完整性評價上,呈現(xiàn)出不同的特點。電子商務(wù)類APP呈現(xiàn)領(lǐng)跑局面,除了對個人信息收集的描述略有不足;同樣涉及金錢的金融理財類APP則同樣在安全風(fēng)險上表現(xiàn)十分突出;旅游出行、美食外賣、社交網(wǎng)絡(luò)三類APP在隱私政策內(nèi)容對比中處于中游水平;健康醫(yī)療類APP僅著重介紹了信息使用方面的條款,而忽視了用戶對隱私保護與維護權(quán)益的需求;通訊聊天類APP僅在“個人信息存儲”與“參與管理權(quán)利”兩種類別上得分較高,需要進行大范圍改動優(yōu)化;拍攝美化類APP的表現(xiàn)尤為不足,各項得分均較低,對《規(guī)范》中隱私政策范例的實踐普遍表現(xiàn)不佳,需要行業(yè)整體對隱私政策進行整改。
為了驗證基于文本分類方法完整性評價的結(jié)果,研究分別縱向?qū)Ρ戎型暾缘梅肿罡吆妥畹偷霓D(zhuǎn)*和星巴*APP隱私政策,直接對照《規(guī)范》中給出的隱私政策編寫要求進行人工復(fù)核,二次驗證分類和完整性得分計算方法的有效性。
經(jīng)過人工比對,轉(zhuǎn)*的隱私政策內(nèi)容基本符合要求,僅有一些細節(jié)有所遺漏,如未描述提供個人信息后可能存在的安全風(fēng)險,未表明在發(fā)生個人信息安全后平臺方將承擔(dān)法律責(zé)任。此外,轉(zhuǎn)*在隱私政策中指出其隱私政策所涉及的個人信息與個人敏感信息內(nèi)容參考自《規(guī)范》,與本文中的完整性評價使用了同一參考法規(guī)。對比結(jié)果與通過文本分類獲得的評價結(jié)果相符。
星巴*的隱私政策在各個內(nèi)容類別都缺漏較多,隱私政策文本撰寫得比較簡單。在信息收集方面,除了未對“安全風(fēng)險/負面影響”進行說明外并沒有明顯不足。在信息存儲方面,星巴*沒有詳細說明平臺方對個人信息保護的措施,未如編寫要求中所述列舉出遵循的個人信息安全協(xié)議和取得的認證,也沒有注明個人信息的存儲時間,說辭含糊不清。對于較為細節(jié)的信息安全事件發(fā)生后平臺方的擔(dān)責(zé)與對用戶的告知方式,也只字未提。在信息使用方面,星巴*未提及關(guān)于響應(yīng)用戶請求的部分。雖然在隱私政策中說明了對用戶的個人信息可能會存在跨境傳送和訪問的情況,但并未按要求詳細說明需要跨境傳輸?shù)臄?shù)據(jù)類型以及將遵循的跨境規(guī)范,僅說明了會有跨境動作,未介紹詳情。在用戶權(quán)利方面,星巴*僅給出了平臺方的聯(lián)系方式,但沒有給出對出現(xiàn)無法輕易和解的爭端時的解決方法,如申請外部爭議解決機構(gòu)審議等??傮w來看,其隱私政策的特點是僅有大框架,而重要細節(jié)模糊不清。在政策中常使用“適當(dāng)”“合理”等詞匯來概括性說明,對具體情形沒有詳細列舉。體現(xiàn)在上文的橫向比較與縱向比較結(jié)果中,即可以看到不同類別的文本內(nèi)容數(shù)量均較低,導(dǎo)致評分極低。星巴*隱私政策的人工比對結(jié)果同樣與基于文本分類的完整性評價得分結(jié)果基本吻合。
本文基于體現(xiàn)上下文語義的BERT模型應(yīng)用于APP隱私政策完整性評價中,在能夠保證文本分類效果的前提下,提出準(zhǔn)確高效的隱私政策完整性評價體系和方法。以上分析結(jié)果表明,首先,使用文本分類方法對隱私政策文本進行完整性評價,能夠得出與人工比對法律規(guī)范近似的結(jié)論,基本能夠體現(xiàn)出不同APP隱私政策的完整性表現(xiàn),文章提出的基于BERT文本分類和L2范式歸一化的完整性得分計算方法基本有效。在8個用于隱私政策評價的APP中,隱私政策完整性的得分表現(xiàn)可以分為4個梯隊。不同類別APP隱私政策文本在編寫上各有特點,如電子商務(wù)類APP隱私政策的內(nèi)容更為完善,但同樣與用戶財產(chǎn)掛鉤的金融理財類型APP在完整性上則有所差距,拍攝美化類APP則對隱私政策的編寫要求不夠重視,不能達到《規(guī)范》中的隱私政策內(nèi)容標(biāo)準(zhǔn)。其次,基于BERT的文本分類模型能夠在隱私政策完整性研究中取得很好的效果,其十二分類的F1值達到0.8489,證明利用BERT模型的文本分類方法來進行隱私政策完整性評價研究有其合理性和準(zhǔn)確性。
此外,本研究將在以下方面進一步探索。首先,實驗樣本數(shù)據(jù)量不夠大,不足以發(fā)揮預(yù)訓(xùn)練模型的特點,同時CNN等傳統(tǒng)神經(jīng)網(wǎng)絡(luò)需要多次Epoch訓(xùn)練才能收斂,對于部分數(shù)據(jù)可能存在方差較高的問題。未來可以收集更多APP的隱私政策文本作為訓(xùn)練集,讓模型能夠?qū)W習(xí)到更多隱私政策文本特征,提升模型效果。其次,分類實驗中文本粒度較大,僅對隱私政策條款進行了分類研究,體現(xiàn)隱私政策文本的語義特征不充分??梢酝ㄟ^命名實體識別和知識抽取等方法獲取隱私政策中涉及到的具體隱私保護規(guī)則和信息,進一步判斷其隱私保護力度和合法性。