程 玲 聶羅娜
(江西警察學(xué)院,江西 南昌 330100)
大數(shù)據(jù)時(shí)代的到來(lái),使得裁判文書(shū)、資料從傳統(tǒng)紙質(zhì)轉(zhuǎn)變?yōu)榱穗娮有问?,而且信息技術(shù)的應(yīng)用,也使得政法信息數(shù)據(jù)呈現(xiàn)出了爆發(fā)式增長(zhǎng)態(tài)勢(shì),巨大的數(shù)據(jù)信息資源給實(shí)際工作的開(kāi)展帶來(lái)了較大壓力。因此業(yè)內(nèi)針對(duì)政法信息平臺(tái)的研究主要集中在信息檢索服務(wù)方面,但由于公安信息其本身的特殊性,要求其不得主動(dòng)對(duì)外輸出,雖然各政法部門(mén)內(nèi)部的信息系統(tǒng)得到了集中管理,但是仍然不能夠滿足部門(mén)間的信息查詢共享需求,為解決這一問(wèn)題,文章從異構(gòu)數(shù)據(jù)源角度入手,針對(duì)信息共享平臺(tái)數(shù)據(jù)預(yù)處理展開(kāi)分析,對(duì)于打破政法部門(mén)信息共享壁壘有著重要意義。
異構(gòu)數(shù)據(jù)源是指不同數(shù)據(jù)庫(kù)管理系統(tǒng)間的數(shù)據(jù)。在信息化建設(shè)的過(guò)程中,由于不同業(yè)務(wù)系統(tǒng)以及實(shí)際管理系統(tǒng)的建設(shè)時(shí)間、方式、技術(shù)水平等各不相同,而且還存在其他經(jīng)濟(jì)、人為等多方面因素影響,在長(zhǎng)期積累之下,形成的大量業(yè)務(wù)數(shù)據(jù)其存儲(chǔ)方式、管理系統(tǒng)等均存在較大差異,不僅存在簡(jiǎn)單的文件數(shù)據(jù)庫(kù),還存在復(fù)雜的網(wǎng)絡(luò)數(shù)據(jù)庫(kù),這些共同形成了異構(gòu)數(shù)據(jù)源。數(shù)據(jù)源的異構(gòu)性主要表現(xiàn)在以下三個(gè)方面:第一,系統(tǒng)異構(gòu),即數(shù)據(jù)源所在的業(yè)務(wù)系統(tǒng)、數(shù)據(jù)庫(kù)管理系統(tǒng)以及操作系統(tǒng)之間各不相同,而表現(xiàn)出的系統(tǒng)異構(gòu);第二,模式異構(gòu),是指數(shù)據(jù)源存儲(chǔ)模式不同,存在關(guān)系模式、對(duì)象模式等多種形式;第三,來(lái)源異構(gòu),即數(shù)據(jù)來(lái)源不同[1]。
政法數(shù)據(jù)主要是由公安局、檢察院、法院以及司法局?jǐn)?shù)據(jù)共同組成。在實(shí)際進(jìn)行數(shù)據(jù)信息交換的過(guò)程中,多通過(guò)接口定制開(kāi)發(fā)以及人工方式進(jìn)行傳輸共享,因此相應(yīng)數(shù)據(jù)信息共享效率較低,也無(wú)法對(duì)其進(jìn)行科學(xué)監(jiān)控和管理,極大地增加了實(shí)際工作成本、降低了信息查詢效率,對(duì)于實(shí)際工作有著不良影響。通過(guò)對(duì)政法信息的研究和調(diào)研,發(fā)現(xiàn)與其他行業(yè)或者部門(mén)相比,政法數(shù)據(jù)信息存在以下明顯特征,使得其數(shù)據(jù)源異構(gòu)性更為突出。
1.地域性。政法數(shù)據(jù)涉及的范圍相對(duì)較為廣泛,而不同片區(qū)的涉案人數(shù)、案發(fā)地以及作案特點(diǎn)等各不相同,因此形成的數(shù)據(jù)也不同,有著極強(qiáng)的地域性特點(diǎn)。
2.影響因素多。政法數(shù)據(jù)主要是由案件數(shù)據(jù)組成的,而案件數(shù)據(jù)會(huì)受到社會(huì)生活、季節(jié)、天氣以及時(shí)間段的影響。其中以時(shí)變性較為突出,案件發(fā)生的數(shù)據(jù)特點(diǎn)、數(shù)據(jù)量等,與時(shí)間之間有著密切的關(guān)系,會(huì)隨著時(shí)間的改變而發(fā)生變化,不僅包括每個(gè)小時(shí)、周、月,而且有著明顯的季節(jié)性特征,也會(huì)隨年發(fā)生改變,并伴有一定周期性,在沒(méi)有受到突發(fā)事件的影響時(shí),基本能夠維持其周期性特點(diǎn)。
3.數(shù)據(jù)量龐大。每年發(fā)生在全國(guó)各地的刑事案件非常多,由此產(chǎn)生的數(shù)據(jù)信息,包括人、時(shí)間、事件、地點(diǎn)以及組織、機(jī)構(gòu)等,積累的數(shù)據(jù)量也非常龐大。
4.干擾數(shù)據(jù)多。由于數(shù)據(jù)收集的時(shí)間、方式不同,部分?jǐn)?shù)據(jù)是基層人員通過(guò)人工方式獲取的,如文字記錄、圖片拍攝等,而將數(shù)據(jù)信息錄入系統(tǒng)的是另一部分人,因此數(shù)據(jù)錄入過(guò)程中可能會(huì)存在偏差問(wèn)題,影響數(shù)據(jù)的真實(shí)性,尤其是在出現(xiàn)突發(fā)事件時(shí),或者關(guān)鍵線索無(wú)法及時(shí)獲取、關(guān)聯(lián)時(shí),就會(huì)導(dǎo)致案件數(shù)據(jù)失去價(jià)值。
基于政法數(shù)據(jù)其本身的異構(gòu)特點(diǎn),給政法信息共享帶來(lái)了極大的影響,想要實(shí)現(xiàn)數(shù)據(jù)的高效共享,在進(jìn)行數(shù)據(jù)信息資源整合的過(guò)程中,需要對(duì)異構(gòu)數(shù)據(jù)源進(jìn)行事先預(yù)處理,然后再將其引入政法信息共享平臺(tái)的數(shù)據(jù)庫(kù)當(dāng)中,以此確保各執(zhí)法部門(mén)之間能夠按照實(shí)際需求以及權(quán)限等級(jí),合理合法地獲取相應(yīng)政法信息,切實(shí)實(shí)現(xiàn)政法數(shù)據(jù)共享[2]。
政法信息共享平臺(tái)數(shù)據(jù)預(yù)處理系統(tǒng)結(jié)構(gòu)主要包括異構(gòu)數(shù)據(jù)源采集以及數(shù)據(jù)預(yù)處理兩個(gè)部分,政法信息共享平臺(tái)搭建在信息共享區(qū)域內(nèi),信息流從公安局、法院、檢察院以及司法局等各個(gè)政法部門(mén),通過(guò)政法專線,然后穿越共享平臺(tái)邊界保護(hù)區(qū),將其收集到政法信息共享平臺(tái)當(dāng)中,共享平臺(tái)對(duì)異構(gòu)數(shù)據(jù)源進(jìn)行預(yù)處理,進(jìn)而形成信息共享平臺(tái)數(shù)據(jù)庫(kù)。整個(gè)信息共享平臺(tái)不僅包括元數(shù)據(jù)管理、調(diào)度管理、日志管理以及數(shù)據(jù)傳輸管理,同時(shí)還包括數(shù)據(jù)監(jiān)控功能。
根據(jù)政法數(shù)據(jù)的異構(gòu)特點(diǎn),異構(gòu)數(shù)據(jù)信息源的采集主要包括以下兩種方式:其一為大數(shù)據(jù)量實(shí)時(shí)同步采集,其二為普通定時(shí)采集。其中,前者主要應(yīng)用在數(shù)據(jù)量較大的數(shù)據(jù)源端,多用于對(duì)實(shí)時(shí)性要求較高的數(shù)據(jù)采集當(dāng)中,在進(jìn)行采集和抽取的過(guò)程中,需要源數(shù)據(jù)端開(kāi)放高級(jí)權(quán)限;而普通定時(shí)同步采集則需要數(shù)據(jù)源端開(kāi)放權(quán)限,然后定時(shí)進(jìn)行高頻率數(shù)據(jù)同步,若無(wú)法開(kāi)放權(quán)限,則需要使用低頻數(shù)據(jù)同步方式。
此外,由于政法數(shù)據(jù)來(lái)源廣泛,為保障數(shù)據(jù)收集質(zhì)量和效率,在進(jìn)行預(yù)處理的過(guò)程中,還需另外設(shè)置規(guī)則庫(kù)策略,通過(guò)對(duì)數(shù)據(jù)信息的規(guī)范化處理,以此保障數(shù)據(jù)的完整、真實(shí)和一致,為后續(xù)政法數(shù)據(jù)信息的共享奠定良好基礎(chǔ)。
經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的政法數(shù)據(jù)需要存入共享平臺(tái)數(shù)據(jù)庫(kù)當(dāng)中,為保障后續(xù)數(shù)據(jù)調(diào)取應(yīng)用的便利性,數(shù)據(jù)管理的高效性,需要按照不同業(yè)務(wù)特點(diǎn)、要求,對(duì)數(shù)據(jù)資源庫(kù)進(jìn)行合理劃分,以供不同業(yè)務(wù)系統(tǒng)使用。在進(jìn)行數(shù)據(jù)使用時(shí),需要對(duì)數(shù)據(jù)變化情況進(jìn)行定時(shí)捕獲、加載轉(zhuǎn)換,并經(jīng)過(guò)整合處理后,方可入庫(kù)。
在進(jìn)行數(shù)據(jù)采集、預(yù)處理、管理以及存儲(chǔ)的過(guò)程中,系統(tǒng)能夠自動(dòng)生產(chǎn)相應(yīng)操作日志,并通過(guò)建立監(jiān)控管理平臺(tái),實(shí)現(xiàn)對(duì)于數(shù)據(jù)操作處理方面的管控,并對(duì)數(shù)據(jù)行為進(jìn)行分析和監(jiān)控預(yù)警。
基于上述方法構(gòu)建的信息共享平臺(tái)數(shù)據(jù)預(yù)處理系統(tǒng),采用了多層可擴(kuò)展框架模式,在維護(hù)管理方面有著較高的便利性,而且還具有較強(qiáng)的可擴(kuò)展空間和能力,符合政法數(shù)據(jù)特點(diǎn),以及信息共享要求。
基于政法數(shù)據(jù)其本身的異構(gòu)性特點(diǎn),數(shù)據(jù)預(yù)處理的主要目的就是實(shí)現(xiàn)數(shù)據(jù)的有機(jī)提取、整理,以及臟數(shù)據(jù)的檢測(cè)和處理,以此確保被納入數(shù)據(jù)庫(kù)中的數(shù)據(jù)信息的準(zhǔn)確性、可靠性以及完整性,為后續(xù)政法信息的共享奠定良好基礎(chǔ)。就目前實(shí)際情況來(lái)看,數(shù)據(jù)預(yù)處理主要是借助規(guī)則函數(shù)實(shí)現(xiàn)的,但是此類處理工具存在可擴(kuò)展性較差、動(dòng)態(tài)數(shù)據(jù)預(yù)處理能力較差等方面的問(wèn)題,會(huì)對(duì)數(shù)據(jù)預(yù)處理的質(zhì)量和效率造成極大影響。對(duì)此,結(jié)合政法異構(gòu)數(shù)據(jù)源實(shí)際情況,著重從數(shù)據(jù)預(yù)處理框架、數(shù)據(jù)抽取、整理以及數(shù)據(jù)庫(kù)的設(shè)計(jì)四個(gè)方面展開(kāi)分析[3]。
2.3.1 處理框架
異構(gòu)數(shù)據(jù)源下的數(shù)據(jù)預(yù)處理存在較大難度,為保障數(shù)據(jù)處理效果,提出了基于規(guī)則庫(kù)的多級(jí)交互式數(shù)據(jù)預(yù)處理模式。該框架模式下的數(shù)據(jù)預(yù)處理流程主要包括以下幾個(gè)步驟:第一,根據(jù)不同特定業(yè)務(wù)數(shù)據(jù),組織行業(yè)專家以及操作人員展開(kāi)訪談,并結(jié)合實(shí)際業(yè)務(wù)情況,明確第一級(jí)預(yù)處理指標(biāo),然后對(duì)錯(cuò)誤分類信息進(jìn)行整理,進(jìn)而形成錯(cuò)誤分類字典,確定預(yù)處理規(guī)則,并制定基礎(chǔ)規(guī)則庫(kù);第二,選取相應(yīng)樣本數(shù)據(jù),按照基于規(guī)則庫(kù)進(jìn)行二級(jí)預(yù)處理,先對(duì)樣本數(shù)據(jù)集進(jìn)行數(shù)據(jù)檢測(cè),并針對(duì)相應(yīng)算法以及規(guī)則進(jìn)行評(píng)估,從中選擇最佳預(yù)處理規(guī)則,并通過(guò)數(shù)據(jù)學(xué)習(xí)、規(guī)則學(xué)習(xí),形成動(dòng)態(tài)預(yù)處理規(guī)則,以此進(jìn)行數(shù)據(jù)的二級(jí)預(yù)處理;第三,三級(jí)預(yù)處理,主要是根據(jù)相應(yīng)業(yè)務(wù)需求,在數(shù)據(jù)庫(kù)中進(jìn)行數(shù)據(jù)抽取,并結(jié)合實(shí)際抽取問(wèn)題,進(jìn)行算法調(diào)整、規(guī)則維護(hù)等,最后評(píng)估預(yù)處理效果,找到規(guī)則當(dāng)中的漏洞,結(jié)合實(shí)際需求,在相應(yīng)預(yù)處理環(huán)節(jié)當(dāng)中,加入其他算法或者預(yù)處理規(guī)則等,完成預(yù)處理。
2.3.2 數(shù)據(jù)抽取
相應(yīng)數(shù)據(jù)預(yù)處理規(guī)則,是在連續(xù)樣本訓(xùn)練的基礎(chǔ)上建立起來(lái)的,能夠有效提高后續(xù)數(shù)據(jù)抽取的質(zhì)量。在進(jìn)行數(shù)據(jù)抽取的過(guò)程中,通過(guò)預(yù)處理規(guī)則庫(kù)進(jìn)行預(yù)處理策略匹配,然后將數(shù)據(jù)分布嵌入相應(yīng)的應(yīng)用系統(tǒng)當(dāng)中,除了需要對(duì)少量錯(cuò)誤數(shù)據(jù)進(jìn)行匯總處理外,大體上能夠?qū)崿F(xiàn)對(duì)于政法異構(gòu)數(shù)據(jù)源的規(guī)范處理,為后續(xù)數(shù)據(jù)的進(jìn)一步應(yīng)用奠定了良好的基礎(chǔ)。
在進(jìn)行數(shù)據(jù)抽取時(shí),需要基于觸發(fā)詞算法對(duì)文書(shū)段落進(jìn)行劃分,觸發(fā)詞主要包括開(kāi)始、結(jié)束兩種,在進(jìn)行數(shù)據(jù)抽取的過(guò)程中,若匹配到某段落當(dāng)中的開(kāi)始觸發(fā)詞,則認(rèn)為該段落開(kāi)始,直至匹配到結(jié)束觸發(fā)詞,或者下一個(gè)開(kāi)始觸發(fā)詞為止。然后進(jìn)行關(guān)鍵詞的抽取,抽取流程主要包括以下四個(gè)步驟:第一,對(duì)文書(shū)進(jìn)行拆分,將其劃分為數(shù)字、字母以及字符等不同類型;第二,在拆分后的文本當(dāng)中,匹配所需要抽取的字符串,統(tǒng)計(jì)該字符串出現(xiàn)的次數(shù),以及文書(shū)中詞匯的總數(shù)量;第三,計(jì)算互信息;第四,獲取候選詞,進(jìn)行拆分匹配后,當(dāng)相鄰字之間的互信息大于閾值時(shí),繼續(xù)匹配,并計(jì)算互信息值,直至匹配到的互信息值小于閾值,并將這兩個(gè)字之間的字符串作為候選詞;第五,計(jì)算鄰接熵,通過(guò)判斷鄰接熵與閾值的大小關(guān)系,確定是否將其加入詞表當(dāng)中。
2.3.3 數(shù)據(jù)整理
在數(shù)據(jù)資源采集預(yù)處理完成之后需要將其統(tǒng)一收錄在共享平臺(tái)數(shù)據(jù)庫(kù)當(dāng)中,并對(duì)其進(jìn)行數(shù)據(jù)信息整理,為數(shù)據(jù)的儲(chǔ)存管理以及提取應(yīng)用奠定良好基礎(chǔ)。對(duì)此,應(yīng)結(jié)合實(shí)際數(shù)據(jù)信息情況特點(diǎn),構(gòu)建數(shù)據(jù)標(biāo)準(zhǔn)系統(tǒng),充分結(jié)合國(guó)家標(biāo)準(zhǔn)要求、部門(mén)標(biāo)準(zhǔn)要求以及省級(jí)標(biāo)準(zhǔn)要求,將現(xiàn)有的數(shù)據(jù)表結(jié)構(gòu)、代碼表、格式標(biāo)準(zhǔn)等納入數(shù)據(jù)資源庫(kù)當(dāng)中。
數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)方面,需要將當(dāng)前政法部分的信息化標(biāo)準(zhǔn)數(shù)據(jù)結(jié)構(gòu)進(jìn)行全面收集,不僅包括字段中英命名、數(shù)據(jù)類型、數(shù)據(jù)長(zhǎng)度,還應(yīng)包括相應(yīng)約束條件等,全部收錄導(dǎo)入共享平臺(tái)當(dāng)中。在數(shù)據(jù)代碼標(biāo)準(zhǔn)方面,政法系統(tǒng)當(dāng)中的各個(gè)部門(mén)已經(jīng)建立了業(yè)務(wù)系統(tǒng),而且不同系統(tǒng)有著獨(dú)屬于自己的系統(tǒng)代碼,對(duì)此,需要對(duì)現(xiàn)有代碼表進(jìn)行分析,并根據(jù)相關(guān)標(biāo)準(zhǔn)以及政法數(shù)據(jù)中心資源庫(kù),以及不同業(yè)務(wù)部門(mén)特色,制定新的代碼標(biāo)準(zhǔn),建立統(tǒng)一代碼庫(kù)管理平臺(tái)。在數(shù)據(jù)格式標(biāo)準(zhǔn)方面,由于政法數(shù)據(jù)格式類型相對(duì)較多,需要針對(duì)文件、數(shù)據(jù)庫(kù)等不同格式類型進(jìn)行標(biāo)準(zhǔn)制定,并明確加密存儲(chǔ)要求,如日期、時(shí)間、數(shù)據(jù)等方面的格式。此外,還需要根據(jù)國(guó)標(biāo)、部標(biāo)等相關(guān)標(biāo)準(zhǔn)要求,明確數(shù)據(jù)展示標(biāo)準(zhǔn),尤其是特殊字段類型的展示,應(yīng)進(jìn)行統(tǒng)一規(guī)定管理。最后,還需要對(duì)數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行定期維護(hù)管理,定期按照國(guó)標(biāo)、部標(biāo)等相關(guān)標(biāo)準(zhǔn)對(duì)各類數(shù)據(jù)結(jié)構(gòu)、代碼等在系統(tǒng)平臺(tái)當(dāng)中的標(biāo)準(zhǔn)規(guī)范進(jìn)行維護(hù),并對(duì)數(shù)據(jù)結(jié)構(gòu)、代碼的更新情況等進(jìn)行定時(shí)監(jiān)控。
2.3.4 數(shù)據(jù)庫(kù)設(shè)計(jì)
數(shù)據(jù)庫(kù)設(shè)計(jì)主要包括以下幾個(gè)方面:第一,資源目錄與任務(wù)調(diào)度控制部分表的設(shè)計(jì),主要包括資源目錄共享服務(wù)信息表,關(guān)聯(lián)調(diào)度控制任務(wù)表,以及屬性表、權(quán)限表和日志表等。第二,用戶系統(tǒng)與安全審計(jì)部分表設(shè)計(jì),主要包括用戶信息表、關(guān)聯(lián)日志表、權(quán)限表、安全審計(jì)表以及支持用戶管理和安全審計(jì)業(yè)務(wù)方面的表。第三,點(diǎn)對(duì)點(diǎn)交換與交換調(diào)度控制部分表設(shè)計(jì),主要包括部門(mén)資源目錄表、關(guān)聯(lián)調(diào)度控制數(shù)據(jù)同步表、點(diǎn)對(duì)點(diǎn)統(tǒng)計(jì)表,以及日志表、監(jiān)控表等。第四,共享信息目錄部分表設(shè)計(jì),主要包括數(shù)據(jù)共享信息表、共享數(shù)據(jù)來(lái)源表、權(quán)限表以及記錄表等。第五,接口與應(yīng)用配置部分表設(shè)計(jì),可通過(guò)分層設(shè)計(jì)方式,主要包括接口配置表、業(yè)務(wù)數(shù)據(jù)表以及查詢字段表等[4]。
綜上所述,政法數(shù)據(jù)信息其本身有著極強(qiáng)的多源異構(gòu)數(shù)據(jù)特點(diǎn),不僅數(shù)據(jù)來(lái)源不同,而且受到的影響因素較多,數(shù)據(jù)信息共享難度較大。因此,需要針對(duì)異構(gòu)數(shù)據(jù)源,對(duì)數(shù)據(jù)預(yù)處理系統(tǒng)進(jìn)行設(shè)計(jì)研究,基于規(guī)則庫(kù)的多元數(shù)據(jù)預(yù)處理系統(tǒng)設(shè)計(jì)方法,能夠在數(shù)據(jù)樣本訓(xùn)練不斷增加的情況下,逐漸完善規(guī)則庫(kù),提升數(shù)據(jù)預(yù)處理效果,保障數(shù)據(jù)抽取質(zhì)量,而且預(yù)處理速度相對(duì)較為穩(wěn)定,不會(huì)造成較大延遲影響。相信隨著度異構(gòu)數(shù)據(jù)源的深入研究,以及數(shù)據(jù)預(yù)處理系統(tǒng)的不斷優(yōu)化,政法信息共享平臺(tái)的應(yīng)用質(zhì)量和效率都將會(huì)得到極大提升。