沈紅雨/紹興文理學(xué)院
農(nóng)村治理是基層社會(huì)治理的重要內(nèi)容,農(nóng)村檔案管理是事關(guān)農(nóng)村經(jīng)濟(jì)建設(shè)和平安建設(shè)的重要基礎(chǔ)工作。然而至今農(nóng)村檔案管理仍然存在許多突出問(wèn)題,如檔案收集不完整、保管不集中、檔案工作發(fā)展不平衡等,特別是在村組織換屆選舉、行政村規(guī)模調(diào)整期間經(jīng)常出現(xiàn)檔案管理脫節(jié)、隨意處置、檔案散失等現(xiàn)象,給農(nóng)村工作尤其是社會(huì)治理工作帶來(lái)很多隱患。
造成以上問(wèn)題有村委的實(shí)際困難,如村務(wù)繁雜、村委人手有限,沒有精力去學(xué)習(xí)檔案整理知識(shí);由于歸檔文件得不到有效管理,工作人員使用歸檔材料非常不方便,進(jìn)一步使得歸檔沒有積極性,文件不如自存自用自管,時(shí)日一久自然散失了。
解決以上問(wèn)題,除了需要管理層面上對(duì)癥下藥,在技術(shù)層面上設(shè)計(jì)一個(gè)好用好查的農(nóng)村檔案管理系統(tǒng)也是關(guān)鍵。
關(guān)聯(lián)數(shù)據(jù)技術(shù)可以用基于深度學(xué)習(xí)的模型,對(duì)全文進(jìn)行實(shí)體識(shí)別、句法分析,將語(yǔ)言特征轉(zhuǎn)化為分布式表示,進(jìn)行實(shí)體與關(guān)系抽取,構(gòu)建語(yǔ)義關(guān)聯(lián),從而達(dá)成信息按主題呈現(xiàn)的功能。農(nóng)村檔案中,運(yùn)用關(guān)聯(lián)數(shù)據(jù)技術(shù)可以將檔案與歸檔條款作關(guān)聯(lián),實(shí)現(xiàn)檔案自動(dòng)分類;可以將檔案信息以村民為核心,以村民生產(chǎn)、生活情況為主題聚類呈現(xiàn),由此大大提升檔案信息的組織能力。
在語(yǔ)義識(shí)別中,語(yǔ)義規(guī)則和實(shí)體變化越豐富,訓(xùn)練語(yǔ)料庫(kù)所需的數(shù)據(jù)量就越大,對(duì)深度學(xué)習(xí)算法的要求就越高;反之語(yǔ)義規(guī)則和實(shí)體越明確,識(shí)別成本就越低。因此通過(guò)構(gòu)建語(yǔ)義規(guī)則模板,通過(guò)模板和字符串匹配來(lái)完成識(shí)別,人工明確的實(shí)體字典和關(guān)系規(guī)則越多,識(shí)別就越容易。村民、地理位置和事由是農(nóng)村檔案關(guān)聯(lián)性呈現(xiàn)的核心點(diǎn),本文提出了通過(guò)將語(yǔ)義模糊的實(shí)體明確成相應(yīng)的數(shù)據(jù)字典,實(shí)現(xiàn)簡(jiǎn)單的結(jié)構(gòu)化數(shù)據(jù)關(guān)聯(lián),到建立本體模型實(shí)現(xiàn)語(yǔ)義關(guān)聯(lián)的技術(shù)進(jìn)階路徑。此種輕量化關(guān)聯(lián)技術(shù)大大提升了檔案信息的聚類能力,系統(tǒng)以面向深度語(yǔ)義識(shí)別為開發(fā)基礎(chǔ),有良好的升級(jí)空間。以此供當(dāng)下具有不同經(jīng)濟(jì)條件和技術(shù)條件的鄉(xiāng)鎮(zhèn)作參考。
不少農(nóng)村尚未實(shí)現(xiàn)文檔一體化在線管理,紙質(zhì)檔案仍需手動(dòng)整理錄入,農(nóng)村檔案管理系統(tǒng)首要考慮歸檔操作簡(jiǎn)易性。
事由是各工作線最熟悉的文件聯(lián)系性。事由可以指一件具體的事,或一個(gè)具體的問(wèn)題,或一段較緊密的工作過(guò)程等[1]。根據(jù)事由原則,檔案是有關(guān)一個(gè)“事由”的檔案文件的集合。文件以事由為單位進(jìn)行歸檔最易被掌握,也符合檔案整理的規(guī)范。
系統(tǒng)允許用戶根據(jù)國(guó)家檔案局《村級(jí)文件材料歸檔范圍和檔案保管期限表》設(shè)置本村立卷目錄字典,農(nóng)村工作由黨建、行政、婦女、基建、會(huì)計(jì)等各條工作線組成,立卷目錄按工作線分塊,目錄內(nèi)容包括立卷?xiàng)l款類別、條款名稱、其相對(duì)應(yīng)的保管期限和檔案分類號(hào)。歸檔條款依據(jù)作者、主題和文種確定。系統(tǒng)允許設(shè)置諸如“糾紛”“山地承包”等事由標(biāo)簽(類似于主題詞),在立卷目錄字典中將事由標(biāo)簽結(jié)合作者和文種置入對(duì)應(yīng)的歸檔條款。各工作線工作人員將文件按事由整理好后結(jié)合國(guó)家著錄格式逐一錄入系統(tǒng),點(diǎn)擊對(duì)應(yīng)的事由標(biāo)簽,完成錄入。農(nóng)村一年的事務(wù)由常規(guī)事由和新增事由組成,事由標(biāo)簽存入事由字典后可以被反復(fù)調(diào)取。文件作者和文種由系統(tǒng)根據(jù)著錄的結(jié)構(gòu)化內(nèi)容提取判斷。
圖1 農(nóng)村檔案本體模型(實(shí)線:子類;虛線:對(duì)象屬性)
圖2 農(nóng)村檔案項(xiàng)目類及其主要屬性
系統(tǒng)根據(jù)立卷目錄字典和事由的對(duì)應(yīng)關(guān)系,對(duì)事由下的文件自動(dòng)分配檔案號(hào)和保管期限完成預(yù)歸檔。立卷目錄字典的設(shè)置可以由檔案局指導(dǎo),常規(guī)事由基本不變,新增事由作增加,對(duì)指導(dǎo)員來(lái)說(shuō)工作量不大。
村兼職檔案員在每年歸檔期檢查系統(tǒng)分配的文件分類和順序,不妥之處進(jìn)行手工調(diào)整,確定歸檔后鎖定檔號(hào)由系統(tǒng)產(chǎn)生歸檔目錄,各線負(fù)責(zé)人根據(jù)歸檔目錄排放紙質(zhì)文件,填寫相應(yīng)的歸檔章信息。系統(tǒng)根據(jù)立卷目錄對(duì)于應(yīng)歸未歸文件作出未歸檔提醒,未歸清單可作為干部離任檔案工作審計(jì)依據(jù)。
總之,系統(tǒng)將歸檔工作人員分成專業(yè)和不專業(yè)兩種,最大量的文件錄入整理工作并不需要檔案整理知識(shí)。檔案整理專業(yè)規(guī)范由專業(yè)人員來(lái)設(shè)置,系統(tǒng)通過(guò)將事由和立卷規(guī)則相關(guān)聯(lián),將“不專業(yè)”的文件整理結(jié)果根據(jù)“專業(yè)”的設(shè)置規(guī)則進(jìn)行智能化整理。
檔案信息好查是激發(fā)村民積極移交手中的檔案,最終將其匯成“智庫(kù)”的根本要素。
在以人為本的農(nóng)村治理中,以村民為主題呈現(xiàn)檔案信息是全面精準(zhǔn)掌握村民情況的必然要求,為村民提供檔案信息和證明也是服務(wù)為民的重要內(nèi)容。國(guó)家規(guī)定村民檔案按“一戶一檔一袋”的要求進(jìn)行整理,然而更有大量涉及人的檔案分散于各工作線上。通過(guò)戶籍系統(tǒng)導(dǎo)入建立由姓名、曾用名、身份證號(hào)、家庭關(guān)系、家庭住址等戶籍信息組成的村民字典,此外補(bǔ)充特長(zhǎng)、務(wù)工情況、留守兒童標(biāo)注、貧困戶標(biāo)注等信息。預(yù)歸檔文件信息錄入過(guò)程中涉及某村民有關(guān)的文件,通過(guò)打入名字或姓名首字母等方式從關(guān)聯(lián)的村民字典中選取此人或此戶的信息。從而做到涉人檔案件件對(duì)準(zhǔn)人和戶,以村民字典為關(guān)聯(lián)點(diǎn)在系統(tǒng)中形成邏輯上的“一戶一檔”,檔案實(shí)體分散在各線“事由”中并不影響檔案信息按人按戶的全面呈現(xiàn)。
分散在各線的“事由”是同一事由的不同側(cè)面,如一項(xiàng)經(jīng)濟(jì)合作項(xiàng)目可能涉及村委會(huì)會(huì)議記錄、扶貧工作和“三資”工作。振興鄉(xiāng)村從了解鄉(xiāng)情開始,鄉(xiāng)情即是無(wú)數(shù)“事由”的組合。以事由字典為關(guān)聯(lián)點(diǎn)將關(guān)于同一事由的檔案相關(guān)聯(lián),確保鄉(xiāng)情記憶呈現(xiàn)的完備性。
村情村務(wù)檔案走向開放是農(nóng)村民主的重要部分,檔案的機(jī)要性要求開放具有限制性。系統(tǒng)建立事由公開清單,村民字典分群,建立事由與村民群的對(duì)應(yīng)開放關(guān)系。系統(tǒng)設(shè)置村務(wù)開放時(shí)間,對(duì)開放清單中未歸檔材料提出警告,以此由民眾督促檔案及時(shí)收歸。“涉人檔案件件對(duì)準(zhǔn)人”為村民自主獲取個(gè)人檔案提供了信息安全壁壘保障,村民登錄系統(tǒng)或憑身份證到出證服務(wù)站可自主獲得與其本人有關(guān)的檔案證明。
由于農(nóng)村自然資源稟賦、產(chǎn)業(yè)特色不同,貧困人口、留守兒童等人口分布情況也不均衡,在農(nóng)村治理中需要分門別類進(jìn)行分析、研究、歸納,從而整合資源因“地”制宜。GIS又稱為“地學(xué)信息系統(tǒng)”,系統(tǒng)運(yùn)用GIS實(shí)現(xiàn)一張圖上綜合展示和管理檔案,賦予檔案以地理位置信息。GIS將農(nóng)村網(wǎng)絡(luò)化,網(wǎng)格對(duì)應(yīng)產(chǎn)生地理代碼形成地理代碼字典,從中選擇相應(yīng)的代碼錄入到村民字典、“三資”、企業(yè)、旅游開發(fā)點(diǎn)等與地理信息緊密相關(guān)的檔案著錄項(xiàng)中。檔案系統(tǒng)將檢索結(jié)果的正題名推送到GIS地理信息庫(kù),將數(shù)字件推送到GIS的catalog目錄下,GIS通過(guò)地理代碼與有關(guān)檔案作關(guān)聯(lián),呈現(xiàn)整個(gè)村或者相應(yīng)網(wǎng)格里分布的人、產(chǎn)業(yè)題名等信息。點(diǎn)擊相應(yīng)的題名,瀏覽相關(guān)檔案內(nèi)容。
圖3 村民字典類及主要屬性
圖4 LodView發(fā)布后的檔案“土地登記申請(qǐng)”詳細(xì)頁(yè)面
圖5 通過(guò)“ead:personName”屬性鏈接跳轉(zhuǎn)到“村民字典:李三”頁(yè)面
運(yùn)用關(guān)系數(shù)據(jù)庫(kù)技術(shù),以數(shù)據(jù)字典為關(guān)聯(lián)點(diǎn),可以實(shí)現(xiàn)檔案跨分類按主題呈現(xiàn),但是呈現(xiàn)關(guān)系沒有語(yǔ)義化,不易被理解。語(yǔ)義化關(guān)聯(lián)組織首先需要明確本體概念。在信息科學(xué)與計(jì)算機(jī)領(lǐng)域,本體可以看作是一種模型,是對(duì)客觀存在對(duì)象或概念及其屬性和相關(guān)關(guān)系形式的表達(dá)[2]。
結(jié)合農(nóng)村檔案自身特點(diǎn)以及系統(tǒng)的業(yè)務(wù)需要,分析農(nóng)村組織的基本結(jié)構(gòu)、家庭結(jié)構(gòu)、事務(wù)流程和文件關(guān)系,該本體模型以檔案標(biāo)準(zhǔn)文件《中國(guó)檔案分類法》和《中國(guó)檔案主題詞表》為依據(jù),復(fù)用了檔案編碼著錄EAD[3]、文獻(xiàn)描述參考CIDOC CRM1[4]、“朋友的朋友”FOAF[5]等本體模型。參考都柏林核心(Dublin Core,DC)元數(shù)據(jù)標(biāo)準(zhǔn)和DBpedia等知識(shí)庫(kù),以上文數(shù)據(jù)字典為基礎(chǔ),自定義事由、地點(diǎn)和村民三個(gè)核心類,擴(kuò)展定義部分農(nóng)村檔案屬性。每個(gè)核心類定義相應(yīng)的數(shù)據(jù)屬性,實(shí)體之間的關(guān)系通過(guò)對(duì)象屬性進(jìn)行描述與揭示。建立規(guī)范的檔案本體有利于本體拓展和與外部資源建立共享連接。模型見圖1,模型定義中的農(nóng)村檔案項(xiàng)目類及其主要屬性見圖2,村民字典類及主要屬性見圖3。
作為語(yǔ)義網(wǎng)的輕量級(jí)解決方案,借助由事由、村民和地點(diǎn)組成的數(shù)據(jù)字典對(duì)文件內(nèi)容作概括,除了事由字典有些許語(yǔ)義分歧,其余兩個(gè)字典數(shù)據(jù)精確、實(shí)體明確。
事由的描述各人主觀概括不完全一致,如“1號(hào)地確權(quán)”“1#地確權(quán)”“一號(hào)地確權(quán)”這三個(gè)詞指向同一事由,如“二工”一指水利工程的勞動(dòng)積累工和義務(wù)工,一指志愿服務(wù)的社工和義工。事由字典可以通過(guò)人工在字典中將同義詞標(biāo)簽標(biāo)注為同一事由,將一詞多意標(biāo)簽標(biāo)明為不同事由。在前期小規(guī)模數(shù)據(jù)量的農(nóng)村檔案中,事由標(biāo)簽數(shù)據(jù)量有限,即使通過(guò)人工標(biāo)注也是可行的。
面向深度語(yǔ)義識(shí)別可以在機(jī)器學(xué)習(xí)中通過(guò)建立事件本體模型,通過(guò)CRF、ME、SVM、觸發(fā)詞、模式匹配和聚類算法的對(duì)OCR內(nèi)容進(jìn)行事件信息抽取,按模型設(shè)定抽取出事件類型、時(shí)間、地點(diǎn)、人物等信息進(jìn)行結(jié)構(gòu)化存儲(chǔ)。還可以擴(kuò)展到將全部檔案內(nèi)容OCR成文字,通過(guò)Bi-RNN、Bi-LSTM、Bi-LSTM-CRF、BERT等深度學(xué)習(xí)模型進(jìn)行自動(dòng)識(shí)別,基于概率的全局算法PARIS自動(dòng)實(shí)現(xiàn)實(shí)體消歧或共指消解。全面的語(yǔ)義識(shí)別需要大量的語(yǔ)料訓(xùn)練,可以用來(lái)滿足更加復(fù)雜的本體模型。在農(nóng)村檔案數(shù)字化到一定的規(guī)模,在整個(gè)行業(yè)檔案形成云氣候的階段,面向深度語(yǔ)義識(shí)別是必須的。
RDF是關(guān)聯(lián)數(shù)據(jù)采用的數(shù)據(jù)模型,一般用“實(shí)體、屬性、值”三元組來(lái)描述領(lǐng)域資源??梢酝ㄟ^(guò)農(nóng)村檔案本體以及其他外部本體詞表,對(duì)領(lǐng)域資源中的各類實(shí)體對(duì)象進(jìn)行規(guī)范化描述。將關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù)轉(zhuǎn)換成RDF三元組的技術(shù)中,有直接映射和領(lǐng)域語(yǔ)義驅(qū)動(dòng)映射兩種模式。直接映射簡(jiǎn)單方便、映射速度快,但不能捕捉數(shù)據(jù)的真正語(yǔ)義。小規(guī)模農(nóng)村檔案管理系統(tǒng)應(yīng)用直接映射技術(shù)效率更高。領(lǐng)域語(yǔ)義驅(qū)動(dòng)映射方法在轉(zhuǎn)換過(guò)程中較為完整地保留了RDB數(shù)據(jù)蘊(yùn)含的語(yǔ)義,可以實(shí)現(xiàn)較為復(fù)雜的映射,但依賴于專門的領(lǐng)域本體和映射語(yǔ)言,轉(zhuǎn)化過(guò)程較為繁瑣,耗費(fèi)時(shí)間較長(zhǎng)[6]。
這兩種映射模式可以互相補(bǔ)充,在前期系統(tǒng)數(shù)據(jù)簡(jiǎn)單、語(yǔ)義明確的情況下以前者機(jī)器自動(dòng)轉(zhuǎn)換的初始規(guī)則生成RDF圖,后期數(shù)據(jù)和語(yǔ)義變復(fù)雜的情況下在默認(rèn)的RDF圖的基礎(chǔ)上進(jìn)行個(gè)性化定義和配置[7]。
RDF三元組的存儲(chǔ)方式目前有關(guān)系型數(shù)據(jù)庫(kù)、RDF三元組數(shù)據(jù)庫(kù)和圖數(shù)據(jù)庫(kù)三種。目前絕大部分的農(nóng)村檔案管理系統(tǒng)采用關(guān)系型數(shù)據(jù)庫(kù),對(duì)于開發(fā)條件有限的鄉(xiāng)鎮(zhèn),可以通過(guò)在原有關(guān)系型數(shù)據(jù)庫(kù)中建立語(yǔ)義主謂賓三元對(duì)應(yīng)表,在各表明確關(guān)聯(lián)字段,達(dá)到簡(jiǎn)單的語(yǔ)義關(guān)聯(lián)效果。但是此法不適合多對(duì)多和多深度關(guān)系、多語(yǔ)義應(yīng)用,對(duì)大體量的數(shù)據(jù)管理所需軟硬件成本很大。圖數(shù)據(jù)庫(kù)結(jié)點(diǎn)的存儲(chǔ)能力不適合存儲(chǔ)檔案信息,但是擅長(zhǎng)存儲(chǔ)和檢索復(fù)雜的結(jié)點(diǎn)關(guān)系,直觀高效表現(xiàn)檔案實(shí)體和實(shí)體之間的復(fù)雜多重關(guān)系,適用于土地流轉(zhuǎn)、家庭成員活動(dòng)軌跡等特定應(yīng)用。RDF三元組數(shù)據(jù)庫(kù)擅長(zhǎng)語(yǔ)義推理,具有支持Web擴(kuò)展和高性能數(shù)據(jù)管理性能,是專門為存儲(chǔ)大規(guī)模RDF數(shù)據(jù)而開發(fā)的知識(shí)圖譜數(shù)據(jù)庫(kù),語(yǔ)義解析能力強(qiáng),適合于存儲(chǔ)數(shù)據(jù)量大、面向外部資源鏈接的檔案系統(tǒng)。
圖6 LodLive發(fā)布后的以檔案“土地登記申請(qǐng)”為核心的關(guān)系圖形
圖7 以地理代碼為關(guān)聯(lián)點(diǎn)GIS綜合呈現(xiàn)檔案效果圖
考慮到農(nóng)村檔案的數(shù)據(jù)面向未來(lái)具有可擴(kuò)展性,本文以O(shè)penLink Virtuoso這一典型的RDF三元組數(shù)據(jù)庫(kù)管理軟件為例。采用LodView工具將服務(wù)器上的RDF數(shù)據(jù)轉(zhuǎn)換為HTML網(wǎng)頁(yè)進(jìn)行展示,如檔案“土地登記申請(qǐng)”經(jīng)過(guò)LodView發(fā)布后的詳細(xì)頁(yè)面(圖4),通過(guò)“ead:personName”屬性鏈接跳轉(zhuǎn)到村民字典的“李三”頁(yè)面(圖5)、來(lái)源檔案“土地登記申請(qǐng)”的詳細(xì)頁(yè)面。通過(guò)“ra:hasAffair”屬性鏈接跳轉(zhuǎn)到事由字典的“土地確認(rèn)權(quán)”的詳細(xì)頁(yè)面。
以事由和相關(guān)的時(shí)間、地點(diǎn)和人物為核心綜合呈現(xiàn)檔案,相關(guān)檔案相互間復(fù)雜的關(guān)系最適合使用圖形化的方式表示。農(nóng)村檔案關(guān)聯(lián)關(guān)系的可視化通過(guò)LodLive系統(tǒng)實(shí)現(xiàn),以數(shù)據(jù)字典數(shù)據(jù)或檔案的著錄數(shù)據(jù)為結(jié)點(diǎn),以關(guān)系為連接線,直觀提供檔案瀏覽圖。LodLive可自動(dòng)查詢與該結(jié)點(diǎn)(實(shí)體)相關(guān)的三元組信息,并可與DBpedia、GeoNames等外部數(shù)據(jù)集進(jìn)行關(guān)聯(lián)查詢(如圖6)。圖7所示以地理代碼為關(guān)聯(lián)點(diǎn)通過(guò)GIS綜合呈現(xiàn)檔案的可視化效果。
在大數(shù)據(jù)時(shí)代的農(nóng)村檔案管理中,農(nóng)村檔案管理部門將慢慢變成信息存儲(chǔ)和服務(wù)中心,伴隨著農(nóng)村經(jīng)濟(jì)的迅速變遷,農(nóng)村治理模式將越來(lái)越走向自治模式多樣化和村治開放化,服務(wù)個(gè)性化思維、網(wǎng)絡(luò)化思維、信息化思維、資源共享性思維四大思維將成為農(nóng)村檔案管理的一個(gè)趨勢(shì)。關(guān)聯(lián)數(shù)據(jù)技術(shù)尤其是結(jié)合了語(yǔ)義網(wǎng)技術(shù)后,將在未來(lái)的農(nóng)村治理語(yǔ)境下的檔案管理中發(fā)揮巨大作用。高質(zhì)量的檔案知識(shí)開放數(shù)據(jù)集與知識(shí)服務(wù)平臺(tái)的構(gòu)建,一方面為更深層次的檔案知識(shí)分析與研究提供了科學(xué)的數(shù)據(jù)集,促使檔案知識(shí)發(fā)揮出更大的價(jià)值[8],另一方面精準(zhǔn)的語(yǔ)義抽取技術(shù)將為檔案數(shù)據(jù)共享關(guān)聯(lián)賦予保密性保障。