孫學政
摘 要:依托共享數(shù)據(jù),對數(shù)字化學籍檔案重命名,構(gòu)建以姓名為主要檢索標識的系統(tǒng),借助everything檢索軟件,實現(xiàn)基于文件名的高效檢索。數(shù)字化檔案有序存放在指定文件夾,在可視化的情況下,文件夾同樣具備檢索功能。高校學籍檔案單機可視化檢索實證操作,簡單易學,軟硬件投入低,在涉及人名的檔案檢索中優(yōu)勢明顯,因受限于文件名長度,與基于檔案內(nèi)容本身的智能化檢索相比,有明顯的不足之處。
關(guān)鍵詞:學籍檔案;數(shù)據(jù)清洗;數(shù)據(jù)加工;可視化檢索
檔案網(wǎng)絡(luò)化智能檢索利用是檔案工作的終極發(fā)展方向,有朝一日,你想查看自己權(quán)限內(nèi)的檔案,只要說一聲,檢索結(jié)果就瞬間呈現(xiàn)在你眼前。檔案作為核心的信息資源,很大一部分需要限制利用,在利用時需要做好用戶身份識別與權(quán)限控制。就目前的技術(shù)水平而言,做到檔案網(wǎng)絡(luò)化智能檢索利用并不難,但從投入產(chǎn)出比來看,很多檔案不值得這么做。與高端的網(wǎng)絡(luò)化智能檢索系統(tǒng)相比,如果以不到10萬元的軟硬件投入,做到只輸入一個學生的姓名(遇到同名情況時增加相關(guān)檢索條件)就瞬間看到該生的新生錄取名冊、學籍表、成績表、畢業(yè)資格審查表、學歷注冊照片、學籍變動、獎懲等所有與該生有關(guān)的檔案,那么,這種檢索模式就更切合大多數(shù)高校檔案利用工作的實際。依托共享數(shù)據(jù),對共享數(shù)據(jù)進行清洗與加工,在此基礎(chǔ)上對數(shù)字化學籍檔案副本進行批量重命名,構(gòu)建以學生姓名為主要檢索標識的系統(tǒng),借助everything免費檢索軟件,可輕松實現(xiàn)高校學籍檔案單機可視化檢索。
1 高校學籍檔案可視化檢索的數(shù)據(jù)準備
檔案利用最大的困難就是如何解決高效檢索問題。學籍檔案快速準確檢索依賴學生學號、姓名、專業(yè)、班級等大量數(shù)據(jù),如果全部需要手工錄入,不僅工作量大,而且很難保證準確性,為保證數(shù)據(jù)準確性而進行的審核工作量甚至比錄入工作量更大。高校招生部門、教務(wù)部門有大量的準確數(shù)據(jù),依托這些共享數(shù)據(jù)構(gòu)建學籍檔案可視化檢索系統(tǒng),可以起到事半功倍的效果。
1.1 共享電子數(shù)據(jù)的采集及補救措施。新生錄取名冊電子數(shù)據(jù)來自招生部門,可按省份、類別、專業(yè)、總分排序,經(jīng)過一定的處理,可基本實現(xiàn)數(shù)據(jù)共享;學號、姓名、曾用名、班級、專業(yè)等數(shù)據(jù)來自教務(wù)系統(tǒng),可完全實現(xiàn)數(shù)據(jù)共享。如果上述學生數(shù)據(jù)不能收集齊全,作為補救措施,可借用學歷電子注冊數(shù)據(jù),1991年以后的畢業(yè)生都進行了學歷電子注冊,可從教務(wù)部門獲取,1991年之前的學生數(shù)據(jù),可從檔案管理系統(tǒng)的卷內(nèi)目錄或校友通訊錄等數(shù)據(jù)源獲取,當然這些數(shù)據(jù)不能直接利用,需要做進一步的清洗與深加工。
1.2自動審核人工錄入數(shù)據(jù)。人工錄入數(shù)據(jù)不難,難就難在如何快速準確錄入數(shù)據(jù),數(shù)據(jù)不準確的后果往往是災難性的,會導致整個檢索體系的崩潰。高校有勤工助學的學生,發(fā)動人海戰(zhàn)術(shù),人工重新錄入學生姓名、專業(yè)等數(shù)據(jù)時,為保證準確性,一般需采用雙人雙機錄入,校驗合格后使用,這種做法工作量成倍增加,效率低下。為提高錄入效率,也可多人多機分別錄入不同數(shù)據(jù),利用共享數(shù)據(jù)進行自動審核,確保錄入數(shù)據(jù)的準確性,具體做法是利用電子表格的vlookup函數(shù)。以新生錄取名冊錄入為例,可新建電子表格,將共享數(shù)據(jù)拷貝到sheet1表中,調(diào)整單元格數(shù)據(jù)順序,A列必須為姓名,D列為專業(yè)(也可為其他需要審核的內(nèi)容),在sheet2表中A1、B1、C1、D1四個單元格分別錄入頁碼、姓名、專業(yè)、待審核四個字段名,在D2單元格錄入“=VLOOKUP(B2,'sheet1'!A:D,4,0)”(具體操作時不要錄入全角雙引號,下同),在sheet1表格A列中精確查找姓名與sheet2表格中B2姓名相同的學生,并將其相應(yīng)D列內(nèi)容鏈接到sheet2表格中D2單元格,此時sheet2表格中D2單元格顯示“*N/A”,鼠標左鍵單擊D2單元格,光標移至D2單元格右下角出現(xiàn)“+”時壓住鼠標左鍵向下拖動,想錄入多少人就拖多少行。當在sheet2表格中B列錄入學生姓名時,D列相應(yīng)單元格會出現(xiàn)該生的專業(yè),如果還是顯示“*N/A”,則表示錄入可能出錯,如果經(jīng)核實錄入無誤,則表明共享數(shù)據(jù)不全,在sheet2表格中C列相應(yīng)單元格錄入該生專業(yè),以備進一步人工審核;如果出現(xiàn)的專業(yè)與該生不同,則可能共享數(shù)據(jù)有誤或存在同名學生情況,在sheet2表格中C列錄入該生專業(yè),以備進一步人工審核。利用共享數(shù)據(jù)自動審核,既可保證數(shù)據(jù)準確性,又可成倍提高錄入工作效率。sheet2表格中A列錄入紙質(zhì)檔案實際頁碼,與紙質(zhì)檔案一一對應(yīng),待進一步對數(shù)據(jù)進行加工處理。
2 對數(shù)字化學籍檔案副本重命名,實現(xiàn)按姓名可視化檢索
學籍檔案的檢索以學生姓名為顯著特征,由于存在同名情況,因此,僅僅靠姓名,雖然可以做到查全率100%,但必須輔以其他檢索條件,借助可視化操作,才可快速準確定位所需檔案。對數(shù)字化學籍檔案副本重命名,既要確定命名規(guī)則,又要具備簡單的軟件應(yīng)用知識。
2.1 數(shù)字化學籍檔案副本命名規(guī)則。文書檔案數(shù)字化副本命名規(guī)則,常用的是文件級檔號-件內(nèi)頁面流水號,或文件級檔號-稿本代號-稿本內(nèi)頁面流水號,這種命名方式雖然利于檔案數(shù)字化副本批量掛接到數(shù)據(jù)庫,但必須借助目錄查找檔案,并沒有實質(zhì)性提高數(shù)字化檔案的檢索效率。高校學籍檔案數(shù)字化副本如果參照此規(guī)則命名,檢索效率同樣不高。為便于快速準確查找學籍檔案,充分發(fā)揮數(shù)字化檔案檢索利用優(yōu)勢,需針對高校學籍檔案實際,確定數(shù)字化學籍檔案副本命名規(guī)則,并與檔案實體一一對應(yīng)(如果僅僅從利用的角度來看,數(shù)字化檔案副本無需與實體檔案一一對應(yīng),命名會更簡單,檢索效率會更高,此問題有待進一步探討)。文件名稱構(gòu)成主要為“檔號-姓名”,為避免同名造成的誤檢,可根據(jù)實際情況增加文件名稱構(gòu)成項目,比如學籍表、成績表文件名構(gòu)成為“檔號-姓名-專業(yè)-入學年度”(檔號可反映畢業(yè)年度);新生錄取名冊為“檔號-姓名-專業(yè)-報考省份”(檔號可反映入學年度);畢業(yè)資格審查表為“檔號-姓名-專業(yè)”(檔號可反映畢業(yè)年度);學籍變更材料、獎懲材料為“檔號-文號-文件名-姓名”。為提高查準率,二字姓名后統(tǒng)一添加“-”,多個姓名之間用“-”連接;各校還可以根據(jù)共享數(shù)據(jù)及檔案記載情況,增加文件名構(gòu)成項目,比如本校成績單記載有畢(結(jié))業(yè)證書、學位證書號碼,可利用畢業(yè)資格審查表電子數(shù)據(jù)對掃描版成績單進行重命名,實現(xiàn)按證書號碼精確檢索。
2.2 數(shù)字化學籍檔案副本的后期處理。大多數(shù)高校都實現(xiàn)了館藏紙質(zhì)檔案數(shù)字化,由于手寫檔案不能進行OCR識別,部分打印版效果太差,OCR識別率太低,難以實現(xiàn)基于檔案內(nèi)容的高效檢索。掃描件的查找難度比紙質(zhì)檔案更大,需進行進一步的加工處理。
2.2.1 利用Adobe Acrobat X Pro軟件或WPS付費軟件的拆分文檔功能,將成冊掃描的新生錄取名冊、畢業(yè)資格審查表按頁拆分為多個文檔,有多少頁拆分成多少個文檔(高速掃描一般都是成冊掃描成一個文檔,如果是單頁掃描成一個文檔,則省略此步),同一頁的所有學生對應(yīng)一個文檔,由于文件名長度不能超過255個字符,當一個文檔的學生人數(shù)太多時,為保證能檢索到所有學生,可多拷貝幾份,分別命名,形成內(nèi)容完全相同但文件名不同的多個文檔(這種情況并不多見,僅是例外情況下的變通措施);學籍表、成績表拆分之前要進行相應(yīng)處理,保證學生與學籍表(或成績表)是一一對應(yīng)關(guān)系;學籍變更材料、獎懲材料可根據(jù)原文件實際情況確定是一對一關(guān)系還是多對一關(guān)系。
2.2.2 靈活運用Excel或WPS以及方方格子插件等軟件對電子數(shù)據(jù)進行清洗與深加工。共享電子數(shù)據(jù)要做相應(yīng)清洗,比如以前有些生僻字打不出時經(jīng)常會用“*”或“?”代替,由于文件名不能包含“\ / :* ?< >|”等字符,重命名前要清除這些字符,可以用查找替換的方式進行清洗,查找“*”“?”需要在查詢欄分別輸入“~*”和“~?”,替換欄輸入正確的數(shù)據(jù)(以前打不出的生僻字,現(xiàn)在基本上能打出,可通過搜索引擎查找復制粘貼,比如煇字,可搜索一個火字加一個軍)。由于批處理文件中不能出現(xiàn)多余的空格、軟回車等,這些也需在WPS或EXCEL中進行清洗。為提高檢索效率,電子數(shù)據(jù)要進行進一步加工,在清除空格后,二字姓名后可批量添加“-”,假設(shè)A列為原姓名數(shù)據(jù),B列為處理后的新姓名數(shù)據(jù),在B1單元中錄入“=if(len(A1)=2,A1&"-",A1)”,左鍵單擊選定B1單元格,雙擊B1單元格右下角“+”(或壓住“+”向下拖到結(jié)尾),可在二字姓名后批量添加“-”,復制B列數(shù)據(jù),選擇性粘貼(選數(shù)值)到A列,刪除B列,完成二字姓名數(shù)據(jù)加工處理。方方格子插件目前有Excel版和WPS版(試用版),可實現(xiàn)電子表格數(shù)據(jù)行列轉(zhuǎn)換,也可實現(xiàn)一行多列、一列多行數(shù)據(jù)合并,可減輕數(shù)據(jù)加工處理的工作量,上文sheet2表格中A列數(shù)據(jù)中相同頁碼的B列多行姓名可輕松合并到一個單元格中,重命名數(shù)字化文件后,可實現(xiàn)新生錄取名冊、畢業(yè)資格審查表多對一檢索。
2.2.3 文件批量重命名的具體操作。最基本的重命名語句為“ren 源文件名 目標文件名”(中間兩處空格不能省略),假設(shè)電子表格中ABCDE列分別為源文件名、檔號、姓名、專業(yè)、入學年度等信息,包含有整個年度所有學生的學籍表信息,源文件為pdf版式文件,在F1單元格中輸入命令“="ren "&A1&" "&B1&"-"&C1&"-"&D1&"-"&E1&".pdf"”(命令中兩處空格不能省略),可生成一條重命名語句,單擊選定F1單元格,雙擊F1單元格右下角的黑+,可生成整個年度的學籍表批量更名數(shù)據(jù);將電子表格中處理好的批量重命名語句拷貝到新建的文本文件(重命名.txt),再另存為批處理文件(重命名.bat)。將重命名批處理文件拷貝到源文件相同的目錄下,運行批處理文件(特別提醒:重命名前做好備份),可實現(xiàn)文件批量更名,更名后所有文件名中都含有檔號、姓名、專業(yè)、入學年度等檢索項。
3 學籍檔案單機可視化檢索利用的實踐
3.1 everything檢索軟件及其應(yīng)用??稍?60軟件管家下載免費使用,是一款基于名稱實時定位文件和目錄的文件搜索工具,該軟件大小不足2MB,界面簡潔易用,檢索速度極快,占用系統(tǒng)資源極低,實時跟蹤文件變化。在搜索框輸入檢索內(nèi)容,會實時顯示過濾后的文件和目錄,檢索結(jié)果可進行復制、瀏覽、修改和刪除等操作,可輕松實現(xiàn)模糊檢索與精確檢索。比如聽說張某某的弟弟1986年考入本校養(yǎng)殖專業(yè),現(xiàn)想知道張某某的弟弟是誰,在檢索欄輸入“張 養(yǎng) 86”(中間空格不能省略,本校養(yǎng)殖專業(yè)有海養(yǎng)、淡養(yǎng)、養(yǎng)專等不同專業(yè),僅輸入一個養(yǎng)字,是為了在模糊查找時擴大檢索范圍,提高查全率),檢索結(jié)果會顯示本校1986年入學的養(yǎng)殖專業(yè)所有張姓學生,分別查看學籍表,通過社會關(guān)系記載,如果找到張某某就可以基本確定其弟弟是誰,如果學籍表中沒有張某某的記載,則基本確定張某某的弟弟不是本校養(yǎng)殖專業(yè)1986級學生。當單次檢索呈現(xiàn)的結(jié)果較多時,可繼續(xù)增加檢索條件,以縮小檢索結(jié)果,比如,想查找“張文”的成績表,在檢索欄輸入“張文”,呈現(xiàn)的結(jié)果較多,繼續(xù)在檢索欄輸入“-”(緊跟在文字后面,不要空格),則只出現(xiàn)張文的學籍檔案,如果還存在同名的情況,則可增加更多的檢索條件(不同檢索條件之間用空格隔開)或通過查看路徑找到所需的結(jié)果。本校成績單文件名已包含畢業(yè)證書、學位證書號碼,輸入證件號可精確查找到所需要的成績單,電話核查學歷證書真?zhèn)螘r,只需錄入證件號碼,即可實時告知查詢結(jié)果。
3.2 數(shù)字化學籍檔案副本的有序化存放。everything搜索只基于文件和文件夾的名稱,上文已給出了文件批量重命名的實證操作,在可視化的情況下,文件夾同樣具備檢索功能,數(shù)字化文件有序存放,會極大提高檢索效率。以廣東海洋大學數(shù)字化學籍檔案副本為例,按不同全宗建有新生錄取名冊、學籍表、成績表、畢業(yè)資格審查表、數(shù)字化文件等分目錄,分目錄下再根據(jù)實際情況設(shè)立類別、年度等子目錄(比如,廣東海洋大學2018屆博士畢業(yè)生成績存放在“D:\廣海大\成績\博士生\2018”目錄下),數(shù)字化檔案存放在相應(yīng)的目錄下,檢索時就能可視化快速定位。everything軟件檢索結(jié)果會顯示名稱、路徑、大小、修改時間等內(nèi)容,路徑就是數(shù)字化文件存放的位置,數(shù)字化文件存放有序,就可以充分發(fā)揮可視化檢索優(yōu)勢,直接定位所需要檔案。比如本校有8名畢業(yè)生叫“張文”,涉及兩個檔案全宗,有全日制研究生、本科生、??粕灿谐扇私逃龑W生,可根據(jù)路徑快捷定位所需的檔案。
3.3 數(shù)據(jù)安全與隱私保護問題。解決數(shù)據(jù)安全問題,最關(guān)鍵的不是技術(shù)而是管理,在投入有限、不能確保網(wǎng)絡(luò)信息安全的情況下,數(shù)字化學籍檔案副本只能實行單機不聯(lián)網(wǎng)檢索。由于everything是免費軟件,并且功能過于強大,電腦上所有文件名信息都會實時自動提取整合為一個數(shù)據(jù)文件,聯(lián)網(wǎng)使用可能會有安全隱患,不建議在聯(lián)網(wǎng)的電腦上使用。數(shù)字化學籍檔案包含學生的身份信息、高考成績、社會關(guān)系、求學經(jīng)歷、家庭住址、學業(yè)成績、學籍異動等個人隱私,從信息安全的角度,不宜保存在聯(lián)網(wǎng)的電腦上。及時備份數(shù)據(jù)是保證數(shù)據(jù)安全的重要措施,推薦使用BCompare軟件,主要功能有:文件夾比較、文本比較、MP3比較、版本比較、十六進制比較、數(shù)據(jù)比較、圖片比較、注冊表比較、文件夾同步、文本合并等。通過文件夾比較,可保證電腦數(shù)據(jù)與備份數(shù)據(jù)的一致性;文件夾同步可極大減少數(shù)據(jù)備份工作量;通過文本比較,可確保文本內(nèi)容未被非法修改。為更好地保護個人隱私,在提供數(shù)字化檔案利用時,推薦使用 Photoshop軟件。對于新生錄取名冊、畢業(yè)資格審查表中涉及的其他學生信息,提供利用前,復制一份文檔,用PS的色階功能將其他學生的信息涂白,僅打印與利用者有關(guān)的信息。所有檢索利用結(jié)果都保存?zhèn)洳?,建好利用工作臺賬。
*本文系廣東高校檔案工作協(xié)會2018年科研課題(重點項目)《大數(shù)據(jù)環(huán)境下高校檔案信息資源的集成與服務(wù)研究》(粵高檔協(xié)[2018]6號)研究成果之一。
(作者單位:廣東海洋大學檔案館 來稿日期:2018-12-21)