馮 佳
(浙江省嘉善縣檔案局)
檔案工作的根本目的是整合各種檔案信息資源以便于社會(huì)大眾的利用,檔案開(kāi)放是社會(huì)大眾獲取和利用檔案信息最基本也是最重要的途徑。隨著科技的日新月異,電子信息技術(shù)也給檔案工作帶來(lái)了巨大的變革,“智慧檔案”的概念隨之應(yīng)運(yùn)而生。新技術(shù)的引進(jìn)和運(yùn)用不會(huì)改變檔案工作的根本目的,而是為了更加高效、更加便捷地為社會(huì)大眾服務(wù)。
我國(guó)于20世紀(jì)80年代開(kāi)始提出檔案開(kāi)放政策,并于1987年公布的《中華人民共和國(guó)檔案法》規(guī)定:“國(guó)家檔案館保管的檔案,一般應(yīng)當(dāng)自形成之日起滿(mǎn)30年向社會(huì)開(kāi)放。經(jīng)濟(jì)、科學(xué)、技術(shù)、文化等類(lèi)檔案向社會(huì)開(kāi)放的期限可以少于30年,涉及國(guó)家安全或者重大利益以及其他到期不宜開(kāi)放的檔案向社會(huì)開(kāi)放的期限可以多于30年”。但在檔案開(kāi)放利用的實(shí)際工作中,還存在著許多限制和不足。本文旨在探析利用人工智能技術(shù)在檔案開(kāi)放鑒定中的應(yīng)用來(lái)解決這些問(wèn)題。
從全國(guó)綜合檔案館的館藏?cái)?shù)據(jù)和開(kāi)放數(shù)據(jù)來(lái)看我國(guó)檔案的開(kāi)放程度(以下數(shù)據(jù)來(lái)源于國(guó)家統(tǒng)計(jì)局)。據(jù)統(tǒng)計(jì),2015年國(guó)家綜合檔案館館藏檔案數(shù)量為58641.7萬(wàn)卷,2006年國(guó)家綜合檔案館館藏檔案數(shù)量為21656.5萬(wàn)卷,10年間館藏檔案增長(zhǎng)率為170.78%。2015年國(guó)家綜合檔案館開(kāi)放檔案為9266.3萬(wàn)卷,2006年為5746.3萬(wàn)卷,10年間開(kāi)放檔案增長(zhǎng)率為61.26%,可以看出開(kāi)放檔案的增長(zhǎng)速率相較于館藏檔案緩慢了很多。2015年國(guó)家綜合檔案館的館藏?cái)?shù)據(jù)為58641.7萬(wàn)卷,開(kāi)放檔案數(shù)據(jù)為9266.3萬(wàn)卷,開(kāi)放率僅為15.8%,而且開(kāi)放率逐年在下降。
圖1 2006—2015年國(guó)家綜合檔案館館藏檔案數(shù)量和開(kāi)放檔案數(shù)量
圖2 2006—2015年館藏檔案增長(zhǎng)率、開(kāi)放檔案增長(zhǎng)率和開(kāi)放率
從全國(guó)綜合檔案館的利用檔案數(shù)量來(lái)看,2006年國(guó)家綜合檔案館利用檔案1166.4萬(wàn)卷,2015年為1978.3萬(wàn)卷,增加率為69.6%。但是2015年的利用檔案在已開(kāi)放檔案中利用率為21.3%,相對(duì)于整個(gè)館藏?cái)?shù)量則僅僅為3.37%,檔案資源利用率極低。根據(jù)浙江省統(tǒng)計(jì)局?jǐn)?shù)據(jù),2015年檔案資料利用人次為47.52萬(wàn)人;又根據(jù)國(guó)家統(tǒng)計(jì)局?jǐn)?shù)據(jù),浙江省2015年總?cè)丝跒?539萬(wàn)人,這些數(shù)據(jù)表示浙江省檔案利用人次僅占總?cè)丝诘?.86%,意味著浙江省檔案資源與99%以上的社會(huì)大眾無(wú)關(guān)。
相對(duì)于國(guó)外檔案的高開(kāi)放率,我國(guó)檔案自20世紀(jì)80年代提出開(kāi)放以來(lái)一直處于比較低的開(kāi)放率,其主要原因有兩個(gè)方面。第一,檔案法律法規(guī)對(duì)檔案開(kāi)放時(shí)間起著引導(dǎo)性和約束性作用,基本上要形成滿(mǎn)30年才能開(kāi)放。第二,開(kāi)放鑒定困難,由于人力和能力等方面條件約束,無(wú)法準(zhǔn)確和準(zhǔn)時(shí)地理解內(nèi)容并做出鑒定,保密過(guò)度而開(kāi)放減少,往往會(huì)導(dǎo)致開(kāi)放數(shù)量減少。如圖3所示,2006年人均管理檔案數(shù)為0.9545萬(wàn)卷,而到2015年時(shí)上升至3.1895萬(wàn)卷。2006年國(guó)家綜合檔案館數(shù)為3154個(gè),專(zhuān)職員工為22689人;而10年后綜合檔案館數(shù)上升至3322個(gè),人員卻降低至18386人(以上數(shù)據(jù)均取自國(guó)家統(tǒng)計(jì)局)。
開(kāi)放鑒定困難造成檔案開(kāi)放率逐年遞減,而法律法規(guī)導(dǎo)致開(kāi)放的檔案時(shí)效性較差,無(wú)法滿(mǎn)足社會(huì)大眾的需求,也就產(chǎn)生了上一節(jié)檔案資源與99%以上的社會(huì)大眾無(wú)關(guān)的局面。
圖3 人均管理檔案數(shù)和檔案館平均專(zhuān)職人員數(shù)
隨著近年來(lái)人工智能技術(shù)的興起,各行各業(yè)都引入了人工智能的技術(shù)來(lái)提升生產(chǎn)力和效率,檔案行業(yè)也不例外。浙江、江蘇、青島等省市陸續(xù)提出了“智慧檔案”并進(jìn)行了試點(diǎn)探索,而本文旨在探討運(yùn)用人工智能技術(shù)中的深度學(xué)習(xí)方法來(lái)實(shí)現(xiàn)檔案的開(kāi)放鑒定工作。
傳統(tǒng)意義上,計(jì)算機(jī)使用方式是我們通過(guò)鼠標(biāo)或者鍵盤(pán)等輸入裝置給它一連串指令,然后計(jì)算機(jī)按照指令去執(zhí)行并輸出結(jié)果,一一對(duì)應(yīng),非常明確。而人工智能最大的不同點(diǎn)在于,它接受的是數(shù)據(jù),自己分析,然后輸出結(jié)果。
以一個(gè)經(jīng)驗(yàn)豐富的檔案工作者鑒定一份檔案是否開(kāi)放為例,他首先需要了解這份檔案的內(nèi)容,然后根據(jù)自己的經(jīng)驗(yàn)來(lái)給出鑒定結(jié)果。如圖4所示,我們?nèi)斯ぶ悄芗夹g(shù)的原理就是模擬這種方式,利用已有的歷史數(shù)據(jù),得出某種模型,并利用這種模型來(lái)預(yù)測(cè)未知屬性。人工智能中計(jì)算機(jī)學(xué)習(xí)的方式與人腦思維的經(jīng)驗(yàn)過(guò)程是非常相似的,不過(guò)計(jì)算機(jī)能考慮更多的可能性,執(zhí)行更加復(fù)雜的運(yùn)算,也擁有更快的速度。利用這種技術(shù),我們便可以使用計(jì)算機(jī)來(lái)對(duì)檔案做開(kāi)放鑒定。
圖4 人工智能與人類(lèi)的對(duì)比
在分析數(shù)據(jù)前,首先要讓計(jì)算機(jī)“讀懂”數(shù)據(jù),也就是自然語(yǔ)言處理。機(jī)器處理自然語(yǔ)言的歷史一般認(rèn)為是從1950年Alan Turing在Mind雜志上發(fā)表的“計(jì)算的機(jī)器和智能”開(kāi)始的,經(jīng)過(guò)了60多年的發(fā)展,這個(gè)領(lǐng)域已經(jīng)取得了實(shí)質(zhì)性的突破。機(jī)器自然語(yǔ)言處理從用語(yǔ)法規(guī)則去理解自然語(yǔ)言,轉(zhuǎn)變成了基于數(shù)學(xué)模型和統(tǒng)計(jì)的方法去分析自然語(yǔ)言(吳軍,2014)。在中文中,詞是表達(dá)語(yǔ)義的最小單位,機(jī)器處理自然語(yǔ)言是建立在詞的基礎(chǔ)上的,所以中文分詞就是把一整段的句子分成單獨(dú)的幾個(gè)詞。
自然語(yǔ)言處理包括句法語(yǔ)義分析、信息抽取、文本挖掘、機(jī)器翻譯、信息檢索、圖像識(shí)別等等,結(jié)合現(xiàn)下jieba分詞、Word2Vec等幾個(gè)最流行的工具,機(jī)器就能“讀懂”檔案的內(nèi)容了。注意,這里讀懂被加了引號(hào),是因?yàn)楝F(xiàn)階段自然語(yǔ)言處理都是基于統(tǒng)計(jì)模型的,而不是基于語(yǔ)義模型。
計(jì)算機(jī)能讀懂檔案后,就需要進(jìn)行學(xué)習(xí)。計(jì)算機(jī)學(xué)習(xí)主要有訓(xùn)練和預(yù)測(cè)兩個(gè)方面,對(duì)應(yīng)于人類(lèi)的歸納和推測(cè)。計(jì)算機(jī)學(xué)習(xí)的方法有很多種,比較經(jīng)典的有回歸算法、神經(jīng)網(wǎng)絡(luò)、SVM支持向量機(jī)、聚類(lèi)算法、降維算法、推薦算法、樸素貝葉斯等等。按訓(xùn)練的歷史數(shù)據(jù)有無(wú)標(biāo)簽,我們可以將算法基本分為監(jiān)督學(xué)習(xí)算法和無(wú)監(jiān)督學(xué)習(xí)算法。因?yàn)闄n案開(kāi)放只有可開(kāi)放和不可開(kāi)放兩種結(jié)果,所以需要使用監(jiān)督學(xué)習(xí)算法,而神經(jīng)網(wǎng)絡(luò)算法是當(dāng)下非常流行的一種監(jiān)督學(xué)習(xí)算法,遞歸神經(jīng)網(wǎng)絡(luò)(RNN)非常適合運(yùn)用于自然語(yǔ)言處理,例如Socher et al.(2013c)成功使用了遞推神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)語(yǔ)句情感,并取得了80.7%的準(zhǔn)確率。所以,神經(jīng)網(wǎng)絡(luò)算法也非常適合計(jì)算機(jī)來(lái)做檔案開(kāi)放鑒定。
神經(jīng)網(wǎng)絡(luò)算法是人工智能中的一個(gè)新的領(lǐng)域,它的原理是模仿人腦的機(jī)制來(lái)解釋和處理數(shù)據(jù),建立大腦神經(jīng)網(wǎng)絡(luò)系統(tǒng)傳遞信息,可以用于分析圖像、聲音和文本。所謂深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),就是擁有層數(shù)非常多的神經(jīng)網(wǎng)絡(luò)。舉個(gè)例子,想要在圖5的三個(gè)圖中讓電腦識(shí)別是否有人臉,設(shè)計(jì)幾個(gè)神經(jīng)元來(lái)判斷是否有眼睛,是否有鼻子,是否有嘴巴,是否有頭發(fā),等等,然后依靠最終神經(jīng)元的輸出判斷是否有人臉,如圖6所示。如果想判別是男人的臉還是女人的臉,或者判定其他更復(fù)雜的東西,就需要增加更多的神經(jīng)網(wǎng)絡(luò)層。
神經(jīng)網(wǎng)絡(luò)算法運(yùn)用到檔案的開(kāi)放鑒定中分為兩個(gè)步驟:訓(xùn)練和預(yù)測(cè)。訓(xùn)練的意思就是把已經(jīng)由人工劃分好的歷史數(shù)據(jù)讓機(jī)器學(xué)習(xí),得出一個(gè)模型。經(jīng)過(guò)不斷地參數(shù)調(diào)整,這個(gè)模型就可以擁有較高的檔案開(kāi)放鑒定準(zhǔn)確率了。機(jī)器鑒定檔案會(huì)有以下三個(gè)優(yōu)點(diǎn):鑒定標(biāo)準(zhǔn)統(tǒng)一,效率高,無(wú)須相關(guān)專(zhuān)業(yè)知識(shí)即可鑒定。
圖5 判別人臉的例子
圖6 簡(jiǎn)易神經(jīng)網(wǎng)絡(luò)
運(yùn)用人工智能技術(shù)中的神經(jīng)網(wǎng)絡(luò)算法來(lái)鑒定檔案是否開(kāi)放,還存在著許多實(shí)際操作中的問(wèn)題。第一,模型訓(xùn)練需要檔案全文數(shù)字化,導(dǎo)致訓(xùn)練數(shù)據(jù)的數(shù)量需求量非常大,至少千萬(wàn)級(jí)別,而2015年全國(guó)開(kāi)放檔案才9266.3萬(wàn)卷,訓(xùn)練數(shù)據(jù)獲取難。第二,算法設(shè)計(jì)和參數(shù)調(diào)整需要相當(dāng)大的人力和時(shí)間,神經(jīng)網(wǎng)絡(luò)是一個(gè)非常年輕的領(lǐng)域,理論建立并不完備,很多方面都要摸索著前進(jìn)。第三,可能會(huì)有部分誤判,由于模型預(yù)測(cè)過(guò)程完全是黑箱模式,無(wú)法知道判別的具體依據(jù)。盡管有著諸多困難,但這些在實(shí)現(xiàn)“智慧檔案”的道路上是不可避免的,人工智能技術(shù)的引入會(huì)加快“智慧檔案”的實(shí)現(xiàn)。