• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      檔案領(lǐng)域本體數(shù)據(jù)集衍生證據(jù)價值實現(xiàn)機理探析

      2021-02-06 03:50:14趙生輝西藏民族大學管理學院
      浙江檔案 2021年1期
      關(guān)鍵詞:真實性本體證據(jù)

      趙生輝/西藏民族大學管理學院

      胡 瑩/云南大學歷史與檔案學院

      1 問題提出

      伴隨著人工智能時代的到來,檔案管理和利用的模式正面臨一系列重大變革:檔案管理對象由“文獻”轉(zhuǎn)向“內(nèi)容(知識)”;檔案信息獲取由基于文獻的“碎片式獲取”轉(zhuǎn)向基于本體的“聚合態(tài)獲取”;檔案信息服務(wù)由“檔案文獻檢索”轉(zhuǎn)向“社會記憶問答”[1]。上述變化對傳統(tǒng)檔案信息組織形態(tài)提出了全面挑戰(zhàn)。建設(shè)具有整體性特征,可以支持大規(guī)模檔案文獻內(nèi)容檢索和語義推理的檔案數(shù)據(jù)服務(wù)基礎(chǔ)設(shè)施成為大勢所趨?!皺n案領(lǐng)域本體數(shù)據(jù)集”是隨著人類進入智能社會而出現(xiàn)的一種具有融合特征的新型檔案信息資源組織形態(tài),是由大量從檔案文獻當中抽取的數(shù)據(jù)元素,按照語義網(wǎng)絡(luò)模型融合而成的,用來模擬和反映社會歷史領(lǐng)域各類實體屬性之間的語義關(guān)系及其運動變化過程的大規(guī)模關(guān)聯(lián)數(shù)據(jù)集合[2],其生成原理如圖1所示。

      圖1中,人類的檔案管理活動總體分為“實物檔案管理”“電子檔案管理”“本體檔案管理”三個階段,由計算機和互聯(lián)網(wǎng)技術(shù)驅(qū)動的“檔案數(shù)字化”標志著“實物檔案管理”向“電子檔案管理”的遷躍,由人工智能技術(shù)驅(qū)動的“檔案數(shù)據(jù)化”則標志著“電子檔案管理”向“本體檔案管理”的遷躍。“檔案數(shù)字化”成果體現(xiàn)為支持檔案文獻檢索的原生電子檔案、再生電子檔案及其管理元數(shù)據(jù);“檔案數(shù)據(jù)化”成果則體現(xiàn)為由檔案文獻內(nèi)容數(shù)據(jù)融合而成的“檔案領(lǐng)域本體數(shù)據(jù)集”。與“檔案數(shù)字化”可以通過高精度掃描最大限度保留檔案文獻外在形式特征所不同的是,檔案領(lǐng)域本體數(shù)據(jù)集與作為其來源的檔案文獻在外在形式上已經(jīng)發(fā)生了極為顯著的變化。例如,文書檔案的內(nèi)容通常表現(xiàn)為具有特定結(jié)構(gòu)的自然語言文本,而從中抽取的關(guān)鍵內(nèi)容信息則表現(xiàn)為參照資源描述框架RDF生成的語義三元組數(shù)據(jù),上述數(shù)據(jù)分別與相關(guān)實體建立關(guān)聯(lián)之后就融入了本體,數(shù)據(jù)之間的“邊界”將不復(fù)存在,已經(jīng)無法直接通過呈現(xiàn)形式來直觀判斷兩者是否具有一致性。然而,無論是旨在為用戶提供精準檔案內(nèi)容服務(wù)的社會記憶問答系統(tǒng),還是為用戶提供基礎(chǔ)業(yè)務(wù)數(shù)據(jù)驗證服務(wù)的檔案智能應(yīng)用系統(tǒng),用戶都不再需要逐一查閱檔案文獻,所利用的對象僅限于計算機按照特定算法從檔案領(lǐng)域本體數(shù)據(jù)集中檢索的數(shù)據(jù)或生成的答案,雙方建立信任的前提就是必須通過某種形式確認作為數(shù)據(jù)源的本體數(shù)據(jù)集本身是真實可靠的,具有與其來源文獻類似的證據(jù)價值。

      圖1:“檔案領(lǐng)域本體數(shù)據(jù)集”的生成原理

      檔案的證據(jù)價值源于其原始記錄性,維護檔案文獻的原始記錄性是檔案管理的核心任務(wù)[3]。由紙質(zhì)檔案文獻經(jīng)過數(shù)字化加工形成的“再生型電子檔案”和由檔案文獻數(shù)據(jù)抽取融合而成的“檔案領(lǐng)域本體數(shù)據(jù)集”本質(zhì)上都是為了更好地利用原始檔案文獻而對其進行二次加工生成的“二次資源”,本身并不具備原始記錄屬性,其在檔案服務(wù)當中直接作為證據(jù)使用的效力是受限的[4]。實踐中,檔案數(shù)字化成果的可信性主要是通過對檔案數(shù)字化加工過程的嚴格規(guī)范控制來實現(xiàn)的。如果所有加工處理環(huán)節(jié)都是受控的,掃描件最大化保留了原始檔案文獻的外在特征且核心內(nèi)容經(jīng)過嚴格的人工比對和確認,所有背景信息都在元數(shù)據(jù)中進行了詳細著錄,則可以認為該再生型電子檔案具備與原始文獻證據(jù)屬性類似的“證據(jù)價值”。本文將這種從原始檔案文獻繼承而來與原始檔案文獻證據(jù)價值相類似的準證據(jù)價值稱為“衍生證據(jù)價值(Quasi Evidence Value)”。“衍生證據(jù)價值”并不是真正的證據(jù)價值,其產(chǎn)生是以原始檔案文獻的證據(jù)屬性為前提和基礎(chǔ),并依附于原始檔案文獻而存在:當再生電子檔案和來源紙質(zhì)檔案文獻同時出現(xiàn)時,默認為以原始紙質(zhì)檔案文獻為準;如果來源檔案文獻證據(jù)屬性被確認不成立,衍生證據(jù)屬性也會隨之消失?!把苌C據(jù)價值”也不是完全的證據(jù)價值,而只是從原始檔案文獻當中繼承的一部分屬性,紙張、墨跡等紙質(zhì)檔案所獨有的屬性無法傳遞給再生電子檔案,因而被認為證據(jù)屬性不足時,通常需要向紙質(zhì)檔案回溯,即由相關(guān)機構(gòu)提供檔案文獻的紙質(zhì)原件。隨著我國各類數(shù)字檔案館建設(shè)的推進,作為檔案數(shù)字化成果的再生型電子檔案衍生證據(jù)價值保障已有相對成熟的解決方案,而作為檔案數(shù)據(jù)化加工成果的“檔案領(lǐng)域本體數(shù)據(jù)集”的“衍生證據(jù)價值”的內(nèi)涵及其實現(xiàn)機理、保障機制等問題目前尚無定論,亟待學界進行深入探索。

      2 價值解析

      電子檔案證據(jù)價值主要來源于其真實性(Authenticity)、完整性(Integrity)和可讀性(Availability)等作為證據(jù)向相關(guān)機構(gòu)或個人提供時所必須具備的特征[5]。“檔案領(lǐng)域本體數(shù)據(jù)集”的衍生證據(jù)價值來源于電子檔案,在繼承上述特征的同時,由于信息組織形式的差異性,每一種屬性都會有新的內(nèi)涵。

      2.1 檔案領(lǐng)域本體數(shù)據(jù)集的真實性

      電子檔案的真實性指文件的核心內(nèi)容、邏輯結(jié)構(gòu)和背景信息始終維持著形成之初的狀態(tài),作為證據(jù)使用時必須具備的各類要素在導(dǎo)出、傳輸、遷移等操作過程中始終保持完好,沒有被任何人做任何改動。電子檔案的真實性是針對整個文獻而言的,如果檔案文獻被確認具有真實性,經(jīng)過規(guī)范化流程和方法對文獻各個組成部分進行解析和抽取之后形成的所有數(shù)據(jù)元素也就相應(yīng)地具有真實性。“檔案領(lǐng)域本體數(shù)據(jù)集”是從檔案文獻當中抽取的具有真實性的數(shù)據(jù)元素經(jīng)過關(guān)聯(lián)與融合而成的,因而“檔案領(lǐng)域本體數(shù)據(jù)集”的真實性是由構(gòu)成它的大量語義數(shù)據(jù)元素的真實性來保障的,如果構(gòu)成檔案領(lǐng)域本體數(shù)據(jù)集的每一條數(shù)據(jù)記錄的真實性都有可靠證據(jù)來證明,則可以推論出整個數(shù)據(jù)集也是真實可信的,對該數(shù)據(jù)集中的部分數(shù)據(jù)元素進行重新組合生成的子集也是具有真實性的,可以作為組合態(tài)的證據(jù)使用。

      2.2 檔案領(lǐng)域本體數(shù)據(jù)集的完整性

      電子檔案的完整性指電子檔案在作為證據(jù)使用時,其所應(yīng)該具備的各類要素同時具備且保存完好。檔案領(lǐng)域本體數(shù)據(jù)集作為通過數(shù)據(jù)進行特定領(lǐng)域社會系統(tǒng)實體關(guān)系網(wǎng)絡(luò)的數(shù)字態(tài)模型,其完整性主要取決于數(shù)據(jù)集所錄入實體和關(guān)系的覆蓋面,即特定領(lǐng)域絕大多數(shù)實體關(guān)系都在本體數(shù)據(jù)集當中進行了相對完整的描述和表達。檔案領(lǐng)域本體數(shù)據(jù)集反映的是人們以檔案為依據(jù)對特定領(lǐng)域知識結(jié)構(gòu)的認知結(jié)果,而這種認知能力始終是處于動態(tài)發(fā)展過程中的,現(xiàn)階段還沒有認識到的實體和關(guān)系就無法在本體當中進行描述,因而不存在完全意義上“完整”的本體數(shù)據(jù)集。檔案領(lǐng)域本體數(shù)據(jù)集的完整性維護主要是在現(xiàn)有認知范圍內(nèi),通過人工或者機器方式,把對應(yīng)社會領(lǐng)域真實存在的實體和關(guān)系盡可能全面地在本體當中予以體現(xiàn)。

      2.3 檔案領(lǐng)域本體數(shù)據(jù)集的可讀性

      電子檔案的可讀性指作為證據(jù)使用時,可以通過相關(guān)設(shè)備和軟件順利讀取和顯示的屬性。檔案領(lǐng)域本體數(shù)據(jù)集的可讀性主要是指其作為社會記憶數(shù)據(jù)基礎(chǔ)設(shè)施時,具有被其他相關(guān)應(yīng)用程序順利讀取和計算的能力。為此,數(shù)據(jù)集應(yīng)當盡可能遵循標準規(guī)范,使用具有通用性的技術(shù)方案,以便可以與其它應(yīng)用程序?qū)崿F(xiàn)“互操作”。目前國際互聯(lián)網(wǎng)聯(lián)盟推薦的本體描述語言為OWL(Ontology Web Language),底層代碼采用可擴展標記語言XML,按照資源描述框架RDF進行數(shù)據(jù)關(guān)聯(lián),整個本體數(shù)據(jù)集形式上表現(xiàn)為純文本代碼,獨立于任何專門硬件和軟件,跨系統(tǒng)讀取、傳輸和互操作等功能均可實現(xiàn)。

      3 實現(xiàn)機理

      “檔案領(lǐng)域本體數(shù)據(jù)集”的“衍生證據(jù)價值”是其作為人工智能時代智慧檔案服務(wù)基礎(chǔ)設(shè)施可以被社會大眾所信任和接受的前提條件,必須通過系統(tǒng)性的解決方案予以全面保障。鑒于“檔案領(lǐng)域本體數(shù)據(jù)集”可讀性的保障相對容易,本文重點討論其真實性的衍生機理和完整性的擴展機理兩方面的問題。

      3.1 檔案領(lǐng)域本體數(shù)據(jù)集真實性的衍生機理

      “檔案領(lǐng)域本體數(shù)據(jù)集”真實性來源于電子檔案的真實性。如果電子檔案的真實性已經(jīng)得到確認,則可以認為檔案文獻的內(nèi)容信息也具有真實性,即自形成之初就保持著其原有的狀態(tài)。如果構(gòu)成檔案領(lǐng)域本體數(shù)據(jù)集的所有數(shù)據(jù)元素都來源于可信電子檔案,雖然數(shù)據(jù)元素的組合形態(tài)已經(jīng)發(fā)生變化,由于每一條數(shù)據(jù)都“有據(jù)可查”,則可以推論檔案領(lǐng)域本體數(shù)據(jù)集也具有真實性。基于可信本體數(shù)據(jù)集,從其中檢索到的任何一條數(shù)據(jù)記錄或者若干數(shù)據(jù)記錄的組合都具有證據(jù)價值,經(jīng)過檔案領(lǐng)域本體數(shù)據(jù)集的建設(shè)與管理機構(gòu)簽章確認,在司法和其他社會活動當中就可以直接作為證據(jù)使用,如圖2所示。

      圖2:檔案領(lǐng)域本體數(shù)據(jù)集真實性的衍生機理

      圖2當中,電子檔案所蘊含的內(nèi)容信息通過抽取被描述RDF格式的語義三元組。例如,電子檔案A所蘊含的數(shù)據(jù)包括A1,A2,……,An。來自不同檔案文獻的數(shù)據(jù)參照本體數(shù)據(jù)框架進行重新組合,逐漸由少到多,最終融合成為囊括所有來源文獻核心內(nèi)容的大規(guī)模語義數(shù)據(jù)集。在上述過程中,只要確保所有電子檔案數(shù)據(jù)抽取和本體錄入過程是符合規(guī)范的,本體數(shù)據(jù)集當中的任何一條數(shù)據(jù)都有據(jù)可查,則可以認為本體數(shù)據(jù)集整體上是具有真實性的,其中的部分數(shù)據(jù)經(jīng)過組合之后形成的“子集”在特定的社會活動當中可以作為證據(jù)來使用,如來源于不同檔案文獻的數(shù)據(jù)B1、A3、C3、A2可組成整體性的證據(jù)文檔。上述過程中,檔案領(lǐng)域本體數(shù)據(jù)集本身不具備原始記錄性,其真實性是由檔案文獻本身的原始記錄性所決定的。正是由于檔案本體數(shù)據(jù)集的真實性具有衍生性質(zhì),在司法或其他社會活動中,機構(gòu)或個人對其真實性可以采信也可以質(zhì)疑。當檔案領(lǐng)域本體數(shù)據(jù)集的真實性受到挑戰(zhàn)時,通常情況下需要對檔案管理系統(tǒng)進行回溯,通過提供電子版的檔案文獻甚至紙質(zhì)版檔案文獻原件,證明從檔案本體數(shù)據(jù)集當中檢索的結(jié)果是真實可信的。

      3.2 檔案領(lǐng)域本體數(shù)據(jù)集完整性的擴展機理

      提高檔案領(lǐng)域本體數(shù)據(jù)集完整性的措施主要有以下方面。第一,擴大檔案文獻抽取數(shù)據(jù)元素的范圍,在國家檔案法規(guī)允許的范圍內(nèi),盡可能多地將已經(jīng)依法公開的相關(guān)檔案文獻全部納入數(shù)據(jù)抽取范圍。在特殊情況下,如果檔案文獻還沒有對公眾開放,但是對其內(nèi)容的總體性統(tǒng)計分析結(jié)果事關(guān)公共利益,可先進行檔案文獻的數(shù)據(jù)抽取和關(guān)聯(lián),再通過程序限制數(shù)據(jù)使用范圍,在不向用戶顯示具體數(shù)據(jù)內(nèi)容的情況下把總體性的數(shù)據(jù)統(tǒng)計結(jié)果反饋給用戶。第二,加大與圖書館、博物館、方志館、文史館、文化館等公共文化服務(wù)機構(gòu)的協(xié)作,按照互利共贏原則,將保存在上述機構(gòu)當中具有檔案屬性的藏品也納入數(shù)據(jù)抽取的范圍,從而使有關(guān)同一實體的數(shù)據(jù)屬性可以基于唯一的統(tǒng)一資源標識URI進行關(guān)聯(lián),用戶一次性就可以獲取之前需要到多個機構(gòu)查閱文獻之后才能獲取的全局信息[6]。第三,充分利用語義推理技術(shù),發(fā)掘人工抽取所沒有識別出的隱含語義關(guān)系,進行本體數(shù)據(jù)集的補全。 第四,利用社會記憶問答平臺的用戶提問記錄進行需求倒推,實現(xiàn)檔案領(lǐng)域本體數(shù)據(jù)集的反向補全。

      4 實踐路徑

      4.1 制定行業(yè)標準《檔案領(lǐng)域本體數(shù)據(jù)集建設(shè)與認證規(guī)范》

      行業(yè)標準《檔案領(lǐng)域本體數(shù)據(jù)集建設(shè)與認證規(guī)范》的核心價值在于確立檔案數(shù)據(jù)服務(wù)的認證原則,即只有在嚴格受控的條件下建立的檔案本體數(shù)據(jù)集才具有衍生證據(jù)價值,才可以在業(yè)務(wù)、司法和其他類型社會活動中被作為“準證據(jù)”使用。建議我國檔案行政機關(guān)對智能社會背景下檔案智能化服務(wù)數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)的目標、原則、機制、原理、實施和認證等方面做出明確規(guī)定,尤其是對檔案領(lǐng)域本體數(shù)據(jù)集的系統(tǒng)技術(shù)架構(gòu)、頂層本體模型、本體描述語言、數(shù)據(jù)抽取方法、數(shù)據(jù)鑒定方法、數(shù)據(jù)集認證方法等給出較為詳細的指導(dǎo)性意見,以便各層級的檔案管理機構(gòu)根據(jù)各自實際建設(shè)本體數(shù)據(jù)集時參考。

      4.2 組建全國性的第三方檔案領(lǐng)域本體數(shù)據(jù)集建設(shè)認證專業(yè)組織

      與企業(yè)產(chǎn)品質(zhì)量管理、環(huán)境保護控制等領(lǐng)域的認證類似,檔案領(lǐng)域本體數(shù)據(jù)集可信性認證也是引導(dǎo)各級各類檔案機構(gòu)提升檔案數(shù)據(jù)化加工的規(guī)范化程度,提高檔案本體數(shù)據(jù)集質(zhì)量的重要手段。建議在中國檔案學會等中介組織的推動下,建立第三方專業(yè)組織“全國檔案數(shù)據(jù)服務(wù)研究與認證中心”,并推動全國范圍內(nèi)檔案領(lǐng)域本體數(shù)據(jù)集認證組織網(wǎng)絡(luò)建設(shè)。“全國檔案數(shù)據(jù)服務(wù)研究與認證中心”既是檔案領(lǐng)域本體數(shù)據(jù)集建成后的質(zhì)量認證機構(gòu),又是以全生命周期介入數(shù)據(jù)集建設(shè)的專業(yè)性的服務(wù)機構(gòu)。作為第三方中介組織,“全國檔案數(shù)據(jù)服務(wù)研究與認證中心”可以適度收取認證費用,以維持機構(gòu)日常運轉(zhuǎn)。

      4.3 建設(shè)全國一體化的檔案領(lǐng)域本體數(shù)據(jù)集關(guān)聯(lián)融合平臺

      在全國范圍內(nèi)的檔案領(lǐng)域本體數(shù)據(jù)集建設(shè)還沒有啟動的情況下,一開始就高起點規(guī)劃,按照“云計算”架構(gòu)建設(shè)全國一體化的“國家檔案數(shù)據(jù)服務(wù)基礎(chǔ)設(shè)施平臺”,不僅可以減輕地方政府的財政負擔,而且可以對涉及全國范圍的公共實體及其語義關(guān)系作出統(tǒng)一描述。各層級檔案管理機構(gòu)的檔案數(shù)據(jù)化加工只需要依托國家檔案數(shù)據(jù)服務(wù)基礎(chǔ)設(shè)施平臺,按照模板錄入各自領(lǐng)域或權(quán)限范圍內(nèi)的數(shù)據(jù)即可。在全國各層級、各部門的檔案文獻數(shù)據(jù)都錄入基礎(chǔ)設(shè)施平臺的情況下,全國范圍內(nèi)有關(guān)同一實體的各類檔案文獻所蘊含的信息就依托平臺融為一體,用戶不再需要去查閱大量檔案文獻就可以一次性獲取實體對象的全方位屬性數(shù)據(jù)。

      4.4 構(gòu)建檔案領(lǐng)域本體數(shù)據(jù)集全生命周期質(zhì)量保障體系

      檔案領(lǐng)域本體數(shù)據(jù)集的衍生證據(jù)價值是由其建設(shè)過程的規(guī)范性來確認的,需要從軟件架構(gòu)設(shè)計到來源文獻選取、數(shù)據(jù)抽取、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)服務(wù)、數(shù)據(jù)維護的全生命周期進行整體性控制。建議從“檔案領(lǐng)域本體數(shù)據(jù)集”立項開始就由第三方專業(yè)認證機構(gòu)參與,對于技術(shù)架構(gòu)、領(lǐng)域本體頂層模型、數(shù)據(jù)模板等方面的規(guī)范性進行確認?;A(chǔ)平臺建成之后,需要對作為數(shù)據(jù)來源的檔案文獻的范圍和質(zhì)量進行重新確認。數(shù)據(jù)抽取過程中,需要確保抽取原則和方法的一致性,由機器自動抽取的結(jié)果必須由人工確認之后才能錄入本體數(shù)據(jù)集,并通過建模軟件或者權(quán)威機構(gòu)提供的邏輯一致性測試工具進行測試,確保關(guān)聯(lián)到數(shù)據(jù)集當中的所有數(shù)據(jù)語義關(guān)系的明確性和一致性?;跈n案領(lǐng)域本體數(shù)據(jù)集提供智能化檔案服務(wù)時,需要在遵守國家檔案開放和利用相關(guān)法律規(guī)章的前提下,盡可能滿足用戶的檔案需求。

      猜你喜歡
      真實性本體證據(jù)
      Abstracts and Key Words
      哲學分析(2023年4期)2023-12-21 05:30:27
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      中國音樂學(2020年4期)2020-12-25 02:58:06
      廣告的真實性
      對于家庭暴力應(yīng)當如何搜集證據(jù)
      紅土地(2016年3期)2017-01-15 13:45:22
      手上的證據(jù)
      “大禹治水”有了新證據(jù)
      《我應(yīng)該感到自豪才對》的本體性教學內(nèi)容及啟示
      文學教育(2016年27期)2016-02-28 02:35:15
      手上的證據(jù)
      從懸疑報道談新聞的真實性
      新聞傳播(2015年9期)2015-07-18 11:04:13
      堅持新聞的真實性
      新聞傳播(2015年22期)2015-07-18 11:04:06
      道孚县| 新邵县| 山阳县| 伽师县| 皮山县| 察隅县| 广安市| 辉县市| 涟源市| 巴彦县| 修文县| 城步| 东兰县| 星子县| 天镇县| 克拉玛依市| 会泽县| 平邑县| 陕西省| 宁武县| 云龙县| 梅河口市| 汝南县| 阳江市| 澳门| 繁峙县| 靖西县| 赣州市| 万荣县| 邵阳市| 达拉特旗| 富川| 新泰市| 手机| 利川市| 石柱| 峨眉山市| 徐州市| 双牌县| 胶州市| 渭源县|