• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      檔案數(shù)據(jù)挖掘的應(yīng)用設(shè)計(jì)原則與應(yīng)用實(shí)踐研究

      2023-12-11 04:29:25莊宏武
      蘭臺(tái)內(nèi)外 2023年33期
      關(guān)鍵詞:應(yīng)用價(jià)值數(shù)據(jù)挖掘檔案管理

      摘 要:如何發(fā)揮檔案的價(jià)值,始終是檔案管理工作的重要問題。隨著人工智能、大數(shù)據(jù)、云計(jì)算等信息技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)進(jìn)入人們的視野,成為檔案管理工作的研究熱點(diǎn)。本文對(duì)這一現(xiàn)象進(jìn)行研究后,發(fā)現(xiàn)受一些客觀因素影響,數(shù)據(jù)挖掘技術(shù)在檔案管理工作中應(yīng)用的并不普遍,還存在一些困惑和疑慮。作者以實(shí)際應(yīng)用為例,圍繞檔案挖掘技術(shù)在檔案領(lǐng)域中應(yīng)用的熱點(diǎn)問題進(jìn)行了研究,提出了一些設(shè)計(jì)建議,希望能給檔案同人提供一些參考。

      關(guān)鍵詞:檔案管理;數(shù)據(jù)挖掘;應(yīng)用價(jià)值

      數(shù)據(jù)挖掘技術(shù)是機(jī)器學(xué)習(xí)和數(shù)據(jù)庫管理的交叉,在數(shù)據(jù)庫管理技術(shù)的支撐下從數(shù)據(jù)庫中提取大量數(shù)據(jù),通過機(jī)器學(xué)習(xí)技術(shù)進(jìn)行分析,從而挖掘潛在有價(jià)值的信息。在檔案管理工作中應(yīng)用數(shù)據(jù)挖掘技術(shù),已經(jīng)有很多成功的例子,但受一些客觀因素影響,數(shù)據(jù)挖掘技術(shù)在檔案管理工作中應(yīng)用得并不普遍,而且一些部門在應(yīng)用檔案數(shù)據(jù)挖掘技術(shù)時(shí)還產(chǎn)生了一些困惑和疑慮,檔案數(shù)據(jù)挖掘技術(shù)本身也還在進(jìn)一步發(fā)展之中[1]。

      1 檔案數(shù)據(jù)挖掘的應(yīng)用設(shè)計(jì)原則

      1.1 需求導(dǎo)向原則

      檔案數(shù)據(jù)挖掘應(yīng)以用戶的需求為導(dǎo)向,立足于滿足與檔案管理活動(dòng)相關(guān)人員的普遍需求,同時(shí)還應(yīng)將未來可能出現(xiàn)的狀況考慮進(jìn)去,做到對(duì)問題的及時(shí)應(yīng)對(duì)[2]。檔案數(shù)據(jù)挖掘主要以電子文件為對(duì)象。一旦進(jìn)入無紙化時(shí)代,整個(gè)社會(huì)的信息流將加快,單位時(shí)間內(nèi)產(chǎn)生的電子文件將急劇增加,會(huì)直接加大檔案管理壓力,給檔案管理系統(tǒng)的穩(wěn)定性帶來了挑戰(zhàn),對(duì)整個(gè)工作流程的可持續(xù)性產(chǎn)生影響[3]。由于檔案管理從檔案的收集、整理、著錄、保管、鑒定到利用都是有秩序的流程,任何一個(gè)環(huán)節(jié)的出錯(cuò),都可能導(dǎo)致后續(xù)檔案工作無法開展[4]。因此,在檔案數(shù)據(jù)挖掘設(shè)計(jì)時(shí),必須要將各個(gè)環(huán)節(jié)人員的需求都考慮進(jìn)去,保證管理的有條不紊。

      1.2 數(shù)據(jù)前提原則

      數(shù)據(jù)挖掘雖然在一定程度上能夠解決異構(gòu)數(shù)據(jù)所帶來的問題,但并不代表數(shù)據(jù)挖掘?qū)?shù)據(jù)沒有任何要求。數(shù)據(jù)前提原則在檔案數(shù)據(jù)挖掘上具體表現(xiàn)為以下幾點(diǎn):①數(shù)據(jù)量滿足數(shù)據(jù)挖掘的要求,具體的最小數(shù)據(jù)量并沒有在相關(guān)文獻(xiàn)中提到,根據(jù)scikit-learn(Python平臺(tái)的一個(gè)數(shù)據(jù)挖掘開源庫)開發(fā)組的建議,數(shù)據(jù)挖掘的最小數(shù)據(jù)量為50,顯然數(shù)據(jù)量越大,最后的結(jié)果越令人信服[5]。②保證所用數(shù)據(jù)的質(zhì)量,即數(shù)據(jù)能夠反映自身的信息,這一點(diǎn)在檔案數(shù)據(jù)挖掘上尤為重要。由于檔案管理的相關(guān)要求,很多機(jī)構(gòu)都會(huì)對(duì)紙質(zhì)檔案進(jìn)行數(shù)字化,但數(shù)字化產(chǎn)生的文檔不能用于數(shù)據(jù)挖掘,因?yàn)閿?shù)據(jù)挖掘所用的是文檔中的文本數(shù)據(jù),而數(shù)字化文檔經(jīng)過OCR后并不能完美還原最初的文本數(shù)據(jù),經(jīng)常出現(xiàn)亂碼、錯(cuò)別字等情況,因此檔案數(shù)據(jù)挖掘所用的數(shù)據(jù)必須來自含有正確數(shù)據(jù)的電子文件[6]。③數(shù)據(jù)間應(yīng)有一定的特征差別,不能具有同一性,諸如基建檔案中的圖紙類數(shù)據(jù)等不符合這一要求[7]。由于基建圖紙類數(shù)據(jù)是通過建筑設(shè)計(jì)軟件產(chǎn)生的專業(yè)領(lǐng)域數(shù)據(jù),所有圖紙幾乎都是由線條構(gòu)成,在顏色、輪廓等方面都沒有明顯的區(qū)分,特征非常不明顯,因此這類數(shù)據(jù)應(yīng)該排除出檔案數(shù)據(jù)挖掘范圍[8]。

      1.3 成本效益原則

      檔案數(shù)據(jù)挖掘系統(tǒng)的開發(fā)與大部分信息系統(tǒng)一樣,需要投入大量的人力、物力,需要充足的資金來維持[9]。然而,無論是政府機(jī)構(gòu)還是企業(yè)內(nèi)部,檔案部門一直處于邊緣地位,可供規(guī)劃使用的資金不是很多。因此,在檔案數(shù)據(jù)挖掘上的投入應(yīng)量力而行,在滿足多數(shù)人需求的情況,盡量降低研發(fā)所用的資金[10]。同時(shí),資金的支持與其產(chǎn)生的效益相關(guān),如若一個(gè)項(xiàng)目不能產(chǎn)生明顯的效益,那么對(duì)于整個(gè)機(jī)構(gòu)來說,這就是一個(gè)失敗的項(xiàng)目,對(duì)于資金的申請(qǐng)自然不能成功。因此,在檔案數(shù)據(jù)挖掘的研發(fā)上應(yīng)更偏向檔案利用的目的,高效地利用過去所產(chǎn)生的所有文件,在文化產(chǎn)品、輔助決策等方面都可以發(fā)揮檔案應(yīng)有的作用,如對(duì)于企業(yè)內(nèi)部的檔案,通過數(shù)據(jù)挖掘可歸納出企業(yè)近幾年的發(fā)展?fàn)顩r和規(guī)劃,結(jié)合企業(yè)實(shí)際的運(yùn)營情況可適當(dāng)做出有利于企業(yè)發(fā)展的建議,發(fā)揮輔助決策的作用[11]。

      1.4 檔案保護(hù)原則

      數(shù)據(jù)挖掘的數(shù)據(jù)來源是檔案,但并不意味著要使用原始數(shù)據(jù)。對(duì)于檔案來說,原始數(shù)據(jù)有且只有一份,即使是拷貝后的電子文件,從數(shù)據(jù)的性質(zhì)來說,該數(shù)據(jù)也不是原來的數(shù)據(jù)[12]。在檔案數(shù)據(jù)挖掘過程中,可能會(huì)給檔案數(shù)據(jù)帶來不可逆的后果,一旦檔案數(shù)據(jù)遭到損壞,意味著整個(gè)檔案管理的流程將重新進(jìn)行[13]。從檔案數(shù)據(jù)挖掘的效率來考慮,數(shù)據(jù)出現(xiàn)損壞的情況必須降至最低,挖掘使用的數(shù)據(jù)應(yīng)來源于原始數(shù)據(jù)的拷貝,同時(shí)也要對(duì)使用的拷貝數(shù)據(jù)進(jìn)行備份,降低過程中產(chǎn)生的數(shù)據(jù)風(fēng)險(xiǎn)[14]。

      2 檔案數(shù)據(jù)挖掘技術(shù)應(yīng)用實(shí)踐案例分析

      隨著信息化建設(shè)的不斷深入,檔案部門產(chǎn)生海量數(shù)據(jù),檔案數(shù)據(jù)量已形成一定規(guī)模。基于滿足社會(huì)公眾對(duì)檔案信息深層次需求和利用的多樣化的考慮,有的檔案部門擬開發(fā)建設(shè)“民生檔案智慧分析挖掘應(yīng)用平臺(tái)”項(xiàng)目,該平臺(tái)將以民生檔案為主體的大數(shù)據(jù)為主要對(duì)象,實(shí)現(xiàn)對(duì)檔案信息的數(shù)據(jù)挖掘和綜合管理、分析、研究[15]。

      2.1 系統(tǒng)架構(gòu)

      民生檔案智慧分析挖掘平臺(tái)主要從開放性、跨平臺(tái)、技術(shù)成熟的角度考慮,在開發(fā)架構(gòu)上采用B/S模式的三層或多層架構(gòu),以J2EE技術(shù)體系結(jié)構(gòu)和MVC開發(fā)模式為支撐,數(shù)據(jù)庫則使用Oracle,沒有使用非關(guān)系型數(shù)據(jù)庫,同時(shí)使用Weblogic、Websphere、東方通等中間件。除此之外,系統(tǒng)基于XML的數(shù)據(jù)交換接口,支持上下級(jí)之間的數(shù)據(jù)交換[16]。

      2.2 數(shù)據(jù)管理

      民生檔案智慧分析挖掘平臺(tái)可接收和管理各種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),如ODBC數(shù)據(jù)源數(shù)據(jù)目錄接收導(dǎo)入,以及支持接收PDF、DOC、WPS、RTF、WAV、MP3、MPEG、ASF、WMV等格式電子文件,所有文本類和圖像類電子文件要求通過“檔案數(shù)據(jù)標(biāo)準(zhǔn)化轉(zhuǎn)換工具”轉(zhuǎn)換為PDF格式,對(duì)于所有音頻、視頻類的電子文件轉(zhuǎn)換為FLV格式,有關(guān)兩種格式作為系統(tǒng)統(tǒng)一規(guī)范利用格式。整個(gè)應(yīng)用系統(tǒng)應(yīng)實(shí)現(xiàn)對(duì)海量的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的組織、管理、應(yīng)用、組織,解決館藏資源管理系統(tǒng)與網(wǎng)上接收、發(fā)布各子系統(tǒng)之間接口問題和數(shù)據(jù)交換問題,實(shí)現(xiàn)資源共享[17]。

      2.3 功能設(shè)計(jì)

      民生檔案智慧分析挖掘平臺(tái)的后臺(tái)數(shù)據(jù)挖掘功能包括文本自動(dòng)分類、數(shù)據(jù)抽取、數(shù)據(jù)建模等幾大功能。在文本自動(dòng)分類方面,系統(tǒng)通過貝葉斯網(wǎng)絡(luò)和支持向量機(jī)等算法對(duì)文本進(jìn)行分類,并支持基于語料的自動(dòng)分類(通過訓(xùn)練語料,系統(tǒng)實(shí)現(xiàn)全自動(dòng)分類)、基于規(guī)則的自動(dòng)分類(規(guī)則分類是按照人工預(yù)先定義的規(guī)則文件,為文檔集合中的每個(gè)文檔確定一個(gè)類別,支持對(duì)文本的預(yù)處理功能、詞頻統(tǒng)計(jì)、權(quán)重、相似度計(jì)算等)和混合分類(提供基于語料、規(guī)則的雙重自動(dòng)分類方式,支持用戶可按照《中國檔案分類法》對(duì)分類規(guī)則進(jìn)行自定義,從而實(shí)現(xiàn)檔案的自動(dòng)分類)[18]。在數(shù)據(jù)抽取方面,系統(tǒng)提供元數(shù)據(jù)等數(shù)據(jù)的智能化自動(dòng)抽取功能,所涉及元數(shù)據(jù)的抽取實(shí)現(xiàn)如下表所示,共包括主題詞、關(guān)鍵詞、虛擬時(shí)間、虛擬人名、公文種類等幾類。在數(shù)據(jù)建模方面,民生檔案智慧分析挖掘平臺(tái)通過文本分析挖掘技術(shù),結(jié)合檔案局的實(shí)際業(yè)務(wù)管理需要,建立相關(guān)數(shù)據(jù)模型,實(shí)現(xiàn)館內(nèi)業(yè)務(wù)的智能化、自動(dòng)化處理,所涉及的業(yè)務(wù)包括檔案接收、檔案分類、檔案保管、檔案等級(jí)劃控、檔案利用等。檔案的具體內(nèi)容以社保類民生檔案為主,目的是了解參保群體的背景、參保對(duì)象的信息和數(shù)據(jù)資源共享[19]。通過數(shù)據(jù)挖掘,一方面加深不同參保群體的了解,更好地服務(wù)參保對(duì)象,提高社會(huì)保障服務(wù)水平,另一方面為規(guī)范社會(huì)保障數(shù)據(jù)收集和整理工作提出了客觀要求,整合了多個(gè)數(shù)據(jù)庫平臺(tái)資源,達(dá)到資源的充分利用,有利于節(jié)約勞動(dòng)力成本。

      元數(shù)據(jù) 實(shí)現(xiàn)過程

      主題詞 (1)若文中明確使用“主題詞”標(biāo)明的,直接提取后面的詞語作為主題詞,否則根據(jù)主題詞詞典采用按范疇號(hào)分組提取主題詞;

      (2)根據(jù)主題詞詞典從輸入語句中尋找主題詞作為候選主題詞,為每個(gè)候選主題詞設(shè)置詞頻和權(quán)重,相同詞的詞頻和權(quán)重累加;

      (3)候選主題詞根據(jù)詞的范疇號(hào)信息進(jìn)行分組,每組中的詞按照權(quán)重從大到小進(jìn)行排序;

      (4)統(tǒng)計(jì)每組詞的個(gè)數(shù),按照個(gè)數(shù)從大到小進(jìn)行排序。

      關(guān)鍵詞 (1)在后臺(tái)自動(dòng)對(duì)文本的關(guān)鍵詞進(jìn)行提取,具體可通過對(duì)文本進(jìn)行智能分詞,根據(jù)算法獲取關(guān)鍵詞列表;

      (2)按詞的權(quán)重進(jìn)行排序,提取指定個(gè)數(shù)的詞語作為關(guān)鍵詞。

      虛擬時(shí)間 (1)將所有關(guān)于日期的中文字詞轉(zhuǎn)換為阿拉伯?dāng)?shù)字,自動(dòng)將兩位數(shù)的年份轉(zhuǎn)換為四位數(shù);

      (2)沒有年份、月份的可根據(jù)前一個(gè)日期進(jìn)行追加;

      (3)支持字符的智能化識(shí)別和轉(zhuǎn)換,如將“號(hào)”轉(zhuǎn)換為“日”等。

      虛擬人名 根據(jù)姓氏字典,提取虛擬人名。

      公文種類 按照一定算法,對(duì)通告、通知、通報(bào)、決定、命令、公告、議案、報(bào)告、請(qǐng)示、批復(fù)、意見、函、會(huì)議紀(jì)要等常見公文種類進(jìn)行自動(dòng)識(shí)別和分類。

      結(jié)語

      綜上所述,檔案管理部門應(yīng)用數(shù)據(jù)挖掘技術(shù)并不普遍。很多檔案管理人員對(duì)于檔案管理部門應(yīng)用數(shù)據(jù)挖掘技術(shù)存在一些困惑和疑慮,甚至有一些檔案管理工作人員還不愿意運(yùn)用這一技術(shù)。隨著人工智能、大數(shù)據(jù)、云計(jì)算等計(jì)算機(jī)信息技術(shù)的發(fā)展,越來越多的檔案管理工作人員開始思考如何利用先進(jìn)的計(jì)算機(jī)信息網(wǎng)絡(luò)技術(shù)進(jìn)一步發(fā)揮檔案的價(jià)值,怎么才能從浩如煙海的檔案原始資料中,找到有利用價(jià)值的檔案,更快更好地挖掘出檔案蘊(yùn)含的巨大價(jià)值。隨著研究的深入,數(shù)據(jù)挖掘技術(shù)最終走進(jìn)了人們的視野,成為檔案管理工作人員研究如何更好地發(fā)揮檔案價(jià)值的研究熱點(diǎn)。數(shù)據(jù)挖掘技術(shù)是機(jī)器學(xué)習(xí)和數(shù)據(jù)庫管理的交叉,在數(shù)據(jù)庫管理技術(shù)的支撐下從數(shù)據(jù)庫中提取大量數(shù)據(jù),通過機(jī)器學(xué)習(xí)技術(shù)進(jìn)行分析,從而挖掘潛在有價(jià)值的信息[20]。

      參考文獻(xiàn)

      [1]孫鵬飛.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用探究[J].現(xiàn)代工業(yè)經(jīng)濟(jì)和信息化,2022,12(03):136-138.DOI:10.16525/j.cnki.14-1362/n.2022.03.050.

      [2]廖嘉煒,嚴(yán)俊斌,宋強(qiáng),趙小凡,徐炫東.主數(shù)據(jù)驅(qū)動(dòng)視角下多源數(shù)據(jù)數(shù)字化挖掘系統(tǒng)設(shè)計(jì)[J].電子設(shè)計(jì)工程,2022,30(03):63-66.DOI:10.14022/j.issn1674-6236.2022.03.014.

      [3]姚翠艷.數(shù)據(jù)挖掘技術(shù)在檔案管理系統(tǒng)中的應(yīng)用[J].黑龍江檔案,2021(04):172-173.

      [4]謝元瑰,李仕祺.基于數(shù)據(jù)挖掘的人事檔案信息化管理方法[J].信息與電腦(理論版),2021,33(10):9-11.

      [5]鄢明芳,鄭川.檔案數(shù)據(jù)挖掘的應(yīng)用實(shí)例分析[J].山西檔案,2021(03):132-142+131.

      [6]蔡靜穎.計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的開發(fā)與應(yīng)用[J].電子技術(shù)與軟件工程,2021(05):190-192.

      [7]潘翠芬.基于數(shù)據(jù)挖掘技術(shù)的數(shù)字檔案管理信息系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].城建檔案,2020(04):25-26.

      [8]陳春謀.大數(shù)據(jù)環(huán)境下的檔案管理系統(tǒng)信息檢索及挖掘技術(shù)分析[J].電子測試,2019(14):92-94.DOI:10.16520/j.cnki.1000-8519.2019.14.035.

      [9]蔣紅健.大數(shù)據(jù)挖掘管理與技術(shù)策略在高校檔案館中的應(yīng)用研究[J].山西檔案,2019(01):61-66.

      [10]廖淑莉.構(gòu)建科技檔案云平臺(tái)支撐科技創(chuàng)新驅(qū)動(dòng)——以粵西高??萍紮n案云平臺(tái)關(guān)鍵技術(shù)研究為例[J].檔案時(shí)空,2016(02):16-18.

      [11]汪楠,張浩.數(shù)據(jù)挖掘在檔案信息管理中的探討[J].景德鎮(zhèn)學(xué)院學(xué)報(bào),2015,30(03):52-55.

      [12]李瑞敏.計(jì)算機(jī)網(wǎng)絡(luò)在社保工作系統(tǒng)中的應(yīng)用[J].山東工業(yè)技術(shù),2014(20):147-148.DOI:10.16640/j.cnki.37-1222/t.2014.20.241.

      [13]段鳳,王小芳.數(shù)據(jù)挖掘在科研檔案管理中的應(yīng)用研究[J].蘭臺(tái)世界,2012(35):100-101.DOI:10.16565/j.cnki.1006-7744.2012.35.093.

      [14]張衛(wèi)東,左娜,陸璐.數(shù)字時(shí)代的檔案資源整合:路徑與方法[J].檔案學(xué)通訊,2018(05):46-50.DOI:10.16113/j.cnki.daxtx.2018.05.010.

      [15]張偉.高校檔案管理中融入數(shù)據(jù)挖掘的實(shí)踐研究[J].呂梁教育學(xué)院學(xué)報(bào),2017,34(03):75-76.

      [16]哈立原.基于數(shù)據(jù)挖掘技術(shù)的高校圖書館檔案信息管理平臺(tái)構(gòu)建[J].山西檔案,2016(05):105-107.

      [17]孫越.數(shù)據(jù)挖掘技術(shù)在保險(xiǎn)公司內(nèi)部審計(jì)中的應(yīng)用[J].現(xiàn)代商業(yè),2019(18):59-60.DOI:10.14097/j.cnki.5392/2019.18.028.

      [18]姚翠艷.數(shù)據(jù)挖掘技術(shù)在檔案管理系統(tǒng)中的應(yīng)用[J].黑龍江檔案,2021(04):172-173.

      [19]陳雪燕,于英香.從檔案管理走向檔案數(shù)據(jù)管理:大數(shù)據(jù)時(shí)代下的檔案管理范式轉(zhuǎn)型[J].山西檔案,2019(05):24-32.

      [20]王平,安亞翔.大數(shù)據(jù)時(shí)代的檔案信息平臺(tái)建設(shè)[J].檔案與建設(shè),2015,(10):8-13.

      作者簡介:莊宏武,本科學(xué)歷,任職于通榆縣檔案館。

      猜你喜歡
      應(yīng)用價(jià)值數(shù)據(jù)挖掘檔案管理
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      檔案管理中的電子檔案管理
      檔案管理與企業(yè)內(nèi)部控制關(guān)系的思考
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      賞識(shí)教育在高職體育教學(xué)中的應(yīng)用價(jià)值與應(yīng)用策略
      企業(yè)金融管理應(yīng)用價(jià)值分析
      科普教育在高中物理學(xué)中的應(yīng)用價(jià)值
      淺談公共管理在稅務(wù)行政管理應(yīng)用中的價(jià)值
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      健康檔案管理的“云”前景
      淳安县| 永丰县| 东山县| 双江| 和静县| 迁安市| 西藏| 炉霍县| 普洱| 青海省| 彰化县| 清河县| 新闻| 麦盖提县| 大埔区| 阿拉尔市| 石泉县| 高台县| 荣昌县| 泽库县| 奉新县| 商河县| 临江市| 疏附县| 南充市| 厦门市| 集安市| 象州县| 阿拉善右旗| 宝应县| 新竹县| 陆河县| 睢宁县| 广河县| 京山县| 保德县| 桂林市| 梅河口市| 文山县| 阜宁县| 澄迈县|