• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于深度學(xué)習(xí)的檔案文件齊全性檢驗方法

    2024-05-03 05:42:02肖雪麗廖常輝李惠儀
    信息記錄材料 2024年3期
    關(guān)鍵詞:齊全檔案文件分詞

    肖雪麗,廖常輝,李惠儀

    (廣東電網(wǎng)有限責(zé)任公司東莞供電局 廣東 東莞 523109)

    0 引言

    在深度學(xué)習(xí)技術(shù)快速發(fā)展的當(dāng)下,其對于文本、圖像和語音等多種類型數(shù)據(jù)的處理能力已經(jīng)在各個領(lǐng)域取得了顯著的突破。對于檔案領(lǐng)域而言,如何借助深度學(xué)習(xí)技術(shù)優(yōu)化檔案文件齊全性檢驗的效率已成為迫在眉睫的問題[1]。面對不斷增長的檔案檢驗需求,找到一個結(jié)合深度學(xué)習(xí)與檔案管理的有效方法顯得尤為關(guān)鍵[2-4]。因此,本文旨在研究并構(gòu)建一個以深度學(xué)習(xí)為基礎(chǔ)的檔案文件齊全性檢驗方法,希望通過此途徑,提高傳統(tǒng)檔案檢驗的工作效益。

    1 研究現(xiàn)狀

    當(dāng)前,檔案文件齊全性檢驗主要依賴于傳統(tǒng)文本分詞和匹配技術(shù)。其中,文本分詞主要采用基于統(tǒng)計學(xué)習(xí)的方法[5-6],如隱馬爾可夫模型和最大熵模型,以及基于詞典的方法[7],如前向最大匹配法[8]和雙向最大匹配法[9]。文本匹配研究則集中在表示型和交互型模型[10]。

    而傳統(tǒng)技術(shù)在處理檔案文件完整性檢驗時面臨巨大的挑戰(zhàn),尤其是對于具有強烈專業(yè)性和領(lǐng)域性的文本。詞典分詞方法在處理歧義和新詞上不足。檔案文本涵蓋行業(yè)術(shù)語、縮略詞等,增加了處理難度,導(dǎo)致基于規(guī)則的技術(shù)可能出現(xiàn)偏差。同時,檔案數(shù)據(jù)的不均衡性,如齊全與不齊全檔案數(shù)量差異,也可能導(dǎo)致模型的預(yù)測不準(zhǔn)確。

    近期的研究趨勢是結(jié)合深度學(xué)習(xí)分詞技術(shù)和預(yù)訓(xùn)練語言模型如BERT(bidirectional encoder representations from transformers)[11]和RoBERTa(BERT 的改進版)[12],以提升檔案文件檢驗的效率。有研究者已嘗試使用深度學(xué)習(xí)的自然語言處理技術(shù)解決檔案文本的特殊性問題,例如采用分詞模型進行關(guān)鍵詞提取并計算文本相似度。

    2 檔案管理的關(guān)鍵步驟與全流程

    檔案文件齊全性檢驗是檔案管理的關(guān)鍵環(huán)節(jié),其目的在于確保檔案文件的完整性和準(zhǔn)確性。相比傳統(tǒng)的、依賴人工的方法,本文提出了一種結(jié)合深度學(xué)習(xí)、自動化與智能化的檔案文件完整性檢驗策略,為現(xiàn)代檔案管理帶來了創(chuàng)新和高效。該方法主要包括以下步驟:①深度學(xué)習(xí)文本分詞與關(guān)鍵詞提取。利用BiLSTM-CRF[13]模型進行文本處理,該模型可以準(zhǔn)確地進行關(guān)鍵詞提取。②構(gòu)建關(guān)鍵詞庫。研究人員創(chuàng)建了一個全面的關(guān)鍵詞庫,結(jié)合預(yù)定規(guī)則,以確保高效和靈活的檔案文件完整性檢驗。③深度學(xué)習(xí)文本匹配。通過Sentence-BERT[14]模型,可以精確計算文本間的相似度,在檔案文件之間進行比對。④自動評估流程。本方法通過自動化流程,迅速且準(zhǔn)確地評估檔案文件的齊全性,從而為檔案管理工作提供支持。該方法的處理全流程如圖1 所示。

    圖1 檔案齊全性檢驗方法處理流程

    3 文本分詞處理

    3.1 基于BiLSTM-CRF 的文本分詞技術(shù)

    在本方法中,采用的文本分詞模型是基于雙向長短期記憶網(wǎng)絡(luò)(bidirectional long short-term network,BiLSTM)與條件隨機場(conditional random field, CRF)的結(jié)構(gòu)設(shè)計。詳細的模型架構(gòu)可以參見圖2。

    圖2 BiLSTM-CRF 模型結(jié)構(gòu)

    模型首先通過嵌入層(embedding layer)進行輸入處理,將單一字符轉(zhuǎn)化為對應(yīng)的向量形式,其中,該向量編碼了字符的深層語義屬性,并作為模型的初始輸入數(shù)據(jù)。其次,輸入向量經(jīng)過雙向長短期記憶網(wǎng)絡(luò)層(BiLSTM layer)計算處理。而BiLSTM 層由兩部分LSTM 單元組成,兩個單元分別以從左至右和從右至左的方向處理輸入數(shù)據(jù),旨在捕獲文本中的雙向上下文信息[15]。最后,條件隨機場層基于BiLSTM 層生成的上下文向量,執(zhí)行標(biāo)注決策。此結(jié)構(gòu)不僅保證了文本的精確分詞,還確保了其上下文信息的有效捕獲。

    為了優(yōu)化BiLSTM-CRF 分詞模型在電網(wǎng)檔案文件的應(yīng)用魯棒性,研究人員針對性地收集了大量電網(wǎng)領(lǐng)域的檔案數(shù)據(jù),并據(jù)此構(gòu)建了一個大規(guī)模的、具備豐富注釋的文本數(shù)據(jù)集。

    在模型的訓(xùn)練階段,為了更加精確地計算預(yù)測與實際分布之間的差異,研究人員選擇了負對數(shù)似然損失函數(shù)作為損失計算方法,如式(1)所示。為了高效地最小化損失并更新模型參數(shù),研究人員結(jié)合了隨機梯度下降方法和Adam 優(yōu)化器,這兩者均在深度學(xué)習(xí)中有著廣泛的應(yīng)用,并已被證明具有良好的收斂性。

    式(1)中,PG(xi;θ) 為實際標(biāo)簽概率值,m為樣本數(shù)量,∑表示所有樣本求和。

    3.2 文本分詞技術(shù)應(yīng)用

    在檔案文件完整性檢驗方法研究中,文本分詞技術(shù)占據(jù)了核心地位,其能夠精準(zhǔn)地提取出文本中的關(guān)鍵信息,并為后續(xù)的文本匹配和深度分析創(chuàng)造有利條件。

    以標(biāo)題“中心輸變電配套線路墊層分項工程質(zhì)量驗收記錄表[電纜埋管子分部工程]”為案例,通過應(yīng)用分詞算法,得到以下分詞序列:“中心/輸變電/配套/線路/墊層/分項/工程質(zhì)量/驗收/記錄表/[/電纜/埋/管子/分部/工程/]”。然后,依據(jù)預(yù)先設(shè)定的篩選機制,從中挑選出關(guān)鍵性詞匯,即“墊層分項工程質(zhì)量驗收”,整體流程如圖3 所示。此策略不僅顯著地減少了數(shù)據(jù)處理的計算量,而且增強了匹配算法在面對文本差異時的魯棒性。

    圖3 文本分詞技術(shù)應(yīng)用示意圖

    4 文本相似度匹配處理

    4.1 基于Sentence-BERT 文本相似度匹配技術(shù)

    在檔案齊全性檢驗中,快速而準(zhǔn)確地匹配文本相似度至關(guān)重要。面對眾多檔案文件,研究人員需高效地識別高度相似的文檔。為此,采用了Sentence-BERT(SBERT)模型,其模型結(jié)構(gòu)如圖4 所示。

    圖4 Sentence-BERT 模型結(jié)構(gòu)圖

    SBERT 是BERT 模型的優(yōu)化,后者基于深度的Transformer 架構(gòu)。與BERT 針對單詞級別不同,SBERT 專為句子級任務(wù)設(shè)計,更好地捕獲語義。它在BERT 基礎(chǔ)上加入池化層,得到固定長度的embedding,再通過孿生和三胞胎網(wǎng)絡(luò)結(jié)構(gòu)生成語義豐富的句子嵌入。使相似語義的句子嵌入向量會距離更近,便于使用余弦相似度等方法進行相似度計算。

    為了訓(xùn)練SBERT 模型,研究人員基于電網(wǎng)檔案特性,構(gòu)建了百萬級別的實際業(yè)務(wù)文本數(shù)據(jù)集。經(jīng)過數(shù)據(jù)清洗、分詞和編碼等預(yù)處理后,這些數(shù)據(jù)具備高度的實踐價值。在模型訓(xùn)練階段,為了優(yōu)化模型參數(shù)并使模型更好地擬合訓(xùn)練數(shù)據(jù),研究人員采用了平均絕對誤差(mean absolute error, MAE)作為損失函數(shù)。MAE 是一種有效的損失函數(shù),能夠衡量模型預(yù)測結(jié)果與實際結(jié)果之間的偏差。其計算公式如式(2)所示:

    式(2)中,h(x(i)) 代表模型的預(yù)測結(jié)果,y(i)代表實際結(jié)果,m代表樣本總數(shù)。

    4.2 文本相似度匹配應(yīng)用

    在本方法中,文本首先被輸入到BiLSTM-CRF 分詞模型中提取關(guān)鍵詞。然后,利用Sentence-BERT 模型將這些關(guān)鍵詞與預(yù)設(shè)關(guān)鍵詞庫進行向量化比對,流程如圖5 所示。以“墊層分項工程質(zhì)量驗收”為待匹配標(biāo)題和“墊層分項工程”為預(yù)設(shè)關(guān)鍵詞為例,這兩者都會被轉(zhuǎn)化為特定的向量表征。通過計算這兩向量間的余弦相似度,當(dāng)該相似度值趨近于1 時,便可以認(rèn)為這兩個文本存在高度的相似性。此策略不僅提供了一種高度精確的文本匹配手段,而且顯著提高了處理的效率和準(zhǔn)確性。

    圖5 文本相似度匹配應(yīng)用示意圖

    5 結(jié)語

    本文介紹了一種基于深度學(xué)習(xí)的檔案文件齊全性校驗方法。其核心流程包括利用BiLSTM-CRF 進行文本分詞和采用Sentence-BERT 計算文本相似度。通過這些關(guān)鍵技術(shù),研究者成功為檔案文件的齊全性提供了準(zhǔn)確的評估。

    展望未來,為適應(yīng)檔案文件管理日益增長的需求,我們將進一步優(yōu)化檔案文件齊全性檢驗方法。具體而言,后期研究工作將聚焦于以下幾個主要方向:第一,研究更為先進的文本處理技術(shù),旨在提高關(guān)鍵詞提取和文本匹配的效率和精度。第二,為了確保檔案文件完整性,使檢驗方法更具靈活性,研究人員計劃探索關(guān)鍵詞庫的動態(tài)更新與維護方式,從而更好地適應(yīng)檔案數(shù)據(jù)的變化趨勢。

    猜你喜歡
    齊全檔案文件分詞
    全國優(yōu)秀樓房豬場案例大英齊全農(nóng)牧有限責(zé)任公司
    檔案文件的數(shù)字化管理在企業(yè)中的相對重要性
    探析檔案文件資料收集工作面臨的問題及對策
    卷宗(2020年25期)2020-12-15 06:58:15
    檔案信息化建設(shè)在醫(yī)院檔案文件管理中的積極影響
    結(jié)巴分詞在詞云中的應(yīng)用
    智富時代(2019年6期)2019-07-24 10:33:16
    供求信息
    值得重視的分詞的特殊用法
    有趣的豆子貼畫
    供求信息
    高考分詞作狀語考點歸納與疑難解析
    贵港市| 高唐县| 黑山县| 仪陇县| 利津县| 宁波市| 临邑县| 轮台县| 汉阴县| 饶阳县| 肥乡县| 满洲里市| 奉新县| 扶余县| 芮城县| 澎湖县| 南郑县| 沈丘县| 常山县| 原平市| 广昌县| 莲花县| 陕西省| 甘南县| 黄浦区| 调兵山市| 永清县| 黄大仙区| 昂仁县| 潮安县| 黄梅县| 芜湖市| 城市| 阳山县| 柘城县| 临潭县| 漳浦县| 龙游县| 岚皋县| 临邑县| 隆化县|