• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于BP神經(jīng)網(wǎng)絡(luò)算法的文檔信息管理研究

      2021-06-22 02:13:54迪,聞
      關(guān)鍵詞:數(shù)據(jù)倉庫文檔數(shù)據(jù)挖掘

      高 迪,聞 波

      (淮北師范大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 淮北 235000)

      0 引 言

      信息技術(shù)現(xiàn)已成為各國發(fā)展的重要標(biāo)志,如何管理信息以及如何反映信息流通的可變性和復(fù)雜性已成為衡量信息系統(tǒng)性能的重要因素。如今,社會信息是多維且復(fù)雜的,數(shù)據(jù)信息更難以管理。自從20世紀(jì)90年代數(shù)據(jù)挖掘技術(shù)問世以來,其研究就非常深入,研究范圍涉及關(guān)聯(lián)規(guī)則挖掘、分類規(guī)則挖掘、聚類規(guī)則挖掘、趨勢分析等[1]。一方面,這些研究基本上是基于結(jié)構(gòu)化數(shù)據(jù)(例如物聯(lián)網(wǎng))的,對異構(gòu)和非結(jié)構(gòu)化數(shù)據(jù)研究較少;另一方面,隨著網(wǎng)絡(luò)的快速發(fā)展,網(wǎng)絡(luò)已發(fā)展成為一個擁有3億頁的分布式信息空間,其中包括從技術(shù)數(shù)據(jù)、商業(yè)信息到新聞報道以及娛樂信息,信息的大量異構(gòu)和非結(jié)構(gòu)化信息仍在擴(kuò)展[2]。行業(yè)分析師也認(rèn)為,非結(jié)構(gòu)化數(shù)據(jù)占企業(yè)信息資源的80%,而數(shù)據(jù)庫中的數(shù)據(jù)僅占20%。基于此,后續(xù)研究擴(kuò)大了數(shù)據(jù)挖掘的研究范圍,對文本、網(wǎng)頁、電子郵件等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行了更多的研究,成為了數(shù)據(jù)挖掘新的研究方向,隨著數(shù)據(jù)挖掘的發(fā)展,網(wǎng)絡(luò)挖掘、文本挖掘和多媒體挖掘應(yīng)運而生。

      如何充分利用文檔管理信息數(shù)據(jù)庫已經(jīng)成為每個文檔工作者面臨的難題。傳統(tǒng)的數(shù)據(jù)處理方式只是簡單的手動統(tǒng)計和計算機(jī)查詢、匯總和分類。文檔交易的數(shù)據(jù)處理過程與文件管理人員的工作經(jīng)驗和計算機(jī)級別緊密相關(guān)。但是,隨著文檔數(shù)據(jù)的快速增長和文檔數(shù)據(jù)數(shù)量的增加,原始的手動方法已不能滿足新時代越來越多的復(fù)雜文檔的需求。因此,通過計算機(jī)發(fā)現(xiàn)隱藏在文檔數(shù)據(jù)背后的“文檔知識”成為一種新趨勢。

      1 最新技術(shù)

      我們現(xiàn)在生活在網(wǎng)絡(luò)信息技術(shù)時代,通信、計算機(jī)和網(wǎng)絡(luò)技術(shù)正在改變著人類乃至整個社會。大量的信息為人類提供了便捷的同時也帶來了信息過多和難以消化的問題。隨著數(shù)據(jù)庫技術(shù)的快速發(fā)展和數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人類積累了大量的數(shù)據(jù)。許多重要信息被隱藏在大量數(shù)據(jù)之中。人們希望能夠進(jìn)行更高級別的數(shù)據(jù)分析,以便他們可以更好地利用這些數(shù)據(jù),然而,當(dāng)前的數(shù)據(jù)庫系統(tǒng)無法發(fā)現(xiàn)數(shù)據(jù)間的關(guān)系和規(guī)則,缺乏挖掘隱藏在數(shù)據(jù)背后知識的方法,這導(dǎo)致了“數(shù)據(jù)爆炸但知識不足”的現(xiàn)象。

      加拿大學(xué)者提出了一種面向?qū)傩缘暮喖s方法,該方法使用類似SQL的語言表示神經(jīng)網(wǎng)絡(luò)查詢,在數(shù)據(jù)庫中收集相關(guān)數(shù)據(jù)集,然后將一系列數(shù)據(jù)推廣技術(shù)應(yīng)用于相關(guān)數(shù)據(jù)集的數(shù)據(jù)泛化,包括屬性刪除、概念樹提升、屬性值控制、計數(shù)以及聚合等。

      不久之后,其他學(xué)者提出了一套更完善的時間序列建模理論和分析方法,這些經(jīng)典的數(shù)學(xué)方法通過建立隨機(jī)模型來預(yù)測時間序列,例如自回歸模型、自回歸移動平均模型、求和自回歸移動平均模型和季節(jié)調(diào)整模型[3]。

      Kohonen網(wǎng)絡(luò)是典型的自組織神經(jīng)網(wǎng)絡(luò),也稱為自組織特征映射網(wǎng)絡(luò),其輸入層是單層單神經(jīng)元,輸出層是二維神經(jīng)元,且神經(jīng)元之間以“墨西哥帽”的形式存在橫向相互作用,因此,在輸出層中神經(jīng)元和Kohonen網(wǎng)絡(luò)之間存在反饋特性,可以用作模式特征檢測器。

      2 研究方法

      2.1 BP神經(jīng)網(wǎng)絡(luò)

      神經(jīng)網(wǎng)絡(luò)是在模仿人腦處理問題的過程中發(fā)展起來的一種新的智能信息處理理論。它由大量稱為神經(jīng)元的簡單處理單元組成、由此構(gòu)成了非線性動力學(xué)系統(tǒng)。神經(jīng)網(wǎng)絡(luò)模擬并抽象了人腦的圖像思維和聯(lián)想記憶,以實現(xiàn)類似于人腦的學(xué)習(xí)、識別和記憶的信息處理能力。經(jīng)過40多年發(fā)展,神經(jīng)網(wǎng)絡(luò)在信息科學(xué)和許多其他應(yīng)用領(lǐng)域中顯示出巨大的潛力和廣闊的應(yīng)用前景。

      在神經(jīng)網(wǎng)絡(luò)發(fā)展進(jìn)程中,學(xué)習(xí)算法的研究具有非常重要的地位[4]。目前,人們提出的神經(jīng)網(wǎng)絡(luò)模型都與學(xué)習(xí)算法相對應(yīng)。因此,有時模型和算法之間沒有嚴(yán)格的定義或區(qū)分。某些模型可以具有多種算法,而某些算法可以用于多種模型中。

      在神經(jīng)網(wǎng)絡(luò)中,對外部環(huán)境提供的模型樣本進(jìn)行訓(xùn)練,并且可以存儲模型,這就是使用教師的信號進(jìn)行學(xué)習(xí)的感知器。感知器的學(xué)習(xí)是神經(jīng)網(wǎng)絡(luò)最典型的學(xué)習(xí)。圖1表示了一個有老師的學(xué)習(xí)系統(tǒng)。這種學(xué)習(xí)系統(tǒng)可以分為3個部分:輸入、訓(xùn)練和輸出。

      圖1 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)框

      輸入單元接收外部輸入樣本X,該樣本權(quán)重由訓(xùn)練部門根據(jù)神經(jīng)網(wǎng)絡(luò)的權(quán)重進(jìn)行調(diào)整,然后通過輸出單元輸出結(jié)果。在此過程中,可以將所需的輸出信號作為教師的信號輸入,并將教師的信號與實際輸出進(jìn)行比較,一旦發(fā)生錯誤,則調(diào)整后的樣本權(quán)重?zé)o法控制。

      神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)通常需要耗費大量的時間進(jìn)行反復(fù)訓(xùn)練,以使誤差值逐漸接近零。為了減少時間消耗,提高訓(xùn)練效率,提高神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速度并減少重復(fù)次數(shù)是一個非常重要的研究課題。

      本研究中文本主要用向量空間模型(VSM)表示,向量空間模型的基本思想是用向量表示文本:(W1,W2,W3,…,W0)。其中Wi表示第i個特征項的權(quán)重,文本通??梢赃x擇字、詞或短語。實驗結(jié)果表明,詞作為特征項要比字和短語更好,因此,如果要在向量空間中將文本表示為向量,則首先需要對文本進(jìn)行分段,使用詞將文本表示為向量的維數(shù),初始向量表示形式為0和1形式。

      如果此單詞出現(xiàn)在文本中,則文本向量的維數(shù)為1,否則為0。此方法無法反映文字在單詞中的作用程度,因此0和1逐漸由更準(zhǔn)確的詞頻代替。詞頻分為絕對詞頻和相對詞頻。絕對詞頻即在文本中使用詞來表達(dá)文本的頻率;相對詞頻為歸一化詞頻,其計算方法主要采用公式TF-IDF。

      (1)

      其中,Wij是文本j中單詞i的權(quán)重,tfij是文本j中單詞i的單詞頻率,N是訓(xùn)練樣本總數(shù),ni是訓(xùn)練文本中的文本數(shù)量,分母表示歸一化因子。BP算法的本質(zhì)是獲得誤差函數(shù)的最小值。該算法在非線性規(guī)劃中使用最快的下降方法,并根據(jù)誤差函數(shù)的負(fù)梯度方向修改權(quán)重值。定義誤差函數(shù)e,并將預(yù)期輸出和實際輸出之間的差的平方和作為誤差函數(shù):

      (2)

      (3)

      η表示學(xué)習(xí)率,代表迭代步長,取值范圍(0,1),通過重復(fù)訓(xùn)練多個樣本,參數(shù)權(quán)重沿減小誤差e的方向進(jìn)行校正,以達(dá)到消除誤差的目的。從上述公式可知,神經(jīng)網(wǎng)絡(luò)的層數(shù)越大,則計算量就越大,誤差函數(shù)的收斂速度越慢。

      神經(jīng)網(wǎng)絡(luò)的權(quán)重學(xué)習(xí)是一個復(fù)雜連續(xù)的參數(shù)優(yōu)化問題。如果采用二進(jìn)制編碼,由于編碼字符串太長,需要將其解碼為實數(shù)來將權(quán)重值改變?yōu)殡A躍,從而影響神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)精度[5]。這里我們使用實數(shù)代碼,如圖2所示。神經(jīng)網(wǎng)絡(luò)的每個權(quán)重值都以一定順序級聯(lián)接成一個長字符串,且字符串上的每個位置都對應(yīng)神經(jīng)網(wǎng)絡(luò)的權(quán)重值。

      圖2 神經(jīng)網(wǎng)絡(luò)中權(quán)重學(xué)習(xí)問題的編碼方法

      網(wǎng)絡(luò)權(quán)重都是根據(jù)概率分布來隨機(jī)確定的,這與BP算法有所不同。在BP算法中,初始權(quán)重通常取均勻分布在(-1.0~1.0)之間的隨機(jī)數(shù),遺傳算法的隨機(jī)分布方法是過去通過大量實驗獲得的??梢园l(fā)現(xiàn),網(wǎng)絡(luò)融合后權(quán)重的絕對值一般較小,但有些權(quán)重較大。使用上述初始化方法的原因是為了使遺傳算法能夠搜索范圍內(nèi)的所有可行解。

      2.2 數(shù)據(jù)倉庫設(shè)計

      數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析之間的本質(zhì)區(qū)別在于數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下挖掘信息并發(fā)現(xiàn)知識。從數(shù)據(jù)挖掘中獲得的信息應(yīng)具有3個特征:未知、有效和實用。數(shù)據(jù)挖掘由發(fā)現(xiàn)驅(qū)動,通過大量分析自動從數(shù)據(jù)中提取結(jié)果,即數(shù)據(jù)挖掘是發(fā)現(xiàn)間接的信息或知識,越出乎意料的信息就越有價值[6]。

      事實表是多維模型的核心,用于記錄業(yè)務(wù)交易和進(jìn)行索引統(tǒng)計,它是數(shù)據(jù)倉庫中的信息單元,即多維空間中的一個單元,用于存儲數(shù)據(jù)。根據(jù)不同的主題,設(shè)計不同的事實,見表1,其中包括近4年中每個單元的歸檔主要數(shù)據(jù)。

      表1 文檔文件歸檔目錄號事實表

      數(shù)據(jù)倉庫系統(tǒng)的開發(fā)是一個不斷流通、不斷成長、不斷反饋和不斷完善的過程。其設(shè)計主要包括模型設(shè)計以及數(shù)據(jù)倉庫的部署和維護(hù)。星型模式是數(shù)據(jù)倉庫結(jié)構(gòu)設(shè)計最常用的實現(xiàn)模式[7]。該模式的核心是事實表,通過事實表連接各種不同的維度表,并且每個維度表都連接到中心事實表,以下是以文檔文件數(shù)據(jù)為例的日期維度表,其維度屬性構(gòu)成概念層,見表2。

      表2 日期維度表

      在建立良好的文件數(shù)據(jù)倉庫的基礎(chǔ)上,將文件數(shù)據(jù)從文件信息管理系統(tǒng)傳輸?shù)綑n案數(shù)據(jù)倉庫中。此外,由于某些歷史和管理原因,檔案數(shù)據(jù)庫中存在許多問題,例如,文件數(shù)據(jù)描述標(biāo)準(zhǔn)不統(tǒng)一,數(shù)據(jù)文件中的人為輸入錯誤,字段中多個文件數(shù)據(jù)庫不一致,索引存在空值或重復(fù)值,代碼文件不統(tǒng)一,字符格式不固定、數(shù)據(jù)格式混亂,大量數(shù)據(jù)屬性為空等。這些問題嚴(yán)重影響了數(shù)據(jù)挖掘的質(zhì)量和效果,因此在構(gòu)建數(shù)據(jù)倉庫之前必須對這些數(shù)據(jù)進(jìn)行處理。在數(shù)據(jù)庫中,根據(jù)某些標(biāo)準(zhǔn)和要求使用SQL語句將事務(wù)處理系統(tǒng)中的數(shù)據(jù)導(dǎo)出到臨時中間數(shù)據(jù)庫中,以進(jìn)行后續(xù)的數(shù)據(jù)處理。某檔案館的檔案歸檔目錄數(shù)據(jù)示例見圖3,圖中列表主要使用SQL Server 2008數(shù)據(jù)庫進(jìn)行數(shù)據(jù)訪問。

      圖3 檔案歸檔目錄的星狀模型

      3 結(jié)果分析

      基于BP神經(jīng)網(wǎng)絡(luò)分析采用十折交叉驗證(10-fold cross-validation)法,將90%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,10%的數(shù)據(jù)作為測試數(shù)據(jù)集,在訓(xùn)練之前設(shè)置期望誤差為0.003,訓(xùn)練得到神經(jīng)網(wǎng)絡(luò)仿真誤差RMSE統(tǒng)計結(jié)果,見表3。

      表3 神經(jīng)網(wǎng)絡(luò)誤差統(tǒng)計

      由表3可知,訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集誤差均值和標(biāo)準(zhǔn)差都較小,且訓(xùn)練集的均值為0.068 0,測試集的誤差均值為0.064 8,兩者之間差距極小。因此,本研究文檔信息管理相關(guān)屬性的選擇是可靠的。

      建立數(shù)據(jù)倉庫的第一步是確定對象,并為不同的用戶建立不同類型的數(shù)據(jù)倉庫。數(shù)據(jù)倉庫的主題是對象分析中涉及的數(shù)據(jù)和互連的關(guān)鍵指標(biāo),主題的劃分主要基于對檔案數(shù)據(jù)庫的分析以及對檔案實際人員的采訪[8]。文件數(shù)據(jù)的格式和內(nèi)容相對穩(wěn)定和成熟,現(xiàn)有的檔案數(shù)據(jù)庫可以很好地反映過去文件工作中數(shù)據(jù)分析的需求。另外,需要進(jìn)一步探索日常工作中潛在的用戶需求,以便我們更廣泛和全面地了解歸檔數(shù)據(jù)倉庫建設(shè)中所需的主題劃分。

      SSIS是Microsoft SQL Server integration services的簡稱,是用于生成高性能數(shù)據(jù)集成解決方案的平臺,其中包括數(shù)據(jù)倉庫的提取、轉(zhuǎn)換和加載包,可以使用SQL Server集成服務(wù)進(jìn)行數(shù)據(jù)清理。常用的處理方法包括合并、聯(lián)接、聚集、排序、派生列、條件拆分、行計數(shù)、單詞搜索、單詞提取、字符映射表等。SSIS數(shù)據(jù)預(yù)處理主要在數(shù)據(jù)流模塊中進(jìn)行。在現(xiàn)有文件目錄數(shù)據(jù)表中,多個屬性中有大量空值(如表3),如果一條記錄包含一個空值就刪除該記錄,則它最終可能會丟失數(shù)據(jù)庫中大量實際數(shù)據(jù)中包含的信息,最后可能會得到一個較小的數(shù)據(jù)庫,這將更改原始數(shù)據(jù)庫的組成。

      在處理空值的問題時,通常會用固定值來對空值進(jìn)行填充。例如,將分類級別作為空白統(tǒng)一替換為“內(nèi)部”,并將保留期限替換為“長”。在實際操作中,可以采用不同的方法來處理數(shù)據(jù)值缺失的問題,然后建立模型用來相互比較,從而可以選擇高精度和低成本的方法。數(shù)據(jù)值缺失的原因可能是多方面的,有些字段可能是空缺的,如歸檔部門人員輸入的數(shù)據(jù)文件丟失,但也可能是該文件已經(jīng)不具有該字段的內(nèi)容。例如檔案文件號,只是擁有一定數(shù)量的高級人才的學(xué)校有檔案文件號,普通學(xué)校沒有固定的檔案文件號,這種缺失值表示學(xué)校中文檔的背景與上級文檔的背景不同。再舉一個例子,如果在條目中設(shè)置規(guī)則的文件號,例如當(dāng)輸入“空”時文件號為空,那么,當(dāng)文件號屬性無數(shù)值時,可以由備案部工作人員得出結(jié)論:輸入錯誤。

      4 結(jié) 論

      文檔數(shù)字化是通過掃描或拍攝文檔來形成電子文檔的過程,這在文檔量化方面取得了一定的進(jìn)步。在分析和挖掘文檔和檔案的數(shù)據(jù)表中的數(shù)據(jù)后,發(fā)現(xiàn)很少使用在title屬性中帶有“superior text”字樣的文件,這表明整個過程存在文檔庫的初始識別中的文檔集合。本研究得出以下結(jié)論:(1)文件和檔案的編目標(biāo)準(zhǔn)不統(tǒng)一且不準(zhǔn)確,許多更適合數(shù)據(jù)挖掘的屬性數(shù)據(jù)都丟失了,特別是由于寄存器中屬性設(shè)置不完整而導(dǎo)致的部分刪除,這使得具有較大挖掘價值的屬性無用,從而失去了數(shù)據(jù)挖掘的意義;(2)前端數(shù)據(jù)庫中收集的大多數(shù)數(shù)據(jù)都需要手動記錄,所有這些都基于實體文件的各種源數(shù)據(jù);(3)檔案實踐管理活動中的許多數(shù)據(jù),例如Web文件數(shù)據(jù)、文件接收數(shù)據(jù)、手工的各種電子數(shù)據(jù)等,尚未被收集到系統(tǒng)中;(4)采用BP神經(jīng)網(wǎng)絡(luò)算法對文檔進(jìn)行分類管理更加高效。

      猜你喜歡
      數(shù)據(jù)倉庫文檔數(shù)據(jù)挖掘
      有人一聲不吭向你扔了個文檔
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計
      電子制作(2016年15期)2017-01-15 13:39:15
      基于RI碼計算的Word復(fù)制文檔鑒別
      探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實踐
      怀远县| 定西市| 缙云县| 鄂州市| 延长县| 灌云县| 攀枝花市| 景泰县| 太保市| 田林县| 当阳市| 巴彦淖尔市| 陈巴尔虎旗| 开鲁县| 大方县| 福建省| 抚顺县| 化州市| 黎城县| 中西区| 工布江达县| 江永县| 盐池县| 集安市| 任丘市| 东宁县| 察雅县| 桂林市| 张北县| 体育| 泰顺县| 乌苏市| 新巴尔虎右旗| 赣榆县| 五寨县| 广德县| 阳春市| 青浦区| 海南省| 秀山| 衡山县|