• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘技術(shù)在高校檔案管理中的應(yīng)用

    2018-11-25 18:21:45岳陽職業(yè)技術(shù)學(xué)院辦公室楊柳
    辦公室業(yè)務(wù) 2018年17期
    關(guān)鍵詞:數(shù)據(jù)挖掘神經(jīng)網(wǎng)絡(luò)分類

    文/岳陽職業(yè)技術(shù)學(xué)院辦公室 楊柳

    隨著計(jì)算機(jī)科學(xué)技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)在高校得到了廣泛的應(yīng)用。無論在教學(xué)還是管理上,信息技術(shù)都起到了重要的作用。隨著網(wǎng)絡(luò)信息數(shù)據(jù)庫的不斷擴(kuò)大,搜索所需信息數(shù)據(jù)變得越來越困難。為了有效提高信息搜索的準(zhǔn)確性以及速率,需要更加有效先進(jìn)的檢索方法,而數(shù)據(jù)挖掘技術(shù)可以很好地實(shí)現(xiàn)這一目標(biāo)。數(shù)據(jù)挖掘技術(shù)是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱藏的模式與知識(shí),常與機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)和模式識(shí)別等方法結(jié)合使用。隨著高校檔案中收集到的數(shù)據(jù)日益增長,數(shù)據(jù)挖掘在其中的應(yīng)用也得到越來越多的關(guān)注。

    一、數(shù)據(jù)挖掘技術(shù)概述

    (一)數(shù)據(jù)挖掘技術(shù)的主要方法。數(shù)據(jù)挖掘通常是指通過算法搜索從大量數(shù)據(jù)中搜索隱藏信息的過程,高校檔案管理中,數(shù)據(jù)挖掘的主要任務(wù)有關(guān)聯(lián)分析、聚類分析、分類和預(yù)測、時(shí)序模式和偏差分析。數(shù)據(jù)挖掘的主要方法有:神經(jīng)網(wǎng)絡(luò)算法、智能搜索算法、決策樹、統(tǒng)計(jì)分析、模糊集等方法。1.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)近些年來得到了越來越多學(xué)者的關(guān)注,在人工智能、深度學(xué)習(xí)、數(shù)據(jù)挖掘等領(lǐng)域發(fā)揮著重要的作用,經(jīng)典的神經(jīng)網(wǎng)絡(luò)主要包括有:BP神經(jīng)網(wǎng)絡(luò)、MLP等,在高校檔案管理中,通常用于對檔案進(jìn)行分類、預(yù)測等。2.智能搜索算法。智能搜索算法是基于生物學(xué)所提出的一系列隨機(jī)搜索算法,例如遺傳算法、蟻群算法、果蠅算法等,其中遺傳算法模擬的是達(dá)爾文“優(yōu)勝劣汰”的定理,遺傳算法常被用來進(jìn)行數(shù)據(jù)挖掘?qū)嶒?yàn),例如利用遺傳算法對森林火災(zāi)的真實(shí)數(shù)據(jù)庫進(jìn)行數(shù)據(jù)挖掘?qū)嶒?yàn),得到有效的關(guān)聯(lián)規(guī)則,從而預(yù)測森林火災(zāi),結(jié)果表明遺傳算法是進(jìn)行數(shù)據(jù)挖掘的有效方法之一。3.決策樹。決策樹是一種用于預(yù)測的模型,決策樹可根據(jù)模型需求(即分類或回歸)更改目標(biāo)函數(shù),目前,在基于決策樹的基礎(chǔ)上提出了Adboost樹和XGBoost樹等,有效加強(qiáng)了決策樹的性能,可用于高校檔案分類中。4.統(tǒng)計(jì)分析。在檔案信息數(shù)據(jù)庫中,不同的字段之間存在一定的關(guān)系,例如函數(shù)關(guān)系或者某種相關(guān)關(guān)系,運(yùn)用統(tǒng)計(jì)學(xué)的方法對其進(jìn)行分析,常用方法有統(tǒng)計(jì)、回歸、相關(guān)、差異分析等。

    (二)數(shù)據(jù)挖掘的流程。在高校檔案管理中的數(shù)據(jù)挖掘步驟如下:1.定義檔案管理問題。高校檔案管理中存在很多類別的數(shù)據(jù)以及業(yè)務(wù)問題,在建立模型前首先要了解相關(guān)背景知識(shí),并對目標(biāo)有一個(gè)清晰明確的定義,這樣才能充分地發(fā)揮數(shù)據(jù)挖掘的價(jià)值,例如對檔案進(jìn)行分類或檢索,那么在分類前我們需要了解檔案根據(jù)哪些特征進(jìn)行分類。2.建立數(shù)據(jù)挖掘模型。建立數(shù)據(jù)挖掘模型,數(shù)據(jù)挖掘的重點(diǎn)是分析和準(zhǔn)備數(shù)據(jù)。構(gòu)建相應(yīng)的數(shù)據(jù)庫包括收集、描述和選擇數(shù)據(jù),將有用數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫中。例如對學(xué)生以及教職工的有效信息進(jìn)行提取,并將提取到的數(shù)據(jù)存入數(shù)據(jù)庫。3.分析數(shù)據(jù)。數(shù)據(jù)分析的目的是查找對預(yù)測輸出產(chǎn)生重大影響的數(shù)據(jù)字段,并決定是否定義無處不在的字段。在學(xué)生和教職工檔案中包含成千上萬的字段,如果逐字逐句瀏覽分析耗時(shí)較長從而導(dǎo)致效率低,這時(shí)對數(shù)據(jù)的有效程度進(jìn)行分析,篩選出有效數(shù)據(jù)。4.準(zhǔn)備數(shù)據(jù)。準(zhǔn)備數(shù)據(jù)的目的是為了對建立模型所需的數(shù)據(jù)進(jìn)行預(yù)處理,針對不同的模型類型做不同的數(shù)據(jù)預(yù)處理,例如神經(jīng)網(wǎng)絡(luò)需要數(shù)據(jù)轉(zhuǎn)換。5.建立模型。在決定了預(yù)測的類型之后(分類或是回歸),就需要對這個(gè)預(yù)測進(jìn)行模型類型的選擇,常用的方法包括:決策樹、神經(jīng)網(wǎng)絡(luò)、遺傳算法、傳統(tǒng)的數(shù)學(xué)統(tǒng)計(jì)等。6.評價(jià)模型。對模型進(jìn)行驗(yàn)證,例如在文檔分類中,將測試集(隨機(jī)抽取部分學(xué)生及教職工檔案)輸入到所建立的模型中進(jìn)行分類測試,根據(jù)準(zhǔn)確度判斷該模型是否有意義有價(jià)值。

    二、高校檔案管理中引入數(shù)據(jù)挖掘技術(shù)

    (一)模型實(shí)踐。1.對高校檔案進(jìn)行分類。I級是高校檔案分類的最高級別。根據(jù)高等學(xué)校檔案產(chǎn)生的領(lǐng)域類別,結(jié)合檔案的內(nèi)容性質(zhì),確定I類包含有十個(gè)類目,主要有:DQ黨群、XZ行政、JX教學(xué)、KY科學(xué)研究、CP產(chǎn)品生產(chǎn)與科技開發(fā)、JJ基本建設(shè)、SB儀器設(shè)備、CB出版、WS外事、CK財(cái)會(huì)。本文以高校檔案管理中最常見的檔案分類為例,對數(shù)據(jù)挖掘技術(shù)在高校檔案分類中的應(yīng)用進(jìn)行了分析,各類檔案的屬性都存在相似點(diǎn)以及不同點(diǎn)。通過運(yùn)用數(shù)據(jù)挖掘技術(shù),檔案管理員可以在眾多類別各異的檔案中快速找到所需的檔案,有效地提高檔案分類和檢索的效率。2.高校檔案的搜索。首先,我們根據(jù)已知的數(shù)據(jù)集分析數(shù)據(jù)信息并建立對象模型的類型,根據(jù)所有需要測試的樣本,將模型預(yù)測結(jié)果和實(shí)際結(jié)果進(jìn)行比較,可以判斷模型分類的準(zhǔn)確率是否符合要求,若達(dá)到要求,則判定該模型在檔案分類中具有一定的價(jià)值,在獲得有效的模型后,便可以使用這一模型對未知的高校檔案數(shù)據(jù)進(jìn)行檔案分類。例如,在對高校檔案中不同類目檔案進(jìn)行分類時(shí),檔案管理員先統(tǒng)計(jì)高校所有檔案數(shù)據(jù)信息,并將數(shù)據(jù)統(tǒng)計(jì)結(jié)果錄入數(shù)據(jù)庫,利用挖掘技術(shù)對錄入的數(shù)據(jù)進(jìn)行關(guān)鍵字提取,將提取到關(guān)鍵字信息的所有檔案數(shù)據(jù)和與一級類目中的十個(gè)類別進(jìn)行匹配,從而實(shí)現(xiàn)在高校檔案中一級類目的分類。3.高校檔案的保管。高校檔案的保管是至關(guān)重要的,檔案中的紙質(zhì)版文件需要管理員將其放在干燥通風(fēng)的地方,并定期進(jìn)行檢查維護(hù),而對于電子檔的檔案,管理員則需要在檔案數(shù)據(jù)庫中建立備份系統(tǒng)以防丟失,并提供網(wǎng)絡(luò)對其進(jìn)行保護(hù)支持,避免病毒入侵導(dǎo)致數(shù)據(jù)丟失、被竊取等,使系統(tǒng)癱瘓。

    (二)檔案管理中挖掘技術(shù)運(yùn)用步驟。在檔案分類實(shí)踐中,主要包括以下幾個(gè)步驟:抽取數(shù)據(jù)、數(shù)據(jù)存儲(chǔ)及管理、數(shù)據(jù)體現(xiàn)等技術(shù)。1.抽取數(shù)據(jù)。數(shù)據(jù)抽取的目的是為了在數(shù)據(jù)庫中將數(shù)據(jù)錄入,數(shù)據(jù)庫是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,因此,有必要從聯(lián)機(jī)事務(wù)處理、脫機(jī)數(shù)據(jù)存儲(chǔ)介質(zhì)、外部數(shù)據(jù)源和其他媒體中提取數(shù)據(jù)到數(shù)據(jù)庫。數(shù)據(jù)提取主要涉及復(fù)制、互連、轉(zhuǎn)換和監(jiān)控的處理。2.數(shù)據(jù)儲(chǔ)存及管理。數(shù)據(jù)挖掘技術(shù)和傳統(tǒng)的數(shù)據(jù)庫技術(shù)的不同特性主要體現(xiàn)在數(shù)據(jù)存儲(chǔ)及管理方面,它決定了其外部數(shù)據(jù)的呈現(xiàn)方式。與傳統(tǒng)數(shù)據(jù)庫相比,現(xiàn)在的數(shù)據(jù)庫管理的數(shù)據(jù)量遠(yuǎn)大于以往,并且隨著時(shí)間的推移,數(shù)據(jù)量成指數(shù)上升。海量數(shù)據(jù)管理、并行以及查詢優(yōu)化是目前的關(guān)鍵問題,目前,為了擴(kuò)展了關(guān)系數(shù)據(jù)庫的功能,將常用關(guān)系數(shù)據(jù)庫轉(zhuǎn)換為適合于服務(wù)器的數(shù)據(jù)庫。3.數(shù)據(jù)體現(xiàn)。數(shù)據(jù)體現(xiàn)的主要方式主要為: 查詢、報(bào)表、智能可視化、統(tǒng)計(jì)、挖掘。

    三、結(jié)語

    高校檔案管理存在工作量較大的問題,為了有效解決該問題提高檔案信息檢索的效率,引入數(shù)據(jù)挖掘技術(shù),通過使用這項(xiàng)技術(shù)可以使高校檔案的管理更加規(guī)范有序,本文將數(shù)據(jù)挖掘技術(shù)在高校檔案管理中的實(shí)際應(yīng)用及步驟結(jié)合進(jìn)行分析,為目前的高校檔案管理工作提供了參考,且有效實(shí)現(xiàn)了檔案管理效率的提高。

    猜你喜歡
    數(shù)據(jù)挖掘神經(jīng)網(wǎng)絡(luò)分類
    分類算一算
    探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
    神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
    電子制作(2019年19期)2019-11-23 08:42:00
    分類討論求坐標(biāo)
    數(shù)據(jù)分析中的分類討論
    教你一招:數(shù)的分類
    基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
    電力與能源(2017年6期)2017-05-14 06:19:37
    基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
    一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
    復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
    海安县| 望城县| 黄龙县| 三原县| 安新县| 本溪| 金湖县| 涟水县| 孟津县| 湖州市| 桂林市| 温州市| 拜泉县| 阿拉善盟| 神木县| 景洪市| 普洱| 富锦市| 云林县| 元氏县| 漳浦县| 赞皇县| 沿河| 行唐县| 澄城县| 凤阳县| 商丘市| 昭苏县| 伊宁县| 海宁市| 灌阳县| 尚义县| 专栏| 从江县| 凯里市| 孝感市| 宾阳县| 休宁县| 临泽县| 保康县| 青岛市|