• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      煥發(fā)校園沉淀數(shù)據(jù)的活力

      2010-09-25 09:24:52陳翼
      中國教育網(wǎng)絡(luò) 2010年1期
      關(guān)鍵詞:復(fù)旦全校數(shù)據(jù)挖掘

      文/陳翼 宓

      煥發(fā)校園沉淀數(shù)據(jù)的活力

      復(fù)旦大學從1998年至2006年累計共有學生成績記錄193萬條,從諸如此類的沉淀數(shù)據(jù)中發(fā)現(xiàn)有價值的信息,這才是信息系統(tǒng)真正價值的體現(xiàn)

      近年來,隨著教育主管部門和高校相關(guān)部門對高校信息化發(fā)展的日益重視和關(guān)注,校園信息化基礎(chǔ)設(shè)施的規(guī)模和水平得到不斷的提高,信息化中長期規(guī)劃也基本制定完成并逐步實施。復(fù)旦大學(以下簡稱:復(fù)旦)在校園信息化建設(shè)中,明確提出“以應(yīng)用為目標,以服務(wù)為過程”,積極推動信息化建設(shè)的可持續(xù)發(fā)展,重點構(gòu)建和完善信息化校園應(yīng)用系統(tǒng),繼續(xù)保持信息化建設(shè)和應(yīng)用的活力,為學校實現(xiàn)“高水平研究型大學”的戰(zhàn)略目標提供技術(shù)支持和服務(wù)保障。

      沉淀的數(shù)據(jù)中藏寶

      隨著應(yīng)用的深入推廣,很多高校都積累了大量的歷史數(shù)據(jù)。對于復(fù)旦來說,數(shù)據(jù)源主要來自三條途徑:首先是信息化部門的IT運維和服務(wù)的數(shù)據(jù),其數(shù)據(jù)是基于網(wǎng)絡(luò)安全數(shù)據(jù)的攻擊模式和安全監(jiān)測的挖掘、系統(tǒng)日志方面的系統(tǒng)故障分析、綜合全生命周期的軟件可信保障研究等;第二是學校各業(yè)務(wù)部門的管理決策方面的數(shù)據(jù),包括人事、學工、財務(wù)、科研、教務(wù)等核心業(yè)務(wù);第三是全校師生的綜合數(shù)據(jù)。

      這些數(shù)據(jù)逐年增加,形成了一個龐大的數(shù)據(jù)體系。比如,復(fù)旦大學從1997年的第二學期至2006年的第一學期,就產(chǎn)生了190萬余條選課記錄,而從1998年至2006年累計共有學生成績記錄193萬條;自從建設(shè)一卡通系統(tǒng)以來,復(fù)旦每年消費的金額都在幾千萬元,交易記錄達到幾百萬條甚至上千萬條。

      面對如此巨大的數(shù)據(jù)量,高校不應(yīng)該只是靜態(tài)地將其存儲在服務(wù)器中。事實上,管理者可能還沒有意識到,信息系統(tǒng)中最有價值、最有待發(fā)掘的寶藏就是這些日積月累的數(shù)據(jù)。從沉淀的數(shù)據(jù)中發(fā)現(xiàn)有價值的信息,這才是信息系統(tǒng)真正價值的體現(xiàn),而這方面可拓展的空間幾乎是不可限量的。為了更好地利用數(shù)據(jù)的價值,我們可以采取數(shù)據(jù)分析與數(shù)據(jù)挖掘來有效分析數(shù)據(jù)。

      數(shù)據(jù)的分析與挖掘

      在信息管理或計算機科學領(lǐng)域,人們一提到數(shù)據(jù)分析,就會聯(lián)想到數(shù)據(jù)挖掘。但是,如果我們把數(shù)據(jù)分析狹隘地理解為數(shù)據(jù)挖掘,就會忽略其它數(shù)據(jù)分析和利用的形式。事實上,早在計算機出現(xiàn)以前,統(tǒng)計學已經(jīng)發(fā)展了幾百年,數(shù)理統(tǒng)計學科研究出了一整套數(shù)據(jù)分析的方法;那時候,人們提到數(shù)據(jù)分析,往往指的是數(shù)據(jù)統(tǒng)計?,F(xiàn)在,我們應(yīng)該從更廣泛的角度來思考數(shù)據(jù)分析,特別是在信息系統(tǒng)領(lǐng)域,擴大數(shù)據(jù)分析的外延,利用所有有效的數(shù)據(jù)分析方法真正去發(fā)掘高校信息系統(tǒng)中隱藏的“金礦”。

      從廣義上來看,數(shù)據(jù)分析包括了綜合數(shù)據(jù)查詢、數(shù)據(jù)展現(xiàn)、數(shù)據(jù)統(tǒng)計和數(shù)據(jù)挖掘等各種數(shù)據(jù)利用的方式。其中,綜合數(shù)據(jù)查詢是指通過數(shù)據(jù)集成等方式,綜合查詢存在于不同信息系統(tǒng)或不同數(shù)據(jù)庫中的某一相關(guān)主題的數(shù)據(jù),其目的是為了方便地獲取分散的但相關(guān)的數(shù)據(jù)。數(shù)據(jù)展現(xiàn)則是采用用戶認可的形式,用圖、表等方式把數(shù)據(jù)庫里的數(shù)據(jù)通過用戶可見、可理解的形式展現(xiàn)出來;數(shù)據(jù)不能總是存儲在數(shù)據(jù)庫中,要對數(shù)據(jù)做進一步的分析和利用,就必須要看到數(shù)據(jù)的全貌;數(shù)據(jù)展現(xiàn)也不是簡單的數(shù)據(jù)羅列,良好的數(shù)據(jù)展現(xiàn)方式其實是和其它數(shù)據(jù)分析方式結(jié)合在一起的。數(shù)據(jù)統(tǒng)計則是用統(tǒng)計學的方法,計算大批量數(shù)據(jù)的分布以及相關(guān)統(tǒng)計指標,并通過圖、表等方式把統(tǒng)計結(jié)果展現(xiàn)出來供用戶使用。

      數(shù)據(jù)挖掘則是從大量數(shù)據(jù)中自動抽取有趣的知識。其中,“有趣”包括了非平凡的、隱性的、以前不知道的、潛在有用的等含義;“知識”則包括了模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu)等。應(yīng)該說,數(shù)據(jù)挖掘是對數(shù)據(jù)的深層次分析,其主要工作包括數(shù)據(jù)的抽取、多層次的數(shù)據(jù)組織、數(shù)據(jù)挖掘算法和決策支持應(yīng)用、數(shù)據(jù)質(zhì)量的保證等。

      數(shù)據(jù)分析和挖掘的前提是可靠的數(shù)據(jù)質(zhì)量。數(shù)據(jù)質(zhì)量是指信息系統(tǒng)表達的數(shù)據(jù)視圖與客觀世界同一數(shù)據(jù)的距離,它包括可獲得度、可理解度、可信度、可用度等四方面。數(shù)據(jù)質(zhì)量的判斷依賴于使用數(shù)據(jù)的個體,不同環(huán)境下的不同人員對相同數(shù)據(jù)“使用的適合性”不同,因此數(shù)據(jù)質(zhì)量是相對的,不能獨立于使用數(shù)據(jù)的用戶來評價數(shù)據(jù)質(zhì)量。較差的數(shù)據(jù)質(zhì)量會導(dǎo)致應(yīng)用受限或者得到無價值的結(jié)果。

      制約數(shù)據(jù)分析和挖掘的原因

      當前,能夠全面開展數(shù)據(jù)分析和數(shù)據(jù)挖掘工作的高校還非常有限,其主要原因有:

      1.部分高校領(lǐng)導(dǎo)對信息系統(tǒng)的價值認識不夠,沒有意識到能夠通過數(shù)據(jù)分析和挖掘發(fā)現(xiàn)大量有價值的信息;

      2.很多數(shù)據(jù)分析和挖掘工作需要跨領(lǐng)域,要組織不同領(lǐng)域的管理人員、整合分布式應(yīng)用系統(tǒng)構(gòu)建上層的綜合應(yīng)用,其協(xié)調(diào)成本和管理難度往往很高,導(dǎo)致工作難以進一步開展;

      3.除了要能較好地解決前兩個問題之外,由于高校的很多業(yè)務(wù)復(fù)雜、不通用,缺乏可直接套用的分析模型,又沒有足夠的研究支持,導(dǎo)致目前很多數(shù)據(jù)分析和挖掘均是零星嘗試,沒有形成大規(guī)模應(yīng)用;

      4.在數(shù)據(jù)分析和挖掘過程中,我們往往會發(fā)現(xiàn)集成的數(shù)據(jù)中有大量的問題,這些質(zhì)量不高的數(shù)據(jù)導(dǎo)致很多數(shù)據(jù)分析和挖掘得不到有用信息,從而大大削弱了數(shù)據(jù)利用的價值;

      5.目前很多數(shù)據(jù)分析和挖掘都是在信息系統(tǒng)付諸使用一段時間后再進行二次開發(fā),數(shù)據(jù)利用與前期信息系統(tǒng)整體規(guī)劃、設(shè)計和開發(fā)脫節(jié),而數(shù)據(jù)分析人員也可能不是原來的系統(tǒng)設(shè)計和開發(fā)人員,導(dǎo)致在分析過程中發(fā)現(xiàn)的系統(tǒng)設(shè)計、數(shù)據(jù)質(zhì)量等問題無法得到滿意解決,無法形成有效的反饋機制。

      以共享數(shù)據(jù)平臺為數(shù)據(jù)載體

      盡管數(shù)據(jù)的分析和挖掘工作存在種種制約因素,但是這項工作仍然值得人們?nèi)パ芯亢蛧L試。目前,復(fù)旦在數(shù)據(jù)分析和挖掘方面已經(jīng)開始進行了一系列的探索。

      復(fù)旦建立了共享數(shù)據(jù)平臺,它是為實現(xiàn)各業(yè)務(wù)系統(tǒng)間信息共享和交互、保證各系統(tǒng)所使用的數(shù)據(jù)的權(quán)威性和一致性,并提供全校各類信息查詢和決策分析功能而建的數(shù)據(jù)基礎(chǔ)平臺。它構(gòu)建了全校各業(yè)務(wù)系統(tǒng)引用數(shù)據(jù)的標準規(guī)范以及單位組織結(jié)構(gòu)等數(shù)據(jù)的校級標準,通過從各個應(yīng)用系統(tǒng)抽取數(shù)據(jù)、與相關(guān)應(yīng)用系統(tǒng)同步數(shù)據(jù),達到全校數(shù)據(jù)的一致、完整和準確。它包含全校各相關(guān)數(shù)字檔案,主要有教職工和學生數(shù)字檔案、資產(chǎn)設(shè)備、實驗室、經(jīng)費等多個信息集。

      共享數(shù)據(jù)平臺在2003年9月啟動,自正式上線運行以來,它采用星型分布模式的設(shè)計架構(gòu),各業(yè)務(wù)系統(tǒng)都只通過統(tǒng)一的數(shù)據(jù)集成工具與共享數(shù)據(jù)庫進行數(shù)據(jù)交換,實現(xiàn)了共享數(shù)據(jù)與各業(yè)務(wù)系統(tǒng)數(shù)據(jù)之間的動態(tài)和同步更新,各業(yè)務(wù)系統(tǒng)間則相對獨立,松散耦合。這適應(yīng)高校信息化階段性建設(shè)特點,便于業(yè)務(wù)系統(tǒng)的維護和升級,也保障了單個業(yè)務(wù)系統(tǒng)面臨運行負載壓力時不會影響其它系統(tǒng)的正常運行。截至目前,該平臺在與人事、學工、教務(wù)、科研、研究生、研工、資產(chǎn)、一卡通等管理應(yīng)用系統(tǒng)的數(shù)據(jù)交換過程中,已積累了數(shù)十萬條的關(guān)于人員、教學、資產(chǎn)等方面信息,成為了全校最全面、最權(quán)威的數(shù)據(jù)平臺。

      為了更好地實現(xiàn)系統(tǒng)數(shù)據(jù)的共享,在實施過程中,我們根據(jù)國家和教育部標準,結(jié)合復(fù)旦本身的實際情況,征求各部門意見,逐步制定了信息編碼規(guī)范,并確定了各類數(shù)據(jù)的權(quán)威數(shù)據(jù)源和跨部門數(shù)據(jù)維護的流程,方便全校的數(shù)據(jù)共享和統(tǒng)計分析,保證各部門業(yè)務(wù)系統(tǒng)的數(shù)據(jù)一致性,提高數(shù)據(jù)的有用性和利用率。平臺專門開辟了“公共標準維護”模塊,提供信息編碼規(guī)范的維護功能,能方便快速地展示和管理學校已有并實際執(zhí)行的各項標準。

      建立數(shù)字檔案

      信息化校園建設(shè)的最終目標之一就是實現(xiàn)校內(nèi)信息方便快捷的交換、共享和利用。復(fù)旦選擇了部分核心業(yè)務(wù)系統(tǒng)和共享數(shù)據(jù)庫并行實施,并不斷地豐富和完善共享數(shù)據(jù)庫。隨著信息化應(yīng)用的不斷深入,共享數(shù)據(jù)庫平臺、校園一卡通等成果正逐步推進學校教學、科研、管理和生活等各方面信息的綜合數(shù)據(jù)應(yīng)用,綜合學工、人事、教務(wù)、虛擬校園等應(yīng)用系統(tǒng)的數(shù)據(jù)信息,逐步為全校人員建立數(shù)字檔案。數(shù)字檔案既為相關(guān)業(yè)務(wù)部門提供了較為全面的信息,也為師生員工提供了個性化的信息服務(wù)。

      基于共享數(shù)據(jù)庫平臺和各應(yīng)用系統(tǒng)中的數(shù)據(jù)的綜合數(shù)據(jù)查詢工具,為校領(lǐng)導(dǎo)、行政部門、院系和個人提供了自定義查詢和統(tǒng)計功能,用戶可通過瀏覽器進行查詢條件和輸出方式的設(shè)置,實現(xiàn)靈活、個性化的統(tǒng)計查詢,并通過Excel表格自定義導(dǎo)出數(shù)據(jù)查詢結(jié)果;利用OLAP提供的強大查詢、統(tǒng)計和分析功能,為學校管理者提供決策支持,實現(xiàn)教職工、研究生、本科生聯(lián)機分析處理功能,如,本科生OLAP分析包括了本科生基本信息數(shù)據(jù)分析、畢業(yè)數(shù)據(jù)分析、學生干部數(shù)據(jù)分析、協(xié)議書問卷調(diào)查分析以及獎、助、減、貸金數(shù)據(jù)分析等學生各方面的數(shù)據(jù)分析。

      高校綜合數(shù)據(jù)分析和利用是校園信息化建設(shè)的長期工作。一方面,它以信息化基礎(chǔ)設(shè)施和應(yīng)用系統(tǒng)為基礎(chǔ),需要較長時間的數(shù)據(jù)積累和技術(shù)準備;另一方面,數(shù)據(jù)分析、挖掘、利用所需要的背景知識和技術(shù)要求與應(yīng)用系統(tǒng)建設(shè)也不完全一樣,需要專門的人才隊伍。盡管這項工作有相當?shù)碾y度,國內(nèi)高校也沒有太多值得借鑒的經(jīng)驗,但我們必須勇往直前地去探索和嘗試。

      (作者單位為復(fù)旦大學信息化辦公室)

      猜你喜歡
      復(fù)旦全校數(shù)據(jù)挖掘
      從震旦到復(fù)旦:清末的外語教學與民族主義
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      合伙教育,家校共育——在考試后全校家長會上的廣播講話
      教書育人(2020年11期)2020-11-26 06:00:12
      開會
      樂婭菲,C919背后的復(fù)旦人
      金色年華(2017年9期)2017-06-21 09:45:51
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      酷蟲學校
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      以“復(fù)旦投毒案”為例反思我國的死刑制度
      全校動員 全力以赴:以一流的建設(shè)成績保證評估合格
      贡觉县| 天台县| 璧山县| 吴堡县| 驻马店市| 舟山市| 福安市| 岳普湖县| 墨竹工卡县| 阿拉善盟| 攀枝花市| 丰宁| 建瓯市| 如皋市| 桃园县| 古浪县| 邵阳市| 沙洋县| 英超| 洛扎县| 城市| 潼南县| 象山县| 临洮县| 海南省| 大丰市| 文昌市| 西城区| 镇平县| 河曲县| 安龙县| 宁国市| 贵德县| 镇康县| 永福县| 大安市| 喀喇沁旗| 恩施市| 恩平市| 蕲春县| 楚雄市|