• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      在線學習大數據分析架構研究

      2019-06-24 11:21:08孫家軍倪東輝
      關鍵詞:結構化數據挖掘預處理

      程 香 劉 超 孫家軍 倪東輝

      (中共安徽省委黨校, 合肥 230022)

      在數字化學習環(huán)境中,學習者在學習能力和行為習慣等方面存在差異,利用統(tǒng)計分析和數據挖掘技術分析在線學習者的相關數據,并將其以可視化的形式展示給教學實施者和管理者,對于實施因材施教、提升學習效率具有重要意義。當前,有關在線學習大數據的研究主要集中在學習行為、學習效果評價方面,而對在線學習大數據分析的架構研究不多。構建一個有效的在線學習大數據分析環(huán)境,通過人工智能和數據高級分析,快速挖掘在線學習大數據的潛在價值,仍有許多亟待研究與解決的問題[1-2]。

      在線學習大數據分析是一種數據價值發(fā)掘模式,面向大容量的多源異構和實時性的在線學習數據。本次研究將提出一種在線學習大數據分析架構,討論在線學習大數據分析模型的關鍵技術。

      1 在線學習數據特點及分析需求

      1.1 數據特點

      在線學習的主要環(huán)節(jié)為閱讀在線課程材料、提交在線作業(yè)、與同學在線交流、完成在線考試與測驗等,學習過程不受時空限制,受到越來越多的學習者青睞。各種公開課、慕課等不斷涌現(xiàn),各種在線學習平臺產生的數據呈指數級增加。社交網絡、移動互聯(lián)網和物聯(lián)網的使用,使得在線學習網絡數據急增;而且有文本、照片、視頻、音頻等,數據形式多樣;實時獲取的流文件數據、傳感器數據和移動設備數據,又使得需要處理的數據流動速度很快。這些數據的解釋和價值轉換,有賴于數據挖掘和大數據分析技術。

      在線學習大數據分析,數據源于相關教育應用系統(tǒng)、學生自帶設備和學校所用技術設備,通過數據集成與選擇而成為分析的目標數據。分析目的是從大數據中找到衡量教育質量、評價學習績效、規(guī)劃學習路徑、進行資源推薦的依據,獲得在線學生學習行為、學習情感及教育輿情分析與預測結果。因此,在線學習大數據分析是一種關于教育領域的大數據價值發(fā)掘模式,具有大容量、多源異構和實時性速度的特點。

      1.2 數據分析需求

      搭建在線學習大數據分析架構,需要著重考慮以下幾點。

      (1) 支持多種類型數據存儲和處理。在線學習領域各種移動App的移動學習過程數據、平臺日志數據、學習成績數據、作業(yè)數據和管理數據,其中既有簡單的結構化數據,又有復雜的非結構化數據。因此,分析架構應該既具有存儲和管理非關系型數據的能力,又有分析半結構化和非結構化數據的能力。

      (2) 滿足實時性處理需要。在線學習的短板在于缺乏教學過程的師生面對面的情感交流,而今物聯(lián)網感知類技術、視頻錄制技術與情感識別技術的應用,使監(jiān)測學生在線學習過程中的情感狀況成為可能,可以適時鼓勵積極的學習情感,及時干預負面的學習情感。要滿足這些業(yè)務應用需求,在線學習數據分析架構就要能夠處理和分析Twitter、微信等即時信息以及從其他可穿戴設備獲取的實時數據。

      (3) 支持大容量數據的存儲和處理。隨著校園信息化水平的逐步提升,學習平臺提供的數據和圖像識別、視頻錄制、網絡爬蟲等技術獲得的數據產生爆炸效應,需要有統(tǒng)一的數據處理分析方法,使這些數據能夠快速加載和處理。因此,要在滿足可用性和可靠性的前提下,盡量滿足可擴展性和容錯性。

      2 數據分析架構及關鍵技術

      2.1 總體架構

      進行在線學習大數據分析,與一般數據分析過程一樣,涵蓋數據采集、數據預處理、數據分析和可視化等環(huán)節(jié)。在線學習大數據分析架構包括基礎設備層、虛擬化層和數據挖掘分析層。在基礎設備層主要部署網絡和服務器;在基礎設備層上面搭建基于VMWare的虛擬化層,保證運行的可靠性;建立在虛擬化層上的數據挖掘分析層,引入Hadoop為基礎的大數據平臺,存儲和處理海量結構化和非結構化的學習者學習行為數據,集成R和Hadoop,利用R強大的組件庫進行大規(guī)模數據集分析和可視化。下面主要討論數據挖掘分析層的關鍵技術。

      2.2 數據挖掘分析

      2.2.1 基礎架構選擇

      (1) 存儲與操作。Hadoop的分布式文件系統(tǒng),能夠存儲和管理學生信息系統(tǒng)、課程管理系統(tǒng)等關系數據庫系統(tǒng)中的結構化數據,對在線學習系統(tǒng)的日志文件、XML等半結構化數據及作業(yè)、微博、視頻等非結構化數據的存儲和管理也十分有效。分布式文件系統(tǒng)架構由一個NameNode節(jié)點和一組DataNode節(jié)點組成,并且有大量被復制的DataNode,因此數據丟失率小、容錯性強,易于進行數據分析相關文件的創(chuàng)建、刪除、復制等操作。

      (2) 分布式計算與編程。Hadoop分布式架構實現(xiàn)的是跨節(jié)點的通信,具有易于橫向擴充、負載均衡的特點。對于在線學習數據分析業(yè)務,凡是能夠抽象為Map和Reduce兩種操作的分布式運算,都可以編寫成MapReduce應用程序運行在集群上。因此,在線學習大數據分析的計算架構采用分布式計算軟件Hadoop MapReduce架構,并行處理大數量級的數據。

      2.2.2 數據分析

      (1) 數據獲取與預處理。鑒于在線學習大數據的多源性特征,數據分析架構應支持大多數流行數據庫,通過自定義函數或軟件包技術,能夠輕松實現(xiàn)數據庫連接。這些數據被處理成一定模式后,還會存在一些質量問題,或者數據表達上不符合數據挖掘要求,因此在數據加載后需要進行一系列預處理操作。通過人工或軟件進行多樣化的數據預處理,實現(xiàn)對缺失值、噪聲和數據不一致的處理,完成數據集成、變換和歸約。

      (2) 建立和優(yōu)選模型。進行在線學習大數據分析,會根據挖掘目標而建立相關性分析、聚類分析、規(guī)則發(fā)現(xiàn)等模型。首先對數據源作探索分析,發(fā)現(xiàn)變量的各種情況,然后選擇合適的模型挖掘算法。在正式使用模型算法之前需要對模型的預測能力進行評估,考慮適合模型的變量,從眾多的備用模型中選擇一個最優(yōu)的。

      2.2.3 數據可視化

      互動圖形用戶界面、可視化分析工具及在線數據可視化工具,均能夠完成圖表、信息圖和復雜圖譜的制作。選擇適當的可視化分析軟件,合理運用點圖、餅圖、柱狀圖、箱線圖等圖形,可將在線學習大數據分析結果直觀地展示出來。通過精確調整繪圖函數的參數,準確控制顏色、點、線條、圖例等圖形元素,能夠將分析結果按需要的形式呈現(xiàn)出來。結合形狀、顏色等圖形要素,再進一步從數據分析結果中發(fā)現(xiàn)有價值的信息。

      2.2.4 Hadoop與R集成

      R和Hadoop在數據分析處理方面各具優(yōu)勢,前者具有豐富的數據分析功能,后者以其突出的存儲計算能力而受到眾多互聯(lián)網企業(yè)青睞。將R與Hadoop集成,可解決R軟件分析數據時數據集大而內存容量小的問題,同時增強Hadoop架構的數據分析功能。

      在線學習大數據分析架構采用中間接口軟件RHadoop集成R和Hadoop,實現(xiàn)在R中開發(fā)和執(zhí)行Hadoop MapReduce。RHadoop通過R程序包rhdfs、rmr以及rhbase實現(xiàn)可用性[3]。這3個程序包分別向R提供Hadoop核心組成部分的接口,R可以對HDFS進行數據操作,使用R開發(fā)MapReduce算法程序。

      3 實例分析

      3.1 架構搭建

      分析架構包含1個Master(主盤)和3個Slave(從盤),如圖1所示。指定為NameNode的機器,同時也作為JobTracker;其他機器既作為DataNode,同時也作為TaskTracker。安裝VMware虛擬機環(huán)境,并在其中安裝Ubuntu16.04。在該操作系統(tǒng)上安裝R、JDK、ssh、Hadoop并配置集群。最后安裝用以連接R與Hadoop的相關軟件包,下載安裝集成R和Hadoop中間件軟件包。

      圖1 實例分析架構

      3.2 分析目標

      對edX平臺X國在線學習者群體進行分組,為每組學習者提供有針對性的學習支持和干預。數據源選用edX平臺公開數據集中的學習者數據,該數據集含有學習者在線學習的學習章節(jié)數、視頻播放次數、論壇發(fā)帖數等學習行為數據項。

      3.3 分析過程

      針對學習者分組的挖掘場景,每類學習者的在線學習行為各變量存在相似性。分析思路為:利用在線學習分析架構,采用無監(jiān)督學習的聚類算法實現(xiàn)分組。首先,對數據做預處理,進行缺失值、數據歸一化處理;然后,通過定義距離函數、Map和Reduce執(zhí)行單元函數以及MapReduce函數,將單機上的k-means算法思想移植到分布式系統(tǒng)Hadoop集群上。在RHadoop中已經開發(fā)了k-means算法,這里Map執(zhí)行單元主要是根據在線學習數據集計算記錄到每個質心的歐式距離,并將該記錄并入距離最近的質心所在的類別;Reduce執(zhí)行單元主要對類別相同的記錄計算出新的質心。

      3.4 分析結果

      分析發(fā)現(xiàn),學習者可分為4類。第一類學習者,在線學習的學習章節(jié)數、視頻播放次數、論壇發(fā)帖數最低,學習者很少登錄在線學習平臺,幾乎沒有學習課程內容。針對這類學習者,可考慮推薦同類學習者的參與度高的課程。第二類學習者,在線學習的學習章節(jié)數、視頻播放次數、論壇發(fā)帖數均是最高,課程參與度高,課程內容學習完整性好。可以向他們推薦學習更高階相關課程。第三類學習者,在線學習的學習章節(jié)數、視頻播放次數、論壇發(fā)帖數較高??梢韵蛩麄兺扑]橫向拓展的課程學習資源,并定期發(fā)送學習進度提醒。第四類學習者,在線學習的學習章節(jié)數、視頻播放次數、論壇發(fā)帖數都較低,他們很少訪問課程平臺,課程學習內容完成量少,測驗所得分數低。針對這類學習者,應該適時提供學習進度提醒和學習成績預測報警。

      4 結 語

      在線學習領域累積的數據,呈現(xiàn)實時性速度、存儲類型多樣化和數據集相對較大的特征。針對在線學習的各種數據分析業(yè)務需求,開展在線學習的結構化與非結構化大數據分析,可以基于Hadoop基礎架構完成數據預處理,并建立和優(yōu)選各種分析場景的挖掘模型和算法。高等院校越來越重視對大數據的應用,學習評價、學習需求診斷、學習行為預測等在線學習相關主題的數據分析業(yè)務需求不斷上升。通過編程挖掘分析在線學習數據,建立基于在線學習數據分析的API中心,采取基于相關應用的API進行數據抓取、預處理和挖掘建模,將使在線學習大數據分析更加高效。

      猜你喜歡
      結構化數據挖掘預處理
      促進知識結構化的主題式復習初探
      探討人工智能與數據挖掘發(fā)展趨勢
      結構化面試方法在研究生復試中的應用
      計算機教育(2020年5期)2020-07-24 08:53:00
      基于預處理MUSIC算法的分布式陣列DOA估計
      制導與引信(2017年3期)2017-11-02 05:16:56
      基于并行計算的大數據挖掘在電網中的應用
      電力與能源(2017年6期)2017-05-14 06:19:37
      淺談PLC在預處理生產線自動化改造中的應用
      一種基于Hadoop的大數據挖掘云服務及應用
      絡合萃取法預處理H酸廢水
      基于圖模型的通用半結構化數據檢索
      計算機工程(2015年8期)2015-07-03 12:20:35
      基于自適應預處理的改進CPF-GMRES算法
      宜黄县| 苏尼特左旗| 拉萨市| 武乡县| 西充县| 瑞丽市| 赤城县| 大丰市| 大田县| 罗山县| 河源市| 瓦房店市| 邹城市| 蒲江县| 柘城县| 贺州市| 渭南市| 江安县| 南漳县| 桂东县| 普宁市| 周口市| 永顺县| 徐闻县| 陆良县| 剑阁县| 崇仁县| 泽州县| 绩溪县| 高台县| 涟水县| 军事| 盐池县| 夏津县| 罗江县| 内乡县| 宁海县| 革吉县| 海南省| 成武县| 兴安盟|