魏玲 郭新悅
【摘要】
MOOC在全球引起在線學(xué)習(xí)風(fēng)靡的同時(shí)存在著嚴(yán)峻的挑戰(zhàn)。通過調(diào)查發(fā)現(xiàn)MOOC用戶中途放棄課程學(xué)習(xí)的現(xiàn)象十分嚴(yán)重。為最大限度保持和發(fā)展更多的MOOC用戶,需要對(duì)其流失狀態(tài)進(jìn)行準(zhǔn)確預(yù)測(cè),確保對(duì)學(xué)習(xí)危機(jī)用戶及時(shí)發(fā)出預(yù)警。本研究首先通過改進(jìn)商業(yè)領(lǐng)域中RFM模型建立針對(duì)MOOC用戶學(xué)習(xí)行為與流失預(yù)測(cè)的RFLP指標(biāo)體系;其次通過直方圖檢驗(yàn)與卡方檢驗(yàn)確定影響MOOC用戶流失的特征變量;最后結(jié)合數(shù)據(jù)分組處理(GMDH)網(wǎng)絡(luò)作為后置處理信息系統(tǒng)構(gòu)建MOOC用戶流失預(yù)測(cè)模型。利用該模型對(duì)中國(guó)大學(xué)MOOC上一門課程的學(xué)習(xí)者流失狀態(tài)進(jìn)行預(yù)測(cè),并與經(jīng)典決策樹C5.0和支持向量機(jī)SVM算法進(jìn)行實(shí)驗(yàn)對(duì)比。研究結(jié)果表明,該模型對(duì)MOOC用戶流失判別的預(yù)測(cè)精度更高且在不同數(shù)據(jù)規(guī)模與極端值干擾下均有良好表現(xiàn)。
【關(guān)鍵詞】 ?MOOC;在線學(xué)習(xí);學(xué)習(xí)者;學(xué)習(xí)者流失預(yù)測(cè);學(xué)習(xí)預(yù)警;學(xué)習(xí)危機(jī);GMDH算法;RFM模型;學(xué)習(xí)分析
【中圖分類號(hào)】 ?G434 ? ? ? 【文獻(xiàn)標(biāo)識(shí)碼】 ?A ? ? ? 【文章編號(hào)】 ?1009-458x(2020)9-0039-06
一、引言
近年來,眾多大規(guī)模開放在線課程(Massive Open Online Course, MOOC)平臺(tái)相繼涌現(xiàn)并快速發(fā)展,但仍存在諸多問題。相關(guān)研究結(jié)果顯示,大多數(shù)MOOC用戶所選課程的實(shí)際完成平均率低于10%(袁松鶴, 等, 2014),用戶自主學(xué)習(xí)網(wǎng)絡(luò)課程時(shí)中途放棄的現(xiàn)象尤為突出。對(duì)于如此嚴(yán)重的用戶流失情形,康葉欽(2014)認(rèn)為,平臺(tái)注冊(cè)人數(shù)的驟增與最初的用戶個(gè)性化學(xué)習(xí)產(chǎn)生矛盾沖突,導(dǎo)致用戶學(xué)習(xí)質(zhì)量下降,主動(dòng)學(xué)習(xí)能力匱乏,繼而引發(fā)MOOC注冊(cè)者課程完成率低的問題。邵進(jìn)(2017)指出,有充裕時(shí)間學(xué)習(xí)網(wǎng)絡(luò)課程或興趣愛好較多且學(xué)習(xí)能力較強(qiáng)的MOOC注冊(cè)者同時(shí)選擇多門課程進(jìn)行在線學(xué)習(xí),也可能導(dǎo)致MOOC平臺(tái)某些課程完成率低。為盡可能保持和發(fā)展更多的學(xué)習(xí)用戶,MOOC平臺(tái)管理者需要密切關(guān)注課程學(xué)習(xí)者行為,精準(zhǔn)預(yù)測(cè)其流失狀態(tài),以便課程組織者和運(yùn)營(yíng)人員對(duì)學(xué)習(xí)危機(jī)用戶采取一定的預(yù)警措施。本研究以MOOC平臺(tái)用戶學(xué)習(xí)行為特征為基礎(chǔ),利用改進(jìn)的RFM分析方法對(duì)在線學(xué)習(xí)者流失預(yù)測(cè)的指標(biāo)變量進(jìn)行定義,同時(shí)結(jié)合數(shù)據(jù)分組處理(Group Method of Data Handling, GMDH)算法構(gòu)建MOOC用戶流失預(yù)測(cè)模型,以此為基礎(chǔ)幫助平臺(tái)管理者解決用戶流失預(yù)測(cè)方面的相關(guān)問題,促進(jìn)平臺(tái)的可持續(xù)發(fā)展。
二、研究現(xiàn)狀
目前,在線學(xué)習(xí)者行為模式發(fā)現(xiàn)、學(xué)業(yè)成績(jī)預(yù)測(cè)、流失預(yù)測(cè)指標(biāo)體系等已成為教育數(shù)據(jù)研究領(lǐng)域的熱點(diǎn)與重點(diǎn)(范逸洲, 等, 2018)。國(guó)內(nèi)學(xué)者更傾向于利用大數(shù)據(jù)、學(xué)習(xí)分析等技術(shù)進(jìn)行學(xué)習(xí)者模型、學(xué)習(xí)反饋與評(píng)價(jià)等方面的研究,對(duì)于學(xué)習(xí)者流失預(yù)測(cè)的研究仍處于起步階段。王雪宇等(2017)針對(duì)不同課程利用多元線性回歸和神經(jīng)網(wǎng)絡(luò)算法建立不同的預(yù)測(cè)模型對(duì)學(xué)習(xí)者進(jìn)行流失預(yù)測(cè),取得較好效果。盧曉航等(2017)根據(jù)課程數(shù)據(jù)特點(diǎn)提取相應(yīng)特征,利用支持向量機(jī)與長(zhǎng)短期記憶法構(gòu)建滑動(dòng)窗口模型動(dòng)態(tài)預(yù)測(cè)MOOC用戶流失。舒瑩等(2019)對(duì)處于流失邊緣的學(xué)生進(jìn)行聚類分組,采用樸素貝葉斯構(gòu)建流失預(yù)測(cè)模型,并通過郵件進(jìn)行學(xué)習(xí)干預(yù)。國(guó)外研究者也對(duì)在線學(xué)習(xí)用戶流失預(yù)測(cè)進(jìn)行了大量探索,如Amnueypornsakul等(2014)利用支持向量機(jī)算法對(duì)是否包含不活躍用戶分別進(jìn)行流失預(yù)測(cè)模型構(gòu)建。結(jié)果顯示,剔除不活躍用戶進(jìn)行預(yù)測(cè)模型構(gòu)建時(shí)準(zhǔn)確率有很大提升。Fei等(2015)發(fā)現(xiàn)在預(yù)測(cè)學(xué)習(xí)者流失率方面,邏輯回歸算法的能力優(yōu)于支持向量機(jī)算法。Liang等(2016)在一項(xiàng)基于39門學(xué)堂在線MOOC用戶流失預(yù)測(cè)分析中,得出梯度提升決策樹算法和隨機(jī)森林算法優(yōu)于邏輯回歸算法和支持向量機(jī)算法。當(dāng)前,國(guó)內(nèi)對(duì)MOOC用戶流失預(yù)測(cè)研究較少,本研究借助營(yíng)銷領(lǐng)域中發(fā)展成熟的客戶行為理論以及數(shù)據(jù)挖掘技術(shù)手段,基于改進(jìn)RFM模型與GMDH算法構(gòu)建MOOC用戶流失預(yù)測(cè)模型,以期為在線學(xué)習(xí)領(lǐng)域用戶流失預(yù)測(cè)的研究提供有價(jià)值、可參考的理論和實(shí)踐依據(jù),解決MOOC發(fā)展過程中面臨的相關(guān)問題。
三、構(gòu)建MOOC用戶流失預(yù)測(cè)模型
(一)模型理論研究方法
1. 構(gòu)建RFLP指標(biāo)體系
RFM模型是對(duì)客戶行為特征進(jìn)行分析的重要方法之一,通過近度R( Recency) 、頻度F( Frequency)、值度M( Monetary) 3個(gè)行為變量對(duì)客戶進(jìn)行分類(Hughes, 1994)。傳統(tǒng)RFM模型通過電子商務(wù)平臺(tái)中客戶以往的購(gòu)買行為,對(duì)客戶未來的短期行為進(jìn)行預(yù)測(cè)。MOOC平臺(tái)區(qū)別于普通電子商務(wù)平臺(tái),即:多數(shù)MOOC用戶在學(xué)習(xí)過程中并沒有產(chǎn)生實(shí)際消費(fèi),但二者在某種程度上具備一定的關(guān)聯(lián)性。本研究通過改進(jìn)RFM模型構(gòu)建,針對(duì)MOOC用戶學(xué)習(xí)行為與流失預(yù)測(cè)的RFLP指標(biāo)體系,詳細(xì)內(nèi)容如表1所示。在RFLP指標(biāo)體系中指標(biāo)P(Precision)代表學(xué)習(xí)精度,測(cè)量類型包括學(xué)習(xí)者在某一期間內(nèi)連續(xù)學(xué)習(xí)天數(shù)、大量跳過視頻以及快進(jìn)視頻的次數(shù)等,是可以說明用戶學(xué)習(xí)毅力與學(xué)習(xí)耐心的行為指標(biāo)。通過對(duì)用戶學(xué)習(xí)毅力與耐心的掌握判斷其是否容易流失,如連續(xù)學(xué)習(xí)天數(shù)越多,學(xué)習(xí)者越容易養(yǎng)成學(xué)習(xí)習(xí)慣,進(jìn)而可以判定學(xué)習(xí)者具有較好的學(xué)習(xí)毅力。跳過視頻以及快進(jìn)視頻次數(shù)則可以判定學(xué)習(xí)者的學(xué)習(xí)耐心。加入學(xué)習(xí)精度指標(biāo)可以更精準(zhǔn)地預(yù)測(cè)用戶流失狀態(tài)。
2. GMDH的起源與內(nèi)涵
數(shù)據(jù)分組處理是自組織數(shù)據(jù)挖掘的核心技術(shù)(Ivakhnenko, 1970),是以參考函數(shù)構(gòu)成的初始模型為基礎(chǔ),依據(jù)相應(yīng)法則產(chǎn)生第一代中間候選模型,從中篩選出最優(yōu)的若干項(xiàng),再依據(jù)一定法則產(chǎn)生第二代中間候選模型,此過程不斷反復(fù)進(jìn)行使中間模型復(fù)雜度逐步提高,直至得到最優(yōu)復(fù)雜度模型的學(xué)習(xí)過程。GMDH算法具有以下特點(diǎn):第一,通過計(jì)算機(jī)利用原始數(shù)據(jù)與外準(zhǔn)則自動(dòng)篩選出變量,從而使模型結(jié)果較為客觀、公正;第二,由于只需數(shù)據(jù)、準(zhǔn)則便可進(jìn)行預(yù)測(cè),在其他領(lǐng)域中可實(shí)現(xiàn)性強(qiáng);第三,GMDH算法有很強(qiáng)的抗干擾能力;第四,在建模過程中能夠利用自組織方式自動(dòng)生成最優(yōu)復(fù)雜度模型,不需人為設(shè)定函數(shù)關(guān)系式,因此模型的擬合精度相較于其他模型更高,適應(yīng)性較強(qiáng)且預(yù)測(cè)效果更好。
(二)MOOC用戶流失指標(biāo)變量選取
在對(duì)MOOC用戶流失狀態(tài)進(jìn)行預(yù)測(cè)之前,需準(zhǔn)確選取預(yù)測(cè)變量。首先,通過調(diào)研MOOC用戶實(shí)際學(xué)習(xí)情況并結(jié)合RFLP指標(biāo)變量,總結(jié)出可能影響在線學(xué)習(xí)用戶流失的初始變量。其次,對(duì)這些初始變量進(jìn)行篩選,檢驗(yàn)其對(duì)預(yù)測(cè)在線學(xué)習(xí)用戶流失是否存在一定影響。本研究先后利用直方圖檢驗(yàn)與卡方檢驗(yàn)兩種檢驗(yàn)方法,前者可直觀地分辨出某個(gè)變量是否作用于在線學(xué)習(xí)用戶流失行為,而后者可以進(jìn)一步判斷特征變量對(duì)預(yù)測(cè)結(jié)果的影響程度。最后,在確定預(yù)測(cè)MOOC用戶流失的特征變量后,對(duì)預(yù)測(cè)指標(biāo)變量的取值做歸一化處理?;赗FLP指標(biāo)選出MOOC用戶流失特征變量,然后結(jié)合GMDH網(wǎng)絡(luò)構(gòu)建MOOC用戶流失預(yù)測(cè)模型,可有效降低GMDH網(wǎng)絡(luò)的復(fù)雜性并且縮短其訓(xùn)練時(shí)間(朱幫助, 等, 2011)。
(三)MOOC用戶流失預(yù)測(cè)模型
利用Matlab軟件構(gòu)建MOOC用戶流失預(yù)測(cè)模型,如圖1所示。
1. 數(shù)據(jù)準(zhǔn)備
從MOOC平臺(tái)中依據(jù)RFLP指標(biāo)體系提取學(xué)習(xí)者數(shù)據(jù),對(duì)學(xué)習(xí)者屬性進(jìn)行篩選,將篩選后的學(xué)習(xí)者數(shù)據(jù)隨機(jī)排列構(gòu)成樣本全集S,并將其拆分為三個(gè)交集互為空的子集S1(訓(xùn)練集)、S2(驗(yàn)證集)、S3(測(cè)試集),樣本長(zhǎng)度依次為x1、x2、x3。其中S1和S2用于構(gòu)建模型,S3用于檢驗(yàn)?zāi)P皖A(yù)測(cè)是否準(zhǔn)確。由于MOOC用戶中流失類學(xué)習(xí)者遠(yuǎn)多于非流失類學(xué)習(xí)者,因此在建模時(shí)需將S1中非流失類學(xué)習(xí)者數(shù)據(jù)進(jìn)行復(fù)制,使其數(shù)據(jù)量與流失類學(xué)習(xí)者平衡,以提高模型的預(yù)測(cè)精度。復(fù)制次數(shù)N=(流失學(xué)習(xí)者數(shù)量/非流失學(xué)習(xí)者數(shù)量)-1,若N值為小數(shù),則四舍五入取整。將得到的非流失類學(xué)習(xí)者數(shù)據(jù)加入S1中得到新的訓(xùn)練集。
2. 訓(xùn)練GMDH網(wǎng)絡(luò)
第一步,網(wǎng)絡(luò)設(shè)置。將GMDH網(wǎng)絡(luò)中每一層選擇的最大神經(jīng)元數(shù)量設(shè)置為75。以GMDH網(wǎng)絡(luò)在S1、S2上的誤差平方和[φ1]、[φ2]的加權(quán)和作為研究MOOC用戶流失預(yù)測(cè)模型的適應(yīng)度,記為F,其中[φ2]權(quán)重為[φ1]的2倍。如公式(1)所示:
當(dāng)連續(xù)2代F均不減少,則GMDH網(wǎng)絡(luò)訓(xùn)練結(jié)束。
第二步,訓(xùn)練時(shí)GMDH網(wǎng)絡(luò)得出S2的目標(biāo)變量預(yù)測(cè)值[yi0]。y0用0和1表示,當(dāng)[yi0]趨近于0時(shí)說明學(xué)習(xí)者流失可能性較小,趨近于1時(shí)則相反。若[yi0]接近0.5,不能明確判定該學(xué)習(xí)者所屬類別,此時(shí)需要確定一個(gè)閥值[D0]來判定其類別。
第三步,令[D0=0to1],步長(zhǎng)為0.1,在S2中計(jì)算[D0]為不同取值時(shí)的預(yù)測(cè)準(zhǔn)確率。如公式(2)所示:
若[μi≥D0],則可認(rèn)為第i條數(shù)據(jù)對(duì)應(yīng)的在線學(xué)習(xí)者屬于流失類用戶;如果[μi≤-D0],那么可認(rèn)為第i條數(shù)據(jù)對(duì)應(yīng)的在線學(xué)習(xí)者屬于非流失類用戶;若[-D0<μi 第四步,將S1按在線學(xué)習(xí)者所屬類別劃分為兩類,并對(duì)這兩類學(xué)習(xí)者的數(shù)據(jù)中心進(jìn)行計(jì)算。對(duì)于模糊類別學(xué)習(xí)者數(shù)據(jù),計(jì)算其與兩類學(xué)習(xí)者數(shù)據(jù)中心的歐氏距離,記為d。若d與y0 =1類學(xué)習(xí)者數(shù)據(jù)中心距離相對(duì)較近,則可以認(rèn)定為流失類學(xué)習(xí)者,反之則為非流失類學(xué)習(xí)者。 第五步,將三四步的結(jié)果進(jìn)行整合判斷,通過計(jì)算將得到的S2的最優(yōu)累計(jì)分類正確率對(duì)應(yīng)的[D0]作為[ BESTD0]。 3. 判定用戶類別 將S3輸入已完成學(xué)習(xí)過程的GMDH網(wǎng)絡(luò),輸出[yi0],并計(jì)算[μi]值。若[μi≥BESTD0],則判定該學(xué)習(xí)者屬于流失類用戶;若[μi≤-BESTD0],則判定該學(xué)習(xí)者屬于非流失類用戶;若[-BESTD0≤μi≤BESTD0],則轉(zhuǎn)到第四步進(jìn)行重新判別。 四、MOOC用戶流失預(yù)測(cè)實(shí)證分析 (一)數(shù)據(jù)處理及屬性選擇 本研究以中國(guó)大學(xué)MOOC平臺(tái)發(fā)布的課程“Python語言程序設(shè)計(jì)”作為實(shí)證對(duì)象。利用網(wǎng)絡(luò)抓包工具已獲取從課程開始至課程結(jié)束(2018年9月18日至2018年12月7日)期間內(nèi)的全部學(xué)習(xí)者學(xué)習(xí)數(shù)據(jù)。隨機(jī)抽取3,000名用戶的學(xué)習(xí)數(shù)據(jù)作為樣本。根據(jù)學(xué)習(xí)記錄,分別統(tǒng)計(jì)出每位學(xué)習(xí)者的屬性變量以及最終是否參加課程考試的結(jié)果數(shù)據(jù)。 MOOC學(xué)習(xí)者的屬性變量包括自然屬性變量和學(xué)習(xí)行為特征變量。文中設(shè)定MOOC學(xué)習(xí)用戶的主要自然屬性變量包括性別、年齡、學(xué)歷、國(guó)籍。學(xué)習(xí)行為特征變量依據(jù)指標(biāo)R、F、L、P進(jìn)行劃分。通過調(diào)研參加課程的用戶在線學(xué)習(xí)實(shí)際情況將各指標(biāo)劃分為15個(gè)可能影響MOOC用戶流失的初始變量,具體內(nèi)容如表2所示。本研究以學(xué)習(xí)者最終沒有參加課程考試作為判斷學(xué)習(xí)者屬于流失類用戶結(jié)果的屬性變量,記為Y。 對(duì)表2中的最初變量進(jìn)行相關(guān)檢驗(yàn)后選出最終的預(yù)測(cè)指標(biāo)。在直方圖檢驗(yàn)中可以直觀地辨別一個(gè)變量是否作用于MOOC用戶流失行為。任意選擇1個(gè)變量為例,如圖2所示。隨著學(xué)習(xí)者播放課程視頻次數(shù)(F2)的增加,學(xué)習(xí)者流失人數(shù)明顯隨之減少,說明指標(biāo)F2對(duì)用戶流失具有明顯作用。對(duì)上述指標(biāo)依次進(jìn)行檢驗(yàn),發(fā)現(xiàn)指標(biāo)X1性別和X4國(guó)籍與流失用戶數(shù)量不存在規(guī)律性分布,即對(duì)用戶的流失無明顯作用,故將其刪除。 為精確變量影響程度,對(duì)其余指標(biāo)進(jìn)行卡方檢驗(yàn),結(jié)果如表3所示。 綜合兩種方法檢驗(yàn)結(jié)果,最終以X2、X3、R1、R2、F1、F2、F3、F4、F5、L1、P1作為預(yù)測(cè)模型的屬性變量。根據(jù)確定的預(yù)測(cè)屬性變量,統(tǒng)計(jì)隨機(jī)抽取的3,000位平臺(tái)用戶的學(xué)習(xí)數(shù)據(jù)并進(jìn)行歸一化處理。 (二)GMDH網(wǎng)絡(luò)學(xué)習(xí)結(jié)果 課程持續(xù)時(shí)間為12周,選取前6周學(xué)習(xí)該課程的用戶數(shù)據(jù)進(jìn)行分析與預(yù)測(cè),后6周學(xué)習(xí)數(shù)據(jù)用于核查3,000名學(xué)習(xí)者的用戶流失狀態(tài)。根據(jù)平臺(tái)提供的學(xué)習(xí)數(shù)據(jù)可知3,000名學(xué)習(xí)者中有2,042名用戶流失(2,042名學(xué)習(xí)者沒有完成課程考試)和958名學(xué)習(xí)者沒有流失(最后順利完成課程考試并取得成績(jī))。樣本全集S由3,000名學(xué)習(xí)者的相關(guān)學(xué)習(xí)數(shù)據(jù)組成,在S中隨機(jī)抽取600個(gè)樣本作為驗(yàn)證樣本集S2,隨后再?gòu)钠溆?,400個(gè)樣本中隨機(jī)抽取出600個(gè)樣本作為測(cè)試樣本集S3,將最后剩余的1,800個(gè)樣本作為訓(xùn)練集S1。最終形成的S1、S2、S3中流失用戶依次為1,359、313、370名,非流失用戶依次為441、287、230名。 訓(xùn)練集S1中流失類學(xué)習(xí)者數(shù)量約是非流失類學(xué)習(xí)者數(shù)量的3倍,因此本研究將S1中所有非流失類學(xué)習(xí)者數(shù)量全部復(fù)制2倍后,將其加入到S1中形成新的訓(xùn)練集。當(dāng)?shù)螖?shù)為7,適應(yīng)度F=36.567時(shí),滿足停止條件訓(xùn)練完成。在預(yù)測(cè)過程中,GMDH網(wǎng)絡(luò)給出S2中每個(gè)學(xué)習(xí)者的目標(biāo)變量預(yù)測(cè)值,計(jì)算相應(yīng)[μi]值、比較取不同[D0]時(shí)的累計(jì)分類正確率,最終得出[BESTD0=0.4],此刻在S2中的累計(jì)分類正確率為94.31%。 (三)模型預(yù)測(cè)精度檢驗(yàn)比較 將測(cè)試集S3中的600個(gè)學(xué)習(xí)者數(shù)據(jù)輸入到已完成學(xué)習(xí)過程的GMDH網(wǎng)絡(luò)中進(jìn)行預(yù)測(cè),驗(yàn)證基于RFLP和GMDH網(wǎng)絡(luò)的預(yù)測(cè)模型在MOOC用戶流失預(yù)測(cè)中的有效性和可行性,最后結(jié)果正確判斷了557名學(xué)習(xí)者的流失狀態(tài),其中61名學(xué)習(xí)者的[μi]值在(-0.4,0.4)內(nèi),利用步驟2中的第四步進(jìn)行相關(guān)判斷,其中47名被判斷為流失用戶,同實(shí)際結(jié)果對(duì)比,判斷正確34名、錯(cuò)判13名;其中14名被判斷為非流失用戶,同實(shí)際結(jié)果對(duì)比,最后得出判斷正確10名、錯(cuò)判4名的結(jié)果。為更好地驗(yàn)證本研究構(gòu)建的預(yù)測(cè)模型準(zhǔn)確率,將基于RFLP和GMDH網(wǎng)絡(luò)的預(yù)測(cè)模型與決策樹C5.0和SVM模型的預(yù)測(cè)精度用以下四個(gè)評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行比較:①非流失用戶正確分辨率;②流失用戶正確分辨率;③總體正確分辨率;④模型ROC曲線下的面積(AUC)?;谝陨纤膫€(gè)評(píng)價(jià)標(biāo)準(zhǔn)將本研究提出的模型預(yù)測(cè)精度與SVM、決策樹C5.0模型的預(yù)測(cè)精度進(jìn)行對(duì)比,結(jié)果見表4。 根據(jù)表4可得出,本研究構(gòu)建的預(yù)測(cè)模型誤判數(shù)量相較于決策樹C5.0和SVM模型明顯較低,前者誤判數(shù)量為43(30+13),后兩者誤判數(shù)量分別為97(49+48)和116(82+34)。并且非流失用戶預(yù)測(cè)精度、流失用戶預(yù)測(cè)精度、總體預(yù)測(cè)精度和AUC值都高于經(jīng)典的決策樹C5.0模型和SVM模型,前者分別為94.3%、91.9%、92.8%、0.9275,后兩者分別為79.1%、86.8%、83.8%、0.8479和85.2%、77.8%、80.6%、0.8235。另外,在不同數(shù)據(jù)規(guī)模下SVM隨著數(shù)據(jù)樣本加大精確度較另外兩種算法下降幅度較大,在出現(xiàn)極端值時(shí)決策樹較另外兩種算法會(huì)出現(xiàn)過度擬合情況導(dǎo)致準(zhǔn)確率下降,且GMDH算法的訓(xùn)練和分類與決策樹和SVM算法相比更加簡(jiǎn)單,具有較高的實(shí)用性,進(jìn)而驗(yàn)證了本研究構(gòu)建的預(yù)測(cè)模型對(duì)于MOOC用戶流失預(yù)測(cè)領(lǐng)域具有實(shí)際意義。 五、結(jié)語 信息技術(shù)的飛速發(fā)展和MOOC平臺(tái)的盛行正吸引越來越多的學(xué)習(xí)者。MOOC用戶流失預(yù)測(cè)對(duì)有流失傾向的學(xué)習(xí)者采取相應(yīng)的挽留措施,對(duì)MOOC平臺(tái)保持用戶以及提升平臺(tái)核心競(jìng)爭(zhēng)力至關(guān)重要。本研究構(gòu)建針對(duì)MOOC用戶的流失預(yù)測(cè)研究模型,以商業(yè)領(lǐng)域中RFM分析方法為基礎(chǔ)提出RFLP學(xué)習(xí)者預(yù)測(cè)指標(biāo)體系,通過直方圖與卡方檢驗(yàn)確定預(yù)測(cè)模型的指標(biāo)變量并采集數(shù)據(jù),利用GMDH網(wǎng)絡(luò)作為后置處理信息系統(tǒng)對(duì)MOOC用戶流失狀態(tài)進(jìn)行預(yù)測(cè)。通過中國(guó)大學(xué)MOOC中的真實(shí)課程數(shù)據(jù)進(jìn)行實(shí)證檢驗(yàn),結(jié)果表明本研究提出的基于RFLP和GMDH的MOOC用戶流失預(yù)測(cè)模型是有效的,與決策樹C5.0和SVM模型相比,學(xué)習(xí)者流失判別的預(yù)測(cè)精度更加準(zhǔn)確,且具有較高的實(shí)用性,一定程度上很好地彌補(bǔ)了在線學(xué)習(xí)領(lǐng)域中用戶流失預(yù)測(cè)研究的不足。同時(shí),該模型中的RFLP指標(biāo)體系可以為MOOC平臺(tái)全面發(fā)掘流失類用戶的真實(shí)情況,為提高M(jìn)OOC用戶留存提供較好的決策支持。 [參考文獻(xiàn)] 范逸洲,劉敏,歐陽嘉煜,等. 2018. MOOC中學(xué)習(xí)者流失問題的預(yù)測(cè)分析——基于24篇中英文文獻(xiàn)的綜述[J]. 中國(guó)遠(yuǎn)程教育(04):5-14,79. 康葉欽. 2014. 在線教育的“后MOOC時(shí)代”——SPOC解析[J]. 清華大學(xué)教育研究,35(1):85-93. 盧曉航,王勝清,黃俊杰,等. 2017. 一種基于滑動(dòng)窗口模型的MOOCs輟學(xué)率預(yù)測(cè)方法[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),1(04):67-75. 邵進(jìn). 2017. 打造精品慕課助力教學(xué)改革[J]. 中國(guó)大學(xué)教學(xué)(2):12-14. 舒瑩,姜強(qiáng),趙蔚. 2019. 在線學(xué)習(xí)危機(jī)精準(zhǔn)預(yù)警及干預(yù):模型與實(shí)證研究[J]. 中國(guó)遠(yuǎn)程教育(08):27-34,58,93. 王雪宇,鄒剛,李驍. 2017. 基于MOOC數(shù)據(jù)的學(xué)習(xí)者輟課預(yù)測(cè)研究[J]. 現(xiàn)代教育技術(shù),27(06):94-100. 袁松鶴,劉選. 2014. 中國(guó)大學(xué)MOOC實(shí)踐現(xiàn)狀及共有問題——來自中國(guó)大學(xué)MOOC實(shí)踐報(bào)告[J]. 現(xiàn)代遠(yuǎn)程教育研究(4):3-12. 朱幫助,張秋菊,鄒昊飛,等. 2011. 基于OSA算法和GMDH網(wǎng)絡(luò)集成的電子商務(wù)客戶流失預(yù)測(cè)[J]. 中國(guó)管理科學(xué),19(5):64-70. Amnueypornsakul, B., Bhat, S., & Chinprutthiwong, P. (2014). Predicting Attrition Along the Way: The UIUC Model. EMNLP 2014 Workshop on Analysis of Large Scale Social Interaction in MOOCs (pp. 55-59). Fei, M., & Yeung, D. Y. (2015). Temporal models for predicting student dropout in massive open online courses. IEEE International Conference on Data Mining Workshop (pp. 256-263). Hughes, A. (1994). Strategic database marketing. Chicago: Probus Publishing. Ivakhnenko, A. G. (1970). Heuristic Self-organization in Problems of Engineering Cybernetics. Avtomatika, 6(2), 207-219. Liang, J., Li, C., & Zheng, L. (2016). Machine learning application in MOOCs: Dropout prediction. International Conference on Computer Science & Education (pp. 52-58). 收稿日期:2019-04-10 定稿日期:2020-01-12 作者簡(jiǎn)介:魏玲,博士,教授,碩士生導(dǎo)師;郭新悅,碩士研究生。哈爾濱理工大學(xué)經(jīng)濟(jì)與管理學(xué)院(150040)。 責(zé)任編輯 張志禎 劉 莉