倪政林
在線學(xué)習(xí)環(huán)境下個(gè)性特征混合挖掘研究
倪政林
(馬鞍山職業(yè)技術(shù)學(xué)院 電子信息系,安徽 馬鞍山 243031)
:針對(duì)在線學(xué)習(xí)特征挖掘的全面性不足及智能化教育發(fā)展的需要,提出了一種混合式多智能技術(shù)挖掘方案。較全面分析與總結(jié)了個(gè)性特征的組成要素及各要素包含的主要因子。分別采取了關(guān)聯(lián)數(shù)據(jù)挖掘、Top-N聚類算法、聯(lián)合概率分布、K-均值聚類算法、協(xié)同過(guò)濾算法等技術(shù)對(duì)不同特點(diǎn)的要素進(jìn)行挖掘。實(shí)驗(yàn)及調(diào)查結(jié)果表明這種結(jié)合多要素運(yùn)用多技術(shù)進(jìn)行混合式特征挖掘具有較高的準(zhǔn)確性。
在線學(xué)習(xí);個(gè)性特征;數(shù)據(jù)挖掘
伴隨移動(dòng)互聯(lián)與5G技術(shù)的普及與應(yīng)用,以及應(yīng)對(duì)突發(fā)公共衛(wèi)生安全事件,近半年來(lái),線上教學(xué)受到了國(guó)內(nèi)外教育界廣泛的關(guān)注與大規(guī)模的運(yùn)用。在線教育的發(fā)展為人工智能與教育深度融合的理論與應(yīng)用研究提供了良好的契機(jī)和環(huán)境。智能化教育的研究課題有很多。其中,利用人工智能技術(shù)對(duì)在線學(xué)習(xí)個(gè)性特征進(jìn)行數(shù)據(jù)挖掘與科學(xué)評(píng)估的研究[1-4]是一個(gè)重要方向,具有較強(qiáng)的現(xiàn)實(shí)意義。一方面為教師下一步的教學(xué)安排與個(gè)性化指導(dǎo)提供重要參考,另一方面減少了因人為因素導(dǎo)致的偏見(jiàn),對(duì)教育的公平、公正具有重要意義,同時(shí)也減輕了教師的部分負(fù)擔(dān)。
在線學(xué)習(xí)環(huán)境下,個(gè)性特征的組成要素主要有學(xué)習(xí)資源的偏好、能力傾向、學(xué)習(xí)風(fēng)格、在線學(xué)習(xí)時(shí)間特點(diǎn)、學(xué)習(xí)效率等,各要素又包含了若干因子,具體如表1所示。各要素間具備一定的關(guān)聯(lián)關(guān)系。個(gè)性化的資源偏好與能力傾向間存在兩種聯(lián)系,一是正相關(guān)聯(lián)系,具備高度擬合的特點(diǎn),另一是不相關(guān)聯(lián)系,能力與偏好興趣相背離。資源偏好與能力傾向影響了學(xué)習(xí)風(fēng)格的形成。資源偏好影響了在線學(xué)習(xí)時(shí)間分布。學(xué)習(xí)效率受到資源偏好、能力傾向、學(xué)習(xí)風(fēng)格及學(xué)習(xí)時(shí)間綜合的影響。
表1 在線學(xué)習(xí)特征要素與主要組成因子
(1)考查因素。個(gè)體學(xué)習(xí)能力包含某一方面或多方面,同時(shí)能力的強(qiáng)弱也是相對(duì)而言。在線環(huán)境下,主要通過(guò)資源學(xué)習(xí)、所花費(fèi)的時(shí)間、測(cè)試內(nèi)容結(jié)果等對(duì)能力傾向特征進(jìn)行間接地挖掘與評(píng)估。能力傾向與學(xué)習(xí)資源類型、所用時(shí)間、測(cè)試內(nèi)容與結(jié)果間的聯(lián)系如表2所示,其中,1,2等分別為表1中直播、動(dòng)畫(huà)等組成因子;1,2等分別為表1中填空、選擇等組成因子。
表2 能力傾向與資源類型、學(xué)習(xí)時(shí)長(zhǎng)、測(cè)試內(nèi)容與結(jié)果間的聯(lián)系
(2)Top-N聚類挖掘算法。為了提高挖掘的效率和降低運(yùn)行成本,設(shè)定分組為注意力(1)、記憶力(2)等7個(gè)。能力傾向的Top-N算法描述如下:
第1步:建立原始數(shù)據(jù)集。通過(guò)公式(5)計(jì)算出第人在種資源的平均資源學(xué)習(xí)效率,形成原始數(shù)據(jù)集{(i, j, Ec)}。其中,取測(cè)試因子最大集元素個(gè)數(shù),為集合中的元素下標(biāo),如:1對(duì)應(yīng)的測(cè)試因子集為{1,2,3,4,7},5且1, 2, 3, 4, 7;其余見(jiàn)表2。
第2步:對(duì)第一步的結(jié)果集依據(jù)進(jìn)行分組和降序排序,每組取Top-10值,將相應(yīng)的值并入f對(duì)應(yīng)的E分組中(=1~7)。刪除{(,,Ec)}中所有包含值的三元組元素。
通過(guò)瀏覽頁(yè)面的順序和內(nèi)容對(duì)學(xué)生的學(xué)習(xí)風(fēng)格進(jìn)行挖掘。頁(yè)面瀏覽順序和資源內(nèi)容通過(guò)文獻(xiàn)[7]技術(shù)獲取,頁(yè)面瀏覽順序信息用于挖掘順序和全局型學(xué)習(xí)風(fēng)格,資源內(nèi)容用于挖掘直觀感覺(jué)、視覺(jué)、言語(yǔ)、反思型學(xué)習(xí)風(fēng)格。
(1)順序與全局。萃取頁(yè)面關(guān)鍵詞或主題詞[8],建立個(gè)體關(guān)鍵詞頻次集{(11), (2,2),…,(k,m},k為關(guān)鍵詞、m為其出現(xiàn)的次數(shù)。設(shè)關(guān)鍵詞集={1,2,…,k},子集?,聯(lián)合關(guān)鍵詞的概率()定義為式(6),其中,=(k1,k2,…)。若()的值隨著集合中元素的增加而呈高度擬合的線性上升,則為全局型風(fēng)格,否則為順序型風(fēng)格。
(2)直觀感覺(jué)、視覺(jué)、言語(yǔ)、反思。挖掘技術(shù)類似本節(jié)第1點(diǎn),依據(jù)表1中的資源偏好因子對(duì)瀏覽資源內(nèi)容進(jìn)行分類、匯總與統(tǒng)計(jì),建立資源因子頻次集{(1,1),(2,2),…,(12,12)},1,2等分別為表1中的直播、動(dòng)畫(huà)等資源因子。設(shè)資源因子集{1,2,…,12},子集?。不同于第1點(diǎn)的是聯(lián)合資源因子取值方式不同,聯(lián)合因子集及其概率()定義見(jiàn)表3所示,最高值對(duì)應(yīng)的類型即為挖掘的學(xué)習(xí)風(fēng)格類型。
表3 聯(lián)合因子集及概率P(X)定義
時(shí)間特點(diǎn)主要指挖掘?qū)W生在線自主學(xué)習(xí)時(shí)長(zhǎng)及分布狀況。
(1)在線學(xué)習(xí)時(shí)長(zhǎng)。通過(guò)正態(tài)分布函數(shù)公式(7)預(yù)測(cè)在線學(xué)習(xí)時(shí)長(zhǎng)特點(diǎn)。時(shí)長(zhǎng)主要有15min內(nèi),15~30min,30~45min,45~60min,60~90min,90min以上6種類型。
為了驗(yàn)證和評(píng)估各算法或方法在個(gè)性特征方面挖掘的效率,基于本校MOOC平臺(tái)數(shù)據(jù),開(kāi)展了仿真實(shí)驗(yàn)。收集了學(xué)生在線學(xué)習(xí)的后臺(tái)訪問(wèn)記錄135260條作為挖掘的原始數(shù)據(jù)集,其中包含了10個(gè)專業(yè)及300人,各專業(yè)人數(shù)與記錄個(gè)數(shù)分布具體見(jiàn)表4。啟動(dòng)模型系統(tǒng),線程數(shù)迅速增加,約20s左右達(dá)到峰值,之后逐漸回落,約10s后達(dá)到穩(wěn)定狀態(tài),線程數(shù)保持在70左右上下擺動(dòng),持續(xù)了1分左右,所有線程運(yùn)行結(jié)束,產(chǎn)生了個(gè)性特征數(shù)據(jù)300組,系統(tǒng)運(yùn)行狀態(tài)如圖1所示。
表4 專業(yè)人數(shù)及記錄數(shù)據(jù)分布
圖1 系統(tǒng)運(yùn)行狀態(tài)
為了進(jìn)一步驗(yàn)證數(shù)據(jù)記錄的數(shù)量對(duì)系統(tǒng)挖掘效率及穩(wěn)定性的影響,選取了1, 3, 7三個(gè)專業(yè),進(jìn)行了分組對(duì)比實(shí)驗(yàn),運(yùn)行狀態(tài)如圖2所示。圖2中,3個(gè)專業(yè)的達(dá)到峰值時(shí)間、進(jìn)入穩(wěn)定狀態(tài)時(shí)間基本一至,隨著記錄數(shù)據(jù)的增多峰值及穩(wěn)定狀態(tài)線程數(shù)量略有提升,三者的線型基本保持一至,系統(tǒng)挖掘性能較為穩(wěn)定。
圖2 專業(yè)1, 3, 7系統(tǒng)挖掘運(yùn)行狀態(tài)
為了評(píng)估挖掘的準(zhǔn)確性,開(kāi)展了問(wèn)卷調(diào)查。針對(duì)實(shí)驗(yàn)的300人,發(fā)放了個(gè)性特征5個(gè)要素預(yù)測(cè)結(jié)果的評(píng)價(jià)問(wèn)卷,在收回的問(wèn)卷中抽取出5個(gè)要素都有效的問(wèn)卷279份,經(jīng)過(guò)統(tǒng)計(jì)匯總,各項(xiàng)評(píng)價(jià)人數(shù)分布如表5所示。匯總各要素的不同準(zhǔn)確性并進(jìn)行均值計(jì)算,得到總體評(píng)價(jià):非常準(zhǔn)確、比較準(zhǔn)確、準(zhǔn)確、一般、不準(zhǔn)確分別占91.25%, 6.88%, 1.00%, 0.50%, 0.36%。針對(duì)評(píng)價(jià)為準(zhǔn)確、一般、不準(zhǔn)確的26人做了進(jìn)一步的電話專訪,總結(jié)其中的原因歸納為兩點(diǎn):一是線上學(xué)習(xí)的習(xí)慣不同于一般情況,從而導(dǎo)致了采集的數(shù)據(jù)中“噪音”較大;另一是數(shù)據(jù)挖掘前沒(méi)有對(duì)“異常數(shù)據(jù)”作處理。
表5 準(zhǔn)確性的評(píng)價(jià)結(jié)果
作為人工智能技術(shù)與教育深度融合的基礎(chǔ),對(duì)在線學(xué)習(xí)特征挖掘做了專項(xiàng)性研究。分別采取了關(guān)聯(lián)數(shù)據(jù)挖掘、Top-N聚類算法、聯(lián)合概率分布、K-均值聚類算法、協(xié)同過(guò)濾算法等技術(shù)對(duì)個(gè)性化資源偏好、能力傾向、學(xué)習(xí)風(fēng)格、在線時(shí)間特點(diǎn)及學(xué)習(xí)效率五個(gè)方面進(jìn)行挖掘。
從實(shí)驗(yàn)及問(wèn)卷調(diào)查結(jié)果看出,采用多智能技術(shù)對(duì)在線學(xué)習(xí)特征進(jìn)行多方面混合挖掘,具有較高的準(zhǔn)確性和運(yùn)行效率、較強(qiáng)的實(shí)際應(yīng)用價(jià)值、個(gè)性評(píng)價(jià)的客觀公正性及全面性。本課題為智能化教育的進(jìn)一步研究提供基礎(chǔ),也為其它領(lǐng)域相關(guān)研究提供參考。
對(duì)實(shí)驗(yàn)結(jié)果與調(diào)查中發(fā)現(xiàn)的原始數(shù)據(jù)“噪音”問(wèn)題的解決,將是下一步要研究的內(nèi)容。
[1] 劉曉,飛朱斐,伏玉琛,等. 基于用戶偏好特征挖掘的個(gè)性化推薦算法[J]. 計(jì)算機(jī)科學(xué),2020, 47(04): 50-53
[2] 王改花,傅鋼善. 數(shù)據(jù)挖掘視角下網(wǎng)絡(luò)學(xué)習(xí)者行為特征聚類分析[J]. 現(xiàn)代遠(yuǎn)程教育研究,2018(04): 106-112
[3] 謝康. 基于讀者個(gè)性化特征數(shù)據(jù)挖掘的圖書(shū)館書(shū)目推薦[J]. 現(xiàn)代電子技術(shù),2018(41): 34-36
[4] 程艷,解建華,譚平飛,等. 面向虛擬學(xué)習(xí)社區(qū)的學(xué)習(xí)行為特征挖掘與分組方法的研究[J]. 江西師范大學(xué)學(xué)報(bào):自然科學(xué)版,2016(06): 640-643, 647
[5] 劉儒德. 學(xué)習(xí)心理學(xué)[M]. 北京:高等教育出版社,2010
[6] Graf S, Viola S R, Leo T, et al. In-depth analysis of the felder-silverman learning style dimensions[J]. Journal of Research on Technology in Education, 2007, 40(1): 79-93
[7] 袁紅,張海潮. 基于搜索時(shí)間序列聚類的網(wǎng)絡(luò)用戶搜索策略識(shí)別[J]. 圖書(shū)情報(bào)工作,2016, 60(20): 94-103
[8] 李芳芳,葛斌,毛星亮,等. 基于語(yǔ)義關(guān)聯(lián)的中文網(wǎng)頁(yè)主題詞提取方法研究[J]. 計(jì)算機(jī)應(yīng)用研究,2011, 28(1): 105-107, 123
Research on hybrid mining of personality characteristics in online learning environment
NI Zheng-lin
(Department of Electronic Information, Ma'anshan Technical College, Anhui Ma'anshan 243031, China)
Aiming at the lack of comprehensiveness of online learning feature mining and the need for the development of intelligent education, a hybrid multi-intelligence technology mining scheme is proposed. A more comprehensive analysis and summary of the constituent elements of personality characteristics and the main factors contained in each element. Respectively adopt associated data mining, Top-N clustering algorithm, joint probability distribution, K-means clustering algorithm, collaborative filtering algorithm and other technologies to mine elements with different characteristics. Experiments and survey results show that this combination of multiple elements and multiple technologies for hybrid feature mining has high accuracy.
online learning;individual characteristics;data mining
2020-08-03
安徽省高校自然科學(xué)研究重點(diǎn)項(xiàng)目(KJ2018A0948);安徽省質(zhì)量工程高水平教學(xué)團(tuán)隊(duì)項(xiàng)目(2018jxtd101)
倪政林(1969-),男,安徽和縣人,副教授,碩士,主要從事數(shù)據(jù)挖掘、模式識(shí)別、教育信息化研究,945784143@qq.com。
TP311.13;G434
A
1007-984X(2021)01-0016-05