文/朱靜怡(安徽商貿(mào)職業(yè)技術(shù)學(xué)院信息與人工智能學(xué)院)
隨著計(jì)算機(jī)的快速發(fā)展,我們已經(jīng)從云計(jì)算和大數(shù)據(jù)時(shí)代發(fā)展到人工智能時(shí)代。碎片化學(xué)習(xí)、移動(dòng)學(xué)習(xí)和線上學(xué)習(xí)越來(lái)越流行,線上平臺(tái)發(fā)展達(dá)到前所未有的高度,人們?cè)谝苿?dòng)學(xué)習(xí)和在線學(xué)習(xí)環(huán)境中,不僅使用線上平臺(tái)中的資源,同時(shí)也創(chuàng)造和共享了大量的數(shù)字化資源,產(chǎn)生了大量的以資源為中心的行為數(shù)據(jù)。如何根據(jù)用戶的需求,為用戶提供精準(zhǔn)的數(shù)字化資源服務(wù),已經(jīng)成為學(xué)者們關(guān)注的前沿和熱點(diǎn)。隨著各地在線學(xué)習(xí)平臺(tái)的快速發(fā)展和應(yīng)用,參加線上學(xué)習(xí)的人數(shù)逐年增多,但是線上學(xué)習(xí)流失率高、效果不佳的問(wèn)題越來(lái)越突出。于是,如何為在線用戶提供其當(dāng)前需求最迫切的數(shù)字化資源服務(wù),成為當(dāng)前研究的重點(diǎn)方向。本文通過(guò)學(xué)習(xí)和借鑒前人研究的經(jīng)驗(yàn),并通過(guò)分析和深入挖掘線上平臺(tái)資源的特征及線上用戶的行為屬性信息和資源結(jié)果屬性等數(shù)據(jù)信息,提出了一種資源畫(huà)像和用戶畫(huà)像構(gòu)建方法,并研究了兩者之間的關(guān)聯(lián),為在線用戶提供個(gè)性化資源推薦,為在線平臺(tái)數(shù)字化資源信息建設(shè)的研究與應(yīng)用提供一種新的思路和嘗試。
隨著信息技術(shù)的不斷發(fā)展和大數(shù)據(jù)、人工智能的興起,用戶畫(huà)像逐漸成為人們研究的熱點(diǎn),并取得了一定的研究成果。黎小林等[1]通過(guò)在線平臺(tái)推送用戶畫(huà)像增加用戶對(duì)于平臺(tái)品牌的依戀感;崔春生等[2]在用戶畫(huà)像的基礎(chǔ)上,引入用戶的情景信息,達(dá)到高質(zhì)量個(gè)性化地推薦旅游產(chǎn)品的目的;陳丹等[3]從知識(shí)服務(wù)、閱讀推廣、場(chǎng)景推薦、主動(dòng)定制等方面構(gòu)建用戶畫(huà)像,為用戶提供個(gè)性化的智慧服務(wù);董寧[4]通過(guò)繪制群組用戶畫(huà)像,提高了圖書(shū)館精準(zhǔn)服務(wù)體系;張羽萍[5]從標(biāo)簽的類型出發(fā),構(gòu)建用戶和資源的標(biāo)簽系統(tǒng),從而實(shí)現(xiàn)畫(huà)像的精準(zhǔn)定位;余文輝等[6]通過(guò)電力大數(shù)據(jù)構(gòu)建客戶立體畫(huà)像,實(shí)現(xiàn)對(duì)電力企業(yè)客戶細(xì)分,提高了電能利用率及服務(wù)質(zhì)量;高揚(yáng)等[7]從基本屬性、研究興趣、學(xué)術(shù)影響力三個(gè)維度構(gòu)建智能制造領(lǐng)域杰出人才用戶畫(huà)像,展示了該領(lǐng)域人才的顯著特征,為人才管理部門和產(chǎn)業(yè)布局提供了決策支持。
通過(guò)對(duì)相關(guān)文獻(xiàn)的梳理可以看出,目前用戶畫(huà)像研究主要在電子商務(wù)、營(yíng)銷學(xué)、圖書(shū)館學(xué)、教育學(xué)等領(lǐng)域,大多針對(duì)用戶進(jìn)行畫(huà)像,對(duì)于資源畫(huà)像的研究較少,因此,筆者嘗試在吸收和借鑒前人經(jīng)驗(yàn)和結(jié)果的基礎(chǔ)上,通過(guò)抓取在線平臺(tái)學(xué)習(xí)日志和線上學(xué)習(xí)資源,分析資源特征和學(xué)習(xí)者行為屬性特征,提出一種構(gòu)建資源畫(huà)像的方法,為數(shù)字化資源建設(shè)和資源推送提供參考,為該領(lǐng)域的相關(guān)研究提供理論支撐。
資源畫(huà)像就是對(duì)資源信息的標(biāo)簽化。首先構(gòu)建資源畫(huà)像需要建立資源畫(huà)像標(biāo)準(zhǔn)標(biāo)簽體系,全方位、多層次抽象出資源的基本屬性。而建立資源畫(huà)像標(biāo)簽體系,需要采集和處理數(shù)據(jù)。由于數(shù)據(jù)的存儲(chǔ)方式不同,采集數(shù)據(jù)大致分為兩種方法:一是人工手動(dòng)歸納并標(biāo)注資源的標(biāo)簽,二是使用人工智能算法進(jìn)行半人工方式提取。標(biāo)簽體系是否完善,決定了資源畫(huà)像構(gòu)建是否精準(zhǔn)。每一個(gè)標(biāo)簽都反映了具體資源的具體特征,且該標(biāo)簽具有一定的群體性。從原始數(shù)據(jù)采集、處理到生成標(biāo)簽,然后通過(guò)計(jì)算機(jī)對(duì)采集到的數(shù)據(jù)進(jìn)行篩選和預(yù)處理,最后通過(guò)聚類算法、機(jī)器學(xué)習(xí)對(duì)資源特征進(jìn)行分類。
(1)基于資源基本屬性的分析:本文從三個(gè)維度分析資源的基本屬性,分別是資源的歸屬學(xué)科類別,如工科、理科、文科、藝術(shù)、經(jīng)濟(jì)學(xué)等12 個(gè)大類;資源的呈現(xiàn)形式,如視頻、音頻及PPT、圖片、文本形式等;資源的知識(shí)類型,如通過(guò)陳述性知識(shí)描述資源信息的具體事實(shí)和現(xiàn)象,或者通過(guò)程序性知識(shí)描述利用技能、算法等解決實(shí)際問(wèn)題的方法。
(2)基于行為屬性的分析:基于行為屬性的分析計(jì)算,需要在大量的用戶登錄平臺(tái)使用資料的基礎(chǔ)上進(jìn)行計(jì)算,如果平臺(tái)用戶較少,計(jì)算分析結(jié)果將會(huì)出現(xiàn)偏差,隨著SPOC 平臺(tái)的廣泛應(yīng)用,平臺(tái)后臺(tái)產(chǎn)生了大量的用戶行為數(shù)據(jù),因此,基于行為屬性的資源價(jià)值分析計(jì)算就變得很有意義。分析的維度越多,準(zhǔn)確度越高。
因此,資源畫(huà)像的標(biāo)簽體系大致分2 個(gè)層級(jí),分別為資源的基本屬性和行為屬性(表1)。
表1 資源畫(huà)像的標(biāo)簽體系
構(gòu)建在線用戶畫(huà)像的前提是構(gòu)建用戶畫(huà)像標(biāo)簽體系,即對(duì)在線用戶相關(guān)信息進(jìn)行標(biāo)簽化,建立在線用戶標(biāo)準(zhǔn)標(biāo)簽體系,從而立體地、全面地描述用戶畫(huà)像的基本內(nèi)容。首先是采集和處理在線用戶數(shù)據(jù),由于在線學(xué)習(xí)用戶和普通用戶不同,采集數(shù)據(jù)時(shí)可以通過(guò)機(jī)器算法進(jìn)行數(shù)據(jù)采集,然后基于半人工方式標(biāo)注用戶標(biāo)簽。在線用戶畫(huà)像構(gòu)建是否精準(zhǔn),取決于標(biāo)簽指標(biāo)體系是否完善。用戶特征是通過(guò)具體單個(gè)標(biāo)簽來(lái)體現(xiàn)的。因此,每一個(gè)標(biāo)簽都要具有一定的群體性,能夠體現(xiàn)出事物的某一個(gè)特征和屬性。標(biāo)簽可以是數(shù)字,也可以是字符或者漢字等,從采集、處理、生成業(yè)務(wù)標(biāo)簽到通過(guò)機(jī)器算法對(duì)標(biāo)簽進(jìn)行分類,都可以通過(guò)計(jì)算機(jī)來(lái)完成。
在線用戶標(biāo)簽體系可以通過(guò)在線用戶行為特征和用戶需求屬性進(jìn)行劃分。用戶行為特征主要包含用戶賬號(hào)、評(píng)分、評(píng)論和分享等,需求屬性主要包括資源創(chuàng)建人、資源類型、資源時(shí)長(zhǎng)、資源評(píng)分等。
(1)資源畫(huà)像的設(shè)計(jì)。資源畫(huà)像的設(shè)計(jì)主要就是對(duì)資源標(biāo)簽化。本文從兩個(gè)維度實(shí)現(xiàn)資源標(biāo)簽化,一個(gè)是資源本身的基本屬性,另外一個(gè)是資源的行為屬性。本文從這兩個(gè)維度抽象資源模型構(gòu)建資源畫(huà)像。資源的原始特征可以通過(guò)資源畫(huà)像最大化地體現(xiàn)出來(lái),為個(gè)性化資源推薦提供了數(shù)據(jù)支持。如圖1 所示。
圖1 資源畫(huà)像
(2)用戶畫(huà)像的設(shè)計(jì)。在線學(xué)習(xí)用戶畫(huà)像是對(duì)用戶的形式化描述。可以通過(guò)用戶的行為特征屬性和用戶需求特征屬性兩個(gè)維度對(duì)用戶進(jìn)行形式化描述。通過(guò)易詞云軟件對(duì)用戶進(jìn)行畫(huà)像,字體越大表示該標(biāo)簽越重要,在標(biāo)簽體系中占據(jù)的地位越重要。同理,字體越小表示該標(biāo)簽處于非核心地位,在整個(gè)標(biāo)簽體系中作用較小。
隨著計(jì)算機(jī)人工智能的迅猛發(fā)展,社會(huì)化標(biāo)簽系統(tǒng)因操作簡(jiǎn)單、快捷等優(yōu)點(diǎn),成為越來(lái)越深受喜愛(ài)的標(biāo)簽推薦系統(tǒng)。本文采用社會(huì)化標(biāo)簽系統(tǒng)構(gòu)建用戶畫(huà)像與資源畫(huà)像之間的映射關(guān)系,以便于給用戶推薦當(dāng)前最需要的資源。社會(huì)化標(biāo)簽系統(tǒng)既可以推薦標(biāo)簽給用戶,又可以生成大量含有價(jià)值的數(shù)據(jù),從而形成了3種不同類型的集合,構(gòu)成“用戶—資源—標(biāo)簽”三維模型。在該模型中,數(shù)據(jù)之間通常遵循著F={用戶、資源,標(biāo)簽1,標(biāo)簽2……標(biāo)簽n},n 代表向用戶分配給不同資源的標(biāo)簽的數(shù)量。用戶與資源組成一組矩陣,資源與標(biāo)簽組成一組矩陣,用戶與標(biāo)簽組成一組矩陣。在具體某一組矩陣中,如果用戶選擇了某一個(gè)資源,則給該資源賦值1,否則對(duì)該資源賦值0,同理,類推其他矩陣。本文借助社會(huì)化標(biāo)簽系統(tǒng)模型構(gòu)建資源畫(huà)像與用戶畫(huà)像之間的關(guān)系,如圖2 所示。
圖2 資源畫(huà)像與用戶畫(huà)像的關(guān)系
利用關(guān)聯(lián)規(guī)則、聚類分析、神經(jīng)網(wǎng)絡(luò)算法等計(jì)算用戶集M={行為屬性,個(gè)性化需求屬性}、資源集V={基本屬性,行為屬性}的自定義標(biāo)簽和標(biāo)簽集T={行為、需求、特征、內(nèi)容}的核心標(biāo)簽的相似度,將自定義標(biāo)簽聚集到相關(guān)度最大的聚類中心的所屬類中。直到用戶集和資源集中的自定義標(biāo)簽和標(biāo)簽集中的核心標(biāo)簽的相關(guān)度均小于閾值時(shí),停止聚類。將剩下的標(biāo)簽再相互進(jìn)行聚類分析,并加入到標(biāo)簽庫(kù)中,重新計(jì)算自定義標(biāo)簽和標(biāo)準(zhǔn)庫(kù)標(biāo)簽的相似度,得到新的標(biāo)準(zhǔn)聚類。從而實(shí)現(xiàn)用戶畫(huà)像與資源畫(huà)像之間的關(guān)聯(lián)。
基于學(xué)習(xí)者的資源推薦模型就是利用用戶畫(huà)像和資源畫(huà)像之間的關(guān)聯(lián),通過(guò)用戶畫(huà)像實(shí)現(xiàn)了對(duì)在線用戶群體的分類,將具有相同需求的在線用戶群體通過(guò)整合的形式劃分為同一類。資源主要是各種學(xué)習(xí)平臺(tái)以數(shù)字化形式呈現(xiàn)信息集合,包括視頻、音頻、文本、PPT、評(píng)論等,通過(guò)資源畫(huà)像將這些資源整合起來(lái)。通過(guò)兩者之間的關(guān)聯(lián)實(shí)現(xiàn)對(duì)用戶進(jìn)行個(gè)性化資源推薦和群體推薦服務(wù)。
(1)實(shí)驗(yàn)數(shù)據(jù)。實(shí)驗(yàn)數(shù)據(jù)來(lái)源于筆者的智慧課堂教學(xué)平臺(tái),主要是2019 年以來(lái)的在線學(xué)生數(shù)據(jù)和資源數(shù)據(jù)。在線學(xué)生數(shù)據(jù)文件主要包括學(xué)生基本屬性,如姓名、學(xué)號(hào)、專業(yè)、性別、二級(jí)學(xué)院等,以及學(xué)生行為屬性,如學(xué)生觀看時(shí)長(zhǎng)、登錄次數(shù)等;資源數(shù)據(jù)文件主要包括資源的ID 號(hào)、資源類型、資源熱度、資源觀看次數(shù)、資源評(píng)分、資源分享、學(xué)習(xí)達(dá)標(biāo)度等相關(guān)信息。經(jīng)過(guò)對(duì)原始數(shù)據(jù)的篩選、加工和處理,共計(jì)有數(shù)據(jù)413267 條、學(xué)生12127 名、學(xué)習(xí)資源24976 個(gè),用戶的評(píng)論數(shù)據(jù)為848812 條。然后對(duì)這些數(shù)據(jù)進(jìn)行歸類和統(tǒng)計(jì)分析。
(2)實(shí)驗(yàn)步驟。采用基于用戶畫(huà)像和資源畫(huà)像的矩陣分解模型進(jìn)行特征提取和優(yōu)化,將資源特征、資源基本屬性、資源健康度、資源熱度、學(xué)習(xí)達(dá)標(biāo)度等進(jìn)行拼接得到資源的特征向量。然后根據(jù)資源與學(xué)習(xí)者的交互特征進(jìn)行建模,最后根據(jù)模型再對(duì)學(xué)習(xí)者的學(xué)習(xí)偏好進(jìn)行預(yù)測(cè)計(jì)算,將學(xué)習(xí)者最感興趣的N 個(gè)資源推薦給學(xué)習(xí)者。
(3)評(píng)價(jià)結(jié)果。本研究通過(guò)訪談法和問(wèn)卷調(diào)查形式對(duì)學(xué)習(xí)資源推薦效果進(jìn)行評(píng)價(jià)。首先調(diào)查使用安徽大學(xué)智慧課堂的相關(guān)學(xué)生,大部分學(xué)生認(rèn)為該模型推薦的資源是自己當(dāng)前最感興趣的資源,能夠清晰地呈現(xiàn)學(xué)習(xí)資源的大部分特征,如資源熱度、資源健康度及學(xué)習(xí)達(dá)標(biāo)度等,方便了選擇相關(guān)課程和資源進(jìn)行學(xué)習(xí),節(jié)約了時(shí)間。其次隨機(jī)選取100 位參與智慧課堂在線學(xué)習(xí)的學(xué)生進(jìn)行問(wèn)卷調(diào)查,通過(guò)調(diào)查發(fā)現(xiàn),該資源畫(huà)像推薦模型推薦的資源能夠讓學(xué)生實(shí)時(shí)掌握自己的學(xué)習(xí)狀態(tài)和學(xué)習(xí)行為,并及時(shí)調(diào)整個(gè)人學(xué)習(xí)資源從而達(dá)到更好的學(xué)習(xí)效果。
傳統(tǒng)的在線學(xué)習(xí)平臺(tái),主要關(guān)注在線用戶的畫(huà)像研究,對(duì)在線資源畫(huà)像研究不夠,很多時(shí)候推薦的在線資源并非用戶需求的資源,造成在線學(xué)習(xí)者流失率高、在線學(xué)習(xí)效率低下等現(xiàn)象。線上學(xué)習(xí)不同于傳統(tǒng)的線下教學(xué)模式,線上資源魚(yú)龍混雜,誘惑較多。因此,根據(jù)資源畫(huà)像和用戶畫(huà)像的關(guān)聯(lián),可以實(shí)時(shí)了解在線用戶的學(xué)習(xí)進(jìn)度和學(xué)習(xí)情況,進(jìn)而實(shí)時(shí)地推薦給用戶當(dāng)前最需要的資源供用戶學(xué)習(xí),從而提高學(xué)習(xí)效率,減少在線用戶流失率。
通過(guò)在線用戶文件和在線資源文件構(gòu)建用戶畫(huà)像和資源畫(huà)像,然后對(duì)在線資源評(píng)價(jià)和達(dá)標(biāo)率進(jìn)行分析,整合成在線用戶學(xué)習(xí)發(fā)展報(bào)告,可以為教育管理者了解學(xué)生學(xué)習(xí)情況和在線資源建設(shè)情況提供決策支持,為教師建設(shè)線上資源提供參考,進(jìn)而實(shí)時(shí)調(diào)整線上授課資源和內(nèi)容,同時(shí)可以為線上用戶進(jìn)行差異化教學(xué)和過(guò)程性評(píng)價(jià)。因此,學(xué)??梢詫?duì)部分線上用戶進(jìn)行預(yù)警和針對(duì)性干預(yù)。
本文研究了資源畫(huà)像構(gòu)建的可行性和流程,并根據(jù)資源屬性和在線學(xué)習(xí)者行為構(gòu)建資源推薦模型,最后對(duì)推薦模型進(jìn)行驗(yàn)證,取得了一定的效果。以期在教育信息化2.0 時(shí)代,為在線學(xué)習(xí)者提供個(gè)性化資源推薦,為在線學(xué)習(xí)者提供更好的服務(wù)。也希望有更多的學(xué)者來(lái)研究資源畫(huà)像在教育領(lǐng)域中的應(yīng)用,以應(yīng)對(duì)教育信息化帶來(lái)的挑戰(zhàn)。[本文系安徽省課程思政示范課程 “計(jì)算機(jī)應(yīng)用基礎(chǔ)”(項(xiàng)目編號(hào):2020szsfkc0367)和安徽商貿(mào)職業(yè)技術(shù)學(xué)院自然科學(xué)重點(diǎn)項(xiàng)目“多源異構(gòu)數(shù)據(jù)融合的網(wǎng)絡(luò)安全態(tài)勢(shì)評(píng)估研究” (項(xiàng)編號(hào):2022KZZ01)的研究成果。 ]