• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)視角下學(xué)習(xí)者選課之推薦模型*

      2019-06-19 06:20:16
      關(guān)鍵詞:余弦數(shù)據(jù)挖掘建模

      (陜西廣播電視大學(xué) 計(jì)劃財(cái)務(wù)處,陜西 西安 710119)

      開(kāi)放教育選課是其人才培養(yǎng)模式的重要內(nèi)容,是依據(jù)專(zhuān)業(yè)特點(diǎn)和培養(yǎng)目標(biāo),結(jié)合學(xué)習(xí)者的時(shí)間、空間、興趣和知識(shí)面開(kāi)展的,用以保證學(xué)習(xí)者自主學(xué)習(xí)和個(gè)性化發(fā)展,而實(shí)施的內(nèi)容。這一實(shí)施過(guò)程,在激發(fā)學(xué)習(xí)者學(xué)習(xí)興趣、開(kāi)闊專(zhuān)業(yè)視野、提高文化素質(zhì)、培養(yǎng)創(chuàng)新能力等方面具有不可替代的作用, 是實(shí)現(xiàn)“寬口徑、重能力、強(qiáng)素質(zhì)” 人才培養(yǎng)模式的有效途徑。

      一、選課推薦

      1.大數(shù)據(jù)的概念

      大數(shù)據(jù)是近年來(lái)在信息化應(yīng)用中的核心焦點(diǎn),由于其發(fā)展迅速,在定義、特征等方面尚未形成公認(rèn)的、統(tǒng)一的標(biāo)準(zhǔn)。大數(shù)據(jù)一般是指數(shù)據(jù)量巨大,不易用常規(guī)方法和傳統(tǒng)軟件處理分析的數(shù)據(jù)。 對(duì)于其特征的認(rèn)識(shí)從最初的“3 V”發(fā)展到“4 V”,再到最新的“5 V”, 即數(shù)據(jù)量( volume)巨大、數(shù)據(jù)類(lèi)型( variety)眾多、處理速度( velocity)快、價(jià)值( value)密度低、真實(shí)性( veracity)強(qiáng)。教育領(lǐng)域的大數(shù)據(jù)廣義上指的是在教育教學(xué)活動(dòng)中所有參與者的行為數(shù)據(jù),最主要是學(xué)習(xí)者。為了保證采樣數(shù)據(jù)對(duì)母體的完備性,一般要求學(xué)習(xí)者的采樣數(shù)量大于2000人,這些數(shù)據(jù)除了具有大數(shù)據(jù)的共性以外,還具有情境性、層次性和時(shí)效性,數(shù)據(jù)采樣主要來(lái)源于各類(lèi)遠(yuǎn)程學(xué)習(xí)平臺(tái)、考試平臺(tái)、教學(xué)管理系統(tǒng)、圖書(shū)館管理系統(tǒng)、一卡通平臺(tái)、財(cái)務(wù)管理系統(tǒng)。

      大數(shù)據(jù)不僅意味著數(shù)據(jù)量的巨大,同時(shí)更主要的是其利用數(shù)據(jù)的視角發(fā)生變化,其數(shù)據(jù)分析對(duì)象,趨向于數(shù)據(jù)母體而非抽樣數(shù)據(jù),重視個(gè)體數(shù)據(jù)間的相關(guān)性而非因果性,特別是當(dāng)效率與精確性產(chǎn)生沖突時(shí),可以犧牲一定的精確性,強(qiáng)調(diào)以數(shù)據(jù)分析為本,以數(shù)據(jù)分析結(jié)果驅(qū)動(dòng)決策。

      2.選課推薦

      大數(shù)據(jù)的應(yīng)用使推薦過(guò)程更加科學(xué),其核心在于各要素相關(guān)性數(shù)據(jù)挖掘模型的建立。數(shù)據(jù)挖掘建模過(guò)程是著眼于解決推薦應(yīng)用的過(guò)程,源于應(yīng)用需求,終于應(yīng)用實(shí)踐。盡管用數(shù)據(jù)挖掘技術(shù)建立仿真模解決的問(wèn)題各有不同,但從整個(gè)的應(yīng)用流程上來(lái)看,其操作內(nèi)容具有計(jì)劃性、規(guī)范性、可用性。 其中,CRISPDM方法是目前世界上公認(rèn)的數(shù)據(jù)挖掘建模的核心方法。

      (1)教學(xué)理解階段。在這一階段通常從學(xué)習(xí)者的視角設(shè)計(jì)建模的要求和目標(biāo),并將這些目標(biāo)與大數(shù)據(jù)挖掘建模的定義相結(jié)合。

      (2)數(shù)據(jù)解讀階段。數(shù)據(jù)解讀階段的主要內(nèi)容有:數(shù)據(jù)的樣本采集;數(shù)據(jù)的初始化;研判數(shù)據(jù)屬性;分析數(shù)據(jù)特征;數(shù)據(jù)特征統(tǒng)計(jì);數(shù)據(jù)質(zhì)量審核;數(shù)據(jù)補(bǔ)遺。

      (3)數(shù)據(jù)準(zhǔn)備階段。數(shù)據(jù)準(zhǔn)備階段涵蓋了從原始數(shù)據(jù)集構(gòu)建最終數(shù)據(jù)集(將作為建模工具的分析對(duì)象)的全部工作。數(shù)據(jù)準(zhǔn)備工作將被重復(fù)多次,而且其實(shí)施順序是無(wú)序的。

      (4)數(shù)據(jù)整理。以挖掘目標(biāo)為基準(zhǔn)初步分析數(shù)據(jù)樣本與其的相關(guān)性和可用性,遴選作為模型輸入數(shù)據(jù)的數(shù)據(jù)子集,并進(jìn)一步對(duì)這些數(shù)據(jù)樣本進(jìn)行清理轉(zhuǎn)換,構(gòu)造衍生變量,并根據(jù)模型的需求,格式化數(shù)據(jù)。

      (5)建模。在這一階段,研判相關(guān)的建模方法,通過(guò)構(gòu)建、評(píng)估模型,對(duì)模型參數(shù)進(jìn)行校準(zhǔn)。

      (6)評(píng)估。以數(shù)據(jù)分析的視角對(duì)數(shù)據(jù)進(jìn)行審讀,在這一階段中,我們已經(jīng)構(gòu)建了一個(gè)或多個(gè)高質(zhì)量的應(yīng)用仿真模型。

      (7)部署。即將模型輸出的結(jié)果轉(zhuǎn)換為可閱讀的文本形式。

      二、基于學(xué)習(xí)者的協(xié)同過(guò)濾推薦

      基于學(xué)習(xí)者的協(xié)同過(guò)濾推薦模型的原理為,以所有學(xué)習(xí)者對(duì)課程興趣的偏好為基礎(chǔ),挖掘與服務(wù)對(duì)象偏好相似的“鄰居”學(xué)習(xí)者群,一般使用計(jì)算“ K-鄰居”的算法完成;然后,基于這個(gè)“鄰居”學(xué)習(xí)者群的歷史偏好數(shù)據(jù),為服務(wù)對(duì)象進(jìn)行推薦。下圖給出了原理圖。

      設(shè)學(xué)習(xí)者 A喜歡 A課程, C課程,學(xué)習(xí)者 B喜歡 B課程,學(xué)習(xí)者 C喜歡 A課程, C課程和 D課程;從這些學(xué)習(xí)者的喜好信息中,我們發(fā)現(xiàn)學(xué)習(xí)者 A和學(xué)習(xí)者 C的喜好是比較類(lèi)似的,同時(shí)學(xué)習(xí)者 C還喜歡 D課程,那么我們可以推斷學(xué)習(xí)者 A可能也喜歡 D課程,因此可以將 D課程推薦給學(xué)習(xí)者 A。

      基于學(xué)習(xí)者的協(xié)同過(guò)濾推薦機(jī)制和基于人口統(tǒng)計(jì)學(xué)的推薦機(jī)制都是計(jì)算學(xué)習(xí)者的相似度,都是以學(xué)習(xí)者的“鄰近”群體樣本計(jì)算推薦的,但它們的核心區(qū)別是如何計(jì)算學(xué)習(xí)者的相似度,基于人口統(tǒng)計(jì)學(xué)處理機(jī)制只注重學(xué)習(xí)者本身的特征,而基于學(xué)習(xí)者的協(xié)同過(guò)濾處理機(jī)制是在學(xué)習(xí)者歷史偏好數(shù)據(jù)的基礎(chǔ)上進(jìn)行學(xué)習(xí)者相似度計(jì)算的,它的關(guān)鍵假設(shè)是,喜歡類(lèi)似課程的學(xué)習(xí)者可能有相同或者相似的喜好。

      (一) 基于學(xué)習(xí)者(Learner-based)的協(xié)同過(guò)濾推薦算法

      基于學(xué)習(xí)者的協(xié)同過(guò)濾推薦算法在同類(lèi)算法中出現(xiàn)的最早,其原理較為簡(jiǎn)單。這一算法于1992年首次提出并用于電子郵件過(guò)濾系統(tǒng),在1994年被GroupLens引入到新聞過(guò)濾中。一直到近年,這一算法還是推薦系統(tǒng)領(lǐng)域中的核心的算法。

      當(dāng)學(xué)習(xí)者 A需要一個(gè)關(guān)于他的推薦時(shí),可以在他的朋友中找到和他興趣相似的學(xué)習(xí)者集合G,然后將集合G中元素課程屬性 A沒(méi)有的課程推薦給 A, 這就是基于學(xué)習(xí)者的系統(tǒng)過(guò)濾算法。

      算法基于兩點(diǎn)構(gòu)成:其一,過(guò)濾出與目標(biāo)學(xué)習(xí)者興趣相似的學(xué)習(xí)者集合;其二,找到這個(gè)集合中學(xué)習(xí)者喜歡的、而目標(biāo)學(xué)習(xí)者沒(méi)接觸過(guò)的課程推薦給目標(biāo)學(xué)習(xí)者。

      1. 發(fā)現(xiàn)興趣相似的學(xué)習(xí)者

      一般我們用Jaccard公式或者余弦相似度計(jì)算兩個(gè)學(xué)習(xí)者之間的相似程度度。設(shè) N(u) 為學(xué)習(xí)者 u 喜歡的課程集合,N(v) 為學(xué)習(xí)者 v 喜歡的課程集合,則 u 和 v 的相似度為:

      Jaccard公式:

      wuv表示學(xué)習(xí)者 u 與 v 之間的興趣相似度,N(u)為學(xué)習(xí)者 u 曾經(jīng)喜歡過(guò)的課程集合, N(v) 為學(xué)習(xí)者v 曾經(jīng)喜歡過(guò)的課程集合。

      余弦相似度:

      兩個(gè)向量間的余弦值可以可以通過(guò)下式得到:

      a·b=‖a‖ ‖b‖cosθ

      A 和B的余弦相似性θ用向量?jī)?nèi)積形式來(lái)表示其大小:

      cos(θ)的值域?yàn)閇-1,1];cos(θ)取值為 -1表示兩個(gè)向量互為反方向,cos(θ)取值為1表示它們是同向的,cos(θ)取值為0表明它們之間是獨(dú)立的,而值域中的其他值,則表示相似性的強(qiáng)弱或相異性的強(qiáng)弱。 對(duì)于文本匹配而言,文本屬性向量A 和B 一般是指文本中的詞匯出現(xiàn)頻率。余弦相似性,可以被看成是一個(gè)比較文件長(zhǎng)度的范式。 顯然在數(shù)據(jù)檢索時(shí),一個(gè)詞的頻率不能為負(fù)數(shù),所以文本的余弦相似性取值區(qū)間應(yīng)該為[0,1]。且詞頻向量間夾角不能大于90°。

      設(shè)有4名學(xué)習(xí)者,分別為: A、B、C、D;他們感興趣的課程,有5門(mén)課程:K1、K2、K3、K4、K5。

      根據(jù)以上所設(shè),建立興趣相關(guān)矩陣:

      這里

      注意,該矩陣僅代表的是similarity的分子部分。下面我們進(jìn)一步求出該問(wèn)題的余弦相似度:

      至此,計(jì)算學(xué)習(xí)者相似度就大功告成,可以很直觀的找到與目標(biāo)學(xué)習(xí)者興趣較相似的學(xué)習(xí)者。

      2. 推薦課程

      我們從矩陣中選出與目標(biāo)學(xué)習(xí)者 u興趣最相似的 K個(gè)學(xué)習(xí)者,用集合 S{ u,K}表示,然后,將 S中學(xué)習(xí)者喜歡的課程全部提取出來(lái),并且除去 u已經(jīng)喜歡的課程。對(duì)于每個(gè)候選課程i,學(xué)習(xí)者 u 對(duì)它感興趣的程度可用下式計(jì)算:

      其中rvi表示學(xué)習(xí)者 v 對(duì)i的喜歡程度,在本例中全部設(shè)為 1,在一些需要學(xué)習(xí)者進(jìn)行評(píng)分的推薦系統(tǒng)中,則要用學(xué)習(xí)者評(píng)分進(jìn)行替換。

      例如,我們要給學(xué)習(xí)者 A 推薦課程,設(shè) K = 3 表示3個(gè)相似學(xué)習(xí)者,則這些學(xué)習(xí)者為:B、C、D,那么他們喜歡過(guò)并且 A 沒(méi)有喜歡過(guò)的課程有:c、e,那么分別計(jì)算 p(A, c) 和 p(A, e):

      根據(jù)上述計(jì)算結(jié)果學(xué)習(xí)者 A 對(duì) c 和 e 的喜歡程度可能相同,在現(xiàn)實(shí)的推薦系統(tǒng)中,我們按得分進(jìn)行排序,由前向后取前若干個(gè)課程即可。

      (二)基于課程的協(xié)同過(guò)濾推薦算法

      基于項(xiàng)目的協(xié)同過(guò)濾算法,簡(jiǎn)稱(chēng)Item CF,是目前在數(shù)據(jù)挖掘應(yīng)用中使用最廣泛的算法之一。這一算法現(xiàn)在也用于為學(xué)習(xí)者推薦那些和他們歷史上喜歡過(guò)的課程相似的課程。如,該算法會(huì)因?yàn)槟銓W(xué)習(xí)過(guò)《西方經(jīng)濟(jì)學(xué)》而給你推薦《國(guó)際經(jīng)濟(jì)學(xué)》課程。

      ItemCF主要分為兩步:第一步,計(jì)算課程之間的相似度;第二步,根據(jù)課程的相似度和學(xué)習(xí)者的歷史行為,生成學(xué)習(xí)者課程需求推薦表。

      下圖給出一個(gè)item CF的例子。學(xué)習(xí)者user喜歡《C++程序設(shè)計(jì)》和《算法分析導(dǎo)論》兩門(mén)課程。然后item CF會(huì)為這兩門(mén)課程分別找到和它們最相似的3門(mén)課程,然后根據(jù)公式的定義計(jì)算學(xué)習(xí)者對(duì)每門(mén)課程的感興趣程度。

      Item CF算法,適用于沒(méi)有頻繁更新的課程,數(shù)量相對(duì)穩(wěn)定且課程數(shù)明顯小于學(xué)習(xí)者數(shù)的情況。

      三、小結(jié)

      基于協(xié)同過(guò)濾模型的算法根據(jù)學(xué)習(xí)者不同的屬性特征,按其性別、專(zhuān)業(yè)、興趣愛(ài)好歸類(lèi)分群。推薦應(yīng)用模型可以更加科學(xué)與精確的對(duì)這些屬性信息建立我們關(guān)心的關(guān)聯(lián)并計(jì)算它們的相似度,從而完成推薦。 大數(shù)據(jù)下的選課模型,為完全學(xué)分制下的學(xué)習(xí)者選課提供了智能化的支持服務(wù),構(gòu)建了獨(dú)立、自主、公平,自由的選課操作,滿足了學(xué)習(xí)者對(duì)課程的特性化需求,激發(fā)了學(xué)習(xí)者的學(xué)習(xí)主動(dòng)性。

      猜你喜歡
      余弦數(shù)據(jù)挖掘建模
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃?chǎng)中做圓周運(yùn)動(dòng)”為例
      基于PSS/E的風(fēng)電場(chǎng)建模與動(dòng)態(tài)分析
      電子制作(2018年17期)2018-09-28 01:56:44
      不對(duì)稱(chēng)半橋變換器的建模與仿真
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      兩個(gè)含余弦函數(shù)的三角母不等式及其推論
      分?jǐn)?shù)階余弦變換的卷積定理
      圖像壓縮感知在分?jǐn)?shù)階Fourier域、分?jǐn)?shù)階余弦域的性能比較
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      離散余弦小波包變換及語(yǔ)音信號(hào)壓縮感知
      合作市| 瑞安市| 双城市| 洪江市| 博罗县| 江城| 兴安盟| 都兰县| 虞城县| 定远县| 梨树县| 嘉善县| 读书| 黄平县| 正定县| 内江市| 新巴尔虎右旗| 赫章县| 沂源县| 武乡县| 琼中| 荆门市| 锡林郭勒盟| 新邵县| 鹿泉市| 平泉县| 石门县| 固原市| 搜索| 珲春市| 湖南省| 安泽县| 竹溪县| 宁明县| 克什克腾旗| 娄底市| 息烽县| 五常市| 炎陵县| 岐山县| 科技|