吝春妮
摘 要:為了向E-learning環(huán)境中的學習者提供個性化的學習服務(wù),本文基于模糊本體來描述用戶的學習偏好和認知狀態(tài),利用E-learning推薦系統(tǒng)提供個性化的學習內(nèi)容。模糊本體是為了解決不精確和不確定性信息在語義網(wǎng)上的重用和共享,對領(lǐng)域本體進行的擴展,用戶偏好描述用戶興趣、愛好的載體和手段。實驗表明自動獲取的模糊本體能很好地描述用戶偏好,這種方法在信息檢索和知識推薦方面是有用的,值得進一步研究。
關(guān)鍵詞:模糊本體;用戶偏好;學習對象;推薦
中圖分類號:G434 文獻標志碼:A 文章編號:1673-8454(2017)03-0074-04
一、引言
由于科學技術(shù)的飛速發(fā)展,特別是網(wǎng)絡(luò)技術(shù)的提高以及各種教學工具的應(yīng)用,E-learning已經(jīng)成為一種重要的教育教學的方法。E-learning是指主要通過網(wǎng)絡(luò)進行的學習與教學活動,充分利用現(xiàn)代信息技術(shù)所提供的全新溝通機制與豐富的學習資源,實現(xiàn)一種全新學習的方式。[1] E-learning具有傳統(tǒng)教學方式無可比擬的優(yōu)勢,給教師和學生提供一個全新的學習教學模式。在當前的環(huán)境下,如何利用E-learning推薦系統(tǒng)主動和學習者進行信息交互,分析學習者的個性需求,給他們提供感興趣的學習內(nèi)容,已經(jīng)成為一個研究的熱點問題。
User profile能夠體現(xiàn)用戶的偏好信息,是用戶興趣的描述文件,存儲用戶偏好的數(shù)據(jù)及其結(jié)構(gòu)。User profile可以用語義網(wǎng)來存儲信息,表達用戶的喜好,促進信息的存儲和檢索過程,而語義網(wǎng)利用形式化本體來創(chuàng)建機器可識別的數(shù)據(jù),本體在處理機器可識別的描述信息方面是非常優(yōu)秀的,但在現(xiàn)實世界中本體的形式化概念在處理一般領(lǐng)域中的不精確、不確定和模糊的信息時就無能為力了。[2]為了能描述不精確、不確定和模糊信息引入模糊概念和模糊關(guān)系,把模糊理論擴展到本體上,形成模糊本體。模糊本體能夠處理模糊知識,能描述和檢索文本和多媒體對象中模糊信息。[3]
本文提出一種基于模糊本體的user profile來提高E-learning推薦系統(tǒng)的教學活動。主要目的是提高檢索、分類和管理學習對象的性能,利用模糊邏輯來定義、執(zhí)行和校驗自動構(gòu)建基于user profile模糊本體的過程,并把它應(yīng)用在推薦系統(tǒng)中。
二、模糊本體的構(gòu)建
本體是共享概念模型的明確的形式化規(guī)范說明。[4]本體構(gòu)建(又稱本體學習)過程是對概念和概念間的關(guān)系組織?,F(xiàn)實世界中信息的不精確和不確定,引入模糊邏輯對本體進行了模糊擴展,提出了能夠表示模糊知識的模糊本體,這主要有兩個優(yōu)點:第一,通過本體提高了概念的形式化描述;第二,幫助描述和處理在許多應(yīng)用領(lǐng)域里的模糊信息。自動化模糊本體的構(gòu)建在沒有人為參與的情況下從數(shù)據(jù)源中抽取有用的信息。
Nikravesh[5]提出了一種基于概念和web數(shù)據(jù)庫的智能決策分析系統(tǒng)模型,利用該模型可以準確檢索到相關(guān)信息。該模式采用基于術(shù)語相似度函數(shù)的概念潛在語義索引技術(shù)由文本文檔集來自動構(gòu)建本體。Calegari等人[6]描述了一種方法利用模糊本體提高語義文檔的檢索性能,闡述了基于模糊概念網(wǎng)絡(luò)的信息檢索算法。本文主要是自動化構(gòu)建模糊本體,通過結(jié)合文本挖掘和計算機技術(shù)抽取更多的有關(guān)用戶偏好的描述信息來提高自動構(gòu)建模糊本體的過程。
三、基于模糊user profile的推薦系統(tǒng)
根據(jù)Burke[7]的定義,推薦系統(tǒng)輸出個性化的推薦內(nèi)容,在可選空間中給用戶提供感興趣的個性化的有用的對象以便選擇。本節(jié)主要介紹基于模糊本體的user profile的組成部件和自動構(gòu)建過程。User Profile是用戶興趣的描述文件,是用戶個性化需求的體現(xiàn),由相關(guān)學習對象組成。
1.模糊user profile
在E-learning背景下利用學習對象來描述user profile,該方法中user profile由兩個組成元素來描述用戶的偏好,表示為U(ζ, FO),其中ζ是描述用戶偏好的概念集,F(xiàn)O是對應(yīng)偏好的概念集的模糊本體。ζ集是一個概念ci的集合,wi對應(yīng)概念的權(quán)重,來描述用戶的偏好程度,如公式(1)所示。
該方法量化每個概念在學習對象集合里的權(quán)重:
(1)學習對象d中每個概念ci的權(quán)重是一個模糊值。首先根據(jù)FIS-CRM[8]模型(fis-crm(ci,d))計算每個概念基本權(quán)重值,其次根據(jù)這個概念在用戶文檔中的同義詞和出現(xiàn)頻率重新調(diào)整權(quán)重值。
(2)如果一個概念比其他概念在用戶文檔出現(xiàn)更加頻繁,就認為這個概念和user profile相關(guān)性高,也有例外情況。為了獲得這個相關(guān)度,必須考慮user profile中的學習對象所包含的每個概念的權(quán)重以及在學習對象中出現(xiàn)的頻率。概念ci在user profile u里的權(quán)重wu
i用公式(2)計算:
Wu
i=wij×
1+×Ln+1(2)
其中wij是利用FIS-CRM模型計算出來概念ci在學習對象dj中的相關(guān)度,docs(ci,u)是user profile里出現(xiàn)概念ci的文件數(shù)目,|D|是user profile中學習對象的總數(shù)目, |U|是在E-learning環(huán)境下user profile的總數(shù),U(ci)表示概念ci具有確定隸屬度的user profile的數(shù)目。
計算出來概念的權(quán)重,就可以確定所有概念之間相關(guān)性分布,標準化權(quán)重值應(yīng)該分布在[0,1]之間。只有概念具有足夠大的權(quán)重(w>0.5)才認為對提高E-learning的學習活動有用。
模糊本體是一個從學習對象抽取的概念間的矢量網(wǎng)絡(luò)。因此,一個模糊本體可看成是有向圖的集合,該有向圖的每一個節(jié)點代表一個概念,邊表示概念之間的聯(lián)系。
2.建立和更新過程
自動構(gòu)建模糊本體和模糊user profile的方法由數(shù)據(jù)處理、發(fā)現(xiàn)和重新描述用戶的偏好兩個階段組成。這個過程又可以分為下列步驟:語言預(yù)處理、術(shù)語索引(也稱本體預(yù)處理)、user profile構(gòu)建和user profile更新過程。
(1)語言預(yù)處理。這個階段的主要目的是以個體術(shù)語的形式從與每個用戶有關(guān)的學習對象中抽取文本信息。首先,對不同形式的文檔進行轉(zhuǎn)換處理;其次,把所有非文本信息,如數(shù)字、日期和標點符號從文檔(詞法分析)中剔除;最后,停用詞表和詞干提取這兩種技術(shù)用來減少詞匯數(shù)量,使描述的文本具有更豐富的含義。[9]
(2)術(shù)語索引。本階段主要利用上階段產(chǎn)生的所有有關(guān)術(shù)語的信息構(gòu)建檢索結(jié)構(gòu),也稱預(yù)處理本體。預(yù)處理本體包含下面的術(shù)語特征——術(shù)語ID和出現(xiàn)這個術(shù)語的學習對象特性列表。由于每個學習對象都包含屬性ID——最頻繁出現(xiàn)的術(shù)語數(shù)和術(shù)語在學習對象中的位置。每個術(shù)語的位置由一個二元組表示(p,s),其中s表示術(shù)語位于的章節(jié)或者段落,p表示術(shù)語在相應(yīng)部分的索引。
(3)User profile的構(gòu)建。構(gòu)建部件ζ和FO時利用預(yù)處理本體作為資源。首先是利用fis-crm(ci d)計算權(quán)值,這個權(quán)值是構(gòu)建概念集ζ和描述模糊本體網(wǎng)絡(luò)圖的關(guān)鍵來源。模糊本體包含有向圖形式描述相關(guān)度,本體也可以用像OWL[10]的語義標記語言來描述。
(4)User profile更新過程。當由用戶選擇或創(chuàng)建新的學習對象時允許新知識加入到user profile里。這個過程的第一步是為新的學習對象進行語言預(yù)處理和術(shù)語建立索引。接著重新計算參數(shù),概念之間的相關(guān)度和更新后的user profile里每個概念的相關(guān)度。
四、E-learning推薦系統(tǒng)實例
這部分主要對系統(tǒng)進行評估,推薦系統(tǒng)主要是提供給用戶有用和有趣的學習對象。在評估這個系統(tǒng)方面主要的任務(wù)是利用存儲在學習對象庫中的學習對象來構(gòu)建user profile并進行評估。
1.實驗
實驗在MACE(Metadata for Architectural Contents in Europe)中進行,這個系統(tǒng)在領(lǐng)域本體構(gòu)建方面支持以開放形式獲取學習資源,特別是在高等教育方面。[11] MACE的基本部件能夠分享和重用的對象,包括存儲資源索引和元數(shù)據(jù)的知識庫、在異構(gòu)資源庫網(wǎng)絡(luò)上能支持透明檢索的整合搜索引擎、整合其他資源、為網(wǎng)絡(luò)用戶查找和恢復(fù)功能的可視化的探測儀等。
實驗中參與者必須上傳多于20個基于英文pdf文件到MACE知識庫中作為學習對象,因為文獻的數(shù)量足夠多才能建立好的user profile。一組大約1800個學習對象是由11個MACE用戶利用MACE的簡單查詢接口(Simple Query Interface, SQI)收集而來。SQI[12]提供每個用戶之間的標準化交流,能實現(xiàn)聯(lián)合查詢。每個被選的學習對象都是從pdf文檔抽取的文本內(nèi)容并由此生成一個有關(guān)用戶文檔的集合。這個文檔集合被分成兩個部分,包含產(chǎn)生用戶特征部分和測試推薦系統(tǒng)部分,每個用戶就是一個學習對象的貢獻者。
2.本體評估
利用上述方法得到每個用戶的具有權(quán)重的術(shù)語集和模糊本體,這些術(shù)語集和描述用戶特征本體集對學習對象的基本語義進行描述。首先,比較產(chǎn)生本體的所有關(guān)系,這些關(guān)系是從WordNet中抽取的四種語義關(guān)系——同義詞、同位詞、下位詞和上位詞。第二步用結(jié)構(gòu)化類比和在概念網(wǎng)絡(luò)中定義的相似度關(guān)系。用Precision和Recall來進行評價,Precision是指一個被選中的元素相關(guān)性概率,Recall表示一個相關(guān)的元素被選中的概率,F(xiàn) 測試是Precision和Recall之間的調(diào)和平均數(shù),計算以公式(3)、(4)、(5)來確定系統(tǒng)的性能。[13]
Precision=(3)
Recall=(4)
F-Measure=(5)
實驗結(jié)果Recall和Precision都在1%到2%之間。因為用戶本體由無分類的模糊關(guān)系和規(guī)則組成,這規(guī)則是句法和分類等級。另外,由于這些規(guī)則由大量的信息組成,故不能進行深層次的分析。而用戶本體包含用戶基本特征,盡力描述自己的特定的域。
3.推薦系統(tǒng)的評估
利用實驗來驗證第4章提出的推薦系統(tǒng)的Precision、Recall和F測試,本文中采用本體評價標準,這個過程其實是把一個本體作為標準和另一個本體進行比較的過程。[14]表1描述各種符號所代表的含義。
實驗選取了11個用戶,收集到504個不同領(lǐng)域的學習對象,是利用描述的MACE系統(tǒng)抽取的。數(shù)據(jù)集被分為訓練集和測試集,11個user profile利用訓練集的329個學習對象建立,測試集包含剩余的175個學習對象。比較系統(tǒng)提供的推薦內(nèi)容和從元數(shù)據(jù)(如果用戶是學習對象的貢獻者,這個學習對象就推薦給這個用戶)抽取的內(nèi)容,獲得相關(guān)的Precision、Recall和F值。所有用戶的實驗數(shù)據(jù)如表2所示,實驗結(jié)果如表3所示。平均的Precision、Recall和F值分別是87.7%、85.8%和86.4%,顯示了本文提出的系統(tǒng)的良好性能,表明提出的系統(tǒng)具有靈活性,能自動產(chǎn)生基于user profile提供的良好的推薦內(nèi)容。
五、結(jié)論
模糊本體的靈活性支持廣泛的信息檢索和過濾問題,本文提出了一種利用模糊本體描述user profile的方法,該方法可以有效地提高E-learning的學習行為,利用推薦系統(tǒng)提供用戶感興趣的學習對象。提出的user profile結(jié)合一個相關(guān)的概念集和定義全面描述用戶喜好的模糊本體,包含一個用戶選擇的或者創(chuàng)建的學習對象產(chǎn)生user profile的過程。實驗是在MACE項目上運行,結(jié)果顯示提出的系統(tǒng)在術(shù)語的Precision和Recall方面是合理的有效的。
進一步的研究任務(wù)是要提高user profile的質(zhì)量,利用修剪過程避免不相關(guān)的概念提供給用戶,要考慮由用戶提供的反饋信息,利用一些混合篩選技術(shù),增加更詳細的相關(guān)性實驗。
參考文獻:
[1]何克抗.一場深刻的教育革命:E-learning與高等學校的教學改革[J].現(xiàn)代遠程教育研究,2002(3):13-20.
[2]陳冬玲,王大玲,于戈.支持個性化檢索的 User Profile 研究概述[J].小型微型計算機系統(tǒng),2008(10):1903-1907.
[3]Zhai J, Shen L, Zhou Z, et al. Fuzzy ontology model for knowledge management[C].International conference on intelligent systems and knowledge engineering (ISKE 2007), Chengdu, China. Fuzzy ontology representation model. 2007.
[4]戴維民.語義網(wǎng)信息組織技術(shù)與方法[M].上海:學林出版社,2008.
[5]Nikravesh M. Concept-based search and questionnaire systems[M].Forging New Frontiers: Fuzzy Pioneers I. Springer Berlin Heidelberg, 2007:193-215.
[6]Calegari S, Sanchez E. Object‐fuzzy concept network: An enrichment of ontologies in semantic information retrieval[J].Journal of the American Society for Information Science and Technology, 2008,59(13):2171-2185.
[7]Burke R. Hybrid recommender systems: Survey and experiments[J].User modeling and user-adapted interaction, 2002,12(4):331-370.
[8]Olivas J A, Garcés P J, Romero F P. An application of the FIS-CRM model to the FISS metasearcher: Using fuzzy synonymy and fuzzy generality for representing concepts in documents[J].International journal of approximate reasoning,2003, 34(2):201-219.
[9]Hull D A. Stemming algorithms: a case study for detailed evaluation[J].JASIS, 1996,47(1):70-84.
[10]McGuinness D L, Van Harmelen F. OWL web ontology language overview[J].W3C recommendation,2004,10(2004-03):10.
[11]Wolpers M, Memmel M, Klerkx J, et al. Bridging repositories to form the MACE experience[J].New Review of Information Networking, 2009,14(2):102-116.
[12]Van Assche F, Duval E, Massart D, et al. Spinning interoperable applications for teaching & learning using the simple query interface[J].Educational Technology & Society, 2006,9(2):51-67.
[13]Cao Y, Li Y. An intelligent fuzzy-based recommendation system for consumer electronic products[J].Expert Systems with Applications, 2007,33(1):230-240.
[14]Ning H, Shihan D. Structure-based ontology evaluation[C].e-Business Engineering, 2006. ICEBE'06. IEEE International Conference on. IEEE,2006:132-137.
(編輯:王天鵬)