楊 立 波,李 新 宇
(1.太原學(xué)院計(jì)算機(jī)工程系,山西 太原030032;2.山西省工業(yè)管理學(xué)校,山西 太原030012)
隨著互聯(lián)網(wǎng)用戶的不斷增加,web頁面和web服務(wù)越來越受歡迎。近十幾年來在線門戶網(wǎng)站、電子學(xué)習(xí)、電子政務(wù)、電子商務(wù)成為網(wǎng)絡(luò)熱門。為了能提供更好的服務(wù)質(zhì)量和個(gè)性化服務(wù),門戶網(wǎng)站都要有一個(gè)語義結(jié)構(gòu)和智能邏輯。它們是通過結(jié)合兩個(gè)學(xué)科實(shí)現(xiàn)的:語義web和web挖掘。目前,web挖掘和語義web在web中被廣泛研究,因?yàn)樗鼈兌急粚ぶ?,所以這兩個(gè)學(xué)科可以同時(shí)被使用,并彼此履行理論或以自動(dòng)化的方式檢查大量數(shù)據(jù),同時(shí)挖掘數(shù)據(jù),發(fā)現(xiàn)和獲取有意義的結(jié)果[1]。通過對(duì)教育目的的語義web挖掘的應(yīng)用,特別是在遠(yuǎn)程教學(xué)和課程管理中,語義web挖掘可以作為對(duì)傳統(tǒng)教育和遠(yuǎn)程學(xué)習(xí)的支持技術(shù),二者都可以使用語義web挖掘來獲取知識(shí)。在當(dāng)前的電子學(xué)習(xí)門戶和課程管理系統(tǒng)中,可以通過語義web服務(wù)和語義web代理,發(fā)現(xiàn)學(xué)生的學(xué)習(xí)模式和個(gè)性化需求。在早期的研究中,給出web挖掘的一個(gè)簡要的解釋,語義web挖掘和他們?cè)诮逃到y(tǒng)的應(yīng)用實(shí)例。在這項(xiàng)研究中,可以體現(xiàn)出電子學(xué)習(xí)的優(yōu)勢和劣勢。盡管如此,語義web挖掘依然被認(rèn)為是網(wǎng)上學(xué)習(xí)的重要部分。
萬維網(wǎng)的開發(fā)是一個(gè)人類知識(shí)庫,允許在遠(yuǎn)程站點(diǎn)的合作者分享他們的想法和一個(gè)共同的項(xiàng)目數(shù)據(jù)的各個(gè)方面。web2.0通過web服務(wù)實(shí)現(xiàn)自動(dòng)化,它背后有一個(gè)語義結(jié)構(gòu)。在通過web服務(wù)實(shí)現(xiàn)自動(dòng)化的同時(shí),根據(jù)用戶興趣實(shí)現(xiàn)個(gè)性化和數(shù)據(jù)可視化。這樣的普及也帶來了功能性和自身可用性。使得在電子商務(wù)、電子政務(wù)、電子學(xué)習(xí)領(lǐng)域中web變得普遍??紤]到電子商務(wù)、電子政務(wù)中這樣的應(yīng)用是不難實(shí)現(xiàn)的,而應(yīng)用在電子學(xué)習(xí)中將會(huì)使教育領(lǐng)域中的專家體會(huì)從未有的,不同于現(xiàn)實(shí)生活中的面對(duì)面的互動(dòng)[2]。
在傳統(tǒng)教育的情況下,教育者應(yīng)當(dāng)了解每個(gè)學(xué)生的情況,還應(yīng)當(dāng)努力提高學(xué)生的學(xué)習(xí)方法,就是讓他或她更成功。在電子教學(xué)中如果要實(shí)現(xiàn)這一個(gè)性化的需要,應(yīng)該有相應(yīng)的一些技術(shù)讓網(wǎng)絡(luò)用戶依據(jù)他們的興趣來進(jìn)行個(gè)性化的配置。智能web代理或電子學(xué)習(xí)服務(wù)可以用來構(gòu)建教育領(lǐng)域的語義學(xué)習(xí)機(jī)制。
在提供個(gè)性化的電子學(xué)習(xí)中,已經(jīng)提出了將內(nèi)容組織成獨(dú)立的單元,成為學(xué)習(xí)對(duì)象(LO),并可以動(dòng)態(tài)地結(jié)合建立個(gè)性化的學(xué)習(xí)門戶網(wǎng)站。學(xué)習(xí)對(duì)象被定義為在技術(shù)支持的學(xué)習(xí)期間中的任何實(shí)體、數(shù)字或非數(shù)字。學(xué)習(xí)對(duì)象元數(shù)據(jù)(Learning Object Metadata)是由IEEE組織定義并命名的,稱為一種元數(shù)據(jù)實(shí)例,主要是針對(duì)于學(xué)習(xí)對(duì)象而言的,它描述了學(xué)習(xí)對(duì)象的相關(guān)特性。在IEEE學(xué)習(xí)技術(shù)標(biāo)準(zhǔn)中,學(xué)習(xí)對(duì)象元數(shù)據(jù)還包括教學(xué)屬性,如:教學(xué)或交互方式、年級(jí)、掌握水平和先決條件。對(duì)于任何給定的學(xué)習(xí)對(duì)象都有可能有超過一組以上的學(xué)習(xí)對(duì)象元數(shù)據(jù)。國際上建立有IMS全球?qū)W習(xí)聯(lián)盟,不斷嘗試改善IEEE LOM的早期版本,并支持早期的數(shù)據(jù)模型草案作為IMS學(xué)習(xí)資源元數(shù)據(jù)規(guī)范的一部分。在IMS LRM第三版中,IMS數(shù)據(jù)模型和IEEE XML作為基礎(chǔ)結(jié)構(gòu),IMS LRM還提供了一個(gè)實(shí)現(xiàn)導(dǎo)向和一個(gè) XSL(從 IMS LRM XML遷移到 IEEE LOW XML)。一些學(xué)者使用本體來描述LO內(nèi)容模型的規(guī)范化,而另外一些學(xué)者使用XML來描述LO的內(nèi)容模型。本體基于人工智能和語義web構(gòu)建了互聯(lián)網(wǎng)的架構(gòu),并通過資源描述框架(RDF)和XML(萬維網(wǎng)w3c)進(jìn)行定義。基本上,本體代表構(gòu)成域的基礎(chǔ)的概念間的關(guān)系。隨著本體論的使用,結(jié)合信息檢索技術(shù)和web代理,數(shù)據(jù)的語義結(jié)構(gòu)可以通過數(shù)據(jù)挖掘技術(shù)的應(yīng)用被建立,這個(gè)目標(biāo)是通過web挖掘(WM),語義web(SW)和兩者的混合實(shí)現(xiàn)語義的web挖掘(SWM)。在此基礎(chǔ)上我們可以提供個(gè)性化內(nèi)容和個(gè)性化服務(wù)。
虛擬教育環(huán)境是在試圖建立一個(gè)替代傳統(tǒng)的教育環(huán)境,虛擬教育環(huán)境伴隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展而快速發(fā)展。在20世紀(jì)90年代,虛擬教育環(huán)境是在單向結(jié)構(gòu)中形成,但是可以看到,僅僅過去10年,虛擬教育環(huán)境已提出雙向互動(dòng)和完全三維的學(xué)習(xí)環(huán)境,它被視為虛擬教育環(huán)境。并且試圖建立由虛擬圖書館、虛擬測驗(yàn)、指導(dǎo)服務(wù)組成的新的虛擬教育環(huán)境。智能內(nèi)容系統(tǒng)和教育管理系統(tǒng)替代傳統(tǒng)教育類環(huán)境,同時(shí)可以看出,在所有這些元素中最缺乏的無疑是知識(shí)。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,更多的在線溝通和教育環(huán)境開始被使用,特別是新技術(shù)帶來的便利,和被視為互聯(lián)網(wǎng)革命的web2.0工具的使用。虛擬學(xué)習(xí)系統(tǒng)和學(xué)習(xí)管理系統(tǒng)都是web2.0工具下的應(yīng)用程序,通過使用可以提高更多用戶的滿意度,web3.0技術(shù)是未來的發(fā)展方向,將提出更加人性化和更加有意義的web體系結(jié)構(gòu),在提供人性化的同時(shí),還將形成一個(gè)社交網(wǎng)絡(luò)和在線通信區(qū)域組成的重要實(shí)踐平臺(tái)。語義web應(yīng)用程序提供這個(gè)實(shí)踐平臺(tái)的前端,該平臺(tái)可用于在線交流和教育,被命名為社會(huì)軟件。
我們簡要描述了web挖掘,語義web和語義web挖掘的概念。在1.1節(jié)中,描述了web挖掘。在1.2節(jié)中,解釋了語義web和語義web挖掘。在1.3節(jié)中,對(duì)在電子學(xué)習(xí)系統(tǒng)中語義web挖掘之前的應(yīng)用與他們的優(yōu)點(diǎn)和缺點(diǎn)進(jìn)行了解釋。
web挖掘(WM)是應(yīng)用數(shù)據(jù)挖掘技術(shù)在web日志,web內(nèi)容和web結(jié)構(gòu)中。因此,它是“識(shí)別有效的非平凡的過程,以前未知的、潛在有用的模式”。在給出的定義,WM有三種不同類型的分析規(guī)格:web使用挖掘(WVM)、web內(nèi)容挖掘(WCM)和web結(jié)構(gòu)挖掘(WSM)。VM電子學(xué)習(xí)的具體分析類型是WVM和WCM。
隨著web挖掘的深入,從電子商務(wù)應(yīng)用到電子學(xué)習(xí)應(yīng)用的分析,web挖掘是“試圖從在線網(wǎng)站的內(nèi)容中”得到有用的知識(shí),從互聯(lián)網(wǎng)中提取用戶感興趣的、有用的模式,web挖掘的使用在兩個(gè)不同的領(lǐng)域中,第一個(gè)是有關(guān)內(nèi)容的挖掘,第二個(gè)是基于用戶的交互分析。web內(nèi)容挖掘是對(duì)web頁面和后臺(tái)交易數(shù)據(jù)庫進(jìn)行挖掘;而用戶交互指定為信息和內(nèi)容有關(guān)的行為和用戶訪問頁面的行為描述,分析用戶訪問行為可以得到有關(guān)用戶的一些有用信息。包括,用戶選擇的課程,分析課程的時(shí)間等等。在之后的研究中,提出了一個(gè)新的思路,關(guān)系到釋放基于文本的web用戶訪問寄存器,其中應(yīng)用程序開發(fā)和程序編譯開發(fā)是基于java的SAS基礎(chǔ)軟件環(huán)境,得到的有意義和有趣的信息,這在很大程度上促進(jìn)了web挖掘技術(shù)的應(yīng)用,從基于文本的web用戶訪問到寄存器文件,這是復(fù)雜的、不規(guī)則的和毫無意義的。
web使用挖掘試圖找出用戶在使用網(wǎng)絡(luò)時(shí)正在尋找什么,同時(shí)web使用挖掘也有助于為屬于某一地區(qū)的一類特定人群找到感興趣的模式。網(wǎng)站內(nèi)容挖掘是一種在web內(nèi)容上的文本挖掘應(yīng)用。該方法可用于創(chuàng)建學(xué)習(xí)對(duì)象元數(shù)據(jù)(LO)構(gòu)建的本體和語義結(jié)構(gòu)。
語義web是W3C中作為數(shù)據(jù)的通用媒介,完成信息和知識(shí)交換的媒介。它是web2.0的產(chǎn)物(第二代web)使得網(wǎng)絡(luò)本身能夠去理解和滿足用戶請(qǐng)求和web代理或機(jī)器使用web的內(nèi)容??梢允褂盟阉饕鎺椭脩羯暇W(wǎng)檢索有用的知識(shí)過程,建立網(wǎng)頁之間的鏈接。語義web是將更加微小的信息互連起來,讓他們產(chǎn)生直接的聯(lián)系,例如一條街道與一份地圖等。在語義網(wǎng)中,用戶能夠?qū)蓚€(gè)沒有任何聯(lián)系的東西連接在一起,例如企業(yè)的報(bào)表和日歷。用戶可以直接將企業(yè)的報(bào)表拖動(dòng)到日歷上,也可以將日歷拖動(dòng)到企業(yè)的報(bào)表上,這樣就可以知道什么時(shí)候進(jìn)行提交報(bào)表。因此,語義網(wǎng)呈現(xiàn)給用戶的是一個(gè)所有數(shù)據(jù)可以無縫的連接。但是面臨的挑戰(zhàn)是要找到一種好的方法來表示所呈現(xiàn)的數(shù)據(jù),這樣就可以在連接到網(wǎng)絡(luò)時(shí),數(shù)據(jù)可以被識(shí)別并建立和其他數(shù)據(jù)之間的聯(lián)系,進(jìn)而形成鏈接。
語義web可以提供各種依賴于語義的自動(dòng)化服務(wù),例如企業(yè)和客戶的交易服務(wù)、企業(yè)和企業(yè)的交易服務(wù)、客戶和客戶的交易服務(wù)、分類和搜索服務(wù)、數(shù)據(jù)庫服務(wù)、目錄服務(wù)、天氣預(yù)報(bào)服務(wù)、航班查詢服務(wù)等等。通過對(duì)內(nèi)容進(jìn)行語義標(biāo)注與分析,可以克服關(guān)鍵字查詢產(chǎn)生的歧義性,提高了查詢的精確度。斯坦福大學(xué)的研究人員對(duì)語義WEB進(jìn)行研究發(fā)現(xiàn),查詢語言DBQ是一個(gè)很有影響的系統(tǒng),它是基于DAML的體系。另一個(gè)基于DAML的語義web檢索,它是美國Marylang設(shè)計(jì)和研發(fā)的HOWLIR系統(tǒng),它采用了daml-jessdb,它是一個(gè)基于DAML推理的一個(gè)推理引擎系統(tǒng),其中,關(guān)于語義web的文本檢索和知識(shí)管理也是目前計(jì)算機(jī)領(lǐng)域的一個(gè)研究熱點(diǎn)。
語義web是以本體的形式來描述知識(shí)的,這樣可以將語義知識(shí)用于web挖掘中,以實(shí)現(xiàn)不同的目的。在web內(nèi)容挖掘中,通常是采用本體知識(shí)來選擇源數(shù)據(jù),得到相關(guān)數(shù)據(jù)、預(yù)處理輸入數(shù)據(jù),最終得到有用的模式過程,但是常常得到大量的冗余數(shù)據(jù)。而語義web在進(jìn)行挖掘數(shù)據(jù)時(shí),因?yàn)閿?shù)據(jù)本身已經(jīng)有了明確的語義信息,因此在選擇數(shù)據(jù)時(shí),就可以采用這些已知的語義信息來選擇相關(guān)數(shù)據(jù),除去冗余數(shù)據(jù)。此外也可以采用語義知識(shí)對(duì)web挖掘中的源數(shù)據(jù)事先進(jìn)行預(yù)處理,這樣可以減少算法的時(shí)間復(fù)雜度,提高算法的執(zhí)行效率。同時(shí)web挖掘可以理解為強(qiáng)調(diào)這個(gè)范圍的研究領(lǐng)域之間可能的相互作用。web挖掘能夠進(jìn)行語義挖掘,進(jìn)而讀取語義知識(shí)。同時(shí)語義web挖掘很容易通過web日志描述?!罢Z義web挖掘的目的是結(jié)合語義web和web挖掘兩個(gè)領(lǐng)域。設(shè)想如下,我們觀察到的趨勢收斂于這兩個(gè)領(lǐng)域,用于提高web挖掘的結(jié)果。通過在網(wǎng)絡(luò)上的語義結(jié)構(gòu)開發(fā),并利用web挖掘技術(shù)可以用于挖掘語義web本身。
針對(duì)所給出的定義,為任何可用的課程使用web日志在任何課程管理系統(tǒng)或電子學(xué)習(xí)門戶網(wǎng)站的語義信息調(diào)查都是有可能的。在學(xué)者M(jìn)oodle案例研究中,給出了數(shù)據(jù)挖掘技術(shù)的應(yīng)用案例研究。在這些研究中,對(duì)數(shù)據(jù)的檢索和管理的可能采用的技術(shù),教育家必須運(yùn)行第三方應(yīng)用程序手動(dòng)檢索信息,為教育工作者進(jìn)行簡要的說明。一個(gè)語義的實(shí)時(shí)系統(tǒng),web服務(wù)和web代理被宣布是有用的。同時(shí)可信的數(shù)據(jù)是非常重要的,因?yàn)樗梢允顾惴ɑ蛲诰蚣夹g(shù)錯(cuò)誤或?qū)е虏划?dāng)?shù)慕Y(jié)果。在這一點(diǎn)上,我們獲取數(shù)據(jù)的來源是多方面的,可以來自于學(xué)生的回答或語義實(shí)時(shí)系統(tǒng)中的信息數(shù)據(jù)。我們認(rèn)為這些數(shù)據(jù)是可靠的,同時(shí)我們也可以運(yùn)行數(shù)據(jù)挖掘算法來避免沖突,過濾有用的知識(shí),解答疑惑。
使用LOM和本體是用戶進(jìn)行數(shù)據(jù)挖掘的要求。本體是體現(xiàn)用戶共同認(rèn)可的知識(shí),它是反映某類本體有關(guān)領(lǐng)域大家公認(rèn)的概念,是針對(duì)的團(tuán)體不是個(gè)體。本體的目標(biāo)是提取有關(guān)領(lǐng)域的知識(shí),提供對(duì)這個(gè)領(lǐng)域知識(shí)的公共理解,明確該領(lǐng)域內(nèi)大家公認(rèn)的詞匯,并且從不同層面上給出這些詞和詞之間的相關(guān)關(guān)系的定義。本體可以包括一個(gè)領(lǐng)域的知識(shí),也可以包括各種領(lǐng)域之間的知識(shí),因此這種方式使得知識(shí)本身越來越重要,提升了其價(jià)值。在形成知識(shí)系統(tǒng)時(shí),不同本體將會(huì)扮演不同角色,例如,領(lǐng)域本體是針對(duì)特定的應(yīng)用領(lǐng)域。通用本體是描述客觀世界的一般性知識(shí),通常用于多個(gè)領(lǐng)域。用于型本體是針對(duì)特定領(lǐng)域知識(shí)建模的定義。表示本體通常不會(huì)限制到一個(gè)具體的領(lǐng)域,僅提供一種表示實(shí)體的方法,但是沒有規(guī)定其必須表示什么。語義web中的本體是描繪語義文檔的一種方式,使得這些文檔的語義可以被web使用和智能代理使用,使用本體構(gòu)造和定義聚集和標(biāo)準(zhǔn)化后的元數(shù)據(jù)時(shí)非常有用的,在某種意義上可以達(dá)到人們的概念層次之上。本體對(duì)于要查找或合并信息的應(yīng)用是很關(guān)鍵的,雖然DTD和Schema對(duì)于兩個(gè)實(shí)現(xiàn)約定的協(xié)議應(yīng)用是足夠的,但是它們?nèi)狈φZ義,這樣使得機(jī)器是很難利用新XML詞匯來執(zhí)行我們所需的任務(wù)。RDF和RDF Schema通過聯(lián)系和標(biāo)識(shí)符的語義來處理相關(guān)問題,RDF Schema是一種非常簡單的本體語義。為了使得許多獨(dú)自發(fā)展和管理模式間的交互操作,豐富的語義是很重要的。同時(shí)我們還描述了每種技術(shù)的實(shí)現(xiàn)方式,可以看出XML被廣泛用于執(zhí)行LO,LOM甚至本體。它提到使用RDF或XML本體設(shè)計(jì),但在許多RDF的應(yīng)用中,它是用XML語法寫的。而說到本體,本體論的需求必須定義好。我們看到,通常使用領(lǐng)域本體和學(xué)生本體。通過移動(dòng)設(shè)備學(xué)習(xí)也被包括在電子學(xué)習(xí)中,我們可以使用另一個(gè)本體,優(yōu)先命名為裝置本體。教學(xué)信息比另一個(gè)被稱為教學(xué)本體的應(yīng)用可能更重要。
本文介紹了當(dāng)前web挖掘技術(shù)和語義web應(yīng)用,在電子學(xué)習(xí)中web挖掘已經(jīng)成為教育的一個(gè)基本組成部分。我們相信,以學(xué)生為中心的教育,選擇其他個(gè)性化取決于學(xué)生的學(xué)習(xí)方式,這是教育領(lǐng)域的關(guān)鍵。在這種情況下,遠(yuǎn)程學(xué)習(xí)或電子學(xué)習(xí)被應(yīng)用,個(gè)性化學(xué)習(xí)作為一個(gè)新的手段出現(xiàn),因?yàn)樗ㄟ^分析學(xué)習(xí)者先前的學(xué)習(xí)使用模式來預(yù)測將來的學(xué)習(xí)使用模式。根據(jù)這些學(xué)生的特征,web挖掘可以動(dòng)態(tài)的根據(jù)學(xué)習(xí)者的情況推薦教學(xué)資源,為學(xué)習(xí)者提供學(xué)習(xí)內(nèi)容鏈接。同時(shí)語義程序也已經(jīng)被用于最小化傳統(tǒng)學(xué)習(xí)和電子學(xué)習(xí)中。Demeo等人宣布了在電子學(xué)習(xí)現(xiàn)象中的優(yōu)點(diǎn)和缺點(diǎn),指出個(gè)性化和靈活的學(xué)習(xí)程序,可以動(dòng)態(tài)構(gòu)造滿足這些差距。
電子學(xué)習(xí)門戶網(wǎng)站對(duì)學(xué)生是無風(fēng)險(xiǎn)的,可以嘗試新事物,不披露自己犯的錯(cuò)誤,電子學(xué)習(xí)門戶網(wǎng)站為所有學(xué)生提供更好的個(gè)性化的學(xué)習(xí)機(jī)制,信息被分布在同一水平的質(zhì)量,學(xué)生可以使用服務(wù)于他們自己的時(shí)間表和可用信息中獲取知識(shí),在任何他們想要的時(shí)間,對(duì)于任何主題也更容易更新內(nèi)容。
在教育領(lǐng)域,教育結(jié)果可以通過數(shù)據(jù)挖掘技術(shù)和更現(xiàn)實(shí)的教育來模擬(是理想的、更接近于傳統(tǒng)學(xué)習(xí)機(jī)制)和歸納和分析。例如,教育者跟蹤學(xué)習(xí)者的心理狀況,了解學(xué)習(xí)者的學(xué)習(xí)障礙在什么地方,這樣有助于提高學(xué)習(xí)者的學(xué)習(xí)能力。也試圖通過一個(gè)強(qiáng)大的對(duì)LOM的支持或?qū)虒W(xué)本體論的支持來解決問題,把當(dāng)前系統(tǒng)用更好的教學(xué)方式來表示。制訂和實(shí)施這些教學(xué)信息和本體是不容易的,但還必須考慮到要超過他們現(xiàn)有的內(nèi)容??紤]到學(xué)習(xí)者可能有不同的學(xué)習(xí)風(fēng)格和能力,顯示和強(qiáng)迫學(xué)生從同一內(nèi)容中獲取有用的信息,主要是文本或圖像,基于此類獲取信息的方法將不會(huì)成為在所有電子學(xué)習(xí)中的一個(gè)好的解決方案。在此基礎(chǔ)之上,也是構(gòu)建語義結(jié)構(gòu)的一種思路。
[1]俞勇.語義web技術(shù)基礎(chǔ)[M].北京:清華大學(xué)出版社,2012.
[2]何豐.語義web服務(wù)組合若干關(guān)鍵技術(shù)研究[M].北京:科學(xué)出版社,2013.