陳琳 劉玉秀
摘 要 隨著課程數(shù)字化資源數(shù)量的不斷增長(zhǎng),出現(xiàn)了課程知識(shí)體系結(jié)構(gòu)不清、知識(shí)碎片化和知識(shí)查找困難等問(wèn)題。本文利用現(xiàn)有課程數(shù)字化資源,通過(guò)自頂向下方式知識(shí)建模、知識(shí)抽取和知識(shí)融合實(shí)現(xiàn)圖譜構(gòu)建。建立圖譜后,可視化分析、語(yǔ)義搜索、推薦和是典型的知識(shí)應(yīng)用,對(duì)推動(dòng)智慧課程建設(shè)有一定的參考意義。
關(guān)鍵詞 數(shù)字化資源;知識(shí)圖譜;自頂向下
隨著信息技術(shù)和網(wǎng)絡(luò)教育的飛速發(fā)展,越來(lái)越多高校依托校園網(wǎng)建立了數(shù)字化教學(xué)資源平臺(tái),供學(xué)生輔助學(xué)習(xí)使用。但是隨著課程數(shù)字化資源數(shù)量的不斷加入和類(lèi)型的不斷豐富,容易出現(xiàn)信息過(guò)載和知識(shí)碎片化現(xiàn)象。為了提高數(shù)字化資源的質(zhì)量,本文研究了知識(shí)圖譜的構(gòu)建方法和典型應(yīng)用,以平臺(tái)中的《軟件技術(shù)基礎(chǔ)》課程數(shù)字化資源為例,進(jìn)行了課程知識(shí)圖譜的構(gòu)建,以期能幫助使用者建立課程知識(shí)體系結(jié)構(gòu),同時(shí)方便資源智能搜索甚至通過(guò)大量用戶(hù)數(shù)據(jù)訓(xùn)練實(shí)現(xiàn)資源智能推薦。
1構(gòu)建課程數(shù)字化資源知識(shí)圖譜的必要性
一是構(gòu)建知識(shí)圖譜能整合碎片化的課程知識(shí)點(diǎn)。
目前大多數(shù)數(shù)字化教學(xué)資源平臺(tái)都承載了多個(gè)專(zhuān)業(yè)多門(mén)課程,課程知識(shí)點(diǎn)的數(shù)量巨大,基本是無(wú)序和碎片化的。知識(shí)圖譜源于本體論[1-3],本體又能和概念一一對(duì)應(yīng)起來(lái),最終碎片化的知識(shí)點(diǎn)都可以被歸為本體,不會(huì)被遺漏。
二是構(gòu)建知識(shí)圖譜能夠?qū)⒋罅空n程知識(shí)點(diǎn)關(guān)聯(lián)起來(lái)。
現(xiàn)有的數(shù)字化教學(xué)資源平臺(tái)沒(méi)有很好的技術(shù)來(lái)組織學(xué)科與學(xué)科之間,課程與課程之間的關(guān)系。而知識(shí)圖譜的本體對(duì)應(yīng)概念,本體的關(guān)系對(duì)應(yīng)著課程知識(shí)點(diǎn)的關(guān)聯(lián),可以將課程知識(shí)點(diǎn)有機(jī)地聯(lián)系起來(lái)。
三是構(gòu)建知識(shí)圖譜能從語(yǔ)義上理解課程知識(shí)點(diǎn)。
面對(duì)海量數(shù)字化教學(xué)資源,通常查找技術(shù)只能實(shí)現(xiàn)按關(guān)鍵字進(jìn)行查找,無(wú)法真正理解使用者的意圖。知識(shí)圖譜又以語(yǔ)義網(wǎng)絡(luò)[1-3]為基礎(chǔ),利用三元組的形式將不同將概念、概念的屬性,以及概念和概念之間的關(guān)系進(jìn)行存儲(chǔ),使得不同課程知識(shí)點(diǎn)的語(yǔ)義關(guān)系清楚明晰,使得查詢(xún)從語(yǔ)義層面得以實(shí)現(xiàn)。
2課程數(shù)字化資源知識(shí)圖譜的構(gòu)建
2.1? 知識(shí)圖譜介紹
知識(shí)圖譜的概念由谷歌2012年正式提出,旨在實(shí)現(xiàn)更智能的搜索引擎。2013年后,知識(shí)圖譜開(kāi)始在學(xué)術(shù)界和業(yè)界興起,并在語(yǔ)義搜索,智能問(wèn)答,情報(bào)分析等典型場(chǎng)景中嶄露頭角。知識(shí)圖譜概念最開(kāi)始源于語(yǔ)義網(wǎng)絡(luò),是一種具有有向圖結(jié)構(gòu)的知識(shí)庫(kù),其中圖的結(jié)點(diǎn)代表實(shí)體(Entity)或者概念(Concept),而圖的邊代表實(shí)體之間的各種語(yǔ)義關(guān)系[2]。W3C定制的相關(guān)標(biāo)準(zhǔn)語(yǔ)言RDF(resource description framework),OWL(Web ontology language)等也為推動(dòng)語(yǔ)義網(wǎng)絡(luò)的發(fā)展起到了極大作用。
2.2 知識(shí)圖譜構(gòu)建過(guò)程
知識(shí)圖譜根據(jù)其知識(shí)來(lái)源可以分為兩類(lèi):一種是通用知識(shí)圖譜,它不面向特定的領(lǐng)域,更強(qiáng)調(diào)知識(shí)的廣度,通常運(yùn)用百科數(shù)據(jù)進(jìn)行自底向上的方法進(jìn)行構(gòu)建;另一種稱(chēng)為垂直知識(shí)圖譜,或行業(yè)知識(shí)圖譜,它面向不同的領(lǐng)域,強(qiáng)調(diào)知識(shí)的深度。對(duì)于數(shù)字化教學(xué)資源平臺(tái),其數(shù)據(jù)主要來(lái)源于本地建立的資源數(shù)據(jù)庫(kù),故需要采用領(lǐng)域知識(shí)圖譜的方式自頂向下進(jìn)行構(gòu)建[4]。其建構(gòu)過(guò)程如下:
(1)知識(shí)建模
知識(shí)建模是建立知識(shí)圖譜的概念模式的過(guò)程,為了對(duì)課程數(shù)字化資源進(jìn)行合理組織,更好的描述課程知識(shí)點(diǎn)本體與本體之間的關(guān)聯(lián),需要對(duì)知識(shí)圖譜模式進(jìn)行良好的定義[1]。
本文采用自頂向下的方法,針對(duì)首先為知識(shí)圖譜定義數(shù)據(jù)模式,從最頂層概念構(gòu)建,逐步細(xì)化,形成層次結(jié)構(gòu)良好的分類(lèi)結(jié)構(gòu),然后再將實(shí)體添加到概念中。針對(duì)《軟件技術(shù)基礎(chǔ)》課程將知識(shí)本體建模,上三層結(jié)構(gòu)如圖1所示。再梳理各概念間的屬性,構(gòu)建“屬性-值”的模型,最后梳理所屬關(guān)系,如“包含”、“屬于”、“不相關(guān)”等。建立該課程知識(shí)完整的模式。
(2)知識(shí)抽取
知識(shí)抽取是指從不同來(lái)源、不同數(shù)據(jù)中進(jìn)行知識(shí)提取,形成三元組結(jié)構(gòu)存入圖數(shù)據(jù)庫(kù)的過(guò)程。如何高效、穩(wěn)定地從不同數(shù)據(jù)源進(jìn)行知識(shí)抽取是知識(shí)圖譜的關(guān)鍵技術(shù),會(huì)決定知識(shí)圖譜的性能[1]。目前本地?cái)?shù)據(jù)源主要是結(jié)構(gòu)化數(shù)據(jù),記錄每個(gè)資源的id,名稱(chēng)和所屬課程、靜態(tài)資源地址;將資源以文本、視頻和圖片等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存放。
對(duì)于關(guān)系型數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù),本文采用通過(guò) D2R(Relational Database to RDF)映射的方式將數(shù)據(jù)庫(kù)中的數(shù)據(jù)直接映射,形成和資源名稱(chēng)相關(guān)的三元組。對(duì)于非結(jié)構(gòu)化數(shù)據(jù)則需要經(jīng)過(guò)實(shí)體抽取、關(guān)系抽取和屬性抽取形成三元組。
首先是實(shí)體抽取,現(xiàn)階段,對(duì)于實(shí)體抽取的技術(shù)準(zhǔn)確率相對(duì)較高。為了從非結(jié)構(gòu)化數(shù)據(jù)中抽取實(shí)體信息單元,需要對(duì)數(shù)據(jù)做一些預(yù)處理,然后利用基于規(guī)則的方法進(jìn)行抽取。其次是關(guān)系抽取,關(guān)系抽取與實(shí)體抽取密切相關(guān),一般是在識(shí)別出實(shí)體后,再抽取實(shí)體間可能存在的關(guān)系[1]。目前,關(guān)系抽取的準(zhǔn)確率相對(duì)較低,也不斷有新的技術(shù)研究出現(xiàn),本文采用基于弱監(jiān)督學(xué)習(xí)的抽取方法中的遠(yuǎn)程監(jiān)督方法,該方法能通過(guò)將知識(shí)圖譜與非結(jié)構(gòu)化文本對(duì)齊的方式自動(dòng)構(gòu)建大量的訓(xùn)練數(shù)據(jù),有效減少人工標(biāo)注的工作量[3]。在課程知識(shí)圖譜的構(gòu)建中具有較大的優(yōu)勢(shì)。最后是屬性抽取,即在識(shí)別出實(shí)體后,為每個(gè)實(shí)體抽取一個(gè)屬性列表,采用技術(shù)與關(guān)系抽取類(lèi)似,可以將屬性看作一種“is-a”的特殊關(guān)系。
(3)知識(shí)融合
指的是為了解決為不同信息源的異構(gòu)問(wèn)題,將知識(shí)對(duì)齊和合并的過(guò)程。知識(shí)融合旨在將信息抽取后形成的一個(gè)個(gè)孤立的三元組形成完整的知識(shí)圖譜,其關(guān)鍵技術(shù)是實(shí)體匹配和模式對(duì)齊[4]。例如對(duì)于“內(nèi)存”、“主存”這兩個(gè)實(shí)體,雖然名稱(chēng)標(biāo)識(shí)不同,但代表的是同一對(duì)象,本文采用聚類(lèi)的方法和人工結(jié)合的方法進(jìn)行實(shí)體匹配。
3課程數(shù)字化資源知識(shí)圖譜的應(yīng)用探索
建構(gòu)了基于課程數(shù)字化資源的知識(shí)圖譜后,主要應(yīng)用場(chǎng)景有:
(1)可視化分析。知識(shí)圖譜最終以三元組的形式將數(shù)據(jù)存在圖數(shù)據(jù)庫(kù)中,在數(shù)據(jù)可視化上可以清晰呈現(xiàn)各實(shí)體的關(guān)系。因此,可以利用知識(shí)圖譜可視化的方式展示課程各知識(shí)點(diǎn)完整的系統(tǒng)結(jié)構(gòu)及其上下關(guān)聯(lián)關(guān)系,方便學(xué)習(xí)者形成課程的知識(shí)體系。
(2)智能搜索。傳統(tǒng)的搜索主要是依據(jù)關(guān)鍵詞進(jìn)行,建立知識(shí)圖譜后,各課程知識(shí)點(diǎn)的語(yǔ)義網(wǎng)絡(luò)也建立完成,可以根據(jù)使用者真正的意圖進(jìn)行知識(shí)的搜索,避免在查找資料方面花費(fèi)大量精力,有利于提高學(xué)習(xí)效率。
(3)資源智能推薦。將本門(mén)課程知識(shí)圖譜構(gòu)建完成后,可以再加入一些推薦技術(shù),通過(guò)大量的使用者建立模型,形成用戶(hù)畫(huà)像,根據(jù)學(xué)習(xí)者關(guān)注的資源進(jìn)行學(xué)習(xí)內(nèi)容的推薦,這對(duì)輔助學(xué)習(xí)有極大幫助。
4結(jié)束語(yǔ)
本文通過(guò)知識(shí)圖譜構(gòu)建技術(shù),在現(xiàn)有的數(shù)字化教學(xué)資源平臺(tái)上構(gòu)建了特定的課程數(shù)字化資源的知識(shí)圖譜,以期為學(xué)習(xí)者建立課程知識(shí)點(diǎn)的連接和知識(shí)體系,解決知識(shí)碎片化問(wèn)題,同時(shí)提高了搜索資料的效率。今后,希望不斷改進(jìn)關(guān)鍵技術(shù),讓更多的課程能自動(dòng)化構(gòu)建知識(shí)圖譜,形成課程知識(shí)圖譜和學(xué)科知識(shí)圖譜,為建立智慧課堂打下良好基礎(chǔ)。
參考文獻(xiàn)
[1] 王昊奮,漆桂林,陳華鈞.知識(shí)圖譜方法、實(shí)踐與應(yīng)用 [M].北京:電子工業(yè)出版社,2019:107.
[2] 漆桂林.知識(shí)圖譜之語(yǔ)義網(wǎng)絡(luò)篇[EB/OL]. http://zhuanlan.zhihu.com/p/28276520,2017-08-12.
[3] 葛斌,譚真,張翀,等.軍事知識(shí)圖譜構(gòu)建技術(shù)[J]. 指揮與控制學(xué)報(bào),2016,2(4):302?308.
[4] 阮彤,王夢(mèng)婕,王昊奮,等.垂直知識(shí)圖譜的構(gòu)建與應(yīng)用研究[J]. 知識(shí)管理論壇,2016(3):226-234.