單佩佩
摘要:知識(shí)圖譜主要將知識(shí)點(diǎn)作為核心內(nèi)容,同時(shí)根據(jù)知識(shí)點(diǎn)匯集各種模式的學(xué)習(xí)資源。 將學(xué)科知識(shí)用知識(shí)圖譜構(gòu)建出來(lái),以網(wǎng)絡(luò)結(jié)構(gòu)的形式展現(xiàn)出來(lái),在此基礎(chǔ)上建立資源之間的關(guān)系,將知識(shí)圖譜中知識(shí)間的關(guān)聯(lián)性應(yīng)用于學(xué)習(xí)者學(xué)習(xí)過(guò)程中的資源推送服務(wù)。本文從知識(shí)圖譜的定義出發(fā),綜述了知識(shí)圖譜的知識(shí)提取、表達(dá)、存儲(chǔ)和檢索以及教育資源個(gè)性化推薦方向的應(yīng)用研究進(jìn)展。
關(guān)鍵詞:信息檢索; 知識(shí)表示; 資源推薦
中圖分類號(hào):TP3? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)36-0177-02
知識(shí)圖譜的定義:“知識(shí)圖譜基本上是語(yǔ)義網(wǎng)絡(luò)的知識(shí)庫(kù)”,它是由谷歌公司提出的。[1]我們可以簡(jiǎn)單地將知識(shí)圖譜解釋為多關(guān)系圖或是一個(gè)數(shù)據(jù)結(jié)構(gòu),其中包括邊和節(jié)點(diǎn)它們之間的關(guān)系,多個(gè)圖通常包括多個(gè)節(jié)點(diǎn)類型和各種類型的知識(shí)圖譜,一般來(lái)說(shuō)都是把實(shí)體用節(jié)點(diǎn)表示,關(guān)系用邊來(lái)表示,實(shí)體是來(lái)自真實(shí)世界的事物,例如人名、地名、藥品、公司、概念,等等,盡管關(guān)系用于表示不同實(shí)體之間的某種類型的連接,現(xiàn)實(shí)世界中的許多假設(shè)情況都非常適合于知識(shí)圖譜來(lái)表達(dá)。
本文結(jié)合文獻(xiàn)引用和自己的觀點(diǎn),引用大量的著名理論,搜索相關(guān)論文和文獻(xiàn)發(fā)表在專業(yè)期刊、論壇、雜志和權(quán)威網(wǎng)站近年來(lái),總結(jié)和排序,比較他們彼此,闡述了教學(xué)資源的建議結(jié)合自己的專業(yè)和知識(shí)地圖。
1 知識(shí)圖譜的表示
知識(shí)圖譜應(yīng)用的前提是知識(shí)地圖的構(gòu)建,知識(shí)圖譜也可以作為知識(shí)庫(kù)。這就是為什么它可以用來(lái)回答一些與搜索相關(guān)的問(wèn)題。在現(xiàn)實(shí)世界中,實(shí)體和關(guān)系也有自己的屬性,如“名”和“齡”。當(dāng)知識(shí)地圖有屬性時(shí),我們可以用它來(lái)表示它們。那么我們?nèi)ッ枋鲆粋€(gè)事實(shí)以知識(shí)圖譜的形式。張四和張武是父子關(guān)系,張四有182開(kāi)頭的電話號(hào)碼。此電話號(hào)碼于2018年開(kāi)通,2018年可作為該關(guān)系的屬性。同樣,張四本人也有一些屬性值,比如年齡,職業(yè)等,這樣的描述就是他們的屬性圖。知識(shí)圖譜一般用屬性圖表示,但也可以用RDF表示,RDF由許多三元組組成。RDF在設(shè)計(jì)中的主要特點(diǎn)是易于發(fā)布和共享數(shù)據(jù),但不支持實(shí)體或?qū)傩躁P(guān)系。如果必須添加屬性,則需要進(jìn)行一些設(shè)計(jì)修改。[2]
2 知識(shí)圖譜的抽取
知識(shí)圖譜的構(gòu)建是應(yīng)用的第一步,構(gòu)建的前提是從不同數(shù)據(jù)源中提取數(shù)據(jù)。對(duì)于垂直領(lǐng)域的知識(shí)映射,其數(shù)據(jù)源主要來(lái)自兩個(gè)渠道:一是業(yè)務(wù)本身的數(shù)據(jù),這種數(shù)據(jù)通常以結(jié)構(gòu)化方式存儲(chǔ)在公司數(shù)據(jù)庫(kù)的表中;另一個(gè)是在網(wǎng)絡(luò)上打開(kāi)并捕獲的數(shù)據(jù),通常是網(wǎng)頁(yè)形式,因此是非結(jié)構(gòu)化數(shù)據(jù)。前者可以通過(guò)簡(jiǎn)單的預(yù)處理用作后面AI系統(tǒng)的輸入,而后者通常須要借助NLP和其他技術(shù)來(lái)提取結(jié)構(gòu)化信息。[3]數(shù)據(jù)源,例如Wikipedia。信息提取的困難在于處理非結(jié)構(gòu)化數(shù)據(jù)。第一個(gè)是實(shí)體命名識(shí)別,即從文本中提取實(shí)體,并對(duì)每個(gè)實(shí)體進(jìn)行分類/標(biāo)記。此過(guò)程稱為實(shí)體命名識(shí)別。這是一項(xiàng)相對(duì)成熟的技術(shù),并且有一些工具可以實(shí)現(xiàn)此戶口卡。其次,我們可以通過(guò)關(guān)系提取技術(shù)從文本中提取實(shí)體之間的關(guān)系。
在對(duì)實(shí)體識(shí)別和關(guān)系抽取的研究過(guò)程中,存在比較突出的兩個(gè)的問(wèn)題:其一主要是實(shí)體的統(tǒng)一性,即使一些實(shí)體的書(shū)寫(xiě)方式不一樣,但在實(shí)際上生活中指向的是同一個(gè)實(shí)體。比如,“CHN”和“China”表面上看是兩個(gè)不一樣的字符串,實(shí)際上他們所指的就是中國(guó)這個(gè)國(guó)家。實(shí)體統(tǒng)一不僅可以減少實(shí)體類型,還可以減少圖集的稀疏性。另一個(gè)問(wèn)題是參考的指代性,即文本中所指的是“它”,還是“他”或“她”這個(gè)實(shí)體。相比較前兩個(gè)問(wèn)題來(lái)說(shuō),實(shí)體統(tǒng)一和回指解析更具有高難度。
3 知識(shí)圖譜的存儲(chǔ)
存儲(chǔ)知識(shí)圖譜的方式一般有以下兩種形式:1)利用RDF形式存儲(chǔ)。2)利用圖數(shù)據(jù)庫(kù)。它們之間還是有一些區(qū)別的。RDF的最大特點(diǎn)是可以輕松發(fā)布和共享數(shù)據(jù)。圖形數(shù)據(jù)庫(kù)主要以可視化的界面進(jìn)行圖形查詢和搜索。其次,RDF存儲(chǔ)數(shù)據(jù)以三元組的形式,但是不能夠包括屬性這類信息。[4]然而,圖數(shù)據(jù)庫(kù)的基本表示一般用屬性圖來(lái),這些實(shí)體和關(guān)系都可以包含屬性,這意味著可以方便地查看當(dāng)前業(yè)務(wù)場(chǎng)景;根據(jù)最新統(tǒng)計(jì)數(shù)據(jù),圖數(shù)據(jù)庫(kù)是當(dāng)前增長(zhǎng)最快的存儲(chǔ)系統(tǒng) 但是,關(guān)系數(shù)據(jù)庫(kù)的增長(zhǎng)幾乎保持穩(wěn)定,同時(shí),我們還列出了流行的圖數(shù)據(jù)庫(kù)系統(tǒng)及其最新使用排名,其中neo4j系統(tǒng)仍然是使用最廣泛的圖數(shù)據(jù)庫(kù),它擁有活躍的社區(qū)和 查詢效率高,但是唯一的缺點(diǎn)是它不支持準(zhǔn)分布。
4 知識(shí)圖譜的構(gòu)建
知識(shí)圖譜的構(gòu)建的方法主要是采用自底向上的方法,這是一個(gè)反復(fù)的過(guò)程。圖譜的每次的構(gòu)建都需要進(jìn)行更新。每一輪更新包括三個(gè)步驟:信息提取,知識(shí)融合和知識(shí)處理。[5]如圖1所示。信息提取主要是從各種數(shù)據(jù)中提取到實(shí)體、屬性、關(guān)系的過(guò)程,這是最基本的步驟。其次進(jìn)行知識(shí)融合,融合的過(guò)程主要是消除歧義,例如:apple手機(jī)與蘋(píng)果。同時(shí)還需要進(jìn)行實(shí)體合并,關(guān)系的清理或融合。以此來(lái)消除冗余。最后就是知識(shí)處理。經(jīng)過(guò)上述的過(guò)程后,就可以構(gòu)建出一個(gè)知識(shí)圖譜的。
5 知識(shí)圖譜在資源推薦方面的應(yīng)用
網(wǎng)絡(luò)科學(xué)技術(shù)的進(jìn)步,給我們提供了各種各樣的學(xué)習(xí)資源,這些資源都是沒(méi)有分類、魚(yú)龍混雜,沒(méi)有序列關(guān)系,沒(méi)法給網(wǎng)絡(luò)學(xué)習(xí)者提供適合他們的學(xué)習(xí)服務(wù),讓他們更有效率的進(jìn)行學(xué)習(xí),更不可能提供個(gè)性化服務(wù)。 [6]尤其是對(duì)于當(dāng)前的教育領(lǐng)域來(lái)說(shuō),經(jīng)常會(huì)談到個(gè)性化教育的概念,倡導(dǎo)“因材施教”的理念等。而這些教育理念的核心的前提需要了解學(xué)生現(xiàn)有的知識(shí)體系,認(rèn)知風(fēng)格、學(xué)習(xí)特點(diǎn)等。[7]要了解學(xué)生的知識(shí)體系,要依靠于我們從系統(tǒng)上獲得的數(shù)據(jù),類如學(xué)生學(xué)習(xí)課程的數(shù)據(jù)、和同學(xué)老師進(jìn)行互動(dòng)的數(shù)據(jù)、對(duì)課程評(píng)價(jià)的數(shù)據(jù)等等。為了能更好地給學(xué)生提供資源推薦服務(wù),我們首先要分析學(xué)科的知識(shí)結(jié)構(gòu)及可能出現(xiàn)的學(xué)習(xí)路徑,我們需要這方面的概念知識(shí)圖,它只是一個(gè)概念拓?fù)?。我們給出了一個(gè)非常簡(jiǎn)單的概念圖:例如,要學(xué)習(xí)三角形這個(gè)知識(shí)點(diǎn),我們需要先學(xué)習(xí)什么是角等。為了學(xué)習(xí)“學(xué)習(xí)資源”這個(gè)章節(jié),我們要知道什么是學(xué)習(xí)資源等等。對(duì)于這些內(nèi)容的學(xué)習(xí),我們對(duì)學(xué)生的所有評(píng)估和互動(dòng)分析都與概念圖的基礎(chǔ)數(shù)據(jù)密不可分。
5.1 建立學(xué)科知識(shí)圖譜
專業(yè)學(xué)科知識(shí)圖譜的建立,首先要從教材、網(wǎng)絡(luò)上獲取數(shù)據(jù);由于專業(yè)學(xué)科知識(shí)領(lǐng)域的專業(yè)性,因此需要專家人員的涉入,進(jìn)行一定的輔助。教學(xué)資源比普通文本結(jié)果更復(fù)雜,內(nèi)容更分散。本文所有數(shù)據(jù)來(lái)源專業(yè)課程教材及爬去百度百科和豆瓣上數(shù)據(jù)。但從網(wǎng)絡(luò)上獲取的數(shù)據(jù)屬于非結(jié)構(gòu)化的,因此需要進(jìn)行實(shí)體抽取、關(guān)系抽取等這些。通過(guò)上面數(shù)據(jù)加工后,我們對(duì)學(xué)科資源進(jìn)行打標(biāo)簽、關(guān)鍵詞提取。為準(zhǔn)確獲取知識(shí)點(diǎn)的完整性,采用python語(yǔ)言Jieba分詞對(duì)數(shù)據(jù)進(jìn)得預(yù)處理。在用Word2vec對(duì)分詞后的詞語(yǔ)進(jìn)行向量化表示。再進(jìn)行關(guān)系抽取,主要包括前驅(qū)關(guān)系、后繼關(guān)系、兄弟關(guān)系等。前期工作完成后,需用到Neo4j圖數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)數(shù)據(jù),以展現(xiàn)知識(shí)之間的關(guān)系,如圖2。
5.2 生成個(gè)性化學(xué)習(xí)路徑
協(xié)同過(guò)濾算法主要利用用戶行業(yè)數(shù)據(jù)進(jìn)行推薦。要實(shí)現(xiàn)協(xié)同過(guò)濾首先要收集用戶的偏好。協(xié)同過(guò)濾推薦的實(shí)現(xiàn)過(guò)程包括四個(gè)關(guān)鍵步驟:獲取和表示用戶信息、匹配學(xué)習(xí)資源、形成鄰居和生成推薦。獲取的數(shù)據(jù)信息以矩陣形式表示,通過(guò)計(jì)算矩陣稀疏度來(lái)找到數(shù)據(jù)資源,最后尋找相似的學(xué)習(xí)者,這里的相似度主要采用的是余弦相似度計(jì)算,最后才形成了最終的推薦過(guò)程。
5.3 基于知識(shí)圖譜的個(gè)性化資源推薦框架
基于知識(shí)圖譜的資源推薦主要實(shí)現(xiàn)個(gè)性化學(xué)習(xí)推薦和資源管理這兩方面。如圖3所示框架結(jié)構(gòu)。[8]學(xué)習(xí)者信息主要包括學(xué)生個(gè)人信息及在網(wǎng)絡(luò)上學(xué)習(xí)課程的時(shí)間、課程內(nèi)容選擇的教學(xué)資源等。專業(yè)知識(shí)圖譜存儲(chǔ)的則是專業(yè)課程的信息。老師可以從后臺(tái)管理學(xué)生學(xué)習(xí)的各種資源,包括上傳、下載、刪除、更新數(shù)據(jù)等。協(xié)同過(guò)濾算法獲取學(xué)生的信息、學(xué)習(xí)的信息。根據(jù)學(xué)生當(dāng)前認(rèn)知水平,結(jié)合知識(shí)圖譜的結(jié)構(gòu),生成個(gè)性化資源推薦,以供學(xué)生學(xué)習(xí)。
因此,我們可以使用知識(shí)圖譜來(lái)連接有關(guān)的學(xué)習(xí)內(nèi)容知識(shí)點(diǎn),并將當(dāng)前所學(xué)的知識(shí)內(nèi)容與隨后的相關(guān)學(xué)習(xí)內(nèi)容相連接,以推薦其相關(guān)知識(shí)點(diǎn)、習(xí)題、視頻等資源。所以,在此基礎(chǔ)上,我們可以根據(jù)學(xué)習(xí)者的需求出發(fā),結(jié)合他們選擇學(xué)習(xí)的課程,來(lái)給他們推薦一條適合的學(xué)習(xí)路徑,從而為他們提供適合的學(xué)習(xí)資源,這樣更有助于學(xué)生的吸收與消化。
綜上所述,在本文知識(shí)圖譜構(gòu)建的基礎(chǔ)上,知識(shí)圖譜可以有效地集成數(shù)據(jù)資源,但在個(gè)性化推薦方面還有待改進(jìn)。同時(shí),知識(shí)圖譜以一種新的方式在教育研究方面提供了新的想法和思路。知識(shí)圖譜不僅建立相關(guān)學(xué)習(xí)知識(shí)之間的聯(lián)系,并可將學(xué)習(xí)者當(dāng)前的知識(shí)內(nèi)容與后續(xù)的相關(guān)學(xué)習(xí)內(nèi)容聯(lián)系起來(lái)?;诖耍o出學(xué)習(xí)者適合的學(xué)習(xí)路徑及推薦相關(guān)學(xué)習(xí)資源。通過(guò) 此方法構(gòu)建出來(lái)知識(shí)圖譜,更加體現(xiàn)出對(duì)學(xué)生進(jìn)行個(gè)性化的學(xué)習(xí),提供適合學(xué)習(xí)者的資源。以達(dá)到精準(zhǔn)推薦的目的。
6 總結(jié)
知識(shí)圖譜的提出,讓我們可以用一種新的方法來(lái)表現(xiàn)知識(shí)的表示、存儲(chǔ)和管理。它的主要作用還是在于分析關(guān)系,尤其是深度的關(guān)系。知識(shí)的推理目前處于知識(shí)圖譜領(lǐng)域一個(gè)非常重要的研究熱點(diǎn)。有了這樣知識(shí)的推理,這樣就更有利于對(duì)學(xué)習(xí)者進(jìn)行個(gè)性化的推薦。用知識(shí)圖譜展示數(shù)字化教學(xué)資源,將零散的資源整合在知識(shí)圖譜中,使資源不在獨(dú)立,而是彼此聯(lián)系。這樣學(xué)習(xí)者就可以一目了然了解知識(shí)的難重點(diǎn)。同時(shí)知識(shí)圖譜也是動(dòng)態(tài)的,新資源也會(huì)同時(shí)加入。最后,知識(shí)圖譜是一個(gè)既充滿挑戰(zhàn)又非常有前景的領(lǐng)域。我相信,將來(lái),知識(shí)圖譜將滲透到各行各業(yè),并成為一項(xiàng)至關(guān)重要的技術(shù)。
參考文獻(xiàn):
[1] 黃恒琪,于娟,廖曉,席運(yùn)江.知識(shí)圖譜研究綜述[J].計(jì)算機(jī)系統(tǒng)用,2019,28(6):1-12.
[2] 邱立新,張赫.科學(xué)知識(shí)圖譜在文獻(xiàn)分析中的實(shí)用性探究[J].青島科技大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2014,30(4):87-91.
[3] 鐘翠嬌.網(wǎng)絡(luò)信息語(yǔ)義組織及檢索研究[J].圖書(shū)館學(xué)研究,2010,75(17): 68-71.
[4] 曹倩,趙一鳴.知識(shí)圖譜的技術(shù)實(shí)現(xiàn)流程及相關(guān)應(yīng)用[J].情報(bào)理論與實(shí)踐(ITA),2015,12(38):127-132
[5] 劉嶠,李楊, 楊段宏等.知識(shí)圖譜構(gòu)建技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2016,53(3):582-600.
[6] 李振,周東岱.教育知識(shí)圖譜的概念模型與構(gòu)建方法研究[J].電化教育研究,2019(8):78-86,113.
[7] 李振,周東岱,王勇.“人工智能+”視域下的教育知識(shí)圖譜:內(nèi)涵、技術(shù)框架與應(yīng)用研究[J].遠(yuǎn)程教育雜志,2019,37(4):42-53.
【通聯(lián)編輯:張薇】