邱聃
(北京工業(yè)大學 軟件學院,北京 100022)
基于思維導圖的小學教育語義本體庫構建
邱聃
(北京工業(yè)大學 軟件學院,北京100022)
針對小學教育領域知識的特點,以利用小學教育語義本體創(chuàng)建思維導圖為應用目的,本文提出了一種基于思維導圖層次結構的本體庫創(chuàng)建方法。該方法通過對本體的需求分析,應用邏輯描述對本體提供了語義定義;從信息收集、概念選擇、屬性關系的建立和語義標簽的添加等方面描述了本體的創(chuàng)建過程;最后,利用經過改進的滿足標簽層次結構屬性的相似度計算方法來完成標簽比對過程,將不同本體關聯(lián)形成本體庫。
思維導圖;小學教育;語義本體;標簽;相似度計算
思維導圖是一種思維工具,呈現(xiàn)的是一個思維過程,它的應用大體可概括在教學領域、企業(yè)管理領域、個人知識管理領域這3個方面。思維導圖呈現(xiàn)的思維過程,是信息組織與共享的關鍵環(huán)節(jié)[1],在教學環(huán)節(jié)的設計中引入思維導圖輔助,不僅能夠充分發(fā)揮學生左右腦的作用,提高學生的學習效率,而且能夠學生的思維能力,形成適合自己的思維方式。同時,思維導圖所呈現(xiàn)出的清晰的關系結構,可以作為語義本體結構層次的參考和依據。
教育資源的本體化,能為學習內容構造清晰的知識體系結構,方便學習資源的組織管理;為學習資源的共享和應用協(xié)作提供了保障;為教學活動提供依據并優(yōu)化其過程,極大地提高教育資源的重用率。雖然教育資源本體化的應用研究已經成為研究的熱點,受到學者們的廣泛關注,并取得了一定的研究成果,但其發(fā)展特別是在小學教育領域還是不夠成熟,主要表現(xiàn)在以下幾個方面:1)能夠實用且廣泛應用的本體庫較少;2)本體庫模型的共享性和重用性不夠,且所構建的本體庫多根據開發(fā)者的主觀經驗來構建;3)自動獲取本體及擴展的相關技術仍不成熟,領域本體的獲取、組織、處理主要以手工的方式;4)沒有形成統(tǒng)一的標準化的本體建模方法,缺乏相應的本體評價標準。
文中首先對小學教育本體進行了需求分析,介紹了小學教育本體庫所需包含的內容;其次介紹小學教育本體的構建思路、創(chuàng)建方法,介紹小學教育本體庫中小學教育領域知識的獲取、概念定義,屬性關系的建立和語義標簽的添加;最后介紹相應的擴展方法。
從思維導圖的基本圖形來看,它的層次結構可以看作是個從中心向四周發(fā)散的“樹狀”結構:有一個中心結點,四周包圍著發(fā)散的子結點,中心結點和子結點是繼承關系、包含關系,整體與部分關系或屬性關系,子結點之間是并列的關系。這種“樹狀”的結構,基本上滿足本體的原始層次結構定義。文中對于小學教育語義本體的定義就是基于思維導圖的層次結構,同時附加上了標簽的概念。這種形式有利于加強本體與本體之間的聯(lián)系,形成本體庫。
1.1本體的需求分析
一個知識點通常包括概念、概念的性質、概念之間的關系、概念之間的一般規(guī)律等。因此,對小學教育本體的研究就需要根據概念之間的類屬關系顯式地建立概念之間的聯(lián)系,明確定義概念所具有的屬性、屬性的取值約束、處理過程、概念之間的關系等;使得看來一目了然的概念和概念之間的關系都形式化地加以描述,使概念之間的各種規(guī)律、聯(lián)系和假設都顯式地描述出來,通過研究確立概念之間的本質聯(lián)系和隸屬關系,建立小學教育領域概念的完整結構,這有利于全面地獲取、分析及利用知識。
本文中,我們將小學教育本體定義為一個五元組{N,F(xiàn),A,R,T}。其中N是教育本體的名字;F是N的父本體名,A是本體的屬性集合,R是本體網絡,由本體間的基本關系組成;T是附加到該本體的標簽集合。
1.2本體的需求獲取
本文在構建小學教育本體時,借鑒了教育主題詞表的分類體系,從小學教育本體的自身需求出發(fā)設計本體的結構,將小學教育本體分為教育活動、教育學科、教育體系結構3個大類。對大類概念再進行二級劃分,例如,教育活動可分為教育管理活動、教學活動等;教育學科再分為語文、數學、英語、思想品德等分支學科;教育體系結構分為各類教育、各級教育等。以此類推,可以繼續(xù)逐級對概念進行細分,從而形成了小學教育本體的概念層次。小學教育本體的概念層次如圖1所示。
圖1 小學教育本體結構Fig.1 Primary education ontology structure
從現(xiàn)有信息源獲取領域知識、以自動方式構建或擴充本體,即所謂的本體學習[2]。
機器學習和統(tǒng)計技術是本體學習使用的主要自動化手段,通過這些手段對結構化、半結構化或非結構化的數據進行處理,從中收集獲取領域知識。對于結構化數據的處理,主要采取將結構化所使用的模型映射到本體結構上的手段[3];對于半結構化或非結構化數據,利用機器學習及自然語言分析來獲取隱含的領域知識。
對于小學教育語義本體的構建,較便捷的方式是使用教育主題詞表、教育辭典以及小學教育領域的語料集進行機器學習,來獲取本體構建所需要的知識,然后用手工方式構建小學教育本體。具體的構建流程如圖2所示。
2.1小學教育領域知識的收集與獲取
圖2 小學教育語義本體庫構建流程Fig.2 Flow chart of construct primary education semantic ontology
小學教育領域所涉及的知識雖然淺顯易懂,但是知識內容豐富,涉及面廣。構建小學教育本體前需要搜集有關小學教育領域的知識。教育主題詞表的部分概念以及詞間分面分類關系是本文研究的一些依據;小學教育學方面的基礎知識是重要補充;小學教育領域的權威專家的隱性知識是小學教育本體概念群選取和關系圈定的關鍵。另外,構建領域知識本體所用的相關文檔和現(xiàn)有的規(guī)章制度、網絡中使用的小學教育專業(yè)文獻、小學的課本書籍都是小學教育領域知識收集與獲取的對象。
2.2選擇概念
這一步驟的主要任務是選擇小學教育領域的基本詞匯術語,準確定義詞匯的概念。在核心概念的基礎上自上而下進行擴展,形成合理完整的概念層次。選擇小學教育詞匯和定義層次時,通常需要借鑒已有的主題詞表、專業(yè)詞典、字典、小學教育專業(yè)書籍、術語等。已有的專業(yè)敘詞表的詞匯分類及定義比較標準,其中所包含的豐富的領域概念和一定的語義關系在表達概念結構上與本體有著緊密聯(lián)系[4],可以作為有效的參考。此外,還可以通過中文分詞切分,得到原始概念。例如,對于平行四邊形的一種定義:對角線互相平分的四邊形是平行四邊形,通過中文分詞切分可得到如下字符串:“對角線/互相平分/的/四邊形/是/平行四邊形”;其中,“的”、“是”這種停用詞舍去,保留“對角線”、“互相平分”、“四邊形”、“平行四邊形”四個短語,亦即原始概念。
2.3建立屬性關系
屬性和關系是構建小學教育本體的基礎[5]。在這一步驟中,需對所選概念詞匯按照上文提到基本關系進行規(guī)范化定義,明確概念之間的關系,這些邏輯關系縱橫交錯,從而形成一個立體的、直觀的語義關系網。在對小學教育領域進行分類時,從教育知識全局內采用繼承關系,盡可能地減少冗余。例如,“對角線”、“互相平分”、“四邊形”、“平行四邊形”這四個概念,它們之間的關系如表1所示。
通過這些屬性關系,可以簡單明了地構建出四邊形下的平行四邊形的部分本體關系。
2.4語義標簽的添加
本文使用標簽這一富含語義的信息來表示本體之間的相似度,需要利用這些信息形成基于本體層次的標簽相似度計算方法。
表1 概念間關系舉例Tab.1 Example of the relationship between the concepts
在下文中,在不出現(xiàn)歧義的情況下我們把上位本體產生的標簽統(tǒng)稱為標簽,即用上位本體的標簽對下位本體做一個標注。例如,在圖3中f是a的上位本體,a是f的下位本體,那么f對a做了一個標注。
圖3以立體圖形為例,展示了本體和標簽的多層次結構。
圖3 標簽層次結構Fig.3 Hierarchical structure of tags
由于標簽的層次性和本體的多標簽性,在利用標簽層次結構度量兩個本體之間的相似性還應滿足一些性質,在本文中,我們用sim來表示相似性。
性質1:擴張性。如果兩個本體只共享一個標簽,那么這個標簽所標注的本體越多,兩個本體的相似性越低。直觀地舉例來說,在圖3中的a和b只共享標簽f,b和e只共享標簽g,其中有3個項目被標注了f,但是有4個項目被標注了標簽g,因此可以有這個結論:sim(a,b)>sim(b,e)。
性質2:距離性。兩個本體的共同標簽如果離他們很近,那么這兩個本體的相似性就比公共標簽離得遠的相似性要大。如圖3所示,本體a和b的共同標簽f是本體b和c的共同標簽h的子孫節(jié)點,那么可得sim(a,b)>sim(b,c)。
性質3:結合性。如果兩個本體擁有多個共同標簽,那么這兩個本體的相似性比擁有單個共同標簽的相似性要大,比在每個共同標簽下的相似性之和要小。如圖3所示,本體b 和c有共同標簽g和h,因此max sim(b,c|T)≤sim(b,c)≤∑Tsim(b,c|T),這里的T指的是共同的標簽集合{g,h}。標簽可以視作本體中某些屬性的簡要描述,擁有共同標簽,就說明兩個本體之間有某些屬性是相同的,而擁有越多共同標簽說明兩個本體之間的相同屬性越多,因此有用多個共同標簽的本體比擁有單個標簽的本體要更為相似。但是,每個標簽所在的屬性可能重復,實際相似程度比計算單個標簽的相似度之和要小。
在這里,分兩步進行來建立標簽的層次結構。
第一步,以進行了部分標注的本體標簽為基礎,對標簽近鄰進行擴展。其基本思想是:基于關聯(lián)規(guī)則[6],把擁有共同標簽的本體視作為關聯(lián)本體,并為其標注關聯(lián)本體的標簽。這一步的標簽標注需采用一定的置信度。
第二步,主要是對進行第一步后仍沒有標注的本體進行標簽擴展,標注依據為本體之間的相似度。它的基本思想是采用余弦距離計算本體之間的相似度,利用前N個最近鄰本體的標簽對未標注本體的標簽進行擴展。
本體庫在構建期間或構建完成之后,會有較大的補充和完善的空間??焖僭黾拥男略~匯與術語,以及隨著對語義相關技術的不斷探索,小學教育領域本體涉及的本體類型不斷地細分擴展,都要求我們在構建語義本體的時候,要隨時對本體庫進行擴展。
3.1關鍵詞抽取
構成新語料的文本詞匯非常多,如果不加區(qū)分把所有的詞匯都作為關鍵詞,則表示文本的向量空間維數就非常大,這樣不僅會對運算效率有影響,而且還使得關鍵特征被淹沒在非關鍵詞中。因此,可以通過機器學習這種方法來獲取類別的關鍵詞,以增加區(qū)分度,同時達到降維的目的。
關鍵詞的提取,可以借助詞頻統(tǒng)計的方法獲得[7]。首先,選取符合主題特征的文本作為語料,從中隨機選取一部分為訓練樣本集,其余作為測試樣本集;然后對訓練樣本集進行中文分詞,并對訓練樣本中的詞頻進行統(tǒng)計。對于絕大多數文本來說,其中都可能出現(xiàn)停用詞,它會對文本自動分類產生“噪音”影響。所以,需要在預處理階段對停用詞進行過濾處理。對訓練樣本進行詞頻統(tǒng)計并去除停用詞后,就可以用TF.IDF方法計算詞匯的權重。最后,按照TF.IDF的計算結果對詞頻進行排序,選取權重值比較高的部分詞匯作為關鍵詞。關鍵詞的選取數量先預設初始值,然后用測試樣本進行測試,根據反復的實驗結果選取最佳值。
3.2標簽比對
把通過關鍵詞抽取形成的語料集,經過知識獲取、概念選擇、建立屬性關系、語義標簽的添加之后,行成了一個新的本體。這時,本體往本體庫中的添加就需要通過標簽的比對來完成。
文獻[8]中提出了能近乎滿足2.4中提出的3種性質的計算方法,這種計算方法基于一種本體的概念相似度計算方法[9]。這種本體的概念相似度計算方法公式如下,假設節(jié)點c在本體中的父節(jié)點是p,那么節(jié)點c和節(jié)點p之間的距離計
其中,d(p)表示節(jié)點p在層次結構中的深度,E(p)表示子節(jié)點的連接數,E表示整個層次結構中節(jié)點的平均子鏈接數,T(c,p)表示連接類型,參數α,β控制節(jié)點深度和節(jié)點的局部密度對邊權值的影響。每一個節(jié)點的信息熵計算公式為IC(c)=-logP(c),其中P(c)指的是節(jié)點c及其所有子節(jié)點出現(xiàn)的概率。
文獻[8]提出將本體c1和c2的相似度通過共同標簽的最短距離的倒數來表示,即sim(c1,c2)=1/minpdt(c1,p,c2)。相似度的取值范圍在[0,1]之間。
在本文中,標簽的比對通過計算標簽的相似度來完成。當兩個標簽的相似度大于0.7時,我們認為這兩個標簽相似,進而這兩個標簽所在的本體相似。在實際情況中,一個本體包含多個標簽,所以我們需要對所有標簽進行相似度計算,然后將所得的值再進行方差運算來判斷。算為:
本體的構建和完善是一個反復迭代的過程,一個成熟易用的建模和擴展方法能對本體庫的構建起到指導作用,文中在分析小學教育領域知識特點基礎上,以思維導圖的層次結構為模型,依據和參考現(xiàn)有的本體構建方法,同時借助《教育主題詞表》的一些概念關系,提出構建小學教育語義本體庫的方法。該方法能夠將小學教育領域內的知識概念詞匯及相互關系以本體庫的形式展現(xiàn)出來。當然,任何一個本體庫構建成功之后,都會有較大的補充和完善的空間??傊?,對小學教育本體庫的建設是一項巨大而繁瑣的任務,有效的構建方法和擴展規(guī)則也有待進一步研究完善。
[1]Anonymous.Maricl,Inc.;Cutting-Edge Social Mind Mapping Web Site Marici.com Launches[J].China Weekly News,2008 (1):121-122.
[2]劉柏嵩.基于Web的通用本體學習研究[D].浙江:浙江大學,2007.
[3]車成逸,馬宗民,焦曉龍.基于結構化信息源的本體構建方法綜述[J].計算機應用研究,2012,29(7):2407.
[4]丁晟春,李岳盟,甘利人.基于頂層本體的領域本體綜合構建方法研究[J].情報理論與實踐,2007,30(2):2.
[5]韓韌,黃永忠,劉振林,等.OWL本體構建方法的研究[J].計算機工程與設計,2008,29(6):1398.
[6]王愛平,王占鳳,陶嗣干,等.數據挖掘中常用的關聯(lián)規(guī)則挖掘算法[J].計算機技術與發(fā)展,2010,20(4):105.
[7]楊穎,戴彬.基于多特征的中文關鍵詞抽取方法[J].計算機應用與軟件,2014,31(11):110.
[8]孫遠帥.基于大數據的推薦算法研究[D].福建:廈門大學,2014.
[9]Jiang J,Conrath D.Semantic Similarity Based on Corpus Statistics and Lexical Taxonomy[C].In Proceedings of ROCLING'1997.New York:ACM Press,1997:19-33.
Construct primary education semantic ontology library based mind mapping
QIU Dan
(School of Software Engineering,Beijing University of Technology,Beijing 100022,China)
Researches conducted for Mind mapping application in primary education semantic ontology,while considering unique characteristics of primary education,paper proposed a solution based on cluster structure derived from mind mapping. The method provided a logical description of the ontologies to precisely define semantics by analyzing requirement;The process of constructing ontology is described from information collection,concept selection,establishment of attribute relationship and adjunction of semantic tags;Finally,similarity calculation method that improved and meet the hierarchical structure of tags were completed the process of tag comparison and adapted to associate different ontologies to form ontology library.
mind mapping;primary education;semantic;ontology;tag;similarity
TN709
A
1674-6236(2016)03-0053-04
2015-03-26稿件編號:201503366
邱 聃(1986—),男,浙江臨安人,碩士研究生。研究方向:軟件工程。