• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    課程知識本體自動構(gòu)建方法研究

    2018-08-15 08:02:32呂健穎尚福華曹茂俊
    計算機應用與軟件 2018年8期
    關鍵詞:分詞本體文檔

    呂健穎 尚福華 曹茂俊

    (東北石油大學計算機與信息技術學院 黑龍江 大慶 163318)

    0 引 言

    信息化教育下課程資源的建設取得了一定的成就,產(chǎn)生了數(shù)量可觀、門類齊全的課程教學資源。課程學習平臺中資源數(shù)量巨大,缺乏有效的資源獲取途徑,構(gòu)建有效的個性化資源推送系統(tǒng)具有重要意義[1]。學科知識點之間相互關聯(lián)構(gòu)成的知識系統(tǒng)是資源推薦、智能導學的基礎,而現(xiàn)有的在線教育平臺推出的知識體系描述相對粗略,缺乏教學信息的描述,知識點之間只是單一維度的上下位線性關系,缺乏知識之間多維度邏輯關系的體現(xiàn)[2]。課程教學資源都是按照課本教材章節(jié)順序進行設計的,缺乏對知識的有效組織,阻礙了信息化、智能化教學的發(fā)展。本體是關于概念模型的明確的規(guī)范說明,能夠?qū)χR進行很好地組織[3]?;诒倔w的知識模型,在知識獲取中具有重要意義。

    有關本體構(gòu)建方法,岳麗欣等[4]將8 種國外較為成熟的本體構(gòu)建方法以及國內(nèi)的領域本體構(gòu)建方法進行系統(tǒng)總結(jié)進行介紹分析和對比總結(jié),得出目前國內(nèi)領域本體構(gòu)建方法存在的主要問題是本體轉(zhuǎn)換效率低,轉(zhuǎn)換質(zhì)量也得不到保證; 領域本體構(gòu)建方法的發(fā)展趨勢將逐漸轉(zhuǎn)向半自動化或自動化構(gòu)建。國外相關研究對50多個本體構(gòu)建系統(tǒng)及方法進行了分析,得出大部分的本體研究主要關注領域相關的本體構(gòu)建,而較少關注采用自動的方法進行通用領域本體構(gòu)建;本體構(gòu)建過程中概念關系獲取的研究,主要集中在層次類關系的獲取,對非層次類關系獲取的研究較少[5]。在教育領域中,有關課程知識本體的構(gòu)建,許多研究者進行了相關的研究,高丹丹[6]提出一種依據(jù)學科知識地圖與知識字典進行本體構(gòu)建的方法,并在領域?qū)<业闹笇拢瑯?gòu)建了“離散數(shù)學”課程知識本體。劉光蓉[7]按照“C程序設計”課程的相關教學步驟以及教學過程中的知識規(guī)律,將課程知識點中具有代表性的知識概念進行提取,形成了該課程的知識本體。邢科云[8]依據(jù)框架樹的教學知識結(jié)構(gòu)與知識點網(wǎng)的大腦認知方式,將二者相結(jié)合形成課程知識組織模型,并依據(jù)該模型構(gòu)建了“計算機組成與結(jié)構(gòu)”課程知識本體。由此可見,在教育領域中,有關課程知識本體的構(gòu)建大部分基于具體課程教材,雖然依據(jù)一定的教學原理,但主要憑借開發(fā)者的主觀經(jīng)驗,存在費時、費力,易受構(gòu)建者主觀意識限制的問題。

    知識點是在進行教學活動時的基本單位,在新知識的教授與學習過程中,必須按照教學目標逐個知識點地進行[9]。基于知識點蘊含在課程教學資源中的共識,本文提出一種課程知識本體自動構(gòu)建的方法,從課程教學材料中獲取課程知識點及知識點間的關系,并利用本體將課程知識點及其關系進行組織,形成課程知識本體。

    1 課程知識本體概述

    本體是一種能在語義和知識層次上描述或表達某一領域知識的概念模型,是信息系統(tǒng)與人工智能領域的研究熱點,并在許多領域得到廣泛應用,如知識工程、自然語言理解等,特別是在信息抽取中具有重要意義。

    知識是人對客觀事物的認識與規(guī)律的總結(jié)[10]。知識蘊含在課程中,課程中的基本觀念、相關的概念原理、基本法則以及知識間所存在的內(nèi)在規(guī)律構(gòu)成了課程知識的基本結(jié)構(gòu)[8]。課程知識本體可以被定義為“課程中一套得到認同的、關于概念體系明確、正式的規(guī)范說明”,課程知識本體主要由課程中的有關知識以及知識間的內(nèi)在關系組成,構(gòu)建課程知識本體的目標是要對該課程知識進行有效組織,形成對該課程知識結(jié)構(gòu)的共同理解與認識[11]。

    課程的學習由許多章節(jié)教學目標構(gòu)成,一個學習目標包含一個或多個知識點,同一個知識點可以由多個教學目標所共有。知識點分為教學元知識點和教學復合知識點兩種基本類型,元知識點在教學上具有不可劃分性,而復合知識點由兩個或兩個以上的知識點組成[12]。一門課程的知識由許多教學知識點構(gòu)成,從課程教學資源中獲取課程知識點并從中抽取知識點間的關系。最終將知識點及知識點間的關系進行本體表示,形成課程知識本體,實現(xiàn)課程知識的有效組織。

    2 課程知識本體構(gòu)建

    國外目前比較流行的領域本體構(gòu)建方法有:TOVE、METHONTOLOGY、骨架法、KACTUS、SENSUS、IDEF5、七步法等。國內(nèi)則主要是基于需求分解的本體模型構(gòu)建、基于描述邏輯的本體模型以及知識工程的方法[11]。課程知識本體作為一種教育領域的本體,其構(gòu)建中的核心是知識點及知識點間關系的獲取。

    2.1 課程知識本體構(gòu)建框架

    主要包括四個部分,即“文本材料預處理”、“知識點獲取”、“知識點關系抽取”、“本體知識組織”,具體如圖1所示。

    圖1 課程知識本體構(gòu)建框架

    從圖中我們可以看出一個課程知識本體構(gòu)建過程包含以下步驟:

    1) 課程材料文本預處理及分詞:收集課程相關資源,對收集到的課程資料進行預處理,轉(zhuǎn)換格式,去除停用詞,并進行分詞。

    2) 課程知識點獲取:課程知識點蘊含在課程資源文本中,通過對預處理后的文本課程資源進行分析,通過統(tǒng)計目標詞匯在某文檔以及在整個資源文檔集中出現(xiàn)的頻率判定目標詞匯是否為課程知識點。復合知識點的獲取則通過互信息值的大小來判斷。

    3) 課程知識點關系獲?。喊瑑蓚€部分,一是層次類知識點關系的獲取,二是非層次類知識點關系的獲取。

    4) 本體課程知識組織:利用protégé本體構(gòu)建工具構(gòu)建課程知識本體。對課程知識點及知識點間的關系進行組織。

    2.2 課程材料選取及語料預處理

    收集課程有關教學資源,包括有關教材目錄、教學課件、課程教學大綱等,將收集到的課程教學資源匯入csv格式的語料庫中并進行預處理,去除課程資源中的無用信息,進而將課程資源處理為txt文本格式,為下一步的分詞做準備。

    分詞系統(tǒng)中,分詞結(jié)果的優(yōu)化方向主要是對未登錄詞以及新詞的識別[13]。本文利用R語言環(huán)境下的Rwordseg分詞工具進行分詞,Rwordseg引用Java分詞工具Ansj。Ansj是李艦于中科院的ICTCLAS中文分詞算法所撰寫出的開源Java分詞工具。利用Rwordseg自帶詞典進行分詞,存在無法識別專業(yè)領域新詞以及專業(yè)術語的問題,通過自定義詞典的方式將專業(yè)新詞和專業(yè)術語加入分詞詞典,重新進行分詞,以提高分詞的準確性。圖2為語料預處理過程。

    圖2 語料預處理

    R語言中加入自定義的詞典,語句如下:

    >installDict(“new.txt”,dictname=“new”,dicttype=“text”,load=TRUE)

    本文對收集到的“C語言程序設計”課程的相關語料進行分詞及詞性標注,處理的部分結(jié)果如圖3所示。

    圖3 分詞及詞性標注

    其中,m:數(shù)詞;v:動詞;n:名詞 ;vn:名動詞;en:英文; c:連詞; p:介詞。

    2.3 課程知識點獲取

    本體術語抽取方法主要有兩種:基于規(guī)則的方法和基于統(tǒng)計的方法,前者是一種確定性的信息抽取模型,而在目前語言學理論水平和計算技術條件下,無法使用確定的規(guī)則描述所有的自然語言現(xiàn)象,因此,概率統(tǒng)計模型適合大規(guī)模語料信息的抽取[14]。

    向量空間模型VSM(Vector Space Model)是最流行的文本表示模型,VSM將一篇文檔表示為特征空間中的一個向量,向量中每一維對應于文檔中的一個詞,它的權(quán)值為該向量維對應的特征在文檔集中的權(quán)值。假定特征t在文檔k中的詞頻為ftk,權(quán)值為dtk,N表示文檔集中的文檔數(shù),nt表示特征t在整個文檔集中的出現(xiàn)頻率。常見的權(quán)值計算方法包括:布爾權(quán)值法、詞頻權(quán)值法以及TF-IDF權(quán)值法等。其中TF-IDF(Term Frequency Inverted Document Frequency)權(quán)值法由Salton 和Buckley提出,作為詞語領域相關性的評價標準,己經(jīng)被公認為是一種標準的文本向量表示方法[15]。本文通過統(tǒng)計分析分詞后得到的詞匯頻率,利用TF-IDF權(quán)值法獲取課程語料中蘊含的知識點。

    2.3.1TF-IDF權(quán)值法:獲取課程知識點

    TF表示分詞后獲取的某個目標詞匯在某課程資源文檔中的出現(xiàn)頻率;IDF表示該詞匯在整個課程資源文檔集中的出現(xiàn)頻率。

    根據(jù)TF-IDF的定義與公式表示可知:目標詞匯t在給定的某課程文檔k中出現(xiàn)的頻率越高,dtk值越大;而該目標詞匯在整個課程資源文檔集中出現(xiàn)的頻率越高,dtk值越小。dtk值越大,該目標詞匯成為課程知識點的概率也越大。

    2.3.2 互信息:獲取復合知識點

    基于TF-IDF的文本向量表示在構(gòu)造時假設目標詞匯之間相互獨立,使詞匯之間的關系丟失,互信息MI(Mutual Information)用于衡量兩個概念間的相互依賴程度,能有效地彌補VSM模型的不足。而在課程知識中,有很大一部分知識點是復合知識點,利用自然語言處理中的互信息得出知識點間結(jié)合的緊密程度,通過互信息值的大小判斷復合知識點。假設有復合知識點AB,那么知識點A和B之間的互信息可以表示為:

    p(A,B)表示知識點A與知識點B組合作為復合知識點AB在文檔中出現(xiàn)的概率,p(A)表示知識點A在文檔中出現(xiàn)的概率,p(B)表示知識點B在文檔中出現(xiàn)的概率。

    互信息值MI(A,B)用于定量估計知識點A與知識點B之間成為復合知識點的概率?;バ畔⒃酱?,知識點A與知識點B之間結(jié)合的緊密程度越高,兩個知識點成為復合知識點的概率越大;互信息越小,結(jié)合的緊密程度越低,兩個知識點成為復合知識點的概率越小。

    2.4 課程知識點間關系獲取

    課程知識點間關系可分為兩大類:層次類關系與非層次類關系。層次類關系實際上是一種上下位的關系,即課程知識點關系中父知識點與子知識點間的關系。

    本文采用聚類的方法獲取知識點間層次類的關系,非層次類的關系則通過知識點同時出現(xiàn)概率從而進行關聯(lián)分析獲得。

    2.4.1 層次類關系獲取

    一門具體的課程中,父知識點是子知識點的概述,如,“數(shù)組”是“字符數(shù)組”的父知識點,它們之間按課程知識點劃分為父子關系,具有層次關系的特征。

    本文采用聚類分析的方法獲取課程知識點間的層次關系,聚類分析是將相似的數(shù)據(jù)分為同一集群,使集群與集群之間有顯著的差異性。在進行層次聚類前需要計算類間的距離,基于知識點獲取中所構(gòu)建的VSM模型,將文檔集作為概念的向量,從而構(gòu)建“概念-文檔”矩陣,計算概念詞矩陣向量之間的相似度。本文利用余弦系數(shù)獲取向量間的相似度,余弦系數(shù)公式如下:

    式中:x=(x1,x2,…,xp),y=(y1,y2,…,yp)為兩個p維度變量。

    在獲取類間距離后,本文采用自下而上的方法進行層次聚類,在未對對象做聚類之前,將每個對象當作單獨的一個集群,然后根據(jù)集群之間距離大小去合并相近的集群,一直到所有的集群合為一個集群。集群間距離計算公式有三種方法:最短距離,最長距離以及平均連接。

    (1) 最短距離(單一連接,single linkage):A和B兩群距離為A群內(nèi)每個元素到B群內(nèi)每個元素的距離的最小值。

    (2) 最長距離(完全連接,complete linkage):A和B兩群距離為A群內(nèi)每個元素到B群內(nèi)每個元素的距離的最大值。

    (3) 平均連接(average linkage):A和B兩群距離為A群內(nèi)每個元素到B群內(nèi)每個元素的距離的平均值。

    從以上定義中可以看出,平均連接法考慮到集群內(nèi)所有元素,不易受單個元素影響。本文利用平均連接法進行層次聚類,圖4是部分知識點的聚類樹狀圖。

    圖4 聚類樹狀圖

    2.4.2 非層次類關系獲取

    利用關聯(lián)分析獲取課程知識本體,其基本思想是如果兩個概念經(jīng)常出現(xiàn)在同一個句子、同一段落或者整個文檔中,則這兩個概念之間必定存在著某種聯(lián)系,而它們之間聯(lián)系的緊密程度取決于所在的語法單元包括句子、段落、甚至整個文檔的內(nèi)在聚合度,聚合度越緊,則兩個概念之間的緊密程度越高[16]。同理,從課程知識處理文檔中,分析課程知識點間的聯(lián)系,若兩個課程知識點存在于同一文檔中,則這兩個課程知識點存在關系,按知識點間關系劃分,若兩個課程知識點間存在一定關聯(lián),且這兩個課程知識點具有同一個父知識點,則這兩個課程知識點間的關系為兄弟關系;若兩個課程知識點雖然存在關聯(lián),但擁有不同的父知識點,則這兩個課程知識點間的關系為依賴關系。

    在進行關聯(lián)分析時,首先要判斷與某個知識點具有相關性的知識點,利用R語言tm包中findAssocs進行相關度判斷。核心語句如下:

    〉findAssocs(d.dtm, “數(shù)組”,0.7)

    如圖5所示,對“數(shù)組”進行相關度分析,得出與其相關度大于0.7的知識點。

    圖5 相關度分析

    在對課程知識點進行關聯(lián)分析時,必須通過判斷知識點間的支持度與可信度以確定它們之間的關系。

    (1) 支持度(Support):若存在兩個課程知識點,課程知識點A與課程知識點B,若在課程資源文檔集中有S%的文檔中,同時存在課程知識點A與課程知識點B,則S%稱為課程知識A→B點的支持度,即支持度表示課程知識點A伴隨知識點B在課程資源文檔集中出現(xiàn)的概率,即Suppor(A→B)=P(A∪B)。那么對于支持度有Support(A→B)=P(CAB/T)×100%,如果課程資源文檔集的總數(shù)為T,CAB代表兩個知識點A和B在課程資源文檔集中的數(shù)量。

    (2) 可信度(Confidence):CA代表課程知識點A在課程文檔集合中的出現(xiàn)頻次;CB代表課程知識點B在課程文檔集合中的出現(xiàn)頻次。在所有包括有課程知識點A的文獻中,同時C%的文檔中包含有課程知識點B。則C%稱為課程知識點A→B的可信度??尚哦缺硎驹诎n程知識點A的課程資源文檔中,課程知識點B也同時包含在該課程資源文檔中的概率,即在知識點A出現(xiàn)的前提下,知識點B出現(xiàn)的概率P(B|A)。則關于課程知識點關系關聯(lián)分析中可信度的表示為:

    Confidence(A→B)=(CAB/CA)×100%

    通過關聯(lián)規(guī)則構(gòu)建課程知識點間的非分類關系時,只能獲得具有關聯(lián)關系的知識點,無法得出具體的關系。根據(jù)語言學可以知道,動詞是句子的核心,具有相關關系的課程知識點間的動詞,可以判斷知識點間的語義關系。因此,通過統(tǒng)計文本中具有關聯(lián)關系的知識點間的動詞,從而獲取課程知識點間的非分類關系。

    2.5 課程知識本體表示

    本體必須用預先定義的語言來描述。目前本體描述語言可分為三類:基于邏輯的(first-order logic)、基于框架的(frame logic)和基于Web的(RDF,XML,HTML)。主要的本體描述語言有:DAML+OIL、OWL、KIF、CYCL、Loom、CML等[17]。其中,OWL的使用最為廣泛,并成為W3C官方推薦標準。

    斯坦福大學開發(fā)的 Protégé本體構(gòu)建工具支持多種本體表示語言,包括OWL。Protégé中類、關聯(lián)、關聯(lián)約束和推理機制四個要素提供了有關本體概念、類、屬性的構(gòu)建。本文以“C語言程序設計課程”為例,收集該課程相關資源,利用本文所述方法從中獲取該課程的知識點及知識點間的關系,進而用Protégé本體構(gòu)建工具將獲取的課程知識點及知識點間的關系進行本體表示,如圖6所示為該課程部分知識點的本體表示。

    圖6 課程知識本體表示

    3 結(jié) 語

    課程知識本體作為一種重要的課程知識組織技術,在智能學習系統(tǒng)應用中具有重要意義。人工構(gòu)建課程知識本體需要借助領域?qū)<?,因而受專家的影響較大。

    本文利用文本分析相關技術從課程語料中獲取課程知識本體。首先對收集到的課程資源進行預處理,從中獲取課程的知識點,進而利用關聯(lián)聚類等方法分析知識點間的層次類關系以及非層次類關系,最后利用Protégé本體構(gòu)建工具對課程知識點及知識點間的關系進行組織。

    課程知識本體的構(gòu)建的應用是知識的推理與知識的有效推送,如何將本體的構(gòu)建與知識的推理有效結(jié)合,以及在智能教學系統(tǒng)中將知識精準地推送給學生,需要進一步探索。

    猜你喜歡
    分詞本體文檔
    Abstracts and Key Words
    哲學分析(2023年4期)2023-12-21 05:30:27
    有人一聲不吭向你扔了個文檔
    對姜夔自度曲音樂本體的現(xiàn)代解讀
    中國音樂學(2020年4期)2020-12-25 02:58:06
    結(jié)巴分詞在詞云中的應用
    智富時代(2019年6期)2019-07-24 10:33:16
    基于RI碼計算的Word復制文檔鑒別
    值得重視的分詞的特殊用法
    《我應該感到自豪才對》的本體性教學內(nèi)容及啟示
    文學教育(2016年27期)2016-02-28 02:35:15
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    Care about the virtue moral education
    卷宗(2013年6期)2013-10-21 21:07:52
    高考分詞作狀語考點歸納與疑難解析
    夏邑县| 盱眙县| 玛曲县| 滁州市| 朝阳市| 麦盖提县| 泉州市| 洪江市| 昌乐县| 温州市| 齐齐哈尔市| 化州市| 深圳市| 科尔| 洛川县| 来宾市| 梅州市| 富蕴县| 巴青县| 安义县| 澜沧| 溧阳市| 永善县| 亳州市| 青河县| 定安县| 南开区| 正阳县| 兴安盟| 龙口市| 鹰潭市| 阿尔山市| 惠水县| 绥滨县| 岚皋县| 安图县| 玉龙| 云霄县| 洞口县| 汉源县| 宾川县|