摘要:知識(shí)圖譜在海量信息檢索呈現(xiàn)有優(yōu)異的性能,在人工智能領(lǐng)域也大量運(yùn)用知識(shí)圖譜技術(shù)。本文介紹了知識(shí)圖譜的架構(gòu)模型以及每個(gè)模型層次當(dāng)前可運(yùn)用的技術(shù)。分析了操作系統(tǒng)教學(xué)中用到的信息和知識(shí)點(diǎn),整理了操作系統(tǒng)知識(shí)圖譜的本體關(guān)系,最后運(yùn)用知識(shí)圖譜技術(shù)構(gòu)建了一個(gè)簡(jiǎn)單的操作系統(tǒng)教程知識(shí)圖譜。
關(guān)鍵詞:知識(shí)圖譜;知識(shí)抽取;本體;操作系統(tǒng);進(jìn)程
中圖分類號(hào):G642? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)02-0123-02
1 知識(shí)圖譜介紹
知識(shí)圖譜是由Google公司在2012年提出來(lái)的概念。從學(xué)術(shù)的角度定義為:“知識(shí)圖譜本質(zhì)上是語(yǔ)義網(wǎng)絡(luò)(Semantic Network)的知識(shí)庫(kù)”。它以符號(hào)的形式描述物理世界中的概念及其相互關(guān)系。[1]具體來(lái)說(shuō),知識(shí)圖譜是綜合多學(xué)科的理論與方法,利用直觀的圖形象地展示知識(shí)的內(nèi)容,發(fā)展歷史,最終達(dá)到多學(xué)科融合展示的目的。
知識(shí)圖譜早期主要應(yīng)用在海量信息檢索領(lǐng)域,隨著人工智能技術(shù)的快速發(fā)展,知識(shí)圖譜在機(jī)器學(xué)習(xí)領(lǐng)域的應(yīng)用具有更加廣闊的前景。現(xiàn)在機(jī)器在語(yǔ)音識(shí)別和圖像識(shí)別的某些領(lǐng)域已經(jīng)超越人類。所以,未來(lái)人工智能的重點(diǎn)進(jìn)步方向?qū)⑹钦J(rèn)知層,即讓機(jī)器理解這個(gè)世界,更好地與世界交互,為人類服務(wù)。知識(shí)圖譜是機(jī)器學(xué)習(xí)人類思維方式的最好方法。
2 知識(shí)圖譜構(gòu)建過(guò)程
知識(shí)圖譜的構(gòu)建包括數(shù)據(jù)獲取,知識(shí)抽取,知識(shí)融合,見(jiàn)圖1。
知識(shí)抽取包含兩個(gè)層面的內(nèi)容。概念層用于描述術(shù)語(yǔ)與術(shù)語(yǔ)間的關(guān)系及術(shù)語(yǔ)和關(guān)系的約束規(guī)則,被稱為本體。數(shù)據(jù)層用于描述本體的實(shí)例、實(shí)例的屬性和實(shí)例間的聯(lián)系。概念層相當(dāng)于知識(shí)的模具,數(shù)據(jù)層相當(dāng)于知識(shí)的實(shí)例。
知識(shí)抽取主要有自底向上和自頂向下兩種方式。自底向上是先獲得知識(shí)圖譜的實(shí)體數(shù)據(jù),然后再構(gòu)建本體,即從具體到抽象,典型代表是Google的Knowledge Vault。自頂向下的方式則是先定義本體,再將具體數(shù)據(jù)加入知識(shí)圖譜中,典型的有Freebase。
本例中采用自頂向下的構(gòu)建方法,通過(guò)本體編輯器人工的方式進(jìn)行手動(dòng)的構(gòu)建本體。這樣構(gòu)成的知識(shí)圖譜實(shí)體的概念和范圍都是可控的。采用的開(kāi)發(fā)工具是斯坦福大學(xué)發(fā)布的protégé,該工具具有友好的用戶界面。
2.1 實(shí)體識(shí)別
實(shí)體識(shí)別的方法主要分為基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。一般來(lái)說(shuō),基于規(guī)則的方法性能要優(yōu)于基于統(tǒng)計(jì)的方法。但這些規(guī)則往往依賴于具體語(yǔ)言、領(lǐng)域、文本格式,編輯過(guò)程耗時(shí)且容易產(chǎn)生錯(cuò)誤,并且需要有經(jīng)驗(yàn)的語(yǔ)言學(xué)家才能完成。相比而言,基于統(tǒng)計(jì)的方法利用人工標(biāo)注的語(yǔ)料進(jìn)行訓(xùn)練,標(biāo)注語(yǔ)料時(shí)不需要廣博的計(jì)算語(yǔ)言知識(shí),并且可以在較短時(shí)間內(nèi)完成。因此,這類系統(tǒng)在移植到新的領(lǐng)域時(shí)可以不做或少做改動(dòng),只要利用新的語(yǔ)料訓(xùn)練一遍即可。此外,基于統(tǒng)計(jì)的系統(tǒng)要移植到其他自然語(yǔ)言文本也相對(duì)容易些。【2】
2.2 關(guān)系抽取
知識(shí)抽取的另一個(gè)關(guān)鍵部分是關(guān)系抽取。正是由關(guān)系把實(shí)體聯(lián)系在一起才形成了知識(shí)圖譜。目前常見(jiàn)的關(guān)系類別有整體-部分關(guān)系、位置關(guān)系和時(shí)間關(guān)系等。傳統(tǒng)的關(guān)系識(shí)別方法是先定義關(guān)系類型,然后從文本中進(jìn)行抽取?!?】但是實(shí)際上關(guān)系的種類特別多,每個(gè)不同的領(lǐng)域都有屬于該領(lǐng)域特定的關(guān)系。鑒于操作系統(tǒng)知識(shí)圖譜的數(shù)據(jù)量不大,這里采用人工構(gòu)造語(yǔ)義和語(yǔ)法規(guī)則的方式進(jìn)行關(guān)系定義。
2.3 屬性抽取
屬性提取的任務(wù)是為每個(gè)本體語(yǔ)義類構(gòu)造屬性列表。屬性和屬性值的是能夠形成完整的實(shí)體概念的知識(shí)圖譜維度。屬性抽取的數(shù)據(jù)主要來(lái)源于百科類網(wǎng)站包含的半結(jié)構(gòu)化數(shù)據(jù)和相關(guān)領(lǐng)域的結(jié)構(gòu)化數(shù)據(jù)。
3 操作系統(tǒng)知識(shí)圖譜分析和構(gòu)建
通過(guò)對(duì)操作系統(tǒng)課程的深入了解,在此確定了操作系統(tǒng)知識(shí)圖譜的幾個(gè)要素。如圖2:
各要素描述內(nèi)容如表1:
本體可通過(guò)人工編輯的方式手動(dòng)構(gòu)建,也可通過(guò)數(shù)據(jù)驅(qū)動(dòng)自動(dòng)構(gòu)建,然后再經(jīng)質(zhì)量評(píng)估方法與人工審核相結(jié)合的方式加以修正與確認(rèn)。【4】如果實(shí)體數(shù)據(jù)數(shù)量巨大,手動(dòng)構(gòu)建的方式工作量非常大,當(dāng)前主要的本體庫(kù)產(chǎn)品,大部分都是 采用自動(dòng)構(gòu)建技術(shù)而逐步擴(kuò)展形成的?;氐奖疚模b于后臺(tái)數(shù)據(jù)量不大,所以采用了人工編輯的方式,數(shù)據(jù)的存儲(chǔ)也采用關(guān)系數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)存儲(chǔ)。本體構(gòu)建采用Protégé軟件。Protégé提供了本體概念類,關(guān)系,屬性和實(shí)例的構(gòu)建,并且屏蔽了具體的本體描述語(yǔ)言,用戶只需在概念層次上進(jìn)行領(lǐng)域本體模型的構(gòu)建。
利用軟件protégé構(gòu)建本體如圖3,圖4所示。
進(jìn)而可以運(yùn)用protégé插件OWLviz可以生成可視化知識(shí)圖譜。
4 結(jié)束語(yǔ)
上述操作系統(tǒng)知識(shí)圖譜構(gòu)建僅僅是知識(shí)圖譜的一次小小運(yùn)用,還有很多技術(shù)沒(méi)有能夠真正實(shí)踐。知識(shí)圖譜的發(fā)展日新月異,應(yīng)用領(lǐng)域也空間廣大。隨著新的信息技術(shù)的發(fā)展,知識(shí)圖譜的天地一定更加廣闊,值得在此領(lǐng)域做深入研究。
參考文獻(xiàn):
[1] 劉嶠,李楊,段宏,等.知識(shí)圖譜構(gòu)建技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2016,53(3):582-600.
[2] 李暢.信息抽取和實(shí)體消歧[J].福建電腦,2014,30(11):98-99.
[3] 賈丙靜,葛華,李德勝.“慕課” 時(shí)代C語(yǔ)言知識(shí)圖譜的構(gòu)建[J].綿陽(yáng)師范學(xué)院學(xué)報(bào),2018,37(11):100-103.
[4] 徐增林,盛泳潘,賀麗榮,等.知識(shí)圖譜技術(shù)綜述[J].電子科技大學(xué)學(xué)報(bào),2016,45(4):589-606.
【通聯(lián)編輯:王力】