郭鳳 鄭慧敏 劉菲洋
西藏民族大學(xué)信息工程學(xué)院,陜西 咸陽 712000
非物質(zhì)文化遺產(chǎn)是中國優(yōu)秀傳統(tǒng)文化的重要組成部分,是中華文明五千年來綿延傳承的生動(dòng)見證。觀研報(bào)告網(wǎng)發(fā)布的報(bào)告顯示,截至2021年末我國共有國家級(jí)非遺項(xiàng)目3610 項(xiàng),國家級(jí)非遺代表性傳承人3068人??梢钥闯?,我國在少數(shù)民族非遺保護(hù)工作方面取得了比較顯著的成就[1]。西藏人民在西藏這片土地上創(chuàng)造出了許多獨(dú)特的民族文化,并形成了他們自己獨(dú)有的飲食習(xí)慣和風(fēng)俗。非遺文化往往因?yàn)椴槐蝗藗兪熳R(shí)和缺乏傳承人而難以被保護(hù),為了讓非遺文化被更多人所熟知,同時(shí)也為了讓西藏特產(chǎn)被更多人所了解,本論文利用知識(shí)圖譜技術(shù)將西藏特產(chǎn)可視化展現(xiàn)出來,通過知識(shí)圖譜技術(shù)來向人們介紹西藏特產(chǎn),讓人們更好的了解西藏特產(chǎn),了解西藏,能更好的傳播西藏的非物質(zhì)文化遺產(chǎn),達(dá)到對(duì)西藏非物質(zhì)文化遺產(chǎn)進(jìn)行保護(hù)和傳承的目的。
經(jīng)過多年的發(fā)展,知識(shí)圖譜在人工智能的許多行業(yè)如語義搜索、地圖解析、信息處理等獲得了廣泛的應(yīng)用,成為了現(xiàn)代自然語言處理技術(shù)發(fā)展的技術(shù)中心和有力工具[2]。例如本論文所涉及的西藏特產(chǎn)相關(guān)知識(shí)整體利用知識(shí)圖譜聯(lián)系起來,簡潔快速地回答復(fù)雜的業(yè)務(wù)問題,甚至知識(shí)圖譜技術(shù)可以讓AI更加高效。
傳統(tǒng)的非遺文化與新時(shí)代之間總存在摩擦,如何讓非遺文化在融入當(dāng)代社會(huì)的基礎(chǔ)上更好地保留其自身的獨(dú)特性,是非遺文化繼承和保護(hù)的重點(diǎn)[1]。當(dāng)前國內(nèi)對(duì)于西藏特產(chǎn)知識(shí)圖譜的整理、建模、數(shù)據(jù)分析和挖掘研究比較少。本論文研究通過建立西藏特產(chǎn)知識(shí)圖譜,對(duì)西藏特產(chǎn)知識(shí)及其關(guān)系進(jìn)行關(guān)系梳理、分類、整合和建模,為西藏特產(chǎn)的研究提供全方位、整體性、關(guān)系鏈的參考,同時(shí)為西藏特產(chǎn)文化傳承保護(hù)及其研究提供數(shù)據(jù)來源和依據(jù)。
知識(shí)圖譜是一種用圖模型來描述知識(shí)和建模世界萬物之間關(guān)聯(lián)關(guān)系的技術(shù)方法,能夠用概念、實(shí)體以及它們之間豐富的關(guān)聯(lián)關(guān)系將知識(shí)進(jìn)行結(jié)構(gòu)化組織。知識(shí)圖譜是包括實(shí)體(Entity)、概念(Concept)及其之間的各種語義關(guān)系的一種大規(guī)模語義網(wǎng)絡(luò),通常表示為典型的圖結(jié)構(gòu),即三元組?;谶@種圖結(jié)構(gòu),能夠?qū)F(xiàn)實(shí)世界中所有的實(shí)體及實(shí)體間的關(guān)系,以一種統(tǒng)一的描述框架進(jìn)行表示,如“實(shí)體-關(guān)系-實(shí)體”以及“實(shí)體-屬性-屬性值”的三元組組成[3]。這使得知識(shí)圖譜相對(duì)于純文本形式的知識(shí)而言對(duì)機(jī)器更友好。
Protégé 軟件是Stanford 大學(xué)基于Java 語言開發(fā)的本體編輯和知識(shí)獲取軟件,屬于開放源代碼軟件,主要用于語義網(wǎng)(Semantic Web)中本體的創(chuàng)建[4]。Protégé 提供了本體概念類、關(guān)系、屬性以及實(shí)例的創(chuàng)建,并且屏蔽了具體的本體描述語言,用戶只需在概念層次上進(jìn)行領(lǐng)域本體模型的構(gòu)建[4]。
Neo4j 圖數(shù)據(jù)庫是一種利用圖形結(jié)構(gòu)存儲(chǔ)和查詢數(shù)據(jù)的數(shù)據(jù)庫系統(tǒng),其基本組成結(jié)構(gòu)是:節(jié)點(diǎn)、關(guān)系和屬性[5]。Neo4j 圖數(shù)據(jù)庫是一種利用圖形結(jié)構(gòu)存儲(chǔ)和查詢數(shù)據(jù)的數(shù)據(jù)庫系統(tǒng),它具有圖形結(jié)構(gòu)數(shù)據(jù)存儲(chǔ)和便利的功能,解決了關(guān)系型數(shù)據(jù)庫存儲(chǔ)圖結(jié)構(gòu)數(shù)據(jù)時(shí)出現(xiàn)的空間浪費(fèi)等問題。
互聯(lián)網(wǎng)上的數(shù)據(jù)大多都是結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化的。非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。比如對(duì)特產(chǎn)的描述,可能是一段文本或是一張圖片,這就是非結(jié)構(gòu)化數(shù)據(jù),但這些數(shù)據(jù)里面已經(jīng)存儲(chǔ)了一些信息,反映出知識(shí)圖譜里西藏特產(chǎn)的一些屬性,所以需要對(duì)數(shù)據(jù)里面的信息進(jìn)行抽取。本論文中的數(shù)據(jù)幾乎為非結(jié)構(gòu)化數(shù)據(jù),故對(duì)其它兩種數(shù)據(jù)類型不再進(jìn)行過多的贅述。
從數(shù)據(jù)里需要抽取的信息是實(shí)體、屬性、關(guān)系。例如,在一段信息里面,提取出牛瓊以及易貢藏刀這兩個(gè)實(shí)體,然后再進(jìn)行一個(gè)關(guān)系提取。經(jīng)過分析,會(huì)產(chǎn)生一個(gè)對(duì)應(yīng)關(guān)系,牛瓊是易貢藏刀的傳承人。另外還有屬性提取,比如易貢藏刀的產(chǎn)地是西藏自治區(qū)林芝市。在這些提取完成之后獲取的數(shù)據(jù)信息都是比較零散的,我們需要對(duì)獲得的信息做一個(gè)整合。
整個(gè)構(gòu)建過程中需要運(yùn)用知識(shí)抽取、實(shí)體對(duì)齊和實(shí)體消歧[6]。關(guān)于實(shí)體對(duì)齊,舉例來說,珞巴柳葉刀藏刀是中文名稱,Lhoba Lancet 是它的英文名稱,但其實(shí)這兩個(gè)指的是同一個(gè)實(shí)體。由于文本的不一樣,開始的時(shí)候?qū)е逻@是兩個(gè)實(shí)體,這就需要我們對(duì)它進(jìn)行實(shí)體對(duì)齊,把它統(tǒng)一化。在本項(xiàng)目中,針對(duì)這兩個(gè)實(shí)體,我們將英文名稱設(shè)置為實(shí)體的一個(gè)屬性。同理,實(shí)體消歧也是如此。
信息抽取結(jié)束后,進(jìn)行本體抽取。如之前提到的易貢藏刀和珞巴柳葉刀,它們的本體是藏刀。從文本里面可能無法直接提取出來,需要一些方法對(duì)他們進(jìn)行抽取。然后搭建出本體庫,比如藏刀是特產(chǎn)中的一個(gè)類別,它是有上下流關(guān)系的。對(duì)于同一級(jí)別的實(shí)體也需要計(jì)算他們的相識(shí)度,比如易貢藏刀和珞巴柳葉刀在實(shí)體層面,它們是比較相似的,它們都屬于藏刀這個(gè)本體。
一個(gè)知識(shí)圖譜可以視作三元組的集合。構(gòu)建知識(shí)圖譜是一個(gè)迭代更新的過程。本論文“西藏特產(chǎn)關(guān)系知識(shí)圖譜”采用自頂向下的構(gòu)建方式,并使用Protégé 建模工具構(gòu)建模型,其主要關(guān)鍵技術(shù)構(gòu)架如圖1所示。
圖1 知識(shí)圖譜的關(guān)鍵技術(shù)構(gòu)架圖
利用網(wǎng)絡(luò)爬蟲技術(shù)在百度百科、谷歌瀏覽器、知網(wǎng)等多處網(wǎng)站搜集需要的西藏特產(chǎn)的數(shù)據(jù)資料,將需要的數(shù)據(jù)保存成.csv 文件。本研究的數(shù)據(jù)內(nèi)容包括每個(gè)特產(chǎn)的名稱、類別、用途、藏文表示等,這些數(shù)據(jù)都為文本內(nèi)容信息。
表1 西藏特產(chǎn)搜集的數(shù)據(jù)(部分)
3.2.1 實(shí)體抽取。實(shí)體抽取是一項(xiàng)非常常見的NLP任務(wù),實(shí)體抽取也就是命名實(shí)體識(shí)別,包括實(shí)體的檢測(cè)和分類[7]。本研究依據(jù)特產(chǎn)的特定特征,采用人工預(yù)定義實(shí)體分類體系的方式,輸出該領(lǐng)域的高質(zhì)量詞語。本論文將實(shí)體分為三類,分別是特產(chǎn)、人物、地區(qū)。通過人工清洗的方法,依據(jù)百度詞條的詞條分類,將特產(chǎn)分為哺乳類、藏刀、藏毯、藏香、藏鞋、藏族服飾、藏族藥膳、茶類、豆類、蜂蜜類、服飾材料、干果類、糕點(diǎn)、哈達(dá)、葷菜類、酒類、面具、奶制品、鳥類、其它、食材、飾品、水果、素菜、唐卡、小吃、魚類、中藥材類、主食共29 大類,每一類的特產(chǎn)具體到了產(chǎn)地、特征/特色、英文名、藏文表示等,并將“地區(qū)”類細(xì)分為“省/區(qū)級(jí)地區(qū)”和“市縣地區(qū)”兩大類。
3.2.2 關(guān)系抽取。關(guān)系抽取主要用于從非結(jié)構(gòu)化文本數(shù)據(jù)中識(shí)別實(shí)體對(duì)象及實(shí)體間語義關(guān)系,將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的知識(shí)。本項(xiàng)目采用基于規(guī)則的方法依賴人工編寫關(guān)系規(guī)則,在文本中匹配符合關(guān)系規(guī)則的信息,從而實(shí)現(xiàn)實(shí)體關(guān)系的抽取。本論文創(chuàng)建兩個(gè)不同類之間的關(guān)系為“產(chǎn)自”“傳承人”,即一種特產(chǎn)產(chǎn)自哪一地區(qū),特產(chǎn)的傳承人是誰,論文中沒有設(shè)置人物和地區(qū)之間的關(guān)系。例如:拉孜藏刀產(chǎn)自日喀則市,它的傳承人是次旦旺加、瓊巴拉、普達(dá)瓦、普布。
3.2.3 屬性抽取。屬性抽取是給定一個(gè)實(shí)體以及該實(shí)體的描述文本,從文本中抽取出與該實(shí)體相關(guān)的屬性及其屬性值[8]。結(jié)合所構(gòu)建的西藏特產(chǎn)關(guān)系知識(shí)模型,抽取特產(chǎn)名稱,藏文表示,類別,英文名,特色等關(guān)鍵屬性數(shù)據(jù)。
本項(xiàng)目模型的構(gòu)建使用的是Protégé。依據(jù)確定的特產(chǎn)本體核心類,利用Protégé 工具對(duì)特產(chǎn)本體類與關(guān)系屬性進(jìn)行創(chuàng)建,創(chuàng)建“特產(chǎn)”“傳承人”“地區(qū)”三個(gè)大類,再在“特產(chǎn)”類下將其細(xì)分為“藏刀類”“藏毯類”“藏鞋類”等29大類,將“地區(qū)”類細(xì)分為“省/區(qū)級(jí)地區(qū)”和“市縣地區(qū)”兩大類。創(chuàng)建類之間的關(guān)系“產(chǎn)自”“傳承人”,創(chuàng)建特產(chǎn)類的屬性“外文名”“特色/特性”和“別稱”。將獲取到的屬性導(dǎo)入,形成西藏特產(chǎn)關(guān)系應(yīng)用本體,其構(gòu)建本體的部分截圖2~5。
圖2 構(gòu)建實(shí)體屬性
圖3 地區(qū)實(shí)體
圖4 人物實(shí)體
圖5 構(gòu)建本體展示(部分)
Neo4j有多種數(shù)據(jù)導(dǎo)入的方法,本論文使用將.csv數(shù)據(jù)導(dǎo)入Neo4j中進(jìn)行存儲(chǔ)。將所獲取的實(shí)體、關(guān)系存放到.csv 文件中,通過對(duì)數(shù)據(jù)的分析,創(chuàng)建了三個(gè).csv文件,分別為s.csv、tt.csv、kk.csv。其中s.csv和tt.csv為實(shí)體文件,kk.csv 為關(guān)系文件,將搜集的.csv 文件存入Neo4j/import文件夾下后啟動(dòng)Neo4j,把數(shù)據(jù)導(dǎo)入Neo4j中,形成項(xiàng)目所需的數(shù)據(jù)庫。如下表2~4,圖6~7。
表2 實(shí)體文件s.csv
表3 實(shí)體文件tt.csv
表4 關(guān)系文件kk.csv文件
圖6 數(shù)據(jù)本體
圖7 特產(chǎn)屬性(部分)
網(wǎng)頁布局是網(wǎng)頁設(shè)計(jì)開發(fā)工作的重要組成部分,通過合理的網(wǎng)頁布局能夠?qū)崿F(xiàn)網(wǎng)頁功能的精準(zhǔn)定位,增強(qiáng)網(wǎng)頁展示效果,使用戶能夠在較短的時(shí)間內(nèi)找到目標(biāo)元素[9]。本項(xiàng)目主要通過使用HTML5 和D3.js 來實(shí)現(xiàn)知識(shí)圖譜在網(wǎng)頁中的可視化。D3.js 是一個(gè)開源Java Script 庫,用于瀏覽器中創(chuàng)建交互式可視化[10]。D3.js 可視化庫將力導(dǎo)向圖的繪制功能封裝在庫包之中,有效地調(diào)用相關(guān)工具可以將相應(yīng)的實(shí)體和關(guān)系導(dǎo)入即可實(shí)現(xiàn)網(wǎng)絡(luò)關(guān)系的可視化。
本文將.csv 文件中的西藏特產(chǎn)數(shù)據(jù)導(dǎo)為后綴名為.json 的文件,并對(duì).json 文件進(jìn)行一定的修改,便于網(wǎng)頁前端的使用。利用HBuilder 建立了名為Tibetan Specialties 的項(xiàng)目,在此文件夾下放置多個(gè)目錄文件,再將.json 文件放入data 目錄下,在項(xiàng)目文件下創(chuàng)建.html文件,并創(chuàng)建后綴名為.css 的文件設(shè)置網(wǎng)站格式。前端和后端的數(shù)據(jù)利用.json 文件進(jìn)行傳輸交互,將Neo4j中的數(shù)據(jù)引入在.html文件中,在.html文件中編寫搭建網(wǎng)頁的前端代碼,讓前后端進(jìn)行聯(lián)系。而后運(yùn)行代碼,使.json文件中連接的數(shù)據(jù)庫里面的數(shù)據(jù)直觀的在網(wǎng)頁里顯示出來,實(shí)現(xiàn)知識(shí)圖譜的可視化。用戶可以通過網(wǎng)頁右端的粉紅色搜索框中根據(jù)左端的類別進(jìn)行相關(guān)搜索,同時(shí)也可以點(diǎn)擊左端圖例查看不同類別下的特產(chǎn),找到用戶所需的信息,從而更加深入地了解西藏特產(chǎn)。展示效果如下圖8~9所示。
圖8 西藏特產(chǎn)類別展示
圖9 西藏特產(chǎn)中藥材類網(wǎng)頁展示
本論文首先介紹知識(shí)圖譜項(xiàng)目構(gòu)建背景,然后介紹知識(shí)圖譜、Protégé、圖數(shù)據(jù)庫Neo4j 的定義,根據(jù)西藏特產(chǎn)知識(shí)圖譜的構(gòu)建流程,對(duì)獲取到的數(shù)據(jù)進(jìn)行篩選清洗預(yù)處理,完成數(shù)據(jù)的存儲(chǔ)。利用Protégé本體建模工具進(jìn)行語義網(wǎng)絡(luò)的模型構(gòu)建,利用Neo4j圖形數(shù)據(jù)庫存儲(chǔ)西藏特產(chǎn)知識(shí)圖譜。在制作好的知識(shí)圖譜中包含了有關(guān)西藏特產(chǎn)的藏文名、產(chǎn)地、特色等等,形成較為完善的知識(shí)圖譜。構(gòu)建的知識(shí)圖譜具備一定的搜索功能,讓西藏特產(chǎn)分類一目了然,從圖譜中我們可以清楚的了解到西藏地區(qū)的特產(chǎn),幫助人們快速尋找信息從而了解有關(guān)西藏特產(chǎn)的信息資料。同時(shí)該圖譜可以給需要西藏特產(chǎn)的買家提供便利,用知識(shí)圖譜的方式呈現(xiàn)出較為方便完善的西藏特產(chǎn)信息資料,便于買家查找了解,從而購買適合的西藏特產(chǎn)。我們通過創(chuàng)新的方式利用知識(shí)圖譜將西藏特產(chǎn)推廣給大眾,讓人們進(jìn)一步了解西藏特產(chǎn),了解西藏。
當(dāng)前知識(shí)圖譜技術(shù)已經(jīng)被廣泛用于處理結(jié)構(gòu)化數(shù)據(jù)和文本數(shù)據(jù),但本項(xiàng)目在構(gòu)建和實(shí)施過程中對(duì)人工的依賴程度還較高,導(dǎo)致構(gòu)建成本高、效率低,在相對(duì)通用的知識(shí)圖譜中自動(dòng)化、大規(guī)模、高質(zhì)量的構(gòu)建技術(shù)扔有待探索。
本項(xiàng)目研究還存在一些不足,項(xiàng)目數(shù)據(jù)大多來自互聯(lián)網(wǎng)搜索,并沒有去西藏實(shí)地考察,特產(chǎn)種類沒有足夠齊全。搜集并發(fā)現(xiàn)更多的西藏特產(chǎn),完善和拓展知識(shí)圖譜,找到更多詳細(xì)的特產(chǎn)特征,增加其它多種節(jié)點(diǎn)和關(guān)系的屬性展示是進(jìn)一步要完成的工作。在有一定條件的基礎(chǔ)上去西藏地區(qū)實(shí)地考察,這一方法對(duì)本項(xiàng)目研究西藏特產(chǎn)知識(shí)圖譜有重要意義和一定的促進(jìn)作用。