廖開明 施曉圓 王建剛
甘肅開放大學(xué)
隨著數(shù)字技術(shù)的發(fā)展,知識(shí)圖譜已經(jīng)成為文化遺產(chǎn)數(shù)字化保護(hù)的重要手段之一。知識(shí)圖譜是一種用于表示和存儲(chǔ)知識(shí)的圖形化模型,可以將文化遺產(chǎn)的相關(guān)信息進(jìn)行整合和歸納,為文化遺產(chǎn)的保護(hù)和傳承提供有力的支持。甘南地處青藏高原,是中國重要的藏族文化區(qū)域之一,具有豐富多彩的非遺。甘南藏族非遺的數(shù)字化構(gòu)建可以幫助我們更好地理解和研究甘南藏族非遺的內(nèi)涵和外延,為保護(hù)和傳承甘南藏族非遺提供有力的支持。
本文旨在探索甘南藏族非遺知識(shí)圖譜數(shù)字化構(gòu)建的方法和技術(shù),通過實(shí)踐探索,總結(jié)出適合甘南藏族非遺文化的數(shù)字化構(gòu)建模式和經(jīng)驗(yàn),為甘南藏族非遺的保護(hù)和傳承提供有力的支持。
本研究主要包括以下內(nèi)容:
1.甘南藏族非遺知識(shí)圖譜數(shù)據(jù)的獲取方法和技術(shù)。
2.甘南藏族非遺知識(shí)圖譜中實(shí)體的識(shí)別方法和技術(shù)。
3.甘南藏族非遺知識(shí)圖譜中知識(shí)的表示方法和技術(shù)。
4.甘南藏族非遺知識(shí)圖譜的存儲(chǔ)架構(gòu)和技術(shù)。
5.甘南藏族非遺知識(shí)圖譜數(shù)字化構(gòu)建的應(yīng)用與發(fā)展。
為了更好地保護(hù)、傳承和利用甘南藏族非遺,提高其價(jià)值和影響力,采用知識(shí)圖譜技術(shù)進(jìn)行數(shù)字化構(gòu)建是一種重要的方法。下面將探討甘南藏族非遺知識(shí)圖譜的數(shù)字化構(gòu)建方法,包括數(shù)據(jù)獲取、實(shí)體識(shí)別、關(guān)系抽取、知識(shí)表示、存儲(chǔ)架構(gòu)、數(shù)字化構(gòu)建的應(yīng)用與發(fā)展等方面的內(nèi)容。
1.數(shù)據(jù)來源
(1)文獻(xiàn)資料:通過查閱相關(guān)文獻(xiàn)和資料,了解甘南藏族非遺的歷史、發(fā)展、分類、特點(diǎn)等基本信息。以“甘南藏族”“非物質(zhì)文化遺產(chǎn)”“知識(shí)圖譜”為關(guān)鍵詞在CNKI 數(shù)據(jù)庫中共交叉檢索出相關(guān)文獻(xiàn)88 篇。從甘南州文化館、甘南州圖書館等收集相關(guān)圖書資料12 本,各類文件、資料156 頁。
(2)田野調(diào)查:通過實(shí)地走訪和觀察,收集第一手資料,了解甘南藏族非遺在現(xiàn)實(shí)生活中的表現(xiàn)、傳承方式、使用場(chǎng)景等信息。發(fā)放問卷80 份,收回78 份。專家訪談21 人。
(3)傳承人口述:通過采訪甘南藏族非遺的傳承人,了解非遺的制作工藝、傳承方式、歷史淵源等信息。走訪國家級(jí)非遺傳承人13 人,收集文字資料120 頁。
(4)數(shù)字化技術(shù):在文獻(xiàn)查詢、田野調(diào)查和傳承人走訪的基礎(chǔ)上,通過數(shù)字化技術(shù)手段,將甘南藏族非遺的文字、圖片、視頻等數(shù)據(jù)進(jìn)行采集和處理,形成數(shù)字化資源庫,便于后續(xù)的數(shù)據(jù)分析和知識(shí)圖譜構(gòu)建。
(5)社交媒體和網(wǎng)絡(luò)資源:通過社交媒體和網(wǎng)絡(luò)資源,獲取甘南藏族非遺的相關(guān)信息,包括傳承人的動(dòng)態(tài)、非遺項(xiàng)目的相關(guān)新聞和事件等。
2.數(shù)據(jù)獲取方法
(1)數(shù)據(jù)采集:通過田野調(diào)查、傳承人口述、文獻(xiàn)資料、數(shù)字化技術(shù)、社交媒體和網(wǎng)絡(luò)資源等多種渠道,收集與甘南藏族非遺有關(guān)的數(shù)據(jù)。
(2)數(shù)據(jù)清洗和處理:對(duì)采集到的數(shù)據(jù)進(jìn)行清洗和處理,去除重復(fù)、無效、錯(cuò)誤的數(shù)據(jù),確保數(shù)據(jù)的準(zhǔn)確性和完整性。
(3)知識(shí)抽?。簭那逑春吞幚砗蟮臄?shù)據(jù)中提取有用的信息,包括非遺項(xiàng)目的名稱、分類、特點(diǎn)、歷史淵源、傳承方式、使用場(chǎng)景等,以及傳承人的基本信息、動(dòng)態(tài)等。
(4)知識(shí)表示和學(xué)習(xí):利用知識(shí)表示和學(xué)習(xí)算法,將抽取出的知識(shí)轉(zhuǎn)化為計(jì)算機(jī)可理解的形式,構(gòu)建甘南藏族非遺知識(shí)圖譜。
(5)知識(shí)存儲(chǔ)和查詢:將構(gòu)建好的知識(shí)圖譜存儲(chǔ)在數(shù)據(jù)庫中,并設(shè)計(jì)相應(yīng)的查詢接口,方便用戶進(jìn)行查詢和使用。
(6)知識(shí)更新和維護(hù):定期對(duì)知識(shí)圖譜進(jìn)行更新和維護(hù),以保證其準(zhǔn)確性和完整性。
實(shí)體識(shí)別是知識(shí)圖譜構(gòu)建的第一步,其目的是從文本數(shù)據(jù)中識(shí)別出相關(guān)實(shí)體,包括名稱、簡介、特點(diǎn)、傳承人、非遺級(jí)別、類別、內(nèi)容、地點(diǎn)、時(shí)間、保護(hù)措施等。針對(duì)甘南藏族非遺的實(shí)體識(shí)別,可以采用基于規(guī)則和機(jī)器學(xué)習(xí)的方法。
1.基于規(guī)則的實(shí)體識(shí)別
基于規(guī)則的實(shí)體識(shí)別方法是指通過一些預(yù)先定義的規(guī)則來識(shí)別文本中的實(shí)體。通過人工閱讀文本資料,確定出關(guān)鍵詞和實(shí)體的上下文特征,再根據(jù)這些特征定義規(guī)則,最后使用規(guī)則匹配的方式進(jìn)行實(shí)體識(shí)別。這種方法的優(yōu)點(diǎn)是可以快速、準(zhǔn)確地識(shí)別實(shí)體,但其缺點(diǎn)是需要耗費(fèi)大量人力來定義規(guī)則,而且對(duì)于不同的領(lǐng)域、不同的語言,規(guī)則也需要有不同的定義。
2.基于機(jī)器學(xué)習(xí)的實(shí)體識(shí)別
基于機(jī)器學(xué)習(xí)的實(shí)體識(shí)別方法是利用已有的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,得到實(shí)體識(shí)別模型,再用該模型對(duì)新的文本數(shù)據(jù)進(jìn)行實(shí)體識(shí)別。這種方法的優(yōu)點(diǎn)在于可以自動(dòng)學(xué)習(xí)特征,不需要專業(yè)人員進(jìn)行規(guī)則的定義和維護(hù)。對(duì)于甘南藏族非遺采用超星知識(shí)圖譜工具進(jìn)行實(shí)體的識(shí)別與抽取。實(shí)體主要包含五種要素:類別、屬性、函數(shù)、關(guān)系、實(shí)例。
在本文中,我們采用基于正則表達(dá)式的方式來定義實(shí)體識(shí)別規(guī)則。正則表達(dá)式是一種用來描述字符串模式的語言,可以更方便地匹配文本中的實(shí)體。我們根據(jù)甘南藏族非遺相關(guān)文本的特點(diǎn),定義了一系列正則表達(dá)式規(guī)則,如下所示:
文化遺產(chǎn)項(xiàng)目:我們使用了包含“傳統(tǒng)技藝”“傳統(tǒng)工藝”“傳統(tǒng)文化”“非物質(zhì)文化遺產(chǎn)”等關(guān)鍵詞的正則表達(dá)式,來識(shí)別文化遺產(chǎn)項(xiàng)目實(shí)體。
傳承人:我們使用了包含“傳承人”“傳承者”等關(guān)鍵詞的正則表達(dá)式,來識(shí)別傳承人實(shí)體。
應(yīng)用Spacy 自然語言模型,識(shí)別自然語句,將所得到的文本進(jìn)行實(shí)體識(shí)別,下面以甘南唐卡片段為例:
首先加載Spacy 模型,定義抽取函數(shù),定義測(cè)試文本為“甘南藏族非遺包括唐卡、藏戲、泥塑等項(xiàng)目。其中,甘南唐卡是具有代表性的藝術(shù)品之一。甘南唐卡通常由天然顏料繪制,如礦物顏料和植物顏料。甘南唐卡在繪制工藝上具有的特點(diǎn),如色彩鮮艷、圖案精美等”。調(diào)用抽取函數(shù),獲取實(shí)體知識(shí)點(diǎn)。
運(yùn)行程序,輸出結(jié)果:' 甘南藏族非遺',' 唐卡','藏戲', '泥塑', '甘南唐卡', '礦物顏料', '植物顏料'。
關(guān)系抽取是知識(shí)圖譜構(gòu)建的關(guān)鍵步驟之一,其目的是從文本數(shù)據(jù)中抽取實(shí)體之間的關(guān)系,包括層次關(guān)系、屬性關(guān)系和實(shí)體關(guān)系等。針對(duì)甘南藏族非遺的關(guān)系抽取,可以采用基于規(guī)則和基于機(jī)器學(xué)習(xí)的方法。
1.基于規(guī)則的關(guān)系抽取
基于規(guī)則的關(guān)系抽取方法是利用一系列人工定義的規(guī)則來抽取實(shí)體之間的關(guān)系。這種方法的優(yōu)點(diǎn)在于準(zhǔn)確率高,需要專業(yè)人員進(jìn)行規(guī)則的定義和維護(hù)。
2.實(shí)體屬性定義和關(guān)系建立
在實(shí)體屬性定義方面,需要對(duì)每個(gè)實(shí)體進(jìn)行屬性的定義,包括實(shí)體的名稱、簡介、傳承人、地點(diǎn)、時(shí)間、特點(diǎn)、保護(hù)措施等屬性。這些屬性可以根據(jù)實(shí)際情況進(jìn)行調(diào)整和修改。
在關(guān)系建立方面,需要定義不同實(shí)體之間的關(guān)系,以便形成知識(shí)圖譜的結(jié)構(gòu)。
以下代碼在描述概念與概念之間、關(guān)系與關(guān)系之間用到了散點(diǎn)圖的方式。在知識(shí)圖譜中,概念和關(guān)系是知識(shí)圖譜的核心元素。概念通常代表一個(gè)實(shí)體,而關(guān)系則描述了這些實(shí)體之間的關(guān)系。首先定義了一些概念(concepts),然后定義了一些關(guān)系(relationships)。這些關(guān)系是連接兩個(gè)概念之間的關(guān)系。
例如,在relationships 中定義了('甘南藏族非遺','唐卡'),這意味著甘南藏族非遺和唐卡之間存在某種關(guān)系。在知識(shí)圖譜中,這種關(guān)系可以是父子關(guān)系、兄弟關(guān)系、同類型關(guān)系等,具體的關(guān)系需要根據(jù)實(shí)際情況來確定。然后,這段代碼使用matplotlib 庫繪制了一個(gè)散點(diǎn)圖,表示了x 和y 之間的關(guān)系。在知識(shí)圖譜中,這種散點(diǎn)圖可以用來表示概念之間的關(guān)系。例如,如果x 和y 分別代表兩個(gè)概念,那么散點(diǎn)圖上的點(diǎn)就表示這兩個(gè)概念之間的關(guān)系。
最后,這段代碼還使用了matplotlib 庫的xlabel,ylabel,title 等函數(shù)來為圖形添加標(biāo)簽和標(biāo)題。這些標(biāo)簽和標(biāo)題可以幫助用戶更好地理解圖形所表達(dá)的含義。本代碼在描述概念與概念之間、關(guān)系與關(guān)系之間用到了散點(diǎn)圖的方式,這有助于更好地理解知識(shí)圖譜中的概念和關(guān)系。
我們定義概念和關(guān)系。定義概念為(concepts)= '甘南藏族非遺', '唐卡', '藏戲', '泥塑', '甘南唐卡', '礦物顏料','植物顏料'。得到關(guān)系('甘南藏族非遺', '唐卡'),('甘南藏族非遺', '藏戲'),('甘南藏族非遺', '泥塑'),('唐卡', '礦物顏料'),('唐卡','植物顏料'),('藏戲', '甘南唐卡'),('泥塑', '甘南唐卡')。
根據(jù)上述描述,以唐卡為實(shí)體節(jié)點(diǎn),經(jīng)過數(shù)據(jù)清洗后,可以建立以下實(shí)體間的關(guān)系:
唐卡—繪畫藝術(shù):唐卡是一種繪畫藝術(shù),因此它與繪畫藝術(shù)之間存在一種類型關(guān)系。
唐卡—天然顏料:唐卡通常由天然顏料繪制而成,因此它與天然顏料之間存在一種使用關(guān)系。
唐卡—礦物顏料:唐卡使用的顏料包括礦物顏料,因此它與礦物顏料之間存在一種包含關(guān)系。
唐卡—植物顏料:唐卡使用的顏料還包括植物顏料,因此它與植物顏料之間也存在一種包含關(guān)系。
唐卡—甘南藏族文化:唐卡是甘南藏族文化的重要組成部分,因此它與甘南藏族文化之間存在一種文化關(guān)系。
唐卡—非遺:唐卡是非遺的重要代表之一,因此它與非遺之間存在一種代表關(guān)系。
知識(shí)圖譜可視化展示是將知識(shí)圖譜以圖形的形式展示出來,方便用戶進(jìn)行直觀的瀏覽和查詢。在甘南藏族非遺知識(shí)圖譜的可視化展示方面,采用萬方知識(shí)圖譜工具,通過調(diào)整節(jié)點(diǎn)大小、顏色、標(biāo)簽等方式,呈現(xiàn)出直觀美觀的知識(shí)圖譜。
本文通過構(gòu)建甘南藏族非物質(zhì)文化遺產(chǎn)知識(shí)圖譜,探索了非遺數(shù)字化構(gòu)建的方法和技術(shù),并分析了在數(shù)字化構(gòu)建中所面臨的問題和挑戰(zhàn)。通過本文的研究,我們得出了以下結(jié)論:
1.知識(shí)圖譜構(gòu)建是非遺數(shù)字化構(gòu)建的有效方法。通過知識(shí)圖譜的構(gòu)建,可以將非遺多樣化、復(fù)雜化的知識(shí)和文化信息進(jìn)行有效的整合和管理,為非遺傳承、保護(hù)和傳播提供了新的思路和方法。
2.甘南藏族非遺具有豐富多樣的文化內(nèi)涵和歷史價(jià)值。通過知識(shí)圖譜的構(gòu)建,可以更好地展示和傳承這些文化遺產(chǎn)的內(nèi)涵和價(jià)值,促進(jìn)其保護(hù)和傳承。
3.知識(shí)圖譜構(gòu)建過程中需要克服的問題和挑戰(zhàn)包括數(shù)據(jù)來源、實(shí)體識(shí)別、關(guān)系抽取、知識(shí)表示和知識(shí)存儲(chǔ)等方面。未來需要通過更加先進(jìn)的技術(shù)手段來解決這些問題,實(shí)現(xiàn)知識(shí)圖譜構(gòu)建的高效性和可靠性。
基于以上結(jié)論,未來可從以下幾個(gè)方面展開研究:
1.加強(qiáng)非物質(zhì)文化遺產(chǎn)數(shù)字化保護(hù)和傳承的研究。未來可以通過更加先進(jìn)的技術(shù)手段來實(shí)現(xiàn)非物質(zhì)文化遺產(chǎn)數(shù)字化保護(hù)和傳承,以更好地推動(dòng)非遺的傳承和發(fā)展。
2.探索知識(shí)圖譜在其他領(lǐng)域的應(yīng)用。知識(shí)圖譜不僅可以用于非遺數(shù)字化構(gòu)建,還可以用于其他領(lǐng)域的知識(shí)管理和應(yīng)用。未來可以通過跨學(xué)科的研究,推動(dòng)知識(shí)圖譜在更多領(lǐng)域的應(yīng)用。
3.加強(qiáng)對(duì)非遺數(shù)字化構(gòu)建相關(guān)問題的研究。未來需要進(jìn)一步研究非遺數(shù)字化構(gòu)建過程中所面臨的問題和挑戰(zhàn),并探索解決這些問題的方法和技術(shù),以更好地推動(dòng)非遺數(shù)字化構(gòu)建的發(fā)展。
本文的研究為甘南藏族非遺數(shù)字化構(gòu)建提供了一定的思路和方法,但也存在一些局限性。未來需要更多的學(xué)者投身于非遺數(shù)字化構(gòu)建的研究中,不斷拓展研究領(lǐng)域,探索更加有效的研究方法和技術(shù),為非遺的保護(hù)和傳承貢獻(xiàn)力量。