摘 要:
我國(guó)語(yǔ)言資源數(shù)據(jù)庫(kù)建設(shè)已初具規(guī)模,但目前學(xué)界對(duì)語(yǔ)言資源數(shù)字的長(zhǎng)期管理與保存關(guān)注不夠。為提升現(xiàn)有語(yǔ)言資源數(shù)字管護(hù)水平,現(xiàn)借鑒國(guó)外生命周期理論模型——DCC管護(hù)生命周期模型,從其11個(gè)關(guān)鍵操作步驟及原則,即“概念化”“創(chuàng)建或接收”“評(píng)估和選擇”“歸檔”“保存行動(dòng)”“存儲(chǔ)”“訪問(wèn)、使用和重用”“轉(zhuǎn)換”“處置”“重新評(píng)估”“遷移”,來(lái)探討我國(guó)語(yǔ)言資源數(shù)字管護(hù)策略,以期為該領(lǐng)域研究提供思路和實(shí)踐方法。
關(guān)鍵詞:
語(yǔ)言資源;生命周期理論;數(shù)字管護(hù)
中圖分類號(hào): H087
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 072 07
收稿日期: 2024-10-01
基金項(xiàng)目:
國(guó)家社科基金重大項(xiàng)目“基于大型語(yǔ)料庫(kù)的中原官話共時(shí)比較與歷時(shí)探考研究”(21amp;ZD286);湖南省社科基金重大項(xiàng)目“湖南方言口傳文化采輯及語(yǔ)料庫(kù)建設(shè)研究”(20ZDAJ011)
作者簡(jiǎn)介:
陳仁東,女,暨南大學(xué)華文學(xué)院教師。
Digital Curation Strategies for Language Resources
Based on Lifecycle Theory
CHEN Rendong
(College of Chinese Language and Culture, Jinan University, Guangzhou 510632, China)
Abstract:
The development of language resource databases in China has progressed significantly. However, greater emphasis should be placed on the long-term management and preservation of language resource data. This study investigates ways to improve the level of digital curation of existing language resources by employing a foreign life cycle theoretical model—the DCC Curation Lifecycle Model. It explores digital curation strategies for China’s language resources based on the model’s 11 key operational steps and principles: Conceptualise; Create or Receive; Appraise amp; Select; Ingest; Preservation Action; Store; Access, Use amp; Reuse; Transform; Dispose; Reappraise; and Migrate. The aim is to provide some preliminary thoughts and practical methods for studies in this field.
Key words:
language resources; lifecycle theory; digital curation
一、問(wèn)題的提出
語(yǔ)言是人類最重要的交際工具,也是儲(chǔ)存文化信息的載體,同時(shí)其本身還是文化的核心構(gòu)成要素。聯(lián)合國(guó)教科文組織明確指出語(yǔ)言屬于非物質(zhì)文化遺產(chǎn)[1]。語(yǔ)種猶如物種[2],一旦消失,基本無(wú)法逆轉(zhuǎn)。我國(guó)是世界上語(yǔ)言資源最為豐富的國(guó)家之一,除了現(xiàn)代漢民族共同語(yǔ)以外,還有豐富的方言、少數(shù)民族語(yǔ)言等語(yǔ)言資源。然而,隨著社會(huì)的高速發(fā)展和人口的廣泛流動(dòng),不少弱勢(shì)語(yǔ)言瀕危,有的甚至已經(jīng)走向衰亡。據(jù)調(diào)查,近90%的語(yǔ)種使用人口在萬(wàn)人以下,部分語(yǔ)種的使用者甚至僅剩十幾人或更少[3]1。語(yǔ)言的消失意味著文化的消亡,其嚴(yán)重性堪比物種滅絕。
國(guó)家高度重視語(yǔ)言資源的保護(hù)與開發(fā)利用,并將其上升到國(guó)家戰(zhàn)略地位,十余年來(lái)先后出臺(tái)了《國(guó)家中長(zhǎng)期語(yǔ)言文字事業(yè)改革和發(fā)展規(guī)劃綱要(2012—2020年)》《國(guó)家語(yǔ)言文字事業(yè)“十三五”發(fā)展規(guī)劃》《關(guān)于實(shí)施中華優(yōu)秀傳統(tǒng)文化傳承發(fā)展工程的意見(jiàn)》等綱領(lǐng)性文件。同時(shí),在全國(guó)范圍內(nèi)也掀起了語(yǔ)言資源保護(hù)熱潮[4-5],建立了一批語(yǔ)言資源數(shù)據(jù)庫(kù),以對(duì)語(yǔ)言資源進(jìn)行數(shù)字化保護(hù)和保存。
當(dāng)今,我國(guó)語(yǔ)言資源數(shù)據(jù)庫(kù)建設(shè)已初具規(guī)模,但學(xué)界對(duì)語(yǔ)言資源數(shù)字管護(hù)[6]關(guān)注不夠。有鑒于此,本文擬借鑒國(guó)外生命周期理論模型——DCC管護(hù)生命周期模型,從其11個(gè)關(guān)鍵操作步驟及原則來(lái)嘗試探討我國(guó)語(yǔ)言資源的數(shù)字管護(hù)策略,以為該領(lǐng)域研究提供思考和實(shí)踐方法。
二、語(yǔ)言資源數(shù)字管護(hù)研究現(xiàn)狀
(一)國(guó)內(nèi)研究現(xiàn)狀
20世紀(jì)80年代、90年代,我國(guó)語(yǔ)言數(shù)據(jù)庫(kù)建設(shè)開始起步。其中,“現(xiàn)代漢語(yǔ)方言音庫(kù)”是最早采用卡式錄音機(jī)存儲(chǔ)聲音文件的有聲數(shù)據(jù)庫(kù)(2004年轉(zhuǎn)換為數(shù)字形式)[7],其徹底改寫了語(yǔ)言數(shù)據(jù)僅能記錄而無(wú)法重聽(tīng)的歷史。進(jìn)入21世紀(jì)后,隨著科學(xué)技術(shù)的不斷進(jìn)步,語(yǔ)言數(shù)據(jù)庫(kù)的建設(shè)進(jìn)入新階段,數(shù)字型數(shù)據(jù)庫(kù)開始出現(xiàn),并呈增長(zhǎng)之勢(shì),近幾年來(lái)發(fā)展迅速,先后建成“中國(guó)語(yǔ)言資源保護(hù)工程采錄展示平臺(tái)”(2020)[8]、“漢藏語(yǔ)言數(shù)據(jù)資源平臺(tái)”(2021)[9]、“國(guó)家語(yǔ)言資源服務(wù)平臺(tái)”(2022)[10]、“中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注文本語(yǔ)料庫(kù)”(2023)[11]等一批語(yǔ)言資源數(shù)據(jù)庫(kù)。其中,“中國(guó)語(yǔ)言資源保護(hù)工程采錄展示平臺(tái)”是世界上迄今為止最大的音視圖文齊備的多模態(tài)語(yǔ)言資源庫(kù)。這些數(shù)據(jù)庫(kù)的建立說(shuō)明我國(guó)語(yǔ)言資源庫(kù)建設(shè)已初具規(guī)模,標(biāo)志著我國(guó)在該領(lǐng)域取得了里程碑式的成就。伴隨著數(shù)據(jù)庫(kù)的發(fā)展,學(xué)界也開始出現(xiàn)語(yǔ)言資源數(shù)字管護(hù)研究成果,但從總體上看數(shù)量不多,學(xué)者們主要關(guān)注兩個(gè)方面:其一是語(yǔ)言資源數(shù)字化建設(shè)。如,劉莉探討了數(shù)字化時(shí)代語(yǔ)言資源建設(shè)與語(yǔ)言教育應(yīng)用相關(guān)問(wèn)題[12]1;林佳慶等專門就“中國(guó)語(yǔ)言資源保護(hù)工程采錄展示平臺(tái)”的關(guān)鍵技術(shù),如語(yǔ)言資源的展示和交互方法等進(jìn)行了深入探討,為語(yǔ)言資源的數(shù)字管護(hù)研究提供了強(qiáng)有力的技術(shù)支持[13]。其二是少數(shù)民族語(yǔ)言數(shù)字化。張靜等調(diào)查發(fā)現(xiàn),少數(shù)民族語(yǔ)言文字的數(shù)字化保護(hù)工作尚存在不足之處,特別是在技術(shù)平臺(tái)建設(shè)、文化產(chǎn)品開發(fā)等方面,需要進(jìn)一步推進(jìn)和發(fā)展[14];王曙光重點(diǎn)考察了新疆少數(shù)民族語(yǔ)言資源數(shù)字檢索平臺(tái)的實(shí)踐基礎(chǔ)以及關(guān)鍵技術(shù),為該領(lǐng)域的研究提供了寶貴的實(shí)踐經(jīng)驗(yàn)[15];王成平則著重討論了彝語(yǔ)語(yǔ)料資源數(shù)據(jù)庫(kù)的設(shè)計(jì)原理以及共享實(shí)現(xiàn)[16]。這些成果為我國(guó)語(yǔ)言資源的數(shù)字化研究提供了有益參考。
(二)國(guó)外研究現(xiàn)狀
國(guó)外語(yǔ)言資源數(shù)字管護(hù)研究要早于國(guó)內(nèi),成果頗為豐富,探討也更為多元化。研究者們關(guān)注的重點(diǎn)主要有原始數(shù)據(jù)的長(zhǎng)期存儲(chǔ)和管護(hù),語(yǔ)言數(shù)據(jù)的共享,多模態(tài)口語(yǔ)語(yǔ)料庫(kù)的構(gòu)建,以及虛擬社區(qū)的協(xié)作共建等。20世紀(jì)90年代末,以Himmelmann(德國(guó))為代表的學(xué)者較早倡導(dǎo)要對(duì)原始數(shù)據(jù)的長(zhǎng)期存儲(chǔ)和保存給予關(guān)注,以此來(lái)促進(jìn)對(duì)語(yǔ)言的記錄和保護(hù)[17]。2008年,Broeder(荷蘭)等對(duì)歐洲語(yǔ)言資源共享基礎(chǔ)設(shè)施的建立進(jìn)行了探討,為語(yǔ)言資源的互操作性和可訪問(wèn)性提供了范例[18]370-374。此后,Adolphs(英國(guó))等重點(diǎn)討論了口語(yǔ)語(yǔ)料庫(kù)由單模態(tài)向多模態(tài)發(fā)展的趨勢(shì)和相關(guān)問(wèn)題,同時(shí)對(duì)多模態(tài)口語(yǔ)語(yǔ)料庫(kù)的構(gòu)建和應(yīng)用提出了獨(dú)到的見(jiàn)解[19]。繼而Gonzalez(墨西哥)等介紹了一個(gè)可以通過(guò)協(xié)作方式促進(jìn)新的語(yǔ)言檔案編制的虛擬社區(qū)Nenek,并創(chuàng)造性地提出了“生命周期映射計(jì)劃”。該計(jì)劃在語(yǔ)言資源管護(hù)的每個(gè)階段都進(jìn)行詳細(xì)記錄,可為語(yǔ)言資源的持續(xù)使用、未來(lái)發(fā)展和傳播使用提供有效指導(dǎo)[20]1-205。
從研究現(xiàn)狀分析可以看出,國(guó)內(nèi)外在語(yǔ)言資源數(shù)字管護(hù)研究方面均進(jìn)行了有益探索,然而相較于國(guó)外,我國(guó)在語(yǔ)言資源的數(shù)字管護(hù)理論和實(shí)踐方面還存在差距,未來(lái)研究空間十分廣闊。
三、DCC管護(hù)生命周期模型分析
2008年,英國(guó)數(shù)字管護(hù)中心(Digital Curation Centre)提出“DCC管護(hù)生命周期模型”(The Digital Curation Life Cycle Model,下文簡(jiǎn)稱“DCC模型”)[21]。該模型以數(shù)據(jù)(數(shù)字對(duì)象和數(shù)據(jù)庫(kù))為中心,以管護(hù)和保存為目標(biāo),提供了一個(gè)圖形化循環(huán)框架(如圖1所示)。該框架高度概括了數(shù)據(jù)管護(hù)的各個(gè)步驟,以確保數(shù)據(jù)在數(shù)字生命周期循環(huán)過(guò)程中得到妥善管護(hù)和長(zhǎng)期保存,從而最大限度地挖掘和利用數(shù)據(jù)的價(jià)值與潛力。
DCC模型將數(shù)字資源的管護(hù)和保存視為一個(gè)動(dòng)態(tài)循環(huán)過(guò)程,明確了構(gòu)思創(chuàng)建、歸檔保存、訪問(wèn)使用和轉(zhuǎn)換遷移等數(shù)字資源管理所涉及的各個(gè)階段和步驟,強(qiáng)調(diào)每一個(gè)環(huán)節(jié)的重要性,并明確了相關(guān)角色與責(zé)任(包括行業(yè)特有相關(guān)利益者),以優(yōu)化數(shù)字管護(hù)流程(包括額外的個(gè)性化流程)。該模型包含8個(gè)“連續(xù)操作”以及3個(gè)“可選操作”。這種靈活性使其能夠廣泛適應(yīng)不同領(lǐng)域和多種類型的數(shù)字資源管護(hù)項(xiàng)目。下面對(duì)該模型所包含的11個(gè)操作步驟及其原則進(jìn)行簡(jiǎn)要介紹:(1)概念化,為數(shù)字對(duì)象生命周期的起點(diǎn),通過(guò)系統(tǒng)性調(diào)研制定初步設(shè)計(jì)和宏觀策略,包括數(shù)據(jù)對(duì)象構(gòu)思、采集手段、存儲(chǔ)方案等;(2)創(chuàng)建或接收,直接生成或從外部接收數(shù)字對(duì)象,并使用適配的檔案元數(shù)據(jù)(描述數(shù)據(jù)的數(shù)據(jù))與其關(guān)聯(lián);(3)評(píng)估和選擇,遵照準(zhǔn)則和具體要求評(píng)估數(shù)據(jù)并決定其是否需要長(zhǎng)期管護(hù)與保存;(4)歸檔,遵照一定準(zhǔn)則和具體要求將數(shù)據(jù)遷移至檔案庫(kù)、數(shù)據(jù)庫(kù)等可靠的保存環(huán)境中;(5)保存行動(dòng),在數(shù)據(jù)維持真實(shí)、原始、完整、可信的特性下,確保其可以長(zhǎng)期完好地保存和使用;(6)存儲(chǔ),遵循相關(guān)安全規(guī)范和指南妥善保管數(shù)字對(duì)象;(7)訪問(wèn)、使用和重用,根據(jù)利益相關(guān)者的身份和需求,差異化分配訪問(wèn)級(jí)別和訪問(wèn)權(quán)限,同時(shí)支持?jǐn)?shù)字資源的重新利用及其深度挖掘;(8)轉(zhuǎn)換,根據(jù)特定需求生成原有數(shù)據(jù)的新形式、新結(jié)構(gòu)或衍生結(jié)果。以上是8個(gè)“連續(xù)操作”,此外,還需要配合以下3個(gè)“可選操作”,以定期或臨時(shí)處理諸如“黑天鵝”“灰犀?!薄昂谔禊Z”比喻罕見(jiàn)、難以預(yù)測(cè)而影響巨大的事件;“灰犀?!北扔魈^(guò)常見(jiàn)、可以預(yù)見(jiàn)但常被忽視的重大潛在危機(jī)。 等問(wèn)題:(9)處置,遵照準(zhǔn)則和具體要求對(duì)數(shù)字對(duì)象進(jìn)行適當(dāng)處理,一種是將不需要長(zhǎng)期管護(hù)但仍有價(jià)值的數(shù)字對(duì)象轉(zhuǎn)移至其他數(shù)據(jù)庫(kù)或托管機(jī)構(gòu),另一種是對(duì)已決定棄用的數(shù)字對(duì)象進(jìn)行安全、徹底的移除或銷毀;(10)重新評(píng)估,定期檢查,對(duì)不符合管護(hù)要求的數(shù)字對(duì)象進(jìn)行再次審查,并在必要時(shí)進(jìn)行信息修正和重新選擇;(11)遷移,轉(zhuǎn)換或更新數(shù)字對(duì)象格式以避免原有資源失效[21]。
綜上可知,DCC模型是一種適用面廣的多功能數(shù)字資源管護(hù)工具和方法論,它不僅關(guān)注數(shù)據(jù)的長(zhǎng)期保存,還注重提升數(shù)據(jù)的可用性能和訪問(wèn)率,在其系統(tǒng)化指導(dǎo)下,數(shù)據(jù)管理可以得到進(jìn)一步加強(qiáng)。這不僅可為數(shù)字管理機(jī)構(gòu)和各類數(shù)字項(xiàng)目提供數(shù)據(jù)管護(hù)策略及框架,還有助于保全數(shù)字資源的真實(shí)性、完整性、可靠性及其創(chuàng)新利用價(jià)值。概言之,DCC模型致力于完善數(shù)字資源全生命周期的長(zhǎng)期存儲(chǔ)、即時(shí)需求、未來(lái)利用及可持續(xù)發(fā)展。
四、生命周期理論之于語(yǔ)言資源數(shù)字管護(hù)策略闡釋
由上文分析可知,在數(shù)字管護(hù)方面,DCC模型具有廣泛的適用性,在與行業(yè)標(biāo)準(zhǔn)相融合的前提下,能用于規(guī)劃和執(zhí)行不同類型、不同層次的數(shù)字資源保存與維護(hù)活動(dòng)。因此,DCC模型理論的11個(gè)關(guān)鍵操作步驟,自然也可以為我國(guó)語(yǔ)言資源的數(shù)字管護(hù)提供一套科學(xué)的策略。下面基于該模型理論,對(duì)我國(guó)語(yǔ)言資源數(shù)字管護(hù)的關(guān)鍵操作步驟及其原則進(jìn)行具體闡釋。
(一)概念化
在語(yǔ)言資源管護(hù)初始概念化階段,會(huì)涉及一系列設(shè)計(jì)和宏觀策略,包括服務(wù)于誰(shuí)(目標(biāo)受眾),研究人員決定采集哪些方言和少數(shù)民族語(yǔ)言(收錄范圍),怎樣采集方言和少數(shù)民族語(yǔ)言(采樣措施),使用哪些格式(格式標(biāo)準(zhǔn)),選擇哪種元數(shù)據(jù)(元數(shù)據(jù)標(biāo)準(zhǔn)),如何轉(zhuǎn)寫模擬態(tài)材料(模擬態(tài)數(shù)字化),以及選擇什么樣的存儲(chǔ)載體(存儲(chǔ)介質(zhì))等。從宏觀層面上看,概念化階段關(guān)系到語(yǔ)言資源質(zhì)量、價(jià)值的有效性及長(zhǎng)期可用性,這直接決定了語(yǔ)言資源后續(xù)是否能高效管護(hù)、長(zhǎng)效保存以及有效應(yīng)用。因此,首先管理者要對(duì)用戶需求進(jìn)行深度調(diào)研,精確地定義目標(biāo)群體和功能需求,因?yàn)椤罢Z(yǔ)言學(xué)研究者”“瀕危語(yǔ)言保護(hù)工作者”“語(yǔ)言教育者”“語(yǔ)言開發(fā)利用者”“文化遺產(chǎn)愛(ài)好者”等不同利益相關(guān)者的需求是不一樣的。其次,要開發(fā)制定專門的語(yǔ)言資源元數(shù)據(jù)標(biāo)準(zhǔn),以提高語(yǔ)料的描述精度和可用性。此外,還應(yīng)當(dāng)規(guī)劃切合語(yǔ)言保護(hù)的先進(jìn)技術(shù)架構(gòu),如通過(guò)集成人工智能的機(jī)器學(xué)習(xí)框架來(lái)增強(qiáng)平臺(tái)處理多模態(tài)數(shù)據(jù)的能力,以支持諸如自動(dòng)語(yǔ)音識(shí)別、高級(jí)文本分析、姿態(tài)動(dòng)作分析等復(fù)雜功能的實(shí)現(xiàn),為未來(lái)語(yǔ)言管護(hù)擴(kuò)展和創(chuàng)新預(yù)留足夠的空間。
(二)創(chuàng)建或接收
從上可知,元數(shù)據(jù)的管理幾乎貫穿整個(gè)語(yǔ)言資源管護(hù)生命周期,因此其設(shè)定非常關(guān)鍵。但需要強(qiáng)調(diào)的是,在具體項(xiàng)目中,不同類別檔案元數(shù)據(jù)往往會(huì)根據(jù)具體應(yīng)用場(chǎng)景的需要來(lái)進(jìn)行選擇,并整合到元數(shù)據(jù)方案里。因此在不同領(lǐng)域,元數(shù)據(jù)的分類方式也會(huì)根據(jù)實(shí)際需求而有所變動(dòng)。這也就意味著在某些情況下,一個(gè)元數(shù)據(jù)可能用于多個(gè)領(lǐng)域。創(chuàng)建或接收階段大致包括生成數(shù)字對(duì)象或數(shù)據(jù)庫(kù),接收數(shù)字對(duì)象或數(shù)據(jù)庫(kù),分配管理性、描述性、結(jié)構(gòu)性、技術(shù)性、保存性、權(quán)利性元數(shù)據(jù)等。需要特別指出的是,創(chuàng)建或接收策略的好壞會(huì)直接影響語(yǔ)言資源在訪問(wèn)和使用過(guò)程中的便利程度,因?yàn)楦油晟频臋n案元數(shù)據(jù)包含更加豐富的背景信息,而更加豐富的背景信息意味著資源能被相關(guān)利益者更快捷、更精確地識(shí)別與訪問(wèn)。語(yǔ)言資源的首次錄入會(huì)影響相關(guān)利益者對(duì)語(yǔ)言資源的理解、定位和重用。為了進(jìn)一步提高這一方面的效能,我們建議擴(kuò)展現(xiàn)有元數(shù)據(jù)標(biāo)準(zhǔn),以更好地滿足我國(guó)語(yǔ)言資源使用方面的某些特殊需求;加強(qiáng)對(duì)元數(shù)據(jù)的質(zhì)量管理,通過(guò)特定的驗(yàn)證措施來(lái)保證數(shù)據(jù)的質(zhì)量和完整性;開發(fā)基于語(yǔ)言資源的元數(shù)據(jù)轉(zhuǎn)換工具,以提高語(yǔ)料導(dǎo)入的靈活性。
(三)評(píng)估和選擇
評(píng)估和選擇作為語(yǔ)言資源管護(hù)的“斷舍離”“斷舍離”,網(wǎng)絡(luò)用語(yǔ),指一種生活態(tài)度,意思是把那些不是必需、不合適、過(guò)時(shí)的東西統(tǒng)統(tǒng)舍棄,并切斷對(duì)它們的眷戀,“斷舍離”之后才能過(guò)簡(jiǎn)單清爽的生活。此處用來(lái)比喻“評(píng)估和選擇”操作對(duì)語(yǔ)言資源的篩查與取舍。 階段,其決策直接影響語(yǔ)言資源原始材料的質(zhì)量。因?yàn)檫@不僅涉及語(yǔ)言學(xué)術(shù)判斷和語(yǔ)料遴選,而且還涉及語(yǔ)言資源現(xiàn)狀、文化敏感性以及未來(lái)挑戰(zhàn)等多方面。此階段對(duì)相關(guān)人員的專業(yè)知識(shí)儲(chǔ)備、跨學(xué)科思維以及前瞻性視野要求較高。為了優(yōu)化這一過(guò)程,可以從多個(gè)角度出發(fā),建立多維度資源審查標(biāo)準(zhǔn),平衡考慮資源在理論研究與文化傳承等方面的價(jià)值;注重語(yǔ)料多樣性與代表性的平衡,確保語(yǔ)料的全面性;在保持人機(jī)協(xié)作的評(píng)估模式下,積極探索和應(yīng)用數(shù)智技術(shù)進(jìn)行評(píng)估;將文化敏感性考量納入語(yǔ)言資源評(píng)估系統(tǒng);考慮借助跨學(xué)科力量,并對(duì)從事評(píng)估與選擇的相關(guān)人員進(jìn)行系統(tǒng)培訓(xùn),以拓寬其跨學(xué)科視野。
(四)歸檔
就語(yǔ)言資源管護(hù)語(yǔ)境而言,歸檔階段是確保語(yǔ)言資源后期能得到恰當(dāng)管護(hù)并能長(zhǎng)期訪問(wèn)和使用的關(guān)鍵步驟,應(yīng)格外注重技術(shù)層面的操作。雖然從表面上看似乎只需簡(jiǎn)單地將語(yǔ)言資源進(jìn)行分門別類的整理和錄入,實(shí)則涉及多個(gè)重要維度,操作時(shí)需謹(jǐn)慎考慮方案的有效適配性,包括歸檔流程能否做到既標(biāo)準(zhǔn)又靈活,以適應(yīng)不同語(yǔ)言資源特點(diǎn);歸檔程序能否保障語(yǔ)言資源保存訪問(wèn)系統(tǒng)的可信賴和可持續(xù);歸檔實(shí)踐能否保證語(yǔ)言資源在轉(zhuǎn)移過(guò)程中的安全和完整等。具體來(lái)說(shuō)可以從三個(gè)方面入手:優(yōu)先使用國(guó)際通用的文件格式和元數(shù)據(jù)標(biāo)準(zhǔn);在尊重我國(guó)語(yǔ)言資源特點(diǎn)的基礎(chǔ)上,制定長(zhǎng)久且動(dòng)態(tài)的格式遷移策略;積極推動(dòng)跨機(jī)構(gòu)合作,建立求同存異的管護(hù)標(biāo)準(zhǔn)。
(五)保存行動(dòng)
在語(yǔ)言資源管護(hù)過(guò)程中,保存行動(dòng)這一步驟最大限度地保障了資源的原始價(jià)值,確保它們不會(huì)隨時(shí)間流失或變質(zhì),同時(shí)在未來(lái)還能被正確解讀、持續(xù)訪問(wèn)和有效利用。這不僅為語(yǔ)言資源的保護(hù)和傳承提供了智力支持,同時(shí)也保障了語(yǔ)言研究的可持續(xù)性。這意味著保存行動(dòng)需采取一系列具體措施和策略,客觀記錄語(yǔ)言資源的確切內(nèi)容,防止原始資源數(shù)據(jù)被篡改,避免資源損壞或缺失,同時(shí)做到準(zhǔn)確反映資源變遷情況。具體做法包括建立多層次的語(yǔ)言資源驗(yàn)證和錯(cuò)誤移除機(jī)制,確保語(yǔ)言資源的準(zhǔn)確性和完整性;增強(qiáng)系統(tǒng)對(duì)歷史元數(shù)據(jù)的保存能力,提高語(yǔ)言資源的可訪問(wèn)性和利用價(jià)值;全面收集和標(biāo)注上下文信息,用于理解和解釋語(yǔ)言資源的相關(guān)信息??紤]到跨平臺(tái)的兼容性及其技術(shù)演進(jìn),宜選擇更適合長(zhǎng)期保存的方式和具體文件類型等。不難看到,此步驟與前幾個(gè)步驟的操作既有共通之處,又各具獨(dú)特使命,它們一起作用于語(yǔ)言資源的響應(yīng)速度。
(六)存儲(chǔ)
安全、可靠、長(zhǎng)期的存儲(chǔ)不僅能夠保障語(yǔ)言資源的完整無(wú)恙,規(guī)避語(yǔ)言資料丟失、語(yǔ)言數(shù)據(jù)無(wú)效等風(fēng)險(xiǎn),還可為未來(lái)語(yǔ)言資源的繼承和研究奠定基礎(chǔ)。存儲(chǔ)階段要特別強(qiáng)調(diào)語(yǔ)言資源的安全性,因此在實(shí)際操作時(shí),不能忽視語(yǔ)言資源的存儲(chǔ)介質(zhì)、存放格式、備份方案及其物理載體的環(huán)境控制等因素對(duì)存儲(chǔ)質(zhì)量的影響。例如,國(guó)內(nèi)一些學(xué)者在20世紀(jì)80年代、90年代用錄音機(jī)采集的方言聲音文件,由于錄音磁帶出現(xiàn)斷裂和磁粉脫落,且讀取設(shè)備廢棄,已無(wú)法利用。但棄之不舍,只能束之高閣。這也是前文提到的中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所采用磁帶錄音的“現(xiàn)代漢語(yǔ)方言音庫(kù)”后來(lái)要轉(zhuǎn)化為數(shù)字形式的原因。類似情況還見(jiàn)于印第安納大學(xué)傳統(tǒng)音樂(lè)檔案館存放的錄音資料,他們?cè)缙阡浺舻奈锢斫橘|(zhì)正處于退化期,而較新的數(shù)字音頻磁帶DAT格式則面臨著過(guò)時(shí)的問(wèn)題[22],兩者都導(dǎo)致讀取這些音頻文件需要復(fù)雜的轉(zhuǎn)換過(guò)程,同時(shí)還會(huì)增加數(shù)據(jù)丟失的風(fēng)險(xiǎn)。因此,我們要特別注意對(duì)已采集但存儲(chǔ)有潛在風(fēng)險(xiǎn)的語(yǔ)言資源進(jìn)行定期回查與遷移。具體來(lái)說(shuō),要建立存儲(chǔ)介質(zhì)定期評(píng)估與換新機(jī)制,保證存儲(chǔ)介質(zhì)的性能可靠;依據(jù)語(yǔ)言資源的重要程度及敏感特性,實(shí)施多重?cái)?shù)據(jù)備份策略,并動(dòng)態(tài)監(jiān)測(cè)其可恢復(fù)情況,提升語(yǔ)言資源的安全性;同時(shí),對(duì)于存儲(chǔ)物理環(huán)境,需要提升其穩(wěn)定性,并提供危機(jī)補(bǔ)救預(yù)案來(lái)延長(zhǎng)語(yǔ)言資源存儲(chǔ)介質(zhì)的壽命。在未來(lái),隨著高新技術(shù)的發(fā)展與語(yǔ)言資源多模態(tài)采集技術(shù)的提升,還可探索發(fā)展DNA存儲(chǔ)DNA存儲(chǔ)是一種利用生物技術(shù)將信息編碼到DNA(生物體內(nèi)攜帶的遺傳信息)分子中的存儲(chǔ)方法。 、全息存儲(chǔ)全息存儲(chǔ)是一種數(shù)據(jù)存儲(chǔ)技術(shù),利用激光和特殊材料記錄和檢索信息。 等技術(shù)的應(yīng)用潛力,來(lái)為語(yǔ)言資源的長(zhǎng)期管護(hù)保駕護(hù)航。
(七)訪問(wèn)、使用和重用
保證語(yǔ)言資源能夠被目標(biāo)用戶群體便捷而持續(xù)地訪問(wèn)和使用,無(wú)論是現(xiàn)在還是將來(lái),都是語(yǔ)言資源管護(hù)的核心目標(biāo)之一。特別是多層級(jí)權(quán)限體系下的精細(xì)化管護(hù)模式,非常有助于保護(hù)語(yǔ)言資源中的敏感數(shù)據(jù)、涉密信息和用戶隱私,同時(shí)可以最大限度地釋放語(yǔ)言資源的科研應(yīng)用潛力。這種靈活的機(jī)制不僅能促進(jìn)語(yǔ)言資源的安全防護(hù)和深度利用,還可為語(yǔ)言資源自身發(fā)展及其跨學(xué)科協(xié)作提速增效。因此,應(yīng)從多方面改善訪問(wèn)和使用體驗(yàn),制定明確的使用政策和引用指南以促進(jìn)語(yǔ)言資源的合法重用;完善多語(yǔ)種支持和高級(jí)檢索功能以提高可訪問(wèn)性;創(chuàng)新個(gè)性化功能以提升用戶參與度;優(yōu)化電腦端和移動(dòng)端體驗(yàn)以適應(yīng)現(xiàn)代訪問(wèn)習(xí)慣;強(qiáng)化用戶社區(qū)功能以促進(jìn)其交流與協(xié)作等。
(八)轉(zhuǎn)換
在語(yǔ)言資源管護(hù)語(yǔ)境中,轉(zhuǎn)換可以極大地拓展原始語(yǔ)料的適用場(chǎng)景和應(yīng)用范圍,為語(yǔ)言研究挖掘新的洞見(jiàn)和可持續(xù)創(chuàng)新開辟?gòu)V闊的空間。值得注意的是,這些轉(zhuǎn)換后的新資源核心內(nèi)容基本保持不變,但為了適應(yīng)不同技術(shù)要求和應(yīng)用場(chǎng)景,可能會(huì)以新的方式呈現(xiàn)或組織,而新的方式則可能是原始資料的新格式或者新結(jié)構(gòu)。這種靈活的處理與轉(zhuǎn)化方式,不僅涉及技術(shù)層面的轉(zhuǎn)換,還包括原始語(yǔ)言資源的重組、提煉與增值。為了優(yōu)化轉(zhuǎn)換策略,可以采取以用戶為導(dǎo)向的方法,實(shí)施用戶驅(qū)動(dòng)轉(zhuǎn)換策略,根據(jù)用戶需求創(chuàng)新語(yǔ)言形式與結(jié)構(gòu);主動(dòng)探索語(yǔ)言多模態(tài)表達(dá)與跨媒介轉(zhuǎn)換,拓展語(yǔ)言資源的使用和應(yīng)用范圍;分析跨界需求,重組語(yǔ)言資源結(jié)構(gòu),增強(qiáng)語(yǔ)言資源的實(shí)用性和互操作性;鼓勵(lì)大眾基于語(yǔ)言資源進(jìn)行創(chuàng)新衍生,如“語(yǔ)寶網(wǎng)”[23]。通過(guò)采用諸如此類有創(chuàng)新性且靈活的轉(zhuǎn)換策略,來(lái)激發(fā)語(yǔ)言資源的潛在價(jià)值,以滿足當(dāng)前與未來(lái)語(yǔ)言研究和利用的多樣化需求。
上述8個(gè)步驟為連續(xù)操作,構(gòu)成了語(yǔ)言資源管護(hù)的核心框架,可為語(yǔ)言資源的長(zhǎng)期保存與管護(hù)利用提供系統(tǒng)性指導(dǎo)。我國(guó)語(yǔ)言資源具有復(fù)雜多樣性和獨(dú)特性,這對(duì)管護(hù)工作提出了更高要求,剩下的3個(gè)可選操作雖然并非必需步驟,但從整體來(lái)看,可以強(qiáng)化前面的核心操作。所以,下文我們簡(jiǎn)要談?wù)勥@3個(gè)可選操作在語(yǔ)言資源管護(hù)中的具體應(yīng)用及其潛在價(jià)值。
(九)處置
處置有助于優(yōu)化管護(hù)存儲(chǔ)空間,同時(shí)確保在處理過(guò)程中語(yǔ)言資源數(shù)據(jù)的安全性和合規(guī)性。但需要特別指出的是,在執(zhí)行處置過(guò)程中應(yīng)當(dāng)遵循規(guī)范,慎重決策,并在責(zé)任轉(zhuǎn)移時(shí)注重機(jī)構(gòu)間的協(xié)作與責(zé)任界定。我們知道,科學(xué)客觀地評(píng)估語(yǔ)言資源數(shù)據(jù)的價(jià)值是制定處置決策的關(guān)鍵前提,因此,處置應(yīng)當(dāng)實(shí)施前置判斷,考慮使用頻率、存儲(chǔ)成本、文化意義、研究關(guān)聯(lián)等因素,來(lái)提高處置決策的準(zhǔn)確性和合理性。如需將語(yǔ)言資源數(shù)據(jù)轉(zhuǎn)移至外部對(duì)象,則應(yīng)進(jìn)行接受能力評(píng)估,并制定轉(zhuǎn)移完整性、元數(shù)據(jù)變動(dòng)等專門轉(zhuǎn)移協(xié)議,以確保語(yǔ)言資源數(shù)據(jù)能夠安全接收和長(zhǎng)期存儲(chǔ)。
(十)重新評(píng)估
重新評(píng)估意味著語(yǔ)言資源的數(shù)據(jù)管護(hù)不是“一勞永逸”的一次性保存行動(dòng),而是需要對(duì)其進(jìn)行持續(xù)關(guān)注與評(píng)估調(diào)整。此步驟內(nèi)容主要有敦促元數(shù)據(jù)管護(hù)組織實(shí)行分層級(jí)動(dòng)態(tài)評(píng)估;基于資源類型、研究領(lǐng)域、使用價(jià)值等對(duì)語(yǔ)言資源數(shù)據(jù)設(shè)置不同的重估頻率,以及時(shí)響應(yīng)不斷變化的利用趨勢(shì)和適應(yīng)持續(xù)突破的技術(shù)發(fā)展趨勢(shì);聯(lián)合相關(guān)機(jī)構(gòu)如國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心建立快速響應(yīng)機(jī)制,對(duì)突發(fā)情況及熱點(diǎn)問(wèn)題及時(shí)做出評(píng)估。當(dāng)然,重新評(píng)估可以與順序操作中的“評(píng)估與選擇”相結(jié)合,這樣有助于制定更具有針對(duì)性和系統(tǒng)性的評(píng)估方案。
(十一)遷移
遷移是具有前瞻性的主動(dòng)措施,可以提升語(yǔ)言資源數(shù)據(jù)的研究效能,同時(shí)規(guī)避因信息技術(shù)發(fā)展導(dǎo)致軟硬件過(guò)時(shí)而無(wú)法訪問(wèn)舊格式的風(fēng)險(xiǎn)。雖然遷移需要一定成本,甚至成本高昂,但相比于語(yǔ)言資源的無(wú)法訪問(wèn)或永久丟失,這種投入不僅值得,而且尤為必要。其中需要特別關(guān)注的是要選取適當(dāng)?shù)倪w移時(shí)機(jī),這對(duì)于平衡語(yǔ)言資源的遷移技術(shù)風(fēng)險(xiǎn)、長(zhǎng)期保存價(jià)值及其成本效益控制至關(guān)重要。此外,遷移是再次“歸檔”的前奏,因此也需要考慮遷移格式的開放性、標(biāo)準(zhǔn)化程度、社區(qū)支持、多格式并遷等問(wèn)題,并同時(shí)評(píng)估和測(cè)試現(xiàn)有新興格式,以為“適時(shí)遷移”做好充足準(zhǔn)備。
綜上所述,DDC模型可以為我國(guó)語(yǔ)言資源數(shù)字管護(hù)提供一個(gè)操作性強(qiáng)的指導(dǎo)框架,這個(gè)框架不僅涉及語(yǔ)言數(shù)據(jù)的長(zhǎng)期保存,而且重點(diǎn)關(guān)注對(duì)其價(jià)值的持續(xù)提升。通過(guò)全周期對(duì)照和全過(guò)程審視,DDC模型可以切實(shí)指導(dǎo)語(yǔ)言資源數(shù)字管護(hù)實(shí)踐,從而更好地保護(hù)和利用現(xiàn)有寶貴的語(yǔ)言“種子資源”,為我國(guó)語(yǔ)言資源的未來(lái)可持續(xù)發(fā)展奠定堅(jiān)實(shí)的基礎(chǔ)。還要提到的是,要充分挖掘提升DDC模型在語(yǔ)言資源數(shù)字管護(hù)中的價(jià)值和潛力,顯然還需要語(yǔ)言學(xué)、信息資源管理、計(jì)算機(jī)科學(xué)與技術(shù)等領(lǐng)域?qū)<覍W(xué)者們的通力合作。
五、結(jié)語(yǔ)
語(yǔ)言是人類最重要的交際工具,是文化的載體及重要組成部分,屬于非物質(zhì)文化遺產(chǎn)。然而,在人口大流動(dòng)和城鎮(zhèn)化不斷發(fā)展的滾滾洪流中,我國(guó)語(yǔ)言資源面臨的形勢(shì)極為嚴(yán)峻。進(jìn)入新世紀(jì)以來(lái),我國(guó)語(yǔ)言資源保護(hù)熱情高漲,相繼建立了一批語(yǔ)言資源數(shù)據(jù)庫(kù),以保護(hù)和傳承我國(guó)方言和少數(shù)民族語(yǔ)言文化。相應(yīng)地,語(yǔ)言資源的數(shù)字管護(hù)便成為我們所面臨的新機(jī)遇和新挑戰(zhàn)。鑒于這種情況,本文借鑒國(guó)外“DCC管護(hù)生命周期模型”理論,嘗試探討其數(shù)字管護(hù)策略,涉及“概念化”“創(chuàng)建或接收”“評(píng)估和選擇”“歸檔”“保存行動(dòng)”“存儲(chǔ)”“訪問(wèn)、使用和重用”“轉(zhuǎn)換”“處置”“重新評(píng)估”“遷移”11個(gè)方面,力圖為語(yǔ)言資源的數(shù)字管護(hù)提供思路,同時(shí)希望拋磚引玉,引起學(xué)界關(guān)注,一起助力語(yǔ)言文化遺產(chǎn)的可持續(xù)發(fā)展及對(duì)其的長(zhǎng)期有效使用。
參考文獻(xiàn):
[1]保護(hù)非物質(zhì)文化遺產(chǎn)公約[EB/OL].[2024-09-30].http://www.moe.gov.cn/srcsite/A23/jkwzz_other/200310/t20031017_81309.html.
[2]楊清望,代秦.論地方方言保護(hù)的法理、困境與方法[J].邵陽(yáng)學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版),2017,16(4):1-8,124.
[3]曹志耘.中國(guó)瀕危語(yǔ)言志[M].北京:商務(wù)印書館,2019.
[4]李宇明.文化視角下的語(yǔ)言資源保護(hù)[N].光明日?qǐng)?bào),2016-08-07(07).
[5]彭茹.“科學(xué)保護(hù)各民族語(yǔ)言文字”研究四年綜述[J].邵陽(yáng)學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版),2016,15(2):83-88.
[6]李甜.數(shù)字管護(hù)(Digital Curation)視域下科研檔案管理創(chuàng)新研究[J].檔案學(xué)研究,2021(3):113-120.
[7]現(xiàn)代漢語(yǔ)方言音庫(kù)[EB/OL].[2024-09-30].http://ling.cass.cn/keyan/xueshuchengguo/cgtj/202111/ t20211108_5372677.html.
[8]中國(guó)語(yǔ)言資源保護(hù)工程采錄展示平臺(tái)[EB/OL].[2024-09-30].https://zhongguoyuyan.cn/index.
[9]漢藏語(yǔ)言數(shù)據(jù)資源平臺(tái)[EB/OL].[2024-09-30].http://106.13.43.240:8001/accounts/login/?next=/.
[10]教育部.國(guó)家語(yǔ)言資源服務(wù)平臺(tái)[EB/OL].[2024-09-30].https://fw.ywky.edu.cn/#/home.
[11]中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注文本語(yǔ)料庫(kù)[EB/OL].[2024-09-30].http://106.13.43.240:8024/.
[12]劉莉.數(shù)字化時(shí)代語(yǔ)言資源建設(shè)與語(yǔ)言教育應(yīng)用研究[M].長(zhǎng)春:吉林出版集團(tuán)股份有限公司,2024.
[13]林佳慶,李涓子,張鵬.中國(guó)語(yǔ)言資源采錄展示平臺(tái)的關(guān)鍵技術(shù)及其應(yīng)用[J].語(yǔ)言文字應(yīng)用,2019(4):26-34.
[14]張靜,李醉海.少數(shù)民族語(yǔ)言文字的“數(shù)字化”保護(hù)探索:以西北部分民族語(yǔ)言為例[J].貴州民族研究,2018,39(9):200-203.
[15]王曙光.新疆少數(shù)民族語(yǔ)言資源數(shù)字化建設(shè)與檢索平臺(tái)建設(shè)研究[J].圖書館理論與實(shí)踐,2014(9):97-99.
[16]王成平.彝語(yǔ)言語(yǔ)料資源數(shù)據(jù)庫(kù)的設(shè)計(jì)與共享的實(shí)現(xiàn)[J].中文信息學(xué)報(bào),2016,30(1):129-132,139.
[17]HIMMELMANN N P.Documentary and Descriptive Llinguistics[J].Linguistics,1998,36(1):161-195.
[18]BROEDER D,NATHAN, D,STRMQVIST S, et al. Building a Federation of Language Resource Repositories: The DAM-LR Project and its Continuation within CLARIN[C]// In Proceedings of the Sixth International Conference on Language Resources and Evaluation. Marrakech, Morocco: European Language Resources Association.2008.
[19]ADOLPHS S,CARTER R.Spoken Corpus Linguistics:From Monomodal to Multimodal[M].New York:Routledge,2013.
[20]GONZALEZ J L,VAN’T HOOFT A,CARRETERO J,et al.Nenek:A Cloud-based Collaboration Platform for the Management of Amerindian Language Resources[J].Language Resources and Evaluation,2017,51(4):897-925.
[21]英國(guó)數(shù)字管護(hù)中心(Digital Curation Centre).DCC管護(hù)生命周期模型(The Digital Curation Lifecycle Model)[EB/OL].[2024-09-30].https://www.dcc.ac.uk/.
[22]阿蘭·伯德特,郭翠瀟.傳統(tǒng)音樂(lè)檔案的介質(zhì)保護(hù)及其協(xié)作策略[J].民間文化論壇,2015(6):28-32.
[23]中國(guó)語(yǔ)言資源保護(hù)研究中心.語(yǔ)寶[EB/OL].[2024-09-30].http://www.chinalanguages.cn/home.