藏文古籍數(shù)字化出版探索

2021-08-09 08:21:29德慶央珍

辭書研究 2021年4期

德慶央珍

摘要由于多種原因，以多維關聯(lián)及結構化的智能知識服務體系，對民文古籍進行保護及再利用的深度加工產(chǎn)品較為少見。但藏文古籍豐富的藏存量、藏文信息處理技術的發(fā)展水平及良好的國內(nèi)外學術交流環(huán)境等因素，使其數(shù)字化工作在向知識服務型發(fā)展（即深層次開發(fā)）方面，進行著較為超前和有益的探索。文章以明清古籍藏漢審音辭書《西番譯語》為例，探討了小眾型藏文古籍在線出版應用的可能性，以期能夠在更廣泛層面發(fā)揮其學術應用價值，更好地服務于學術研究及古籍保護工作。

關鍵詞藏文古籍數(shù)字傳播在線詞典

一、古籍數(shù)字化層次與民文古籍概述

古籍數(shù)字化最實質(zhì)的目的是保護及利用。其對古籍文獻的再生性保護作用、對文本深度挖掘的性能、對構建數(shù)據(jù)資源庫以饗共享的知識服務平臺的優(yōu)勢等，使其在古籍保護及傳播工作方面的能力無出其右。深度加工后的古籍內(nèi)容，更以跨學科的“知識圖譜”形式輔助人們閱讀與研究，產(chǎn)生二次價值，是以被稱為“高效率的知識內(nèi)容”。古籍根據(jù)數(shù)字化加工及開發(fā)的程度，有存儲、檢索、交互、知識服務型數(shù)據(jù)庫構建等形式。就開發(fā)的層次，有學者概括為“表層數(shù)字化”和“深層數(shù)字化”：前者是圖像或文本的簡單存儲，后者則是古籍內(nèi)部知識元的標注，以及在知識元間設計建立關聯(lián)的原則等，是“內(nèi)容和意義層面”的開發(fā)。（馬創(chuàng)新，曲維光，陳小荷2014）104據(jù)2007年的國家普查摸底數(shù)據(jù)，全國漢文古籍藏量總數(shù)達20萬種50萬個版本，至2016年已數(shù)字化約10萬種15萬個版本。（張賀2016）而民文由于受信息技術發(fā)展水平、標準及規(guī)范缺乏統(tǒng)一、經(jīng)濟投入能力相對較弱、需求不旺盛等綜合條件的制約，民文古籍的數(shù)字化工作主要是圖片數(shù)據(jù)庫（古籍掃描或影?。┖臀谋緮?shù)據(jù)庫（全文文本錄入）的建立，數(shù)字資源的開發(fā)層次較低。知識服務型數(shù)據(jù)庫，即利用數(shù)字技術，應用文獻學、信息學等學科的方法，將古籍所涉及的各類專門學科間的知識，以跨學科的方式進行“知識元”間的多元組合，構成結構化的、多維關聯(lián)的智能知識網(wǎng)絡體系的形式，在民文古籍數(shù)字化產(chǎn)品中極為少見。目前，我國民文古籍的數(shù)字化，主要由教學科研機構和圖書館完成，商業(yè)介入極少，開發(fā)層次也多在表層，但藏文古籍數(shù)字化工作，在向知識服務型發(fā)展（即深層次開發(fā)）方面，進行著較為超前和有益的探索。

二、藏文古籍數(shù)字化出版具備良好的客觀條件

（一）文獻占有量龐大為規(guī)?；臄?shù)字庫建設提供了豐富的信息元

文獻的豐富程度，不僅決定著數(shù)據(jù)庫的規(guī)模，更與其可進行數(shù)字加工的深度成正比。“信息元”，即數(shù)據(jù)對象越豐富，數(shù)據(jù)庫可構建的多維知識體系越強大，則可提供的知識服務的能力就越強大。因此文獻作為建立古籍數(shù)據(jù)庫的信息基礎，占有量越大，對其進行結構化、智能化知識集合的空間就越大。我國藏文古籍文獻藏量僅次于漢文，據(jù)2016年的官方統(tǒng)計，全國藏文古籍文獻約有200萬函，（王海磐2017）具備建立數(shù)字資源庫的良好條件。

浩如煙海的歷史文獻是藏文出版的不竭寶藏，古籍文獻的出版更是藏文出版的一大品類和特色。由于藏文古籍的巨大藏量及其珍貴的價值含量，黨和政府高度重視藏文古籍數(shù)字化保護及相關成果的出版工作，從政策、經(jīng)濟等各方面予以大力的支持。西藏自治區(qū)政府也不斷將古籍數(shù)字化出版工作寫入各項規(guī)劃中，如連續(xù)兩期的“五年規(guī)劃”、文化產(chǎn)業(yè)發(fā)展規(guī)劃等。具體項目方面，如自2019年起，國家將分10年，累計劃撥3億元?？顬椴歼_拉宮做貝葉經(jīng)及古籍文獻的保護工作，在“可預防性保護、搶救性保護修復、數(shù)字化保護、展示利用”4項工作中，數(shù)字化保護是重中之重。隨著編目、錄入、存儲及深加工工作的展開，相關數(shù)字出版產(chǎn)品將陸續(xù)面世。國外，以美國的藏傳佛教資源中心TBRC（Tibetan Buddhist Resource Center）為例，收藏了12萬余函藏文珍本和孤本文獻[1]，每一頁已數(shù)字化并建立了共享數(shù)據(jù)庫，被稱為“世界上最大的藏文數(shù)字圖書館”，每年有12萬人次下載文本，并被哈佛大學圖書館收入其數(shù)據(jù)庫，（苗煒2014）由此亦可見，藏文古籍數(shù)字文獻在國際范圍內(nèi)也具有較高的關注度和需求度。

（二）藏文信息技術處理的相對優(yōu)勢為藏文古籍數(shù)字化提供了技術保障

信息處理技術是每一種語言文字古籍數(shù)字化的最基本要素。在國內(nèi)各少數(shù)民族文字中，藏文信息處理技術具有以下三個方面的優(yōu)勢：其一，藏文是我國少數(shù)民族文字中第一個通過國際編碼（UNICODE）的語言文字，這為數(shù)字藏文內(nèi)容的可流通性提供了保障;其二，藏文輸入輸出在WINDOWS、iOS和ANDROID等全球三大操作系統(tǒng)中均已得到系統(tǒng)級別的實現(xiàn)，為各類應用軟件處理藏文內(nèi)容奠定了基礎;其三，涉及人工智能領域的一些基礎技術及應用有了顯著的進步，如藏語文自然語言處理研究、藏文文字及語音識別等。在藏文互聯(lián)網(wǎng)內(nèi)容檢索領域，還出現(xiàn)了諸如“云藏”這樣的搜索引擎，使得藏文大數(shù)據(jù)研究及應用成為可能，為藏文古籍數(shù)字化的深層次加工提供了技術保障。再如2016年西藏大學開發(fā)的“藏文圖書期刊數(shù)據(jù)庫及資源管理及檢索平臺”，就研發(fā)完成了集藏文文獻數(shù)字化加工、管理、發(fā)布、統(tǒng)計、多文種全文檢索等多功能為一體的數(shù)字平臺管理系統(tǒng)。（趙越2017）

不僅如此，基于西藏大學研發(fā)平臺的技術基礎，西藏大學、西藏自治區(qū)藏醫(yī)院等單位已從幾年前開始，與技術公司合作，把其所藏存的藏醫(yī)藥文獻進行數(shù)字化加工，做藏醫(yī)藥“知識圖譜”，為科學研究工作提供多方位的服務。比如天文歷算部分的內(nèi)容，通過在計算機中輸入運算規(guī)則，聯(lián)合專家進行天文歷法的計算，在比照測試中，它已查出某單位所制一套大型“萬年歷”（全套300余本，未正式出版）中的幾百處錯誤。此類加工的最終目的是實現(xiàn)藏醫(yī)藥的深度分析，并通過海量數(shù)據(jù)的知識挖掘，推送最高效的科研文獻信息。同時，基于上述工作，我國藏醫(yī)藏藥的基于內(nèi)容級分析的基礎情報基本在2020年制作完成，其意義十分重大。[2]此類對文獻的數(shù)字化加工，實現(xiàn)了真正意義上的超越于文本的“知識服務”。

（三）藏文古籍數(shù)字化的研究及應用具有良好的國際學術環(huán)境

藏學作為顯學受到世界性的關注，在數(shù)十個國家中建有藏學研究機構，海外對藏學數(shù)字文獻的搜集、對文本數(shù)字化的加工處理等工作也取得了不小的成績，使得藏文文獻研究的國際間交流具有廣泛的環(huán)境基礎。

綜上，藏文古籍文獻豐富的藏存量、藏文信息技術的發(fā)展水平及國際學術交流環(huán)境，為藏文古籍數(shù)字化的出版應用提供了良好的保障。

三、《西番譯語》的版本價值及在線辭書可開發(fā)的功能

據(jù)統(tǒng)計，我國古籍藏量約5000萬部，其中20萬種50萬個版本值得全部數(shù)字化，然而由于資金及缺乏國家統(tǒng)一標準等原因，目前已數(shù)字化的體量不足一半，而書的老化及藏存安全問題，令古籍數(shù)字化具有較強的緊迫性。（張賀2016）由此，受客觀條件所限，數(shù)字化古籍需要有優(yōu)先級，而優(yōu)先級的數(shù)字化加工對象應首選價值較高的古籍版本。

（一）《西番譯語》作為民漢雙語注音類辭書，具有很高的版本價值

1. 權威性——明清官方語料文獻?！段鞣g語》是明清兩代朝廷編寫的漢藏對照詞典，為朝廷公文翻譯及譯員培養(yǎng)之需而作，由官方在語言調(diào)查的基礎上，篩選出公文常用詞、日常交流常用詞、具有民族地區(qū)特點的特殊詞等，多數(shù)為高頻詞，以統(tǒng)一的漢語單詞作為源語，收集不同地區(qū)方言填注藏語單詞，并用漢文標注藏語發(fā)音，是兩朝官方使用的語料工具書，具有很高的權威性。

2. 典范性——欽定譯語范例。古代民族語文與漢語的雙語注音類辭書，以明朝洪武本《華夷譯語》為典范，清代傳習并完善了明朝這一審音傳統(tǒng)，繼續(xù)對各類民文及外文譯語進行編寫與修訂。又遵乾隆諭旨，以《西番譯語》為體例，勘校及編寫其他譯書：“如海外諸夷，并苗疆等處……照西番體例，將字音與字義，用漢文注于本字之下，繕寫進呈，交館勘校，以昭同文圣治?！盵3]“既有成編，宜廣為搜輯，加之核正，悉準西番書例，分門別類，匯為全書?！保ㄈ涡〔?009）即編寫的譯書以及四譯館所存各類譯語，均須以《西番譯語》為范例，可見其對清代官修譯語版本所起的重大作用。它不僅在漢藏對譯辭書編纂史上，同時也在民漢雙語對譯辭書編纂史上具有重要地位。

3. 獨特性——從語料的角度，為多種學科提供珍貴的研究素材。明代《西番譯語》各本中，收錄詞條最多者為942條。（聶鴻音，孫伯君2010）2，7故宮所藏清抄本《西番譯語》，收詞2103條。（施向東2019）3本文所用底本為國家圖書館的9種曬藍本，清乾隆年間四譯館編寫，以義聚類，分20門740個單詞[也有學者提出此版本為明代刻本之誤斷（任小波2009）]，是諸多譯語中門類完善、語料最豐富的品種之一。這些內(nèi)容對明清歷史、兩朝漢語、藏語的語言史、方言及兩種語言的比較研究，雙語辭書研究、都具有重要的文獻價值。

2011年，國家圖書館館藏的《西番譯語》曬藍本，入選我國第一次文化產(chǎn)業(yè)專項規(guī)劃“文化產(chǎn)業(yè)振興規(guī)劃·中華字庫”工程，也體現(xiàn)出《西番譯語》在少數(shù)民族古籍文獻，乃至浩繁的中國古籍文獻中的重要性。因此，無論是從版本還是學術價值的角度，選擇《西番譯語》作為數(shù)字深加工的對象，具有充足的合理性。

（二）《西番譯語》兼具古籍與辭書的雙重性質(zhì)，從數(shù)字化應用層面具有極大的開發(fā)潛力

對《西番譯語》的數(shù)字化，即從根本上解決了為了保護版本而“重藏輕用”的現(xiàn)象，同時也在檢索、動態(tài)編寫、音頻資料補充、跨庫鏈接等多方面發(fā)揮數(shù)字辭書支持學術研究的功能。

在古籍分類上，“譯語”列“小學”之末[4]。作為語文類辭書，《西番譯語》以天文、地理、時令、人物等20門劃分類別，以對譯加注音的形式做漢藏雙語釋義，單本300余頁，一套合計達數(shù)千頁之多，不設索引，故而查找十分不便。而辭書的數(shù)字化，是適應用戶閱讀方式變革的轉(zhuǎn)換，可以從詞條釋義的單一功能，轉(zhuǎn)向智能化的知識服務。

1. 檢索便捷高效

高效率檢索是數(shù)字文獻具有的一般功能。本文所用國家圖書館版《西番譯語》，是《西番譯語》的“雜字”部分，體例上，每本詞典的正文前，都有約200字的序言介紹該方言區(qū)的行政歸屬、長官吏員等重要的歷史信息。對此，在線辭書可通過全文檢索與原版圖像結合的方式，提供模糊查詢、雙語雙向查詢等強大的檢索功能。

2. 開放性能，可實現(xiàn)不同版本的堪比

明清《西番譯語》的版本及藏存現(xiàn)狀復雜，除國內(nèi)故宮館藏等外，異常珍貴的傳本多流落于海外，如德國國家圖書館、法國國家圖書館、日本東洋文庫所藏版本等，且重要傳本目前尚未系統(tǒng)整理，（任小波2009）在線辭書的開放性能，可以允許資源所有者參與編寫，擴充資源庫，以此吸收愿意分享的流散本古籍的內(nèi)容，包括《西番譯語》中除《西番館雜字》外的《西番館來文》部分。在程序中預留相應接口，使愿意分享的用戶在程序上自行上傳，匯集盡可能多的版本，建立不同版本間的關聯(lián)，實現(xiàn)多版本的堪比，進而為多學科研究提供豐富的原始資料。并基于計算機計算、統(tǒng)計等功能提供更為強大的智能知識服務。

3. 音頻材料，以增添古籍的語料庫素材

在線詞典超越紙媒的優(yōu)勢之一，是可以嵌入相關的視頻、音頻、圖像等多媒體資料。以音頻為例，通過對所檢索的詞條、例句等進行朗讀或相關聲音采集的辦法，幫助讀者建立立體認知?！段鞣g語》是有漢語注音的藏漢雙語詞典，本文所述版本，記載了明清兩代四川藏區(qū)9種藏語方言（其他版本方言種類數(shù)量略有差異）。簡言之，它本身就是一套學習語音的工具書，在研究明清時期藏漢兩種語言通語及方言中具有重要的價值。特別是該文獻中有不少藏語是非規(guī)范書寫，或者漢文注音與藏文拼寫的讀音完全不符，如“（冬）”被注為“查跨”;“（星）”被注為“墨治”[5]，等等。學界尚不能對此釋疑，只是“估計”在川西北地區(qū)可能流行三種文字使用方式：普通藏文、訓讀、借用（用藏文書寫另外民族的語言，也讀以另外的民族語言），“這三種情況有時會交織在一起，為研究者深入理解當?shù)氐恼Z言造成困難”（聶鴻音，孫伯君2010）2，7。故而，音頻材料的應用，即將《西番譯語》所涉700余詞匯在當代各方言區(qū)的藏語發(fā)音分別進行采集、歸類、關聯(lián)，將發(fā)音與文字注音形象化地關聯(lián)比對，無疑會為解開某些學術謎題提供重要研究資料，以當代語音材料為古籍補充動態(tài)對照素材，將對該文獻增添跨時代的學術價值。

4. 與其他數(shù)據(jù)庫的跨庫鏈接

《西番譯語》只是眾多漢藏古籍辭書資料庫中的一種，它與其他資源庫，比如敦煌漢藏對譯文獻或其他相關文獻，在知識層面上會有不同程度的關聯(lián)。因此，與其他開放型數(shù)據(jù)庫建立跨庫鏈接，將有助于建立多維立體的知識體系。

此外，字詞頻統(tǒng)計、自動卡片生成、繁簡體轉(zhuǎn)換等其他輔助功能，也將支持學術研究。

綜上所述，通過建立《西番譯語》數(shù)據(jù)庫并將其制作成在線辭書，將對古籍保護及其內(nèi)容的二次利用等方面具有積極意義。

四、《西番譯語》在線辭書的文本處理原則

其一，漢字異形字、通假字、繁體字，均改為通用簡體漢字。

其二，藏文拼寫的問題及處理原則：《西番譯語》的編寫年代是明清兩代，歷經(jīng)幾百年的語言發(fā)展，文獻所載的一些藏文，其拼寫或所標注發(fā)音與當代藏語或有差異，加之前文所述的非規(guī)范書寫的“學術難題”等，文獻中“不規(guī)范”或已無法辨析縮寫規(guī)則的書寫，如“”（譯語：圖報，注音：斗巴）[6]等，將保留原貌。

其三，線裝書造成個別掃描本出現(xiàn)藏文字符的亡佚現(xiàn)象，在在線詞典中，亡佚部分字母用“■”替代。

其四，曬藍本底色不勻造成的漢字或藏文無法辨識的單字，均用“■”替代。

其五，因書寫問題，藏文中有不少如“”“”，“”“”，“”“”“”，“”“”，“”“”難以區(qū)分的現(xiàn)象，此類問題，均以在前括號中列出疑似字或元音的方式標注。

五、基于互聯(lián)網(wǎng)的《西番譯語》在線詞典設計構想

（一）目標用戶

根據(jù)文獻內(nèi)容及規(guī)模分析預判，《西番譯語》并不具備成為漢藏兩個語言群體日常工具書的可能，其潛在的使用者應該集中在漢藏語言學及歷史學研究群體中。盡管目前已有學界專家研究并出版了部分版本的校錄及匯編書籍，作為古籍文獻，原始內(nèi)容的數(shù)字化呈現(xiàn)應該是該領域研究者們的共同期待?！段鞣g語》數(shù)字內(nèi)容的目標用戶群體的特征提示我們設計系統(tǒng)應該關注的幾個重要原則：內(nèi)容的完備性、交互的簡潔性和平臺的開放性。對于特定領域的科研工作者，完備性是數(shù)字內(nèi)容服務的先決條件，簡潔性是人機交互環(huán)節(jié)的必然選擇，而開放性則是平臺內(nèi)容集聚的客觀要求。

（二）用戶場景

作為一個特殊歷史時期有限詞匯的漢藏對意對音工具書，對現(xiàn)代社會生活中的群體不足以產(chǎn)生日常應用的引力，因此數(shù)字化的《西番譯語》除了電子書這種常見的形態(tài)外，可檢索的電子詞典在移動端的使用前景是不明朗的。學者群體在其科研工作中更多地還是會選擇基于PC的在線查詢模式。因此，我們確立了一種基于瀏覽器的互聯(lián)網(wǎng)在線工具書系統(tǒng)模型進行設計及DEMO研發(fā)工作。

（三）功能概述

《西番譯語》多方言在線詞典以漢文和標準藏文作為檢索關鍵詞，用戶輸入查詢目標詞匯，選擇查詢目標方言，服務器端返回結果并通過瀏覽器進行呈現(xiàn)。除了這種常規(guī)的定向方言查詢功能，系統(tǒng)還應該提供一對多的查詢及反饋機制，此間的多目標可以是1至9種方言（上限9種僅僅是基于本文涉及的9種藏語方言）的任意組合。由于古籍的最大價值在于漢文轉(zhuǎn)寫的藏語方言語音部分，因此除了一般在線詞典檢索的文字結果輸出外，系統(tǒng)還應支持輸出目標詞匯的古籍掃描切片和對應的方言讀音輸出。

《西番譯語》的不同版本散落在世界各地，本文涉獵的只是國內(nèi)館藏的一部分。從工具系統(tǒng)的體系性和完備性角度考慮，多方言在線詞典應該具備較好的開放性，即開放地吸納留存各地的不同方言即不同歷史版本內(nèi)容資源，從而使這個平臺不僅能夠提供信息服務，更能通過UGC（用戶生成內(nèi)容）和互聯(lián)網(wǎng)集聚的模式不斷擴大內(nèi)容維度，增加資源體量，最終為從事領域研究的群體提供專業(yè)的服務。

（四）功能細節(jié)

1. 查找單詞

單詞查詢是《西番譯語》在線詞典的核心功能，用戶可以輸入規(guī)范化的漢文、英文或藏文詞條，并選擇不同方言版本的《西番譯語》典籍進行查詢。系統(tǒng)將顯示基于該典籍的方言藏文及漢文音譯書寫，同時提供該詞條對應的典籍掃描圖片及方言發(fā)音音頻。

2. 新增詞條

《西番譯語》尚有散落傳本未能歸集，利用互聯(lián)網(wǎng)的開放性進行數(shù)據(jù)擴展對《西番譯語》的學術研究具有重大作用。新增詞條即是滿足這一需求的功能部署，用戶可以在這里錄入典籍新傳本（不同于系統(tǒng)已有的傳本）具體詞條的漢文、藏文和漢文音注，同時上傳詞條對應的掃描圖片及藏語方言發(fā)音音頻，以期能夠逐步建成《西番譯語》各傳本的完整數(shù)據(jù)庫。

3. 歷史記錄

功能是各類在線詞典的基本配置，用于回溯特定用戶的查詢軌跡并快速定位目標詞條及其對應的數(shù)據(jù)內(nèi)容，是詞典系統(tǒng)提高查詢效率，增加用戶體驗的一個常用方法。

實事求是地說，本文所列《西番譯語》的上述功能，只是在線詞典最基本的組成部分，要達到真正完備成熟尚有許多方面可以提升。比如在查詢部分提供不同版本典籍對照展現(xiàn)，又比如在新增單詞部分提供數(shù)據(jù)上傳批量處理功能等，諸如此類的工作，需要隨著用戶行為、用戶體驗和需求反饋不斷進行改進和完善。

（五）數(shù)據(jù)加工

在線詞典的數(shù)據(jù)形態(tài)包括了文字、圖片和聲音。文字內(nèi)容部分可以借助圖書出版流程中基礎數(shù)據(jù)錄入環(huán)節(jié)，確立一定的格式規(guī)范然后進行批量的數(shù)據(jù)庫導入。掃描圖片的切片及不同方言音頻采集是本項目數(shù)據(jù)加工的重點，也是難點所在，尤其是音頻采集部分?！段鞣g語》涉及740個詞匯的9種發(fā)音，將產(chǎn)生將近8000個獨立的音頻素材，加之方言分布的地域差異，無疑對采集工作提出了不小的挑戰(zhàn)。語音素材整理的重點是對每一個詞的不同方言語音采集樣本進行審定。審定的難點主要在于古今方言語音變化帶來的挑戰(zhàn)，當下的語音樣本有可能質(zhì)疑古籍漢字轉(zhuǎn)寫藏語方言的可靠性，如何保障采集語音樣本的準確性或許還會成為一個專項研究的問題。

（六）庫表結構

為了更具針對性，本部分主要討論在線詞典數(shù)據(jù)庫詞典內(nèi)容的庫表設計，普適的用戶及歷史記錄數(shù)據(jù)庫庫表設計不再進行贅述。我們注意到詞典數(shù)據(jù)及其關系的兩個特性：其一是每本古籍的詞條數(shù)量是固定的，即740個;其二是每本古籍中的漢文詞條在不同方言版本中是一致的?；跐h文詞條的一致性與唯一性前提，我們將漢文及對應標準藏文作為多方言查詢的關鍵詞進行數(shù)據(jù)組織。在數(shù)量固定和詞條一致性前提下，數(shù)據(jù)庫設計中通過設定ID關聯(lián)不同版本的古籍詞條便成為可能。

考慮到數(shù)據(jù)庫查詢的效率及未來《西番譯語》其他版本詞條數(shù)據(jù)擴展的便捷性，我們設計了兩個庫表結構：第一個表結構用于建立漢文詞條、標準藏文及ID的關聯(lián);第二個表結構面向9個版本的詞條數(shù)據(jù)，9個版本的詞條數(shù)據(jù)將分別存儲在9個同一結構的不同表格中。其中的ID和第一個漢藏詞條表結構ID字段一致對應。數(shù)據(jù)查詢的邏輯是：根據(jù)用戶提交的漢文詞條或者標準藏文詞條，從第一個表結構中定位ID，再依據(jù)這個ID和目標方言信息，從第二個表結構中提取關聯(lián)的古籍數(shù)據(jù)。

（七）技術架構

實現(xiàn)一個常規(guī)的互聯(lián)網(wǎng)詞典查詢功能，可以選擇的技術路線是非常豐富的。比如，從平臺部署、開發(fā)難度和運行維護成本等角度考慮，APACHE作為WEB服務器，MYSQL作為數(shù)據(jù)庫，PHP作為前端開發(fā)，就可以是一個非盈利性在線信息服務常用的平臺方案。然而經(jīng)過認真分析功能需求復雜度、技術實現(xiàn)成本和實現(xiàn)效果，可以選擇DJANGO+MYSQL+PYTHON作為《西番譯語》在線詞典系統(tǒng)的技術框架。除了成本方面的因素，主要基于以下幾點考慮：其一， MYSQL是開源數(shù)據(jù)庫系統(tǒng)，其運行速度快、體積小、使用成本低、可移植性強以及非凡的可擴展性等諸多特性是開發(fā)在線詞典小型系統(tǒng)的絕佳選擇;其二，相對其他編程語言，PYTHON在數(shù)據(jù)處理領域具有壓倒性的優(yōu)勢和便利性，尤其是在互聯(lián)網(wǎng)信息挖掘與提取，諸如內(nèi)容爬取和分析等方面，對《西番譯語》詞典數(shù)據(jù)庫基于互聯(lián)網(wǎng)內(nèi)容資源的擴展將起到事半功倍的作用;其三，DJANGO 是面向PYTHON開源免費的高端WEB框架，這個框架解決WEB開發(fā)中的大部分繁瑣環(huán)節(jié)，倡導快速開發(fā)、簡潔實用設計的理念。

六、結論

綜上，藏文古籍自身具備的藏量、技術、學術研究環(huán)境、國家政策支持等良好客觀條件，為其實現(xiàn)不同程度及規(guī)模的數(shù)字出版工作提供了強有力的保障。然而，規(guī)模較小、應用范圍相對狹窄的古籍，無論從政府性立項的優(yōu)先性排序，抑或商業(yè)性的選擇，都很難進入數(shù)字化范疇。而其中不少古籍，以其內(nèi)容的稀缺性或版本的珍貴性，均具有重大的開發(fā)價值，如若埋沒，至為遺憾。

本文以明清古籍藏漢審音辭書《西番譯語》為例，探討了小眾型藏文古籍在線出版應用的可能性，以期能夠在更廣泛層面發(fā)揮其學術應用價值，更好地服務于學術研究及古籍保護工作。

附注

[1]創(chuàng)建人金·史密斯先生生前將該中心全部紙質(zhì)文獻12000函捐贈給了西南民族大學民族文獻中心，后西南民族大學成立“金·史密斯藏學文獻館”，并與TBRC聯(lián)合建立中國民族文獻數(shù)據(jù)庫及網(wǎng)絡共享平臺。

[2]根據(jù)筆者2019年對聯(lián)圖科技公司做的調(diào)研材料。

[3]《清實錄》一三，卷三百二十四，“乾隆十三年九月上”，轉(zhuǎn)引自聶鴻音、孫伯君（2010）20。

[4]錢大昕（清）. 補元史藝文志，轉(zhuǎn)引自任小波（2009）128。

[5]《西番譯語》（國圖藏本）第七冊，栗蘇譯語，天文門。

[6]《西番譯語》（國圖藏本）第八冊，打箭爐譯語，人事門。

參考文獻

1. 馬創(chuàng)新，曲維光，陳小荷.中文古籍數(shù)字化的開發(fā)層次和發(fā)展趨勢.圖書館，2014（2）.

2. 苗煒編.最漫長的博士.新知，2014（6）.

3. 聶鴻音，孫伯君.《西番譯語》校錄及匯編.北京：社會科學文獻出版社，2010.

4. 任小波.明清《西番譯語》傳本尋蹤.中國藏學，2009（3）： 130，132.

5. 施向東.清朝本《西番譯語》藏漢對音譯例研究.民族語文，2019（4）.

6. 王海磐.藏文文獻數(shù)據(jù)中心啟動藏文古籍文獻數(shù)據(jù)化手機整理.光明日報，20170822.

7. 張賀.與時間賽跑，古籍數(shù)字化如何加速.人民日報，20160623.

8. 趙越.《西藏圖書期刊數(shù)據(jù)庫及資源管理與檢索平臺》獲獎，西藏商報，20170610.

（民族出版社北京 100013）

（責任編輯劉博）

辭書研究2021年4期

辭書研究的其它文章: “披尋”考釋; 語文詞典植物詞的釋義例說; 莫安仁和他的《中英新名辭典》; 《御制五體清文鑒》及漢語詞條挖掘研究; 現(xiàn)代漢語事件名詞的界定及相關問題; 當代漢語“實力”的語法化