●錢(qián)智勇,周建忠,賈 捷
(南通大學(xué) a.圖書(shū)館,b.楚辭研究中心,江蘇 南通 226019)
中國(guó)文化源遠(yuǎn)流長(zhǎng),先秦時(shí)代確立的文化品格對(duì)后世有著極其廣泛而又深遠(yuǎn)的影響。對(duì)屈原及楚辭的研究,自漢以來(lái)綿延不衰,薪火相傳。歷史證明,不僅在古代文學(xué)領(lǐng)域,楚辭研究的價(jià)值歷久彌新,即便在網(wǎng)絡(luò)技術(shù)飛速發(fā)展的今天,楚辭依然是魅力無(wú)窮、炫目斑斕的人文淵藪。
目前,楚辭文獻(xiàn)研究的特點(diǎn)是:①內(nèi)容豐富,包括楚辭的???、目錄、版本、注釋、今譯、考據(jù)、輯軼、辨?zhèn)蔚鹊?,類型多樣、資料翔實(shí),因而利用價(jià)值極高。②楚辭研究方法多樣,具有文本研究與學(xué)術(shù)史研究相并重,文學(xué)研究與文化背景相融通,出土文獻(xiàn)與地上文獻(xiàn)相結(jié)合,域外文獻(xiàn)與國(guó)內(nèi)文獻(xiàn)相參照等特點(diǎn)。
鑒于楚辭版本及楚辭研究文獻(xiàn)資源數(shù)量的日益激增,以及網(wǎng)絡(luò)上知識(shí)體系分散無(wú)序和楚辭學(xué)科缺乏規(guī)范的專業(yè)分類體系的現(xiàn)狀,對(duì)楚辭文獻(xiàn)知識(shí)的組織與開(kāi)發(fā)勢(shì)在必行。通過(guò)語(yǔ)義網(wǎng)技術(shù)對(duì)楚辭知識(shí)有效組織,建立楚辭研究知識(shí)庫(kù)和網(wǎng)站檢索系統(tǒng),使不同需求的網(wǎng)民能夠運(yùn)用方便、快捷、高效的新形式語(yǔ)義檢索服務(wù),鏈接到關(guān)于楚辭的分類知識(shí),便于世界各地讀者了解我國(guó)豐富的楚辭文化遺產(chǎn),推動(dòng)楚辭文學(xué)對(duì)國(guó)內(nèi)外學(xué)人的影響,促使楚辭文化在世界的傳播。同時(shí),楚辭知識(shí)庫(kù)的構(gòu)建提供了文學(xué)領(lǐng)域語(yǔ)義知識(shí)庫(kù)、知識(shí)檢索的構(gòu)建方法和具體構(gòu)建成果,推動(dòng)知識(shí)組織原理技術(shù)在文學(xué)領(lǐng)域的數(shù)字化、網(wǎng)絡(luò)化研究。此外,在教學(xué)科研方面,為楚辭研究學(xué)者和楚辭愛(ài)好者提供個(gè)性化信息服務(wù),幫助他們進(jìn)行楚辭研究的知識(shí)挖掘和知識(shí)發(fā)現(xiàn)。這不僅是計(jì)算機(jī)技術(shù)運(yùn)用于楚辭與楚文化保存和普及的新嘗試,更是對(duì)古代文學(xué)學(xué)科的計(jì)算機(jī)輔助研究與教學(xué)的前瞻性探索。
語(yǔ)義知識(shí)庫(kù)是對(duì)領(lǐng)域知識(shí)的模型化描述。實(shí)現(xiàn)基于知識(shí)的相關(guān)性與智能檢索是近年來(lái)文獻(xiàn)學(xué)和信息科學(xué)的研究熱點(diǎn)之一。電腦科技進(jìn)入英美文學(xué)研究大約開(kāi)始于20世紀(jì)60年代。1996年結(jié)合人文與電腦咨詢的期刊《Computersand the Humanities》創(chuàng)刊,開(kāi)啟了文學(xué)(西方)研究者以電腦來(lái)處理文學(xué)文本的學(xué)術(shù)研究。在語(yǔ)言學(xué)方面,世界上已建設(shè)的代表性語(yǔ)義知識(shí)庫(kù)項(xiàng)目有:①美國(guó)普林斯頓大學(xué)1985年開(kāi)始建設(shè)的WordNet(采用手工構(gòu)建,包含20716個(gè)概念詞及其語(yǔ)義關(guān)系);[1]② 美國(guó)微軟公司1993年開(kāi)始構(gòu)建的NindNet(采用自動(dòng)構(gòu)建,建成約16萬(wàn)詞匯的語(yǔ)義關(guān)系描述);[2]③英國(guó)劍橋大學(xué)的ILD(采用手工構(gòu)建,提供語(yǔ)義分類、語(yǔ)義特征、語(yǔ)義角色與選擇限制等);④美國(guó)加州大學(xué)1997年開(kāi)始的FrameNet(采用手工構(gòu)建,包含625個(gè)框架、8900多個(gè)詞語(yǔ)、13.5萬(wàn)條例句等) 等等。[3]
語(yǔ)言學(xué)因其獨(dú)有的形、音、義相結(jié)合的特質(zhì)而被專家較早引入計(jì)算機(jī)科學(xué)技術(shù),上世紀(jì)90年代以來(lái),我國(guó)大陸及臺(tái)灣地區(qū)對(duì)語(yǔ)義知識(shí)庫(kù)的研究也在如火如荼的開(kāi)展著,許多學(xué)術(shù)專家正在進(jìn)行知識(shí)庫(kù)模型和應(yīng)用的理論研究與實(shí)踐探索,其中包括對(duì)語(yǔ)言學(xué)、歷史學(xué)、農(nóng)學(xué)、醫(yī)學(xué)等眾多學(xué)科的知識(shí)庫(kù)構(gòu)建研究。[3]與人文領(lǐng)域相關(guān)的有:中國(guó)人民大學(xué)、清華大學(xué)手工構(gòu)建的“現(xiàn)代漢語(yǔ)術(shù)語(yǔ)動(dòng)詞機(jī)器詞典”;北京大學(xué)的CCD(手工構(gòu)建,語(yǔ)義知識(shí)表述了近6萬(wàn)個(gè)概念)并開(kāi)發(fā)“中國(guó)古代詩(shī)詞電腦輔助研究系統(tǒng)”,其中包含“唐宋詩(shī)之詞匯自動(dòng)分析及應(yīng)用”;董振東項(xiàng)目組的HowNet(采用手工構(gòu)建,包含81062個(gè)漢語(yǔ)詞匯、95690個(gè)漢語(yǔ)語(yǔ)義項(xiàng)、24089個(gè)概念)等項(xiàng)目;臺(tái)灣元智大學(xué)中國(guó)語(yǔ)言學(xué)系羅鳳珠教授與清華大學(xué)共同致力于研制“漢語(yǔ)詩(shī)的本體知識(shí)與語(yǔ)義檢索”。[4]在中國(guó)大陸與臺(tái)灣地區(qū)的古代文學(xué)數(shù)字化研究是基于中國(guó)古代詩(shī)歌語(yǔ)料庫(kù)的計(jì)算機(jī)語(yǔ)言學(xué)相關(guān)研究為基礎(chǔ)的,缺少對(duì)中國(guó)古代辭賦語(yǔ)料庫(kù)的研究。
《楚辭》之香草紛呈、喻義各別,是藝術(shù)的高妙之處,也是難以把握之處,由此激發(fā)了利用計(jì)算機(jī)中的知識(shí)組織和知識(shí)描述對(duì)其原本隱藏知識(shí)進(jìn)行挖掘,探知楚辭及辭賦的文字、章法、修辭和表現(xiàn)技巧。[5]同時(shí),在知識(shí)庫(kù)構(gòu)建中又深入到具體知識(shí)的關(guān)聯(lián)層面,將楚辭的作品表與楚辭作者表、楚辭地名表、楚辭版本表、楚辭事件表、屈原時(shí)代表、屈原家族表、楚辭植物表、楚辭音像數(shù)據(jù)庫(kù)、專家學(xué)者知識(shí)庫(kù)、楚辭論文索引、蘭文化知識(shí)庫(kù)和中國(guó)古代辭賦簡(jiǎn)論表相互關(guān)聯(lián)。反之,在楚辭知識(shí)庫(kù)的內(nèi)部知識(shí)推理和外部閱讀與檢索工具中,亦能從楚辭的單片論文出發(fā),延伸到楚辭的作品表及相關(guān)性的知識(shí),從而極大豐富讀者的知識(shí)獲取。
多途徑、多渠道搜集自漢以來(lái)的楚辭文獻(xiàn)和楚辭研究信息資源,包括古籍文獻(xiàn)、研究專著、研究論文、圖片和音像資料等,進(jìn)行數(shù)字化處理。目前,我們已完成超過(guò)7000篇題錄和1000多篇論文、100種楚辭專著和數(shù)百種圖片、音像資料的數(shù)字化,同時(shí)對(duì)楚辭文獻(xiàn)進(jìn)行主題分析,為楚辭研究知識(shí)庫(kù)的構(gòu)建提供文獻(xiàn)保障和準(zhǔn)備。我們?cè)诔o語(yǔ)料整理、入庫(kù)與標(biāo)注時(shí),保持了語(yǔ)料保存的統(tǒng)一性和規(guī)范性。在楚辭專家的鑒定下確保了錄入楚辭相關(guān)及相似語(yǔ)料的正確性。
經(jīng)過(guò)聚類技術(shù)對(duì)楚辭用戶進(jìn)行分析發(fā)現(xiàn):讀者在網(wǎng)上搜尋到的楚辭信息需要進(jìn)一步分層次處理。以《楚辭》中的《橘頌》為例,從楚辭愛(ài)好者的基本認(rèn)知層面來(lái)分析,他們關(guān)心的是每行詩(shī)句的注音、注疏及內(nèi)容詮釋。從楚辭知識(shí)理解和賞析的層面來(lái)看,他們關(guān)注的是楚辭的作者、楚辭的文化背景,屈原的家族淵源、有關(guān)楚辭的音像、考古等知識(shí)需求。從楚辭研究者整體訪問(wèn)楚辭知識(shí)的層面來(lái)說(shuō),他們更在意與楚辭相關(guān)的其他引申的相似信息,例如楚辭專家、楚辭論著、楚辭論文、辭賦源流等其他信息?;诖耍覀儗⒊o的信息分為楚辭原始文本庫(kù)和楚辭研究文獻(xiàn)庫(kù),用基于本體的元數(shù)據(jù)進(jìn)行分層管理。標(biāo)準(zhǔn)參照《我國(guó)數(shù)字圖書(shū)館標(biāo)準(zhǔn)與規(guī)范建設(shè)》中有關(guān)元數(shù)據(jù)與知識(shí)組織標(biāo)準(zhǔn)。元數(shù)據(jù)可應(yīng)用于不同層次,或者說(shuō),可以定義楚辭全局的元數(shù)據(jù),也可以定義關(guān)于楚辭知識(shí)某一層次資源的元數(shù)據(jù),并最終以一種統(tǒng)一、穩(wěn)定的楚辭描述方式和組織存儲(chǔ)在不同介質(zhì)上的信息,有助于查找和描述信息資源,從而改進(jìn)對(duì)資源進(jìn)行檢索、管理和利用的途徑。楚辭原始文本庫(kù)包含楚辭作者表、楚辭地名表、楚辭版本表、楚辭作品表、楚辭植物表、楚辭音像表、中國(guó)辭賦發(fā)展表等核心概念集與擴(kuò)展概念集;楚辭研究文獻(xiàn)庫(kù)中將包括楚辭影響表、楚辭與考古表、楚辭論文表、楚辭專家學(xué)者表等核心概念集。以上劃分極大解決了楚辭的內(nèi)部知識(shí)系統(tǒng),并為語(yǔ)義標(biāo)注和語(yǔ)義推理提供可行性的方案。圖1是在元數(shù)據(jù)分層管理的基礎(chǔ)上,以《橘頌》為實(shí)例的系統(tǒng)構(gòu)思圖。[6]
圖1 以《橘頌》為實(shí)例的系統(tǒng)構(gòu)思
我們的步驟是利用具有語(yǔ)義功能的概念圖模型搭建楚辭原始文本庫(kù)與研究文獻(xiàn)庫(kù)之間的對(duì)應(yīng)關(guān)系,并進(jìn)行語(yǔ)義標(biāo)注與推理,完成楚辭知識(shí)抽取庫(kù)的構(gòu)建。一方面,由楚辭研究專家指導(dǎo)專業(yè)人員利用語(yǔ)義標(biāo)注工具進(jìn)行語(yǔ)義化處理。這需要考慮3種情況:同義詞、概念的歧義、概念的上下位關(guān)系。另一方面,我們主要借助人工參與及結(jié)合現(xiàn)有的分詞工具,設(shè)計(jì)楚辭研究文檔分析器嵌入知識(shí)庫(kù)系統(tǒng)當(dāng)中,進(jìn)行語(yǔ)義提取、組織和處理,進(jìn)而通過(guò)概念的上位概念或是下位概念亦能檢索到潛在的有用信息。
利用本體開(kāi)發(fā)工具構(gòu)建楚辭研究知識(shí)關(guān)聯(lián)的過(guò)程如下:①由楚辭專家指導(dǎo)定義楚辭研究概念的層次結(jié)構(gòu)。②定義楚辭研究概念術(shù)語(yǔ)及屬性、關(guān)系及關(guān)系屬性。③本體編碼。④楚辭研究知識(shí)概念實(shí)例化。包括實(shí)例聲明、實(shí)例描述和關(guān)系關(guān)聯(lián)三部分;生成不少于1000個(gè)本體類、關(guān)系屬性、推理屬性和實(shí)例。⑤構(gòu)建楚辭研究語(yǔ)義概念詞典。建立楚辭研究知識(shí)庫(kù)的抽詞詞典,以詞匯作為楚辭研究知識(shí)的自動(dòng)標(biāo)引、自動(dòng)分類的工具和楚辭研究知識(shí)檢索的入口詞表。[7,8]其中每個(gè)概念都將能被清晰地定義和擁有可機(jī)器處理的語(yǔ)義。
知識(shí)庫(kù)網(wǎng)站前臺(tái)顯示使用了web2.0理念,結(jié)合了具有楚文化底蘊(yùn)的展示頁(yè)面。我們?cè)谠O(shè)計(jì)整個(gè)知識(shí)庫(kù)系統(tǒng)的時(shí)候,考慮到“楚辭知識(shí)庫(kù)”網(wǎng)站的整體感,對(duì)知識(shí)庫(kù)的前臺(tái)頁(yè)面設(shè)計(jì)也進(jìn)行了VI整合,以便楚辭專業(yè)學(xué)者或是感興趣的用戶在進(jìn)行知識(shí)檢索和學(xué)習(xí)的同時(shí),感受楚文化古韻的視覺(jué)沖擊。
在前臺(tái)設(shè)計(jì)中,為了使用戶使用更加方便,降低用戶楚辭學(xué)的專業(yè)門(mén)檻,我們將楚辭知識(shí)庫(kù)中的5個(gè)大類內(nèi)容分別做了聚合功能。在用戶不知從何處入手了解楚辭的時(shí)候,只要點(diǎn)擊左邊的5大類內(nèi)容,就可以輕而易舉地獲取楚辭知識(shí)。這里的聚合功能不同于傳統(tǒng)網(wǎng)站的簡(jiǎn)單分類,而是用了“類聚合”的概念。使用“類聚合”,可以把無(wú)數(shù)條相關(guān)記錄放到N個(gè)不同的類中,這樣可以降低數(shù)據(jù)庫(kù)存儲(chǔ)容量,提高數(shù)據(jù)檢索的效率,并讓內(nèi)容錄入者減輕負(fù)擔(dān),以此提高工作效率和系統(tǒng)利用率。
在前臺(tái)顯示檢索結(jié)果的時(shí)候,如前所述,其結(jié)果會(huì)通過(guò)推理機(jī)自動(dòng)生成4個(gè)不同的屬性標(biāo)簽,即論文、著作、知識(shí)庫(kù)、圖片,另一種“類聚合”的表現(xiàn)形式,其以不同屬性的“類聚合”來(lái)展現(xiàn)我們知識(shí)庫(kù)的體系內(nèi)容,可以讓用戶在獲取信息時(shí)更加靈活、方便地收集楚辭信息。
選用計(jì)算機(jī)語(yǔ)義網(wǎng)構(gòu)建輔助文學(xué)研究的知識(shí)庫(kù)還處于起步階段。因而,以此為代表的基于本體的楚辭知識(shí)庫(kù)構(gòu)建還有很多問(wèn)題需要關(guān)注和突破。目前需要突破的重點(diǎn)、難點(diǎn)主要有以下三個(gè)方面:
(1)楚辭研究知識(shí)中核心概念和擴(kuò)展概念語(yǔ)義關(guān)系網(wǎng)的構(gòu)建。我們擬根據(jù)IFLA的書(shū)目記錄功能需求FRBR,利用實(shí)體——屬性方法組建一個(gè)揭示楚辭書(shū)目結(jié)構(gòu)和關(guān)系的概念模型,從而構(gòu)建基于本體的楚辭文獻(xiàn)知識(shí)描述體系(見(jiàn)圖2)。
圖2 楚辭知識(shí)描述體系關(guān)系圖
在利用Protégé進(jìn)行開(kāi)發(fā)時(shí),所建立元類中的槽必須涉及FRBR的10個(gè)關(guān)鍵實(shí)體。以楚辭作品這項(xiàng)核心概念為例,元類中的槽需要包含:一組(作品、內(nèi)容表達(dá)、載體體現(xiàn)、單件)、二組(個(gè)人、團(tuán)體)、三組(概念、實(shí)物、事件、地點(diǎn))。
(2) 在知識(shí)庫(kù)構(gòu)建過(guò)程中,需解決以下兩個(gè)問(wèn)題:①在楚辭研究領(lǐng)域內(nèi),由于地域和習(xí)慣的不同,對(duì)同一事件或過(guò)程的表述存在結(jié)構(gòu)上的差異,需建立一個(gè)經(jīng)過(guò)論證的、具有一定擴(kuò)展性和概括性的標(biāo)準(zhǔn)結(jié)構(gòu)來(lái)規(guī)范數(shù)據(jù)的輸入和存儲(chǔ);同時(shí),數(shù)據(jù)的存儲(chǔ)模型和國(guó)際本體標(biāo)準(zhǔn)OWL要可以相互轉(zhuǎn)化,從而保證知識(shí)的可交換性,避免因結(jié)構(gòu)不同導(dǎo)致的重復(fù)工作。②由于語(yǔ)言內(nèi)在的和固有的動(dòng)態(tài)性,決定了楚辭研究知識(shí)庫(kù)也是需要不斷發(fā)展和更新的,因此,需特別設(shè)置一個(gè)本體代理來(lái)對(duì)本體知識(shí)庫(kù)進(jìn)行被動(dòng)式擴(kuò)充,從而保證知識(shí)庫(kù)的可擴(kuò)展性。[9]
(3)如何提高語(yǔ)義提取的準(zhǔn)確率,關(guān)鍵是如何在對(duì)文檔詞語(yǔ)切分處理、術(shù)語(yǔ)的自動(dòng)提取、概念間關(guān)系提取和句法內(nèi)容分析時(shí)消除歧義。我們擬采用人工參與,結(jié)合現(xiàn)有的分詞工具、詞義消歧工具、術(shù)語(yǔ)及其關(guān)系提取,設(shè)計(jì)楚辭研究文檔分析器嵌入知識(shí)庫(kù)系統(tǒng)中,進(jìn)行語(yǔ)義提取、組織和處理。[10]
無(wú)論從語(yǔ)義網(wǎng)研究實(shí)踐來(lái)看,還是從計(jì)算機(jī)網(wǎng)絡(luò)輔助文學(xué)研究、文化傳承及教學(xué)開(kāi)發(fā)來(lái)看,探索基于本體的文獻(xiàn)學(xué)知識(shí)組織與知識(shí)檢索理論、方法,并借助網(wǎng)絡(luò)平臺(tái)應(yīng)用于中國(guó)古代文學(xué)學(xué)科中的楚辭學(xué)研究領(lǐng)域只是一個(gè)研究起點(diǎn)。盡管還有許多難點(diǎn)及待開(kāi)發(fā)的研究領(lǐng)域,但更重要的是,它超越了原始數(shù)據(jù)庫(kù)的簡(jiǎn)單檢索,使基于本體的楚辭知識(shí)庫(kù)在檢索服務(wù)上實(shí)現(xiàn)了智能化。我們堅(jiān)信,楚辭文獻(xiàn)語(yǔ)義化研究和楚辭知識(shí)庫(kù)的構(gòu)建將是網(wǎng)絡(luò)信息時(shí)代中國(guó)古代文學(xué)研究方式創(chuàng)新歷程的必要環(huán)節(jié)。
[1] Princeton University.WordNet Program[EB/OL].[2009-12-11].http://www.cogsci.princeton.edu/~wn/.
[2] 微軟研究院.NLP組 MindNet項(xiàng)目 [EB/OL].[2009-12-11].http://research.microsoft.com/nlp/.
[3] 美國(guó)加州大學(xué).Framenet項(xiàng)目 [EB/OL].[2009-12-11].http://framenet.icsi.berkeley.edu/.
[4]羅鳳珠,等.語(yǔ)言,文學(xué)與資訊[M].臺(tái)灣:新竹“國(guó)立”清華大學(xué)出版社,2004.
[5]連登崗.祖國(guó)通用語(yǔ)言文字的特點(diǎn)和地位[J].南通大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2009(1):76-82.
[6]羅鳳珠,等.古代詩(shī)歌藝術(shù)數(shù)位博物館的設(shè)計(jì)與實(shí)現(xiàn)及相關(guān)的計(jì)算語(yǔ)言學(xué)研究[M]//語(yǔ)言,文學(xué)與資訊.臺(tái)灣:新竹“國(guó)立”清華大學(xué)出版社,2004:219-262.
[7] Wallg M,Nie J.ALatent Semantic Structure Model for Text Classification[M].Toronto:ACM-SIGIR-2003,Workshop on Mathematic/Formal Methods in Information Retrieval,2003.
[8] Shaw-Taylor J,CristianiniN,Kemel Methodsfor Pattern Analysis[M].China Maehine Press,2005.
[9]路耀華.思維模擬與知識(shí)工程[M].北京:清華大學(xué)出版社;南寧:廣西科學(xué)技術(shù)出版社,1997.
[10]董慧,等.基于本體的數(shù)字圖書(shū)館檢索模型研究(Ⅰ)——體系結(jié)構(gòu)解析[J].情報(bào)學(xué)報(bào),2006(3):269-275.