汪 超
內(nèi)容提要:處在數(shù)字時代,在傳統(tǒng)閱讀的基礎上,應用數(shù)字化技術(shù)輔助閱讀、研究唐宋詞,或可從四個方面著力。首先,檢索、統(tǒng)計。在“全讀”文本中發(fā)現(xiàn)問題之后再運用工具輔助檢索。可嘗試建設開放的、學者個性化的檢索系統(tǒng)。其次,文本分析。借助計算機分析文本異同,實現(xiàn)異文的搜索、轉(zhuǎn)換、排列,并與其他數(shù)據(jù)庫關聯(lián)。第三,文本標注。依托各種數(shù)據(jù)平臺提高挖掘語意、標注文本的正確率。最后,知識圖譜。知識圖譜是一種知識表示和管理的方式,唐宋詞相關的知識數(shù)據(jù)化后,也可以加入其中。我們面臨的是一個知識呈現(xiàn)變革的時代。知識的存儲、組織方式變化,并不改變知識本身,人機共讀的時代正在向我們走來。
唐宋詞研究是詞學研究領域的“熟土”,故而近年賢人智者紛紛轉(zhuǎn)出三唐兩宋,前往其他斷代拓荒。所謂“熟土”,一則經(jīng)過前人深耕,難以出新;二則歷代選本、舊注、舊評、年譜、考證等前人遺產(chǎn)堆積厚重,異說紛紛,頭緒蕪雜,難以厘清。但唐宋詞畢竟是詞體巔峰之作,又是詞學研究之“原鄉(xiāng)”。一般說來,詞學研究繞不過唐宋詞文本的閱讀,即便研治宋代以后之詞與詞學,沒有唐宋詞文本打底,恐怕也是難以想象的。“回歸文本”并非新鮮的話題,如何走回文本卻人言言殊。傳統(tǒng)治學中的閱讀文本之法,是大家都較為熟悉的;而處在數(shù)字時代的我們?nèi)绾谓Y(jié)合傳統(tǒng)讀法走回唐宋詞文本,是本文想討論的問題。
毋庸諱言,唐宋詞經(jīng)過前代學者的披沙揀金,經(jīng)典化已經(jīng)完成,形成了閱讀慣習,經(jīng)典作家、經(jīng)典詞作的文本較為封閉而有限。再加上權(quán)威判斷的效應,我們?yōu)樘扑卧~、唐宋詞家貼上了形形色色的標簽?!痘ㄩg集》“雕紅鏤翠”,柳永詞“通俗、創(chuàng)調(diào)”,蘇辛詞“豪放、愛國”,諸如此類,唐宋詞豐富的面貌被簡單化了。前人關于唐宋詞的成說、研究實績甚多,對于我們來說,既是需要翻越的山峰,又是可以繼承的財產(chǎn)。所以,重讀文本就要避免“各照隅隙,鮮觀衢路”。其實唐宋詞經(jīng)歷過幾次載體轉(zhuǎn)換,發(fā)生過文本來源、傳播方式的變化,例如宋元之際詞樂漸失,人們從聽、唱詞改為看、讀詞;明清以來唐宋詞經(jīng)典化完成,人們以選本、別集、叢刊看詞;現(xiàn)代詞學興起,林大椿《唐五代詞》、唐圭璋《全宋詞》出版,人們有了全集型斷代詞總集作為閱讀選擇。閱讀《全宋詞》的模式持續(xù)到20 世紀90年代,《全宋詞》光盤化、數(shù)字化。二十年過去了,數(shù)字化工具所能實現(xiàn)的功能已經(jīng)遠超王兆鵬師當年提到的“《全唐五代詞》、《全宋詞》、《全金元詞》和《詞話叢編》等內(nèi)容,具有查詢、索引、統(tǒng)計和輔助等四大功能”①嚴迪昌、劉揚忠、鐘振振、王兆鵬:《傳承、建構(gòu)、展望——關于二十世紀詞學研究的對話》,《文學遺產(chǎn)》1999 年第3 期。,但我們的閱讀方式并未發(fā)生根本的改變。數(shù)字化的《全宋詞》檢索系統(tǒng)反而造成初學者以檢索代替閱讀,“文本閱讀”動力不足的窘境?,F(xiàn)在,數(shù)字人文在不少領域有明顯貢獻,但有些項目設計的應用內(nèi)容是古代文學專業(yè)學者并不需要,甚至應當“警惕”的。筆者非數(shù)字人文專家,撰此文的目的主要有兩層:一是喚起詞學、古代文學研究的同仁注意數(shù)字人文的應用,參與數(shù)字人文應用于涉古研究之方法討論;一是為數(shù)字技術(shù)研發(fā)人員提供使用體驗,供其開發(fā)新產(chǎn)品時參考。
那么,我們?nèi)绾卧趥鹘y(tǒng)閱讀的基礎上,應用數(shù)字化技術(shù)輔助閱讀唐宋詞呢?
首先,檢索、統(tǒng)計。檢索既是各類數(shù)據(jù)庫的基本功能,也是研究者須臾不能忘懷的資料探訪途徑,不少專家對此憂心忡忡。筆者以為,檢索應該建立在“全讀”的基礎上,在“全讀”文本中發(fā)現(xiàn)問題之后再運用檢索工具加以輔助,那么其結(jié)果與“檢索體”論文絕非一回事。
“全讀”文本為什么重要?“全讀”《全唐五代詞》《全宋詞》《全金元詞》便于了解一代之詞①把《全金元詞》放進來一起討論,是因為金代與南宋幾乎并存,僅考察南宋詞而棄金詞于不顧,不能反映一個時代的全貌。因此,本文所論唐宋詞,皆自動包含“金詞”。,可以把握詞的歷時發(fā)展,據(jù)說前代學者如吳熊和先生就每年翻閱《全宋詞》一過。這種不斷的重復,看似笨功夫,實際上最易發(fā)現(xiàn)文本間的相互聯(lián)系、特殊問題。例如特殊詞體的出現(xiàn),黃庭堅《阮郎歸·效福唐獨木橋體作茶詞》在全讀的過程中就不容易忽略。一些特殊的文本關聯(lián)容易浮現(xiàn),比如詞人以“雨”與“淚”的意象合作,呈現(xiàn)出相思的內(nèi)心世界的慣技;比如詞人“眉間”“心上”相聯(lián)接的互文脈絡等?!叭x”的過程自然也會發(fā)現(xiàn)不少難以卒讀的詞,禪修丹道諸作大體如是?!度鹪~》所收金詞有大量全真高道之作,《全宋詞》中釋、道作品的比例本不如金元時期大,但也有屬于此類者。唐圭璋先生在《全金元詞》序言中提到這些作品,曾說是為存詞律的目的而保留??墒牵魪淖诮涛膶W的角度看,這些作品未必全無價值。哪怕從詞史本身看,這些作品的出現(xiàn)時間、文本形態(tài)、文本風格等都值得再探索?!叭x”的過程或許是印象式的,正可以借助數(shù)字化手段將此印象確定化。當發(fā)現(xiàn)特殊文本現(xiàn)象時,檢索全文顯然會為我們帶來更多相似的文本。事實上,舉凡詞之體式、句式、用字、用韻等等,多可借助計算機處理,形成結(jié)果。這些均是人所周知的,不贅言。
目前的檢索系統(tǒng)往往是封閉的,使用者不能自行修正、上傳、保存?zhèn)€性化的資料。筆者希望有一個用戶友好型的詞學檢索系統(tǒng),能彌補不足。比如全集型總集雖然追求“全”,但限于編纂實際,其結(jié)果往往只是理論上“全”。單個作家的作品全集,也是如此。所以,我們所說的“全讀”,自然也是相對之“全”?!度莆宕~》晚出,且近年又出新版,學界有關唐五代詞的文獻發(fā)現(xiàn)無多,若無重要考古發(fā)現(xiàn),唐詞佚作想來不易再現(xiàn)?!度卧~》近年來有兩宗大收獲,一是佘筠珺《靜嘉堂文庫本『新編通用啟劄截江網(wǎng)』に見える宋詞—『全宋詞』輯補一百四十首》(《風絮》第14 號,2017 年12 月),所輯140首名姓不彰者之作;一是湯華泉《〈全宋詞〉拾補九十二首》(《詞學》第40 輯,華東師范大學出版社,2018 年),其中有黃庭堅、葛長庚、姚勉、王之道等人詞作,并有散闋。此前,彭志《〈全宋詞〉〈全金元詞〉輯補二十家三十七首》(《社會科學論壇》2016 年第7 期),還輯有汪藻、余玠、徐安國等人詞作20闋,金人詞作17 闋。三年間,270 余闋宋人遺篇重見天日,難免讓我們對域外漢籍和釋、道、方志諸書有所期待。事實上,《全宋詞》一直都在被補苴,小到句讀,大到輯佚、辨?zhèn)?,中間則如其他一些細節(jié)修訂,如鐘振振教授的《全宋詞》詞人小傳修訂工作已有一系列成果,并主持有國家社科基金重大項目《全宋詞人年譜、行實考》。因此有學者呼吁重編《全宋詞》,并為之做出基礎工作。②劉榮平:《論〈全宋詞〉的缺失局限與重編的可行性》,《廈門大學學報》,2019 年第5 期;劉榮平、曹鈴玉:《〈全宋詞〉訂補論文論著索引(新編)》,《廈大中文學報》,2018 年。所以,當我們重讀唐宋詞時,一方面不妨取訂補諸作參看;另一方面,若能將這些資料上傳到可以修訂保存的學者個性化檢索系統(tǒng),就可以及時更新《全宋詞》數(shù)據(jù)。
除去更新《全宋詞》數(shù)據(jù),若有系統(tǒng)可存儲、調(diào)用其他文體作品、研究資料,研究者的實際需要或能得到更大的滿足。如果這個系統(tǒng)的數(shù)據(jù)是智能化的,可以實現(xiàn)人機對話,并且與其他數(shù)據(jù)庫發(fā)生關聯(lián),其功能勢必更加強大,對唐宋詞研究的作用也可想而知。
其次,文本分析。文本分析的工具與平臺,目前較常見的有萊頓大學宋史學者魏希德教授開發(fā)的碼庫思(Markus),這是與哈佛大學的CBDB、復旦大學的CHGIS 關聯(lián)的,一般介紹總要提到它的半自動標注功能。還有一個中文文本平臺是ctext.org,它提供研究者可以比對的文本。這些比對的內(nèi)容可能是它自身搜羅的,也可以鏈接到其他圖書資料系統(tǒng)。但是,ctext 平臺上面有先秦到民國時期的諸多文本,卻幾乎沒有詞文本。所以從某種意義上說,并不是數(shù)字人文需要詞學研究,而是詞學研究需要數(shù)字人文。我們可以在詞籍數(shù)據(jù)化之后使用這些工具、平臺。當然也希望技術(shù)界能開發(fā)新的、功能更強大的文本分析平臺。
人文學者進行文本分析,是學術(shù)生產(chǎn)的重要步驟之一。計算機是否可以輔助這一步驟呢?舉個例子,詞學研究目前的幾種“全集型”斷代詞總集多沿《全宋詞》之體例,是白文本,有時并不便于理解。因此,別集箋校整理本也成為研究者的重要參考。歷年來,重要詞籍多有數(shù)個整理本,而詞籍新的整理本仍然層出不窮。辛棄疾詞在已有鄧廣銘《稼軒詞編年箋注》這一經(jīng)典注本的情況下,近年來仍然有鄭騫《稼軒詞校注》、朱德才與薛祥生《辛棄疾詞新釋集評》、謝永芳《辛棄疾詩詞全集》、謝俊華《辛棄疾全詞詳注》、吳企明《辛棄疾詞校箋》、辛更儒《辛棄疾詞編年箋注》等眾多全注本。后兩種分別由上海古籍出版社、中華書局兩家業(yè)界頂級出版社先后在三個月內(nèi)出版。再加上徐漢明《辛棄疾全集校注》、辛更儒《辛棄疾集編年箋注》,稼軒詞的整理本更是為數(shù)眾多。這還不算為數(shù)更眾的辛棄疾詞選本。其他唐宋名家詞籍或許不如稼軒詞整理本突出,但經(jīng)典詞家的箋校本數(shù)量都不少。不過,對于讀者而言,如此眾多的整理本難免令人心生畏懼、望洋興嘆。它們既是知識遺產(chǎn),也是學習負擔。同一部詞籍,即便有異文,其大部分內(nèi)容應該是接近,甚至相同的。傳統(tǒng)的??狈ㄍㄟ^逐字逐句的閱讀來發(fā)現(xiàn)異文,??币徊吭~籍往往耗數(shù)月之功,《吳梅日記》中記載其校讀白石詞,就是如此。而當我們坐擁為數(shù)眾多的整理本時,異文的問題就更加復雜?!罢怼本鸵馕吨潘?,例如??鲍@得異文之后,必然要有所選擇,“選擇”就意味著“放棄”。版本越多,意味著異文出現(xiàn)的可能性越大,整理者修改、擦除異文的可能也就越大。這種擦除,造成誤刪的幾率也不低。夏志穎認為姜夔《暗香》的“不管清寒與攀摘”之“摘”若作“折”字,“從版本、字義、詞意三方面”均存在“可能性及優(yōu)勝之處”,但“折”字在今日的著述中還是被淘汰了。①夏志穎:《姜夔〈暗香〉、〈疏影〉三議》,陳水云主編《詞學國際學術(shù)研討會論文集》,馬來亞大學華人研究中心,2012年,第589 頁。選此棄彼難免誤傷無辜,也就形成了更多的“異本”,若要全部比勘一遍,不但平白浪費光陰,校書如掃塵,而且仍然可能出現(xiàn)“摘”字勝出的現(xiàn)象。若尋求數(shù)字技術(shù)的幫助,讓計算機幫我們判讀異文,當唐宋詞文本數(shù)據(jù)化之后,判讀異文就可借助技術(shù)手段實現(xiàn),相同的部分就不必重復閱讀,異文所在可以輕松搜索、轉(zhuǎn)換、排列。如果再與其他數(shù)據(jù)庫關聯(lián),相關的學術(shù)文章中涉及異文判斷的,均有可能在未來開發(fā)的文本系統(tǒng)、平臺中得到反映。
不過,從目前的情況看,撇開版權(quán)問題,僅就技術(shù)條件而言,對整理本的數(shù)字化還是有障礙的。OCR 軟件辨識繁體字本身就存在問題,再由于異體字、手寫體等文字形態(tài)的存在,有時校核OCR軟件的識別結(jié)果,耗時比人工輸入文本還要長。從單個研究者來看,時間成本過高,似乎并不合算,但這些數(shù)據(jù)是可以反復、多角度使用的,因此必然攤薄成本。若出版社也能參與其事,提供與印刷本相同的電子本,這一問題也就不成其為問題了。
另外,劉石、孫茂松教授曾提到20 世紀80 年代以來,“廈門大學周昌樂教授課題組針對宋詞風格‘豪放與婉約’的分類問題,研創(chuàng)了基于字和詞為特征的風格分類模型、基于頻繁關鍵字共現(xiàn)的詩歌風格判定方法以及基于詞和語義為特征的風格分類模型”,“北京大學杜曉勤教授研發(fā)的‘中國古典詩文聲律分析系統(tǒng)’”等相關先行成果,其實現(xiàn)的方式也是基于標注來進行文本分析的。①劉石、孫茂松:《大數(shù)據(jù)時代的古典文學研究》,《光明日報》2018 年10 月15 日,第13 版。
蘇軾生活在抄本向雕版轉(zhuǎn)換的時代,雖然較前人更易獲得雕版印刷的文本,他仍然手抄《漢書》,以學習提高。我們借助文本分析來判斷異文,目的在減輕人力,但選擇異文的工作仍然是機器無法取代的,也是數(shù)字人文研究結(jié)果呈現(xiàn)后,人的智慧發(fā)揮作用之時。
第三,文本標注。王兆鵬師曾設想“把固態(tài)文獻變成活態(tài)文獻,讓舊文獻生成新知識,讓海量文獻生成大數(shù)據(jù),從大數(shù)據(jù)中發(fā)現(xiàn)新問題”。②王兆鵬:《新世紀以來詞學研究的進展與瞻望》,《學術(shù)研究》2015 年第6 期。他舉《全宋詞》為例,認為未來數(shù)字化之后,可以根據(jù)讀者意圖排列組合,“可以按題材來排列,以考察同一題材的不同表現(xiàn)方式及其演進;可以自定義按詞中的物象來排列,如分天文、地理、動物、植物、人物、器物等,以分類考察詞作中的自然世界、人文世界和情感世界”,期許詞學研究的新空間、新格局。③王兆鵬:《新世紀以來詞學研究的進展與瞻望》,《學術(shù)研究》2015 年第6 期。其實文本的排列組合要依靠文本標注實現(xiàn)。前文提到過碼庫思的文本自動標注功能,它依托其他數(shù)據(jù)平臺提供的地名、人名系統(tǒng),可以為古籍文本初步句讀。碼庫思之所以能實現(xiàn)該功能,也是因為文本標注的技術(shù)。數(shù)字技術(shù)研究者建構(gòu)“依存句法樹庫”,依據(jù)漢語語法,挖掘語意,點斷句子。但古文文本經(jīng)常由于地名、人名的差異被點破,所以依托有近50萬條人物關系數(shù)據(jù)的CBDB 和有較為詳細的古代地名的CHGIS,可在很大程度上避免此類問題。
筆者感興趣的是詞作中的地名文本與作者行跡圖對應時,創(chuàng)作地、詞作地名不相符時的文本。如果要人工尋找,恐怕也是個不小的時間消耗,但交給計算機處理,這樣的文本應該很快就可以找出來。其后,研究者再進行人工分析,看這些差異究竟是如何產(chǎn)生的。到底是用典、用事,還是作者在異地懷念曾經(jīng)的居停之所?又或者是別的情況。此類的話題是建立在研究者有相關知識儲備的基礎上的,機器承擔了文本搜尋的工作,但又較原始、簡單的檢索功能更進一步。
當然,數(shù)字化并不是萬能的,它的功能都是建立在人類提供數(shù)據(jù)的基礎上的。所以,數(shù)據(jù)若不完整,也肯定會出現(xiàn)文本分析錯誤。如“依存句法樹庫”根據(jù)現(xiàn)代漢語語法拆分語詞,文言文斷句有誤差是很正常的。唐宋詞有別于日常生活表達的句法又哪里會少?“錦浦,春女,繡衣金縷”(韋莊《河傳》),如果沒有標點,這種純名詞組合的句子,哪個是主語?哪個是謂語?恐怕有些連專業(yè)基礎略差的研究者也未必搞得清楚,自然要經(jīng)過特殊處理。更何況我們還有眾多生僻的詞調(diào)在等著開發(fā)數(shù)字技術(shù)的程序員們!明明都叫《訴衷情》,為什么文本有的只有一段,有的又分兩段?不同的作者寫的《采桑子》為什么字數(shù)不相同,有的平仄位置不一樣?為什么有些《浣溪沙》和《攤破浣溪沙》文本又十分相像?為什么《念奴嬌》《百字令》《酹江月》《大江東去》《壺中天》《湘月》看上去像是“六胞胎”?《詞譜》自然是可以依據(jù)的,哪怕《催徽頭子》《玉團兒》《落梅風》《早梅芳》這種只有個位數(shù)作品的詞調(diào)也可以總結(jié)規(guī)律,提供給“依存句法樹庫”。可是意外仍然是不可避免的,只能依靠不斷積累,不斷擴充,讓計算機自動學習詞學的內(nèi)容之后,情況才會略好。如果專業(yè)學者都不參與,孤立于數(shù)字浪潮之外,那么終將被數(shù)字革命所拋棄。
最后,知識圖譜。知識圖譜是知識服務的新熱點,它是一種知識表示和管理的方式,主要是各種實體及其關系網(wǎng)絡的呈現(xiàn)。它的數(shù)據(jù)主要是散落在網(wǎng)絡上的元數(shù)據(jù)。我的理解是,把唐宋詞相關的知識數(shù)據(jù)化,也可以加入其中,從而為我們獲取、整理前人遺產(chǎn)服務。這里說的前人遺產(chǎn)包括整理本中的箋注、集評,各類唐宋詞鑒賞,詞話、詞學論文和論著等。
我們閱讀唐宋詞文本以讀詞籍整理本為主,常見的詞籍整理本箋注模式是現(xiàn)代詞學興起后,在繼承清人??敝畬W的基礎上形成基本規(guī)范的。如李冰若的《花間集評注》(1935)評、注結(jié)合,著意集評;華蓮圃(華鐘彥)的《花間集注》(1935)傾力于注。稍后唐圭璋先生《南唐二主詞匯箋》(1936)則于箋注之外,融合編年。于是,后來諸唐宋詞名家詞籍整理本多是??薄⒐{注、集評、編年等形式的組合。唐宋名家詞的整理本,從某種程度上說,是整理者“文本細讀”的結(jié)果。這一結(jié)果包含前人的閱讀經(jīng)驗和文化遺產(chǎn)。
唐宋詞的鑒賞、論文、論著和詞話就更是建立在前人閱讀經(jīng)驗的基礎上。其中出現(xiàn)的評論、話題、概念進入知識圖譜的架構(gòu)后均可以自動組合。計算機與人之間可以實現(xiàn)對話,是一種智能型的知識組織方式。計算機通過學習,還可以主動提供一些相關的資源。
打個比方,張以仁寫《溫飛卿詞舊說商榷》自然是極有功力的。①張以仁:《溫飛卿詞舊說商榷》,《花間詞論集》,“中研院”中國文哲研究所,2004 年。他需要清理、羅列前人時賢對同一首作品的若干意見,然后分析,一一辨誤。如果未來放在知識圖譜中,這些資料會由計算機分類、呈現(xiàn),人需要做的只是分析和辨誤。
現(xiàn)在相關工作很多是由信息管理、圖書情報專業(yè)的學者完成。他們的目的在提供方法,關注焦點并不在內(nèi)容本身,所以引以為依據(jù)的知識來源是網(wǎng)絡各種數(shù)據(jù)庫、百度百科、維基百科等。而這些數(shù)據(jù)源頭不清,相信古代文學學者較難信服。但是,如果專業(yè)學者參與,將詞籍數(shù)據(jù)化,對文本妥善標注,自建數(shù)據(jù)庫,再與網(wǎng)絡資源關聯(lián),關聯(lián)后進行數(shù)據(jù)清洗,確定其可靠性,這樣一來,就可以有效解決文獻可信度的問題。
其實以上各種方法,只是數(shù)字技術(shù)很小的一部分,我們面臨的是一個知識呈現(xiàn)變革的時代。知識的存儲、組織方式變化,并不改變知識本身。就像唐五代的前輩手抄詞籍,宋金的前輩將手抄本、稿本變成雕版板片,明清的前輩把詞別集匯成叢刊、叢編,現(xiàn)當代的詞學學者將這些內(nèi)容又歸攏成各種整理本,這種變化應該是類似的。不管我們愿不愿意,人機共讀的時代正在向我們走來。