李建偉
2013年6月,“僑批檔案——海外華僑銀信”被聯(lián)合國(guó)教科文組織正式列入《世界記憶名錄》。僑批是由海外華僑通過(guò)民間機(jī)構(gòu)匯寄回國(guó)內(nèi)親人的家書,它具有匯款功能,銀信合一。這種歷經(jīng)百年的家書是海外僑胞緊密聯(lián)系祖國(guó)親人的紐帶,其飽含豐富的情感,客觀記錄了近150年以來(lái)身處異邦的華僑華人以及國(guó)內(nèi)家鄉(xiāng)親人的家庭、事業(yè)、生產(chǎn)和生活的真實(shí)情況,反映了僑居國(guó)和祖國(guó)的社會(huì)變遷和發(fā)展進(jìn)程,被贊譽(yù)為跨越百年又兼通中外的“敦煌文書”[1]。
口述資料與文字資料、實(shí)物資料一樣都是重要的人類知識(shí)表現(xiàn)形式[2]。無(wú)論是西方的《荷馬史詩(shī)》還是中國(guó)的《論語(yǔ)》《詩(shī)經(jīng)》等,都是先經(jīng)過(guò)口述,后又利用文字記錄的結(jié)果[3]。1948年,美國(guó)哥倫比亞大學(xué)巴特勒?qǐng)D書館始創(chuàng)了口述歷史研究室,首次提出“口述史”的概念,標(biāo)志著著現(xiàn)代口述史學(xué)的誕生。該中心關(guān)注政治歷史,利用多媒體手段記錄和保存歷史檔案,并以搶救文化民俗、重要地方歷史為首要目標(biāo)。現(xiàn)如今,口述歷史在美國(guó)已經(jīng)發(fā)展成為社會(huì)科學(xué)的一種基本研究方法,口述歷史相關(guān)機(jī)構(gòu)蓬勃興起,項(xiàng)目廣泛,資源豐富,尤其是口述歷史研究中對(duì)資源的加工整理、組織標(biāo)引以及內(nèi)容揭示的技術(shù)方法,為各國(guó)開(kāi)展口述歷史工作提供了良好的借鑒。新加坡口述歷史的發(fā)展也獨(dú)樹(shù)一幟,從1979年由5 人口述歷史小組進(jìn)行的“新加坡先驅(qū)人物”“新加坡政治發(fā)展史(1945-1965年)”項(xiàng)目開(kāi)始,到2011年倡導(dǎo)全民參與的“新加坡記憶工程”,開(kāi)啟了各社會(huì)階層“自下而上”來(lái)敘述歷史、民眾共同保護(hù)國(guó)家集體記憶的新模式[4]。新加坡口述歷史工作的成功經(jīng)驗(yàn)豐富,在口述工作的標(biāo)準(zhǔn)與規(guī)范化控制、檔案管理與修復(fù)以及軟環(huán)境建設(shè)方面成績(jī)斐然。
信息技術(shù)的飛速進(jìn)步,不斷改變著傳統(tǒng)檔案文獻(xiàn)的記錄與保存方式,也給傳統(tǒng)地方文化的保護(hù)帶來(lái)了巨大的機(jī)遇?,F(xiàn)代口述史歷經(jīng)半個(gè)多世紀(jì)的發(fā)展,世界各地已有許多著名的口述歷史項(xiàng)目,如美國(guó)加利福尼亞大學(xué)的USC Shoah 基金會(huì)機(jī)構(gòu)保存有53000 多個(gè)大屠殺幸存者的視頻訪談[5];Ellis Island 的口述歷史項(xiàng)目用于分享美國(guó)埃里斯島的移民歷史記錄;2010年10月開(kāi)始的蘇格蘭SRP 項(xiàng)目(Scotland’s Rural Past),探索蘇格蘭農(nóng)村原始過(guò)去以及原著民生活的歷史[6]。1980年代起,國(guó)外口述歷史的先進(jìn)方法逐漸引入我國(guó),引起國(guó)內(nèi)學(xué)界越來(lái)越多的重視,成為圖書檔案工作的新視野。國(guó)內(nèi)各大圖書館、檔案館紛紛啟動(dòng)口述歷史項(xiàng)目,以搶救和保護(hù)歷史資源,如2012年國(guó)家圖書館的“中國(guó)記憶”項(xiàng)目旨在記錄歷史、傳承民族記憶;2015年,廣東省立中山圖書館曾邀請(qǐng)8 位抗戰(zhàn)老兵口述抗戰(zhàn)時(shí)期的崢嶸歲月[7]??谑鰵v史是活著的歷史,國(guó)內(nèi)外諸多成功的口述歷史項(xiàng)目表明,數(shù)字信息技術(shù)是文化留存的有效手段,口述歷史推動(dòng)了文化的傳播與利用。
傳統(tǒng)僑批文獻(xiàn)是記錄社會(huì)實(shí)踐的原始記錄,為廣大海外華僑的社會(huì)記憶建構(gòu)提供知識(shí)給養(yǎng)。作為文化遺存,僑批的研究需要在更為廣闊的視角下,對(duì)僑批歷史上相關(guān)的人、事、物等方面展開(kāi)更為廣泛且細(xì)致的探究,擴(kuò)大僑批歷史研究的新視線和新領(lǐng)域[8]。多元的信息時(shí)代要求僑批的保護(hù)不能再是單一的文獻(xiàn)保護(hù),也應(yīng)重視百姓民眾記憶中留存的相關(guān)歷史資料的收集與保護(hù)??谑鰞S批利用錄音、錄像等多媒體手段通過(guò)訪談的方式真實(shí)記錄人們所知、所聞、所經(jīng)歷的事件,獲取豐富又鮮活的史料,讓瀕危的僑批記憶永久留存。
近年來(lái),廣東省政府機(jī)構(gòu)、文化部門以及學(xué)術(shù)界較重視僑批檔案的保護(hù),也意識(shí)到口述僑批檔案的重要性,如廣東省文化廳、檔案館、住房和城鄉(xiāng)建設(shè)廳于2017年組織發(fā)起了“尋訪僑批銀信后人”活動(dòng)[9]。對(duì)于梅州地區(qū)而言,地方政府與檔案機(jī)構(gòu)重視傳統(tǒng)僑批檔案的搶救保護(hù),僑批原件不斷被收集整理,相關(guān)史料文獻(xiàn)被充分發(fā)掘,圍繞僑批保護(hù)的研討也日益增加,但研究成果更多局限于僑批文本的釋讀以及文獻(xiàn)研究領(lǐng)域;對(duì)于口述僑批的研究和實(shí)踐則才剛剛起步?,F(xiàn)今加快口述梅州僑批收集顯得尤為迫切,尤其是大部分歷史見(jiàn)證人年事已高,一些珍貴的歷史記憶將面臨消失,若不及時(shí)挖掘搶救,這份蘊(yùn)含獨(dú)特學(xué)術(shù)價(jià)值的珍稀人文遺產(chǎn)將蒙受更大的損失。
2017年,嘉應(yīng)學(xué)院圖書館正式啟動(dòng)口述梅州僑批保護(hù)項(xiàng)目,依據(jù)僑批保護(hù)工作的搶救性、獨(dú)特性以及公眾興趣度進(jìn)行選題規(guī)劃,避免資源保護(hù)的盲目性與無(wú)序性。項(xiàng)目分為5 個(gè)子項(xiàng)目,共8 個(gè)專題,如“百姓述說(shuō)僑批故事”項(xiàng)目,以百姓的視角訴說(shuō)“親人的記憶”、“水客與僑匯”以及“僑批局的歲月”,讓后輩了解僑批的價(jià)值、華僑的開(kāi)拓貢獻(xiàn)精神以及當(dāng)事人彼時(shí)的心境和所處環(huán)境。其它專題還包括“弘揚(yáng)優(yōu)秀客家道德文化”“僑批文化研究”“典型時(shí)代特征的僑批”“僑批與文化、藝術(shù)”等。目前,相關(guān)口述史料的征集以及故事采集獲得階段性成果,共進(jìn)行了超過(guò)120 次的采訪,共獲取了83 名受訪者的口述材料,收錄了約107 時(shí)長(zhǎng)的錄音和視頻資源,成果處于加工整理及資源信息系統(tǒng)功能優(yōu)化完善階段。下文就口述梅州僑批史料數(shù)字倉(cāng)儲(chǔ)系統(tǒng)構(gòu)建,口述史料的標(biāo)引加工、主題索引系統(tǒng)創(chuàng)新進(jìn)行探討。
采集口述資源是保存口述歷史的關(guān)鍵。根植于百姓記憶之中的歷史,只有經(jīng)過(guò)收集和記錄,才能成為可以利用的實(shí)物檔案。梅州華人華僑眾多,口述僑批題材資源豐富,訪談對(duì)象范圍寬泛,但限于人力、物力因素制約,選擇合適的資源范圍成為關(guān)鍵??谑鲈L談地域范圍首選水客活躍或僑批業(yè)務(wù)經(jīng)營(yíng)興旺的典型鄉(xiāng)鎮(zhèn),如梅縣松口鎮(zhèn)——客家人下南洋的第一站、過(guò)往水客活動(dòng)和僑批流轉(zhuǎn)的樞紐,以及包括百侯、南口、茶陽(yáng)、丙村等近20 個(gè)著名僑鄉(xiāng)。僑批機(jī)構(gòu)對(duì)象則遴選梅縣的福記批局、同裕,大埔縣饒?jiān)疵?、同安堂?6 家僑批局作為資源采集目標(biāo),同時(shí)主動(dòng)到相關(guān)僑批保護(hù)機(jī)構(gòu)、學(xué)術(shù)研究中心搜尋僑批故事,邀請(qǐng)專家學(xué)者解讀僑批歷史??蚨ㄙY源范圍后,進(jìn)行訪談對(duì)象線索的收集,利用網(wǎng)絡(luò)社交媒體尋訪僑批后人,通過(guò)郵件、電話或走訪方式聯(lián)系相關(guān)的受訪對(duì)象,邀請(qǐng)僑批后人講述僑批故事,聆聽(tīng)塵封于百姓心中的有關(guān)僑批的往事。記憶的細(xì)節(jié)正是歷史片段的展示,專題建設(shè)讓碎片化的記憶聚合成主題鮮明的僑批故事。
成功的口述訪談?dòng)匈嚥稍L者與被訪者之間的溝通、理解。若想通過(guò)對(duì)話的方式構(gòu)建一段歷史,一方面要確認(rèn)受訪對(duì)象或事件的親歷者記憶客觀、邏輯清晰,因?yàn)槟:闵⒌挠洃涬y以反映事件的真實(shí)面;另一方面首選歷史事件的親歷者、知情人或關(guān)聯(lián)度較高的人。歷史本身是鮮活生動(dòng)的,由于歷史久遠(yuǎn),加之部分訪談對(duì)象年高體弱、記憶力衰退,口述內(nèi)容可能會(huì)有訛誤虛夸。整理者需要結(jié)合文獻(xiàn)史實(shí)或其它口述材料對(duì)素材進(jìn)行加工、整理,最大程度地還原歷史。整理口述僑批,應(yīng)本著客觀與真實(shí)的原則,盡可能尊重口述者的原意去表述歷史,讓口述檔案成為歷史憑證,同傳統(tǒng)僑批一樣發(fā)揮史料價(jià)值。經(jīng)篩選的口述史料是除去重復(fù)的、虛假的內(nèi)容,而非為說(shuō)明某種觀點(diǎn)去找例證,或者為印證某一結(jié)論牽強(qiáng)附會(huì)歷史名人和事件。
錄音筆、DV 等數(shù)碼器材的不斷推陳出新,為口述資源的采錄提供了更先進(jìn)的手段??谑鰞S批應(yīng)堅(jiān)持原生態(tài)的影視記錄手法,避免藝術(shù)化、故事化,力求真實(shí)。素材的采集盡量采用高品質(zhì)錄音麥克風(fēng)實(shí)現(xiàn)無(wú)損專業(yè)錄音,以清晰留存記憶者的聲音。音頻采錄主要為wav、MP3、amr 主流格式,波特率不低于192kbps;如果是其它途徑獲取的獨(dú)立的音頻文件,則利用專業(yè)轉(zhuǎn)換軟件將格式轉(zhuǎn)換為MP3 格式。視頻采錄主要包括div、MP4 多媒體類型,畫面清晰度較高,并且適合在網(wǎng)絡(luò)上傳播。另外,利用數(shù)字水印信息防止網(wǎng)絡(luò)盜版侵權(quán)行為,保護(hù)共享資源的知識(shí)產(chǎn)權(quán)。
梅州地區(qū)以客家話為方言,口述僑批的大部分采訪對(duì)象為普通老百姓,年齡較大且普通話水平較低??谑鲈L談是一種帶有溝通性質(zhì)的工作,為了獲得較好的訪談效果,部分訪談允許訪談?wù)吲c受訪者用客家方言交流。為方便互聯(lián)網(wǎng)用戶利用口述檔案,需要把有重要價(jià)值的口述錄音、視頻轉(zhuǎn)錄為文字稿。資源轉(zhuǎn)錄,一可更加明確表示人物故事,二可增強(qiáng)讀者的興趣度,克服因不了解客家方言不愿聆聽(tīng)訪談的障礙,推進(jìn)文化的推廣傳承。目前一些實(shí)用的智能語(yǔ)音轉(zhuǎn)換工具可以實(shí)現(xiàn)語(yǔ)言聽(tīng)寫、轉(zhuǎn)寫功能,如“搜狗聽(tīng)寫”,準(zhǔn)確率超過(guò)95%。為克服地方方言造成的語(yǔ)音識(shí)別困難,除人工聽(tīng)打文字稿外,還可以采用人工復(fù)述為普通話再進(jìn)行自動(dòng)語(yǔ)音識(shí)別。
口述轉(zhuǎn)寫往往過(guò)于碎片化而需再根據(jù)口述內(nèi)容進(jìn)行人工分段,以方便閱讀與歸檔保存??谑鲛D(zhuǎn)錄應(yīng)忠于受訪者真實(shí)意圖,除明顯的年代、地名、人物等方面有出入時(shí)需即時(shí)糾正外,還應(yīng)盡量從調(diào)整邏輯結(jié)構(gòu)、理順文法等技術(shù)層面進(jìn)行整理加工,體現(xiàn)口述史料的原始性價(jià)值。過(guò)于口語(yǔ)化的句子轉(zhuǎn)化為書面語(yǔ)時(shí),應(yīng)注意聯(lián)系上下文將語(yǔ)句結(jié)構(gòu)補(bǔ)充完整,如縮略語(yǔ)“46年”補(bǔ)充完整為“1946年”。部分講述人在敘述僑批時(shí)使用了隱語(yǔ)行話,如迪卡、藥丸等;僑批中隨信匯寄銀錢的數(shù)目、收訖的日期等使用了舊時(shí)的稱謂,如國(guó)幣、大洋、銀元、民國(guó)等,則需要加以注釋。同時(shí)要注意轉(zhuǎn)錄內(nèi)容的選擇,對(duì)于與訪談主題無(wú)關(guān)的導(dǎo)入式寒暄、個(gè)人隱私、邏輯思維混亂和矛盾等內(nèi)容謹(jǐn)慎轉(zhuǎn)錄或不轉(zhuǎn)錄。口述材料如果與現(xiàn)存史料不符,需要佐證糾正,存疑的信息盡量佐證材料與矛盾信息同時(shí)備注,利于研究者考究核查。
口述史料學(xué)術(shù)研究?jī)r(jià)值高,但數(shù)據(jù)量大,題材復(fù)雜多樣,云存儲(chǔ)技術(shù)為口述僑批的保存提供了無(wú)限的空間,然而要從日漸龐大的資源中挖掘到可利用的價(jià)值,就得提升資源元數(shù)據(jù)的質(zhì)量,重視與傳統(tǒng)檔案機(jī)構(gòu)和互聯(lián)網(wǎng)資源的整合方式。元數(shù)據(jù)是描述口述史料數(shù)據(jù)屬性的信息,元素設(shè)計(jì)并非多而全,而是注重功能實(shí)用、直觀。規(guī)范元數(shù)據(jù)目的是方便與異構(gòu)平臺(tái)數(shù)據(jù)庫(kù)信息資源元數(shù)據(jù)進(jìn)行數(shù)據(jù)收割、映射和轉(zhuǎn)換等,使不同機(jī)構(gòu)保存的資源能夠通過(guò)網(wǎng)絡(luò)兼容格式整合在一起。同時(shí)元數(shù)據(jù)的完整性也直接影響資源管理系統(tǒng)的性能,而系統(tǒng)最需要為用戶提供的是僑批口述資源有關(guān)“人物”“時(shí)間”“地點(diǎn)”“歷史背景”“人物社會(huì)關(guān)系”“主題特征”等關(guān)鍵信息,還需要說(shuō)明載體形態(tài)項(xiàng)中所涉及的數(shù)量、格式、版權(quán)等要素。
目前描述多媒體資料的元數(shù)據(jù)規(guī)范豐富多樣,嘉應(yīng)學(xué)院圖書館參考借鑒《口述歷史編目手冊(cè)》以及2016年國(guó)家檔案局的《口述歷史電子檔案元數(shù)據(jù)方案》,結(jié)合客家文化的特點(diǎn),集成設(shè)計(jì)元數(shù)據(jù)方案,見(jiàn)表1。采用集成設(shè)計(jì)的思路規(guī)范僑批口述資源元數(shù)據(jù)模型,可以有效保證信息特征抽取、結(jié)構(gòu)化深度整序,支持模糊、精確搜索,幫助不同信息能力的用戶都能以最符合自己的檢索習(xí)慣,方便快捷地識(shí)別、獲取感興趣的資源內(nèi)容。經(jīng)過(guò)統(tǒng)一格式轉(zhuǎn)換和規(guī)范化預(yù)處理的元數(shù)據(jù)記錄,完成對(duì)不同載體、格式資源內(nèi)容的有效揭示,可將某些具有相似內(nèi)容特征的音頻、視頻、圖片等口述資源關(guān)聯(lián)在一起,實(shí)現(xiàn)基于知識(shí)關(guān)聯(lián)的多類型信息資源的深度聚合,增進(jìn)信息資源共享效度。
表1 梅州口述僑批電子檔案元數(shù)據(jù)表以及實(shí)例
(續(xù)上表)
目前,相關(guān)口述僑批單個(gè)采訪視頻/音頻文件約50 分鐘,主題內(nèi)容豐富。對(duì)多媒體資源元數(shù)據(jù)進(jìn)行標(biāo)引后,文件保存在數(shù)據(jù)庫(kù)外部存儲(chǔ)空間。該方式是一種基于目錄式的多媒體文件倉(cāng)儲(chǔ)管理,用戶通過(guò)關(guān)鍵詞、時(shí)間、人物等途徑進(jìn)行資源檢索調(diào)用,優(yōu)點(diǎn)是數(shù)據(jù)庫(kù)結(jié)構(gòu)較簡(jiǎn)單,不受文件類型限制;缺點(diǎn)是系統(tǒng)將符合匹配條件的結(jié)果返回給用戶后,用戶不能對(duì)多媒體蘊(yùn)含的內(nèi)容進(jìn)行檢索,無(wú)法識(shí)別檔案里所講述的內(nèi)容,系統(tǒng)僅僅提供資源保存管理功能。
口述僑批的使命是記錄社會(huì)百姓的相關(guān)歷史,使它成為歷史的一部分。如果有價(jià)值的相關(guān)史料仍然隱藏在龐雜的信息中,用戶較難發(fā)現(xiàn)時(shí),其使命也就難于很好完成。因此口述僑批的重要任務(wù)是幫助發(fā)現(xiàn)歷史,為用戶構(gòu)建較科學(xué)的資源知識(shí)發(fā)現(xiàn)系統(tǒng),為大規(guī)模的口述史料提供精準(zhǔn)有效的資源發(fā)現(xiàn)入口。信息時(shí)代,用戶查找利用信息資源的要求越來(lái)越高,僑批口述資源發(fā)現(xiàn)系統(tǒng)目標(biāo)是基于內(nèi)容的深層知識(shí)發(fā)現(xiàn),從非結(jié)構(gòu)化多媒體文件中提取關(guān)聯(lián)內(nèi)容,如某個(gè)有價(jià)值的故事情節(jié)、數(shù)據(jù)、場(chǎng)景等,根據(jù)這些線索從海量數(shù)據(jù)庫(kù)信息中聚合更多主題相似的數(shù)據(jù),提升用戶的閱讀興趣,實(shí)現(xiàn)史料價(jià)值最大化。
口述采訪記錄都是語(yǔ)音、視頻多媒體文件,媒體文件被轉(zhuǎn)錄成文本,用戶利用關(guān)鍵詞檢索后,仍需要在語(yǔ)音/視頻中搜尋信息相應(yīng)的時(shí)刻。為增強(qiáng)口述歷史的用戶體驗(yàn),平臺(tái)管理系統(tǒng)應(yīng)用PHP 開(kāi)發(fā)的免費(fèi)開(kāi)源的“口述歷史元數(shù)據(jù)同步器”(Oral History Metadata Synchronizer,OHMS)功能插件。OHMS 由“同步器”與“查看器”組成?!巴狡鳌币苑昼姙殚g隔對(duì)目標(biāo)記錄分段,將與多媒體實(shí)際時(shí)刻相同步的時(shí)間標(biāo)簽嵌入轉(zhuǎn)錄文本中。時(shí)間標(biāo)簽的嵌入是在轉(zhuǎn)錄文本中進(jìn)行,邊聽(tīng)邊看邊產(chǎn)生,廉價(jià)而高效,如圖1所示。時(shí)間標(biāo)簽實(shí)現(xiàn)轉(zhuǎn)錄文本與音/視頻時(shí)刻的精確匹配,用戶輸入搜索詞檢索后,每條符合條件的記錄可精確指向?qū)?yīng)時(shí)間點(diǎn)的多媒體內(nèi)容,方便即刻瀏覽播放。“同步器”使轉(zhuǎn)錄文本與音/視頻之間建立起一座橋梁,實(shí)現(xiàn)對(duì)多媒體對(duì)象語(yǔ)義內(nèi)容及上下文進(jìn)行關(guān)聯(lián)檢索,讓用戶更快捷有效地獲取所需資源和利用口述采訪中有用信息。
圖1 時(shí)間標(biāo)簽工作機(jī)制
“查看器”是前端平臺(tái),結(jié)合用戶查找、利用資源的習(xí)慣,在一個(gè)集成的空間里為用戶提供口述記錄及與之同步的轉(zhuǎn)錄文本,多維度揭示信息資源。如圖2,用戶在“李淼講述華僑姑姑李冬妹的故事”中搜索“水客”,所有匹配結(jié)果在右邊區(qū)域列表呈現(xiàn),左邊區(qū)域顯示預(yù)先用“時(shí)間標(biāo)簽”間隔的記錄片段,用戶點(diǎn)擊相應(yīng)的“時(shí)間標(biāo)簽”即可播放對(duì)應(yīng)時(shí)刻的采訪。在同一前端界面實(shí)現(xiàn)多媒體資源與轉(zhuǎn)錄文本的關(guān)聯(lián)匹配,迅速、準(zhǔn)確為用戶提供所需信息。
圖2 提供口述記錄及與之同步的轉(zhuǎn)錄文本的展示界面
自動(dòng)語(yǔ)音識(shí)別是替代人工轉(zhuǎn)錄的有效技術(shù),但對(duì)于仍保留客家方言采訪的口述梅州僑批而言,其識(shí)別率受到極大的限制。如果為口述數(shù)據(jù)庫(kù)所有資源制作轉(zhuǎn)錄,把轉(zhuǎn)錄文本作為資源搜索的唯一入口,顯然資金、人員和時(shí)間成本巨大。但轉(zhuǎn)錄也有其局限性:假設(shè)敘述者長(zhǎng)時(shí)間敘述形容印尼社會(huì)生活中原住民與華僑之間種族歧視的歷史,里面卻沒(méi)有提及到“歧視”一詞,當(dāng)用戶選用“歧視”進(jìn)行搜索就合乎邏輯,然而搜索注定失敗,因?yàn)橹v述人并沒(méi)有實(shí)質(zhì)映射到相關(guān)的描述性概念。為此僑批平臺(tái)著重將口述音/視頻資源依據(jù)其所蘊(yùn)含的內(nèi)容特征進(jìn)行主題索引,加工標(biāo)引形成知識(shí)元,服務(wù)用戶的內(nèi)容主題發(fā)現(xiàn)。
3.3.1 主題索引機(jī)制設(shè)計(jì)
數(shù)字采訪上傳數(shù)據(jù)庫(kù)后,工作人員根據(jù)被索引對(duì)象而確定內(nèi)容主題,對(duì)主題價(jià)值較高的時(shí)間點(diǎn)進(jìn)行部分轉(zhuǎn)錄,設(shè)置關(guān)鍵詞,利用敘述性描述方法對(duì)該視頻片段進(jìn)行具體描述,形成位置印記。所提取的位置印記特征將存入特征數(shù)據(jù)庫(kù),與對(duì)應(yīng)媒體建立索引聯(lián)系。
主題索引的關(guān)鍵是從視頻中篩選出關(guān)鍵的資源片段,同時(shí)準(zhǔn)確描述內(nèi)容特征。索引者細(xì)聽(tīng)采訪錄音,選擇他們想描述的部分,打開(kāi)索引對(duì)話框,包含有時(shí)間戳(自動(dòng)填充)、標(biāo)題、部分記錄、關(guān)鍵字、主題、描述、超鏈接等字段,如圖3所示。索引完成后,點(diǎn)擊“保存”進(jìn)行下一段資源描述。索引器可以以15 秒為間隔后退或快進(jìn),方便將時(shí)間戳準(zhǔn)確定位在內(nèi)容初始處。OHMS 允許用戶創(chuàng)建敘詞表,主題和關(guān)鍵詞等字段可以從敘詞表中選擇填充,實(shí)現(xiàn)對(duì)有價(jià)值的知識(shí)元的快速索引。對(duì)于不能承擔(dān)大規(guī)模資源轉(zhuǎn)錄的地方文化保護(hù)項(xiàng)目而言,利用索引可以增強(qiáng)用戶檢索和利用訪談資源的效率,還大大節(jié)省了建設(shè)資金。一個(gè)小時(shí)的訪談通?;ㄙM(fèi)兩到三個(gè)小時(shí)進(jìn)行索引,這取決于資源內(nèi)容的特異性。
圖3 OHMS索引模塊(后臺(tái)終端)
主題索引提取可作為檢索標(biāo)志的位置印記作為檢索入口;查詢系統(tǒng)則將用戶檢索詞與媒體特征庫(kù)里存儲(chǔ)的媒體特征進(jìn)行相似性匹配,發(fā)現(xiàn)符合用戶要求的媒體內(nèi)容。預(yù)先設(shè)置的位置印記實(shí)現(xiàn)幫助用戶快速導(dǎo)讀到訪談中的焦點(diǎn)內(nèi)容,給讀者帶來(lái)身臨其境的面對(duì)面的訪談感覺(jué)。圖4是對(duì)李淼采訪記錄的資源索引用戶前端界面,當(dāng)搜索“僑批”時(shí),所有用“僑批”做標(biāo)引描述的視頻片段都會(huì)被檢索出來(lái),用戶只按需選擇播放采訪記錄對(duì)應(yīng)的精華時(shí)刻。瀏覽界面展示訪談?dòng)涗洉r(shí),也會(huì)提供“轉(zhuǎn)錄”和“索引”兩種功能候選項(xiàng),選擇“索引”,用戶能夠快速瀏覽或搜索采訪內(nèi)容;當(dāng)需要文本查找時(shí),即可切換到“轉(zhuǎn)錄”,以進(jìn)行更具體精確的信息搜索。
3.3.2 非結(jié)構(gòu)多媒體資源深層內(nèi)容特征揭示
多媒體內(nèi)容索引可滿足高信息、低成本、高效率、大規(guī)模的口述僑批資源建設(shè)目標(biāo),可更好地平衡檢索準(zhǔn)確性和資源轉(zhuǎn)錄成本的矛盾,也大大縮短了訪談?dòng)涗洀闹谱鞯接脩粼L問(wèn)的時(shí)間周期。與逐字逐句的轉(zhuǎn)錄相比,索引的另一個(gè)獨(dú)特優(yōu)勢(shì)是將受訪者表述的隱性詞匯或語(yǔ)義模糊的自然語(yǔ)言轉(zhuǎn)換為概念清晰明確的控制性詞匯。假如被采訪者在敘述印尼爪哇巴達(dá)維亞城(今雅加達(dá))排華、反華時(shí)代教育歧視的有關(guān)信息細(xì)節(jié)時(shí),可能沒(méi)有說(shuō)出“教育歧視”一詞;但一個(gè)優(yōu)秀的索引者可以將口述人的自然語(yǔ)言,如“我們使用單獨(dú)的飲水機(jī)和洗手間”“我們?nèi)ゲ煌膶W(xué)?!被颉拔覀冏诠财嚨暮竺妗钡日Z(yǔ)句概念變成“教育歧視”這個(gè)規(guī)范詞。此外索引者也可以將經(jīng)常搜索的關(guān)鍵詞,如“公共汽車”“水設(shè)施”“公共場(chǎng)所”等歸類為受控詞匯表中的“教育歧視”上傳系統(tǒng)保存。相對(duì)于傳統(tǒng)單一的文件查詢獲取服務(wù),基于多媒體內(nèi)容特征的主題索引,可以為用戶提供基于知識(shí)節(jié)點(diǎn)的深度聚合,也方便讀者從大型口述多媒體數(shù)據(jù)庫(kù)集中發(fā)現(xiàn)和分析出更多隱含的歷史細(xì)節(jié),如通過(guò)僑眷們飽含感情的敘述,能更好地再現(xiàn)中國(guó)僑民以往的生活場(chǎng)景,讓用戶更深切體會(huì)僑眷們?cè)?jīng)所承受的身體與精神的雙重創(chuàng)痛。
圖4 OHMS索引瀏覽器用戶前端界面
信息時(shí)代,與傳統(tǒng)檔案機(jī)構(gòu)建構(gòu)社會(huì)記憶“自上而下”方式不同,口述梅州僑批保護(hù)項(xiàng)目開(kāi)啟了“自下而上”建構(gòu)僑批記憶的方式,給相關(guān)人員提供了回憶和敘說(shuō)過(guò)去的平臺(tái),將客家海外華僑遷徙發(fā)展的歷史片段轉(zhuǎn)化為可留存和傳承的“數(shù)字記憶”。僑批多媒體內(nèi)容的深層知識(shí)揭示,方便用戶從海量的數(shù)據(jù)庫(kù)集中提取有價(jià)值的歷史故事,實(shí)現(xiàn)基于內(nèi)容的深層知識(shí)發(fā)現(xiàn)以及史料價(jià)值最大化。生動(dòng)具體的僑批口述歷史檔案,為客家地區(qū)歷史文化研究提供了的第一手資料,互聯(lián)網(wǎng)為共同傾聽(tīng)歷史回音提供了手段與途徑,極大地彌補(bǔ)了文字材料在記錄方面的缺失。
隨著時(shí)代的變遷,僑批的實(shí)用價(jià)值逐漸消淡,但其承載的歷史文化意義仍然牽動(dòng)著海外華僑華人的家國(guó)情結(jié)[10]。僑批是記載僑胞生存經(jīng)驗(yàn)和情感體驗(yàn)的知識(shí)容器,口述僑批并非僅僅是個(gè)人或家族的記憶,而是整個(gè)中國(guó)移民群體的記憶。僑批口述資源訪談并不局限于祖國(guó)用戶,更需要滿足多語(yǔ)言文化背景下的全球客家華人對(duì)資源的使用,僑批元數(shù)據(jù)標(biāo)準(zhǔn)要確保整個(gè)資源生命周期內(nèi)更好地促進(jìn)資源共享與服務(wù)融合,必須努力完善每一個(gè)口述歷史采訪記錄中所嵌入的資源描述,并能夠有效地將用戶的信息需求與檔案資源內(nèi)容緊密關(guān)聯(lián)起來(lái)。未來(lái),隨著自動(dòng)語(yǔ)音識(shí)別和人工智能技術(shù)的成熟,將增強(qiáng)在線口述歷史訪談檔案的存取能力,為建設(shè)大型口述歷史數(shù)據(jù)集提供更強(qiáng)大的技術(shù)支持。