陳潔薇(廣東藥學院圖書館 廣東 廣州 510006)
近年來隨著視頻資源大規(guī)模地出現(xiàn),人們越來越重視對其的利用。但由于多數(shù)視頻資源著錄和標引不規(guī)范,讀者在利用視頻資源過程中存在著障礙。例如,讀者在圖書館的視頻資源中要查找某個鏡頭就需要有經(jīng)驗的館員逐一搜尋視頻拷貝,既浪費時間還不一定能找到。所以對視頻資源的規(guī)范著錄和準確標引是建立視頻資源信息檢索的前提,也是對視頻資源進行有效管理與利用的基礎。
1995年,由美國圖書館界、計算機界和博物館界的專家組成的委員會共同推出了都柏林核心計劃,確認了網(wǎng)絡資源內容描述的最基本元素,為網(wǎng)絡資源與視頻資源的著錄和標引奠定了基礎[1]。都柏林核心計劃由15個元素組成:題名、作者或創(chuàng)作者、主題詞或關鍵詞、內容描述、出版者、其他責任者、日期、資源類型、格式、資源標識、來源、語言、關系、范圍和權限管理。都柏林核心元數(shù)據(jù)的基本功能是識別、描述、組織和發(fā)現(xiàn)網(wǎng)絡資源與多媒體資源,對網(wǎng)絡信息資源和多媒體資源進行有效的描述、著錄和標引,有效地解決網(wǎng)絡資源和多媒體資源的編目和利用問題。
MARC(Machine-Readable Cataloging,機器可讀目錄)格式是我國圖書館長期以來一直使用的編目格式,隨著網(wǎng)絡資源的出現(xiàn)及其著錄的需要,添加856字段使MARC具備了對網(wǎng)絡信息資源進行編目組織的功能,MARC和都柏林核心元數(shù)據(jù)共同成為組織網(wǎng)絡信息資源、視頻資源的重要手段[2]。
計算機存儲技術和網(wǎng)絡傳播技術的迅速發(fā)展為視頻資源的開發(fā)利用創(chuàng)造了條件,使世界范圍內的多媒體資源占出版物總數(shù)的1/3。國內外多數(shù)圖書館已經(jīng)開始了多媒體資源的建設和服務,如深圳圖書館、北京大學圖書館、廣東省立中山圖書館的“多媒體資源”數(shù)據(jù)庫,華南師范大學圖書館的“教育資源光盤數(shù)據(jù)庫”,北京舞蹈學院圖書館的“網(wǎng)上報告廳視頻服務”,清華大學圖書館2006年底推出的“‘知識視界’視頻教育資源”數(shù)據(jù)庫[3],廣州警官學院圖書館2003年建設的“公安視頻案例教學資源數(shù)據(jù)庫”和“法律視頻教學資源數(shù)據(jù)庫”[4],武漢理工大學圖書館的“音視頻點播”系統(tǒng),中南大學圖書館的“音視頻資源”系統(tǒng)等,但大多數(shù)都處于起步摸索階段。此外,目前圖書館對視頻資源的著錄和標引極不規(guī)范,有的圖書館使用MARC格式著錄,有的圖書館使用都柏林核心元數(shù)據(jù)著錄;有的圖書館使用分類標引,有的圖書館使用主題標引;甚至有的圖書館只在視頻資源庫的界面上列出配有文字介紹的視頻畫面。視頻資源在著錄和標引方面的差異使視頻資源的檢索方法缺少規(guī)范性,究其原因主要是視頻資源載體多樣,一些視頻根本找不到相應的文字說明,標引存在一定的難度。因此,如何合理地對圖書館視頻資源進行著錄和標引并使資源得到高效利用,是目前各個圖書館面臨的關鍵問題。
基于視頻資源內容的信息獲取即對視頻資源中的圖像、視頻、音頻內容進行分析,抽取特征和語義,作為視頻資源著錄和標引的依據(jù)。對視頻資源內容獲取需運用鏡頭分割技術、關鍵幀抽取技術、圖像特征提取技術和視頻結構重構技術。
3.1.1 鏡頭分割技術
大部分視頻資源是由多個鏡頭組成的。對視頻資源內容的著錄和標引信息的獲取首先要把視頻資源自動地分割為鏡頭,將其作為視頻資源著錄或標引的信息來源,這個過程稱為鏡頭邊界的檢測或場景轉換檢測。采用鏡頭分割技術就是把視頻資源的內容分成若干個鏡頭,每個鏡頭都作為視頻數(shù)據(jù)的基本單元(也稱為元數(shù)據(jù))。視頻流中的鏡頭由在時間上連續(xù)的視頻幀組成,代表每個場景中時間和空間上的連續(xù)動作,對應著攝像機的每次起、停操作記錄。鏡頭分割技術對鏡頭的分割方法有4種:①鏡頭切變檢測,包括圖像像素差法、模板比較法、似然比方法、顏色直方圖差法、顏色直方圖平方差法、平均密度差方法等;②雙比較技術,它既能檢測到正常的鏡頭切變又能檢測到鏡頭漸變;③動態(tài)分析技術,是解決鏡頭分塊邊界分割問題的技術;④視頻壓縮技術,即依據(jù)比較前后視頻幀圖像的壓縮系數(shù),按一定的條件設定壓縮系數(shù),當滿足壓縮條件時把它們切分為兩組鏡頭,避免“解壓—檢索—壓縮”帶來的大量計算。
3.1.2 關鍵幀抽取技術
關鍵幀是反映一組鏡頭中主要信息內容的一幀或若干幀圖像。關鍵幀的作用類似于文本檢索中的關鍵詞,用關鍵幀代表鏡頭能夠利用圖像檢索技術對視頻鏡頭進行檢索。關鍵幀的抽取方法有5種:①基于鏡頭的方法,即為每個鏡頭選取一個關鍵幀,該方法非常適合于視頻內容活動性小或保持不變的鏡頭;②基于內容分析的方法,該方法是根據(jù)鏡頭內容的變化程度選擇具有代表性的關鍵幀;③基于運動分析的方法,該方法是借助光流分析技術計算鏡頭中的運動量,在運動量中選取有代表性的關鍵幀;④基于鏡頭活動性的方法,該方法是通過鏡頭的變換來選取關鍵幀的方法;⑤基于聚類的方法,該方法是把鏡頭內容大致相同的合在一起,選取共同的關鍵幀。
3.1.3 圖像特征提取技術
視頻資源的圖像特征分為靜態(tài)特征和動態(tài)特征兩種。針對關鍵幀而言,靜態(tài)特征的提取可以采用圖像特征(如顏色、紋理、形狀和邊緣特征等)提取技術。圖像動態(tài)特征的提取是在運動中選取圖像的特征,其提取方法有光流方程法、基于塊的方法、像素遞歸法、貝葉斯法和X線斷層分析法。
3.1.4 視頻結構重構技術
視頻結構重構技術的實質就是將語義相關的鏡頭組合聚類。從情節(jié)的內涵和外延來看,時間上連續(xù)、內容上相關的一組鏡頭就是一個情節(jié)?,F(xiàn)有文獻對情節(jié)沒有統(tǒng)一的定義,不同的研究者給出的情節(jié)名稱也不盡相同,如視頻段落、視頻段、情節(jié)單元等。情節(jié)更符合人們在觀看視頻時對內容的理解,但是目前對情節(jié)的研究尚需更多理論和技術的支持。
3.2.1 視頻資源文本描述
基于視頻資源的文本描述是將視頻資源的內容以文本的形式描述出來,輔以故事板鏡頭片段、代表幀等可視化信息,如在《人體解剖學》視頻資源中,通過主題詞、關鍵詞等文本信息對850個視頻片段元數(shù)據(jù)進行描述。
3.2.2 視頻資源的創(chuàng)作腳本
大多數(shù)視頻資源(如電影片、電視片、教學片、新聞、廣告等)在攝像、編輯之前就已經(jīng)有描述視頻作品的鏡頭、場景和背景、道具、人物、臺詞、動作等創(chuàng)作腳本,它不僅是視頻資源的文本描述,也是視頻管理的重要文檔。基于創(chuàng)作腳本對視頻進行分析、描述和管理的前提是視頻作品本身具有規(guī)范的、與視頻內容和步調一致的創(chuàng)作腳本。
3.2.3 聲音信息轉換為文本信息
聲音信息是視頻資源的重要組成部分,因為用戶獲取的視頻信息主要是聲音信息,借助語音識別技術和多媒體自動標引技術將視頻中的聲音信息轉換為文本信息,并對文本信息進行描述。目前對于視頻資源中的新聞片、記錄片、廣告片、教學片等聲音信息進行文本描述已經(jīng)取得了較好的效果。
3.2.4 采集視頻資源中的文字信息
視頻資源中的文字往往包含大量的信息,它與視頻內容同步,是視頻分析和標引的重要語義線索。視頻資源中包含的文字信息主要有兩種類型:第一種是對白或解說字幕及少量的視頻畫面中某對象所包含的文字或背景文字??梢酝ㄟ^視頻畫面中出現(xiàn)的文字探測并識別出來,即對每一幀圖像進行一定的預處理后,利用OCR(Optical Character Recognition,光學字符識別)技術識別文字。例如,漢王文本王—文友680光學字符識別技術、創(chuàng)華OCR文字識別技術都能夠探測到視頻中的隱藏字幕。此外,王辰等提出的灰度變換、邊緣增強、邊緣檢測、字符探測和文字串探測的“五步驟探測方法”[6],其探測率和探測準確率可達80%以上。第二種是一些影視作品中所包含的隱藏字幕,可以通過解碼隱藏字幕獲得。隱藏字幕就是把文字加入標準NTSC(National Television Standards Committee,美國國家電視標準委員會)視頻信息的一種標準化編碼方法,通過相應的解碼器就能顯示文字。
3.2.5 從視頻資源的相關資料獲取文本信息
許多視頻作品都有一些相關的資料,如作品的宣傳資料(包括作品的故事簡介)和評論資料、電視臺的專題節(jié)目等。這些資料從多方面反映出視頻資源的語義信息,利用這些現(xiàn)有資料獲取視頻資源內容信息較為準確、方便。
根據(jù)以上視頻資源著錄信息的選取,采取先選取內部信息、當內部信息缺乏時再選取外部信息的原則,對視頻資源進行著錄和標引。內部信息是指名稱、主菜單、程序說明等信息;外部信息是指光盤標簽、盒封、封套和附件等上的信息,如永久固定或印刷在物理載體上的標簽,文獻資料、容器或其他附件,盒封、封套及附件上的信息。
3.3.1 以視頻資源的內容確定題名信息
一般情況下,視頻資源的題名信息是按照視頻資源的內容確定的。當視頻資源題名信息分別來自物理載體、片頭、片尾而使題名著錄信息雜亂、難以判斷和取舍時,要詳細分析題名信息[7]。具體的方法有:①分析視頻資源的內部信息,尋找題名項;②分析視頻資源片頭(或片尾)的附加廣告,查看其是否與本視頻內容有關,以判斷廣告內容中的題名是否是本視頻資源的題名或叢書題名;③當片頭題名與視頻內容相符時,即使與載體標簽、盒封、載體本身等物理載體上的題名不一致,也均以片頭題名為題名,其他物理載體上的題名著錄在附注題名項;④當片頭題名與視頻內容不符時,則取載體標簽、盒封、載體本身等物理載體上的與本視頻內容最貼切的題名為題名或責任說明項題名。
3.3.2 視頻資源的責任者項著錄
視頻資源責任者項的選擇以視頻資源的責任說明為主要信息來源,當主要信息源缺乏時,再以代信息源為主。責任者的選取有以下3種情況:①一般情況下,信息源上的責任說明按曲作者、詞作者、編撰者、表演者(以獨唱或獨奏者、主講者、朗誦者、演出者序)、合唱(奏)者、演出導演(含對演出負有全面責任者)和錄音制品的制作者(編輯、錄音、擬音等)順序著錄;②若信息源上的責任說明屬綜合型的,則按信息源上的排列格式或序列著錄;③若信息源上的責任說明為數(shù)眾多且錯綜復雜,則可只著錄制作公司名稱和制作者、導演及對作品主要負全面責任的人名。
3.3.3 視頻資源著錄的相關附注[8]
視頻資源的附注主要包括:題名來源附注、載體形態(tài)附注、附件附注、摘要附注、其它載體附注、系統(tǒng)要求附注。其中,載體形態(tài)附注的字段為215,并包括以下幾項:$a特定資料標識及其數(shù)量、單位及資源播放時的特定格式等;$c其它形態(tài)細節(jié),如聲音特征、色彩、聲道、磁道、播放等;$d尺寸,光盤的直徑尺寸大小;$e附件光盤所帶的附件。
下面對視頻資源著錄和標引的主要項目舉例說明。例如,北京醫(yī)科大學解剖教研室制作的《人體解剖學》DVD,厚度12cm,有字幕及附帶目錄,內容分為頭頸 、胸部和四肢三大部分,其主要著錄形式如下:
200# $a人體解剖學
210## $a北京醫(yī)科大學解剖教研室
215## $a DVD$c有聲,彩色$d 12cm
500 # $a附帶目錄
517## $a頭頸 $b胸部 $c四肢
546## $a字幕
710 # $a中國北京
856 # $f人體解剖學$h北京醫(yī)科大學解剖教研室$q DVD $s12cm
基于視頻資源內容和文本的著錄與標引信息的獲取,既利用鏡頭分割和關鍵幀抽取等技術,又結合視頻資源的文本信息,能夠詳細地對視頻資源中的各個鏡頭進行準確的著錄和標引,便于圖書館對視頻資源進行管理,方便讀者對視頻資源各個鏡頭內容的檢索與利用。
對視頻資源的規(guī)范著錄和準確標引是目前圖書館界正在探討的問題,而基于視頻資源內容和文本的著錄與標引信息的獲取是視頻資源規(guī)范著錄和準確標引的基礎。圖書館只有做好視頻資源的著錄和標引,才能夠對視頻資源進行科學管理,實現(xiàn)視頻資源共享,方便讀者對視頻資源的檢索與利用。
[1] 蓋 玲, 鄧勝利.國際圖聯(lián)原則——對圖書館視聽和多媒體服務的指導[J] .圖書館理論與實踐,2007(1):8-10.
[2] 伯 瓊. MARC21和CNMARC對網(wǎng)絡信息資源編目的異同分析[J] .大學圖書情報學刊,2008(4):56-58.
[3] 田 明, 王 欣.高校圖書館多媒體資源建設與服務初探——以浙江工業(yè)大學圖書館為例[J] .浙江高校圖書情報工作,2008(2):35-39.
[4] 潘向瀧.試論高校視頻資源系統(tǒng)的構建策略[J] .圖書館學研究,2008(4):25-27.
[5] 胡吉明.淺析基于內容的視頻信息檢索技術[J] .圖書館學研究,2006(2):57-59.
[6] 嚴 明,秦嘉杭.基于文本信息的數(shù)字視頻檢索研究[J] .情報科學,2004(7):865-869.
[7] 楊艷紅,趙會平,錢春元,等.音像制品和機讀資料的部分編目字段使用探討[J] .大學圖書情報學刊,2005(5):54-56.
[8] 鄭雯譯,丁育明.網(wǎng)絡資源與光盤資源編目要點探析[J] .現(xiàn)代圖書情報技術,2004(5):58-62.