于文超天津美術(shù)學(xué)院圖書館 天津 300141
高校圖書館多媒體資源庫建設(shè)研究
于文超天津美術(shù)學(xué)院圖書館 天津 300141
利用多媒體搜集器搜集網(wǎng)絡(luò)中的多媒體資源,并從網(wǎng)頁中提取用于描述多媒體資源的文本信息,以構(gòu)建高校圖書館多媒體資源庫,為師生提供多媒體資源檢索服務(wù)。
高校圖書館;多媒體;信息提取
AbstractUsing multimedia resource searcher to collect multimedia resources, extract text of Multimedia resource from webpage, and provide services of searching multimedia resources for teachers and students.
Key wordsacademic library; multimedia; information extraction
高校圖書館是高校師生獲取信息的重要來源,面對信息技術(shù)多媒體化的發(fā)展趨勢,多媒體資源成為信息交流的主要途徑之一。Web中包含的大量多媒體資源分布過于分散且查找困難。常見的搜索引擎如Google、Baidu、Yahoo!等,都屬于通用搜索引擎,其超大規(guī)模的分布式數(shù)據(jù)源及信息的檢索質(zhì)量不高等問題,使其無法直接為高校師生提供信息服務(wù)。
為了解決這一問題,本文以高校圖書館多媒體數(shù)據(jù)庫的建設(shè)為出發(fā)點(diǎn),設(shè)計(jì)并開發(fā)基于Web的高校圖書館多媒體數(shù)據(jù)庫建設(shè)系統(tǒng),用于構(gòu)建圖書館多媒體數(shù)據(jù)庫,為用戶提供多媒體資源檢索服務(wù)。
該系統(tǒng)主要包括兩大步驟,首先對Web中存在的多媒體資源進(jìn)行搜索,并將其所在網(wǎng)頁存入相應(yīng)的網(wǎng)頁數(shù)據(jù)庫;對網(wǎng)頁數(shù)據(jù)庫中的網(wǎng)頁進(jìn)行預(yù)處理與結(jié)構(gòu)分析,從多媒體所在的網(wǎng)頁中提取多媒體資源的相關(guān)文本,再對相關(guān)文本進(jìn)行處理,提取出用于描述、標(biāo)引多媒體資源的信息,形成對多媒體資源進(jìn)行描述的信息庫。
2.1 多媒體資源網(wǎng)頁的搜集
利用Web多媒體資源搜集器搜集Web中包含多媒體資源的網(wǎng)頁,并將符合要求的網(wǎng)頁的HTML代碼存入多媒體資源網(wǎng)頁庫,搜索器搜索時利用網(wǎng)頁
2.2 多媒體資源網(wǎng)頁分析及多媒體區(qū)域定位
有些網(wǎng)頁為UTF-8編碼,在網(wǎng)頁分析之前就需要對這類網(wǎng)頁進(jìn)行編碼轉(zhuǎn)換,完成從UTF-8編碼到GB2312編碼的轉(zhuǎn)化。然后生成網(wǎng)頁結(jié)構(gòu)圖,并判斷多媒體資源所在表格的區(qū)域,在多媒體主題區(qū)域中的文本內(nèi)容與該多媒體資源的描述是否顯著相關(guān)。另外,一個網(wǎng)頁還存在無關(guān)區(qū)域,通過區(qū)域識別排除這些區(qū)域,只保留多媒體主題區(qū)域文本。
2.3 多媒體資源相關(guān)文本信息提取
下面是在一個以多媒體為主題的網(wǎng)頁中,提取的用以描述多媒體資源的信息文本。
2)周圍文本。在網(wǎng)頁結(jié)構(gòu)分析及多媒體區(qū)域識別的基礎(chǔ)上提取多媒體的周圍文本,可以有效減少噪聲的干擾,提高文本提取精確度。本系統(tǒng)最多提取離多媒體資源最近的周圍文本,并且文本長度最多為30個漢字字符。
3)多媒體資源導(dǎo)航文本。Web中很多多媒體主題網(wǎng)頁都提供了多媒體資源導(dǎo)航文本,如某個網(wǎng)頁的多媒體資源導(dǎo)航文本“您現(xiàn)在的位置:小學(xué)課堂在線>>在線動畫>>語文課件>>守株待兔”,就可以判斷出該多媒體是一個語文課件,并且其主題為“守株待兔”。
根據(jù)上述方法得到的網(wǎng)絡(luò)中多媒體資源的相關(guān)文本還不能直接入庫,需要進(jìn)行一系列的處理,直到提取出能描述多媒體資源的>關(guān)鍵詞,對所提取的文本做拼音及英文的翻譯轉(zhuǎn)換、中文分詞、分詞結(jié)果的消重過濾以及>關(guān)鍵詞提取等處理。
2.4 信息入庫
通過上面的工作,獲得所分析網(wǎng)頁中多媒體資源相關(guān)文本,并提取其中的關(guān)鍵詞,最后的工作是信息入數(shù)據(jù)庫。
本文利用多媒體資源搜集器對從10個網(wǎng)站中搜集包含教育資源的網(wǎng)頁進(jìn)行測試,該方法對Web中多媒體資源的相關(guān)文本提取效果較好。但由于部分網(wǎng)頁沒有使用表格來定位頁面元素,并且多媒體資源主題區(qū)域可能存在噪音,從而造成極少數(shù)的網(wǎng)頁影響結(jié)構(gòu)分析及文本提取效果。
進(jìn)行網(wǎng)絡(luò)中多媒體資源的搜索及其相關(guān)文本的提取,對描述網(wǎng)上多媒體資源的信息具有重要意義。將本文提出的方法與多媒體內(nèi)容分析相結(jié)合,能夠更有效地促進(jìn)多媒體資源更好地利用,從而為高校師生提供更好的多媒體資源檢索服務(wù)。
Research on Construction of Multimedia Resource Library in Academic Library//
Yu Wenchao
G258.6
B
1671-489X(2011)06-0088-01
10.3969 /j.issn.1671-489X.2011.06.088
Author’s address Tianjin Academy of Fine Arts, Tianjin, China 300141
作者:于文超,天津美術(shù)學(xué)院圖書館助理館員。