陳麗君
關(guān)鍵詞:內(nèi)容;多媒體;信息檢索;數(shù)字圖書館;應(yīng)用
摘 要:本文論述了基于內(nèi)容的多媒體信息檢索在數(shù)字圖書館中的應(yīng)用,指出了存在的問題及其發(fā)展趨勢(shì),以使數(shù)字圖書館中的多媒體信息得以有效管理與充分開發(fā)利用。
中圖分類號(hào):G252文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-1588(2009)05-0079-04
The application of content-based multimedia information retrieval in digital libraries
CHEN Li-jun
(The Library of Xuchang University ,Henan Xuchang 461000,China)
Abstract: The paper elaborates the application of content-based multimedia information retrieval in digital libraries,and pionts put the existing problems and development trend,so as to effectivly manage and make full development and ues of the multimedia information of the digital libraries.
Key words:content;multimedia;information retrive; digital library;application
1 引言
數(shù)字圖書館中不僅有大量的文本型文獻(xiàn)信息,還包括大量的圖形、圖像、聲音、動(dòng)畫、視頻等數(shù)字化多媒體信息。由于圖像、音頻、視頻等具有豐富的信息內(nèi)涵,傳統(tǒng)的基于外部特征和文本描述的信息檢索方法已經(jīng)無(wú)法充分揭示和表達(dá)這些多媒體信息的實(shí)質(zhì)內(nèi)容和語(yǔ)義關(guān)系,進(jìn)而影響到對(duì)這部分多媒體信息的有效管理。此外,網(wǎng)絡(luò)技術(shù)的發(fā)展進(jìn)步給傳統(tǒng)的基于文本的信息檢索方式帶來(lái)了挑戰(zhàn)。當(dāng)今數(shù)字圖書館擁有遍布全球的、不同語(yǔ)言和文化背景的用戶,傳統(tǒng)的基于文本的信息檢索方式不能實(shí)現(xiàn)對(duì)數(shù)字圖書館中不同格式和內(nèi)容的信息的有效檢索和充分利用,進(jìn)而影響到數(shù)字圖書館使用價(jià)值的有效發(fā)揮。因此,數(shù)字圖書館中的信息檢索技術(shù)已經(jīng)由單純的基于文本的檢索方式向基于內(nèi)容的檢索方式發(fā)展。
2 基于內(nèi)容的信息檢索簡(jiǎn)述
基于內(nèi)容的信息檢索(Content Based Retrieval)簡(jiǎn)稱CBR,是一種新型的檢索方式,它融合了知識(shí)系統(tǒng)、認(rèn)識(shí)科學(xué)、用戶模型、圖像處理、模式識(shí)別、數(shù)據(jù)庫(kù)管理系統(tǒng)以及信息檢索等領(lǐng)域的知識(shí)和先進(jìn)技術(shù),其基本思想是以信息和信息對(duì)象的內(nèi)容語(yǔ)義、特征及上下文聯(lián)系為依據(jù)進(jìn)行檢索。CBR的信息類型有:文本、視頻,包括靜止的圖像(形)和動(dòng)態(tài)的視頻;音頻,包括語(yǔ)音、音樂,其他各種聲音等。與傳統(tǒng)的信息檢索相比,CBR的特點(diǎn)有:對(duì)信息進(jìn)行深層次的分析、挖掘;是一種相似性匹配;檢索方式直觀形象;是一種交互式檢索;數(shù)據(jù)庫(kù)的結(jié)構(gòu)復(fù)雜、容量大。
3 基于內(nèi)容的信息檢索在數(shù)字圖書館中的應(yīng)用
3.1 基于內(nèi)容的圖像信息檢索在數(shù)字圖書館中的應(yīng)用
基于內(nèi)容的圖像信息檢索是指通過分析圖像的內(nèi)容,取其顏色、形狀、紋理等可視特征,建立特征索引,存儲(chǔ)于特征庫(kù)中;在檢索時(shí),用戶只需把自己對(duì)圖像的模糊印象描述出來(lái),就可以通過多次的近似匹配,在大容量圖像庫(kù)中查詢到所需圖像。
在過去幾年里,人們已經(jīng)提出了許多不同的基于內(nèi)容的圖像信息檢索系統(tǒng),其中最有名的是IBM開發(fā)的基于內(nèi)容的圖像信息檢索系統(tǒng)QBIC,該系統(tǒng)允許用戶通過顏色、草圖、紋理、形狀等特征和示例方式從圖像和視頻數(shù)據(jù)庫(kù)中檢索圖像信息。它自從1995年投入使用以來(lái),已經(jīng)有許多數(shù)字圖書館和數(shù)字物品收藏機(jī)構(gòu)使用該系統(tǒng)。最近,俄羅斯冬宮博物館采用該系統(tǒng)提供基于網(wǎng)絡(luò)的數(shù)字圖像信息檢索,用戶可以通過從調(diào)色板中選擇顏色或在畫布上繪制草圖的方式檢索圖片信息;此外,用戶還可以提交具有相似視覺特征的所有圖片信息的檢索請(qǐng)求來(lái)優(yōu)化檢索結(jié)果。美國(guó)的國(guó)家科學(xué)基金會(huì)國(guó)際數(shù)字圖書館項(xiàng)目(www.memorynet.org)也采用了基于內(nèi)容的信息檢索技術(shù)。該項(xiàng)目的信息檢索系統(tǒng)由幾個(gè)圖像數(shù)據(jù)庫(kù)組成,包含了傳統(tǒng)的基于文本的搜索引擎和一個(gè)由賓西法尼亞州立大學(xué)的Wang et al.開發(fā)的名叫SIMPLIcity的基于內(nèi)容的圖像信息檢索系統(tǒng)。該系統(tǒng)能夠?qū)⒚糠鶊D片分割成小的區(qū)域,從中提取顏色、位置、紋理和形狀等特征,然后將這些小的區(qū)域分成一些語(yǔ)義大類(如紋理的/非紋理的和圖形/照片)。計(jì)算要檢索的目標(biāo)圖像和數(shù)據(jù)庫(kù)中圖像的相似度時(shí),這些所有的特征被考慮和整合,最佳的匹配結(jié)果便被檢索出來(lái)。用戶還可以從該數(shù)據(jù)庫(kù)系統(tǒng)的主頁(yè)中選擇瀏覽任意一組圖像,并通過點(diǎn)擊每幅圖像下的“相似”按鈕瀏覽與已選擇包含相似特征的一組圖像;可以通過向搜索引擎提供反饋信息,在無(wú)需知道圖像的名稱或者描述信息的情況下檢索到所需圖像?;趦?nèi)容的圖像信息檢索技術(shù)在數(shù)字圖書館中的相似應(yīng)用還有加州大學(xué)伯克利分校數(shù)字圖書館、弗吉尼亞理工大學(xué)的人類學(xué)數(shù)字圖書館和National STEM數(shù)字圖書館等。
自動(dòng)語(yǔ)義識(shí)別和標(biāo)引是基于內(nèi)容的圖像信息檢索領(lǐng)域一個(gè)新的研究方向。在理想狀態(tài)下,自動(dòng)語(yǔ)義識(shí)別和標(biāo)引能夠發(fā)現(xiàn)一幅圖像中包含的語(yǔ)義特征并給它分配一組元數(shù)據(jù),因此允許用戶通過文本的方式檢索圖像信息。然而,如何從圖像的物理特征中自動(dòng)提取語(yǔ)義特征,是個(gè)難題,需要人機(jī)交互、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等方面的知識(shí)。此外,計(jì)算機(jī)處理器和人腦之間的語(yǔ)義差距是開發(fā)一個(gè)性能良好的自動(dòng)語(yǔ)義識(shí)別和標(biāo)引系統(tǒng)的主要障礙。Wang的ALIPR項(xiàng)目(http://alipr.com)是此領(lǐng)域的一項(xiàng)研究成果。通過網(wǎng)絡(luò)界面,用戶可通過幾種不同的方式檢索圖像信息;可進(jìn)行基于文本的檢索和向系統(tǒng)提供反饋信息檢索類似圖像;也可上傳一幅圖像,系統(tǒng)通過對(duì)該圖像進(jìn)行語(yǔ)義分析,自動(dòng)產(chǎn)生一系列的標(biāo)引或標(biāo)簽,然后在數(shù)據(jù)庫(kù)中檢索與所上傳圖像具有相似視覺特征的圖像。在自動(dòng)標(biāo)引過程中,如果用戶感覺系統(tǒng)自動(dòng)給出的標(biāo)簽不太合適,也可為該圖像輸入其他合適的標(biāo)簽來(lái)描述該圖像。
基于內(nèi)容的圖像信息檢索技術(shù)未來(lái)的發(fā)展趨勢(shì)是圖像檢索人機(jī)結(jié)合;高層語(yǔ)義與低層視覺特征建立某種聯(lián)系,需要一些學(xué)習(xí)機(jī)制,如神經(jīng)網(wǎng)絡(luò)、遺傳算法及聚類算法等;面向web,圖像數(shù)據(jù)需要成熟的搜索引擎;高維數(shù)據(jù)的索引;圖像內(nèi)容的主觀感知;圖像特征映射與圖像基尋找;交叉領(lǐng)域和多媒體的融合等。
3.2 基于內(nèi)容的音頻信息檢索在數(shù)字圖書館中的應(yīng)用
基于內(nèi)容的音頻信息檢索指通過音頻特征分析,對(duì)不同音頻數(shù)據(jù)賦予不同的語(yǔ)義,使具有相同語(yǔ)義的音頻在聽覺上保持相似,通過檢索語(yǔ)義來(lái)達(dá)到音頻檢索的效果。音頻檢索首先是建立音頻和特征數(shù)據(jù)庫(kù),對(duì)音頻數(shù)據(jù)進(jìn)行特征提取,將相同類型的音頻數(shù)據(jù)裝入數(shù)據(jù)庫(kù)的原始音頻庫(kù)部分,把特征裝入特征庫(kù)部分,然后進(jìn)行音頻分割、識(shí)別和音頻檢索。相應(yīng)地,基于內(nèi)容的音頻檢索技術(shù)就包括音頻信號(hào)特征提取、音頻分割和識(shí)別、音頻檢索等。
國(guó)外研究機(jī)構(gòu)對(duì)音頻檢索進(jìn)行了多方面的研究,例如:GuohuiLi等提出了使用小波方法進(jìn)行音頻檢索的研究;IBM Almaden研究中心的MalcolmSlaney提出了音頻例子和語(yǔ)句可互相轉(zhuǎn)換的MPESAR系統(tǒng);ChengYang、GeorgeTzanetakis等用不同的算法實(shí)現(xiàn)了具有音樂檢索功能的系統(tǒng);EloiBatlle等提出了基于HMM的音頻檢索系統(tǒng);JohnH.L.Hansen提出了用于NGSW快速檢索算法等。
國(guó)內(nèi)早期在音頻檢索方面的研究并不多,最早的研究成果是一套基于內(nèi)容的音頻信息檢索與分類系統(tǒng)ARS。但近幾年來(lái)發(fā)展迅速,例如:臺(tái)灣清華大學(xué)開發(fā)的基于語(yǔ)音識(shí)別的語(yǔ)音檢索系統(tǒng)Sovide;上海交通大學(xué)開發(fā)的基于內(nèi)容的音樂檢索系統(tǒng);中科院開發(fā)的“嵌入式語(yǔ)音識(shí)別系統(tǒng)”;羅駿等人提出的基于拼音圖的語(yǔ)音關(guān)鍵詞檢索系統(tǒng)。國(guó)家863智能計(jì)算機(jī)專家組為語(yǔ)音識(shí)別技術(shù)研究專門立項(xiàng),在一定程度上推動(dòng)了語(yǔ)音方面的研究。近年來(lái),我國(guó)語(yǔ)音識(shí)別技術(shù)的研究水平已經(jīng)基本上與國(guó)外同步,由此也推動(dòng)了音頻檢索研究的迅速發(fā)展。
基于內(nèi)容的音頻信息檢索技術(shù)面臨的挑戰(zhàn)主要集中在:直接壓縮域音頻檢索;基于高層聽覺感知模型的音頻信息檢索;音頻類別的確定;基于情感的分類研究等方面。
3.3 基于內(nèi)容的視頻信息檢索在數(shù)字圖書館中的應(yīng)用
基于內(nèi)容的視頻信息檢索指通過對(duì)非結(jié)構(gòu)化的視頻數(shù)據(jù)進(jìn)行結(jié)構(gòu)化分析和處理,采用視頻分割技術(shù),將連續(xù)的視頻流劃分為具有特定語(yǔ)義的視頻片段—鏡頭,作為檢索的基本單元,在此基礎(chǔ)上進(jìn)行代表幀的提取和動(dòng)態(tài)特征的提取,形成描述鏡頭的特征索引;依據(jù)鏡頭組織和特征索引,采用視頻聚類等方法研究鏡頭之間的關(guān)系,把內(nèi)容相近的鏡頭組合起來(lái),逐步縮小檢索范圍,直至查詢到所需的視頻數(shù)據(jù),按照用戶要求返回給用戶。因此,其處理技術(shù)包括視頻結(jié)構(gòu)的分析、視頻數(shù)據(jù)的自動(dòng)索引和視頻聚類。
哥倫比亞大學(xué)的Chang et al.于1997年開發(fā)的VideQ系統(tǒng)(www.ctr.columbia.edu/VideoQ)是最早的基于內(nèi)容的視頻信息檢索系統(tǒng)之一。該系統(tǒng)是全自動(dòng)的面向?qū)ο蠡趦?nèi)容的視頻信息檢索系統(tǒng),它擴(kuò)充了傳統(tǒng)的基于關(guān)鍵字或主題導(dǎo)航的檢索方法,允許用戶使用視覺特征和時(shí)空關(guān)系來(lái)檢索視頻。其最突出的特點(diǎn)是可根據(jù)用戶對(duì)物體的特征、運(yùn)動(dòng)以及物體中相互關(guān)系的描述來(lái)查找相關(guān)鏡頭。該系統(tǒng)有以下幾個(gè)特征:集成文本和視覺搜索方法,自動(dòng)地對(duì)視頻對(duì)象進(jìn)行分割和追蹤,提供包括顏色、紋理、形狀和運(yùn)動(dòng)在內(nèi)的豐富視覺特征庫(kù),通過因特網(wǎng)交互查詢和瀏覽。目前VideQ視頻庫(kù)有超過3000段視頻,每段都被壓縮成三層結(jié)構(gòu)保存。
美國(guó)NSF、ARPA和NASA資助的數(shù)字圖書館項(xiàng)目的主要研究目標(biāo)是搜集、存儲(chǔ)和組織數(shù)字信息的新技術(shù),通過網(wǎng)絡(luò)實(shí)現(xiàn)信息的搜集、檢索和處理。例如,其參加單位之一卡內(nèi)基—梅隆大學(xué)所承擔(dān)的Information Digital Video Library項(xiàng)目(www.informedia.cs.cmu.edu),允許用戶訪問、挖掘、檢索海量的數(shù)字視頻庫(kù),在其系統(tǒng)中集成語(yǔ)言、圖像和自然語(yǔ)言理解技術(shù)。該項(xiàng)目在視頻處理方面做了大量的研究,包括:視頻分段、視頻文字識(shí)別、語(yǔ)音分析與識(shí)別、人臉檢測(cè)、視頻摘要等。此外,該項(xiàng)目還建立了包含約2000個(gè)小時(shí)的CNN新聞的視頻數(shù)據(jù)庫(kù),它的語(yǔ)義信息提取引擎可以對(duì)視頻流中的文字、語(yǔ)音、人物、臺(tái)標(biāo)等進(jìn)行分析、識(shí)別、推理和綜合,并生成基于內(nèi)容的索引,從而允許用戶對(duì)新聞片段進(jìn)行基于內(nèi)容的檢索。目前該項(xiàng)目已經(jīng)進(jìn)入第二階段。美國(guó)堪薩斯大學(xué)建立的數(shù)字視頻圖書館系統(tǒng)DVLS,是以存儲(chǔ)、索引及檢索視頻信息為目標(biāo)的。該系統(tǒng)通過因特網(wǎng)及國(guó)家信息基礎(chǔ)設(shè)施實(shí)現(xiàn)了視頻共享技術(shù),并已經(jīng)建立了一個(gè)原型系統(tǒng)VISION,以及一個(gè)視頻數(shù)據(jù)庫(kù)。該視頻數(shù)據(jù)庫(kù)中包含了1000多小時(shí)的由多個(gè)廣播通信公司提供的視頻信息。此外,還有芬蘭TAMPERE技術(shù)大學(xué)的MUVIS(http://muvis.cs.tut.fi/index.html)。
視頻數(shù)據(jù)處理是實(shí)現(xiàn)基于內(nèi)容的視頻信息檢索的一項(xiàng)關(guān)鍵技術(shù),它直接影響到視頻特征匹配和檢索的精度,其研究還處于起步階段,各種理論與相關(guān)技術(shù)都不盡完善,需要繼續(xù)做大量的研究探討。鏡頭邊界檢測(cè)是基于內(nèi)容的視頻處理必不可少的第一步,能夠準(zhǔn)確地檢測(cè)出鏡頭邊界,直接關(guān)系到以后的處理,并且鏡頭邊界檢測(cè)所用到的顏色、紋理和運(yùn)動(dòng)特征都可用于鏡頭的索引,所以有必要對(duì)此進(jìn)行重點(diǎn)研究;視頻數(shù)據(jù)的特點(diǎn)在于其時(shí)變性和動(dòng)態(tài)性,因而如何更好地描述攝像頭的各種運(yùn)動(dòng)和對(duì)象的運(yùn)動(dòng)也是一個(gè)研究重點(diǎn);此外,視頻的數(shù)據(jù)量很大,尋找快速算法也是基于內(nèi)容檢索的視頻處理必須研究的一個(gè)問題。
3.4 基于內(nèi)容的混合多媒體和新媒體信息檢索在數(shù)字圖書館中的應(yīng)用
中國(guó)科學(xué)院計(jì)算機(jī)研究所和國(guó)家圖書館已經(jīng)成功地研制了基于特征的多媒體信息檢索系統(tǒng)MIRS。此系統(tǒng)是基于Internet的多媒體信息檢索系統(tǒng),可以實(shí)現(xiàn)對(duì)圖像、視頻、聲音的基于內(nèi)容的檢索和對(duì)文本的全文檢索。此外,IBM的CueVideo系統(tǒng)由視頻檢索和瀏覽系統(tǒng)、多媒體信息自動(dòng)索引系統(tǒng)組成,其目標(biāo)是解決大規(guī)模視頻數(shù)據(jù)庫(kù)的生成、索引和使用等具有挑戰(zhàn)性的問題。CueVideo主要解決兩個(gè)瓶頸問題:為海量視頻數(shù)據(jù)庫(kù)建立索引的代價(jià)很大;用戶難以做到方便檢索和瀏覽視頻的內(nèi)容。為了快速實(shí)現(xiàn)全自動(dòng)的索引和建立超級(jí)鏈接,它組合了視頻和音頻分析、語(yǔ)音識(shí)別、文本信息檢索和人工智能等技術(shù)。CueVideo搜索與瀏覽系統(tǒng)由一個(gè)脫機(jī)視頻索引模塊和一個(gè)基于客戶服務(wù)器模式的在線搜索與瀏覽引擎組成。全自動(dòng)的脫機(jī)視頻搜索過程包括音頻分割、語(yǔ)音識(shí)別、建立音頻索引、視頻分割(通過鏡頭邊緣檢測(cè))、視頻摘要和建立基于圖像內(nèi)容的視頻索引。在線的視頻服務(wù)器由一個(gè)跨媒體的搜索引擎進(jìn)人索引數(shù)據(jù)庫(kù)來(lái)匹配檢索,響應(yīng)用戶的查詢要求。同時(shí)把視頻和音頻信息通過網(wǎng)絡(luò)交流的形式傳送給用戶。
隨著數(shù)字化技術(shù)的發(fā)展進(jìn)步,數(shù)字圖書館中信息的內(nèi)容和格式除了文本、圖音頻和視頻外,還涌現(xiàn)出一些重要的人們感興趣的新媒體,如3-D模型?;趦?nèi)容的三維模型檢索首先從模型數(shù)據(jù)中自動(dòng)計(jì)算并提取三維模型的特征,如形狀、空間關(guān)系、材質(zhì)的顏色及紋理等,建立三維模型的多維信息索引,然后在多維特征空間中計(jì)算待查詢模型與目標(biāo)模型之間的相似程度,實(shí)現(xiàn)對(duì)三維模型數(shù)據(jù)庫(kù)的瀏覽和檢索。由于三維模型具有任意角度的坐標(biāo)方向和任意大小的坐標(biāo)單元,內(nèi)容信息和數(shù)據(jù)量遠(yuǎn)比二維圖像矩陣豐富。因此,其識(shí)別和檢索也比二維圖像檢索更加復(fù)雜,并且三維表面之間可能具有任意的拓?fù)潢P(guān)系,許多對(duì)二維圖像媒體有效的方法,如傅立葉變換等,并不能直接擴(kuò)展應(yīng)用于三維表面模型。所以,基于內(nèi)容的3-D模型檢索是一個(gè)更具挑戰(zhàn)性的研究課題。
在基于內(nèi)容的三維模型檢索領(lǐng)域,目前已經(jīng)實(shí)現(xiàn)并發(fā)布了一些進(jìn)行理論和算法研究的原型系統(tǒng)以及架構(gòu)于Web平臺(tái)上的搜索引擎等。其中,加拿大國(guó)家研究院(National Research Council) 的Paquet等人開發(fā)的三維模型檢索系統(tǒng)Nefertiti是第一個(gè)通用的三維模型檢索系統(tǒng),所提取的特征主要包括形狀和顏色兩種。目前,比較典型的通用三維模型檢索系統(tǒng)和搜索引擎主要有:美國(guó)普林斯頓大學(xué)形狀檢索與分析(ShapeRet rieval and Analysis Group)實(shí)驗(yàn)室開發(fā)的三維模型搜索引擎(http:// shape.cs.princeton. edu/ search.html);美國(guó)卡耐基·梅隆大學(xué)AMP (AdvancedMultimedia Processing) 實(shí)驗(yàn)室開發(fā)的三維模型檢索系統(tǒng)(http://amp.ece.cmu.edu/projects/3D model Retrieval);德國(guó)萊比錫大學(xué)CGIP(Computer Graphics and Image Processin) 實(shí)驗(yàn)室的Saupe和Vranic等人開發(fā)的基于VRML模型庫(kù)的在線三維模型檢索系統(tǒng)CCCC (Content-based Classification of 3D-models by Capturing spatial Characteristics)(http://merkur01. inf. uni2konstanz.de/CCCC);IBM日本東京研究院的“三維Web 環(huán)境”研究項(xiàng)目中的三維幾何形狀檢索和分析系統(tǒng)(http://www.t rl.ibm.com/project s/3dweb/SimSearch-e.htm);德國(guó)波恩大學(xué)Klein和Novotni 等人開發(fā)的數(shù)字圖書館系統(tǒng)RODA(http://www.lems.brown.edu/vision/esearchAreas/3DRecog/ overview.Html)等等。
盡管基于內(nèi)容的三維模型檢索在理論方法和實(shí)現(xiàn)技術(shù)上都取得了一定的研究成果,但是,由于三維模型所包含信息的復(fù)雜性以及人類主觀感知的不確定性,還有許多問題有待更深入的研究:具有不同數(shù)據(jù)表示方式和文件格式的三維模型統(tǒng)一檢索問題;不需要進(jìn)行模型坐標(biāo)標(biāo)準(zhǔn)化的三維形狀特征提取問題;三維模型的局部形狀特征提取問題;三維模型的非形狀特征表示方法;三維場(chǎng)景檢索問題;結(jié)合用戶興趣度模型的個(gè)性化檢索機(jī)制以及用戶相關(guān)反饋機(jī)制等。
4 結(jié)論
基于內(nèi)容的信息檢索技術(shù)是傳統(tǒng)的基于文本的信息檢索技術(shù)的重要補(bǔ)充,基于內(nèi)容的信息檢索系統(tǒng)能夠從語(yǔ)義上理解數(shù)字圖書館中的信息,并為用戶提供更多的符合自己需求的信息。目前大多數(shù)研究都涉及到對(duì)多媒體信息內(nèi)容低層物理特征的的理解、提取與檢索,然而,隨著信息檢索可視化和人工智能等相關(guān)學(xué)科的發(fā)展進(jìn)步,更多的研究將針對(duì)高層特征的提取和檢索。此外,數(shù)字圖書館中多媒體信息類型的多樣化給基于內(nèi)容的信息檢索帶來(lái)了許多新的挑戰(zhàn),例如,3-D模型已經(jīng)成為許多數(shù)字圖書館中的重要組成部分,需要提出針對(duì)這些模型的新檢索方法。并且,在Web2.0時(shí)代,如Flicker的圖片檢索、Youtube和Google的視頻檢索等正在改變著人們的日常生活,基于內(nèi)容的多媒體信息檢索將給用戶帶來(lái)更多的好處。既然基于內(nèi)容的多媒體信息檢索的本質(zhì)是為用戶提供更好的檢索幫助,那么,關(guān)注用戶的真正需求和怎樣讓用戶更好地使用這些新的檢索工具將變得十分重要,并應(yīng)該融入未來(lái)的基于內(nèi)容的信息檢索研究項(xiàng)目中。
參考文獻(xiàn):
[1] LI GH,KHOKHARAA.Content-based indexing and retrieval of audio data using wavelets[C]. PPICME,2000,(2).
[2] SLANEYM.Mixtures of probability experts for audio retrieval and indexing[C]. PPICME.2002,(1).
[3] YANGC.Efficient acoustic index for music retrieval with various degrees of similarity[C] .PP Proceedings of theTenth ACM international Conference on Multimedia,2002.
[4] TZANETAKISG,COOKP.Music analysis and retrieval systems for audio signals[J].Journal of the American Society for Information Science and Technology,2004,(12).
[5] BATLLEE,MASIPJ,GUAUSE.Amadeus:ascalable HMM-based audio informatio nretrieval system[C].PP Firs International Symposium on Control,Communications and Signal Processing,2004.
[6] HANSENJHL,HUANGRQ,ZHOUBW,etal.
Speech Find:advances in spoken document retrieval for a national gallery of the spoken word[J].IEEE Transaction on Speech and Audio Processing,2005, (5).
[7] 李國(guó)輝.基于內(nèi)容的多媒體數(shù)據(jù)查詢和檢索[J].小型微型計(jì)算機(jī)系統(tǒng),1998,(4).
[8] 羅駿,歐智堅(jiān).一種高效的語(yǔ)音關(guān)鍵詞檢索系統(tǒng)[J].通信學(xué)報(bào),2006,(2).
[9] Paquet E., Rioux M..Nefertiti:A query by content system for three2dimensional model and image databases management[J].Image Vision Computing,1999,(2).