李默
摘 要:[目的/意義]大數(shù)據(jù)時代智慧圖書館用戶需要精確智能的檢索工具,而移動視覺搜索技術(shù)能夠滿足用戶以視覺資源數(shù)據(jù)為中心的檢索需求。[方法/過程]文章在分析國內(nèi)外基于深度學(xué)習(xí)的視覺資源識別技術(shù)的研究基礎(chǔ)之上,構(gòu)建了基于深度學(xué)習(xí)的智慧圖書館移動視覺搜索服務(wù)模式模型,并設(shè)計了模型的工作流程,最后對基于深度學(xué)習(xí)的智慧圖書館移動視覺搜索系統(tǒng)的發(fā)展趨勢進行了展望。[結(jié)果/結(jié)論]將深度學(xué)習(xí)融入智慧圖書館移動視覺搜索系統(tǒng)中,可以整合多源異構(gòu)視覺數(shù)據(jù)、貼合用戶個性化偏好以及提高移動視覺搜索系統(tǒng)性能。
關(guān)鍵詞:智慧圖書館;移動視覺搜索;深度學(xué)習(xí);服務(wù)模式;卷積神經(jīng)網(wǎng)絡(luò);循環(huán)神經(jīng)網(wǎng)絡(luò)
DOI:10.3969/j.issn.1008-0821.2019.05.012
〔中圖分類號〕G250.76 〔文獻標(biāo)識碼〕A 〔文章編號〕1008-0821(2019)05-0089-08
Abstract:[Purpose/Significance]In the era of big data,smart library users need precise and intelligent retrieval tools.Mobile visual search technology can meet users search requirements centered on visual resource data.In recent years,deep learning technology has made breakthroughs in many research fields.[Method/Process]Based on the analysis of the deep learning based visual resource recognition technology at home and abroad,this paper constructed a mobile visual search service model of smart library based on deep learning,and designed the workflow of the model.Finally,the future development trend of deep learning based mobile visual search system of smart library was forecasted.[Result/Conclusion]Applying deep learning technologies into the smart library mobile visual search system,it can integrate multi-source heterogeneous visual data,fit users personalized preferences and improve visual search system performance.
Key words:smart library;mobile visual search;deep learning;service model;convolution neural network;recurrent neural network
隨著人工智能、大數(shù)據(jù)、云計算、移動互聯(lián)網(wǎng)等新興技術(shù)的不斷發(fā)展和廣泛應(yīng)用,以文獻借閱為中心的圖書館傳統(tǒng)館藏服務(wù)模式逐漸向以滿足讀者個性化需求為中心的智慧型知識服務(wù)模式轉(zhuǎn)變。智慧圖書館利用智能化、網(wǎng)絡(luò)化、數(shù)字化的信息技術(shù),為讀者提供立體互聯(lián)、無線泛在、節(jié)能高效的智慧型知識服務(wù),是未來圖書館發(fā)展的新模式[1]。智慧圖書館提供的信息資源也不再僅僅局限于文本形式的數(shù)據(jù),而是包括了圖像、視頻、3D模型等在內(nèi)的多種視覺載體類型,以文本搜索為主的信息資源獲取方式已經(jīng)不適用于視覺資源的檢索利用。而移動視覺搜索(Mobile Visual Search,MVS)技術(shù)利用移動智能終端獲取的圖像、視頻、3D模型等視覺資源作為檢索對象,并通過移動互聯(lián)網(wǎng)在視覺資源知識庫檢索其關(guān)聯(lián)信息資源,可以幫助讀者從海量視覺資源數(shù)據(jù)中快速有效地找到其感興趣的關(guān)聯(lián)知識信息[2]。因此,MVS能夠適應(yīng)智慧圖書館多種類型數(shù)字資源的檢索服務(wù)要求,為讀者提供個性化的知識需求。
現(xiàn)有MVS系統(tǒng)中使用的檢索方法大致可以分為兩類,即基于文本和基于視覺資源內(nèi)容兩種方法。其中,基于文本的檢索方法是將讀者的檢索關(guān)鍵詞與視覺資源知識庫中對應(yīng)視覺資源的文本描述信息進行相似度比對,將相似度較高的視覺資源信息返回給讀者,但這種方法會由于視覺資源標(biāo)簽標(biāo)注的不準(zhǔn)確導(dǎo)致檢索結(jié)果的準(zhǔn)確率比較低;基于視覺資源內(nèi)容的檢索方法是對讀者提供的檢索對象進行分析,提取檢索對象的內(nèi)容特征,包括低級特征(如紋理、形狀、顏色等)和高級特征(如分層梯度方向直方圖、顏色和邊緣方向特征、尺度不變特征變換等),檢索時計算檢索對象的內(nèi)容特征與視覺資源知識庫中已有視覺資源內(nèi)容特征的相似度,檢索結(jié)果按相似度排序并提供給讀者,然而這種檢索方法受外界因素的影響比較大,在視覺資源采集環(huán)境或拍攝設(shè)備發(fā)生變化時檢索結(jié)果也會發(fā)生很大的變動。近年來,隨著深度學(xué)習(xí)在語音識別、圖像識別、個性化推薦、自然語言理解等領(lǐng)域的突破性進展[3],為MVS的研究帶來了新的機遇。綜上,為了提高MVS的準(zhǔn)確度和魯棒性,本文提出一種基于深度學(xué)習(xí)的智慧圖書館MVS服務(wù)模式,利用深度學(xué)習(xí)技術(shù)提取視覺資源內(nèi)容特征和讀者個性化特征,降低外部因素對檢索結(jié)果的影響程度,提高讀者的MVS服務(wù)滿意度。
1 相關(guān)研究
自2009年David M Chen等[4]在首屆MVS研討會首次提出MVS概念以來,國內(nèi)外研究機構(gòu)和學(xué)者對MVS技術(shù)及其應(yīng)用進行了研究,取得了一些顯著成果。MVS的應(yīng)用已經(jīng)出現(xiàn)在了電子商務(wù)、移動識別、地標(biāo)搜索、印刷品查詢等領(lǐng)域,Google、亞馬遜、淘寶、京東等公司也都開展了應(yīng)用嘗試,建立了具有代表性的MVS應(yīng)用系統(tǒng),提升了用戶在移動網(wǎng)絡(luò)環(huán)境下的搜索體驗。而智慧圖書館的興起和發(fā)展為MVS在圖書情報領(lǐng)域的應(yīng)用開拓了新的研究方向,引起了許多學(xué)者的關(guān)注。張興旺等較早地對MVS在數(shù)字圖書館的應(yīng)用進行了研究,分析了數(shù)字圖書館MVS機制的內(nèi)涵、分類及架構(gòu)設(shè)計[2],設(shè)計了數(shù)字圖書館MVS的基本流程、服務(wù)模式和服務(wù)框架[5],并提出了一種領(lǐng)域?qū)虻摹⒆赃m應(yīng)的、可演化的數(shù)字圖書館MVS引擎[6];曾子明等則在智慧圖書館MVS研究方面開展了一系列工作,構(gòu)建了智慧圖書館MVS服務(wù)模型及技術(shù)框架[7],提出了基于SoLoMo的智慧圖書館移動視覺搜索服務(wù)模式[8],設(shè)計了去中心化的智慧圖書館MVS管理體系[9]。另外,李晨暉等[10]對基于大數(shù)據(jù)的文化遺產(chǎn)數(shù)字圖書館MVS機制建設(shè)進行了研究;韓璽等研究了基于語義關(guān)聯(lián)的圖書館MVS資源多維度聚合模型及其實現(xiàn)流程[11],并提出了基于MVS的圖書館、檔案館、博物館資源融合服務(wù)模式[12];孫翌等[13]以李政道圖書館特藏陳展服務(wù)為例,闡述了MVS技術(shù)在特色資源陳展服務(wù)中的各項應(yīng)用功能;鐘志鵬等[14]開發(fā)了一個基于MVS技術(shù)的博物館導(dǎo)覽系統(tǒng)。上述研究拓展了MVS在數(shù)字人文領(lǐng)域的應(yīng)用實踐,但作為一個新的研究方向和應(yīng)用領(lǐng)域,智慧圖書館對MVS技術(shù)提出了更高的要求,比如,在視覺特征提取、語義分析與匹配、視覺資源個性化推薦等方面還有許多問題有待研究。
在移動終端計算資源有限的情況下,如何增強智慧圖書館MVS系統(tǒng)的魯棒性和準(zhǔn)確性,減少讀者等待時間,是衡量MVS服務(wù)質(zhì)量高低的核心問題。而深度學(xué)習(xí)具有組合低層特征形成高層語義抽象的能力,可以自動發(fā)現(xiàn)視覺數(shù)據(jù)的分布式特征表示,對提高MVS智能化水平具有重要意義。深度學(xué)習(xí)起源于人工神經(jīng)網(wǎng)絡(luò),但由于受到梯度彌散問題和硬件資源的限制,神經(jīng)網(wǎng)絡(luò)的研究一直徘徊不前。2006年Geoffrey E Hinton等[15]提出了訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)的基本原則方法,降低了深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化難度。近年來,隨著計算能力的提升和訓(xùn)練數(shù)據(jù)集的增長,深度學(xué)習(xí)在人工智能多個研究領(lǐng)域都有了長足的發(fā)展。在圖像識別領(lǐng)域,Krizhevsky A等[16]在2012年首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于大規(guī)模數(shù)據(jù)集ImageNet中,大幅降低了圖像識別的錯誤率,而在2016年的ImageNet圖像分類競賽中,深度學(xué)習(xí)的圖像識別準(zhǔn)確率更是超過了97%;在視頻識別領(lǐng)域,Wang W等[17]提出了一種基于全卷積神經(jīng)網(wǎng)絡(luò)的視頻目標(biāo)檢測算法,設(shè)計了用于獲取時間信息的動態(tài)神經(jīng)網(wǎng)絡(luò)和獲取空間信息的靜態(tài)神經(jīng)網(wǎng)絡(luò),利用仿真生成的視頻訓(xùn)練數(shù)據(jù)獲得了視頻的時間和空間特征;在3D模型識別領(lǐng)域,Han Z等[18-19]首先設(shè)計了一種圓形卷積受限玻爾茲曼機,用來學(xué)習(xí)3D模型局部區(qū)域的幾何結(jié)構(gòu)信息,然后又研究了一種Mesh卷積受限玻爾茲曼機,實現(xiàn)了3D模型的無監(jiān)督特征學(xué)習(xí)。目前應(yīng)用于視覺資源識別領(lǐng)域的深度學(xué)習(xí)模型主要包括:玻爾茲曼機、卷積神經(jīng)網(wǎng)絡(luò)、深度信念網(wǎng)絡(luò)、自編碼器和循環(huán)神經(jīng)網(wǎng)絡(luò)等。
深度學(xué)習(xí)可以對輸入數(shù)據(jù)按層次進行抽象,獲取數(shù)據(jù)的深層次表示特征,并通過對多源異構(gòu)數(shù)據(jù)的自動特征學(xué)習(xí),將不同數(shù)據(jù)在最初空間的表征映射到一個相同的隱空間,從而獲得數(shù)據(jù)的統(tǒng)一表征[20]。因此將深度學(xué)習(xí)引入到智慧圖書館MVS系統(tǒng)中,能夠?qū)Χ嘣串悩?gòu)視覺數(shù)據(jù)進行有效地特征提取和分類操作,并通過構(gòu)建相適應(yīng)的服務(wù)模式提高智慧圖書館視覺資源的利用率,為讀者提供以視覺資源為中心的個性化知識體系。
2 基于深度學(xué)習(xí)的智慧圖書館MVS服務(wù)模式
基于深度學(xué)習(xí)的智慧圖書館MVS系統(tǒng)將用戶的視覺檢索對象作為輸入數(shù)據(jù),利用深度學(xué)習(xí)模型提取智慧圖書館各類學(xué)術(shù)資源特征,通過融入用戶情境信息和反饋數(shù)據(jù),實現(xiàn)個性、準(zhǔn)確、交互的智慧圖書館MVS服務(wù)。一個基本的服務(wù)模式模型如圖1所示,由系統(tǒng)離線學(xué)習(xí)和用戶在線檢索兩個階段組成。
2.1 系統(tǒng)離線學(xué)習(xí)階段
在系統(tǒng)離線學(xué)習(xí)階段,主要是為整個搜索系統(tǒng)做好數(shù)據(jù)準(zhǔn)備工作,包括提取視覺資源庫中的數(shù)據(jù)特征、分析文本資源庫中的文本語義、計算情境數(shù)據(jù)庫中的情境信息以及獲取用戶知識庫中的個性化需求特征。其中,視覺資源庫用于存儲從互聯(lián)網(wǎng)采集的圖像、視頻、3D模型等視覺資源,將視覺資源內(nèi)容以文件形式存儲在分布式集群上,并將視覺資源文本描述信息存儲在關(guān)系數(shù)據(jù)庫中,同時為深度學(xué)習(xí)模型提供必需的訓(xùn)練數(shù)據(jù)集;文本資源庫主要用來存儲智慧圖書館中的學(xué)術(shù)文本數(shù)據(jù),在對文本資源數(shù)據(jù)進行清洗后存儲在分布式數(shù)據(jù)庫中,并實現(xiàn)異構(gòu)數(shù)據(jù)源文本數(shù)據(jù)的規(guī)范統(tǒng)一;情境信息庫采用分布式表示技術(shù)存儲與用戶相關(guān)的情境信息,包括用戶的檢索時間、地理位置、網(wǎng)絡(luò)環(huán)境、移動終端類型等數(shù)據(jù),為基于深度學(xué)習(xí)的用戶情境計算模型提供數(shù)據(jù)支持。
特征提取模塊利用深度神經(jīng)網(wǎng)絡(luò)來提取視覺資源特征,而深度視覺資源特征是從大規(guī)模視覺數(shù)據(jù)中自動學(xué)習(xí)獲得的,并將視覺資源的特征提取和識別分類任務(wù)融合到一個模型中進行,其功能在系統(tǒng)離線學(xué)習(xí)階段和用戶在線檢索階段共享。本文采用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)處理視覺資源數(shù)據(jù),對于2D圖像數(shù)據(jù)直接將圖像作為網(wǎng)絡(luò)輸入進行特征提取計算,對于視頻數(shù)據(jù)則提取視頻中的時態(tài)和空間特征,而對于3D模型數(shù)據(jù)則將模型的投影視圖和體素作為神經(jīng)網(wǎng)絡(luò)的輸入。卷積神經(jīng)網(wǎng)絡(luò)避免了傳統(tǒng)圖像處理算法中復(fù)雜的特征提取融合過程,而且可以減少深度神經(jīng)網(wǎng)絡(luò)模型中的神經(jīng)元和參數(shù)數(shù)量,提高了單位時間內(nèi)的計算能力,它一般由輸入層、卷積層、池化層、全連接層和輸出層組成。循環(huán)神經(jīng)網(wǎng)絡(luò)能夠建模序列數(shù)據(jù)中不同時刻數(shù)據(jù)之間的依賴關(guān)系,它將網(wǎng)絡(luò)內(nèi)部節(jié)點定向連接成環(huán),通過自連接的方式實現(xiàn)序列數(shù)據(jù)信息的記憶與傳遞,對于處理序列數(shù)據(jù)建模能力強大且非常有效,一個循環(huán)單元由輸入層、循環(huán)隱層和輸出層組成,但是普通的循環(huán)神經(jīng)網(wǎng)絡(luò)存在梯度消失問題,Hocheriter S等[21]提出的長短時記憶網(wǎng)絡(luò)增加了保存長期狀態(tài)的隱層單元,可以更有效地對長程依賴關(guān)系進行建模。視覺資源特征提取模塊具體流程和功能實現(xiàn)將在本文第三部分進行闡述。
語義分析模塊則使用卷積神經(jīng)網(wǎng)絡(luò)對文本信息進行處理,首先通過卷積層對文本中的局部信息進行建模,得到若干個特征映射面,然后池化層從每一個特征映射面中選擇固定數(shù)目的節(jié)點,將文本表示為固定長度的向量,經(jīng)過多個卷積層和池化層后,最終會得到表示文本語義信息的輸出向量,而且隨著網(wǎng)絡(luò)深度的增加,可以捕捉到更加全面的文本語義信息和特征。情境計算模塊結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)來進行情境信息的識別計算,首先基于卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)情景數(shù)據(jù)的隱情境表示,然后將隱情境表示特征輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中,得到隱情境表示的狀態(tài)分類類別概率,最后融合隱情境表示和清晰的情境信息得到用戶的情境模型。關(guān)聯(lián)挖掘模塊是在對智慧圖書館數(shù)據(jù)資源進行特征提取和語義分析的基礎(chǔ)上,實現(xiàn)視覺資源與文本資源之間的語義關(guān)聯(lián),并采用倒排索引標(biāo)注關(guān)聯(lián)后的視覺資源,方便MVS過程中快速定位視覺資源信息。
行為分析模塊通過分析用戶的操作記錄提取用戶特征,將用戶的檢索、瀏覽、下載等歷史記錄作為深度學(xué)習(xí)模型的輸入,通過模型學(xué)習(xí)得到用戶的隱表示。評價反饋模塊則是將收集的用戶評價信息作為輸入,利用深度學(xué)習(xí)模型學(xué)習(xí)用戶的隱表示,并利用損失函數(shù)構(gòu)建目標(biāo)優(yōu)化函數(shù)優(yōu)化深度學(xué)習(xí)模型的參數(shù)。在獲得用戶特征隱表示的基礎(chǔ)上,結(jié)合用戶的年齡、職業(yè)、學(xué)歷、性別、社會關(guān)系等個人信息,構(gòu)建用戶個性化知識模型并存儲在用戶模型庫中。需求抽取模塊從用戶模型庫中提取出檢索用戶的個性化需求模型,構(gòu)建用戶個性化信息向量,為MVS檢索結(jié)果排序計算提供輸入數(shù)據(jù)。
2.2 用戶在線檢索階段
用戶在使用MVS系統(tǒng)進行視覺資源檢索時,需要將自己的檢索意圖通過具體的視覺檢索表達方式提交給MVS系統(tǒng),良好明確的表達方式可以有效降低檢索的難度,獲得滿意的檢索結(jié)果。根據(jù)視覺資源的不同類型,檢索表達的構(gòu)成方式可以分為基于圖像檢索、基于視頻檢索和基于3D模型檢索等,將不同的檢索表達構(gòu)成方式存儲于視覺檢索對象庫中,根據(jù)待檢索視覺對象數(shù)據(jù)類型采用不同的檢索表達方式。
結(jié)果展示模塊的功能是將檢索結(jié)果提供給用戶瀏覽,首先按照主題對檢索到的視覺資源進行分類和關(guān)聯(lián),然后根據(jù)移動終端類型和網(wǎng)絡(luò)狀況為用戶展示以視覺資源為中心的知識架構(gòu)和知識圖譜,方便用戶查找自己感興趣的視覺資源知識信息。另外,結(jié)果展示模塊還包括用戶信息管理功能,用戶具有編輯個人信息、設(shè)置視覺資源興趣標(biāo)簽、填寫評價反饋意見等權(quán)限,為用戶模型庫的建立和完善提供數(shù)據(jù)支持。
3 智慧圖書館MVS深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)工作流程
在實現(xiàn)智慧圖書館MVS服務(wù)模式各功能模塊的設(shè)定后,本文提出的智慧圖書館MVS深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)工作流程主要分為4個子流程,分別是數(shù)據(jù)獲取及數(shù)據(jù)預(yù)處理子流程、生成用戶特征向量和視覺檢索數(shù)據(jù)圖集子流程、深度學(xué)習(xí)訓(xùn)練網(wǎng)絡(luò)輸出視覺單詞向量子流程、計算相似度得到視覺檢索推薦列表子流程,如圖2所示。
3.1 數(shù)據(jù)獲取及數(shù)據(jù)預(yù)處理
圖書館MVS服務(wù)平臺首先獲取檢索所需的相關(guān)數(shù)據(jù),包括視覺檢索數(shù)據(jù)和用戶歷史行為數(shù)據(jù),其中,視覺檢索數(shù)據(jù)用于生成視覺檢索數(shù)據(jù)圖集,用戶歷史行為數(shù)據(jù)則用于生成用戶特征向量。數(shù)據(jù)預(yù)處理主要是對數(shù)據(jù)進行清洗,檢查數(shù)據(jù)的一致性,過濾掉視覺檢索數(shù)據(jù)收集過程中產(chǎn)生的干擾信息,并將視覺檢索數(shù)據(jù)從模擬信號的形式轉(zhuǎn)化為連續(xù)性的函數(shù)形式,然后整理數(shù)據(jù),獲取每個用戶的ID信息,生成用戶索引和視覺檢索數(shù)據(jù)索引。
3.2 生成用戶特征向量和視覺檢索數(shù)據(jù)圖集
首先統(tǒng)計用戶的有效點擊行為信息,然后搭建并訓(xùn)練深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型,將用戶的檢索行為記錄作為模型輸入得到用戶的分布式特征向量表示,用于描述用戶的特征信息,計算得到的用戶特征向量是低維且非稀疏的,便于以此作為視覺檢索推薦的數(shù)據(jù)依據(jù)。而對于視覺檢索數(shù)據(jù)則根據(jù)數(shù)據(jù)類型進行不同處理,圖像類數(shù)據(jù)獲取其精確圖片語義文本對,將圖片語義文本切詞后得到每個詞的詞向量,為每個圖片匹配其準(zhǔn)確的語義文本表示;視頻類數(shù)據(jù)通過鏡頭分割、關(guān)鍵幀提取、鏡頭聚類3步獲得其視頻圖像集,其中,鏡頭分割采用x2直方圖法和梯度法對視頻鏡頭的切換和淡入淡出進行檢測,關(guān)鍵幀提取則使用非相鄰幀比較算法來計算,其思想是將鏡頭的第一幀作為參考幀,然后計算后續(xù)幀和當(dāng)前參考幀的差值,當(dāng)差值大于預(yù)定閾值時則將當(dāng)前幀替換為關(guān)鍵幀,鏡頭聚類則將歸為一類的鏡頭集作為場景,完成對視頻的場景劃分,最終得到視頻的場景圖像集;對于3D模型類數(shù)據(jù)首先將模型進行體素化,然后采用旋轉(zhuǎn)、尺度變化、水平翻轉(zhuǎn)、隨機摳取等方法對3D模型進行數(shù)據(jù)擴充,得到相應(yīng)倍數(shù)的3D模型體素圖像數(shù)據(jù)集??傊?,使用處理后的圖像集作為深度學(xué)習(xí)訓(xùn)練網(wǎng)絡(luò)的輸入,有利于視覺檢索數(shù)據(jù)特征的學(xué)習(xí)和訓(xùn)練分類。
3.3 深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)訓(xùn)練生成視覺單詞向量
該子流程的功能是從視覺數(shù)據(jù)圖像集中提取各種類型視覺數(shù)據(jù)的特征向量并進行識別。對于圖像類數(shù)據(jù)利用卷積神經(jīng)網(wǎng)絡(luò)作為視覺模型,首先準(zhǔn)備圖像的深度學(xué)習(xí)訓(xùn)練集,根據(jù)圖片語義文本內(nèi)容對建立的卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練得到圖像分類模型,然后利用訓(xùn)練好的模型對測試集中的圖像進行特征提取,將圖像像素向量{x1,1,x1,2,…,xm,n}作為卷積神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù),xi,j表示尺寸為m*n圖像中第i行第j列的像素值,在對輸入圖像做卷積運算得到卷積特征圖像后,再對卷積特征圖像作最大池采樣獲得池化后的特征圖像,如果下一層為卷積層則繼續(xù)進行卷積計算,否則執(zhí)行全連接運算,最后經(jīng)過全連接層計算得到圖像特征輸出。然而通過上述方法提取的圖像特征有數(shù)千維,為了挖掘有意義的特征數(shù)據(jù)還需要對數(shù)據(jù)進行降維,可以采用訓(xùn)練后的棧式自編碼器進行圖像特征的降維運算,最終得到圖像的向量化表示。
視頻圖像集則首先使用卷積神經(jīng)網(wǎng)絡(luò)提取其人物、動作和上下文環(huán)境3個通道的特征向量圖,卷積神經(jīng)網(wǎng)絡(luò)采用多層串聯(lián)結(jié)構(gòu),上一層的輸出作為下一層的輸入,其參數(shù)值在訓(xùn)練過程識別率穩(wěn)定后即為最終的參數(shù),各個卷積神經(jīng)網(wǎng)絡(luò)層都包括若干個卷積層和池化層,卷積層對輸入的視頻圖像集進行卷積,池化層對卷積后的二維矩陣執(zhí)行池化操作,激活函數(shù)采用線性糾正函數(shù)ReLU,并對池化后的輸出值進行歸一化,使得卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度加快并且保持每次迭代網(wǎng)絡(luò)參數(shù)的正態(tài)分布;循環(huán)神經(jīng)網(wǎng)絡(luò)也是由多層網(wǎng)絡(luò)順序連接構(gòu)成的,并加入長短期記憶網(wǎng)絡(luò)單元,以使循環(huán)神經(jīng)網(wǎng)絡(luò)可以選擇記憶多段時間序列之前的內(nèi)容,其計算過程如下:首先將基于卷積神經(jīng)網(wǎng)絡(luò)提取出來的人物、動作和上下文環(huán)境語義特征作為輸入,經(jīng)過第一層長短期記憶網(wǎng)絡(luò)編碼后得到固定長度的輸出向量,然后把第一層的輸出向量作為第二層長短期記憶網(wǎng)絡(luò)的輸入,運用Softmax函數(shù)計算每一個語義在語義集上的概率分布,最終得到視頻圖像集的向量化語義描述。
3D模型體素圖像數(shù)據(jù)集則采用3D卷積神經(jīng)網(wǎng)絡(luò)進行特征提取,相比于應(yīng)用于2D圖像的卷積神經(jīng)網(wǎng)絡(luò),3D卷積神經(jīng)網(wǎng)絡(luò)將對3D數(shù)據(jù)進行卷積計算并輸出另外一個3D數(shù)據(jù)。該網(wǎng)絡(luò)結(jié)構(gòu)由卷積層、池化層、整合層、全連接層和分類層組成,在卷積層,3D模型體素化分辨率用di表示,用i表示輸入層數(shù),則網(wǎng)絡(luò)輸入是大小為di*di*di的體素數(shù)據(jù),隨機生成歸一化的卷積核矩陣W,卷積核大小為ei*ei*ei,則第k層卷積層特征圖對應(yīng)的卷積核為wkiPei*ei*ei,第k層特征圖可以由計算公式Fki=h(wkix+b),其中,表示卷積運算,h(·)是非線性激活函數(shù),x為輸入3D模型的體素化表示,b為偏置。在池化層,采用最大值池化操作,用Pki表示第k個池化特征圖,則Pki=max(Fki+b),max(·)為取最大值操作。整合層將卷積層和池化層提取的特征圖進行向量化,即把多維向量變?yōu)橐痪S列向量。全連接層將整合層得到的特征向量作為輸入,經(jīng)過全連接后可以將3D模型的特征表示映射到樣本標(biāo)記空間中。最后,使用Softmax分類層將多分類的輸出數(shù)值轉(zhuǎn)化為相對概率,得到3D模型的特征向量。
3.4 得到視覺資源檢索推薦列表
在完成深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練之后,便可以將檢索用戶特征向量和目標(biāo)視覺資源單詞向量信息輸入到深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型中,通過訓(xùn)練好的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型得到用戶對目標(biāo)視覺資源的預(yù)測評分值,最后按照評分值的大小順序進行排列,將評分較高的前N個視覺資源信息生成推薦列表并推送給檢索用戶。
4 基于深度學(xué)習(xí)的智慧圖書館MVS研究展望
隨著大數(shù)據(jù)和人工智能技術(shù)的不斷發(fā)展,深度學(xué)習(xí)在智慧圖書館中的應(yīng)用也越來越受到重視,但目前基于深度學(xué)習(xí)的智慧圖書館MVS系統(tǒng)研究仍處于起步階段,而在未來必將會有更深入的探討和應(yīng)用,以下總結(jié)了3個可能的研究方向。
4.1 基于深度學(xué)習(xí)的智慧圖書館MVS跨平臺信息融合問題
智慧圖書館MVS系統(tǒng)數(shù)據(jù)獲取能力的不斷提升,使得用戶和視覺數(shù)據(jù)在不同平臺的信息能夠越來越方便的獲取,融合用戶和視覺數(shù)據(jù)在不同平臺的信息可以有效克服單一平臺信息的不足,更好地發(fā)現(xiàn)用戶的個性化偏好,為用戶提供更為準(zhǔn)確的視覺資源檢索推薦列表。利用深度學(xué)習(xí)技術(shù),將各類視覺資源數(shù)據(jù)進行統(tǒng)一輸入,構(gòu)建有效融合各種類型、跨平臺異構(gòu)視覺數(shù)據(jù)的深度學(xué)習(xí)訓(xùn)練網(wǎng)絡(luò)模型,以實現(xiàn)跨平臺信息融合的智慧圖書館MVS服務(wù)將是重要研究方向之一。
4.2 基于深度學(xué)習(xí)的智慧圖書館MVS系統(tǒng)優(yōu)化問題
首先,對于智慧圖書館MVS系統(tǒng)來說,面向不同的用戶和場景時采用統(tǒng)一的深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)和計算參數(shù)是不可能的,需要根據(jù)不同的目標(biāo)任務(wù)構(gòu)建新的深度學(xué)習(xí)框架來提供MVS服務(wù)。其次,還需要積極拓展視覺數(shù)據(jù)特征提取的語義線索,充分利用和融合視覺數(shù)據(jù)中的音頻、標(biāo)簽、評論等固有信息,通過建模更多視覺數(shù)據(jù)信息提升深度學(xué)習(xí)MVS系統(tǒng)的語義識別能力。再次,智慧圖書館MVS系統(tǒng)移動端功能也需要進一步的完善,努力實現(xiàn)移動端視覺信息采集、實時傳輸、深度學(xué)習(xí)訓(xùn)練及檢索反饋的MVS服務(wù)全過程,使用戶在任何場景下都可以使用智慧圖書館MVS系統(tǒng)進行視覺數(shù)據(jù)檢索。
4.3 基于深度學(xué)習(xí)的智慧圖書館MVS自動進化問題
隨著深度學(xué)習(xí)模型的不斷發(fā)展,其能力將遠(yuǎn)遠(yuǎn)超過對輸入數(shù)據(jù)進行簡單的連續(xù)幾何變換,而是具有豐富的算法特性和更強的泛化能力,既能實現(xiàn)正式的推理、搜索和抽象功能,又能提供非正式的直覺和模式識別能力。智慧圖書館MVS系統(tǒng)的功能模塊可以通過復(fù)用全局庫(通過在先前任務(wù)和數(shù)據(jù)集上學(xué)習(xí)高性能模型得到)中的模塊化部件,實現(xiàn)MVS功能的自動進化,而不需要人工強干預(yù),并且隨著MVS系統(tǒng)對經(jīng)常出現(xiàn)問題解決模式的識別,這些模式將被轉(zhuǎn)化為可復(fù)用的子程序并添加到全局庫中,最終達到智慧圖書館MVS系統(tǒng)具有永久學(xué)習(xí)能力的目標(biāo)也需要進一步的研究。
5 結(jié)束語
大規(guī)模視覺數(shù)據(jù)的搜索問題是衡量智慧圖書館MVS服務(wù)是否滿足用戶需求的一個重要問題,而且用戶進行MVS時往往都是在線完成的,因此快速準(zhǔn)確響應(yīng)用戶的MVS服務(wù)請求是智慧圖書館MVS系統(tǒng)必需具備的能力。近年來,深度學(xué)習(xí)技術(shù)在圖像處理、語音識別和動態(tài)數(shù)據(jù)特征提取等領(lǐng)域取得了突出成就,但是基于深度學(xué)習(xí)的智慧圖書館MVS系統(tǒng)的研究還處于探索階段。本文在分析深度學(xué)習(xí)技術(shù)和圖書館MVS系統(tǒng)研究現(xiàn)狀的基礎(chǔ)上,設(shè)計了基于深度學(xué)習(xí)的智慧圖書館MVS服務(wù)模式及其工作流程,并對深度學(xué)習(xí)技術(shù)在智慧圖書館MVS系統(tǒng)中的應(yīng)用趨勢進行了展望,以期為用戶提供更加優(yōu)質(zhì)的MVS服務(wù),滿足用戶的個性化知識需求。
參考文獻
[1]王世偉.未來圖書館的新模式——智慧圖書館[J].圖書館建設(shè),2011,(12):1-5.
[2]張興旺,李晨暉.數(shù)字圖書館移動視覺搜索機制建設(shè)的若干關(guān)鍵問題[J].圖書情報工作,2015,59(15):42-48.
[3]Lecun Y,Bengio Y,Hinton G.Deep Learning[J].Nature,2015,521(7553):436-444.
[4]David M.Chen,Sam S.Tsai,Vijay Chandrasekhar,et al.Tree Histogram Coding for Mobile Image Matching[C]//Proceedings of the 2009 Data Compression Conference,IEEE,2009:143-152.
[5]劉喜球,張興旺.移動視覺搜索:“互聯(lián)網(wǎng)+”時代數(shù)字圖書館信息檢索新模式[J].情報理論與實踐,2016,39(5):58-63.
[6]張興旺,鄭聰.領(lǐng)域?qū)虻臄?shù)字圖書館移動視覺搜索引擎建設(shè)研究[J].圖書與情報,2016,(5):40-47.
[7]曾子明,秦思琪.智慧圖書館移動視覺搜索服務(wù)及其技術(shù)框架研究[J].情報資料工作,2017,(4):61-67.
[8]曾子明,宋揚揚.基于SoLoMo的智慧圖書館移動視覺搜索服務(wù)研究[J].圖書館,2017,(7):92-98.
[9]曾子明,秦思琪.去中心化的智慧圖書館移動視覺搜索管理體系[J].情報科學(xué),2018,36(1):11-15,60.
[10]李晨暉,張興旺,秦曉珠.基于大數(shù)據(jù)的文化遺產(chǎn)數(shù)字圖書館移動視覺搜索機制建設(shè)研究[J].情報理論與實踐,2018,41(4):139-144,133.
[11]韓璽,何秀美,張玥,等.基于語義關(guān)聯(lián)的圖書館移動視覺搜索資源與服務(wù)聚合研究[J].現(xiàn)代情報,2017,37(10):3-7,22.
[12]韓璽,張玥,朱慶華.基于移動視覺搜索的圖書館、檔案館、博物館資源融合服務(wù)模式研究[J].情報資料工作,2018,(2):63-70.
[13]孫翌,周鋒,張浩.移動視覺搜索在特色資源服務(wù)中的應(yīng)用實踐[J].現(xiàn)代情報,2017,37(9):107-113.
[14]鐘志鵬,王涌天,陳靖,等.一個基于移動視覺搜索技術(shù)的博物館導(dǎo)覽系統(tǒng)[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2012,24(4):555-562.
[15]Geoffrey E.Hinton,Simon Osindero,Yee-Whye Teh.A fast Learning Algorithm for Deep Belief Nets[J].Neural Computation,2006,18(7):1527-1554.
[16]Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks[C]//International Conference on Neural Information Processing Systems.Curran Associates Inc,2012:1097-1105.
[17]Wang W,Shen J,Shao L.Video Salient Object Detection Via Fully Convolutional Networks[J].IEEE Transactions on Image Processing,2017,27(1):38-49.
[18]Han Z,Liu Z,Han J,et al.Unsupervised 3D Local Feature Learning By Circle Convolutional Restricted Boltzmann Machine[J].IEEE Trans Image Process,2016,25(11):5331-5344.
[19]Han Z,Liu Z,Han J,et al.Mesh Convolutional Restricted Boltzmann Machines for Unsupervised Learning of Features with Structure Preservation on 3-D Meshes[J].IEEE Transactions on Neural Networks & Learning Systems,2017,28(10):2268-2281.
[20]Peng Y X,Zhu W W,Zhao Y,et al.Cross-media Analysis and Reasoning:Advances and Directions[J].Frontiers of Information Technology & Electronic Engineering,2017,18(1):44-57.
[21]Hochreiter S,Schmidhuber J.Long Short-term Memory[J].Neural Computation,1997,9(8):1735-1780.
(責(zé)任編輯:郭沫含)