周凱++朱一杰++龔松杰++李浩波
摘 要:隨著信息時代的到來,信息多元化程度加深。多媒體信息成為互聯(lián)網(wǎng)上主要的信息載體。然而,面對互聯(lián)網(wǎng)內(nèi)海量的多媒體信息,如何快速精確地獲取所需查詢結(jié)果是一個很大的技術(shù)挑戰(zhàn)。該研究互聯(lián)網(wǎng)環(huán)境里關(guān)鍵的大數(shù)據(jù)多媒體信息檢索技術(shù),使得用戶能夠精確地檢索所需的多媒體信息。
關(guān)鍵詞:大數(shù)據(jù) 多媒體 信息檢索
中圖分類號:H04 文獻標識碼:A 文章編號:1672-3791(2015)08(c)-0023-02
隨著網(wǎng)絡與多媒體技術(shù)的高速發(fā)展,在互聯(lián)網(wǎng)上的信息,尤其是多媒體信息富含大量的特征。近年來,搜索引擎提供了多種應用向的搜索服務。例如谷歌的圖片、地圖和視頻搜索功能。由于這些技術(shù)的迅速發(fā)展,使得網(wǎng)絡中的多媒體信息出現(xiàn)爆炸性增長。面對海量的多媒體信息,如何高速的獲取精確查詢結(jié)果是國內(nèi)外學術(shù)界聚焦關(guān)注的問題。檢索多媒體信息的本質(zhì)是高維度的矢量相似。同時,它是一種高計算的數(shù)據(jù)操作,在面對大量的多媒體數(shù)據(jù)時,搜索效率往往不如人意。盡管如此,隨著一定程度上多維索引技術(shù)的提高,使得這些指數(shù)索引方法解決了許多有效向量數(shù)據(jù)的問題。
1 大數(shù)據(jù)技術(shù)
引用“大數(shù)據(jù)”研究機構(gòu)Gartner的定義?!按髷?shù)據(jù)處理才能是必要”是新模式,擁有更好的決定力、洞察力和流程的優(yōu)化能力、高增長率和多樣化的信息資產(chǎn)。
大數(shù)據(jù)技術(shù)的戰(zhàn)略不是擁有龐大的數(shù)據(jù),而是把這些數(shù)據(jù)進行專業(yè)化處理。換句話說,如果大數(shù)據(jù)是一種產(chǎn)業(yè)的話,那么使這個產(chǎn)業(yè)盈利的鑰匙,就是提高數(shù)據(jù)處理的能力,通過數(shù)據(jù)處理實現(xiàn)數(shù)據(jù)的“附加價值”。
從技術(shù)上看,大數(shù)據(jù)和云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然不會使用單臺計算機進行數(shù)據(jù)處理,必須采用分布式的架構(gòu)。雖然它的特點是挖掘大量的數(shù)據(jù)碎片,但是它必須依賴云計算的分散處理、分布式數(shù)據(jù)庫、云存儲和虛擬化技術(shù)。
隨著云時代的到來,大數(shù)據(jù)也吸引了越來越多的關(guān)注。某分析團隊認為大數(shù)據(jù)通常是形容公司收集大量的非構(gòu)造化數(shù)據(jù)和半構(gòu)造化數(shù)據(jù),但對這些關(guān)系型數(shù)據(jù)庫的下載分析將花費大量時間和金錢。隨著大數(shù)據(jù)的分析和云計算聯(lián)系到一起,使得這些數(shù)據(jù)必須使用大量的計算機進行數(shù)據(jù)分析工作。
大數(shù)據(jù)使用特殊技術(shù)高效處理某個時間段內(nèi)的大量數(shù)據(jù)。因此適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理數(shù)據(jù)庫、數(shù)據(jù)挖掘的電力網(wǎng)、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和擴張的存儲系統(tǒng)。
2 互聯(lián)網(wǎng)環(huán)境下大數(shù)據(jù)多媒體信息檢索
為了提高檢索效率,需要研究高維索引的多媒體數(shù)據(jù)機制及基于服務計算的并行檢索與多重查詢的優(yōu)化方法,如圖1所示。
2.1 數(shù)據(jù)表示
用戶評分數(shù)據(jù)可以用一個z×l階客戶-商品評分矩陣表示,z 行代表個z用戶,l 列代表l個項目,第p 行j 列的元素代表客戶p 對商品j 的評分值。
2.2 相似性度量
度量客戶之間相似性的方法有許多種,主要有三種方法:余弦相似性度量公式、修正的余弦相似度量公式和相關(guān)相似度量公式的方法。
(1) 余弦相似性
用戶評分看作為n 維項空間上的向量, 如果用戶對其項沒有進行評分, 則將用戶對該項的評分設為0 ,用戶間的相似性通過向量間的余弦夾角度量。公式如下:
(2) 修正的余弦相似性
修正余弦相關(guān)性充分考慮了不同用戶的評分尺度問題, 通過減去用戶對項目的評分來實現(xiàn)它的優(yōu)點。公式如下:
(3) 相關(guān)相似度
相關(guān)相似度又稱Pearson 相關(guān)系數(shù)度量, 設用戶i 和用戶j 共同評分過的項目集合用Ii ,j=I1∩I2表示, 則用戶i 和用戶j 的相似度sim(i,j)為:
2.3 推薦產(chǎn)生
根據(jù)當前用戶的鄰居對項目的評分信息,預測當前用戶對未評分項目的評分, 產(chǎn)生推薦。通過上面提出的相似性度量方法找到目標用戶的鄰居,之后產(chǎn)生相應的推薦。預測公式如下:
3 結(jié)語
隨著在網(wǎng)絡中,大數(shù)據(jù)和多媒體技術(shù)的迅速發(fā)展,使得多媒體信息成為互聯(lián)網(wǎng)上的主要信息媒體。但是面臨互聯(lián)網(wǎng)上大量的多媒體信息,如何快速準確地獲取查詢結(jié)果有很大的技術(shù)挑戰(zhàn)。而大數(shù)據(jù)多媒體信息檢索技術(shù)則會根據(jù)用戶輸入快速、準確地檢索出數(shù)據(jù)信息。
參考文獻
[1] 莊越挺,潘云鶴,吳飛.網(wǎng)上多媒體信息分析與檢索[M].北京:清華大學出版社,2002.
[2] Gong S, Wang Y. Research on Security Strategy of Electronic Commerce Industry Websites:2015 International Conference on Advances in Mechanical Engineering and Industrial Informatics [C].Paris: Atlantis Press,2015.
[3] Gong S. Research on the Generated Path of Electronic Commerce System Based on Innovative High-skilled Technology, 2015 International Industrial Informatics and Computer Engineering Conference [C].Paris: Atlantis Press, 2015.
[4] Song Jiegong, Li Pingzeng, The Solution of Safety of Electronic Cash in E-Commerce under Cloud Computing Environment [J].Advanced Materials Research,2014,3326(989):4314-4317.
[5] Songjie Gong, Research on the Growth Mechanism of High-Skilled System in Computer Science and Technology [J].Applied Mechanics and Materials,2014,2987(513):2748-2751.