趙楠 范書國 甄琢 孟丹
摘? 要:隨著短視頻關(guān)注度的不斷提高,抖音短視頻已經(jīng)成為當(dāng)前時代熱點。針對于短視頻、短文本,向量空間模型(VSM)表示方法存在高維度、同義多義問題,導(dǎo)致難以準(zhǔn)確度量文本相似度,該文提出了一種基于隱含語義分析的聚類方法,利用LSA將訓(xùn)練數(shù)據(jù)聚類成隱含語義主題,通過奇異值分解,將詞向量和文檔向量投射到一個低維空間,用層次聚類算法確定初始中心,然后聚類得到結(jié)果。結(jié)論表明,短視頻中的核心語義內(nèi)容被成功保留下來,運用矩陣降維方法降低了計算量,冗余的相關(guān)性干擾得以解決,改變了視頻語義檢測的整體效果。
關(guān)鍵詞:隱含語義? 層次聚類? 奇異值分解? 矩陣降維
中圖分類號:TP391.4 ? ?文獻標(biāo)識碼:A 文章編號:1672-3791(2020)02(a)-0009-02
隨著互聯(lián)網(wǎng)用戶數(shù)量的不斷增長,網(wǎng)絡(luò)短視頻的數(shù)量也在與日俱增。因此,迫切地需要在數(shù)以萬計的短視頻中實現(xiàn)高速有效的檢索。視頻數(shù)據(jù)內(nèi)容包含復(fù)雜的含義,視頻數(shù)據(jù)之間也存在著內(nèi)在聯(lián)系。在視頻圖像中,圖片特征與特征之間、視頻片段與片段之間,視頻語義與語義之間都存在著關(guān)聯(lián)關(guān)系。通過這些關(guān)聯(lián)關(guān)系,語義檢測的計算成本可以得到減少,提高搜索的質(zhì)量。視頻語義之間的相關(guān)性有很重要的作用,視頻語義內(nèi)容之間會出現(xiàn)同義和多義等問題,這就是由于對視頻語義的相關(guān)性忽略而引起的,會導(dǎo)致一系列缺陷?,F(xiàn)在對視頻語義相關(guān)性的關(guān)注度和重視度不足,為此,需要深入學(xué)習(xí)和研究視頻語義相關(guān)性方面的知識和課題,讓相關(guān)性發(fā)揮重要作用,同時解決一系列不利的問題。該文通過LSA(隱含語義分析)方法的理論指導(dǎo),改進和豐富了抖音短視頻內(nèi)容檢測中視頻的主要數(shù)據(jù)特點,建立了根據(jù)視頻語義內(nèi)容創(chuàng)造的視頻文檔矩陣,說明了短視頻的視頻結(jié)構(gòu)和相關(guān)性分析內(nèi)容。
1? 視頻隱含語義關(guān)聯(lián)性分析方法
1.1 LSA基本思想
LSA的基本思想是認(rèn)為詞匯和詞匯之間存在著一定的關(guān)聯(lián)關(guān)系,文檔和文檔之間也存在著一定的關(guān)聯(lián)關(guān)系,它們之間存在一種隱含式的文本語義結(jié)構(gòu),奇異值分解由詞語統(tǒng)計頻統(tǒng)向量構(gòu)成的文檔集合矩陣進行,再經(jīng)過降維處理得到的語義結(jié)構(gòu),解決了因為視頻語義相關(guān)性而引起的同義和多義等問題,而它的核心語義信息都成功保存下來,對為未來檢測相似語義的目標(biāo)文件,查詢文件之間的相似程度有著重要作用。視頻目標(biāo)和視頻對象的典型特征之間的相關(guān)性關(guān)系可以用來反映該短視頻的具體語義內(nèi)容,視頻典型特征和相關(guān)性關(guān)系通過聚類會得到不同類別的信息,與視頻的語義內(nèi)容密不可分。相對于視頻語義數(shù)據(jù)來說,沒有明顯的文本、文檔內(nèi)容,也沒有廣闊的語言內(nèi)容空間,直接復(fù)制LSA的處理方法是不能實現(xiàn)的。所以,該文針對這個問題提出了解決視頻語義建模的一個辦法:將短視頻分成許多幀,短視頻中的每一幀圖像都可以對應(yīng)短文本中的每一個文件、文檔,從而建立視頻文檔集合矩陣。對視頻語義內(nèi)容中的典型特征進行細(xì)分,分類后的每一部分可以對應(yīng)文件文檔以一個基礎(chǔ)詞匯,建立起視頻特征詞典。通過這兩點,再對短視頻進行進一步的擴展,當(dāng)擴展數(shù)據(jù)庫的容量時,可以將中等大小的短視頻文件映射到文件文檔向量。
1.2 視頻特征字典的建立
當(dāng)開始創(chuàng)建視頻特征詞典的時候,應(yīng)該對過去曾經(jīng)用過的典型特征,通過K-means算法生成H個聚類,H個聚類應(yīng)該對應(yīng)H維的向量。我們也可以將視頻特征詞典的規(guī)模大小程度用H來表示。原因是K-means算法的基本屬性就是如此,它可以對聚類結(jié)果的規(guī)模大小加以調(diào)整控制,因此,可以合理地使用這個特點,可以根據(jù)實際情況不斷地調(diào)整特征詞典的規(guī)模大小??梢愿鶕?jù)實際需求創(chuàng)建一系列視頻特征字典,用來應(yīng)對不同層面的、不同類別的典型特征,接下來既可以單獨運行,也可以聯(lián)合起來對這類特征詞典進行合理應(yīng)用,從而滿足不同層面上的需求。
1.3 視頻文檔集合矩陣的建立
當(dāng)開始創(chuàng)建視頻文檔集合矩陣的時候,如果將短視頻分割成一系列幀,每幀圖像分別對應(yīng)著文件文檔的每一個文件,因為短視頻文件中的幀數(shù)龐大,就會導(dǎo)致文檔集合矩陣范圍龐大,會極大地降低計算的速率。所以,再進行建立視頻文檔集合矩陣操作前,需要對短視頻實行預(yù)處理操作,將關(guān)鍵幀從短視頻文件中分離出來,用關(guān)鍵幀充當(dāng)文檔的基礎(chǔ)單元,目的是為了減少矩陣的范圍,從而增加可行性。短視頻被分割成一系列片段,形成一系列關(guān)鍵幀,每一個關(guān)鍵幀都擁有該片段最重要的內(nèi)容,這一系列關(guān)鍵幀組合成這個視頻片段。細(xì)分到每一個關(guān)鍵幀,還要繼續(xù)將它割裂成不同片段,為了方便進行隱含語義分析操作,每個片段都應(yīng)該占用相同區(qū)域大小。接下來,視頻特征詞典將要作為前提條件,提取出每個分割片段的典型特征,綜合到一起,進行頻率數(shù)字統(tǒng)計,然后綜合所有片段的統(tǒng)計結(jié)果,形成一個對應(yīng)這個關(guān)鍵幀的視頻文檔,從而也可以得出短視頻的視頻文檔矩陣。
這種操作方法主要是通過分割關(guān)鍵幀來實現(xiàn)的,再用K-means算法進行輔助,最終綜合統(tǒng)計關(guān)鍵幀的視頻文檔,可以極大地體現(xiàn)出典型特征在視頻語義分析中的重要作用,可以方便突出視頻的結(jié)構(gòu)特點,了解視頻的數(shù)據(jù)內(nèi)容。
2? 基于隱含語義分析的抖音短視頻語義檢測方法
該文對抖音短視頻進行隱含語義分析建模,選取熱度較高的短視頻,選取其短文本,進行奇異值分解,檢索出該段文本的隱含語義信息。然后通過聚類算法來檢索抖音短視頻。為了解決向量空間模型對于詞項匹配不足的問題,該文采用隱含語義分析建模的方法,首先,選取熱度較高的短視頻,對它進行奇異值分解,將文件文檔對應(yīng)到隱含于一空間,對其隱含語義信息進行挖掘。
抖音短視頻的獲取我們采用網(wǎng)絡(luò)爬蟲技術(shù)對短視頻進行抓取。采用Fiddler進行手機抖音APP的抓包,安裝Fiddler后,進行數(shù)據(jù)的配置。在手機無線連接代理中填寫電腦的IP地址和Fiddler代理的端口,安裝證書,就可以進行抖音短視頻的抓包,然后可以對爬取的用戶信息數(shù)據(jù)進行預(yù)處理,并存入數(shù)據(jù)庫。通過爬蟲獲取的數(shù)據(jù)不可以直接接收進行操作使用,需要加工處理,逐步實現(xiàn)數(shù)據(jù)清洗操作,減少數(shù)據(jù)中存在著錯誤或異常(偏離期望值)的數(shù)據(jù)。抖音短視頻的用戶通常是清理活躍數(shù)較低的垃圾用戶來達成數(shù)據(jù)預(yù)處理操作的,以便為接下來的聚類算法打好基礎(chǔ)。
首先對短文本數(shù)據(jù)進行初次聚類,應(yīng)用Single-pass算法,每一條視頻文本都是唯一的,它也對應(yīng)著唯一的特征向量,每個文本之間的特征向量需要進行相似度的計算,得出關(guān)聯(lián)關(guān)系較高的就會被歸類到一個簇里。這次聚類是對短視頻文件進行初次聚類,得到同一個簇。接下來就是第二次聚類,第二次聚類的目的是要將簇進行合并,最終才能得到話題集。
3? 結(jié)語
該文提出的基于隱含語義分析的語義檢測方法,在現(xiàn)實的視頻語義檢測應(yīng)用中,需要繼續(xù)保留視頻文本結(jié)構(gòu)中的典型語義特征,信息冗余帶來的困擾得以解除,視頻語義的檢測內(nèi)容得到了提高,適合當(dāng)前的網(wǎng)絡(luò)短視頻環(huán)境。采用了二級聚類算法,在一定程度上提高了發(fā)現(xiàn)效率和準(zhǔn)確率,但包含的信息還有待完善。下一步重點:評估發(fā)布的視頻內(nèi)容的權(quán)威性,細(xì)分用戶角色,發(fā)現(xiàn)語義主題檢測的準(zhǔn)確率。
參考文獻
[1] 馬雯雯,魏文晗,鄧一貴.基于隱含語義分析的微博話題發(fā)現(xiàn)方法[J].計算機工程與應(yīng)用,2014,50(1):96-100.
[2] 王曉巖.微博客熱點話題發(fā)現(xiàn)與跟蹤技術(shù)及系統(tǒng)[D].中國科學(xué)院大學(xué),2013.
[3] 孫曰昕.面向微博的熱點話題發(fā)現(xiàn)與追蹤研究[D].西北師范大學(xué),2014.
[4] 陳志雄,朱向莊.基于內(nèi)容評價與超鏈分析的主題爬蟲策略[J].輕工科技,2011,27(3):66-67.
[5] 何躍,帥馬戀,馮韻.中文微博熱點話題挖掘[J].統(tǒng)計與信息論壇,2014,29(6):86-90.
[6] 鄭斐然,苗奪謙,張志飛,等.一種中文微博新聞話題檢測的方法[J].計算機科學(xué),2012,39(1):138-141.
[7] He H,Chen B,Xu W,et a1.Short text feature extraction and clustering for web topic mining[A].Third Internationl Conference on Semantics,Knowledge and Gird(SKG 2007)[C].2007.