韓雨萌,寧 濤 ,段曉東,高 原
(大連民族大學(xué) a.計(jì)算機(jī)科學(xué)與工程學(xué)院 b.大數(shù)據(jù)應(yīng)用技術(shù)國(guó)家民委重點(diǎn)實(shí)驗(yàn)室,遼寧 大連 116650)
中國(guó)是一個(gè)擁有五十六個(gè)民族的統(tǒng)一多民族國(guó)家,在長(zhǎng)期歷史發(fā)展過程中,多民族文化共同組成了中華文化。在眾多民族文化的燦爛結(jié)晶中,民族圖案是不可或缺的寶貴非物質(zhì)文化財(cái)富,它承載了一個(gè)民族發(fā)展的歷史,是一個(gè)民族思想、歷史、藝術(shù)和美學(xué)的綜合體現(xiàn)。因此,認(rèn)識(shí)和保護(hù)民族圖案具有重要意義。許多學(xué)者進(jìn)行了相關(guān)研究:如劉戰(zhàn)東等,引進(jìn)克隆算子對(duì)民族圖案基元進(jìn)行操作,并提出一種民族圖案生成算法[1]。劉菲朵提出了一種改進(jìn)的圖案分割算法SGB,實(shí)現(xiàn)了交互式民族圖案分割系統(tǒng)[2]。張志宇提出了一種基于深度學(xué)習(xí)的民族圖案識(shí)別算法,能夠提取較為高級(jí)的語義特征,且運(yùn)算時(shí)間和運(yùn)算精度都得到了提升[3]。
民族圖案種類繁多、樣式復(fù)雜,且其中往往蘊(yùn)含著大量的深層語義,機(jī)器獲取這些深層語義也往往是十分困難的,再加上相關(guān)數(shù)據(jù)集難以收集,相關(guān)研究較少,使得進(jìn)行這項(xiàng)研究具有重要意義。苗族蠟染圖案如圖1,侗族織錦圖案如圖2。
圖1 苗族蠟染·鳥頭蝴蝶 圖2 侗族織錦·八角花
圖像檢索研究自上世紀(jì)七十年代開始,已經(jīng)經(jīng)歷了數(shù)十年的發(fā)展過程,其發(fā)展階段從文本檢索、內(nèi)容檢索、反饋檢索一直到最近的特征檢索。傳統(tǒng)的圖像檢索即基于文本的檢索存在很多問題,最主要的就是人工標(biāo)注的成本太大,以及不能充分表達(dá)圖像。隨著基于內(nèi)容的圖像檢索CBIR的提出與發(fā)展,文本檢索的缺陷不斷被避免,檢索的效率和精度也不斷得到提高。深度神經(jīng)網(wǎng)絡(luò)模型的提出和不斷迭代更新,計(jì)算機(jī)視覺領(lǐng)域里,各種視覺技術(shù)都得到了滋潤(rùn)與發(fā)展。圖像檢索作為計(jì)算機(jī)視覺領(lǐng)域里的一個(gè)重要課題,也因此得以飛速發(fā)展。
VIT(Vision Transformer)是一種將transformer運(yùn)用在計(jì)算機(jī)視覺領(lǐng)域的模型,最初被應(yīng)用在圖像分類領(lǐng)域,這雖然不是transformer第一個(gè)被應(yīng)用在計(jì)算機(jī)視覺領(lǐng)域所提出的模型,但因?yàn)槠淠P秃?jiǎn)單且效果好,可擴(kuò)展性極佳,成為了transformer在計(jì)算機(jī)視覺領(lǐng)域的里程碑式模型。自從神經(jīng)網(wǎng)絡(luò)模型問世以來,計(jì)算機(jī)視覺領(lǐng)域的重點(diǎn)任務(wù)得到了飛速發(fā)展。
在傳統(tǒng)的圖像檢索面臨不夠輕量級(jí)、抓取特征效率低、算法不夠簡(jiǎn)單以及面對(duì)大型數(shù)據(jù)集檢索效果不好等問題時(shí),開始有人將神經(jīng)網(wǎng)絡(luò)運(yùn)用在圖像檢索任務(wù)中,如鄒凱提出了一種基于改進(jìn)AlexNet的布料色卡圖像檢索方法,能夠滿足用戶通過所構(gòu)建模型快速和準(zhǔn)確地檢索所需布料色卡信息的要求[4]。王佳婧、金壯等提出了一種基于面部特征增強(qiáng)和CNN網(wǎng)絡(luò)結(jié)構(gòu)的民族人臉圖像檢索方法,并實(shí)現(xiàn)了多種圖像檢索模式結(jié)果的可視化[5]。而隨著CNN網(wǎng)絡(luò)結(jié)構(gòu)的提出,各種其他不同的網(wǎng)絡(luò)結(jié)構(gòu)也在幾年之內(nèi)被接連提出,也接連地被應(yīng)用到圖像檢索的領(lǐng)域,提出了一種基于CBAM-ResNet50的民國(guó)紙幣圖像檢索方法,所提取的民國(guó)紙幣圖像特征具有更強(qiáng)的辨識(shí)度[6]。
VIT網(wǎng)絡(luò)模型的提出,將圖像檢索研究又推向了新的高潮,Nouby等人提出的以VIT為主干網(wǎng)絡(luò)的圖像檢索方法[7],將圖像檢索的精度進(jìn)一步提升。
在圖像檢索技術(shù)蓬勃發(fā)展的大背景下,民族圖案檢索也作為圖像檢索領(lǐng)域的一個(gè)細(xì)分專業(yè)領(lǐng)域,逐漸被國(guó)內(nèi)的學(xué)者關(guān)注,例如,閆龍泉提出了一種基于深度哈希的唐卡圖像檢索研究方法,利用ResNet50和SKNet結(jié)合了藏族特色藝術(shù)瑰寶唐卡的圖案特征,將唐卡圖像特征進(jìn)行提取與聚合,經(jīng)過多尺度對(duì)數(shù)變換和網(wǎng)絡(luò)自主相關(guān)參數(shù)學(xué)習(xí),使得唐卡圖像效果得到了增強(qiáng)[8]。溫雅利用EGBIS圖像分割法和SURF算法設(shè)計(jì)了一種民族圖案檢索系統(tǒng),能夠?qū)崿F(xiàn)對(duì)民族圖案內(nèi)容的檢索功能[9]。鄒悅利用ResNet50網(wǎng)絡(luò)、字典學(xué)習(xí)與語義分析對(duì)苗族蠟染圖案進(jìn)行了研究,提出了一種基于內(nèi)容的民族紋樣圖案識(shí)別檢索方法[10]。但是綜合來看,國(guó)外的諸多學(xué)者雖然也有研究民族圖案,但其只集中在本國(guó)的民族圖案,中國(guó)的民族圖案具有鮮明的特點(diǎn),所以其方法多不具有借鑒性。反觀國(guó)內(nèi),由于民族圖案數(shù)據(jù)集獲取困難、特色性較強(qiáng)、圖案內(nèi)容復(fù)雜多樣,只針對(duì)于民族圖案的圖像檢索方法研究還比缺乏,現(xiàn)有的圖案檢索,多只專注于單民族單一種類圖案進(jìn)行檢索,內(nèi)容不夠充實(shí)。
為了解決以上所述存在的問題,本文基于Vision Transformer網(wǎng)絡(luò)結(jié)構(gòu),以哈希圖像檢索為檢索框架,提出了針對(duì)于民族布藝圖案的VTDSH哈希民族布藝圖案檢索方法。
由于題材特殊,以及涉及到非物質(zhì)文化遺產(chǎn)保護(hù)和版權(quán)問題,網(wǎng)絡(luò)上民族布藝圖案數(shù)量較少,而實(shí)驗(yàn)所需要的關(guān)于這些民族布藝圖案的語義和背景解釋則更少,沒有公開的大型民族布藝圖案數(shù)據(jù)集。為了進(jìn)行相關(guān)實(shí)驗(yàn)研究,我們自行進(jìn)行了數(shù)據(jù)集的構(gòu)建。
通過各種渠道獲取民族布藝圖案內(nèi)容,并學(xué)習(xí)民族背景文化以求專業(yè)地解釋各個(gè)圖像的含義、進(jìn)行標(biāo)注。我們獲得原始圖像約一千五百?gòu)?由于民族布藝圖案本身多被加工在布料和各種裝飾物上,且一張圖片內(nèi),往往雜糅了很多不同種類的數(shù)據(jù),不符合直接作為數(shù)據(jù)集的要求,所以我們將這一千五百?gòu)垐D片進(jìn)行了數(shù)據(jù)清洗、歸一化處理以及圖案內(nèi)容分析,將圖像進(jìn)行了切割、填充等處理,將所有圖案全部轉(zhuǎn)換為256×256大小,并全部轉(zhuǎn)換為RGB圖像,最終得到了包含六類2 785張圖片數(shù)據(jù)集如圖3。這2 785張圖片中,包含來自苗族、侗族、瑤族三個(gè)民族的蠟染、織錦圖案,其中蠟染圖像分為魚類蠟染圖像、鳥類蠟染圖像和蝴蝶蠟染圖像,織錦圖案分為菱形織錦圖像、人形織錦圖像和八角花織錦圖像,其中魚類蠟染796張,鳥類蠟染607張,蝴蝶蠟染547張,菱形織錦477張,人形織錦60張,八角花織錦298張。
圖3 民族圖案數(shù)據(jù)集(部分)
簡(jiǎn)單來說,Vision Transformer模型由Embedding層、Transformer Encoder和MLP Head三個(gè)模塊。
Embedding層輸入的是一個(gè)二維矩陣,即token序列[num_token,token_dim], token0-9都是向量,以VIT_B-16為例,每個(gè)token的向量長(zhǎng)度為768,在輸入Transformer Encoder之前構(gòu)成。需要加上[class]token和Position Embedding,專門用于分類,與之前從圖片中生成的tokens拼接在一起。
而Transformer Encoder則是將如圖4所示的block堆疊多次,這之中包括Layer Norm、Multi-Head Attention、Dropout和MLP。
圖4 Transformer 模組
深度監(jiān)督哈希,即Deep Supervised Hashing,是一種通過學(xué)習(xí)緊湊的二進(jìn)制代碼,以求在大規(guī)模數(shù)據(jù)集上高效進(jìn)行圖像檢索的哈希方法,它以CNN架構(gòu)為基礎(chǔ),將成對(duì)的圖像(相似、不相似)作為訓(xùn)練輸入,并鼓勵(lì)每個(gè)圖像的輸出接近離散值(如±1),通過編碼圖像對(duì)的監(jiān)督信息,并同時(shí)將輸出進(jìn)行正則化處理以近似所需要的離散值,新出現(xiàn)的查詢圖像將被輸出量化為二進(jìn)制碼,可通過網(wǎng)絡(luò)傳播。
VIT網(wǎng)絡(luò)具有優(yōu)良的性能,其體量小,運(yùn)行速度快,而DSH中所運(yùn)用的網(wǎng)絡(luò)為簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò),所以將DSH中的卷積神經(jīng)網(wǎng)絡(luò)替換成VIT網(wǎng)絡(luò),去掉VIT網(wǎng)絡(luò)的頭部,并對(duì)DSH算法進(jìn)行參數(shù)調(diào)整。
整個(gè)模型的流程圖如圖5。
圖5 VTDSH模型流程圖
用VIT網(wǎng)絡(luò)對(duì)圖像的特征進(jìn)行提取,利用DSH算法生成每一張圖像的哈希碼,哈希碼長(zhǎng)度各有不同,分為16、32、64,每一張圖片的哈希碼都是不同的,用此來分辨不同的圖片,計(jì)算每一張圖片哈希碼之間的距離,距離越大說明圖片越不相似,距離約小則越相似。
本方法中采用的損失函數(shù)為改進(jìn)的對(duì)比損失函數(shù),根據(jù)DSH圖像檢索方法的要求,要求相似圖像的編碼盡可能接近,而不同圖像的編碼盡可能遠(yuǎn)。所以,設(shè)一對(duì)圖像I1,I2∈Ω,對(duì)應(yīng)的網(wǎng)絡(luò)輸出為b1,b2∈{+1,-1}k,如果圖像相似,則定義y=0,y=1。將圖像的損失函數(shù)定義如下:
(1)
s.t.bj∈{+1,-1}k,j∈{1,2},α=0.1。
式中,Dh表示兩個(gè)向量之間的漢明距離,m>0為邊界閾值函數(shù),當(dāng)它們的漢明距離低于邊界閾值m時(shí),前項(xiàng)懲罰映射到不同二進(jìn)制碼的相似圖像,后項(xiàng)懲罰映射到相似二進(jìn)制碼的不同圖像。使用對(duì)比損失函數(shù)是為了符合本方法樣本成對(duì)的特點(diǎn),并且這種損失函數(shù)在降維中時(shí),經(jīng)過特征提取后,在特征空間中,兩個(gè)樣本仍然相似,原本不相似的樣本,經(jīng)過特征提取之后,兩個(gè)樣本仍然不相似。
實(shí)驗(yàn)中,本文在自建的民族布藝圖案數(shù)據(jù)集minzudataset上劃分訓(xùn)練集和測(cè)試集,訓(xùn)練集2 400張,測(cè)試集385張,每張圖片重置大小為256×256,cropsize大小設(shè)置為224×224,訓(xùn)練中,網(wǎng)絡(luò)的學(xué)習(xí)速率設(shè)置為0.000 1,迭代訓(xùn)練150個(gè)周期,每30個(gè)周期為一批次,每一個(gè)周期迭代訓(xùn)練2 400次,每一個(gè)batch設(shè)置大小為32,每30次訓(xùn)練計(jì)算一下平均精度,alpha值設(shè)置為0.1,將數(shù)據(jù)集在不同的網(wǎng)絡(luò)模型。
首先使用不同的哈希算法對(duì)圖像進(jìn)行對(duì)比檢索,將VIT的頭部去掉,換成其它的哈希算法,并進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表1。其中16、32、64為散列碼長(zhǎng)度,DSH、CSQ、DPN、GreedyHash、HashNet、IDHN為深度哈希檢索框架。
表1 不同檢索方法下的平均mAP
從表1可以看出DSH在與VIT搭配時(shí)表現(xiàn)效果最好,mAP可以達(dá)到0.953。
將DSH放在不同的網(wǎng)絡(luò)結(jié)構(gòu)下繼續(xù)進(jìn)行檢索實(shí)驗(yàn),結(jié)果展示見表2。其中16、32、64為散列碼長(zhǎng)度。
從表2可以看出,在使用VIT網(wǎng)絡(luò)為特征提取網(wǎng)絡(luò)時(shí)效果最好,且在VIT16和VIT32模型時(shí)效果都為0.953,VTDSH模型的mAP在散列碼位數(shù)為64時(shí)最高,比其他網(wǎng)絡(luò)模型的平均mAP值要高,可以得出該模型有效且針對(duì)于民族布藝圖案數(shù)據(jù)集有良好的圖像檢索性能。
提出了一種新的面向多民族多種圖案的深度學(xué)習(xí)哈希圖像檢索方法,與傳統(tǒng)的深度哈希圖像檢索方法相比,本文所提出的VIT-DSH方法使用VIT網(wǎng)絡(luò)結(jié)構(gòu)作為主干網(wǎng)絡(luò)、DSH深度哈希為檢索框架,通過實(shí)驗(yàn)證明本文的方法更快,針對(duì)于民族布藝圖案數(shù)據(jù)集檢索精度更高。
大連民族大學(xué)學(xué)報(bào)2023年3期