亢潔,劉威
(陜西科技大學(xué) 電氣與控制工程學(xué)院,陜西 西安 710021)
“互聯(lián)網(wǎng)+”背景下,家裝企業(yè)利用互聯(lián)網(wǎng)平臺(tái)搭建客服系統(tǒng),以此樹立企業(yè)形象、營(yíng)銷企業(yè)產(chǎn)品,并為用戶提供與裝修相關(guān)的咨詢和服務(wù)。用戶在使用客服系統(tǒng)的過(guò)程中,經(jīng)常需要檢索不同風(fēng)格的裝修案例,因此裝修案例檢索是客服系統(tǒng)中一項(xiàng)重要的功能。目前,在家裝企業(yè)的客服系統(tǒng)中,關(guān)于裝修案例的檢索主要通過(guò)人工方式來(lái)實(shí)現(xiàn),即客服人員根據(jù)用戶需求為其推送具有相應(yīng)風(fēng)格標(biāo)簽的裝修案例。這種方法不僅增加了人力資源的消耗,而且實(shí)時(shí)性較差,在一定程度上降低了企業(yè)的服務(wù)質(zhì)量。裝修案例檢索歸根結(jié)底是一個(gè)通過(guò)文本信息檢索圖像信息的過(guò)程,隨著信息檢索技術(shù)的高速發(fā)展[1-4],這一任務(wù)可以通過(guò)跨模態(tài)圖文檢索的方法來(lái)完成。這類方法僅利用文本和圖像自身包含的內(nèi)容信息,就能實(shí)現(xiàn)圖像與文本間的相互匹配[5],這使得客服系統(tǒng)能夠根據(jù)用戶輸入的話語(yǔ)自動(dòng)檢索相應(yīng)風(fēng)格的裝修案例并推送給用戶,從而降低企業(yè)的人力成本,實(shí)現(xiàn)信息的實(shí)時(shí)回復(fù)。
目前,構(gòu)建公共子空間已經(jīng)成為跨模態(tài)圖文檢索的主流方法,其核心思想是對(duì)不同模態(tài)數(shù)據(jù)間的關(guān)系進(jìn)行建模,學(xué)習(xí)一個(gè)公共的表示空間,在該空間中可以直接對(duì)來(lái)自不同模態(tài)的樣本進(jìn)行比較[6]。其中,代表性工作有典型相關(guān)分析(canonical correlation analysis,CCA)[7],多視角判別分析(multi-view discriminant analysis,MvDA)[8],聯(lián)合表示學(xué)習(xí)算法(joint representation learning,JRL)[9]等。這些方法是基于傳統(tǒng)統(tǒng)計(jì)分析的方法,其通過(guò)優(yōu)化統(tǒng)計(jì)值來(lái)學(xué)習(xí)公共空間的投影矩陣。近年來(lái),由于深度學(xué)習(xí)在單模態(tài)信息處理中的優(yōu)異表現(xiàn),相關(guān)學(xué)者開始將其應(yīng)用到跨模態(tài)檢索領(lǐng)域,提出了許多基于深度學(xué)習(xí)的跨模態(tài)檢索方法[10-12]。其中代表性的工作包括Wei 等[13]提出了一種深度語(yǔ)義匹配(deep semantic matching,Deep-SM)方法來(lái)解決帶有一個(gè)或多個(gè)標(biāo)簽的跨模態(tài)圖文檢索問(wèn)題。筆者利用在ImageNet 上預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取圖像特征,驗(yàn)證了使用卷積神經(jīng)網(wǎng)絡(luò)提取的圖像特征在跨模態(tài)檢索中容易獲得更好的結(jié)果。Wang 等[14]提出了一種對(duì)抗跨模態(tài)檢索(adversarial cross-model retrieval,ACMR)方法,其以對(duì)抗學(xué)習(xí)的思想來(lái)擬合不同模態(tài)數(shù)據(jù)的分布,同時(shí)對(duì)投影空間施加三元組約束,以最小化不同模態(tài)中語(yǔ)義相同的樣本間的差距,并最大化語(yǔ)義不同的樣本間的距離。Zhen 等[15]提出了一種深度監(jiān)督跨模態(tài)檢索(deep supervised crossmodal retrieval,DSCMR)方法,從3 個(gè)角度考慮并設(shè)計(jì)了損失函數(shù),使得網(wǎng)絡(luò)學(xué)習(xí)到的公共空間具有更強(qiáng)的判別能力,顯著提升了跨模態(tài)檢索的性能。然而,上述方法并不能直接應(yīng)用于家裝客服系統(tǒng)中。因?yàn)樵谶@些方法中,一張圖片就是一類信息,當(dāng)使用文本檢索圖片時(shí),輸出結(jié)果是多張與輸入文本相似的圖片;而本場(chǎng)景中,包含多張圖片的一組裝修案例表示一類信息,當(dāng)用戶輸入文本進(jìn)行檢索時(shí),希望得到的結(jié)果應(yīng)該是多組與輸入文本相似的裝修案例。同時(shí),由于一些風(fēng)格的裝修案例在視覺(jué)上非常接近,如美式和歐式,而另一些裝修案例在視覺(jué)上的差別較大,如現(xiàn)代簡(jiǎn)約和古典,所以裝修案例多模態(tài)數(shù)據(jù)集中的圖像數(shù)據(jù)存在難易樣本不均衡的問(wèn)題。
為解決上述問(wèn)題,本文提出了一種面向裝修案例智能匹配的跨模態(tài)檢索方法,該方法主要有以下3 個(gè)創(chuàng)新點(diǎn):
1)為了緩解人力資源的消耗,實(shí)現(xiàn)客服系統(tǒng)中裝修案例自動(dòng)檢索的功能,本文提出了一種面向家裝領(lǐng)域客服系統(tǒng)的跨模態(tài)圖文檢索模型。
2)結(jié)合應(yīng)用場(chǎng)景,本文提出了一種風(fēng)格聚合模塊,該模塊通過(guò)對(duì)一組裝修案例中所有圖片的風(fēng)格特征進(jìn)行處理,得到可以代表這組裝修案例整體風(fēng)格的一個(gè)特征表示,使得裝修圖片可以按組與文本信息建立聯(lián)系。
3)針對(duì)裝修案例多模態(tài)數(shù)據(jù)集中圖像樣本難易不均衡的問(wèn)題,設(shè)計(jì)了一種雙重?fù)p失函數(shù)來(lái)對(duì)模型進(jìn)行監(jiān)督學(xué)習(xí)。
本文所提出的模型利用深度神經(jīng)網(wǎng)絡(luò)提取文本和圖像的特征,并將兩者投影到一個(gè)公共的表示空間,以此來(lái)建立文本與圖像之間的對(duì)應(yīng)關(guān)系,從而完成通過(guò)指定文本檢索相應(yīng)風(fēng)格的裝修案例這一任務(wù)。本節(jié)首先介紹了模型的整體框架,之后分別對(duì)模型中用到的風(fēng)格聚合模塊和損失函數(shù)進(jìn)行了介紹。
本文所提模型的整體框架如圖1 所示,其包含兩個(gè)子網(wǎng)絡(luò),分別用于處理文本信息和圖像信息。假設(shè)數(shù)據(jù)集中包含n個(gè)文本-圖像對(duì),用表示,其中表示第i個(gè)樣本中的文本信息,與客服系統(tǒng)中用戶輸入的話語(yǔ)對(duì)應(yīng);表示第i個(gè)樣本中的圖像信息,與客服系統(tǒng)中被檢索的裝修案例對(duì)應(yīng)。每個(gè)樣本對(duì)都對(duì)應(yīng)有各自的標(biāo)簽向量,用表示,其中c表示輸入樣本的類別數(shù)。當(dāng)?shù)趇個(gè)樣本屬于第j類時(shí)yji=1,否則yji=0。下面,本文以第i個(gè)輸入樣本為例來(lái)介紹整個(gè)模型的工作流程。
圖1 所提模型的整體框架Fig.1 Framework of the proposed method
首先,模型需要提取輸入樣本中不同模態(tài)信息的特征。針對(duì)文本信息,本文采用在維基百科中文數(shù)據(jù)集上預(yù)先訓(xùn)練的BERT(bidirectional encoder representation from transformers)模型[16]來(lái)提取輸入文本的語(yǔ)義特征,將模型輸出中[CLS]標(biāo)志位對(duì)應(yīng)的一個(gè)768 維的向量作為整個(gè)文本的特征表示,記作圖像信息是包含k張圖片的一組裝修案例,本文希望得到這組圖片的整體風(fēng)格特征。由文獻(xiàn)[17]可知,紋理可以描述一個(gè)圖像的風(fēng)格,而卷積神經(jīng)網(wǎng)絡(luò)淺層的特征圖含有大量的紋理信息,所以圖像經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取出的淺層特征可以作為該圖像風(fēng)格的特征表示。因此,本文采用在ImageNet 上預(yù)先訓(xùn)練的VGG19[18]來(lái)提取輸入圖像的紋理信息,將網(wǎng)絡(luò)block1 層輸出的特征圖作為對(duì)應(yīng)圖像的紋理特征,紋理特征的大小為 64×112×112,則一組裝修案例的紋理特征表示為其中是指一組裝修案例中第k張圖片的紋理特征。之后,使用本文提出的風(fēng)格聚合模塊對(duì)進(jìn)行處理,得到一個(gè)大小為6 4×64的特征圖,最終將其展開成一個(gè)4 096維的向量作為整組裝修案例的風(fēng)格特征表示,記作。
接著,在兩個(gè)子網(wǎng)絡(luò)的后面分別添加兩個(gè)具有激活函數(shù)ReLU 的全連接層,用f1、f2、f3和f4表示。利用損失函數(shù)對(duì)模型進(jìn)行監(jiān)督學(xué)習(xí),通過(guò)這些全連接層將提取到的文本特征和圖像特征投影到一個(gè)公共子空間中,為文本和圖像生成統(tǒng)一的特征表征形式,從而使兩者可以直接進(jìn)行相似性比較。其中,全連接層f1和f3的隱藏單元數(shù)量均為1 024,全連接層f2和f4的隱藏單元數(shù)量均為512,且權(quán)值共享。數(shù)學(xué)上等同于為這兩種模態(tài)信息分別學(xué)(習(xí)一種)映射關(guān)系,表示為:其中vi和wi分別表示第i個(gè)樣本中的文本和圖像信息在公共空間中的特征向量,d是它們特征向量的維數(shù),Φα和 Φβ分別代表對(duì)應(yīng)函數(shù)中的可訓(xùn)練參數(shù)。最后,將參數(shù)矩陣為P的線性分類器分別連接至2 個(gè)子網(wǎng)絡(luò)的末端,利用標(biāo)簽信息來(lái)區(qū)分不同類別的特征。
為了建立文本與對(duì)應(yīng)風(fēng)格的裝修案例之間的聯(lián)系,實(shí)現(xiàn)通過(guò)文本信息檢索裝修案例的任務(wù),本文提出了一種風(fēng)格聚合模塊,如圖2 所示。該模塊通過(guò)對(duì)一組裝修案例中所有圖片的紋理特征進(jìn)行處理,最終獲得該組圖片統(tǒng)一的風(fēng)格特征表示,從而便于后續(xù)網(wǎng)絡(luò)學(xué)習(xí)裝修案例與對(duì)應(yīng)文本之間的語(yǔ)義關(guān)系。
圖2 風(fēng)格聚合模塊Fig.2 The module of style aggregation
風(fēng)格聚合模塊具體的工作內(nèi)容如下:
1)生成格拉姆(Gram)矩陣:由文獻(xiàn)[17]可知,圖像經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取到的淺層特征含有更多的紋理特征,這些特征可以用來(lái)描述一個(gè)圖像的風(fēng)格。之后,通過(guò)計(jì)算這些特征的Gram 矩陣,可以度量各個(gè)特征之間的相關(guān)性,從而得知哪些特征是同時(shí)出現(xiàn)的,哪些特征是此消彼長(zhǎng)的等。同時(shí),Gram 矩陣的對(duì)角線元素還反映了每個(gè)特征在圖像中的重要程度,所以Gram 矩陣可以被用于表征圖像的風(fēng)格。本模塊的輸入是k張圖片經(jīng)過(guò)VGG19 第一個(gè)block 層輸出的所有特征圖其中每張圖片對(duì)應(yīng)特征圖的大小為 64×112×112。之后,計(jì)算每張圖片對(duì)應(yīng)特征圖的Gram 矩陣,得到k張圖片的風(fēng)格特征,大小為 64×64。Gram 矩陣計(jì)算為
式中:C、H、W分別表示輸入特征圖的通道數(shù)、高和寬;Fim表示輸入特征圖第i個(gè)通道的第m個(gè)元素;Fjm表示輸入特征圖第j個(gè)通道的第m個(gè)元素;Gij表示Gram 矩陣中第i行第j列的元素。
2)風(fēng)格聚合:經(jīng)過(guò)第一步運(yùn)算后,最終得到一組裝修案例中k張圖片的風(fēng)格特征,大小為6 4×64。接著,將全部的風(fēng)格特征拼接成一組k×64×64的特征圖,并使用大小為k×3×3的卷積核對(duì)其進(jìn)行處理,學(xué)習(xí)這一組特征圖整體的風(fēng)格特征,獲得了一個(gè)大小為 64×64的特征圖,其聚合了一組裝修案例中所有圖片的風(fēng)格信息。最后,為了方便后續(xù)網(wǎng)絡(luò)的使用,將得到的特征圖展開成一個(gè)4096維的向量作為一組裝修案例的風(fēng)格特征。
本文提出的圖文檢索模型為來(lái)自不同模態(tài)的特征學(xué)習(xí)一個(gè)公共的向量空間,使得語(yǔ)義類別相同的樣本在這個(gè)空間是相似的,語(yǔ)義類別不同的樣本是不相似的。為此,本文設(shè)計(jì)了一種雙重?fù)p失函數(shù)L,它由分類損失L1和 檢索損失L2組成。本文通過(guò)最小化L來(lái)訓(xùn)練網(wǎng)絡(luò)參數(shù),下面對(duì)上述損失函數(shù)進(jìn)行詳細(xì)介紹。
首先,考慮單模態(tài)內(nèi)的分類損失L1。對(duì)于數(shù)據(jù)集中的圖像樣本,因?yàn)橐恍╋L(fēng)格的裝修案例在視覺(jué)感官上非常相似,如美式和歐式,屬于不好區(qū)分的困難樣本;而另一些裝修案例在視覺(jué)感官上的差別較大,如現(xiàn)代簡(jiǎn)約和古典,屬于容易區(qū)分的簡(jiǎn)單樣本,所以數(shù)據(jù)集中存在圖像樣本難易不均衡的問(wèn)題。為此,受文獻(xiàn)[19]的啟發(fā),利用損失函數(shù)lf來(lái)優(yōu)化圖像樣本的分類,即
之后,考慮跨模態(tài)間的檢索損失L2。通過(guò)約束公共空間中文本特征和圖像特征的相似程度,來(lái)消除跨模態(tài)差異,優(yōu)化網(wǎng)絡(luò)模型。損失函數(shù)為
式中:n為輸入樣本的個(gè)數(shù);是一種指示函數(shù),當(dāng)函數(shù)中的兩個(gè)元素屬于同一類別時(shí),其值為1,反之為表示矩陣的F范數(shù);V=[v1v2···vn]表示所有文本樣本在公共空間中的特征矩陣;W=[w1w2···wn]表示所有圖像樣本在公共空間中的特征矩陣。公式(2)中的第1 項(xiàng)是根據(jù)似然函數(shù)重新定義的跨模態(tài)負(fù)對(duì)數(shù)似然函數(shù),用于度量不同模態(tài)數(shù)據(jù)間的相似性,似然函數(shù)定義為
綜合式(1)和式(2),可以得到本模型最終的損失函數(shù):
式中 λ是超參數(shù),負(fù)責(zé)控制兩類損失的貢獻(xiàn)程度。
為了貼合真實(shí)的應(yīng)用場(chǎng)景,本文從某互聯(lián)網(wǎng)家裝企業(yè)獲取到部分用戶的查詢語(yǔ)料和相應(yīng)的裝修案例,通過(guò)對(duì)數(shù)據(jù)進(jìn)行整理,最終構(gòu)建了一個(gè)關(guān)于裝修案例的多模態(tài)數(shù)據(jù)集。本文創(chuàng)建的數(shù)據(jù)集共包含7200 個(gè)文本-圖像對(duì),并根據(jù)裝修風(fēng)格設(shè)置了8 個(gè)類別標(biāo)簽,分別為中式、歐式、美式、日式、地中海、現(xiàn)代簡(jiǎn)約、古典和田園,每個(gè)樣本對(duì)共用一個(gè)類別標(biāo)簽。在一個(gè)樣本對(duì)中,文本信息是一個(gè)與樣本標(biāo)簽語(yǔ)義相同的句子,句子的平均長(zhǎng)度為10.43 個(gè)字;圖像信息是與樣本標(biāo)簽類別相同的一組裝修案例,不同裝修案例中包含9~13 張數(shù)量不等的圖片。在實(shí)驗(yàn)時(shí),本文按照90%和10%的比例將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集和測(cè)試集。
本文通過(guò)計(jì)算文本特征和圖像特征之間的余弦值來(lái)度量?jī)烧叩南嗨菩?,并采用了在圖文檢索中廣泛使用的2 種評(píng)估標(biāo)準(zhǔn):召回率(Recall@N)和平均精度均值(mean average precision,mAP)對(duì)檢索算法的性能進(jìn)行評(píng)價(jià)。Recall@N表示輸入文本信息后得到的跨模態(tài)檢索結(jié)果中,前N個(gè)圖像中出現(xiàn)與文本信息類別相同的概率。mAP 與召回率不同,其綜合考慮了所有的檢索結(jié)果,對(duì)每個(gè)測(cè)試樣本的平均精度進(jìn)行了再平均,反映了檢索模型的整體性能。上述2 種評(píng)估指標(biāo)的值越大,則表示模型的檢索能力越強(qiáng)。
根據(jù)本文應(yīng)用場(chǎng)景的實(shí)際需求,本文只考慮以文本檢索圖像任務(wù)中模型的性能。本文實(shí)驗(yàn)均在Python 3.6.12 上進(jìn)行,硬件平臺(tái)為Intel Coreli7-8700CPU,內(nèi)存為16 GB,GPU 為11 GB 的NVIDIA GeForce GTX 2080Ti。模型使用Adam 優(yōu)化器進(jìn)行訓(xùn)練,學(xué)習(xí)率為1 0?4,平滑常數(shù) β1和 β2分別為0.5和0.999,batch size 為100,epoch 為500。本文提出的損失函數(shù)中的超參數(shù) γ 為2,λ為0.2。
2.3.1 與現(xiàn)有模型的對(duì)比實(shí)驗(yàn)
為了驗(yàn)證本文所提模型的有效性,在本文自建的裝修案例多模態(tài)數(shù)據(jù)集上,將本文提出的模型與多種常見的圖文檢索模型進(jìn)行比較,包括CCA[7],MvDA[8],JRL[9],CCL[10],ACMR[14]和DSCMR[15]。其中,CCA,MvDA 和JRL 是基于傳統(tǒng)統(tǒng)計(jì)分析的方法,其余3 種是基于深度學(xué)習(xí)的方法。為了公平,文本和圖像樣本均采用BERT 和VGG19 預(yù)訓(xùn)練模型來(lái)提取特征。表1 所示為不同模型在裝修案例多模態(tài)數(shù)據(jù)集上的召回率和平均精度均值,由實(shí)驗(yàn)結(jié)果可知,本文方法相較于次優(yōu)方法,在Recall@5,Recall@10,Recall@15 和mAP 上分別有了4.1%,2%,3.4%和4.4%的提升,證明了本文方法在裝修案例多模態(tài)數(shù)據(jù)集上的檢索性能全面優(yōu)于其它方法。同時(shí)可以看出,采用深度學(xué)習(xí)方法學(xué)習(xí)到的公共表示空間較于傳統(tǒng)統(tǒng)計(jì)分析的方法具有更好的辨識(shí)能力,可以為跨模態(tài)數(shù)據(jù)建立更強(qiáng)的語(yǔ)義聯(lián)系,實(shí)現(xiàn)更好的檢索性能。
表1 不同模型的對(duì)比實(shí)驗(yàn)Table 1 Comparison of results using different methods
2.3.2 不同風(fēng)格特征對(duì)模型性能的影響
本文利用在ImageNet 上預(yù)先訓(xùn)練的VGG19來(lái)提取輸入圖像的紋理信息。為了研究由VGG19不同卷積層的輸出特征生成的風(fēng)格特征對(duì)本文所提模型性能的影響,本文通過(guò)提取以下5 個(gè)不同層的圖像特征來(lái)獲得裝修案例的風(fēng)格特征表示,這5 個(gè)層分別是:block1、block2、block3、block4和block5。為了保證這些特征可以在統(tǒng)一的網(wǎng)絡(luò)中參與計(jì)算,使用卷積操作對(duì)block2、block3、block4 和block5 輸出的特征進(jìn)行降維,使得輸出特征的通道數(shù)都變?yōu)?4,從而獲得大小相同的風(fēng)格特征。表2 所示為本文模型在使用不同風(fēng)格特征時(shí),其在數(shù)據(jù)集上的召回率和平均精度均值。可以看出,當(dāng)模型使用block1 層的特征生成風(fēng)格特征時(shí),Recall@5,Recall@10,Recall@15 和mAP的值是最高的,此時(shí)模型的檢索性能也是最好的。而隨著模型使用的卷積層越深,模型的檢索性能也隨之下降。這是因?yàn)榫矸e網(wǎng)絡(luò)的淺層特征包含更多的紋理信息,深層特征則包含更多的內(nèi)容信息。而在不同風(fēng)格的裝修案例中,圖片的內(nèi)容信息包含很多重疊的內(nèi)容,如客廳、臥室、廚房和衛(wèi)生間等,因此包含更多內(nèi)容信息的深層特征不利于裝修案例的跨模態(tài)檢索。
表2 不同風(fēng)格特征的對(duì)比實(shí)驗(yàn)Table 2 Comparison of results using different style features
2.3.3 不同損失函數(shù)對(duì)模型性能的影響
1)損失函數(shù)中的超參數(shù)分析
本文提出的損失函數(shù)L包含兩部分,分別是單模態(tài)內(nèi)的分類損失L1和跨模態(tài)間的檢索損失L2,并通過(guò)超參數(shù) λ來(lái)調(diào)節(jié)兩類損失的貢獻(xiàn)程度。圖3 表示本文所提模型使用含有不同 λ值的損失函數(shù)L訓(xùn)練后,其在數(shù)據(jù)集上的mAP 值??梢钥闯?,當(dāng) λ為0 時(shí),損失函數(shù)只包含分類損失L1,沒(méi)有考慮跨模態(tài)樣本間的檢索損失;當(dāng) λ為0.2 時(shí),使用損失函數(shù)L訓(xùn)練的模型在數(shù)據(jù)集上的mAP 值最高,此時(shí)模型的檢索性能最好。之后,隨著 λ值的增大,模型在數(shù)據(jù)集上的mAP 值呈下降趨勢(shì),模型的檢索性能變差。
圖3 參數(shù) λ的對(duì)比實(shí)驗(yàn)Fig.3 Comparison of results using different λ
2)不同損失函數(shù)的對(duì)比實(shí)驗(yàn)
單模態(tài)內(nèi)的分類損失L1由文本分類損失和圖像分類損失組成。為了解決數(shù)據(jù)集中圖像樣本難易不均衡的問(wèn)題,本文利用損失函數(shù)lf來(lái)優(yōu)化圖像樣本的分類,同時(shí)使用標(biāo)簽平滑的交叉熵?fù)p失le來(lái)學(xué)習(xí)文本分類。為了研究不同損失函數(shù)對(duì)本文所提模型性能的影響,本文對(duì)以下4 種形式的損失函數(shù)進(jìn)行了評(píng)估,分別是:L1(le+le)(僅使用le學(xué)習(xí)文本和圖像分類)、L1(le+lf)(使用le學(xué)習(xí)文本分類,并使用lf學(xué)習(xí)圖像分類)、L2(僅使用跨模態(tài)檢索損失)和L1(le+lf)+λL2(使用本文提出的損失函數(shù),其中 λ設(shè)為0.2)。表3 所示為使用不同損失函數(shù)訓(xùn)練本文模型后,模型在困難樣本(如歐式和美式,中式和古典)上的mAP和所有樣本上的mAP。可以發(fā)現(xiàn),使用分類損失L1(le+lf)訓(xùn)練的模型,其在困難樣本上的mAP高于使用L1(le+le)訓(xùn)練的模型,這說(shuō)明分類損失L1(le+lf)緩解了數(shù)據(jù)集中圖像樣本難易不均衡的問(wèn)題,提高了模型整體的檢索性能。同時(shí),通過(guò)比較L1(le+lf)、L2和L1(le+lf)+λL2可知,單獨(dú)一種損失函數(shù)訓(xùn)練的模型在數(shù)據(jù)集上的mAP都低于共同訓(xùn)練的模型,證明只有同時(shí)考慮單模態(tài)內(nèi)的分類損失L1(le+lf)和跨模態(tài)間的檢索損失L2,使用L1(le+lf)+λL2損失函數(shù)訓(xùn)練的模型才具有更好的跨模態(tài)檢索性能。
表3 不同損失函數(shù)的對(duì)比實(shí)驗(yàn)Table 3 Comparison of results using different loss function
本文針對(duì)家裝客服系統(tǒng)中裝修案例的檢索問(wèn)題,提出了一種基于深度學(xué)習(xí)的裝修案例跨模態(tài)檢索方法。該方法設(shè)計(jì)了一種風(fēng)格聚合模塊,該模塊通過(guò)對(duì)一組裝修案例中所有圖片的紋理特征進(jìn)行處理,得到該組裝修案例統(tǒng)一的風(fēng)格特征表示,方便網(wǎng)絡(luò)建立查詢語(yǔ)句與裝修案例之間的聯(lián)系。同時(shí),本文提出了一種改進(jìn)的損失函數(shù),用于學(xué)習(xí)多模態(tài)數(shù)據(jù)在公共空間中的特征表示,并提升了數(shù)據(jù)集中圖像難樣本的分類效果。實(shí)驗(yàn)結(jié)果表明,本文所提方法在自建的數(shù)據(jù)集上有較好的檢索效果,可以將其應(yīng)用在家裝客服系統(tǒng)中,以實(shí)現(xiàn)裝修案例自動(dòng)檢索的功能。
在未來(lái)的工作中,將會(huì)構(gòu)建類型更加多樣、內(nèi)容更加具體的數(shù)據(jù)集,研究針對(duì)某一特定裝修案例的跨模態(tài)檢索模型,進(jìn)一步完善家裝客服系統(tǒng)中裝修案例檢索這一功能。