張紅斌姬東鴻尹 蘭,3任亞峰牛正雨
1(武漢大學(xué)計(jì)算機(jī)學(xué)院 武漢 430072)2(華東交通大學(xué)軟件學(xué)院 南昌 330013)3(貴州師范大學(xué)大數(shù)據(jù)與計(jì)算機(jī)科學(xué)學(xué)院 貴陽 550001)4(百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 北京 100085)(zhanghongbin@whu.edu.cn)
?
基于關(guān)鍵詞精化和句法樹的商品圖像句子標(biāo)注
張紅斌1,2姬東鴻1尹 蘭1,3任亞峰1牛正雨4
1(武漢大學(xué)計(jì)算機(jī)學(xué)院 武漢 430072)2(華東交通大學(xué)軟件學(xué)院 南昌 330013)3(貴州師范大學(xué)大數(shù)據(jù)與計(jì)算機(jī)科學(xué)學(xué)院 貴陽 550001)4(百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 北京 100085)(zhanghongbin@whu.edu.cn)
商品圖像句子標(biāo)注是圖像標(biāo)注中一項(xiàng)既有趣又富有挑戰(zhàn)的研究任務(wù).噪聲單詞干擾和句法結(jié)構(gòu)錯(cuò)誤是該項(xiàng)研究的制約因素,針對(duì)噪聲單詞干擾,提出關(guān)鍵詞精化思想:用絕對(duì)排序特征強(qiáng)化關(guān)鍵詞權(quán)重,完成第1次關(guān)鍵詞精化;計(jì)算單詞的語義相關(guān)度評(píng)分,進(jìn)一步優(yōu)選能準(zhǔn)確刻畫圖像內(nèi)容的單詞,完成第2次關(guān)鍵詞精化.設(shè)計(jì)詞序列"拼積木"算法,把關(guān)鍵詞拼裝成N元詞序列.針對(duì)句法結(jié)構(gòu)錯(cuò)誤,提出句法樹思想:基于N元詞序列和句法子樹遞歸地構(gòu)建一棵完整的句法樹,遍歷該樹葉子結(jié)點(diǎn)輸出句子,標(biāo)注商品圖像.實(shí)驗(yàn)結(jié)果表明:關(guān)鍵詞精化和句法樹均有助于改善標(biāo)注性能,句中的語義信息兼容性和句法模式兼容性得以保持,句子內(nèi)容更連貫、流暢.
圖像標(biāo)注;商品圖像;句子標(biāo)注;關(guān)鍵詞精化;句法樹;詞序列“拼積木”;N元詞序列;自然語言生成
Web網(wǎng)站包含大量文本、圖像和視頻等媒體數(shù)據(jù),它們雖屬不同模態(tài)、彼此異構(gòu),但在信息傳遞過程中卻能相輔相成、互為補(bǔ)充,從不同的角度向人們闡述準(zhǔn)確、豐富的語義信息.例如電子商務(wù)網(wǎng)站(www.like.com)上的在線商品既包含圖像展示(如圖1所示),又包含對(duì)應(yīng)的文本描述(如表1所示).圖像能直觀地表達(dá)商品的顏色、材質(zhì)、形狀等視覺特性,圖1中商品的顏色包括紫色、紅色、黃色、褐色等,商品的材質(zhì)包括皮質(zhì)、PU、綢緞、嵌珠等,商品的形狀包括矩形、梯形、圓形等.基于這些視覺特性,人們獲取了關(guān)于在線商品更多感性的認(rèn)知.
表1是圖1商品的對(duì)應(yīng)文本描述(標(biāo)題).相比圖像,文本描述更具體、詳實(shí),它既描繪商品的顏色、材質(zhì)、形狀等視覺特性,又刻畫商品的類別、品名、用途等非視覺特性.基于文本描述,人們獲取了關(guān)于在線商品更多理性的認(rèn)知.可見,圖像和文本相輔相成、互為補(bǔ)充,使人們能更全面、客觀地了解在線商品,從而做出合理的購買決策.要圖文并茂地展示在線商品,準(zhǔn)確、完整的圖像標(biāo)注工作必不可少,且應(yīng)采用蘊(yùn)含組合語義信息的句子來標(biāo)注商品圖像.相比單詞,句子能更準(zhǔn)確且無歧義地刻畫商品圖像內(nèi)容.此外,在實(shí)際應(yīng)用中,大量數(shù)據(jù)都是未標(biāo)注或弱標(biāo)注的[1],若選擇人工標(biāo)注代價(jià)極大.因此,有必要設(shè)計(jì)自動(dòng)標(biāo)注模型,準(zhǔn)確、高效地實(shí)現(xiàn)商品圖像句子標(biāo)注,以在異構(gòu)的圖像和文本之間建立有效的跨媒體關(guān)聯(lián),進(jìn)而改善圖像識(shí)別、圖像檢索的準(zhǔn)確率,并向人們提供全新的跨媒體檢索服務(wù),全面提升電子商務(wù)網(wǎng)站的人機(jī)交互能力.
Fig. 1 Presentation of a group of online product images.圖1 一組在線商品圖像展示
NameTextDescriptionsProduct1Withenougheye-catchingdetailstogetyounoticed.ThisglamoroussatinclutchbyFelixReyistheperfectbagforeveningsoutonthetown!Product2Earthfriendlyhempandbamboobag.Product3Havealookatthiscasualsmallclutchbag.ItismadewiththefinestqualityleatherasyouwouldcometoexpectfromallMulhollandproducts.Availablecolors:skyblueendurance,redendurance,mustardendurance.Product4Fullybeadvintagebag.Product5Vanessasequinsbeadedeveningbagpink-eveningbags.
Notes: The underlined bold texts mean the visual characteristics of the product, other bold texts mean the non-visual characteristics of the product.
圖像句子標(biāo)注是融合機(jī)器視覺(computer vision, CV)和自然語言生成(natural language generation, NLG)的交叉研究.相關(guān)研究成果如基于語義的圖像檢索、盲人視覺感知輔助系統(tǒng)、無人駕駛汽車等將為人們的工作和生活帶來便利,并創(chuàng)造巨大的經(jīng)濟(jì)和社會(huì)效益.該研究源于Yao等人[2]的工作,他基于本體把圖像分割結(jié)果映射為單詞,結(jié)合單詞和3-gram語言模型生成句子標(biāo)注圖像.該方法需借助人機(jī)交互完成圖像分割,且本體定義的完備性也會(huì)影響標(biāo)注性能.目前,圖像句子標(biāo)注主要有3種方法:檢索法[3-5]、生成法[6-9]和摘取法[10-16].Farhadi等人[3]、Hodosh等人[4]、Li等人[5]基于圖像和文本之間的語義相關(guān)性為圖像檢索最匹配的句子.然而,刻畫圖像內(nèi)容的語義信息通??缭蕉鄠€(gè)句子,故檢索結(jié)果無法全面地描繪圖像內(nèi)容.Yang等人[6]、Kulkarni等人[7]、Li等人[8]基于目標(biāo)識(shí)別系統(tǒng)識(shí)別圖像中的目標(biāo)和場(chǎng)景,并推理目標(biāo)之間的交互關(guān)系,采用隱馬爾可夫模型(hidden Markov model, HMM)[6]或條件隨機(jī)場(chǎng)(conditional random field, CRF)[7]或模板[8]生成句子. Kiros等人[9]為商品圖像生成標(biāo)注句子.顯然,目標(biāo)識(shí)別系統(tǒng)準(zhǔn)確率有限,會(huì)影響標(biāo)注性能.Feng等人[10]、Gupta等人[11]、Ushiku等人[12]摘取刻畫圖像內(nèi)容的關(guān)鍵詞或短語,采用語言模型[11]或Beam Search算法[10,12]生成句子,然而噪聲單詞會(huì)干擾句子生成.近年,電子商務(wù)快速發(fā)展,商品圖像句子標(biāo)注吸引了更多研究者的關(guān)注.Berg等人[13]基于多示例學(xué)習(xí)(multiple instance learning, MIL)模型摘取描述商品圖像關(guān)鍵視覺特性的文本片段.Kiapour等人[14]用文本片段標(biāo)注服裝蘊(yùn)含的時(shí)尚元素.文本片段[13-14]無法全面、準(zhǔn)確地刻畫圖像內(nèi)容.Mason[15],Zhang等人[16]分別基于Gist[17]和MKF特征(Gist[17],SIFT-EMK[18]等特征的后融合)檢索視覺相似的訓(xùn)練圖像,摘取圖像標(biāo)題中的關(guān)鍵文本標(biāo)注商品.但僅用Gist,MKF等特征刻畫商品圖像是不充分的.Kiros等人[9]基于卷積神經(jīng)網(wǎng)完成圖像特征學(xué)習(xí),設(shè)計(jì)基于模態(tài)偏好的對(duì)數(shù)函數(shù)雙線性語言(modality-biased log-bilinear language, MLBL)模型分析圖像與文本之間的跨模態(tài)相關(guān)性,根據(jù)該相關(guān)性生成句子.卷積神經(jīng)網(wǎng)較復(fù)雜,MLBL模型調(diào)制參數(shù)時(shí)易陷入過擬合.此外,現(xiàn)有工作未深入考慮句子的句法結(jié)構(gòu),句中句法錯(cuò)誤較多,影響了句子的連貫性.綜上分析,本文聚焦商品圖像句子標(biāo)注的2個(gè)核心問題:1)關(guān)鍵詞摘取.設(shè)計(jì)關(guān)鍵詞精化(tag refinement, TR)方案,盡量降低噪聲單詞對(duì)標(biāo)注的不利影響.2)句子生成.采用句法樹(syntactic tree, ST)生成句子,以保持句中的語義信息兼容性和句法模式兼容性,增強(qiáng)句子的連貫性.
標(biāo)注模型包括4個(gè)部分:
1) 抽取商品圖像梯度、形狀、顏色核描述子(kernel descriptors, KDES)[19]特征,在多核學(xué)習(xí)(multiple kernel learning, MKL)模型[20]內(nèi)融合它們,生成判別能力更強(qiáng)、解釋能力更好的新特征,基于新特征完成圖像分類,獲取商品類別標(biāo)簽;
2) 提取單詞的絕對(duì)排序(absolute rank, AR)[21]特征,強(qiáng)化關(guān)鍵詞權(quán)重.基于AR權(quán)重設(shè)計(jì)關(guān)鍵詞摘取模型,初選關(guān)鍵詞,完成第1次關(guān)鍵詞精化;
3) 設(shè)計(jì)融合關(guān)鍵詞精化的詞序列“拼積木”(word sequence blocks building, WSBB)算法,根據(jù)單詞的語義相關(guān)度評(píng)分進(jìn)一步優(yōu)選關(guān)鍵詞,完成第2次關(guān)鍵詞精化,把關(guān)鍵詞拼裝成N元詞序列;
4) 基于N元詞序列和句法子樹遞歸地構(gòu)建一棵完整的句法樹,遍歷該樹葉子結(jié)點(diǎn)生成句子,標(biāo)注商品圖像.
2.1 圖像特征學(xué)習(xí)
圖像特征學(xué)習(xí)思路:
1) 優(yōu)選理論基礎(chǔ)完備、運(yùn)行效率良好的特征學(xué)習(xí)模型;
2) 新特征應(yīng)具備較強(qiáng)的判別能力;
3) 新特征能較全面地解釋商品圖像內(nèi)容.
因此,選取基于匹配核理論的KDES模型[19],從梯度、形狀、顏色3個(gè)角度抽取圖像KDES特征,并采用高效匹配核(efficient match kernels, EMK)模型[18]把各KDES特征都映射到低維空間得到匹配核特征,更緊湊、高效地刻畫商品圖像內(nèi)容.在MKL模型[20]內(nèi)融合匹配核特征,生成判別能力更強(qiáng)、解釋能力更好的新特征MK-KDES.
(1)
(2)
(3)
基于像素的局部二值模式(local binary pattern, LBP)值構(gòu)造形狀匹配核,生成Shape-KDES.基于像素顏色值構(gòu)造顏色匹配核,生成Color-KDES.Shape-KDES和Color-KDES也都從多個(gè)角度度量圖像塊之間的相似度.最后,在MKL模型[20]內(nèi)融合核特征:Grad-KDES,Shape-KDES,Color-KDES,生成新特征MK-KDES.基于新特征完成商品圖像分類,獲取商品類別標(biāo)簽.
2.2 關(guān)鍵詞摘取
基于新特征MK-KDES檢索視覺相似的訓(xùn)練圖像,在訓(xùn)練圖像所構(gòu)成的標(biāo)題集合W′中摘取K個(gè)關(guān)鍵詞{wrd1,wrd2,…,wrdK},為生成N元詞序列奠定重要基礎(chǔ).關(guān)鍵詞摘取的依據(jù)是它與商品圖像內(nèi)容的語義相關(guān)度,設(shè)計(jì)關(guān)鍵詞摘取模型如下:
(4)
其中,P(Ii|Iq)基于函數(shù)SIM(Ii|Iq)計(jì)算訓(xùn)練圖像Ii與測(cè)試圖像Iq的視覺相似度,其定義如式(5)所示,它表明應(yīng)從視覺相似度最高的訓(xùn)練圖像的標(biāo)題中摘取關(guān)鍵詞.
(5)
P(wrdj|Ii)基于函數(shù)WORD_FEAT提取單詞特征,并計(jì)算單詞wrdj與訓(xùn)練圖像Ii的語義相關(guān)度,其定義如式(6)所示,它表明應(yīng)摘取訓(xùn)練圖像標(biāo)題中的代表性單詞.
(6)
關(guān)鍵詞精化指抑制噪聲單詞干擾,摘取能較準(zhǔn)確刻畫商品圖像內(nèi)容的單詞.商品圖像句子標(biāo)注需綜合考慮句子的語義相關(guān)性和句法結(jié)構(gòu)準(zhǔn)確性,故關(guān)鍵詞精化應(yīng)兼顧這2類指標(biāo),以改善標(biāo)注性能,而函數(shù)WORD_FEAT是實(shí)現(xiàn)該目標(biāo)的關(guān)鍵:圖像標(biāo)題中包含若干商品特性描述,如形狀、紋理、顏色、品名、結(jié)構(gòu)等,函數(shù)WORD_FEAT將優(yōu)選單詞特征以強(qiáng)化代表性單詞權(quán)重,從而抑制噪聲單詞干擾,準(zhǔn)確摘取出關(guān)鍵詞.常用單詞特征包括TF,TF-IDF,TF-IDF(SQRT),LDA(latent Dirichlet allocation),LSA(latent semantic analysis)等.TF,TF-IDF,TF-IDF(SQRT)等基于統(tǒng)計(jì)特性計(jì)算單詞權(quán)重,LDA,LSA等基于中間語義空間(或主題層)中信息的分布計(jì)算單詞權(quán)重.這些特征主要刻畫單詞蘊(yùn)含的語義信息,而忽略對(duì)單詞之間詞序先后關(guān)系的挖掘.相反,Tag-rank模型[21]擬合單詞在圖像標(biāo)題中出現(xiàn)位置的統(tǒng)計(jì)分布,計(jì)算出絕對(duì)排序AR特征,AR特征既較好地保持單詞與圖像內(nèi)容的語義相關(guān)性,又隱含單詞之間的詞序先后關(guān)系約束(保證句法結(jié)構(gòu)準(zhǔn)確).故AR特征能強(qiáng)化關(guān)鍵詞權(quán)重,提高代表性單詞摘取的準(zhǔn)確率.AR特征定義如下:
(7)
若單詞wrdj在標(biāo)題sent中出現(xiàn)多次,posj計(jì)算單詞所有出現(xiàn)位置的平均值,此時(shí),單詞wrdj的ARj值是其出現(xiàn)位置posj的倒數(shù);相反,若wrdj未出現(xiàn)在標(biāo)題sent中,則ARj=0.式(7)表明:如果單詞在商品圖像標(biāo)題中出現(xiàn)得越早,則應(yīng)給它分配1個(gè)更大的權(quán)重.
2.3 基于WSBB算法構(gòu)造N元詞序列
2.3.1 構(gòu)建單詞-上下文矩陣
單詞-上下文(term-context, TC)矩陣包括單詞-上下文共現(xiàn)矩陣和單詞-上下文位置矩陣.單詞-上下文共現(xiàn)矩陣度量單詞之間語義相關(guān)性,確保N元詞序列的語義信息兼容性;單詞-上下文位置矩陣度量單詞之間詞序先后關(guān)系,確保N元詞序列的句法模式兼容性.基于正逐點(diǎn)互信息(positive pointwise mutual information, PPMI)度量詞典D中單詞wrdu和上下文C中單詞wrdv之間的語義相關(guān)性,u=1,2,…,|D|,v=1,2,…,|C|.PPMI定義如下:
PMIuv=PMI(wrdu,wrdv)=
(8)
(9)
其中,Puv計(jì)算單詞wrdu和wrdv之間的共現(xiàn)概率,它基于單詞之間的共現(xiàn)頻率;Pu·計(jì)算詞典單詞wrdu的出現(xiàn)概率,它通過累加wrdu與上下文中各單詞的共現(xiàn)頻率獲取;P·v計(jì)算上下文單詞wrdv的出現(xiàn)概率,它通過累加wrdv與詞典中各單詞的共現(xiàn)頻率獲取.設(shè)計(jì)正距離信息(positive distance information,PDI)度量單詞wrdu和wrdv之間的詞序先后關(guān)系.N元詞序列是自左向右順序構(gòu)造,故PDIuv表示單詞wrdv右鄰接于單詞wrdu.fuv計(jì)算單詞之間的共現(xiàn)頻率,函數(shù)DIST(wrdu,wrdv)num度量單詞之間第num次共現(xiàn)時(shí)的物理距離.PDI定義如下:
DIuv=DI(wrdu,wrdv)=
(10)
(11)
2.3.2 設(shè)計(jì)WSBB算法
在商品圖像標(biāo)題中,基于語義信息兼容性和句法模式兼容性,N個(gè)關(guān)鍵詞被有序地拼裝成N元詞序列,以描述商品特性.借鑒“拼積木”游戲原理,設(shè)計(jì)WSBB算法:根據(jù)語義重疊(語義相關(guān)或內(nèi)容重疊)將關(guān)鍵詞(積木)遞歸地拼裝成N元詞序列(建筑物).WSBB偽代碼如算法1所示,其中Relevance_scores是式(4)計(jì)算出的單詞的語義相關(guān)度評(píng)分;TC_PPMI_Matrix和TC_PDI_Matrix分別是基于PPMI的單詞-上下文共現(xiàn)矩陣和基于PDI的單詞-上下文位置矩陣,如TC_PPMI_Matrix(wrdu,wrdv)表示2個(gè)單詞之間的PPMI值;Unigram_seqs,Bigram_seqs,Trigram_seqs分別是單詞集合(經(jīng)過第1次關(guān)鍵詞精化)、2元詞序列集合和3元詞序列集合;Bigram_ppmi和Trigram_ppmi分別記錄2元詞序列、3元詞序列的累積PPMI值.
算法1. 融合關(guān)鍵詞精化的WSBB算法.
輸入:TC_PPMI_Matrix,TC_PDI_Matrix,Relevance_scores,α,β,γ,M,Unigram_seqs,Bigram_seqs=NULL,Trigram_seqs=NULL,Bigram_ppmi=NULL,Trigram_ppmi=NULL;
輸出:TopM的N元詞序列.
Loop Until生成全部2元詞序列 /*以迭代方式生成全部2元詞序列*/
① 從Unigram_seqs中獲取關(guān)鍵詞wrdu和wrdv;
② IfRelevance_scores{wrdu}≤γorRelevance_scores{wrdv}≤γ/*執(zhí)行第2次關(guān)鍵詞精化*/
③ Continue; /*過濾相應(yīng)噪聲單詞*/
④ End If
⑤ IfTC_PDI_Matrix(wrdu,wrdv)≤βandTC_PPMI_Matrix(wrdu,wrdv)≥α
/*既滿足語義信息兼容性,又滿足句法模式兼容性*/
⑥Bigram_seqs{end+1}←STRCAT(wrdu,wrdv); /*生成新的2元詞序列*/
⑦Bigram_ppmi{end+1}←TC_PPMI_Matrix(wrdu,wrdv); /*計(jì)算2元詞序列的累積PPMI值*/
⑧ End If
End Loop
Loop Until生成全部3元詞序列 /*以迭代方式生成全部3元詞序列*/
⑨ 從Bigram_seqs中選取2個(gè)2元詞序列seqm,seqn; /*選取生成3元詞序列的2個(gè)候選2元詞序列*/
⑩ IfOVERLAP(seqm,seqn) /*根據(jù)語義重疊拼裝2個(gè)2元詞序列*/
(STRCAT(wrd1,wrd2),wrd3);
/*生成新的3元詞序列*/
/*計(jì)算3元詞序列的累積PPMI值*/
End Loop
/*對(duì)N元詞序列降序排列*/
在算法1中,首先設(shè)置語義相關(guān)度評(píng)分閾值γ,WSBB算法對(duì)初選的單詞做第2次精化,選取與商品圖像內(nèi)容語義相關(guān)的關(guān)鍵詞.繼而,調(diào)節(jié)PPMI閾值α和PDI閾值β,把經(jīng)過2次精化的關(guān)鍵詞拼裝成有實(shí)際含義的2元詞序列.其次,函數(shù)OVERLAP分析2個(gè)2元詞序列之間的語義重疊,獲取構(gòu)造3元詞序列的候選單詞wrd1,wrd2,wrd3.為保證3元詞序列的句法模式兼容性,設(shè)置單詞之間必須滿足PDI約束:TC_PDI_Matrix(wrd1,wrd3)≤min{2,2β},生成有實(shí)際含義的3元詞序列.最后,根據(jù)累積PPMI值降序排列N元詞序列,輸出TopM的N元詞序列.
2.4 基于句法樹生成句子
WSBB算法輸出描述商品圖像關(guān)鍵內(nèi)容的N元詞序列,它們是句子的核心組成部分.標(biāo)注模型繼續(xù)把N元詞序列、商品類別標(biāo)簽等組裝成完整句子,更連貫、流暢地刻畫商品圖像內(nèi)容.受文獻(xiàn)[22]啟發(fā),設(shè)計(jì)句法子樹,以遞歸方式構(gòu)造出蘊(yùn)涵豐富語義信息且滿足正確句法結(jié)構(gòu)的完整句法樹,遍歷該樹葉子結(jié)點(diǎn)生成句子,標(biāo)注商品圖像.設(shè)計(jì)的7種子樹如圖2所示:
Fig. 2 Seven kinds of syntactic subtrees designed in the paper.圖2 設(shè)計(jì)的7種句法子樹
子樹生成規(guī)則如下所示:
1) 子樹1(Subtree-1)生成3元詞序列的規(guī)則 (生成2元詞序列的規(guī)則類似)
NP→(JJ,adj|NN,noun)*:
?wrd1,wrd2,wrd3∈{JJ|NN}((constrain1)∧(constrain2)),
constrain1=TC_PPMI_Matrix(wrd1,wrd2)≥
α∧TC_PDI_Matrix(wrd1,wrd2)≤β,
constrain2=TC_PPMI_Matrix(wrd2,wrd3)≥
α∧TC_PDI_Matrix(wrd1,wrd3)≤min{2,2β}.
2) 子樹2(Subtree-2)生成3元詞序列的規(guī)則 (生成2元詞序列的規(guī)則類似)
NP→(NNP,noun)*:
?noun1∈NNP∧noun2∈NNP∧noun3∈NNP((constrain1)∧
(constrain2)),
constrain1=TC_PPMI_Matrix(noun1,noun2)≥
α∧TC_PDI_Matrix(noun1,noun2)≤β,
constrain2=TC_PPMI_Matrix(noun2,noun3)≥
α∧TC_PDI_Matrix(noun1,noun3)≤min{2,2β}.
3) 子樹3(Subtree-3)的生成規(guī)則
S→NP VP:
?verb∈VB(G|N|Z)∧NP{Anchor noun}=SUBJ∧noun∈NN(constrain1),
constrain1=TC_PPMI_Matrix(noun,verb)≥
α∧TC_PDI_Matrix(noun,verb)≤β.
4) 子樹4(Subtree-4)的生成規(guī)則
PP→IN NP:
?in∈IN∧NP{NN noun}=OBJ∧noun∈NN(constrain1),
constrain1=TC_PPMI_Matrix(noun,in)≥
α∧TC_PDI_Matrix(noun,in)≤min{3,3β}.
5) 子樹5(Subtree-5)的生成規(guī)則
VP→VB(G|N|Z) NP:
?verb∈VB(G|N|Z)∧NP{NN noun}=OBJ∧noun∈NN(constrain1),
constrain1=TC_PPMI_Matrix(noun,verb)≥
α∧TC_PDI_Matrix(noun,verb)≤min{3,3β}.
6) 子樹6(Subtree-6)的生成規(guī)則
VP→VB(G|N|Z) PP:
?verb∈VB(G|N|Z)∧in∈IN(constrain1),
constrain1=TC_PPMI_Matrix(in,verb)≥
α∧TC_PDI_Matrix(in,verb)≤β.
7) 子樹7(Subtree-7)的生成規(guī)則
NP→NP CC NP: ?|NP|≥2(constrain1),
constrain1=OVERLAP(np1,np2)≤1∧np1∈NP∧np2∈NP.
基于子樹1(或子樹2)生成N元詞序列,對(duì)應(yīng)生成規(guī)則在算法1中已被使用.子樹1(或子樹2)包含2個(gè)constrain,以約束關(guān)鍵詞拼裝,其中在constrain2中,TC_PDI_Matrix(wrd1,wrd3)≤min{2,2β}(或TC_PDI_Matrix(noun1,noun3)≤min{2,2β}),這是1個(gè)強(qiáng)詞序先后關(guān)系約束,它從句法結(jié)構(gòu)角度確保詞序列生成質(zhì)量.當(dāng)構(gòu)造出N元詞序列之后,作為Anchor的商品類別標(biāo)簽被擴(kuò)展進(jìn)這2棵子樹,以準(zhǔn)確刻畫商品類別.因?yàn)?,商品類別也是人們最關(guān)注的商品特性之一.子樹3根據(jù)NP和VP構(gòu)建一棵完整的句法樹,NP是子樹1(或子樹2、子樹7)的遞歸實(shí)現(xiàn),VP是子樹5(或子樹6)的遞歸實(shí)現(xiàn).為確保短語之間“平滑”拼裝,子樹3約束NP的Anchor在依存關(guān)系中是SUBJ(主語),這是基于對(duì)語料庫中句子依存關(guān)系統(tǒng)計(jì)信息的分析.子樹4構(gòu)建PP短語,NP是子樹1(或子樹2、子樹7)的遞歸實(shí)現(xiàn).為保證介詞與詞序列之間“平滑”拼裝,子樹4約束NP中的名詞在依存關(guān)系中是OBJ(賓語).子樹5(或子樹6)構(gòu)建VP短語,依存關(guān)系約束同樣被定義.子樹7采用CC(連詞)將2個(gè)NP短語(子樹1或子樹2)組合起來,從多個(gè)角度描述商品圖像內(nèi)容.最后,基于N元詞序列和對(duì)應(yīng)句法子樹遞歸地構(gòu)建一棵完整的句法樹,自左向右遍歷樹中葉子結(jié)點(diǎn),生成標(biāo)注商品圖像的句子,同時(shí)增加后處理.如在句首添加定冠詞The、去除句中Null文本等,使句子在表達(dá)形式上更貼近人工標(biāo)注.
3.1 數(shù)據(jù)集
Bag是電子商務(wù)網(wǎng)站的代表性商品,選取Berg的Bag數(shù)據(jù)集[13]評(píng)價(jià)各模型標(biāo)注性能.它包括Clutch,Hobo,Evening,Shoulder,Totes五類商品,樣本數(shù)分別為1643,1630,1681,1596,1577,每個(gè)樣本包含1張商品圖像和1段文本描述(標(biāo)題).隨機(jī)選擇70%樣本構(gòu)成訓(xùn)練集,剩余30%樣本為測(cè)試集.圖像特征抽取Color-KDES[20],Grad-KDES[20],Shape-KDES[20],在MKL模型[21]內(nèi)融合生成4種MK-KDES新特征:MK-KDES-1(Grad-KDES與Shape-KDES融合)、MK-KDES-2(Grad-KDES與Color-KDES融合)、MK-KDES-3(Color-KDES與Shape-KDES融合)、MK-KDES-4(全部KDES特征融合).
3.2 基線說明
實(shí)驗(yàn)中對(duì)比了3類基線,基線定義如下:
1) 現(xiàn)有工作,包括Beam Search[10,12](基于新特征MK-KDES-1和3-gram語言模型),Gist-Based[15],MLBL模型[19].
2) 設(shè)計(jì)新的標(biāo)注模型WSBB′,令式(6)中WORD_FEAT=TF_IDF,在N元詞序列生成中基于TF評(píng)價(jià)單詞之間語義相關(guān)性,且不考慮單詞之間PDI約束.故它有別于算法1,采用WSBB′表示該類模型,以區(qū)別于WSBB.運(yùn)用句子模板(TEMP)生成句子,該類模型包括:基于2元詞序列的WSBB′-1、基于3元詞序列的WSBB′-2和基于4元詞序列的WSBB′-3.
3) 設(shè)計(jì)新的標(biāo)注模型TC+X,根據(jù)上下文共現(xiàn)構(gòu)建單詞向量空間并計(jì)算單詞間語義相關(guān)性,令式(6)中WORD_FEAT=TF_IDF,在N元詞序列生成中基于相似度度量方法X評(píng)價(jià)單詞之間語義相關(guān)性,考慮單詞之間PDI約束.運(yùn)用句法樹(SGT)生成句子.該類模型包括:TC+COS,TC+NORM1,TC+NORM2,TC+DICE,TC+JACCARD,TC+PPMI.上下文窗口大小為10.
3.3 標(biāo)注句子評(píng)估
1) 為句子標(biāo)注優(yōu)選合適的圖像特征.選取RGB-Gist[15],MKF[16],SIFT-EMK[18],KDES[19],SP-BoW[23],SAE[24],ScSPM[25],MK-KDES等圖像特征,執(zhí)行商品圖像分類、商品圖像檢索,摘取關(guān)鍵詞(但不考慮關(guān)鍵詞精化),將語義相關(guān)度評(píng)分TopK的關(guān)鍵詞隨機(jī)地拼裝成句子,評(píng)價(jià)標(biāo)注性能.針對(duì)不同K值計(jì)算BLEU[26]評(píng)分均值,結(jié)果如圖3所示.
圖3(a)中,BLEU-1評(píng)估標(biāo)注模型的內(nèi)容選擇(content selection, CS)能力,即句子與商品圖像內(nèi)容的語義相關(guān)性.圖3(a)表明:MK-KDES-1特征獲取了最優(yōu)的BLEU-1評(píng)分,即所摘取單詞能較準(zhǔn)確地刻畫商品圖像內(nèi)容.主要原因:MK-KDES-1特征是Grad-KDES與Shape-KDES的多核學(xué)習(xí)融合,核權(quán)重分別是0.68和0.32,這說明MK-KDES-1特征主要刻畫商品圖像的紋理和形狀視覺特性,這些特性在商品圖像中較顯著(如圖1所示),且圖像標(biāo)題中也有相關(guān)文字描述,故視覺詞與文本詞頻繁共現(xiàn),MK-KDES-1特征有助于摘取更多與商品圖像內(nèi)容語義相關(guān)的紋理、形狀等代表性單詞,相應(yīng)BLEU-1評(píng)分自然更優(yōu).
圖3(b)中,BLEU-2評(píng)估標(biāo)注模型的表面實(shí)現(xiàn)(surface realization, SR)能力,即句子的句法結(jié)構(gòu)準(zhǔn)確性.圖3(b)表明:MK-KDES-1特征獲取了最優(yōu)的BLEU-2評(píng)分,當(dāng)K>6時(shí)其優(yōu)勢(shì)更顯著.主要原因:由于聚焦相同或相似的商品特性,被摘取的代表性單詞多是語義相關(guān)的.通常,這些單詞在詞序先后關(guān)系上也存在相關(guān)性,如單詞metal與mesh、單詞lisa與david、單詞satin與silk等,即使隨機(jī)地拼裝它們,所生成的句子仍保持一定的句法模式兼容性,相應(yīng)的BLEU-2評(píng)分自然更優(yōu).綜上分析,選取MK-KDES-1特征完成商品圖像句子標(biāo)注更為合適.
Fig. 3 Optimal selection of the image feature for caption generation.圖3 為句子標(biāo)注優(yōu)選圖像特征
2) 基于不同的N元詞序列構(gòu)造方法和句子生成方案生成句子,但不考慮關(guān)鍵詞精化.即實(shí)現(xiàn)3.2節(jié)中的第2,3類基線,計(jì)算標(biāo)注模型的BLEU評(píng)分,結(jié)果如表2所示:
Table 2 BLEU Scores Comparison between the Second Kind Baseline and the Third Kind Baseline
Notes:“√” means that the WSBB algorithm considers the PDI metric. The best scores are the values with underline.
表2中,基于3元詞序列(或4元詞序列)的WSBB′模型的BLEU-2和BLEU-3評(píng)分更優(yōu).相比WSBB′模型,TC+X模型的整體標(biāo)注性能更優(yōu).與WSBB′-3模型比較,TC+PPMI模型BLEU-1評(píng)分提高(0.3689-0.3094)0.3094≈19.2%,BLEU-2評(píng)分提高(0.0797-0.0523)0.0523≈52.4%,BLEU-3評(píng)分提高(0.0143-0.0088)0.0088≈62.5%.
主要原因是:
① TC+X模型深入挖掘單詞與上下文之間的共現(xiàn)關(guān)系,并基于相似度度量方法X準(zhǔn)確評(píng)價(jià)單詞之間語義相關(guān)性,這有助于保持N元詞序列的語義信息兼容性;
② TC+X模型考慮單詞之間PDI約束,故N元詞序列遵循更嚴(yán)格的詞序先后關(guān)系,這有助于保持N元詞序列的句法模式兼容性;
③ TC+X模型基于句法樹ST生成句子,這有助于保持完整句子的句法模式兼容性.而BLEU-3評(píng)分的提升幅度最大則進(jìn)一步說明PDI約束和句法樹ST在句子生成中發(fā)揮了關(guān)鍵作用(圖4較好地驗(yàn)證了該分析).
3) 考慮關(guān)鍵詞精化,基于AR特征強(qiáng)化關(guān)鍵詞權(quán)重,并確定WSBB算法的3個(gè)重要參數(shù)α,β,γ,運(yùn)用句法樹ST生成句子.實(shí)驗(yàn)方案:令式(6)中WORD_FEAT=AR,WSBB算法中γ=0(γ=0表示先不執(zhí)行第2次關(guān)鍵詞精化),X=PPMI,基于設(shè)定的評(píng)價(jià)標(biāo)準(zhǔn)以格搜索(grid search, GS)方式獲取對(duì)應(yīng)的參數(shù)α和β,α∈[0,max_ppmi],β∈[0,max_pdi].根據(jù)參數(shù)α和β,繼續(xù)搜索對(duì)應(yīng)的參數(shù)γ,γ∈[0,max_ar].對(duì)已獲得的參數(shù)α,β,γ,執(zhí)行范圍更小、精度更高的微格搜索(mini-grid search, MGS),確定最終參數(shù).其中,參數(shù)搜索中的評(píng)價(jià)標(biāo)準(zhǔn)定義如下:
Best_Score=w1ScoreBLEU-1+
(12)
s.t.w1+w2+w3=1,
w1∈[0,1],w2∈[0,1],w3∈[0,1],
其中,ScoreBLEU-1,ScoreBLEU-2,ScoreBLEU-3是參數(shù)搜索中計(jì)算出的各BLEU評(píng)分;w1,w2,w3是BLEU評(píng)分權(quán)重.式(12)是1個(gè)靈活的評(píng)價(jià)標(biāo)準(zhǔn):通過調(diào)節(jié)評(píng)分權(quán)重以聚焦不同的最優(yōu)評(píng)價(jià)指標(biāo).例如,w1=0,w2=1,w3=0表示當(dāng)前的評(píng)價(jià)標(biāo)準(zhǔn)是BLEU-2 BEST,即BLEU-2評(píng)分最優(yōu),其它標(biāo)準(zhǔn)以此類推.本文關(guān)注4個(gè)不同的評(píng)價(jià)標(biāo)準(zhǔn):BLEU-1 BEST,BLEU-2 BEST,BLEU-3 BEST,BLEU-SUM BEST(w1=w2=w3≠0).根據(jù)不同的評(píng)價(jià)標(biāo)準(zhǔn)和關(guān)鍵詞精化次數(shù)設(shè)計(jì)2類標(biāo)注模型,分別是僅執(zhí)行1次關(guān)鍵詞精化的4個(gè)標(biāo)注模型:BLEU-1 BEST(1),BLEU-2 BEST(1),BLEU-3 BEST(1),BLEU-SUM BEST(1)以及執(zhí)行2次關(guān)鍵詞精化的4個(gè)標(biāo)注模型:BLEU-1 BEST(2),BLEU-2 BEST(2),BLEU-3 BEST(2),BLEU-SUM BEST(2),模型名稱的后綴(1),(2)均表示關(guān)鍵詞精化次數(shù).調(diào)制各標(biāo)注模型的參數(shù)α,β,γ并計(jì)算當(dāng)前BLEU評(píng)分Best_Score,實(shí)驗(yàn)結(jié)果如表3所示:
Table 3 Key Parameters of Each Annotation Model and BLEU Scores Comparison
Notes:“↑” means that our models have improvements compared with the TC+PPMI model; “↓” means just the opposite.
The best scores are the values with underline. The values in brackets represent the number of tag refinement.
① 評(píng)判參數(shù)α,β,γ與標(biāo)注模型的關(guān)系.BLEU-1 BEST模型具有較大的α值,其目的是加強(qiáng)單詞之間的語義相關(guān)性約束,獲取更多描述相同或相似商品特性的關(guān)鍵詞,故該類模型BLEU-1評(píng)分最優(yōu).相比α值,它們的β值更大,這表明BLEU-1 BEST模型支持松散的句法結(jié)構(gòu)約束,對(duì)應(yīng)BLEU-2,BLEU-3評(píng)分較差.不同于BLEU-1 BEST模型,BLEU-2 BEST模型具有相對(duì)較小的β值,其目的是強(qiáng)化單詞(或N元詞序列)之間的句法結(jié)構(gòu)約束,因此,它們的BLEU-2評(píng)分顯著提高,而BLEU-2評(píng)分的提高還有利于BLEU-3評(píng)分的改善.相比前2類模型,BLEU-3 BEST模型具有相對(duì)更小的β值,這表明它們基于更嚴(yán)格的句法結(jié)構(gòu)約束來構(gòu)造有實(shí)際含義的3元詞序列,BLEU-3評(píng)分也自然更優(yōu).BLEU-SUM BEST模型聚焦整體標(biāo)注性能最優(yōu),其各項(xiàng)BLEU評(píng)分相對(duì)基線均有改善,而對(duì)應(yīng)的α,β值則介于BLEU-2 BEST模型和BLEU-3 BEST模型之間.此外,基于合理的α,β值,設(shè)置較大的γ值也有利于2元詞序列和3元詞序列的構(gòu)造(如BLEU-2 BEST模型和BLEU-SUM BEST模型),并提升BLEU-2評(píng)分和BLEU-3評(píng)分.綜上分析,在生成標(biāo)注句子的過程中α,β,γ相互配合、共同作用,需要聯(lián)合調(diào)制它們,以獲取最理想的標(biāo)注性能.
② 在關(guān)鍵詞摘取中運(yùn)用AR特征強(qiáng)化關(guān)鍵詞權(quán)重,執(zhí)行第1次關(guān)鍵詞精化,評(píng)估該精化方法在句子生成中的作用.表3中,第1次關(guān)鍵詞精化之后,各標(biāo)注模型所聚焦的BLEU指標(biāo)相比基線均有提升.例如,BLEU-1 BEST(1)模型的BLEU-1評(píng)分提升(0.3782-0.3689)0.3689≈2.5%,BLEU-2 BEST(1)模型的BLEU-2評(píng)分提升(0.0823-0.0797)0.0797≈3.3%,BLEU-3 BEST(1)模型的BLEU-3評(píng)分提升(0.0151-0.0143)0.0143≈5.6%,共計(jì)8個(gè)BLEU評(píng)分指標(biāo)有提高.主要原因:描述商品品名、紋理、形狀等顯著特性的關(guān)鍵詞在商品圖像標(biāo)題中出現(xiàn)的位置更早(這緣于人們的一種心理暗示,即在標(biāo)題中首先刻畫商品的顯著特性),而AR特征較好地強(qiáng)化了這些關(guān)鍵詞的權(quán)重,故它們被模型優(yōu)先摘取以生成句子.綜合各BLEU評(píng)分指標(biāo),BLEU-2 BEST(1)和BLEU-SUM BEST(1)這2個(gè)模型的整體標(biāo)注性能較優(yōu),它們具備一定實(shí)用價(jià)值.總之,第1次關(guān)鍵詞精化有助于改善標(biāo)注性能.
③ 在第1次關(guān)鍵詞精化的基礎(chǔ)上,為WSBB算法設(shè)置單詞的語義相關(guān)度評(píng)分閾值γ,執(zhí)行第2次關(guān)鍵詞精化,評(píng)估該精化方法在句子生成中的作用.表3中,第2次關(guān)鍵詞精化之后,各標(biāo)注模型所聚焦的BLEU指標(biāo)相比基線有更大幅度提升.例如,BLEU-1 BEST(2)模型的BLEU-1評(píng)分提升(0.3793-0.3689)0.3689≈2.8%,BLEU-2 BEST(2)模型的BLEU-2評(píng)分提升(0.0834-0.0797)0.0797≈4.6%,BLEU-3 BEST(2)模型的BLEU-3評(píng)分提升(0.0155-0.0143)0.0143≈8.4%.BLEU-2 BEST(2)和BLEU-SUM BEST(2)這2個(gè)模型獲取了較1次精化模型更優(yōu)的BLEU-2評(píng)分和BLEU-3評(píng)分.例如BLEU-2 BEST(1)模型的BLEU-2,BLEU-3評(píng)分相比基線分別提升3.3%和1.4%;而BLEU-2 BEST(2)模型的BLEU-2,BLEU-3評(píng)分相比基線分別提升4.6%和5.6%.這表明BLEU-2 BEST(2)和BLEU-SUM BEST(2)這2個(gè)模型在句法模式兼容性上更勝一籌.主要原因:WSBB算法中的單詞語義相關(guān)度評(píng)分閾值γ能進(jìn)一步優(yōu)選關(guān)鍵詞,為N元詞序列構(gòu)造奠定重要基礎(chǔ).當(dāng)然,微格搜索也有助于提升標(biāo)注性能.如BLEU-2 BEST(2)模型在微格搜索前BLEU-2,BLEU-3評(píng)分分別為0.0831和0.0148.綜合各BLEU評(píng)分指標(biāo),BLEU-2 BEST(2),BLEU-SUM BEST(2)這2個(gè)模型的整體標(biāo)注性能最優(yōu),它們具備更高的實(shí)用價(jià)值.綜上分析,第2次關(guān)鍵詞精化能進(jìn)一步改善標(biāo)注性能.
4) 以BLEU-BEST(2)模型為“標(biāo)桿”,定量評(píng)估圖像標(biāo)注模型中各關(guān)鍵部件:正逐點(diǎn)互信息(PPMI)、關(guān)鍵詞精化(TR)、句法樹(ST)在句子生成中的作用,結(jié)果如圖4所示.圖4中,深色是模型的實(shí)際標(biāo)注性能,而淺色則是標(biāo)注性能的衰減幅度.
Fig. 4 Impact evaluations of each key component in the presented image annotation model.圖4 評(píng)估圖像標(biāo)注模型中各關(guān)鍵部件的作用
圖4表明:PPMI+ST模型未執(zhí)行關(guān)鍵詞精化TR,噪聲單詞會(huì)干擾關(guān)鍵詞摘取及N元詞序列構(gòu)造,其BLEU-2和BLEU-3評(píng)分相對(duì)“標(biāo)桿”分別衰減4.6%和5.6%;在COS+TR+ST模型中,令X=COS,以替換PPMI度量單詞之間的語義相關(guān)性,顯然COS度量方式不夠精確,影響了N元詞序列的質(zhì)量,其BLEU-2和BLEU-3評(píng)分相對(duì)“標(biāo)桿”分別衰減5.6%和6.6%;PPMI+TR+TEMP模型用模板(TEMP)替換句法樹ST,眾所周知,模板的靈活性較差,無法較好地保持句中的語義信息兼容性和句法模式兼容性,其BLEU-1,BLEU-2,BLEU-3評(píng)分衰減更為嚴(yán)重,分別達(dá)到10.4%,33.7%,42.4%.綜上分析,標(biāo)注模型各關(guān)鍵部件在句子生成中的作用排名:ST>PPMI>TR.因此,需同時(shí)運(yùn)用這三大關(guān)鍵部件來構(gòu)造圖像標(biāo)注模型,以提升標(biāo)注性能,增強(qiáng)模型的實(shí)用價(jià)值。
5) 選取Gist-Based,Beam Search(基于MK-KDES-1特征和3-gram語言模型),MLBL,WSBB′-3,TC+PPMI等主要基線與BLEU-2 BEST(2)模型做標(biāo)注性能的比較,實(shí)驗(yàn)結(jié)果如圖5所示:
Fig. 5 Performance comparison of our model and the main baselines.圖5 本文模型與主要基線的比較
圖5表明:首先,BLEU-2 BEST(2)模型的BLEU-1評(píng)分優(yōu)于全部基線,這得益于MK-KDES-1特征提取、第1次關(guān)鍵詞精化和基于PPMI的單詞之間語義相關(guān)性度量.MK-KDES-1特征刻畫商品圖像的紋理和形狀視覺特性,這些特性已體現(xiàn)于商品圖像標(biāo)題中,并被賦予較大的AR權(quán)重,根據(jù)AR權(quán)重,模型較準(zhǔn)確地摘取出對(duì)應(yīng)關(guān)鍵詞.此外,PPMI能聚合更多語義相關(guān)的單詞,豐富了對(duì)商品圖像內(nèi)容的描述,句子的BLEU-1評(píng)分自然更優(yōu).其次,BLEU-2 BEST(2)模型的BLEU-2評(píng)分優(yōu)于全部基線,這得益于WSBB算法及句法樹ST.在WSBB算法中,一方面,調(diào)制參數(shù)γ執(zhí)行第2次關(guān)鍵詞精化,較好地抑制噪聲單詞對(duì)2元詞序列構(gòu)造的干擾,而2元詞序列是構(gòu)造高元詞序列的重要保障;另一方面,聯(lián)合調(diào)制參數(shù)α和β,確保N元詞序列的語義信息兼容性和句法模式兼容性.句法樹ST則進(jìn)一步強(qiáng)化了完整句子的句法結(jié)構(gòu)約束.最后,BLEU-2 BEST(2)模型的BLEU-3評(píng)分(約0.0151)已逼近深度學(xué)習(xí)模型MLBL的BLEU-3評(píng)分(約0.0170).相比MLBL模型,BLEU-2 BEST(2)模型的主要優(yōu)點(diǎn):①僅抽取圖像匹配核特征,無需大規(guī)模的特征學(xué)習(xí);②僅依賴訓(xùn)練圖像及其標(biāo)題構(gòu)成的語料庫,不依賴外部語料庫;③模型參數(shù)更少,可近似為“無參”模型,模型調(diào)制也變得更簡(jiǎn)單;④整體標(biāo)注性能更突出,主要體現(xiàn)在BLEU-1,BLEU-2評(píng)分,如BLEU-2 BEST(2)模型的BLEU-2評(píng)分是MLBL模型的0.08340.0480≈1.74倍.
總之,基于關(guān)鍵詞精化和句法樹的商品圖像句子標(biāo)注模型,無論是標(biāo)注性能還是模型復(fù)雜度、運(yùn)行效率等均優(yōu)于主要基線,所生成的句子也更連貫、流暢.
3.4 標(biāo)注結(jié)果展示
分別運(yùn)用TC+PPMI和BLEU-2 BEST(2)模型進(jìn)行商品圖像句子標(biāo)注實(shí)驗(yàn),得到如表4所示的部分標(biāo)注結(jié)果.
表4中,TC+PPMI模型能生成正確的N元詞序列metal mesh,boutique designer等,以刻畫商品圖像特性.但它也產(chǎn)生了許多錯(cuò)誤標(biāo)注,包括句法結(jié)構(gòu)錯(cuò)誤(如simpson town jessica)、語義信息不相關(guān)(如black manmade,material cotton leather)等.相比TC+PPMI模型,BLEU-2 BEST(2)模型的標(biāo)注結(jié)果無論是語義相關(guān)性還是句法結(jié)構(gòu)準(zhǔn)確性都更貼近原始標(biāo)注.主要原因:1)2次關(guān)鍵詞精化較好地抑制了噪聲單詞干擾,為生成正確的N元詞序列奠定重要基礎(chǔ);2)句法樹強(qiáng)化了句中的句法結(jié)構(gòu)約束,有助于生成連貫、流暢的句子.此外,BLEU-2 BEST(2)模型還獲取了一些非常有趣的標(biāo)注結(jié)果,如sleek chic,black leather等,這些N元詞序列雖未出現(xiàn)在原始標(biāo)注中,但卻是對(duì)商品圖像內(nèi)容描述的有益補(bǔ)充.當(dāng)然,標(biāo)注中也存在錯(cuò)誤.例如:mesh與beaded文本詞所對(duì)應(yīng)的MK-KDES-1特征視覺詞之間出現(xiàn)歧義;松散的依存關(guān)系約束導(dǎo)致east west詞序列的生成;視覺詞與文本詞的稀疏共現(xiàn)使某些重要的視覺特性未被有效地標(biāo)識(shí)出.
Table 4 Some Annotation Results
Notes: The underlined bold texts are generated by the WSBB algorithm.
首先,提出關(guān)鍵詞精化思想:基于AR特征強(qiáng)化關(guān)鍵詞權(quán)重,約束單詞的語義相關(guān)度評(píng)分,優(yōu)選與商品圖像內(nèi)容語義相關(guān)的關(guān)鍵詞,為N元詞序列構(gòu)造奠定重要基礎(chǔ);其次,設(shè)計(jì)WSBB算法,把精化后的關(guān)鍵詞拼裝成N元詞序列,進(jìn)而構(gòu)造句法樹ST:基于句法子樹及N元詞序列,遞歸地構(gòu)建一棵完整的句法樹,遍歷該樹葉子結(jié)點(diǎn)生成句子,標(biāo)注商品圖像;最后,提出更靈活的句子評(píng)價(jià)標(biāo)準(zhǔn),如式(12)所示.實(shí)驗(yàn)結(jié)果表明:1)BLEU-2 BEST(2)和BLEU-SUM BEST(2)這2個(gè)模型的整體標(biāo)注性能最優(yōu),它們的實(shí)用價(jià)值也最大;2)關(guān)鍵詞精化能較好地抑制噪聲單詞干擾,有助于摘取出正確的關(guān)鍵詞并改善標(biāo)注性能;3)句法樹使句子的句法結(jié)構(gòu)更準(zhǔn)確,句中的語義信息兼容性和句法模式兼容性均得以保持.而BLEU-2和BLEU-3評(píng)分的改善促使句子的連貫性、流暢性更佳.
總之,本文實(shí)現(xiàn)了一個(gè)有效的圖像標(biāo)注模型,它較好地解決了商品圖像句子標(biāo)注的兩大核心問題:噪聲單詞干擾和句法結(jié)構(gòu)錯(cuò)誤.該標(biāo)注模型是自然語言處理中“經(jīng)驗(yàn)主義”與“理性主義”的有機(jī)結(jié)合,可為相關(guān)研究提供有益的參考.
未來的工作有4個(gè)方面:
1) 基于詞向量(word vector, WV)[27]分析單詞之間語義相關(guān)性,進(jìn)一步挖掘能準(zhǔn)確描述商品圖像內(nèi)容的關(guān)鍵詞,豐富和完善關(guān)鍵詞精化方案;
2) 基于深度依存分析(deep dependency analysis, DDA)度量單詞之間的詞序先后關(guān)系,構(gòu)造更多語義信息豐富且句法結(jié)構(gòu)準(zhǔn)確的N元詞序列,為生成句子奠定重要基礎(chǔ);
3) 基于概率部分典型相關(guān)性分析(probabilistic partial canonical correlation analysis, PPCCA)[28]模型或多模態(tài)分布式語義(multimodal distributional semantics, MDS)[29]深入分析圖像與文本之間的語義相關(guān)性,期望能借助圖-文共現(xiàn)信息降低視覺詞歧義對(duì)句子標(biāo)注的不利影響;
4) 著手建立中文語料庫,并調(diào)整少量句法子樹的生成規(guī)則,以完成商品圖像的中文句子標(biāo)注,進(jìn)一步延伸和拓展本文圖像標(biāo)注模型的應(yīng)用領(lǐng)域.
[1]Tian Feng, Shen Xukun. Image annotation by semantic neighborhood learning from weakly labeled dataset [J]. Journal of Computer Research and Development, 2014, 51(8): 1821-1832 (in Chinese)
(田楓, 沈旭昆. 弱標(biāo)簽環(huán)境下基于語義鄰域?qū)W習(xí)的圖像標(biāo)注[J]. 計(jì)算機(jī)研究與發(fā)展, 2014, 51(8): 1821-1832)
[2]Yao B, Yang X, Lin L, et al. I2T: Image parsing to text description [J]. Proceedings of the IEEE, 2010, 98(8): 1485-1508
[3]Farhadi A, Hejrati M, Sadeghi M. A, et al. Every picture tells a story: Generating sentences from images[C] //Proc of the 11th European Conf on Computer Vision. Berlin: Springer, 2010: 15-29
[4]Hodosh M, Young P, Hockenmaier J. Framing image description as a ranking task: Data, models and evaluation metrics [J]. Journal of Artificial Intelligence Resource, 2013, 47(1): 853-899
[5]Li Piji, Ma Jun, Gao Shuai. Learning to summarize Web image and text mutually [C] //Proc of the 2nd ACM Int Conf on Multimedia Retrieval. New York: ACM, 2012: 1-8
[6]Yang Y, Teo C L, Daume H(Ⅲ), et al. Corpus-guided sentence generation of natural images[C] //Proc of the 16th Conf on Empirical Methods on Natural Language Processing. London: Oxford University Press, 2011: 444-454
[7]Kulkarni G, Premraj V, Dhar S, et al. Baby talk: Understanding and generating simple image descriptions [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2013, 35(12): 2891-2903
[8]Li Siming, Kulkarni G, Berg T, et al. Composing simple image descriptions using Web-scale n-grams [C] // Proc of the 15th Conf on Computational Natural Language Learning. Stroudsburg, PA: ACL, 2011: 220-228
[9]Kiros R, Salakhutdinov R, Zemel R. Multimodal neural language models[C] //Proc of the 31st Int Conf on Machine Learning, JMLR Workshop. New York: ACM, 2014: 595-603
[10]Feng Yansong, Lapata M. Automatic caption generation for news images [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2013, 35(4): 797-812
[11]Gupta A, Verma Y, Jawahar C V. Choosing linguistics over vision to describe images[C] //Proc of the 26th American Association for Artificial Intelligence. Menlo Park, CA: AAAI, 2012: 606-611
[12]Ushiku Y, Harada T, Kuniyoshi Y. Automatic sentence generation from images[C] //Proc of the 19th ACM Int Conf on Multimedia. New York: ACM, 2011: 1533-1536
[13]Berg T L, Berg A C, Shih J. Automatic attribute discovery and characterization from noisy Web data[C] //Proc of the 11th European Conf on Computer Vision. Berlin: Springer, 2010: 663-676
[14]Kiapour H, Yamaguchi K, Berg A C, et al. Hipster wars: Discovering elements of fashion styles[C] //Proc of the 13th European Conf on Computer Vision. Berlin: Springer, 2014: 472-488
[15]Mason R. Domain-independent captioning of domain-specific images[C] //Proc of the 10th North American Association for Computational Linguistics-Student Research Workshop. Stroudsburg, PA: ACL, 2013: 69-76
[16]Zhang Hongbin, Ji Donghong, Ren Yafeng, et al. Product image sentence annotation based on multiple kernel learning [J]. Journal of Frontiers of Computer Science and Technology, 2015, 9(11): 1351-1361 (in Chinese)
(張紅斌, 姬東鴻, 任亞峰, 等. 基于多核學(xué)習(xí)的商品圖像句子標(biāo)注[J]. 計(jì)算機(jī)科學(xué)與探索, 2015, 9(11): 1351-1361)
[17]Torralba A, Murphy K P, Freeman W T, et al. Context-based vision system for place and object recognition[C] //Proc of the 9th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2003: 273-280
[18]Bo L, Ren X, Fox D. Efficient match kernels between sets of features for visual recognition [C] //Proc of the 23rd Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2009: 135-143
[19]Bo L, Ren X, Fox D. Kernel descriptors for visual recognition [C] //Proc of the 24th Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2010: 1734-1742
[20]Vedaldi A, Gulshan V, Varma M, et al. Multiple kernels for object detection[C] //Proc of the 12th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2009
[21]Hwang S, Grauman K. Learning the relative importance of objects from tagged images for retrieval and cross-modal search [J]. International Journal of Computer Vision, 2012, 100(2): 134-153
[22]Mitchell M, Dodge J, Goyal A, et al. Midge: Generating image descriptions from computer vision detections [C] //Proc of the 13th European Association for Computational Linguistics. Stroudsburg, PA: ACL, 2012: 747-756
[23]Lazebnik S, Schmid C, Ponce J. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories [C] //Proc of the 19th IEEE Conf on Computer Vision and Pattern Recognition, vol 2. Piscataway, NJ: IEEE, 2006: 2169-2178
[24]Sivaram G, Hermansky H. Sparse multilayer perceptron for phoneme recognition [J]. IEEE Trans on Audio, Speech, & Language Process, 2012, 20(1): 23-29
[25]Yang J, Yu K, Gong Y, et al. Linear spatial pyramid matching using sparse coding for image classification[C] //Proc of the 22nd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1794-1801
[26]Papineni K, Roukos S, Ward T, et al. BLEU: A method for automatic evaluation of machine translation[C] //Proc of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: ACL, 2002: 311-318
[27]Maas A, Daly R, TPham P, et al. Learning word vectors for sentiment analysis[C] //Proc of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: ACL, 2011: 142-150
[28]Mukuta Y, Harada T. Probabilistic partial canonical correlation analysis[C] //Proc of the 15th Int Conf on Machine Learning. New York: ACM, 2014: 1449-1457
[29]Bruni E, Khanh T N, Baroni M. Multimodal distributional semantics [J]. Journal of Artificial Intelligence Resource, 2014, 49(1): 1-47
Zhang Hongbin, born in 1979. PhD candidate. Associate professor. Member of China Computer Federation. His main research interests include image annotation, natural language processing and machine learning.
Ji Donghong, born in 1967. PhD supervisor and professor. His main research interests include natural language processing and machine learning (dhji@whu.edu.cn).
Yin Lan, born in 1979. PhD candidate and associate professor. Her main research interests include natural language processing and machine learning (yindew@gmail.com).
Ren Yafeng, born in 1986. PhD. Member of China Computer Federation. His main research interests include opinion mining and machine learning (renyafeng@whu.edu.cn).
Niu Zhengyu, born in 1976. PhD. His main research interests include natural language processing and machine learning (530845455@qq.com).
Caption Generation from Product Image Based on Tag Refinement and Syntactic Tree
Zhang Hongbin1,2, Ji Donghong1, Yin Lan1,3, Ren Yafeng1, and Niu Zhengyu4
1(ComputerSchool,WuhanUniversity,Wuhan430072)2(SchoolofSoftware,EastChinaJiaotongUniversity,Nanchang330013)3(SchoolofBigDataandComputerScience,GuizhouNormalUniversity,Guiyang550001)4(BaiduOnlineNetworkTechnology(Beijing)Co,Ltd,Beijing100085)
Automatic caption generation from product image is an interesting and challenging research task of image annotation. However, noisy words interference and inaccurate syntactic structures are the key problems that affect the research heavily. For the first problem, a novel idea of tag refinement (TR) is presented: absolute rank (AR) feature is applied to strengthen the key words’ weights. The process is called the first tag refinement. The semantic correlation score of each word is calculated in turn and the words that have the tightest semantic correlations with images’ content are summarized for caption generation. The process is called the second tag refinement. A novel natural language generation (NLG) algorithm named word sequence blocks building (WSBB) is designed accordingly to generateNgram word sequences. For the second problem, a novel idea of syntactic tree (ST) is presented: a complete syntactic tree is constructed recursively based on theNgram word sequences and predefined syntactic subtrees. Finally, sentence is generated by traversing all leaf nodes of the syntactic tree. Experimental results show both the tag refinement and the syntactic tree help to improve the annotation performance. More importantly, not only the semantic information compatibility but also the syntactic mode compatibility of the generated sentence is better retained simultaneously. Moreover, the sentence contains abundant semantic information as well as coherent syntactic structure.
image annotation; product image; caption generation; tag refinement (TR); syntactic tree (ST); word sequence blocks building;Ngram word sequence; natural language generation (NLG)
2015-10-13;
2016-04-19
國家自然科學(xué)基金項(xiàng)目(61133012);國家社會(huì)科學(xué)基金重大招標(biāo)項(xiàng)目(11&ZD189);教育部人文社科基金項(xiàng)目(16YJAZH029);江西省科技廳科技攻關(guān)項(xiàng)目(20121BBG70050,20142BBG70011);江西省高校人文社科基金項(xiàng)目(XW1502,TQ1503);江西省普通本科高校中青年教師發(fā)展計(jì)劃訪問學(xué)者專項(xiàng)資金;江西省社科規(guī)劃項(xiàng)目(16TQ02)
TP391
This work was supported by the National Natural Science Foundation of China (61133012), the National Social Science Major Tender Project (11&ZD189), the Humanity and Social Science Foundation of Ministry of Education (16YJAZH029), the Science and Technology Research Project of Jiangxi Provincial Department of Science and Technology (20121BBG70050,20142BBG70011), the Humanity and Social Science Foundation of Jiangxi Provincial Universities (XW1502,TQ1503), the Visiting Scholar Special Fund for the Development Plan of Young and Middle-Aged Teachers of General Universities in Jiangxi Province, and the Social Science Planning Project of Jiangxi Province (16TQ02).