張菊莉, 賀占莊, 戴濤, 張君毅
(1.西安微電子技術(shù)研究所,陜西,西安 710068;2.西安交通大學(xué) 軟件學(xué)院,陜西,西安 710045)
隨著因特網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)終端的圖片數(shù)量呈指數(shù)級增長. 如何快速而準(zhǔn)確地從海量圖像中找到所需信息是影響用戶互聯(lián)網(wǎng)體驗(yàn)的關(guān)鍵因素.其中一個(gè)重要方法是預(yù)先對圖像進(jìn)行標(biāo)注,用戶可通過搜索關(guān)鍵詞來獲得相關(guān)圖像信息. 當(dāng)前主流搜索引擎也主要通過以文搜圖方式為用戶提供所需信息,如百度、Google等. 然而,并非所有可用圖像都具有完整而準(zhǔn)確的標(biāo)簽,但圖像標(biāo)簽的準(zhǔn)確性與完整性直接影響圖像信息搜索、圖像推薦、圖像理解、視頻理解和商品推薦等任務(wù)的性能. 目前大多數(shù)圖像數(shù)據(jù)采用人工分類與標(biāo)注. 但人工標(biāo)注存在諸多缺陷. 首先,人力成本高且耗時(shí);其次,人工標(biāo)注存在一定的主觀性,可能會(huì)忽略圖像中比較微小的細(xì)節(jié),從而缺失隱含的重要信息,影響數(shù)據(jù)的精確分析與管理. 因此,自動(dòng)圖像標(biāo)注算法利用計(jì)算機(jī)來完成圖像標(biāo)注或校正,可以在海量圖像中快速發(fā)現(xiàn)和定位有用信息,解決當(dāng)前數(shù)據(jù)爆炸時(shí)代找尋有用信息難的問題. 因此,自動(dòng)圖像標(biāo)注已成為當(dāng)前圖像處理領(lǐng)域的研究熱點(diǎn)之一,廣泛應(yīng)用于圖像檢索[1]、圖像理解[2]與識別[3]等領(lǐng)域. 高效而準(zhǔn)確的自動(dòng)圖像標(biāo)注技術(shù)將會(huì)產(chǎn)生良好的社會(huì)價(jià)值和經(jīng)濟(jì)效益,并對國防、農(nóng)業(yè)、教育、醫(yī)療、新聞、環(huán)境監(jiān)測及遙感等領(lǐng)域產(chǎn)生深遠(yuǎn)影響.
現(xiàn)有圖像標(biāo)注方法多基于圖像的視覺特征,可分為判別式模型[4-5]、生成式模型[6-7]及最近鄰模型[8-10]等. 其中,最近鄰模型因其具有較高的標(biāo)注性能而受到了較多的關(guān)注. 如Tagprop算法[8]采用了帶權(quán)值的最近鄰模型. 2PKNN[9]為解決標(biāo)簽的不均衡性則采用了2個(gè)KNN過程來完成圖像標(biāo)注. 但最近鄰算法需要遍歷整個(gè)數(shù)據(jù)集來搜索k個(gè)最近鄰目標(biāo),從而耗費(fèi)較多時(shí)間. 因此,一種簡單高效的自動(dòng)圖像標(biāo)注方法變得尤為重要.
字典學(xué)習(xí)方法[11-14]近年來在圖像分類、圖像標(biāo)注與圖像識別等計(jì)算機(jī)視覺領(lǐng)域取得較多關(guān)注. 由于該方法通過超完備的區(qū)分性字典學(xué)習(xí)將圖像直接映射到一個(gè)更高維的空間中,從而獲得圖像稀疏特性,具有數(shù)據(jù)降維和簡化分類流程的特點(diǎn). 與傳統(tǒng)分類方法相比,字典學(xué)習(xí)大大降低了計(jì)算量,且具有較好的分類性能.
正是基于簡單性與高效性的考慮,本文提出了一種融合視覺特征和標(biāo)簽一致性的自動(dòng)圖像標(biāo)注方法VTC-KSVD. 該方法首先建立訓(xùn)練圖像的標(biāo)簽連續(xù)性模型TC-KSVD,然后結(jié)合視覺特征,搜索視覺上和語義上都非常近似的圖像并推斷其標(biāo)簽,從而實(shí)現(xiàn)自動(dòng)圖像標(biāo)注.
1.1K-SVD學(xué)習(xí)算法
K-SVD[11]是一種基于k均值的奇異值(singular value decomposition, SVD)分解字典學(xué)習(xí)方法. 該方法利用SVD更新字典和稀疏系數(shù),具有計(jì)算復(fù)雜度低和收斂速度快的優(yōu)點(diǎn). 對于給定的樣本矩陣Y∈m×N,Y=[y1y2…yN],N為樣本數(shù),m為特征維度,解決如下優(yōu)化問題可獲得Y基于稀疏表達(dá)的重建詞典D
(1)
式中:T0為稀疏限制閾值;D∈m×K,D=[d1d2…dK]為學(xué)習(xí)獲得的字典,其中K>m代表字典中的原子數(shù);X∈K×N,X=[x1x2…xN]為訓(xùn)練樣本Y的稀疏編碼. 在分解過程中,每一個(gè)輸入樣本有小于T0非0項(xiàng). 從式(1)的數(shù)學(xué)表達(dá)形式來看,該方法是一種基于矩陣分解的優(yōu)化問題,可通過迭代方法來解決參數(shù)最小化的問題.
1.2D-KSVD學(xué)習(xí)算法
D-KSVD[13]方法首次將區(qū)分式分類錯(cuò)誤項(xiàng)融入到K-SVD算法中,提升了分類能力. 該方法的目標(biāo)函數(shù)為
(2)
1.3LC-KSVD學(xué)習(xí)算法
這里假設(shè)字典D=[d1d2d3]T有3個(gè)原子,訓(xùn)練樣本集為Y=[y1y2…y8],若y1,y2,y4,d1,d2屬于同一類別,y3,y5,y8,d3屬于另外一種類別,則可構(gòu)建稀疏編碼關(guān)系矩陣Q如圖1所示.
由此可得LC-KSVD的目標(biāo)函數(shù)為
〈D*,W*,A*,X*〉=
(3)
式中:α與β為權(quán)重因子;Q∈K×N用來建立Y∈m×N和D∈m×K之間的關(guān)系. 為求解式(3),將其改寫為式(4),然后依照K-SVD算法[11]對式(4)進(jìn)行求解.
〈D*,W*,A*,X*〉=
(4)
LC-KSVD方法將類標(biāo)一致性作為監(jiān)督學(xué)習(xí)條件,使用二元類標(biāo)稀疏矩陣來確保相同類標(biāo)的圖像具有相似的稀疏表示,將分類器計(jì)算加入到字典訓(xùn)練中,加強(qiáng)了字典分類性能.
2.1TC-KSVD模型的建立
上述3種詞典學(xué)習(xí)算法都采用了平方規(guī)范化作為圖像空間的距離度量方法. 但K-SVD方法只關(guān)注于詞典學(xué)習(xí)的稀疏特征,忽略區(qū)分信息. 而D-KSVD考慮了區(qū)分信息,并以此學(xué)習(xí)一個(gè)獨(dú)立線性分類器. LC-KSVD在D-KSVD基礎(chǔ)上加入了類標(biāo)一致性信息來促使同類樣本具有相似稀疏編碼. 但這些線性稀疏模型并不能有效區(qū)分隱含在圖像中的特殊特征. 如同類圖像雖具有相同類別,但不同圖像卻具有不同的標(biāo)簽,這屬于圖像的獨(dú)有特征. 如果將這些標(biāo)簽信息加入到字典模型中,應(yīng)該能得到更好的標(biāo)注性能. 因此,受LC-KSVD啟發(fā),首先建立訓(xùn)練圖像樣本Y與詞典D之間的稀疏編碼關(guān)系矩陣Q,如圖2所示.
假設(shè)一個(gè)數(shù)據(jù)集有M個(gè)標(biāo)簽,則建立訓(xùn)練圖像與標(biāo)簽的關(guān)系矩陣Tr∈M×N,該矩陣為二元矩陣,如果第j個(gè)圖像與第i個(gè)標(biāo)簽關(guān)聯(lián),則(Tr)ij=1,否則(Tr)ij=0. 其構(gòu)造方式如圖3所示. 因此,將標(biāo)簽關(guān)系矩陣融入到LC-KSVD模型中,可獲得TC-KSVD的損失函數(shù):
〈D*,T*,A*,X*〉=
(5)
上述公式中,第一項(xiàng)代表字典D下的稀疏系數(shù)X與訓(xùn)練數(shù)據(jù)Y的近似誤差,第二項(xiàng)促使稀疏系數(shù)X具有類別可區(qū)分性,第三項(xiàng)促使稀疏系數(shù)具有標(biāo)簽可區(qū)分性,α和β為權(quán)重系數(shù).Q代表稀疏編碼關(guān)系矩陣,也是一個(gè)線性轉(zhuǎn)換矩陣,Tr為訓(xùn)練樣本的標(biāo)簽矩陣,T為學(xué)習(xí)到的聯(lián)合標(biāo)簽關(guān)系矩陣. 采用該方法學(xué)習(xí)到的字典和稀疏系數(shù)都會(huì)根據(jù)類別的不同和標(biāo)簽的不同而區(qū)分,增強(qiáng)了字典的區(qū)分性,可提高圖像標(biāo)注性能.
2.2TC-KSVD模型優(yōu)化
類似于LC-KSVD,使用K-SVD算法同時(shí)求解所有參數(shù). 因而式(5)可重寫如下
〈D*,T*,A*,X*〉=
(6)
式中
則式(6)等價(jià)于解決下述優(yōu)化問題
(7)
式(7)可由經(jīng)典K-SVD方法求解獲得D*和X.
在LC-KSVD中,同時(shí)更新D,A和W,可避免局部最小值,且在類別較多時(shí)擴(kuò)展性較好. 因此,在優(yōu)化TC-KSVD時(shí),也同時(shí)求解D,A和T,但D(0),A(0)和T(0)都需提前初始化.
對于D(0),針對每一個(gè)標(biāo)簽使用K-SVD算法求解出初始子字典,然后將所有子字典聯(lián)合起來作為字典初始值, 同時(shí)初始化字典標(biāo)簽.
對于A(0),采用與LC-KSVD類似的方法,嶺回歸模型[15],其利用二次損失及L2范數(shù)規(guī)劃化求解,其表達(dá)式如式(8)所示,然后對式(8)關(guān)于A求解可得式(9)為
(8)
A*=QXT(XXT+λ2I)-1.
(9)
同樣對于T(0), 可從式(5)中得到關(guān)于T的關(guān)系式,然后利用嶺回歸模型求解獲得
T*=TrXT(XXT+λ1I)-1.
(10)
上述式(9)(10)中,λ1和λ2設(shè)置為較小的常數(shù),I為單元矩陣. 得到初始化D(0)后,可采用K-SVD方法求解出輸入信號的稀疏編碼系數(shù)X,以及初始A(0)和T(0),接著再利用K-SVD方法求出參數(shù)D,A和T.
2.3TC-KSVD圖像標(biāo)注
通過上述優(yōu)化過程可獲得字典D,稀疏編碼系數(shù)X和標(biāo)簽相關(guān)矩陣T,由于
因而
為其規(guī)范化形式. 然后,通過式(11)求得測試樣本YE的稀疏表征E為
(11)
最后,利用標(biāo)簽關(guān)系矩陣T可預(yù)測樣本Yt的標(biāo)簽向量
(12)
因此,建立測試樣本的相關(guān)標(biāo)簽關(guān)系矩陣Tt后,再結(jié)合每個(gè)樣本的視覺近鄰及標(biāo)簽信息,選擇固定數(shù)量的標(biāo)簽作為圖像的最終標(biāo)簽. 提出的圖像標(biāo)注算法步驟如下:
輸入:Y,Q,Tr,α,β,T0;
① 用K-SVD方法迭代初始化字典D(0);
② 用式(9)初始化區(qū)分性編碼矩陣A(0);
③ 用式(10)初始化標(biāo)簽關(guān)系矩陣T(0);
④ 用K-SVD求解式(5),獲得字典D,A及T;
⑤ 對D和T進(jìn)行規(guī)范化;
⑥ 求解式(11),獲得測試樣本的稀疏表征E;
⑦ 利用式(12)求得測試樣本的標(biāo)簽關(guān)聯(lián)矩陣;
⑧ 結(jié)合視覺信息獲得其近鄰信息.
輸出:根據(jù)要求,為測試樣本輸出一定數(shù)量標(biāo)簽.
對于圖像標(biāo)注任務(wù)而言,缺乏視覺特征,往往缺乏很好的泛化能力. 因此本文將圖像視覺特征作為圖像的重要屬性,其穩(wěn)定可靠,可緩解只考慮語義而忽略視覺特征導(dǎo)致的標(biāo)注性能下降問題. 本文采用了大量應(yīng)用于圖像標(biāo)注領(lǐng)域的15種視覺特征[8-10],包括全局特征、顏色特征及局部特征. 全局特征為Gist特征[16]. 顏色特征包含3種常用的顏色空間RGB(red/green/blue),Lab顏色空間和 HSV(hue,saturation,value),所有的顏色特征均被量化為16 bin. 局部特征為SIFT(scale-invariant feature transform))特征[17]. 15種視覺特征分別為:RGB, RGBV3H1,HSV,HSVV3H1,LAB,LABV3H1,DenseHue,DenseHueV3H1,DenseSift,DenseSiftV3H1, Gist,HarrisHue,HarrisHueV3H1,HarrisSift和 HarrisSiftV3H1. 由于每幅圖像所含特征點(diǎn)不同,因而為每一副圖像提取相應(yīng)的特征后,采用k-means算法將每幅圖像的特征聚類為相同數(shù)目,以便于使用同一種方法進(jìn)行距離比較. 最后,將每幅圖像轉(zhuǎn)換為1 500維的圖像特征矩陣作為字典學(xué)習(xí)的訓(xùn)練樣本.
為驗(yàn)證本文提出算法的有效性,采用在圖像檢索與標(biāo)注領(lǐng)域廣泛使用的多標(biāo)簽圖像數(shù)據(jù)集Corel5K[18].該數(shù)據(jù)集包含5 000幅圖像,包含50個(gè)主題場景,每個(gè)圖像都手工標(biāo)注了260個(gè)關(guān)鍵詞中的1~5個(gè)關(guān)鍵字. 其中499幅圖像作為測試數(shù)據(jù)集,其余作為訓(xùn)練樣本.
準(zhǔn)確率(precision)和召回率(recall)是評估本文算法性能的重要標(biāo)準(zhǔn). 這2種評估方法廣泛應(yīng)用于圖像分類,圖像標(biāo)注與識別,圖像檢索等領(lǐng)域. 為方便與其他方法進(jìn)行比較,為每個(gè)測試圖像標(biāo)注固定個(gè)數(shù)標(biāo)簽,然后計(jì)算關(guān)于標(biāo)簽的準(zhǔn)確率與召回率. 準(zhǔn)確率一般表示被正確標(biāo)注的圖像比率,召回率表示被正確標(biāo)注的圖像相對于人工標(biāo)注的比率. 因此,準(zhǔn)確率和召回率可表示為
式中:Nc為正確標(biāo)注的圖像的數(shù)量;Nl為相對于人工標(biāo)注標(biāo)簽,被正確標(biāo)注的圖像的數(shù)量;Nall為所有測試圖像;li為第i個(gè)類別標(biāo)簽.
為了評估本文算法的有效性,選取了其他6種圖像標(biāo)注方法作與本文方法作比較. 這些方法有:隨機(jī)森林法[19](RF),JEC[20],TagProp[8],2PKNN[9],GENMF[21]和NMF-KNN[10].
上述方法的參數(shù)都依照其各自的代碼或者論文建議. 對于本文方法,首先進(jìn)行參數(shù)調(diào)節(jié),然后根據(jù)最佳參數(shù)配置來設(shè)置本文算法參數(shù). 所有方法都在一臺(tái)采用Core7,3.6 GHz處理器和16 GB內(nèi)存的工作站上運(yùn)行. 本文算法采用Matlab2016實(shí)現(xiàn)代碼的調(diào)試與測試.
本文為每幅測試圖像分別標(biāo)注4個(gè)和5個(gè)標(biāo)簽,并觀察其與其他方法對比結(jié)果,最后計(jì)算平均準(zhǔn)確率和召回率. 在具體實(shí)現(xiàn)中,重復(fù)運(yùn)行程序10次,以平均值作為最終結(jié)果. 為取得最佳性能,在進(jìn)行比較前,先對3個(gè)重要參數(shù)α,β和字典原子數(shù)S進(jìn)行微調(diào),獲得其最佳組合對. 其最佳參數(shù)為α=1,β=10,S=30,T0=30. 比對實(shí)驗(yàn)結(jié)果如表1所示.
表1 不同方法在Corel5K數(shù)據(jù)集上的性能
表1中,P@4和R@5表示標(biāo)注4個(gè)關(guān)鍵字的準(zhǔn)確率和5個(gè)字的召回率. 相對于4個(gè)標(biāo)注詞,標(biāo)注5個(gè)關(guān)鍵詞時(shí),每一種方法的召回率都有所提高,準(zhǔn)確率有一點(diǎn)降低或者無變化. 主要原因在于提高標(biāo)注單詞數(shù)時(shí),預(yù)測詞匯能更好的覆蓋真實(shí)標(biāo)簽,但個(gè)別圖像真實(shí)標(biāo)簽為4個(gè)詞,強(qiáng)行多分配一個(gè)詞匯,降低了準(zhǔn)確率. 在表1中,無論標(biāo)注了4個(gè)還是5個(gè)關(guān)鍵詞,本文方法均取得了最好的平均準(zhǔn)確率,平均召回率僅次于NMF-KNN. 原因在于,本文方法既集成了KSVD經(jīng)典學(xué)習(xí)方法的優(yōu)點(diǎn),又集成了LC-KSVD方法的標(biāo)簽一致性優(yōu)點(diǎn),使得具有同一類別標(biāo)簽的稀疏表達(dá)盡可能相似,在此基礎(chǔ)上又加入了標(biāo)簽一致性關(guān)系,使得具有相似類別和標(biāo)簽的圖像的稀疏表示更為相似,最后再結(jié)合視覺近鄰的標(biāo)簽,使得預(yù)測標(biāo)簽更接近真實(shí)標(biāo)簽. 在其他方法中,準(zhǔn)確率和召回率較低的方法是JEC算法. 該方法采用貪婪算法在基于全局特征的近鄰中傳播標(biāo)簽. 每一種全局特征采取相同的距離度量方法,忽略了不同特征對于語義標(biāo)簽的貢獻(xiàn),因此該方法并不能取得比相同權(quán)值更好的結(jié)果. 準(zhǔn)確率方面,隨機(jī)森林方法優(yōu)于JEC. 該方法通過建立圖像的語義森林,來預(yù)測圖像的標(biāo)簽,召回率也相對較高. 但該方法需要遍歷幾乎所有的森林節(jié)點(diǎn),因此計(jì)算復(fù)雜度較高. TagProp,2PKNN和NMF-KNN方法均屬于近鄰方法,這些方法都需要遍歷圖像的語義近鄰,然后傳播圖像的標(biāo)簽. 不同的是,TagProp采取了不同權(quán)重方法來解決標(biāo)簽不均衡問題,2PKNN則執(zhí)行兩遍KNN近鄰搜索方法來完成圖像標(biāo)注,同樣解決圖像標(biāo)簽的不完整和不均衡性. GENMF首先提取多視圖視覺特征,然后用NMF對數(shù)據(jù)進(jìn)行降維,同時(shí)將訓(xùn)練樣本的語義特征通過圖嵌入模式融入到NMF模型中,最后采用2PKNN方法做標(biāo)簽傳遞. 由于多視圖視覺特征的提取及訓(xùn)練樣本語義特征的融合,GENMF方法也取得了相對不錯(cuò)的性能. 相對于此,NMF-KNN方法將標(biāo)簽看作另外一種除了視覺特征之外的特征,然后將所有特征分解成基矩陣和稀疏矩陣. 該方法融合了NMF的數(shù)據(jù)降維特性,并高效地結(jié)合了KNN方法的全面遍歷語義近鄰特征,因此取得了更好的標(biāo)注準(zhǔn)確率和召回率. 但由于該方法需要提取大量的視覺特征,并且每一個(gè)視覺特征都需要單獨(dú)計(jì)算,依然存在著計(jì)算量大的問題. 提出的VTC-KSVD則通過一種稀疏表示的字典學(xué)習(xí)方法,融合視覺特征,類別標(biāo)簽特征和標(biāo)簽特征來獲取最佳的圖像標(biāo)注性能. 其標(biāo)注標(biāo)簽的可視化結(jié)果如圖4所示.
在圖4中,最左側(cè)一列為圖像,中間一列為圖像的人工標(biāo)注標(biāo)簽,第3列為本文方法的預(yù)測標(biāo)簽結(jié)果. 下劃線單詞為預(yù)測錯(cuò)誤的標(biāo)簽.
在式(5)中,有3個(gè)重要參數(shù)α,β及字典原子數(shù)S. 由于目標(biāo)函數(shù)可轉(zhuǎn)化為一種優(yōu)化問題,因此合適的參數(shù)有助于找到最優(yōu)值.
3.5.1α與β對性能的影響
從圖5可以看出,當(dāng)α=β=0.001時(shí),其召回率比較低,并不能滿足性能要求. 隨著α與β的增長,召回率逐漸增長. 當(dāng)α=1,β=10時(shí),召回率達(dá)到最佳值;而當(dāng)α>1,β>10時(shí),召回率有一定程度的降低. 這意味著,當(dāng)這兩個(gè)項(xiàng)的信息增加到一定程度后,會(huì)取得較好的性能,但繼續(xù)增加相應(yīng)信息,反而會(huì)造成信息干擾,從而影響整體性能. 因此為獲得最佳的圖像標(biāo)注性能,在實(shí)驗(yàn)中設(shè)置參數(shù)為α=1,β=10.
3.5.2字典大小對性能的影響
在字典學(xué)習(xí)中,字典所含原子數(shù)對重建表征有著重要影響. 原子越多,所含原始數(shù)據(jù)信息越豐富,稀疏表征就越能更好復(fù)原原始數(shù)據(jù). 但字典越大,學(xué)習(xí)過程中占據(jù)的存儲(chǔ)空間越大,計(jì)算負(fù)擔(dān)加重. 因此,合適大小的字典可獲得性能與效率的平衡. 在本文方法中,為每一個(gè)標(biāo)簽學(xué)習(xí)一個(gè)固定原子數(shù)的子字典. 這里設(shè)定原子數(shù)的范圍為{1,5,10,15,20,30,50,80},并固定其他參數(shù)a=1,β=10,T0=30. 考慮到計(jì)算效率的問題,本文的原子數(shù)并沒有設(shè)置非常高,其測試結(jié)果如圖6所示.
從圖6可看出,當(dāng)原子數(shù)增加時(shí),本文方法的準(zhǔn)確率與召回率均得到了提升,當(dāng)字典原子數(shù)為30時(shí),其準(zhǔn)確率與召回率均能達(dá)到各自較好值,并且隨著其繼續(xù)增加,性能會(huì)有所回落,這是由于更多的原子數(shù)會(huì)帶來信息的干擾,因而會(huì)影響性能且增加計(jì)算負(fù)擔(dān). 因此出于性能與計(jì)算效率的考慮,本文算法將Corel5K數(shù)據(jù)集上的字典原子數(shù)設(shè)置為30.
提出了一種融合視覺特征及標(biāo)簽一致性的多標(biāo)簽圖像標(biāo)注方法VTC-KSVD. 該方法是一種新的基于字典的學(xué)習(xí)方法,與LC-KSVD不同的是,其充分利用了圖像的視覺特征及標(biāo)簽一致性信息,提高了圖像的標(biāo)注性能. 該方法能夠有效地將原始輸入數(shù)據(jù)映射到一個(gè)高維空間中,然后利用字典學(xué)習(xí)把高維數(shù)據(jù)映射到一個(gè)低維的子空間,從而降低了計(jì)算復(fù)雜性,又充分挖掘訓(xùn)練數(shù)據(jù)中各圖像標(biāo)簽之間的關(guān)系及豐富的視覺特征,提高圖像標(biāo)注性能. 實(shí)驗(yàn)結(jié)果表明,VTC-KSVD能夠充分挖掘視覺特征的穩(wěn)定性、多樣性,解決訓(xùn)練數(shù)據(jù)標(biāo)簽不均衡問題. 同時(shí)結(jié)合標(biāo)簽一致性,可以較為準(zhǔn)確地預(yù)測出測試圖像的語義標(biāo)簽. 后續(xù),將考慮在該方法加入神經(jīng)網(wǎng)絡(luò)提取的視覺特征,并考慮結(jié)合詞嵌入模型以增強(qiáng)語義關(guān)聯(lián),降低語義鴻溝,進(jìn)一步提升標(biāo)注性能,這將作為本文工作的延伸.