季秀怡,李建華
(華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237)
隨著通信、計(jì)算機(jī)、自動(dòng)化等技術(shù)的不斷發(fā)展,以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)算法在圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域得到廣泛應(yīng)用。由于在科學(xué)文獻(xiàn)和網(wǎng)絡(luò)中包含的化學(xué)信息對(duì)分子結(jié)構(gòu)檢索、新藥設(shè)計(jì)等具有重要作用,但大部分化學(xué)信息以JPEG、PNG、GIF及BMP等圖像格式呈現(xiàn),因此失去了原有的化學(xué)意義。研究人員通過ChemDraw、ChemSketch等化學(xué)繪圖軟件人工繪制文獻(xiàn)中的化學(xué)結(jié)構(gòu)圖像耗時(shí)耗力且容易出錯(cuò),甚至需要結(jié)合專業(yè)知識(shí)來消除結(jié)構(gòu)之間的歧義性,所以利用深度學(xué)習(xí)算法將文獻(xiàn)中的化學(xué)結(jié)構(gòu)圖像自動(dòng)地轉(zhuǎn)化成計(jì)算機(jī)能夠識(shí)別的InChI、SDF、SMILES等結(jié)構(gòu)化信息數(shù)據(jù)格式具有實(shí)際應(yīng)用價(jià)值。
現(xiàn)有化學(xué)結(jié)構(gòu)圖像識(shí)別方法一般基于傳統(tǒng)圖像處理技術(shù)并結(jié)合流水線方式,先識(shí)別化學(xué)原子符號(hào),再識(shí)別原子間的化學(xué)鍵,且在識(shí)別過程中制定了大量規(guī)則。但此類方法需針對(duì)特定情況設(shè)計(jì)不同規(guī)則,且識(shí)別效果嚴(yán)重依賴于人工特征,如文獻(xiàn)[1]制定了18條規(guī)則用于識(shí)別原子之間的化學(xué)鍵。由于規(guī)則之間有可能存在相互依賴的情況,因此使得對(duì)于此類方法的改進(jìn)變得異常困難。而且此類方法雖然對(duì)于常見的化學(xué)鍵識(shí)別效果較好,但是難以處理化學(xué)鍵與化學(xué)符號(hào)粘連的情況,同時(shí)對(duì)于雙鍵、苯環(huán)及楔形鍵等結(jié)構(gòu)容易識(shí)別錯(cuò)誤或者識(shí)別不完整。此外,流水線方式還容易產(chǎn)生誤差累積,導(dǎo)致最終識(shí)別準(zhǔn)確率降低。
近年來,以深度學(xué)習(xí)算法為基礎(chǔ)的計(jì)算機(jī)視覺和自然語(yǔ)言處理技術(shù)得到快速發(fā)展,利用深度學(xué)習(xí)技術(shù)從圖像中提取出有價(jià)值的信息得到越來越廣泛的應(yīng)用。深度神經(jīng)網(wǎng)絡(luò)能自動(dòng)提取特征,并且在化學(xué)結(jié)構(gòu)圖像上具有較好的魯棒性和泛化能力。SMILES是一種常用的化學(xué)結(jié)構(gòu)表示方法,其先將分子圖結(jié)構(gòu)轉(zhuǎn)換為樹結(jié)構(gòu),再以縱向優(yōu)先遍歷的順序獲得樹結(jié)構(gòu)的序列表示。SMILES作為化學(xué)結(jié)構(gòu)圖像的存儲(chǔ)格式,其利用深度神經(jīng)網(wǎng)絡(luò)模型將化學(xué)結(jié)構(gòu)圖像轉(zhuǎn)化為SMILES序列,并且需要學(xué)習(xí)SMILES序列的語(yǔ)法規(guī)則以及化學(xué)結(jié)構(gòu)圖像的局部信息與SMILES序列子串之間的映射關(guān)系,若復(fù)雜化學(xué)結(jié)構(gòu)對(duì)應(yīng)的SMILES序列較長(zhǎng),則其在序列生成過程中需保持較長(zhǎng)的記憶以及不同抽象層次的推理能力。
本文基于空間注意力機(jī)制與通道注意力機(jī)制,并結(jié)合基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)與長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)的深度神經(jīng)網(wǎng)絡(luò)模型,提出一種新的化學(xué)結(jié)構(gòu)圖像識(shí)別方法。該深度神經(jīng)網(wǎng)絡(luò)模型由編碼和解碼兩部分組成,編碼部分使用預(yù)訓(xùn)練的ResNet網(wǎng)絡(luò)提取圖像特征并對(duì)其參數(shù)進(jìn)行微調(diào)。解碼部分將雙路注意力機(jī)制與LSTM網(wǎng)絡(luò)相結(jié)合預(yù)測(cè)SMILES序列。
早期的化學(xué)結(jié)構(gòu)圖像識(shí)別方法一般基于傳統(tǒng)圖像處理技術(shù)并結(jié)合流水線方式。CLiDE[2]通過識(shí)別階段、字符分組階段和解釋階段掃描化學(xué)結(jié)構(gòu)的連接表,并利用霍夫曼方法進(jìn)行線檢測(cè)。CLiDE Pro[3]是CLiDE的擴(kuò)展版本,對(duì)化學(xué)結(jié)構(gòu)圖像進(jìn)行預(yù)處理并識(shí)別連接的組件和圖像區(qū)域后,結(jié)合相關(guān)組件的形狀、上下文分析以及化學(xué)知識(shí),應(yīng)用特殊規(guī)則檢測(cè)和解釋難以繪制的特征。ChemReader[4]根據(jù)像素的連接方式將像素分為字符和圖像兩部分,并采用霍夫曼變換和角點(diǎn)檢測(cè)算法表示鍵連接的圖像組件。開源OSRA[5]使用Potrace庫(kù),采用OCR與線檢測(cè)相結(jié)合的方式進(jìn)行化學(xué)結(jié)構(gòu)識(shí)別。MLOCSR[6]基于模式識(shí)別技術(shù)與概率知識(shí)表示和推理的流水線集成方法識(shí)別化學(xué)結(jié)構(gòu)。以上工作均基于規(guī)則進(jìn)行化學(xué)結(jié)構(gòu)圖像的重建,并且字符與圖像之間通常分開檢測(cè),需要手工提取特征。
基于深度神經(jīng)網(wǎng)絡(luò)的化學(xué)結(jié)構(gòu)圖像識(shí)別方法因深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺和自然語(yǔ)言處理領(lǐng)域的快速發(fā)展而得到廣泛應(yīng)用。文獻(xiàn)[7]提出一種基于深度學(xué)習(xí)技術(shù)的化學(xué)結(jié)構(gòu)圖像識(shí)別方法,將輸入文檔生成對(duì)應(yīng)的SMILES序列。該方法先分割化學(xué)結(jié)構(gòu)圖像,再對(duì)分割出的圖像進(jìn)行化學(xué)結(jié)構(gòu)預(yù)測(cè),但其主要用于識(shí)別低分率圖像。
序列到序列(Sequence to Sequence,Seq2Seq)[8]模型由谷歌于2014年提出,其輸入與輸出均為不定長(zhǎng)序列,并且主要用于機(jī)器翻譯任務(wù)。隨著深度學(xué)習(xí)技術(shù)在自然語(yǔ)言處理領(lǐng)域的發(fā)展,序列生成被應(yīng)用于文本摘要生成[9-10]、機(jī)器翻譯[11-12]及圖像描述生成[13-14]等任務(wù)中。早期序列生成較多采用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),其主要包括門控循環(huán)單元(Gated Recurrent Unit,GRU)[15]和LSTM[16]模型。在圖像描述生成任務(wù)中,文獻(xiàn)[17]采用編碼-解碼架構(gòu)的序列生成模型,其中將CNN作為編碼器用于提取圖像特征,RNN作為解碼器用于序列生成。文獻(xiàn)[18]將注意力機(jī)制應(yīng)用于翻譯任務(wù)并取得了良好的效果,因此注意力機(jī)制逐漸成為提高序列生成準(zhǔn)確率的重要方法。2017年,谷歌提出的Transformer[19]完全通過自注意力機(jī)制學(xué)習(xí)文本的表示,并使用編解碼模型生成序列,在自然語(yǔ)言處理任務(wù)中取得了較好的應(yīng)用效果。
本文基于雙路注意力機(jī)制,并結(jié)合基于CNN與LSTM的深度神經(jīng)網(wǎng)絡(luò)模型,提出一種新的化學(xué)結(jié)構(gòu)圖像識(shí)別方法。深度神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示,由編碼模塊、解碼模塊和字符嵌入模塊組成。編碼模塊旨在通過多層卷積等操作對(duì)圖像進(jìn)行特征提取,得到的特征圖表示為fi(i=1,2,…,L),其中L代表特征圖的個(gè)數(shù)。字符嵌入模塊對(duì)SMILES序列進(jìn)行字符嵌入獲得字符的向量表示,解碼模塊基于雙路注意力機(jī)制并結(jié)合編碼模塊得到特征圖、當(dāng)前時(shí)刻的SMILES字符嵌入以及LSTM結(jié)構(gòu)預(yù)測(cè)下一個(gè)時(shí)刻的SMILES字符,其中特征圖表示為zi(i=1,2,…,L)。
圖1 深度神經(jīng)網(wǎng)絡(luò)模型
V=Encoder(X)
(1)
Vs=Squeeze(V)
(2)
Vc=Squeeze(Permute(V))
(3)
解碼模塊接收編碼模塊輸出的圖像特征表示并結(jié)合注意力機(jī)制生成SMILES序列?,F(xiàn)有注意力機(jī)制通常是指被建模為空間概率的注意力機(jī)制,該機(jī)制對(duì)語(yǔ)義相關(guān)區(qū)域賦予較高的權(quán)重[23]。CNN具有空間性、通道性和多層性等特性,考慮到化學(xué)結(jié)構(gòu)圖像的復(fù)雜性,除了空間注意力機(jī)制外,為通道維度賦予不同的權(quán)重對(duì)化學(xué)結(jié)構(gòu)識(shí)別任務(wù)同樣具有重要作用。文獻(xiàn)[24]利用自注意力機(jī)制的上下文依賴關(guān)系,提出一種用于場(chǎng)景分割的雙路注意力機(jī)制并取得了較好的效果。針對(duì)傳統(tǒng)空間注意力存在的問題,本文在解碼階段將空間注意力機(jī)制與通道注意力機(jī)制相結(jié)合,具體過程如圖2所示。
圖2 解碼過程
目前,一般采用RNN作為序列生成網(wǎng)絡(luò),考慮到LSTM對(duì)長(zhǎng)序列的語(yǔ)義具有較好的表示能力[25],因此本文采用LSTM作為序列生成網(wǎng)絡(luò)。在圖2中,空間特征圖與通道特征圖對(duì)應(yīng)的注意力權(quán)重分別表示為α和β。設(shè)t-1時(shí)刻利用空間注意力機(jī)制與通道注意力機(jī)制得到的特征融合表示為δt-1,t時(shí)刻SMILES的字符表示為wt,嵌入表示為vt,δt-1與字符嵌入向量進(jìn)行拼接得到的xt為t時(shí)刻LSTM的輸入,LSTM的輸入還包括上一時(shí)刻隱層的信息ht-1,最終預(yù)測(cè)出當(dāng)前時(shí)刻的字符y。t時(shí)刻字符的得分計(jì)算如式(4)~式(10)所示:
ft=σ(Wf·[ht-1,[δt-1;vt]]+bf)
(4)
it=σ(Wi·[ht-1,[δt-1;vt]]+bi)
(5)
(6)
(7)
ot=σ(Wo[δt-1;vt]+Uoht-1+bo)
(8)
ht=ot⊙tanh(ct)
(9)
scorest=Wsht+bs
(10)
其中,ft、it、ot、ht、ct分別表示遺忘門、輸入門、輸出門、隱狀態(tài)和中間狀態(tài),Wf、Wi、Wo、Wc、bf、bi、bo、bc分別表示遺忘門、輸入門、輸出門和中間狀態(tài)的權(quán)值矩陣以及偏置。
2.2.1 空間注意力機(jī)制
在通常情況下,SMILES序列中的某一個(gè)字符或者某一個(gè)子序列只與圖像中的某個(gè)區(qū)域有關(guān),例如預(yù)測(cè)子序列“c1ccccc1”(苯環(huán))時(shí),只與圖像中包含苯環(huán)的區(qū)域有關(guān),因此僅使用一個(gè)全局圖像特征表示進(jìn)行序列生成,但各區(qū)域的權(quán)重相同會(huì)導(dǎo)致預(yù)測(cè)結(jié)果變差,而利用空間注意力機(jī)制為語(yǔ)義相關(guān)的位置信息賦予更高的權(quán)重能顯著提高序列生成的準(zhǔn)確率。
經(jīng)過圖像編碼后得到的空間特征圖為Vs={s1,s2,…,si,…,sL},si表示第i個(gè)位置的視覺特征??臻g注意力機(jī)制的計(jì)算公式如式(11)~式(13)所示:
(11)
(12)
et-1,i=ht-1Wesi
(13)
2.2.2 通道注意力機(jī)制
文獻(xiàn)[26]提出通道注意力機(jī)制并將其應(yīng)用于目標(biāo)檢測(cè)網(wǎng)絡(luò)模型SENet中。由于CNN卷積核提取的特征之間存在一定冗余性,因此對(duì)每個(gè)通道賦予不同的權(quán)重并計(jì)算特征圖的加權(quán)平均以重新生成一個(gè)特征圖,該特征圖包含通道之間的相關(guān)關(guān)系,可視作對(duì)空間注意力機(jī)制的二次篩選,即語(yǔ)義選擇過程。通道特征圖表示為Vc={c1,c2,…,ci,…,cC},與空間注意力機(jī)制類似,通道注意力機(jī)制的計(jì)算公式如式(14)~式(16)所示:
(14)
(15)
zt-1,i=ht-1Wzci
(16)
{"C":1,"(":2,"=":3,"O":4,")":5,"[":6,"-":7,"]":8,"N":9,"+":10,"1":11,"P":12,"c":13,"l":14,"n":15,"2":16,"3":17,"H":18,"S":19,"4":20,"o":21,"#":22,"I":23,"s":24,"B":25,"r":26,"5":27,"F":28,"i":29,"A":30,".":31,"a":32,"g":33,"e":34,"6":35,"K":36,"Z":37,"7":38,"b":39,"M":40,"d":41,"u":42,"T":43,"G":44,"t":45,"V":46,"R":47,"h":48,"p":49,"W":50,"
考慮到空間注意力機(jī)制和通道注意力機(jī)制分別存在相應(yīng)權(quán)重,文獻(xiàn)[27]提出一種雙重隨機(jī)正則化激勵(lì)模型對(duì)圖像的每個(gè)部分賦予不同權(quán)重,且在同一時(shí)刻所有區(qū)域的注意力權(quán)重之和為1,根據(jù)LSTM前一時(shí)刻的輸出ht-1生成一個(gè)權(quán)重門控標(biāo)量。本文在此基礎(chǔ)上提出一種基于雙路加權(quán)正則化的類別交叉熵?fù)p失函數(shù),引入空間門控標(biāo)量和通道門控標(biāo)量融合空間注意力機(jī)制和通道注意力機(jī)制,通過最小化損失函數(shù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型,具體計(jì)算公式如下:
gateα,t=σ(Wαht-1+bα)
(17)
gateβ,t=σ(Wβht-1+bβ)
(18)
(19)
λ1(1-α)2+λ2(1-β)2
(20)
本文實(shí)驗(yàn)使用的數(shù)據(jù)集來自PubChem[28],包含10萬(wàn)個(gè)不同的SMILES序列,每個(gè)SMILES序列包含的字符數(shù)量為20個(gè)~80個(gè)。圖3為序列長(zhǎng)度分布情況。本文利用Rdkit[29]工具將SMILES序列轉(zhuǎn)換成相應(yīng)的化學(xué)結(jié)構(gòu)圖像,并將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集3個(gè)部分,其中序列數(shù)量分別為85 000、5 000、10 000。
圖3 SMILES序列長(zhǎng)度分布
BLEU值[30]是一種評(píng)估機(jī)器翻譯質(zhì)量的指標(biāo),通常采用BLEU值衡量預(yù)測(cè)序列的質(zhì)量。本文除采用準(zhǔn)確率、BLEU值作為評(píng)價(jià)指標(biāo)外,還采用Tanimoto[6]相似性指標(biāo)衡量預(yù)測(cè)SMILES序列與真實(shí)SMILES序列之間化學(xué)結(jié)構(gòu)模式的一致性。Tanimoto相似度指標(biāo)采用化學(xué)指紋進(jìn)行兩種化學(xué)結(jié)構(gòu)的相似性評(píng)估,例如兩種化學(xué)結(jié)構(gòu)之間的差異僅為一個(gè)原子(中心氮),但由于它們之間的化學(xué)指紋不匹配,因此相似度較低[6]。Tanimoto相似度計(jì)算公式如下:
(21)
其中,m1、m2表示SMILES字符串,fp表示分子指紋計(jì)算函數(shù)。
為驗(yàn)證本文基于雙路注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)模型(CNN+Dual+LSTM)的有效性,將其分別與無(wú)注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)模型(CNN+LSTM)、基于空間注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)模型(CNN+Spa+LSTM)以及基于通道注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)模型(CNN+Chan+LSTM)進(jìn)行對(duì)比。在解碼階段,詞嵌入維度設(shè)置為16,LSTM與注意力機(jī)制的隱層維度設(shè)置為256??臻g注意力機(jī)制和通道注意力機(jī)制的維度設(shè)置為512,批處理大小設(shè)置為16。此外,設(shè)置Dropout為0.5防止過擬合,使用Adam優(yōu)化算法加快模型收斂速度。在測(cè)試階段,采用束搜索策略提高預(yù)測(cè)準(zhǔn)確率,Beam Size設(shè)置為n,n取1、2、3。
實(shí)驗(yàn)基于PyTorch深度學(xué)習(xí)框架,在Ubuntu 16.0、NVIDIA GeForce RTX 2080 Ti環(huán)境下運(yùn)行。4種模型的參數(shù)量、批處理運(yùn)行時(shí)間及運(yùn)行時(shí)的顯存占用情況如表1所示。可以看出,雖然本文CNN+Dual+LSTM模型的參數(shù)量大,但其運(yùn)行時(shí)間與單注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)模型相比沒有較大差距。
表1 4種模型的參數(shù)量及運(yùn)行時(shí)間比較
在測(cè)試集中,4種模型在Beam Size分別取1、2、3時(shí)的準(zhǔn)確率如表2所示??梢钥闯?注意力機(jī)制對(duì)于化學(xué)結(jié)構(gòu)圖像識(shí)別具有重要作用。在特征提取網(wǎng)絡(luò)相同的情況下,不含注意力機(jī)制的深度神經(jīng)模型在化學(xué)結(jié)構(gòu)圖像識(shí)別任務(wù)上表現(xiàn)一般,單獨(dú)引入空間注意力機(jī)制和通道注意力機(jī)制后識(shí)別準(zhǔn)確率大幅提升。從整體上看,空間注意力機(jī)制優(yōu)于通道注意力機(jī)制,雙路注意力機(jī)制比單獨(dú)使用空間注意力機(jī)制提升了3%的SMILES序列預(yù)測(cè)準(zhǔn)確率,說明空間注意力機(jī)制與通道注意力機(jī)制的聯(lián)合有助于更好地預(yù)測(cè)SMILES序列。
表2 4種模型的準(zhǔn)確率對(duì)比
表3給出了4種模型在Beam Size分別取1、2、3時(shí)的BLEU值,其中BLEU-N分別衡量了預(yù)測(cè)序列與真實(shí)序列在1個(gè)字符、2個(gè)連續(xù)字符、……、N個(gè)連續(xù)字符尺度上的相似程度,本文中N取1~4??梢钥闯?本文提出的CNN+Dual+LSTM化學(xué)結(jié)構(gòu)圖像識(shí)別模型在BLEU值指標(biāo)上均優(yōu)于其他3種模型。從表2和表3也可以看出,在Beam Size取3的情況下,準(zhǔn)確率約提高1%,而BLEU值也有不同程度的提升。
表3 4種模型的BLEU值對(duì)比
表4給出了4種模型生成的無(wú)效化學(xué)結(jié)構(gòu)比例以及Tanimoto相似度分?jǐn)?shù)。由于生成的SMILES序列可能未遵守SMILES語(yǔ)法規(guī)則,因此是無(wú)效的化學(xué)結(jié)構(gòu)??梢钥闯?本文CNN+Dual+LSTM模型生成的無(wú)效化學(xué)結(jié)構(gòu)序列最少,得到的Tanimoto相似度最高,表明本文CNN+Dual+LSTM模型在SMILES語(yǔ)法表示能力上優(yōu)于其他模型。圖4為本文CNN+Dual+LSTM模型在訓(xùn)練集和驗(yàn)證集上的損失函數(shù)對(duì)比結(jié)果。損失函數(shù)共訓(xùn)練了20個(gè)輪次,其在前兩輪次時(shí)損失函數(shù)值下降較快,之后開始緩慢下降,驗(yàn)證集的損失函數(shù)值也緩慢下降,最終在第18輪收斂,模型性能達(dá)到最優(yōu)。
表4 4種模型的Tanimoto相似度對(duì)比
圖4 CNN+Dual+LSTM模型在訓(xùn)練集和驗(yàn)證集上的損失函數(shù)對(duì)比
通過選取測(cè)試集中的一部分圖像,對(duì)比不同模型預(yù)測(cè)的SMILES序列,如表5所示,其中SMILES序列這列中的第1行~第5行分別表示真實(shí)化學(xué)結(jié)構(gòu)圖像的原始SMILES序列及CNN+LSTM、CNN+Spa+LSTM、CNN+Chan+LSTM和CNN+Dual+LSTM模型預(yù)測(cè)的SMILES序列。本文將識(shí)別出的SMILES序列應(yīng)用Rdkit重新轉(zhuǎn)化為化學(xué)結(jié)構(gòu)圖像,如圖5所示,其中,黑楔形線表示方向向外的鍵,灰楔形線表示方向向內(nèi)的鍵。圖5(a)為不包含黑楔形鍵和灰楔形鍵的普通化學(xué)結(jié)構(gòu)圖像,可以看出4種模型都能識(shí)別出圖像中的原子,但是前3種模型對(duì)原子之間的關(guān)系識(shí)別有誤。圖5(b)給出的化學(xué)結(jié)構(gòu)圖像包含了黑楔形鍵和灰楔形鍵,4種模型均能較好地識(shí)別出原子信息,然而前3種模型難以區(qū)分黑楔形鍵和灰楔形鍵,表明雙路注意力機(jī)制在識(shí)別復(fù)雜化學(xué)結(jié)構(gòu)方面具有一定優(yōu)勢(shì)。由圖5(c)可以看出,雖然4種模型都未能完全正確地識(shí)別出SMILES序列,但是CNN+Dual+LSTM模型在原子及原子間關(guān)系識(shí)別上的性能表現(xiàn)要優(yōu)于其他模型。
表5 4種模型預(yù)測(cè)的SMILES序列對(duì)比
圖5 4種模型預(yù)測(cè)的SMILES序列識(shí)別出的化學(xué)結(jié)構(gòu)圖像
本文提出一種化學(xué)結(jié)構(gòu)圖像識(shí)別方法,將化學(xué)結(jié)構(gòu)圖像識(shí)別看作序列生成任務(wù),分別采用預(yù)訓(xùn)練的ResNet網(wǎng)絡(luò)以及基于雙路注意力機(jī)制與LSTM相結(jié)合的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像編碼與解碼。實(shí)驗(yàn)結(jié)果表明,本文方法能夠有效捕捉圖像中化學(xué)結(jié)構(gòu)與SMILES序列之間的對(duì)應(yīng)關(guān)系,并且識(shí)別出的SMILES序列準(zhǔn)確率較高。但由于本文實(shí)驗(yàn)僅針對(duì)不含基團(tuán)且分辨率較高的化學(xué)結(jié)構(gòu)圖像,因此下一步將通過篩選更長(zhǎng)的SMILES序列進(jìn)行化學(xué)結(jié)構(gòu)圖像生成,并對(duì)圖像添加噪聲增強(qiáng)圖像多樣性,同時(shí)針對(duì)取代基數(shù)據(jù),引入取代基字母與角標(biāo)的組合表示,使其更適用于專利文獻(xiàn)中存在的數(shù)據(jù)表示形式,從而提高深度神經(jīng)網(wǎng)絡(luò)模型在復(fù)雜且分辨率較低的化學(xué)結(jié)構(gòu)圖像中的泛化性能。