姚建華 李佳 徐雯麗 蔣舒仰 胡靜
1中國科學院能量調(diào)控材料重點實驗室,中國科學院上海有機化學研究所(上海 200032)
2鄭州工程技術學院 (河南鄭州 450044)
截至目前,美國SCIFINDER數(shù)據(jù)庫系統(tǒng)收錄的化合物數(shù)據(jù)已達1.55億,其中有很多化合物的化學結(jié)構(gòu)有多種表達形式,被稱為化學結(jié)構(gòu)表示的歧義性。這種歧義性給化學結(jié)構(gòu)的計算機處理帶來了困難。結(jié)構(gòu)歧義性產(chǎn)生的主要原因為:(1)有些化合物能夠用多種都滿足價鍵理論的結(jié)構(gòu)式來表示;(2)某些化合物結(jié)構(gòu)不能用數(shù)學上的圖明確表示。
在眾多的化合物分子中,有些化合物有不止一個滿足價鍵理論的結(jié)構(gòu)表示方式,即可有多個結(jié)構(gòu)式表示同一個化合物分子。如化合物嘌啉,它的化學結(jié)構(gòu)式可以用如圖1所示的6種結(jié)構(gòu)式表達,這6種表達式之間的主要區(qū)別是其中的雙鍵位置不同,但它們都滿足價鍵理論的要求?;瘜W家在用結(jié)構(gòu)式來描述或討論嘌啉的化學物理性質(zhì)時,可以從這6種結(jié)構(gòu)表示式中隨意挑選一個使用,但計算機自動識別這6種結(jié)構(gòu)為同一個化合物,則需要采用專用的策略作預處理。
計算機處理歧義結(jié)構(gòu)時遇到的問題主要有兩大類:(1)化合物分子與其結(jié)構(gòu)表達式之間缺少一對一的對應關系;(2)某些歧義結(jié)構(gòu)不能用數(shù)學上的圖來表示。
所謂化合物分子與其結(jié)構(gòu)表達式之間缺少一對一的對應關系,即一個化合物可有多種結(jié)構(gòu)表達式,如圖1所示。
圖1 嘌啉結(jié)構(gòu)的6種表達方式
所謂某些歧義結(jié)構(gòu)不能用數(shù)學上的圖來表示,是由于圖論的表達能力不能滿足化學鍵理論所要表達內(nèi)容的要求。如在價鍵理論中,將化學鍵描述為由原子間共享電子而形成。根據(jù)提供電子方式的不同,可以形成δ鍵、π鍵以及配價鍵等不同類型的化學鍵;根據(jù)共享電子云密度的不同,形成的化學鍵可分為單鍵、雙鍵、三鍵等。δ鍵是成鍵的兩原子各自提供一個電子;π鍵或配價鍵是由成鍵的兩原子可以各自提供一個電子,也可以一個原子提供空軌道而另一個提供共享的電子對,甚至可以由成鍵的π電子來提供。遺憾的是,圖論無法表達化學鍵的軌道或電子信息。
對于具體某一類型的化合物而言,出現(xiàn)的歧義結(jié)構(gòu)的形式可能具有某種規(guī)律性。為此,不同的化學結(jié)構(gòu)處理系統(tǒng)都有對應的處理策略和方法。這些方法主要包括:(1)輸入所有結(jié)構(gòu)式(Multiple-Acceptation);(2) 選擇某一結(jié)構(gòu)(Selection);(3) 轉(zhuǎn)換成某一確定結(jié)構(gòu)式(Transformation)。
這是3種方法中最簡單的處理方式。即將一個化合物分子滿足價鍵理論的所有結(jié)構(gòu)都進行編碼處理,并輸入到對應的庫文件中。當需要恢復時,可采用任何一種形式的結(jié)構(gòu)式。注意,這里所謂的產(chǎn)生所有結(jié)構(gòu),并不是產(chǎn)生所有的同分異構(gòu)體,而是在保持化合物分子的物理化學性質(zhì)不變且滿足價鍵理論時的化學結(jié)構(gòu)表示形式的變化。為確保完整性和準確性,應盡可能窮盡一個化合物的所有結(jié)構(gòu)式,這將大大增加輸入結(jié)構(gòu)式的工作量,而且在結(jié)構(gòu)式的計算機處理過程中會遇到組合問題,這將涉及計算機資源因素。因此,這種方法適用于那些結(jié)構(gòu)變化小,且不是很復雜的化合物,如碳水化合物和共振離子化合物。
對于碳水化合物而言,其存在方式處于一個動態(tài)平衡之中,習慣上可寫成直鏈或環(huán)狀(五或六元環(huán))兩種形式,如圖2所示。在形成環(huán)狀結(jié)構(gòu)時,羰基碳原子有兩種不同的構(gòu)型,從環(huán)狀形式到直鏈形式會丟失碳原子上的立體化學信息。此類結(jié)構(gòu)歧義性問題可采用錄入全部可能的結(jié)構(gòu)形式的辦法來解決。
在輸入結(jié)構(gòu)時,采用一種基于結(jié)構(gòu)式規(guī)則的自動測試方法,從所有各種可能的結(jié)構(gòu)式中選出一個作為對應的標準結(jié)構(gòu)式FG(Formal graph),并只輸入該結(jié)構(gòu)式。FG是在有限個不同結(jié)構(gòu)中選擇出來的最具代表性的一個,它是采用某種判別過程后所得到的結(jié)構(gòu)式。顯然,這種方法應滿足一定的要求,或有一個統(tǒng)一的格式。對不同類型的化合物,應有不同的標準。
由于化學結(jié)構(gòu)式的描述是基于化學鍵理論,而化學鍵理論自身的不完備性使得對一些類型的化合物分子很難實現(xiàn)結(jié)構(gòu)描述。例如,采用Huckel規(guī)則或Craig規(guī)則來處理大環(huán)輪烯時,當輪烯(annulene)的n>26時,即使符合Huckel規(guī)則,也已不為共振所穩(wěn)定,即已失去芳香性,再選用芳香鍵描述的結(jié)構(gòu)作為代表時,似乎已不再合理。因而,該方法只對一些特定類型的化合物有效,如帶離域電荷的離子、配價鍵化合物、無機化合物、氮鹽及類似物、加成化合物及多肽等。
這是一種規(guī)范化處理方法,即將代表一化合物的所有可能的不同結(jié)構(gòu)表示形式都轉(zhuǎn)換成一個統(tǒng)一的結(jié)構(gòu)表達式,只對該規(guī)范化后的結(jié)構(gòu)表達式進行編碼處理。在這個轉(zhuǎn)換過程中,需保留盡可能多的結(jié)構(gòu)特征信息。為此,在轉(zhuǎn)換過程中要對被轉(zhuǎn)換的部分進行一定形式的標記。通常不帶標記的轉(zhuǎn)換,因為會丟失太多的信息而不予考慮,而只考慮在采用規(guī)范化標記圖(Normalized graph)的同時也錄入所有其他結(jié)構(gòu)式的轉(zhuǎn)換。規(guī)范化標記圖是有限個不同結(jié)構(gòu)式F1,F(xiàn)2,…,F(xiàn)n的共有標志,它是對所考慮的結(jié)構(gòu)式應用某種規(guī)則處理后產(chǎn)生的結(jié)構(gòu)式。
這種方法的操作步驟主要包含4步:(1)對需錄入化合物的歧義結(jié)構(gòu)表達式進行描述;(2)產(chǎn)生規(guī)范化標記圖;(3)對規(guī)范化標記圖進行描述;(4)對有同一規(guī)范化標記圖的化合物進行關聯(lián)。
在結(jié)構(gòu)描述文件中,一般只記錄規(guī)范化標記圖和無歧義的結(jié)構(gòu)。每個標記圖中應有指針指向放在稱為“原始結(jié)構(gòu)文件”的輔助文件中相應的歧義結(jié)構(gòu)。這個文件被查詢時,既可通過標記圖也可通過出現(xiàn)過的結(jié)構(gòu)進行查詢。為了生成標記圖,不可能只確定一個總規(guī)則,因為這涉及到許多特定的規(guī)則,例如共振異構(gòu)、互變異構(gòu)等。但是,生成標記圖的規(guī)則必須與描述化合物結(jié)構(gòu)的規(guī)則相一致。一般規(guī)范化標記圖的產(chǎn)生不應十分復雜,以便簡化文件的使用。因此,只有最常見的那些歧義結(jié)構(gòu)是用標記圖與結(jié)構(gòu)文件相關聯(lián)的。通常限于以下3種:互變異構(gòu)化合物、交替鍵化合物、金屬鹽類。
由于這種方法會使某些非正規(guī)畫法的化學結(jié)構(gòu)式中包含的信息丟失。例如,當把用箭頭表示配位鍵的結(jié)構(gòu)式轉(zhuǎn)換成其他形式時,就會丟失哪個原子給電子、哪個原子接受電子的信息。因而,這種方法的適用性有一定的范圍。
關于化合物分子結(jié)構(gòu)表示的歧義性問題,目前還沒有一個通用的解決方法。以上提出的3種解決方法,各自有著不同的優(yōu)缺點,不同的化學結(jié)構(gòu)處理系統(tǒng)可根據(jù)所處理的化合物類型采用相對應的方法。在實際的結(jié)構(gòu)處理過程中,比較合理的解決辦法或一般原則,應該能夠遵守化學中的近似原理,即輸入化學結(jié)構(gòu)應最大限度地反映出化學家的習慣。