王鳳蘭
(中國中醫(yī)科學(xué)院中國醫(yī)史文獻(xiàn)研究所,北京 100700)
相對于中醫(yī)古籍所蘊(yùn)含的極大價(jià)值而言,目前中醫(yī)教育、科研、臨床存在對中醫(yī)古籍知識利用嚴(yán)重不足的現(xiàn)象,這與中醫(yī)文獻(xiàn)的研究方法固守傳統(tǒng),不能有所突破密切相關(guān)。事實(shí)上,領(lǐng)域內(nèi)一些專家20世紀(jì)90年代起便對中醫(yī)文獻(xiàn)的研究方法提出前瞻性的看法,認(rèn)為中醫(yī)文獻(xiàn)研究要探索和建立新的技術(shù)與方法,如采用實(shí)證的方法,使中醫(yī)文獻(xiàn)研究的水平進(jìn)一步提高[1-2]。還有一些學(xué)者明確指出,中醫(yī)文獻(xiàn)研究要借鑒與利用信息技術(shù),可為文獻(xiàn)研究的開展提供廣闊的發(fā)展空間[1,3-4]。更有學(xué)者基于中醫(yī)數(shù)字化的研究方法認(rèn)為,不僅要利用好信息技術(shù),還要在文獻(xiàn)研究中引入循證醫(yī)學(xué)的思想,對中醫(yī)古籍知識的證據(jù)級別進(jìn)行評估[5]。
基于知識元的中醫(yī)古籍文獻(xiàn)研究方法是傳統(tǒng)古籍整理研究結(jié)合信息技術(shù)所產(chǎn)生的新方法與新技術(shù)。文本主要基于知識元的知識表示方法取得的成就、存在的問題和未來可能的發(fā)展方向進(jìn)行論述。
基于知識元的研究方法由中醫(yī)知識體、知識元、語義三部分組成。
1.1.1 中醫(yī)知識體 知識體(Body knowledge, BK)是知識系統(tǒng)中可以獨(dú)立表達(dá)一個特定主題的不可再分解的知識單元,是位于知識元上一層次的知識,由兩個及以上對應(yīng)同一主題的知識元聚合而成,通過體概念來描述。知識體對象表現(xiàn)為從自然文本中抽取出的包含有兩個及以上對應(yīng)同一主題知識元對象的一段連續(xù)的文字。在中醫(yī)古籍的數(shù)字化建設(shè)中,知識體主要是指知識體系,如病證知識體、本草知識體、醫(yī)案知識體等。由于這些知識的描述與表達(dá)是在特定語言背景下的,因此,其內(nèi)容十分豐富,被學(xué)者們稱之為“海量數(shù)據(jù)”[6]。同時,面向古籍的數(shù)字化需求,知識體亦可以應(yīng)用于古籍的書體結(jié)構(gòu)表達(dá)上,即一種古籍的卷、篇、章結(jié)構(gòu)。在具體實(shí)施中,一種古籍的卷可以被視為是一個知識體,篇及章節(jié)等亦如此。因此,中醫(yī)古籍的知識體既可以指代內(nèi)容,亦可以指代結(jié)構(gòu)。
1.1.2 中醫(yī)知識元 知識元(Element knowledge,EK)是知識系統(tǒng)中可以表達(dá)一個完整概念的不可再分解的最小知識單元。在形式上它是由多個詞語、詞組或短語構(gòu)成的集合,在內(nèi)容上它表達(dá)一項(xiàng)相對完整的知識。知識元對象表現(xiàn)為從自然文本中抽取出的由詞語、詞組或短句構(gòu)成的一段連續(xù)的文字。中醫(yī)古籍的知識元十分豐富,有學(xué)者統(tǒng)計(jì),中醫(yī)古籍共包含217種不同屬性的知識元[6]。知識元一般包含于一個特定的知識體內(nèi),如病證知識體所包含的知識元有19個之多,醫(yī)案知識體所包含的知識元24個,本草知識體所包含的知識元32個[6]。知識元力求能夠通過多層次、多角度反映知識體內(nèi)容。有時候會存在不同知識體包含同樣名稱的知識元現(xiàn)象。如“宜忌”知識元,既是病證知識體內(nèi)的知識元,亦是本草知識體的知識元,知識元名稱雖然相同,但由于其所在的知識體不同,其含義亦不同。因此,對中醫(yī)古籍知識元的研究是進(jìn)一步深化知識元理論,并對知識規(guī)律演變研究的一個重要途徑。對知識構(gòu)成組分問題的研究體現(xiàn)了人類對知識認(rèn)識的深化,是人類對知識認(rèn)識的必然趨勢。因此,對知識元及其運(yùn)動規(guī)律的研究具有重要的理論價(jià)值。[7]
1.1.3 中醫(yī)語義 語義是構(gòu)成知識元的基本要素,是知識元中完備表達(dá)單一概念的詞組或短語,在知識元中具有不可分割性。知識系統(tǒng)中的語義成分按照共有屬性可劃分為抽象的類,稱之為“語義類型”,即通常意義的概念。中醫(yī)古籍的語義隨著知識類別的不同,表述方式以及結(jié)構(gòu)存在差異。
基于中醫(yī)古籍知識元這種深入文獻(xiàn)內(nèi)部的知識組織方法,通過對中醫(yī)古籍文獻(xiàn)中知識元的抽取與標(biāo)引,構(gòu)建起以知識體為單元的知識組織體系;通過對語義成分間關(guān)系的標(biāo)引,關(guān)聯(lián)起中醫(yī)古籍的知識語義網(wǎng)絡(luò),形成具有全新概念的中醫(yī)知識表示體系,將古籍知識由自然記載形式過渡到適合計(jì)算機(jī)處理的表示形式,使中醫(yī)古籍知識表示突破了零的界限[6]。
2006年,史睿[8]指出,古籍?dāng)?shù)字化屬于古籍整理和學(xué)術(shù)研究的范疇,明確了古籍?dāng)?shù)字化的實(shí)質(zhì)?;谥嗅t(yī)古籍知識元的研究方法受古代目錄學(xué)、??睂W(xué)等傳統(tǒng)中醫(yī)古籍整理的理論和方法啟示,與現(xiàn)代信息技術(shù)元數(shù)據(jù)理論相結(jié)合,形成的一套具有全新概念的中醫(yī)古籍整理方法,該方法隸屬于傳統(tǒng)中醫(yī)古籍整理的方法與范疇,是傳統(tǒng)中醫(yī)古籍整理方法的延續(xù)與發(fā)展[6]。
中醫(yī)古籍內(nèi)涵十分豐富,為了將復(fù)雜的中醫(yī)古籍知識呈現(xiàn),實(shí)現(xiàn)傳統(tǒng)文獻(xiàn)學(xué)研究的“辨章學(xué)術(shù),考鏡源流”,對中醫(yī)古籍的知識分類必須先行。有學(xué)者將中醫(yī)古籍知識分為9大類:生命知識、養(yǎng)生知識、疾病知識、診斷知識、療法知識、針灸知識、方劑知識、藥物知識、相關(guān)知識等[9]。對中醫(yī)知識的分類,是實(shí)現(xiàn)知識管理的重要基礎(chǔ)與條件。
借鑒“章句之學(xué)”理念,并利用“編制卡片”,對知識進(jìn)行管理,發(fā)現(xiàn)中醫(yī)古籍知識表示的是一個邏輯思維現(xiàn)象,即一個較大范圍主題的知識往往由幾個指向同一主題的較小知識單元構(gòu)成,由此,構(gòu)建了中醫(yī)知識體(中醫(yī)知識分類)、知識元(一個獨(dú)立的可表達(dá)完整中醫(yī)知識并不可再分的單元)、語義(詞與詞組)等具有全新內(nèi)涵的概念。
故基于知識元理論的中醫(yī)古籍?dāng)?shù)字化,不是無本之木、無水之源,知識元理論與傳統(tǒng)古籍整理的章句之學(xué)和分類思想一脈相承,是對中醫(yī)傳統(tǒng)古籍整理的延續(xù)與發(fā)展。
2004年柳長華發(fā)表了“基于知識元的中醫(yī)古籍計(jì)算機(jī)知識表示方法”[9]。此后,基于知識元的中醫(yī)古籍?dāng)?shù)字化陸續(xù)從多角度展開,主要有知識元理論、古籍?dāng)⒃~表、知識挖掘、古籍知識循證等研究方向。丁侃[10-13]基于知識元理論,研究了中醫(yī)古籍元數(shù)據(jù),并進(jìn)一步探討了基于知識元的中醫(yī)古籍方劑知識表示,同時對國內(nèi)知識元相關(guān)研究現(xiàn)狀進(jìn)行分析,在中醫(yī)學(xué)術(shù)傳承脈絡(luò)構(gòu)建方面提出了設(shè)想。徐春波[14]主要致力于中醫(yī)古籍的元數(shù)據(jù)、知識單元的組織及敘詞表的構(gòu)建等研究。楊繼紅[15]探討了基于本體的中醫(yī)古籍?dāng)⒃~表構(gòu)建方法。顧漫[16]對中醫(yī)古籍基于知識元的敘詞表構(gòu)建進(jìn)行了傳統(tǒng)古籍整理的溯源研究,許雯[17]在中醫(yī)古籍?dāng)⒃~表體系構(gòu)建上提出采用“中醫(yī)知識分面分類的思想和等級列舉式分類法,進(jìn)行多元劃分、多重列類”,古求知[18]以溫病古籍為研究對象,討論了溫病古籍的知識特點(diǎn)和知識發(fā)現(xiàn)方法,并對病證、診法、方劑與藥物知識等相關(guān)性進(jìn)行了方法學(xué)探討。王鳳蘭[5,19]基于回顧性分析,探索了對古代臨床醫(yī)家進(jìn)行評價(jià)的方法,提出“三位一體”對中醫(yī)古籍知識進(jìn)行循證研究,同時在知識表示與標(biāo)引方面進(jìn)行了學(xué)術(shù)探討[20];陶曉華[21-22]基于“知識元”理論的《傷寒論》標(biāo)引實(shí)踐,構(gòu)建了基于知識元的“病脈證并治”標(biāo)引模板。
目前學(xué)界在中醫(yī)古籍的元數(shù)據(jù)構(gòu)成、敘詞表構(gòu)建、知識發(fā)現(xiàn)、循證研究均有涉獵,并基于此構(gòu)建了系列古籍知識庫檢索系統(tǒng)及決策支持系統(tǒng)等[23],形成了系列古籍?dāng)?shù)字化規(guī)范和標(biāo)引手冊,具備了規(guī)?;_展中醫(yī)古籍?dāng)?shù)字化建設(shè)的條件與基礎(chǔ)。
語義類型是概念所屬的語義形態(tài),語義關(guān)系則表達(dá)概念之間的關(guān)系。語義類型和語義關(guān)系共同構(gòu)成網(wǎng)狀的語義結(jié)構(gòu),在這種網(wǎng)狀的結(jié)構(gòu)中,語義類型相當(dāng)于語義網(wǎng)絡(luò)的節(jié)點(diǎn),而節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系則是語義關(guān)系[24]。
嚴(yán)季瀾將“語義類型”與“語義關(guān)系”放在知識元的框架下進(jìn)行釋義,謂“知識系統(tǒng)是由知識元構(gòu)成的,知識元是由語義成分構(gòu)成的。知識系統(tǒng)中的語義成分可以按照共有屬性劃分為抽象的類,即‘語義類型’”,“單獨(dú)的語義成分往往不能表示完整的知識,語義成分的相互關(guān)聯(lián)是知識表達(dá)的關(guān)鍵。語義成分之間關(guān)聯(lián)的含義,成為語義關(guān)系”[25]。
學(xué)者們已經(jīng)從中醫(yī)的思維習(xí)慣及語言表述特征,認(rèn)識到中醫(yī)古籍所承載的知識與現(xiàn)代醫(yī)學(xué)不同。朱毓梅認(rèn)為:“中醫(yī)思維的習(xí)慣是‘取類比象’,個體化診療是中醫(yī)臨床的特色描述方式。”[26]崔家鵬認(rèn)為:“將中醫(yī)以象思維為特點(diǎn)的知識表述模式轉(zhuǎn)換為用語義關(guān)系這類邏輯關(guān)系的知識表述形式,并將中醫(yī)知識完整、精準(zhǔn)地表述,中醫(yī)藥學(xué)語言系統(tǒng)(TCMLS)的58種語義關(guān)系是不足以實(shí)現(xiàn)的?!盵27]崔家鵬還提出,在研究中要充分認(rèn)識到,語義概念的提取是基于古籍這一語境:“為保證語義關(guān)系構(gòu)建的準(zhǔn)確性,采用人工知識抽取方法?!凑Z境逐句分析語義關(guān)系素材庫中資料的語義,逐一確定領(lǐng)域概念的語義類型、每兩個領(lǐng)域概念間的語義關(guān)系”[27]。說明構(gòu)建中醫(yī)古籍的語義類型及語義關(guān)系,不能背離從古籍中客觀收詞的原則,并需基于一定語境進(jìn)行深度分析,所構(gòu)建的語義關(guān)系與語義類型當(dāng)可信。
朱毓梅亦認(rèn)為:“由于古籍年代和地域的差距過大,一詞多義、多詞同義現(xiàn)象非常普遍。”[26]因此,基于中醫(yī)古籍的語義類型及語義關(guān)系的構(gòu)建必更加復(fù)雜。目前,學(xué)界基于某些病證構(gòu)建其知識本體,研究了幾種病證語義類型與語義關(guān)系,如朱玲[28]構(gòu)建了《醫(yī)學(xué)綱目》語義關(guān)系;崔家鵬[27]基于部分古籍結(jié)合術(shù)語詞典等工具構(gòu)建脾臟理論語義關(guān)系;許雯[29]利用TCMLS 所制定的127種語義類型、58種語義關(guān)系示范性地構(gòu)建了語義網(wǎng)絡(luò)。
基于上述研究,中醫(yī)古籍的語義類型及語義關(guān)系研究尚處于初級階段。筆者認(rèn)為可以從古籍的類別入手,進(jìn)行深入研究,如可從中醫(yī)內(nèi)科古籍或者方劑古籍開始,研究其語義類型及語義關(guān)系;亦可以從中醫(yī)的知識分類入手,如生命知識或病證知識入手,構(gòu)建一類古籍文獻(xiàn)或者一類知識的語義類型與語義關(guān)系。
黃俊偉[30]研究認(rèn)為,目前學(xué)界對知識元的概念尚未統(tǒng)一,分歧主要在于對知識元粒度的認(rèn)知上。多數(shù)專家認(rèn)為知識元是構(gòu)成知識的最小單位,是知識系統(tǒng)的最小元素,是在知識管理中可以對知識進(jìn)行獨(dú)立、自由、有效地識別、處理與組合的基本知識單位[6]。少數(shù)學(xué)者認(rèn)為知識元是基本知識單位,能夠再劃分,為此產(chǎn)生了關(guān)于知識元分類的諸多討論[31]。
黃俊偉分析了兩種不同概念的知識元對知識組織與挖掘帶來的利弊:“知識元相對獨(dú)立的概念不能滿足中醫(yī)古籍文獻(xiàn)知識元研究的需求。”[30]而陶曉華所研發(fā)的“病脈證并治”知識元抽取主要是以書籍自身的物理結(jié)構(gòu),即標(biāo)題、章、節(jié)、段、句、詞等為依據(jù),再以文本的邏輯結(jié)構(gòu)為依據(jù)進(jìn)行語義關(guān)聯(lián)[32]。黃俊偉評價(jià)這種方法最終是以知識元或知識體進(jìn)行語義關(guān)聯(lián),而缺乏在“元概念”層次的內(nèi)在關(guān)系研究。其優(yōu)點(diǎn)是在一定程度上保存了文本的整體知識結(jié)構(gòu),但容易失去文本中的隱性邏輯關(guān)系。
丁侃[8]以中醫(yī)古籍方劑知識元為研究核心,通過對古籍中方劑知識元的抽取與標(biāo)引,試圖構(gòu)建以知識元為單元的知識組織體系,通過對語義關(guān)系的標(biāo)引,關(guān)聯(lián)起中醫(yī)古籍方劑的知識語義網(wǎng)絡(luò),從而構(gòu)建起以知識元為核心的知識表示體系,并嘗試采用形式化的手段進(jìn)行表達(dá)。方劑知識結(jié)構(gòu)是各類知識體中邏輯關(guān)系較為清晰的一種。盡管如此,該研究只對方劑構(gòu)成的部分知識元進(jìn)行了基于語義關(guān)系的標(biāo)引與形式化表達(dá)研究,缺乏系統(tǒng)性與完整性。
陶曉華[32]在基于知識元理論的“病脈證并治”標(biāo)引模板下,以“辨病-平脈-析證-定治”的四步診療決策模式為思維導(dǎo)線,對《傷寒論》進(jìn)行了基于知識元的深度標(biāo)引,示范性地挖掘了其蘊(yùn)含的學(xué)術(shù)思想及思維價(jià)值。張泠杉[33]以《王旭高醫(yī)案》為對象,在對古籍醫(yī)案基于知識元的深度標(biāo)引基礎(chǔ)上,利用MS SQLServer數(shù)據(jù)庫將標(biāo)引數(shù)據(jù)讀取為邏輯數(shù)據(jù)進(jìn)行初步分析;并以基于neo4j數(shù)據(jù)庫構(gòu)建的中醫(yī)古籍知識圖譜技術(shù)呈現(xiàn)出顯性知識,同時探析其深層的邏輯推理關(guān)系,以探求其隱性知識。
由此,筆者認(rèn)為通過對古籍文獻(xiàn)基于知識元的深度標(biāo)引及利用知識圖譜技術(shù),實(shí)現(xiàn)對醫(yī)家學(xué)術(shù)思想及隱性知識的挖掘,在理論上是可行的,但在具體實(shí)現(xiàn)上仍存在較大難度,尚屬于初期探索階段。如在理論研究上,中醫(yī)古籍中所包含的知識元分類除6類分法外,是否還有其他更加適合中醫(yī)古籍知識組織的分類?在技術(shù)方面,如何解決既能保存文本的整體知識結(jié)構(gòu),又不失去文本中對隱性邏輯關(guān)系的呈現(xiàn)?因而,解決這些學(xué)術(shù)問題,是深化與持續(xù)推進(jìn)中醫(yī)古籍知識元研究的關(guān)鍵,中醫(yī)古籍的知識元研究任重而道遠(yuǎn)。
2001年,國家中醫(yī)藥管理局召開的“全國中醫(yī)藥工作會議”指出:“中醫(yī)藥學(xué)術(shù)繼承是中醫(yī)藥科研的重要任務(wù)之一,必須擺在突出的位置。要認(rèn)真抓好中醫(yī)藥文獻(xiàn)整理工作,去粗取精,去偽存真,科學(xué)提煉歷代中醫(yī)藥學(xué)術(shù)發(fā)展精華,通過歸納升華為理論,豐富中醫(yī)藥理論和臨床診療技術(shù)”[34]。中醫(yī)古籍與文史古籍所不同的是實(shí)用價(jià)值,這個實(shí)用性是實(shí)實(shí)在在的,與臨證切合,符合臨證需求?!叭未嬲?,去粗取精”是中醫(yī)臨床古籍文獻(xiàn)整理的重要方法,體現(xiàn)了臨床文獻(xiàn)須切合臨床需求,并對臨床醫(yī)學(xué)具有指導(dǎo)和參考價(jià)值。
中醫(yī)古籍整理歷史悠久,早在《漢書·藝文志》便將中醫(yī)古籍歸屬于六略中的方劑略,分為醫(yī)經(jīng)、經(jīng)方、房中與神仙4類。在古籍整理中形成有關(guān)中醫(yī)古籍的目錄學(xué)、版本學(xué)、??睂W(xué)等理論與實(shí)踐兼?zhèn)涞奈墨I(xiàn)學(xué)科。20世紀(jì)90年代末,信息技術(shù)在中醫(yī)藥領(lǐng)域的運(yùn)用,加快了傳統(tǒng)古籍整理的步伐,并衍化出相對系統(tǒng)的被賦予了全新概念的知識體、知識元、語義體系,這是信息化技術(shù)對傳統(tǒng)文獻(xiàn)研究的補(bǔ)充與創(chuàng)新。
2019年,有學(xué)者提出對中醫(yī)古籍知識循證的設(shè)想,綜合參考人腦獲取知識的思維模式,提出綜合醫(yī)家、古籍、知識三個知識體所構(gòu)建的數(shù)據(jù)模型協(xié)同對知識元數(shù)據(jù)進(jìn)行證據(jù)級別的計(jì)算與篩序,實(shí)現(xiàn)傳統(tǒng)中醫(yī)古籍整理的“去偽存真,去粗取精”[5]。對中醫(yī)古籍相似知識的循證研究,可以透過文獻(xiàn)表面,深入到古籍內(nèi)部,對知識的有效性進(jìn)行評價(jià)。循證評價(jià)研究既是對古籍整理研究的繼承,又是對古籍整理的創(chuàng)新,是對文獻(xiàn)學(xué)研究的進(jìn)一步延伸與發(fā)展。
根據(jù)《中醫(yī)圖書聯(lián)合目錄》,目前留存下來的中醫(yī)古籍有萬余種,作為個體的人面向海量中醫(yī)古籍進(jìn)行知識獲取,難免存在獲取不全面、時間成本高等缺陷,在信息化技術(shù)飛速發(fā)展的今天,已然不具有優(yōu)勢。從學(xué)術(shù)研究的角度而言,如何利用信息技術(shù),對中醫(yī)古籍文獻(xiàn)中所記載疾病的發(fā)生、發(fā)展、源流、證候、診斷、治法、方藥等諸多內(nèi)容進(jìn)行梳理與分析,探求古代醫(yī)家對疾病發(fā)生、發(fā)展、轉(zhuǎn)歸規(guī)律的認(rèn)知,是對傳統(tǒng)文獻(xiàn)學(xué)研究方法的補(bǔ)充與發(fā)展。
基于知識元的中醫(yī)古籍研究經(jīng)過近20余年的數(shù)字化實(shí)踐,首先證明這一技術(shù)符合中醫(yī)古籍知識構(gòu)成邏輯,確能深入到文獻(xiàn)內(nèi)容,實(shí)施對古籍中知識的表示,并能夠?qū)崿F(xiàn)對其重新組織與管理,是發(fā)現(xiàn)中醫(yī)古籍新知識的有效技術(shù)手段之一;其次,通過對中醫(yī)古籍知識基于知識元的抽取與標(biāo)引,將中醫(yī)古籍的一個完整知識予以結(jié)構(gòu)化表示,為相似知識的循證奠定了基礎(chǔ),使中醫(yī)古籍知識的循證成為可能。目前,盡管這種方法仍然存在各種不足與問題,但在當(dāng)今信息化高度發(fā)展的背景下,無疑是一種重要的古籍文獻(xiàn)研究方法,期待學(xué)界通力合作,加強(qiáng)對其研究的深度與廣泛,進(jìn)一步完善這一古籍整理的新方法與新技術(shù)。