于東林 田 欣 張 磊 張 偉 徐志銳
駱 真1 劉中華1 王義國3 張啟明3
(1.山東中醫(yī)藥大學,山東濟南 250355)
(2.寧夏醫(yī)科大學,寧夏銀川 750004)
(3.中國中醫(yī)科學院中醫(yī)臨床基礎(chǔ)醫(yī)學研究所,北京 100700)
中醫(yī)癥狀單元的概念詞組、描述詞組和派生詞組
于東林1田 欣1張 磊1張 偉2徐志銳1
駱 真1劉中華1王義國3張啟明3
(1.山東中醫(yī)藥大學,山東濟南 250355)
(2.寧夏醫(yī)科大學,寧夏銀川 750004)
(3.中國中醫(yī)科學院中醫(yī)臨床基礎(chǔ)醫(yī)學研究所,北京 100700)
以中醫(yī)歷代醫(yī)案數(shù)據(jù)庫中的癥狀原文描述為研究對象,基于科技術(shù)語的命名原則和詞匯學關(guān)于詞組的分類,參考中醫(yī)癥狀學權(quán)威著作,編程提取癥狀單元的概念詞組、描述詞組和派生詞組。最終得出概念詞組、描述詞組和派生詞組的提取是中醫(yī)癥狀名稱規(guī)范可資借鑒的方法的結(jié)論。
癥狀單元,命名,中醫(yī)診斷
癥狀是中醫(yī)認識疾病、辨識癥候及療效評價的主要依據(jù),規(guī)范的癥狀名稱是順利開展學術(shù)研究和交流的重要前提。然而中醫(yī)癥狀尚未形成統(tǒng)一的名稱,如“閉經(jīng)”在歷代醫(yī)案中就有“經(jīng)阻、癸停、信阻、汛事不至、信水不行、月事不潮、經(jīng)信停止、經(jīng)汛未至”等 143種說法,“眼瞼下垂”在當代權(quán)威著作中有“上胞下垂、胞瞼下垂”等不同的表達方式,容易產(chǎn)生歧義。故本文以歷代醫(yī)案數(shù)據(jù)庫中的癥狀原文描述為研究對象,基于科技術(shù)語的命名原則和詞匯學關(guān)于詞組的分類,參考中醫(yī)癥狀學權(quán)威著作,確認了 427個癥狀單元的概念詞組、描述詞組和派生詞組,希望成為中醫(yī)癥狀名稱規(guī)范可資借鑒的方法。
1.詞組
詞匯系統(tǒng)包括語素、詞和詞組[1]三個不同層級的單位。其中語素是最小的語音語義結(jié)合體和最小的語法單位;詞是由語素構(gòu)成的、能夠獨立運用的最小的造句單位;詞組是由詞和詞按照一定的語義搭配關(guān)系和語法結(jié)構(gòu)規(guī)則組合起來的語法單位。在癥狀單元的各種表達方式中絕大多數(shù)都是詞組,只有少數(shù)是詞。
根據(jù)詞組的結(jié)構(gòu),可將其分為主謂詞組、動賓詞組等 14類,其中在中醫(yī)歷代醫(yī)案數(shù)據(jù)庫中能夠見到的癥狀詞組有 7類。
①主謂詞組:前一部分回答或表示“什么、哪兒”之類的問題,是陳述的對象,后一部分回答或表示“怎么樣、是什么”之類的問題,對主語部分加以陳述,如“汗出、鼻干、耳聾”。
②動賓詞組:前一部分是動詞或動詞性成分,后一部分表示與動作發(fā)生關(guān)聯(lián)的事物,即動作支配的對象,回答“什么、哪兒”等問題,如“矢氣、噯氣、脫肛”。
③偏正詞組:分為定中詞組及狀中詞組兩類。定中詞組分為定語和中心語兩部分,中心語多為名詞性成分,定語修飾中心語,回答“什么樣的、哪兒的、多少”等問題,如“臭汗、腋汗、多汗”;狀中詞組分為狀語和中心語兩部分,中心語多為動詞或形容詞性成分,狀語修飾中心語,回答“怎樣、多么”等問題,如“斜視、仰臥”。
④補充詞組:分為謂詞和補語兩部分。謂詞是動詞或形容詞性成分,補語補充說明謂詞,如“產(chǎn)難、納呆、吞咽障礙”。
⑤聯(lián)合詞組:由兩個或兩個以上部分組成,各部分的語法地位平等,不分主次,如“沉默寡言、多愁善感、時哭時笑”。
⑥連謂詞組:由兩個或多個部分組成,是動詞性詞語的連用,也可以是動詞性和形容詞性詞語的連用,各部分之間沒有語音停頓,也沒有主謂、動賓、補充、聯(lián)合等語法關(guān)系,如“見水欲尿、經(jīng)斷復來、坐而仰首”。
⑦兼語詞組:由兩個部分組成,前一部分是動賓詞組,這個賓語又是后一部分謂詞的主語,故稱兼語,如“合目不開、飲水難下、行經(jīng)量多”。
2.癥狀單元
癥狀單元是指內(nèi)涵最小的獨立癥狀。其中癥狀是指對于區(qū)分不同疾病狀態(tài)具有借鑒作用的生命現(xiàn)象;獨立癥狀是指不依賴于其他癥狀而出現(xiàn)于不同疾病狀態(tài)的癥狀;內(nèi)涵最小是指癥狀部位和癥狀性質(zhì)的內(nèi)涵最小[2]。
3.癥狀單元的概念詞組、描述詞組和派生詞組
癥狀單元的概念詞組是用以代表癥狀單元內(nèi)涵的正式或規(guī)范的詞組。癥狀單元的描述詞組是指與癥狀單元的概念詞組內(nèi)涵一致但不同于概念詞組的各種表達方式,如“大便干燥、便干、燥屎、大便硬”等都是癥狀單元大便干的描述詞組。癥狀單元的派生詞組是指由概念詞組派生出的內(nèi)涵更大的詞組,如“偏頭隱痛、巔頂刺痛、后頭劇痛”等均是頭痛的派生詞組。
以《全國中醫(yī)圖書聯(lián)合目錄》為線索,收集宋、元、明、清及近現(xiàn)代 51 186條醫(yī)案建立數(shù)據(jù)庫[3]。以 427個癥狀單元為關(guān)鍵詞,編程提取每個癥狀單元對應的原文描述共計 389 580條作為本文的研究資料。
癥狀單元的概念詞組是中醫(yī)學用來表示特定生命現(xiàn)象的稱謂,屬于科技術(shù)語的范疇[4],故按照科技術(shù)語的命名原則,參考詞匯學的構(gòu)詞語法規(guī)律制訂如下原則:
①簡明性原則:概念詞組是用以代表癥狀單元內(nèi)涵的正式或規(guī)范的名稱,故只有表述明確、簡潔、容易理解的癥狀名稱才能作為概念詞組來應用。如“牙宣”是牙齦萎縮的一種描述,雖然在歷代醫(yī)案中出現(xiàn)頻數(shù)較高,但字面含義不能反映內(nèi)涵,故以“牙齦萎縮”作為概念詞組。
②約定性原則:一方面,癥狀單元的概念詞組在歷代醫(yī)案中出現(xiàn)頻數(shù)較高,符合大多數(shù)人的習慣用法,如醫(yī)生在記錄病情時常用“小便黃、牙齒松動(主謂詞組)”,而不用“黃色的小便、松動的牙齒(偏正詞組)”;另一方面,癥狀單元的概念詞組常被當代中醫(yī)癥狀學權(quán)威著作[5-7]采用。
1.提取最小化原文
①剔除癥狀單元的加重及緩解因素,如從“頭痛入夜加重”中剔除“入夜加重”。
②拆分不同屬性的原文描述,如將“小便短赤”拆分為小便黃赤對應的“小便赤”和尿短對應的“小便短”。
③剔除描述性內(nèi)容。描述性內(nèi)容是對癥狀單元內(nèi)涵的具體描述,屬于癥狀單元定義的范疇,如“小便黃如黃柏汁”中的“如黃柏汁”。
通過以上步驟,得到了每一癥狀單元對應的最小化原文。
2.確認派生詞組
如果最小化原文的內(nèi)涵大于癥狀單元的內(nèi)涵,則作為癥狀單元的派生詞組。
3.篩選出現(xiàn)頻數(shù)較高的最小化原文
①將內(nèi)涵一致的最小化原文按照出現(xiàn)頻數(shù)由高到低排序。如癥狀單元“羞明”(在歷代醫(yī)案中出現(xiàn) 138次,下同)的最小化原文有:羞明 (64)、畏光(30)、怕光 (14)、畏明 (4)、羞光 (4)、畏陽光(2)、怕見火光(1)等。
②以出現(xiàn)頻數(shù)最高的最小化原文作為對比項,按照出現(xiàn)頻數(shù)由高到低的順序選擇其他最小化原文構(gòu)建四格表,其中 a為出現(xiàn)頻數(shù)最高的最小化原文的頻數(shù),b為癥狀單元頻數(shù)與出現(xiàn)頻數(shù)最高的最小化原文頻數(shù)之差,c為出現(xiàn)頻數(shù)次高的最小化原文的頻數(shù),d為癥狀單元頻數(shù)與出現(xiàn)頻數(shù)次高的最小化原文頻數(shù)之差。若經(jīng)卡方檢驗無統(tǒng)計學意義 (α>0.05),則進行第一個與第三個最小化原文之間的比較,直到卡方檢驗結(jié)果有統(tǒng)計學意義 (α≤0.05)為止。如上例出現(xiàn)頻數(shù)最高的最小化原文為“羞明(64)”,出現(xiàn)頻數(shù)次高的最小化原文為“畏光(30)”,故 a=64,b=138-64=74,c=30,d= 138-30=108,經(jīng)卡方檢驗 p<0.05,在α=0.05的水平上有統(tǒng)計學意義,故可認為“羞明”的出現(xiàn)頻數(shù)與“畏光”有差異。
表 1 兩最小化原文頻數(shù)比較
若經(jīng)卡方檢驗得出的頻數(shù)較高的最小化原文只有一個,且表述明確、簡潔、容易理解,則將其作為癥狀單元的概念詞組。
4.參考權(quán)威著作
若經(jīng)卡方檢驗得出多個最小化原文,則參考中醫(yī)癥狀學權(quán)威著作中的相關(guān)描述予以確定。
如關(guān)于癥狀單元“消瘦”,通過卡方檢驗得到三個出現(xiàn)頻數(shù)較高的最小化原文“形瘦 (533)、消瘦(526)和形體消瘦 (516)”,而《中醫(yī)診斷學》《中醫(yī)癥狀鑒別診斷學》及《中醫(yī)藥學名詞》均描述為“消瘦”,故將“消瘦”作為概念詞組。
5.參考詞組類型
選取癥狀單元的所有表述方式中出現(xiàn)頻數(shù)最高的詞組類型作為確定概念詞組的參考。如在“苔薄”的所有詞組類型中,主謂詞組“苔薄”占98.2%,偏正詞組“薄苔”占 1.8%,故以出現(xiàn)頻數(shù)最高的“苔薄”作為概念詞組。
6.符合語言習慣
若癥狀單元出現(xiàn)頻數(shù)較低,經(jīng)卡方檢驗選取的最小化原文不只一個,中醫(yī)癥狀學權(quán)威著作無相關(guān)描述,則依據(jù)語言習慣,或直接選取或從中概括一個表述最明確的最小化原文作為概念詞組。如關(guān)于癥狀單元“肛門下墜 (238)”,經(jīng)卡方檢驗得出的最小化原文有“肛門墜 (49)、肛墜 (43)、肛門下墜(41)”,其中“肛門下墜”最符合語言習慣,故將其作為概念詞組。
提取了癥狀單元的概念詞組、派生詞組后,剩余的不同于癥狀單元概念詞組但內(nèi)涵一致的最小化原文就是癥狀單元的描述詞組。
共提取了 427個癥狀單元的 427個概念詞組、411個癥狀單元的 10 979個描述詞組和 418個癥狀單元的 11 728個派生詞組。其中主謂詞組占76.6%,動賓詞組占 7.0%,偏正詞組占 4.6%,聯(lián)合詞組占 4.3%,補充詞組占 2.1%,連謂詞組占0.07%,兼語詞組占 0.01%,動詞占 3.6%,形容詞占 1.5%,名詞占 0.3%。
如關(guān)于癥狀單元“咳嗽”,概念詞組是聯(lián)合詞組“咳嗽(4049)”。描述詞組有①聯(lián)合詞組:咳逆(331)、嗆嗽 (4)、嗽咳 (2)、嗽逆 (1);②動詞:咳(2686)、嗽 (362)、欬 (1)。派生詞組有①動賓詞組:咳痰 (444)、咳血 (178)、嗽血 (18)、咳吐紅痰(3)、咳涎沫 (3)、咳吐有血 (2)、咳血痰 (2)、嗽痰(2)、咳吐鮮血 (1)、咳吐血痰 (1)、咳吐血涎 (1)、咳唾濁沫(1)、咳唾濁痰 (1)、痰嗽 (1);②偏正詞組:干咳(223)、頓咳(26)、干嗽(8)。
命名依據(jù)是①卡方檢驗提取了頻數(shù)最高,具有統(tǒng)計學意義的咳嗽(4049);②《中醫(yī)診斷學》《中醫(yī)癥狀鑒別診斷學》《中醫(yī)藥學名詞》都稱“咳嗽”;③在概念詞組、描述詞組和派生詞組中,聯(lián)合詞組咳嗽出現(xiàn)的頻數(shù)最高。
詳細內(nèi)容筆者將以著作的形式供讀者批判。
概言之,本文以已建成的歷代醫(yī)案數(shù)據(jù)庫中的癥狀原文描述為研究對象,基于癥狀單元假說,依據(jù)科技術(shù)語的命名原則和詞匯學的詞組分類,參考中醫(yī)癥狀學權(quán)威著作,確認了癥狀單元的概念詞組、描述詞組及派生詞組。概念詞組提供了中醫(yī)規(guī)范的癥狀名稱,描述詞組有助于了解不同于概念詞組的各種表達方式,派生詞組提供了每一癥狀單元所包含的所有派生癥狀。這一工作有望成為中醫(yī)癥狀名稱規(guī)范可資借鑒的方法。
[1]楊潤陸,周一民.現(xiàn)代漢語[M].北京:北京師范大學出版社,1995.
[2]張啟明,王義國,張磊,等.內(nèi)涵最小的獨立癥狀[J].北京中醫(yī)藥大學學報.2010,33(1):1-6.
[3]張啟明,王義國,白舒霞,等.四診信息中的癥狀單元[J].北京中醫(yī)藥大學學報,2008,31(11):725-727.
[4]張啟明,張振中,李檬,等.作為科技術(shù)語的中醫(yī)癥狀的命名[J].北京中醫(yī)藥大學學報,2007,30(12):797 -799.
[5]朱文鋒.中醫(yī)診斷學 [M].北京:中國中醫(yī)藥出版社,2002.
[6]全國科學技術(shù)名詞審定委員會.中醫(yī)藥學名詞[M].北京:科學出版社,2005.
[7]姚乃禮.中醫(yī)癥狀鑒別診斷學[M].北京:人民衛(wèi)生出版社,2005.
Conceptive,Descriptive and Derivative Phrases of the Symptomatic Units in ChineseMedicine
YU Donglin T IAN Xin ZHANGLei ZHANGWei XU Zhirui
LUO Zhen L IU Zhonghua WANG Yiguo ZHANGQiming
Based on the symp tom a tic desc rip tion in the da tabase of the c linica l records in the p as t dynas ties,w e summ a rized the concep tive p hrases,desc rip tive p hrases and de riva tive p hrases accord ing to the nom enc la ture p rinc ip le,p hrase ca tegories in sem iology lexicology and w orks of Chinese m ed ic ine.O ur results m ay p rovide a p rop osa l for the s tanda rd iza tion of symp tom a tic nom enc la ture for Chinese m ed ic ine.
symp tom a tic units,denom ina ting,d iagnos is of Chinese m ed ic ine
N04;R2
A
1673-8578(2010)03-0047-04
2010-01-02
國家自然科學基金資助項目(30772695);中國中醫(yī)科學院自主選題項目 (Z0086);“十一五”國家科技支撐計劃 (2006BA I08B01-05);國家科技重大專項課題 (2009ZX10005-019)
于東林 (1984—),山東陽信人,碩士研究生,從事中醫(yī)理論的定量研究及臨床療效的評價研究;張啟明(1964—),中國中醫(yī)科學院中醫(yī)臨床基礎(chǔ)醫(yī)學研究所教授,博士生導師。通信方式:zhang_917@126.com。