于 娟 黨延忠
(1.福州大學(xué)公共管理學(xué)院,福建福州 350108 2.大連理工大學(xué)系統(tǒng)工程研究所,遼寧大連 116024)
術(shù)語工作中文本挖掘方法的應(yīng)用探索
——信息管理與知識管理科技名詞審定工作方法
于 娟1黨延忠2
(1.福州大學(xué)公共管理學(xué)院,福建福州 350108 2.大連理工大學(xué)系統(tǒng)工程研究所,遼寧大連 116024)
研究了信息管理與知識管理科技名詞術(shù)語的審定工作方法。該工作由全國科學(xué)技術(shù)名詞審定委員會主管并委托國家自然科學(xué)基金委員會管理科學(xué)部完成。工作內(nèi)容主要包括三個連續(xù)的階段:(1)確定領(lǐng)域的收詞范圍,(2)確定術(shù)語定義,(3)確定術(shù)語的英文名稱。介紹了在每一階段所使用的工作方法、發(fā)現(xiàn)的問題與解決辦法。目的是向從事術(shù)語審定工作的專家匯報工作,總結(jié)工作經(jīng)驗,并征求意見。
術(shù)語審定,信息管理,知識管理,文本挖掘
科學(xué)技術(shù)名詞的審定和規(guī)范化工作是一個國家發(fā)展科學(xué)技術(shù)所必需的基礎(chǔ)條件之一,對促進(jìn)科技發(fā)展,保障語言健康有著重要作用和意義[1]。為了規(guī)范科技名詞,國務(wù)院于1985年批準(zhǔn)成立了全國自然科學(xué)名詞審定委員會(現(xiàn)名為全國科學(xué)技術(shù)名詞審定委員會,以下簡稱全國科技名詞委),授權(quán)全國科技名詞委代表國家審定和公布科技名詞。經(jīng)全國科技名詞委公布的名詞具有權(quán)威性和約束力,全國各科研、教學(xué)、生產(chǎn)經(jīng)營以及新聞出版等單位須遵照使用[2]。
2008年,全國科技名詞委主管并委托國家自然科學(xué)基金委員會(以下簡稱國家自然基金委)管理學(xué)部進(jìn)行管理類科技名詞的審定。受國家自然基金委的委托,由大連理工大學(xué)系統(tǒng)工程研究所所長黨延忠教授領(lǐng)導(dǎo)的課題組審定了管理類中有關(guān)信息管理與知識管理領(lǐng)域的術(shù)語。該領(lǐng)域按照核心內(nèi)容劃分為七個子領(lǐng)域:(1)管理系統(tǒng)工程,(2)管理信息系統(tǒng),(3)決策支持系統(tǒng),(4)信息資源管理,(5)電子商務(wù),(6)知識管理,(7)圖書館、情報和檔案管理。
在全國科技名詞委的《科學(xué)技術(shù)名詞審定的原則及方法》(以下簡稱《原則及方法》)指導(dǎo)下,課題組依據(jù)國家自然基金委組織的審定工作流程,發(fā)揮課題組成員熟悉機(jī)器學(xué)習(xí)文本挖掘技術(shù)的優(yōu)勢,采用人機(jī)結(jié)合的方式完成了本領(lǐng)域術(shù)語的初步審定工作。此次,信息管理與知識管理領(lǐng)域初步確定了1001個術(shù)語,其中,管理系統(tǒng)工程子領(lǐng)域120個術(shù)語,管理信息系統(tǒng)子領(lǐng)域198個,決策支持系統(tǒng)子領(lǐng)域137個,信息資源管理子領(lǐng)域154個,電子商務(wù)子領(lǐng)域152個,知識管理子領(lǐng)域182個,圖書館、情報和檔案管理子領(lǐng)域58個。
對每個子領(lǐng)域,課題組使用了相同的工作原則和方法分別審定其術(shù)語,審定工作主要分為三個階段:(1)確定收詞范圍,(2)確定術(shù)語定義,(3)確定術(shù)語的英文名稱。按照工作內(nèi)容、工作方法和工作總結(jié)的順序,下文將分階段依次介紹和總結(jié)上述三個階段的工作情況。
本文目的在于,向術(shù)語審定與術(shù)語標(biāo)準(zhǔn)化領(lǐng)域的專家、信息管理與知識管理領(lǐng)域的專家匯報工作,并為全國科技名詞委今后開展其他領(lǐng)域科學(xué)技術(shù)名詞的審定工作提供些許知識的共享。如無特別說明,下文中采用“術(shù)語”來代替“科學(xué)技術(shù)名詞”。
確定收詞范圍是術(shù)語審定工作的第一步。收詞范圍要能夠反映領(lǐng)域的概念體系,每一個領(lǐng)域?qū)S懈拍睿I(lǐng)域內(nèi)通用的概念和新涌現(xiàn)的概念,都應(yīng)該有其對應(yīng)的術(shù)語被收錄。由于人們對客觀世界的認(rèn)識有一個漸進(jìn)的過程,新概念層出不窮,過時概念不斷出局,所以收詞范圍要能夠描述領(lǐng)域最新的概念集合,使得人們能夠通過術(shù)語表達(dá)的符號世界正確理解領(lǐng)域的客觀世界。
該部分工作的內(nèi)容是確定審定的對象,即確定收錄術(shù)語的集合。工作步驟一般為:(1)從各類文獻(xiàn)中收集術(shù)語。(2)選擇這些術(shù)語中特定的一部分作為收詞范圍。工作方法一般是:首先閱讀大量的現(xiàn)有文獻(xiàn),如學(xué)術(shù)專著、大專院校教材、各類辭書、專利文獻(xiàn)、科技文獻(xiàn)資料、國家標(biāo)準(zhǔn)等,從中收集得到一個較廣泛的術(shù)語的集合;然后由專家討論選定其中的一部分術(shù)語,即一個子集,作為領(lǐng)域?qū)S行g(shù)語添加進(jìn)收詞范圍,其余的則刪除不用。在全國科技名詞委以前進(jìn)行的領(lǐng)域術(shù)語審定中,確定收詞范圍這一階段的工作幾乎完全以人工手動的方式完成。
全國科技名詞委在《原則及方法》中制定了詳細(xì)的術(shù)語選擇原則,如圖1所示:
圖1 《原則及方法》中關(guān)于選詞的工作原則
由于一個概念往往可以有幾個不同的名稱,這就產(chǎn)生了術(shù)語的同義現(xiàn)象。同義現(xiàn)象會導(dǎo)致術(shù)語使用的混亂,在術(shù)語審定工作中,應(yīng)該盡量減少術(shù)語的同義現(xiàn)象[3]。因此,在確定收詞范圍時,除了圖1所列的選詞原則之外,還需要遵循《原則及方法》制定的關(guān)于定名的單義性原則,即一個領(lǐng)域概念應(yīng)確定唯一的一個中文名稱作為與之相對應(yīng)的領(lǐng)域?qū)S行g(shù)語,其他還在使用的中文名稱則作為同義詞列出而不再進(jìn)行審定。
依據(jù)上述工作原則,課題組設(shè)計并實現(xiàn)了一種以人機(jī)結(jié)合的方式來確定收詞范圍的工作方法,綜合了機(jī)器學(xué)習(xí)的定量結(jié)果和領(lǐng)域?qū)<业娜斯そ?jīng)驗。該方法首先采用機(jī)器學(xué)習(xí)文本挖掘技術(shù)從領(lǐng)域語料中自動提取領(lǐng)域?qū)S行g(shù)語,然后由領(lǐng)域?qū)<胰斯ば拚_定最終收詞范圍。該方法可以在一定程度上克服手工收詞存在的兩個顯著問題:(1)工作煩瑣,耗時耗力;(2)由于專家對整個領(lǐng)域認(rèn)知的片面和不完善,收錄的術(shù)語往往會受到主觀影響,導(dǎo)致最終的收詞范圍不能客觀地反映本學(xué)科的概念體系[4-5]。
課題組使用這種新的工作方法,在計算機(jī)輔助下,完成了確定收詞范圍的兩個工作步驟:(1)由計算機(jī)代替人工閱讀大量的文獻(xiàn),自動收集得到一個術(shù)語集合;(2)分析計算每個術(shù)語是領(lǐng)域?qū)S行g(shù)語的可能性,為專家確定最終的收詞范圍提供定量化的決策支持。這種工作方法的流程圖如圖2所示。
圖2 人機(jī)結(jié)合確定收詞范圍的方法流程圖
對圖2中的各處理模塊的說明:
(1)語料庫是大量的電子文獻(xiàn),在該方法中用于提供詞語集合。語料庫分為前景語料(foreground corpora)和背景語料(background corpora)兩部分。前景語料是包含豐富的領(lǐng)域?qū)S行g(shù)語的領(lǐng)域文檔庫。背景語料用來與前景語料作對比,以突顯領(lǐng)域?qū)S?非專有術(shù)語在領(lǐng)域文檔與非領(lǐng)域文檔中表現(xiàn)出的不同的統(tǒng)計特性。實際上,語料庫C可由m(m≥3)個領(lǐng)域的前景語料共同構(gòu)成,提取領(lǐng)域的Dk領(lǐng)域?qū)S行g(shù)語時,前景語料為Cfk,背景語料Cbk由語料庫中其他m-1個領(lǐng)域的前景語料Cfi(1≤i≤m,i≠k)構(gòu)成。要求Cfk完全包含Dk的所有術(shù)語,并且反映術(shù)語的真實使用狀況。
(2)語料預(yù)處理模塊將初始輸入的電子文檔標(biāo)準(zhǔn)化成統(tǒng)一格式的文本。該模塊去除圖片、公式等無法自動處理的元素,去除空行等無意義的符號,輸出僅保留字符、標(biāo)點符號和換行符的標(biāo)準(zhǔn)化格式的文本。通常,標(biāo)準(zhǔn)化文本的格式要求為:①半角標(biāo)點符號統(tǒng)一改為全角符號;②文本采用統(tǒng)一的編碼格式。
(3)詞語提取模塊使用計算機(jī)自動獲取領(lǐng)域語料中出現(xiàn)的所有詞語。該模塊采用結(jié)合詞性分析與串頻統(tǒng)計的詞語提取方法[6]處理領(lǐng)域語料(即前景語料),輸出在領(lǐng)域語料中出現(xiàn)的所有詞語的集合。該方法首先采用既有的分詞和詞性標(biāo)注系統(tǒng)把標(biāo)準(zhǔn)化語料切分為原子詞串;然后以原子詞為步長取其子串,應(yīng)用統(tǒng)計的方法判斷該子串是否符合成詞的標(biāo)準(zhǔn),將符合標(biāo)準(zhǔn)的詞串作為詞語加入到詞語集合中。該自動提詞方法的準(zhǔn)確率和召回率均較高。
(4)領(lǐng)域概念學(xué)習(xí)模塊處理上一模塊輸出的詞語集合,輸出候選的領(lǐng)域概念。該模塊分為兩個連續(xù)的子模塊:領(lǐng)域隸屬度分析和同義詞合并。前者遵照《原則及方法》的選詞原則刪除詞語集合中的非領(lǐng)域?qū)S械男g(shù)語,輸出候選領(lǐng)域術(shù)語及其領(lǐng)域隸屬度[7]。在領(lǐng)域隸屬度分析子模塊中,采用兩個指標(biāo)分析每一個詞語:領(lǐng)域相關(guān)度(domain relevance,DR)和領(lǐng)域均勻度(domain consensus,DC)[8]。前者刪除領(lǐng)域不相關(guān)的詞語,后者刪除尚未在領(lǐng)域中達(dá)成穩(wěn)定使用的詞語,剩余的詞語作為候選領(lǐng)域術(shù)語。候選術(shù)語的領(lǐng)域隸屬度等于其DR、DC的加權(quán)和與競爭因子(competitor factor,CF)的乘積。在同義詞合并子模塊中,遵循《原則及方法》的概念定名的單義性原則,合并候選領(lǐng)域術(shù)語集合中的同義詞,輸出候選領(lǐng)域概念集合。這一子模塊基于意義組合原理,自動查找領(lǐng)域術(shù)語集合中的同義詞,將一組同義詞中的領(lǐng)域隸屬度最高者確定為概念的正名,其他詞語作為異名。領(lǐng)域概念學(xué)習(xí)模塊將候選領(lǐng)域概念以領(lǐng)域隸屬度降序排列提交給各領(lǐng)域?qū)<摇?/p>
(5)在專家修正模塊中,領(lǐng)域?qū)<覅⒄丈弦荒K輸出的定量化的結(jié)果,結(jié)合經(jīng)驗,選擇決定候選概念中可以收錄的術(shù)語。如果有必要,領(lǐng)域?qū)<以偈止ぬ砑舆z漏的術(shù)語。手工添加術(shù)語是為了避免發(fā)生由語料不充分所導(dǎo)致的計算機(jī)收詞不完備的情況。該模塊的輸出結(jié)果即為最終的收詞范圍。
1.方法效果
為了說明課題組提出的人機(jī)結(jié)合收詞方法在確定收詞范圍中的應(yīng)用效果,本文介紹了該方法在課題組所負(fù)責(zé)的七個子領(lǐng)域中的實施情況。表1是計算機(jī)在無監(jiān)督的情況下,以一些項目建議書為語料庫,進(jìn)行自動收詞的結(jié)果。
表1 計算機(jī)自動確定收詞范圍性能表
對表1的說明:
(1)每一列說明一個子領(lǐng)域的情況,是在完全沒有人工干預(yù)的情況下,計算機(jī)自動確定收詞范圍的結(jié)果。其中,SE指管理系統(tǒng)工程,MIS&DSS是管理信息系統(tǒng)與決策支持系統(tǒng)兩個子領(lǐng)域合并起來的情況,IRM&EC是信息資源管理與電子商務(wù)兩個子領(lǐng)域合并起來的情況,KM是知識管理,圖書館是圖書館、情報和檔案管理。由于有些子領(lǐng)域的前景語料是合并的,所以將這些子領(lǐng)域的學(xué)習(xí)結(jié)果合并起來介紹。
(2)語料欄說明語料庫的情況。Cf指的是前景語料(即領(lǐng)域語料),Cb指的是背景語料。nf說明前景語料中的文本個數(shù),nb是背景語料中的文本個數(shù)。漢字?jǐn)?shù)一行統(tǒng)計語料中所包含的漢字的個數(shù)。每個文本大約包含250個漢字。
(3)詞語集合一行說明詞語提取模塊在前景語料中提取得到的詞語的數(shù)目。這個集合也是用來進(jìn)行領(lǐng)域隸屬度分析的詞語集合。
(4)候選領(lǐng)域概念一行說明經(jīng)過領(lǐng)域概念學(xué)習(xí)模塊自動學(xué)習(xí)所得到的候選收詞范圍所包含的術(shù)語個數(shù)。
(5)領(lǐng)域概念一行是術(shù)語審定工作最終確定的收詞范圍所包含的術(shù)語個數(shù)。
(6)學(xué)習(xí)性能欄內(nèi)是計算機(jī)在自動收詞工作中所表現(xiàn)出來的整體性能。誤刪個數(shù)是指,在詞語集合中出現(xiàn)但是被機(jī)器學(xué)習(xí)算法錯誤刪除或合并而沒有列入到候選領(lǐng)域概念的詞語個數(shù)。命中個數(shù)是候選概念中被專家確定收錄的術(shù)語的個數(shù)。錯誤率是誤刪個數(shù)與被刪個數(shù)(即詞語集合中詞語數(shù)與候選領(lǐng)域概念數(shù)之差)的比值。由表中數(shù)據(jù)可見,該方法在實現(xiàn)較高刪除率的同時保證了極低的誤刪率。召回率是命中個數(shù)與領(lǐng)域概念的比值。由誤刪率低可知,學(xué)習(xí)結(jié)果的召回率低的原因是語料不充分,沒有完全包含領(lǐng)域術(shù)語。
由表1可見,課題組提出的這種以人機(jī)結(jié)合的方式來確定收詞范圍的方法是可行的,而且還能夠:(1)簡化煩瑣的人工選詞過程;(2)降低由專家主觀因素引起的爭執(zhí)以及對收詞范圍的影響。
2.問題與建議
本文建議,將人機(jī)結(jié)合(結(jié)合機(jī)器學(xué)習(xí)文本挖掘與領(lǐng)域?qū)<胰斯そ?jīng)驗)的方式和方法作為確定收詞范圍的基本工作方式和方法。一方面原因是:在諸多學(xué)科術(shù)語審定工作中都出現(xiàn)了如何把握收詞范圍的“度”的難題[9];另一方面,有些學(xué)科發(fā)展迅猛,新術(shù)語不斷大量出現(xiàn),每10~15年一個周期集中進(jìn)行領(lǐng)域術(shù)語的審定無法滿足學(xué)科發(fā)展和社會需求[10]。而對新術(shù)語的定名應(yīng)該越快越好,否則一個不恰當(dāng)?shù)亩脩T了,再改就難了[11]。人機(jī)結(jié)合的方法既能保證工作結(jié)果的有效性,又能保證術(shù)語收集的快速及時。
《原則及方法》是在大量的領(lǐng)域術(shù)語審定工作的經(jīng)驗之上制定的,依據(jù)《原則及方法》所設(shè)計的確定收詞范圍的機(jī)器學(xué)習(xí)方法是科學(xué)嚴(yán)謹(jǐn)、經(jīng)得起推敲的。依據(jù)本文作者的相關(guān)論文:領(lǐng)域相關(guān)度DR算法和競爭因子CF算法衡量詞與領(lǐng)域的相關(guān)程度,自動刪除領(lǐng)域不相關(guān)詞,這滿足了《原則及方法》的3.1要求;領(lǐng)域均勻度算法DC衡量詞在領(lǐng)域語料中分布的均勻程度,自動刪除僅在個別的幾個語料中出現(xiàn)的詞,這滿足了《原則及方法》的3.2要求;同義詞合并模塊與語料的選擇則滿足了《原則及方法》關(guān)于定名的要求。足見,課題組所設(shè)計的計算機(jī)自動收詞方法不僅能夠降低領(lǐng)域?qū)<业墓ぷ髁?,縮短工作時間,而且完全符合《原則及方法》的相關(guān)要求。
需要強(qiáng)調(diào)的是,在利用計算機(jī)自動收詞時,要使用合適的語料庫,不僅要滿足選詞原則,還要滿足《原則及方法》中制定的概念定名的原則:科學(xué)性、系統(tǒng)性、簡明性、國際性、約定俗成和協(xié)調(diào)一致。術(shù)語的來源決定概念的定名是否符合這些定名原則。因此,本文建議:在進(jìn)行計算機(jī)自動收詞時,除了要求領(lǐng)域語料完全包含領(lǐng)域?qū)S行g(shù)語,還要求其具有時效性,即語料是時下較新的著作。
確定收詞范圍之后,下一個階段的工作是為收詞范圍內(nèi)的每一個術(shù)語下定義。受人們的工作領(lǐng)域、知識量和閱歷等因素的影響,個人主觀認(rèn)識中的術(shù)語符號與客觀世界的概念之間往往會產(chǎn)生錯誤對應(yīng),主要有兩類錯誤:(1)張冠李戴,即術(shù)語與概念之間的映射關(guān)系錯誤,如“可用性”往往被錯解為“易用性”。(2)范圍不明,即由于概念的內(nèi)涵不明確所造成的主觀放大或縮小這個概念的外延。術(shù)語審定的目的之一就是消除這種錯誤,達(dá)成人們對于領(lǐng)域概念模型的共識,即,促使客觀世界與符號世界的映射在人們的主觀世界中達(dá)成共識,實現(xiàn)三個世界的準(zhǔn)確對應(yīng)。因此,術(shù)語審定工作要求為每一個領(lǐng)域術(shù)語確定一個明確的定義項。
該部分工作的內(nèi)容是對術(shù)語所對應(yīng)的概念的內(nèi)涵做出正確和簡明的描述,建立術(shù)語與概念之間的一對一映射。
關(guān)于下定義的原則,《原則及方法》的規(guī)定如圖3所示。除了圖3中的原則,課題組還參閱并遵照了《形式邏輯》中所制定的定義規(guī)則[12],包括: (1)定義項中不能直接地或間接地包括被定義項; (2)定義項,除非必要,不包括負(fù)概念;(3)定義項中不包括含混的概念或語詞;(4)定義項的外延與被定義項的外延全同。
圖3 《原則及方法》中關(guān)于定義的工作原則
依據(jù)上述原則的指導(dǎo),課題組為術(shù)語的下定義工作制定了三個步驟的工作流程:(1)對每一個術(shù)語,查找三個候選定義項;(2)根據(jù)候選定義項來確定術(shù)語的內(nèi)涵;(3)確定術(shù)語的定義項。
在查找候選定義項時,主要的資源是最新完成和出版的大中專院校教材和辭書。除了廣泛查閱大量的紙質(zhì)書籍,課題組還借助因特網(wǎng)搜索了被廣泛引用的定義項。參考的網(wǎng)站包括維基百科、CNKI(知網(wǎng))知識元庫等。
確定術(shù)語內(nèi)涵時,主要依據(jù)有兩點:(1)候選定義項的認(rèn)可度。認(rèn)可度代表大眾對于定義項所描述的概念內(nèi)涵的認(rèn)可程度,定義項應(yīng)描述概念最被廣泛認(rèn)可的屬性或者外延。判斷認(rèn)可度高低的標(biāo)準(zhǔn)主要有:被引頻次、候選定義項來源著作的知名度、出版社知名度、作者的知名度等。(2)候選定義項的時效性。要求定義項能夠反映術(shù)語最新的特有屬性和外延,即緊跟時代。由于人們對于自然世界的改造和對領(lǐng)域知識的認(rèn)知是一個逐漸進(jìn)化的過程,術(shù)語的內(nèi)涵也隨之改變。例如,對“信息系統(tǒng)開發(fā)”的定義,該術(shù)語早期的內(nèi)涵是基于組織業(yè)務(wù)流程之上研發(fā)信息系統(tǒng),而目前的內(nèi)涵是基于已有信息系統(tǒng)之上更新系統(tǒng)。因此,原定義項失效。
在確定術(shù)語的定義項時,對于名詞性術(shù)語,除了某些沒有屬的術(shù)語(如,“系統(tǒng)”“數(shù)據(jù)”等),一般采用真實定義,即屬加種差的方式;對于動詞性術(shù)語,一般采用發(fā)生定義的方式,即描述動作的施者、受者、動作目的及活動的定義方式。
1.方法效果
由于候選定義項來自領(lǐng)域內(nèi)廣泛認(rèn)可的教材和學(xué)術(shù)專著,因此下定義的工作結(jié)果是正確的、權(quán)威的,并且能夠體現(xiàn)信息管理與知識管理的核心思想。這樣的定義項能夠為讀者提供對于領(lǐng)域知識的準(zhǔn)確的認(rèn)識。
但是,這種工作方法需要首先查找候選定義項。查找候選定義項是一項耗時耗力的勞動,且需要查找者對領(lǐng)域有較深入的理解,能夠系統(tǒng)掌握領(lǐng)域知識。
2.問題與建議
基礎(chǔ)性的領(lǐng)域術(shù)語不易說明和定義。如,管理信息系統(tǒng)子領(lǐng)域的“數(shù)據(jù)”“信息”“元數(shù)據(jù)”,管理系統(tǒng)工程的“系統(tǒng)分析”“系統(tǒng)評價”等術(shù)語。原因有二:(1)基礎(chǔ)性術(shù)語大多沒有屬概念。(2)這些術(shù)語在其他多個領(lǐng)域都有引用共用的情況,下定義時需要注意通用性且可信服。本文建議的解決方法是:下定義時給出一個較為抽象的描述,使得不同領(lǐng)域可以按照本領(lǐng)域的核心思想去深化理解和詮釋這個定義項。
另一個問題是,有些領(lǐng)域術(shù)語的定義項內(nèi)涉及其他多個非領(lǐng)域?qū)S械男g(shù)語。本文建議的解決方法是:為避免定義不清,可以少許改動收詞范圍,添加幾個領(lǐng)域相關(guān)性不夠高的術(shù)語。如:“多維數(shù)據(jù)模型”的定義項是:“數(shù)據(jù)倉庫中數(shù)據(jù)組織的一種模型。他由維和事實來定義。維是關(guān)于一個組織想要記錄的視角或觀點,每個維都有一個表與之相關(guān)聯(lián),稱為維表,維表是對維的屬性的描述。事實是一個數(shù)據(jù)度量,對所要考察的數(shù)據(jù)的一個數(shù)值度量,事實表包括事實的名稱或度量以及每個相關(guān)維表的關(guān)鍵字?!睘榱烁玫卣f明多維數(shù)據(jù)模型這一術(shù)語,在收詞范圍中添加了維、維表和事實表三個術(shù)語。
在下定義時,課題組還發(fā)現(xiàn)了兩個信息管理與知識管理領(lǐng)域中所特有的問題:(1)有的術(shù)語既有廣義內(nèi)涵又有狹義內(nèi)涵,如,信息資源管理子領(lǐng)域的“信息資源”“信息檢索”等術(shù)語。出現(xiàn)這種情況時,本課題組一般傾向于將其定義為廣義內(nèi)涵,個別情況下采取分別列出其多個內(nèi)涵的下定義方式。(2)有的術(shù)語引自其他領(lǐng)域,但與原領(lǐng)域的內(nèi)涵已大相徑庭,如,電子商務(wù)子領(lǐng)域中的“買方市場”“賣方市場”“交易風(fēng)險”等。這些術(shù)語在經(jīng)濟(jì)和金融領(lǐng)域的內(nèi)涵與信息管理與知識管理領(lǐng)域的內(nèi)涵完全不同,在下定義時需要注意體現(xiàn)其在本領(lǐng)域的內(nèi)涵。
為術(shù)語確定英文名稱是術(shù)語審定工作的重要和必要的組成部分。將中文術(shù)語與其英文術(shù)語準(zhǔn)確無誤地對應(yīng)起來,利于國內(nèi)科研界、工業(yè)界與國際各界的順暢交流,能夠促進(jìn)中國在相關(guān)領(lǐng)域的科研和工業(yè)的發(fā)展。而錯誤的對應(yīng)則會誤導(dǎo)群眾,在國內(nèi)外進(jìn)行交流時形成混亂,影響溝通的順暢,甚至阻礙科研和工業(yè)的發(fā)展進(jìn)程。因此,在進(jìn)行術(shù)語審定時,必須為中文術(shù)語唯一確定其對應(yīng)的英文術(shù)語。
需要說明的是,對于信息管理與知識管理領(lǐng)域中的大部分子領(lǐng)域,中國在科學(xué)研究和工業(yè)應(yīng)用方面的起步都較國際晚。從國際上形成這些領(lǐng)域到目前為止的幾十年里,國內(nèi)在相關(guān)領(lǐng)域的理論研究的先進(jìn)水平與實際應(yīng)用的成熟程度一直低于美國和歐盟等國家。也造成了一個事實:這些領(lǐng)域中的理論性術(shù)語和應(yīng)用性術(shù)語幾乎都是從國外引入到國內(nèi)的。也即,此次信息管理與知識管理領(lǐng)域的收詞范圍內(nèi)所收錄的術(shù)語大都是由國際上相應(yīng)的英文術(shù)語翻譯而來的。
因此,該部分的工作內(nèi)容實際上是為收詞范圍中的術(shù)語確定其對應(yīng)的英文術(shù)語。
依據(jù)這種情況,在查找英文術(shù)語時所遵循的工作原則是:(1)英文術(shù)語的內(nèi)涵與原術(shù)語一致。(2)英文術(shù)語在領(lǐng)域內(nèi)的認(rèn)可度高。
根據(jù)工作原則,課題組在確定一個術(shù)語的英文術(shù)語時,依據(jù)下面的工作流程進(jìn)行:
(1)利用CNKI翻譯助手,查找術(shù)語在中文科技論文的關(guān)鍵詞中最普遍的幾種英文翻譯。
(2)判斷英文翻譯的語詞內(nèi)涵是否與中文術(shù)語的內(nèi)涵一致,刪除不一致的翻譯。
(3)借助權(quán)威性的英文原版材料,將國際上認(rèn)可度最高的英文翻譯確定為英文術(shù)語。借助的資源包括:維基百科詞典與術(shù)語樹、Google(谷歌)、英文原版書籍。
(4)確定該英文術(shù)語的大小寫、單復(fù)數(shù)等書寫形式,將其最廣泛使用的形式作為原中文術(shù)語所對應(yīng)的英文術(shù)語。
1.方法效果
采用3.2所描述的工作方法,為每個中文術(shù)語確定了其唯一對應(yīng)的英文術(shù)語。其間,糾正了諸多經(jīng)常出現(xiàn)的英文翻譯的偏差,表2舉例說明。
表2 為中文術(shù)語調(diào)整英文術(shù)語
2.問題與建議
在中英文術(shù)語的對應(yīng)過程中,需要解決的問題主要有兩個:
(1)同一中文術(shù)語對應(yīng)多個英文術(shù)語。產(chǎn)生這個問題的原因有二:①英文術(shù)語引入到我國后,國內(nèi)學(xué)者首先為其翻譯并確定了一個中文名稱并解釋其內(nèi)涵,但是,其他國內(nèi)學(xué)者在后續(xù)的論文或報告中再將這一中文名稱翻譯回英文時,往往會發(fā)生表述上的偏差。這就導(dǎo)致了一個中文術(shù)語同時對應(yīng)多個英語翻譯的情況。②有的英文術(shù)語在英文范圍內(nèi)也還沒有達(dá)成一個統(tǒng)一的標(biāo)準(zhǔn),如“電子商務(wù)模式”對應(yīng)的英文術(shù)語有“e-commerce model”和“e-commerce mode”兩個。
(2)同一個英文術(shù)語對應(yīng)多個中文術(shù)語。產(chǎn)生這個問題的原因有二:①同一英文術(shù)語的中文翻譯尚未在領(lǐng)域內(nèi)或領(lǐng)域間達(dá)成標(biāo)準(zhǔn)化。這也是在確定收詞范圍時確定正名與異名同義詞時所解決過的問題,在此不再討論。②在不同的上下文中,同一英文詞匯會表現(xiàn)不同的內(nèi)涵,如英文的“system”會對應(yīng)于中文的“系統(tǒng)”“體系”和“體制”。這屬于英文的語言現(xiàn)象,不是本文的討論范圍。
這些問題阻礙了領(lǐng)域內(nèi)國際間的學(xué)術(shù)交流的順利進(jìn)行,同時也體現(xiàn)了規(guī)范術(shù)語的英語名稱的重要性和必要性。
此外,管理領(lǐng)域的術(shù)語有一個特點:部分術(shù)語既可以作為名詞也可以作為動詞。如,“組織”“數(shù)據(jù)存儲”等。在確定這些詞的英文術(shù)語時,本課題組一般將其作為名詞處理。這樣,就引發(fā)了另外一個問題:是采用動名詞的形式還是名詞形式的翻譯?如“出版”(publishing vs publication),“數(shù)字化”(digitizing vs digitization)等。解決這種問題時,本課題組所采用的方法是:將在美國地區(qū)使用頻率較高的形式確定為術(shù)語的英文名稱。
本文匯報了信息管理與知識管理領(lǐng)域的術(shù)語審定工作進(jìn)展,介紹了工作方法,總結(jié)了其中的問題和解決經(jīng)驗。領(lǐng)域術(shù)語的審定工作分為三個主要的步驟:確定收詞范圍,確定術(shù)語定義,確定術(shù)語對應(yīng)的英文術(shù)語。本文采用了人機(jī)結(jié)合人機(jī)交互的方式完成了這項工作。工作方法既貫徹和遵照了全國科技名詞委公布的名詞審定工作的流程和原則,又結(jié)合了信息管理與知識管理領(lǐng)域自身的特點和情況,是科學(xué)嚴(yán)謹(jǐn)?shù)摹?/p>
本文所介紹的計算機(jī)自動確定領(lǐng)域收詞范圍的方法是領(lǐng)域獨立的,可以為任何領(lǐng)域的術(shù)語審定工作提供計算機(jī)輔助支持。在當(dāng)前的知識爆炸時代,諸多領(lǐng)域的發(fā)展都較為迅猛,手工收詞無法跟得上領(lǐng)域知識的發(fā)展。因此,建議采用人機(jī)結(jié)合的方式確定收詞范圍,尤其是新詞的添加和收錄。
在信息管理與知識管理的術(shù)語初步審定工作中,采用的審定方法是人機(jī)結(jié)合以人為主。對于該方法的研究還存在很大的發(fā)展空間,比如,研究如何選用和完善語料庫,如何進(jìn)一步提高機(jī)器學(xué)習(xí)文本挖掘方法與算法的性能,如何采用機(jī)器學(xué)習(xí)方法自動提取術(shù)語的定義項和英文名稱等。在對這些方法進(jìn)行改良和提高以后,可以進(jìn)一步提高術(shù)語審定工作的自動化程度、速度和有效程度。
[1]國家科委,中國科學(xué)院,國家教委,新聞出版署.關(guān)于使用全國自然科學(xué)名詞審定委員會公布的科技名詞的通知[R].1990-6-23.
[2]中華人民共和國國務(wù)院.國函(1987)142號.1987-8 -12.
[3]馮志偉.術(shù)語學(xué)中的概念系統(tǒng)與知識本體[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù),2006(1):9-15.
[4]Alexander Maedche,Steffen Staab.Semi-automatic Engineering of Ontologies from Text[C]∥Proceedings of the 12nd International Conference on Software Engineering and Knowledge Engineering,Chicago,USA,Jul 5-7,2000:231-239.
[5]Paolo Bouquet,Marc Ehrig,Jér? me Euzenat,et al.Specification of a common framework for characterizing alignment[EB/OL].Knowledge Web deliverable D2.2.1v2,2004.http://www.aifb.uni-karlsruhe.de/WBS/phi/pub/ kweb-221.pdf.(Accessed on Nov 13,2006).
[6]于娟,黨延忠.結(jié)合詞性分析與串頻統(tǒng)計的詞語提取方法[J].系統(tǒng)工程理論與實踐,2010,30(1):105 -111.
[7]于娟,黨延忠.領(lǐng)域特征詞的提取方法研究[J].情報學(xué)報,2009,28(3):368-373.
[8]Roberto Navigli,Paola Velardi.Learning Domain Ontologies from Document Warehouses and Dedicated Web Sites[C]∥Computational Linguistics.MIT Press,2004,50 (2):151-179.
[9]高素婷.科技名詞審定工作實踐與體會[J].中國科技術(shù)語,2009,11(1):11-15.
[10]祁國榮.群策群力,把名詞審定與釋義工作做好[J].科技術(shù)語研究,2005,7(3):27-28.
[11]李啟斌.對當(dāng)前名詞審定工作的幾點建議[J].科技術(shù)語研究,2000,2(3):30-31.
[12]金岳霖.形式邏輯[M].北京:人民出版社.1979.10:54-57.
Application of Text Mining Methods in the Work of Terminology——Terminology Standardization of Information&Knowledge Management
YU Juan DANG Yanzhong
This paper presents the work undertaken for the project of terminology standardization of the information management and knowledge management domain.The project is sponsored by the China National Committee for Terms in Sciences and Technologies(CNCTST).It consists of three stages:(a) collecting the domain-specific terms,(b)defining the terms,(c)determining the English name of each term.This paper describes the working methods applied in each phase,introduces problems emerging in the work and suggests the solutions.
terminology standardization,information management,knowledge management,text mining
N04;TP3
A
1673-8578(2011)04-0009-08
2011-03-15
國家自然科學(xué)基金委員會主任基金(70940013);福州大學(xué)人才引進(jìn)科研啟動費(022360)
于娟(1981—),女,漢族,山東萊西人,福州大學(xué)講師,工學(xué)博士,碩導(dǎo),研究方向:知識管理,領(lǐng)域本體。通信方式: infoyujuan@163.com。