• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大型術(shù)語部件庫建設(shè)的實踐與思考

      2014-09-08 06:49:25楊福義
      中國科技術(shù)語 2014年4期
      關(guān)鍵詞:標點符號分詞術(shù)語

      楊福義

      (鞍山師范學院,遼寧鞍山 114006)

      大型術(shù)語部件庫建設(shè)的實踐與思考

      楊福義

      (鞍山師范學院,遼寧鞍山 114006)

      在大規(guī)模術(shù)語部件庫的建設(shè)中,獲得了10萬條術(shù)語部件,對建設(shè)中使用的技術(shù)予以介紹。進行了術(shù)語部件庫的統(tǒng)計分析,總結(jié)了術(shù)語部件庫的建設(shè)經(jīng)驗與問題,提出了進一步解決的方法。

      術(shù)語部件,統(tǒng)計語言學,術(shù)語經(jīng)濟律

      術(shù)語部件庫是一個包含豐富信息的知識庫,這些豐富信息有助于新術(shù)語的自動發(fā)現(xiàn)、術(shù)語的自動定義、術(shù)語概念體系的建立等相關(guān)研究工作[1]。目前,較大型的術(shù)語部件庫很少,現(xiàn)有的術(shù)語部件庫也缺少相應(yīng)的術(shù)語部件構(gòu)成統(tǒng)計分析。為了進一步開展科技文獻和論文的自動標引與自動分類工作,以及發(fā)現(xiàn)新的科技術(shù)語,迫切需要建設(shè)一個具有專業(yè)領(lǐng)域特異性的術(shù)語部件庫。

      一 術(shù)語部件庫建設(shè)的前期準備

      為了更好地進行文本的科學自動分類與自動標引,必須有一個來源可靠、分類科學的分詞詞典,以及方便合理的分詞工具。術(shù)語部件對于建立按學科自動分類與自動標引工作具有重要的作用,是當今時代中文信息處理的迫切需要,也是為數(shù)以千萬讀者快速方便進行科學文獻智能檢索而提供的重要工具。

      術(shù)語具有鮮明的學科領(lǐng)域性特點,是按學科分類的重要工具,大部分術(shù)語由術(shù)語部件所組成。術(shù)語部件中含有重要的語義信息,可以用于科技文獻的自動摘要、關(guān)鍵理論與信息的自動抽取和分析。國家有關(guān)部門對術(shù)語數(shù)據(jù)庫的建設(shè)制定了一系列標準與規(guī)范,《術(shù)語部件庫的信息描述規(guī)范》(以下簡稱“描述規(guī)范”)[1]就是其中一項重要的參考資料。

      1.術(shù)語部件庫的數(shù)據(jù)來源

      術(shù)語部件庫的建設(shè)離不開術(shù)語數(shù)據(jù)庫。術(shù)語部件庫需要對術(shù)語數(shù)據(jù)庫中的術(shù)語進行解析,將多詞術(shù)語按條目進行切分與標注,在此基礎(chǔ)上進行術(shù)語部件的提取。所以對術(shù)語數(shù)據(jù)庫的要求是權(quán)威性、規(guī)模性與領(lǐng)域特異性。

      術(shù)語數(shù)據(jù)庫選用了全國科學技術(shù)名詞審定委員會(以下簡稱“全國科技名詞委”)網(wǎng)站發(fā)布的術(shù)語數(shù)據(jù)電子文本以及中國知網(wǎng)獲得授權(quán)后發(fā)布的規(guī)范術(shù)語,以保證術(shù)語部件的來源權(quán)威性。數(shù)據(jù)庫的電子文本通過多年的復(fù)制、拷貝、粘貼以及去除因客觀因素導(dǎo)致的有問題的術(shù)語,獲得了基本可靠的原始術(shù)語數(shù)據(jù)。

      2.術(shù)語的凈化與預(yù)處理

      已經(jīng)出版的術(shù)語詞典和發(fā)布的術(shù)語文件是眾多專家多年的心血結(jié)晶,但術(shù)語庫的建設(shè)是一項持續(xù)恒久的工作,過程中總會有瑕疵,有些問題也存在觀點分歧。下面就術(shù)語數(shù)據(jù)庫凈化與預(yù)處理的幾個問題予以說明。

      (1)術(shù)語中的字母詞

      關(guān)于術(shù)語中的數(shù)字與字母詞問題,已有多篇文章對其討論。在部件庫的建設(shè)中,對數(shù)字字母詞做如下處理:對術(shù)語中的全角和半角混用詞,在不改變原有詞義的情況下,采用全角化處理,以保證分詞的準確性。

      (2)術(shù)語中的標點符號詞

      針對術(shù)語中的標點符號,《信息處理用現(xiàn)代漢語分詞規(guī)范》[2]第一項指出:空格或標點符號是計算機中的分詞單位標記,如果將帶有標點符號的詞按標點符號切分,將違背術(shù)語部件與術(shù)語相關(guān)關(guān)系的含義。因此,在術(shù)語部件庫建設(shè)中,對含有標點符號的術(shù)語詞,要根據(jù)具體情況予以處理。

      術(shù)語中的標點符號問題處理起來更加困難。例如“(0,2)插值[數(shù)學](0,2) interpolation”“1K-(2-吡啶基偶氮)-2-萘酚[化學]1-(2-pyridylazo)-2-naphthol, PAN”,絕大多數(shù)分詞軟件都無法把標點符號連接的詞匯進行準確分詞。術(shù)語中的標點符號還有中文標點符號和英文標點符號,也需要根據(jù)具體情況做出相應(yīng)處理。

      (3)術(shù)語中的特殊字母詞

      將術(shù)語統(tǒng)一轉(zhuǎn)化為全角漢字符號。使用UTF-8編碼,可以處理包括中韓日全部象形文字的數(shù)據(jù),但對于希臘字母,卻只有雙字節(jié)的內(nèi)碼數(shù)據(jù),因此對于含有希臘字母的術(shù)語,分詞時也要特殊處理,轉(zhuǎn)化為ANSI碼處理。

      此外,保留術(shù)語中的標點符號,不進行分詞。對全半角混用情況,一律改為全角字符。刪除術(shù)語條目中出現(xiàn)的空格。將中文標點符號中的半角連接號改為全角的連接號。全部英文字母與標點均采用全角中文字母表示。

      二 術(shù)語部件庫建設(shè)中的分詞

      如前所述,中文分詞已有國家標準,但目前為止,標有詞性的專門分詞詞典還沒有公開出版。其中最大的難點是詞與字的定義,絕大多數(shù)漢字具有詞義,可以說幾乎一字一詞,分成單個漢字顯然脫離中文分詞作用的初始意愿,分詞原則以中文信息處理為目的。規(guī)范中明確指出了其他領(lǐng)域參考、補充與細化問題?!缎畔⑻幚碛矛F(xiàn)代漢語分詞規(guī)范》[3]中有“一律切分”“不予切分”“應(yīng)予切分”“按習慣形式切分”等多種規(guī)定。沒有完整的詞表,這些切分原則會有不同解釋。在描述規(guī)范中,結(jié)合緊密、生成能力強、使用穩(wěn)定的語言片段也可以看作是術(shù)語部件。其度量標準問題也不好界定。

      因此,分詞的準確界定,依然有許多問題需要討論,山西大學劉開瑛在《中文文本自動分詞和標注》一書中指出分詞規(guī)范的一些問題[3],例如:“每年”一詞是否切分,推薦規(guī)范與《現(xiàn)代漢語詞典》相矛盾問題等。

      1.本次術(shù)語部件庫建設(shè)過程的分詞標準

      (1)遵循國家標準分詞規(guī)范,以雙字詞為核心的原則

      本文涉及的術(shù)語部件庫的建設(shè)采用詞組型分詞,把多詞術(shù)語的分詞分到最小詞組長度后,不再切分,即使他們是單字術(shù)語組成的雙字詞組,也不再切分。例如:基是單字術(shù)語詞,體是單字術(shù)語詞,基體是合成術(shù)語新詞,在化學、細胞生物學、植物學、航天科技、冶金學、人體組織學等多學科中使用,且具有不同的英文譯文和含義。對于這類雙字詞不再切分,即術(shù)語部件庫的部件最小字長為2,也就是雙字詞。雙字術(shù)語部件詞加前綴或后綴可形成新的術(shù)語部件,分詞后的術(shù)語構(gòu)成一個二叉樹,可與其他術(shù)語部件構(gòu)成樹圖,進一步分析術(shù)語的結(jié)構(gòu)與類型。

      (2)以多詞術(shù)語部件構(gòu)成原則為依據(jù)

      采用以單字詞術(shù)語和雙字詞術(shù)語為種子術(shù)語,參與新術(shù)語部件的發(fā)現(xiàn)與擴充建設(shè)的原則。

      由1個字或2個字組成的規(guī)范術(shù)語詞,加其他漢字則構(gòu)成新生術(shù)語。所加部分一定是術(shù)語部件,可以是字,也可以是詞。因此,每個多詞術(shù)語的生成均可以切分為單字術(shù)語+單字術(shù)語、單字術(shù)語+構(gòu)成術(shù)語單字等幾種模式。

      在分詞原則中,2字詞或3字詞,以及結(jié)合緊密、使用穩(wěn)定的2字或3字詞組一律為分詞單位。按此原則,2字詞與3字詞作為分詞的基本單位,參與多詞術(shù)語中部件的度量與計算。在涉及分詞歧義的情況下,適當收入4字以上的部件詞。中外人名與機構(gòu)名不受字數(shù)限制。

      2.本文涉及的幾個概念的定義

      (1)分詞粒度:在馮志偉《現(xiàn)代術(shù)語學引論》中,被稱為術(shù)語長度[4]。一個術(shù)語部件詞為一粒,稱作粒度為1。一個術(shù)語部件所含有漢字的個數(shù),稱為粒長。例如:“漢字信息處理”的部件數(shù)是3,則稱為術(shù)語部件粒數(shù)為3,每粒的粒長均為2。可以說,“漢字信息處理”有三個術(shù)語部件詞。

      (2)術(shù)語部件粒長:術(shù)語部件按規(guī)定原則不再切分時,單個術(shù)語部件的漢字的字數(shù)稱為粒長(不稱為字長是因為與計算機科學技術(shù)專業(yè)中的字長概念相區(qū)別)。

      (3)綴:以術(shù)語中助詞為主要成分的單字詞。參與術(shù)語組詞的稱為綴,分為前綴、中綴、后綴三種。綴為術(shù)語部件中的基本部分,可多次加詞構(gòu)成新部件。這些部件不再切分,以避免失去專業(yè)屬性,影響特定領(lǐng)域術(shù)語部件的分析與應(yīng)用。這類部件可成為核心部件詞的擴充部件,加前綴或者后綴組成新部件。此類部件大部分粒長為3。分詞過程產(chǎn)生的中綴,可以合并到前面或后面,構(gòu)成新的術(shù)語部件。

      (4)術(shù)語部件黏度:術(shù)語部件構(gòu)成新術(shù)語詞的能力。構(gòu)詞越多黏度越大,對構(gòu)詞數(shù)目取對數(shù),取頻次的常用對數(shù)作為術(shù)語黏度的定義??梢远糠治鲂g(shù)語部件的生成能力。頻次1000條的術(shù)語黏度為3,100條的為2,10條的為1。頻次只有1條的黏度為0,只在一個術(shù)語條目中出現(xiàn)。

      這樣,就明確定義了術(shù)語部件生成術(shù)語能力的級別,常用術(shù)語部件黏度大于或等于1.0,少用術(shù)語部件黏度小于1.0并且大于0,罕用術(shù)語部件黏度等于0。將術(shù)語部件的生成能力予以定量描述,也對應(yīng)組成能力十條以上(常用),幾條(少用),一條(罕用)的概念。

      按此標準,可以分組計量從而發(fā)現(xiàn)術(shù)語部件分布的客觀規(guī)律與分布的數(shù)學模型。

      3.分詞詞典的建設(shè)理據(jù)與過程

      根據(jù)多詞術(shù)語的定義,多詞術(shù)語可完全正確切分,如拆出一個部件詞,其余仍是多詞詞組或單個部件詞。根據(jù)馮志偉介紹的術(shù)語生成機制[4],取雙字術(shù)語詞作為新術(shù)語部件發(fā)現(xiàn)的種子術(shù)語,參與分詞與新詞發(fā)現(xiàn)。

      4.術(shù)語部件庫的形成過程

      以20 000條雙字詞術(shù)語為種子詞開始建設(shè),對約243 000詞條的術(shù)語數(shù)據(jù)庫按專業(yè)進行切分,分詞程序包含著新術(shù)語部件產(chǎn)生發(fā)現(xiàn)模塊,每分詞一次就生成新詞備審文件,審查后補充進入分詞詞典,再次分詞。

      使用擴充新部件詞后的分詞詞典再次進行分詞,會再次出現(xiàn)新部件,如此循環(huán),直至不再出現(xiàn)術(shù)語新部件為止。

      接著,對不再具有新詞生成的術(shù)語庫進行單字分析,分別通過前綴、中綴、后綴的處理,組成一些以基本核心部件詞為主的擴充部件,例如“非+線性”構(gòu)成“非線性”。如此反復(fù)運算,最終獲得10萬詞匯的術(shù)語部件,構(gòu)成科技術(shù)語部件總庫。而且對于每個專業(yè),分別單獨建立部件詞表。以獲得具有專業(yè)領(lǐng)域?qū)傩缘男g(shù)語部件頻次數(shù)據(jù)。用于科技文獻的自動標引與自動分類研究。

      一般術(shù)語數(shù)據(jù)庫,需要按以上分詞過程進行5~6次。

      筆者編寫了術(shù)語庫分詞與新部件發(fā)現(xiàn)程序軟件,分詞軟件采用正向最大分詞方法,從12字進行切分,遞歸處理。在種子術(shù)語部件庫的基礎(chǔ)上,對字數(shù)大于3的術(shù)語進行分詞。

      術(shù)語分詞后,如果有連續(xù)的單字,則合并為預(yù)選新詞,經(jīng)人工甄別后入庫。對散落的單字,除語法詞外,進行與上下部件歸并的粘連操作。

      三 分詞結(jié)果與術(shù)語部件庫的信息描述

      對243 000條的術(shù)語數(shù)據(jù)庫進行按專業(yè)分詞,建立了術(shù)語部件庫。分詞產(chǎn)生103 000條術(shù)語部件。按頻次黏度定義結(jié)果如下:

      常用術(shù)語部件(黏度>1.0) 6646個 占 6.41%

      少用術(shù)語部件 (1.0>黏度>0) 33675個 占32.48%

      罕用術(shù)語部件 (黏度為0) 63349個 占 61.10%

      由以上數(shù)據(jù)可以看到,術(shù)語頻次曲線的長尾現(xiàn)象,即有大量的部件詞只使用一次。各專業(yè)罕用詞均在60%~80%之間,常用詞約占1%~6%。罕用術(shù)語部件約占70%,覆蓋30%的詞次,一般與常用部件約占30%,覆蓋70%的詞次,即總詞次的70%。這個規(guī)律也可以稱為部件頻度分布的三七規(guī)則。

      罕用部件詞量大,而且專業(yè)領(lǐng)域特異性明顯,對文件詳細分類的精確度有重要作用。常用部件使用頻度高,對于發(fā)現(xiàn)術(shù)語新詞和文本分類較大類別的劃分具有重要意義。

      獲取各專業(yè)、各領(lǐng)域的術(shù)語部件詞表后,需要各方面進行標注。主要的標注工作如下:

      詞的語法屬性:按國家標準標注語法詞性,在無法確定的情況下,使用計算機輔助詞性標注加人工校對的方法。

      詞的專業(yè)屬性:研究專業(yè)分布頻次與向量分布。

      詞的部首屬性:研究術(shù)語部件字部首與術(shù)語部件詞的相關(guān)性。

      詞的黏度(術(shù)語構(gòu)成能力)屬性:研究術(shù)語部件詞構(gòu)成術(shù)語的能力與模式。

      四 術(shù)語部件庫的統(tǒng)計分析

      1.分析術(shù)語部件庫經(jīng)濟指數(shù)

      按術(shù)語經(jīng)濟指數(shù)定義與馮志偉介紹的術(shù)語于形成的經(jīng)濟律計算方法[4],對58個專業(yè)術(shù)語部件庫進行經(jīng)濟指數(shù)計算,表1是部分專業(yè)的數(shù)據(jù)計算結(jié)果。

      表1 部分專業(yè)的術(shù)語經(jīng)濟指數(shù)

      2.分析術(shù)語部件詞頻分布規(guī)律

      根據(jù)術(shù)語部件詞表在術(shù)語庫的使用頻度,可以研究術(shù)語部件構(gòu)成規(guī)律。采用五種數(shù)學曲線按專業(yè)對數(shù)據(jù)進行計算[5]。計算表明以冪函數(shù)擬合效果最好。這里根據(jù)齊夫定律(Zipf ’s law),將部件按頻度排序。詞頻與序號的關(guān)系是離散的,近似用非線性回歸轉(zhuǎn)化為線性回歸的方法予以計算。

      使用美國語言學家朱斯(M.Joos)對Zipf公式提出修正的雙參數(shù)詞頻定律[6]:

      Y=AX-B

      其中,Y代表頻次,X代表單詞排序號,B代表指數(shù),A代表系數(shù)。

      對各個專業(yè)分別進行回歸計算。對等式兩邊取對數(shù)后化為直線方程進行最小二乘法擬合,對計算結(jié)果進行比較分析,部分專業(yè)術(shù)語部件詞頻規(guī)律方程如表2:

      表2 部分專業(yè)術(shù)語部件庫頻次曲線數(shù)學模型

      3.術(shù)語部件庫之間的相關(guān)系數(shù)

      哪些專業(yè)術(shù)語部件庫之間具有相同的部件較多?可以采用術(shù)語部件詞構(gòu)成的方向向量來計量。這是科技文獻聚類分析的重要參考數(shù)據(jù)。使用向量距離的度量方法[7],應(yīng)用余弦定理對術(shù)語部件詞表的向量距離進行計算,結(jié)果見表4。按詞表建立向量,計算不同專業(yè)之間的距離(相關(guān)系數(shù))。夾角角度為0度,余弦值為1,距離為零,數(shù)據(jù)越小,距離越大。表3可以看出電力專業(yè)與電工學專業(yè),計算機科學技術(shù)與自動化專業(yè)具有較高的相關(guān)系數(shù),共用了較多的術(shù)語部件。

      表3 專業(yè)相互之間術(shù)語部件的相關(guān)系數(shù)(余弦距離)

      4.進行科技文獻自動標引與自動分類

      以術(shù)語部件庫的術(shù)語條目作為主題詞與關(guān)鍵詞,是把文獻中涉及專業(yè)屬性最敏感部分進行提煉。實踐表明,應(yīng)用術(shù)語部件庫可以進行自動標引,并有利于計算機輔助信息檢索,為用戶提供相關(guān)詞族群的檢索詞匯,也可以為科技術(shù)語審定提供參考。

      由于部件是從術(shù)語數(shù)據(jù)庫中提煉出的精化部分,可以對文件中的術(shù)語在各專業(yè)的向量分布進行概率統(tǒng)計分析。從而為解決相關(guān)學科的檢索和新的術(shù)語分類提供參考依據(jù)。

      例如,通過文獻的生物學詞頻概率和電子學的詞頻概率,發(fā)現(xiàn)涉及生物電子學的新詞。

      5.構(gòu)建由術(shù)語部件表達知識與概念的語義網(wǎng)

      概念是人類知識的基本單元。通常一個概念對應(yīng)一個自然語言的單詞或詞組,對術(shù)語部件庫的進一步深入研究,可以考慮構(gòu)建以部件詞為核心的科技術(shù)語詞網(wǎng),以及術(shù)語工程專家系統(tǒng)。建立適合在網(wǎng)絡(luò)環(huán)境下應(yīng)用的術(shù)語知識組織系統(tǒng),運用知識本體的理論和方法研究術(shù)語,并進一步理解知識的內(nèi)涵與相互關(guān)系,為科技術(shù)語知識的學習提供便利工具,為術(shù)語概念體系的建立提供依據(jù)和參考。

      五 結(jié) 語

      術(shù)語部件庫的建設(shè)是術(shù)語工作的重要組成。無論采用何種方法與何種工具,最終形成的部件庫將殊途同歸。筆者初步建成含有10萬條詞匯的術(shù)語部件庫,這項工程還遠未結(jié)束,還有大量的屬性標定與詞匯審校工作。部件庫也需要專家學者的進一步審定,建成的部件庫詞表審定后可以資源共享,供更多的科技人員研究術(shù)語時作為參考,或可避免低水平的重復(fù)勞動。

      術(shù)語部件是對浩瀚術(shù)語數(shù)據(jù)的凝縮與集中,做好術(shù)語部件庫的建設(shè)具有重要意義。僅以筆者的數(shù)年實踐拋磚引玉,期望術(shù)語部件庫的研究、數(shù)據(jù)挖掘能得到更多同仁的重視,為中國術(shù)語的規(guī)范推廣與應(yīng)用做出貢獻。

      [1] GB/T 19102—2003 術(shù)語部件庫的信息描述規(guī)范[S].北京:中國標準出版社,2003.

      [2] GB/T 13715—1992 信息處理用現(xiàn)代漢語分詞規(guī)范[S].北京:中國標準出版社,1992.

      [3] 劉開瑛.中文文本自動分詞和標注[M].北京:商務(wù)印書館,2000:30-33.

      [4] 馮志偉.現(xiàn)代術(shù)語學引論(增訂本)[M].北京:商務(wù)印書館,2011.

      [5] 陳魁.應(yīng)用概率統(tǒng)計[M].北京:清華大學出版社,2000:255-260.

      [6] 馮志偉,胡鳳國. 數(shù)理語言學[M].北京:商務(wù)印書館,2012:269.

      [7] 吳軍.數(shù)學之美[M].北京:人民郵電出版社,2012:127-135.

      Practice and Thoughts on Building a Large Term Component Database

      YANG Fuyi

      Based on 100 000 term components obtained during the construction of large-scale term component database, we introduced the construction techniques. We also made statistics on the term components of database, sum up construction experience and problems for the database construction, and put forward suggestions for further work.

      term component, statistical linguistics, word term economic law

      2014-03-27

      楊福義(1945—), 遼寧蓋州人,鞍山師范學院高級工程師, 研究方向為語料庫、術(shù)語數(shù)據(jù)庫與知識組織系統(tǒng)。通信方式:yangfuyi@sina.com。

      H083;N04

      A

      1673-8578(2014)04-0009-05

      猜你喜歡
      標點符號分詞術(shù)語
      我們班的“標點符號”
      小讀者(2020年4期)2020-06-16 03:34:06
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      標點符號爭吵記
      快樂語文(2017年12期)2017-05-09 22:07:56
      標點符號的爭論
      值得重視的分詞的特殊用法
      新人教版《逍遙游》中幾處標點符號誤用例說
      語文知識(2015年9期)2015-02-28 22:01:43
      高考分詞作狀語考點歸納與疑難解析
      有感于幾個術(shù)語的定名與應(yīng)用
      從術(shù)語學基本模型的演變看術(shù)語學的發(fā)展趨勢
      論英語不定式和-ing分詞的語義傳承
      外語學刊(2011年3期)2011-01-22 03:42:20
      辽宁省| 璧山县| 苍山县| 中阳县| 安丘市| 汤阴县| 织金县| 辽宁省| 克什克腾旗| 二连浩特市| 广水市| 通江县| 丹寨县| 德钦县| 荆门市| 博白县| 镇雄县| 罗甸县| 武宣县| 商城县| 连江县| 凉城县| 山西省| 松桃| 宜宾县| 嘉定区| 凤山市| 巴中市| 南皮县| 荃湾区| 绿春县| 平谷区| 稻城县| 武汉市| 阿拉善右旗| 舟曲县| 吉安市| 彰武县| 自治县| 五常市| 资源县|