張 靜
〔摘 要〕本文論述了在目前全文檢索廣泛應(yīng)用的背景下,自動標引的重要性;把近五十年發(fā)展起來的自動標引技術(shù)按照采用的理論依據(jù),分為統(tǒng)計分析方法、語言分析方法、人工智能法和混合方法,并闡述了每類自動標引技術(shù)的特征及其優(yōu)劣勢;最后,總結(jié)分析了現(xiàn)有自動標引技術(shù)的不足,并對其發(fā)展前景做出展望。
〔關(guān)鍵詞〕自動標引;統(tǒng)計分析方法;語言分析方法;人工智能法;混合方法
〔中圖分類號〕G252 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)04-0221-05
Review and Prospect of Automatic IndexingZhang Jing1,2
(1.National Science Library,Chinese Academy of Sciences,Beijing 100190,China;
2.Graduate University of Chinese Academy of Sciences,Beijing 100190,China)
〔Abstract〕Firstly this paper explained why automatic indexing was also important when full text search was widely used.Then it classified automatic indexing as statistical analysis,language analysis,artificial intelligence and mixed approaches.The advantages and disadvantages of each approach were described.At last,the limitations of the existing automatic indexing were summarized,and the future research topics and applications were discussed.
〔Key words〕automatic indexing;statistical analysis;language analysis;artificial intelligence;mixed approaches
隨著互聯(lián)網(wǎng)的發(fā)展,人們生成、獲取信息的速度大大加快。面對海量的信息,人工標引效率偏低,也不能滿足數(shù)據(jù)一致性的要求,自動標引技術(shù)隨之發(fā)展起來。
自動標引(Automatic indexing)是指利用計算機系統(tǒng)從擬存儲、檢索的事實情報或文獻(題目、文摘、正文)中抽取檢索標志的過程[1]。1957年,美國人盧恩(H.P.Luhn)提出了基于詞頻統(tǒng)計的抽詞標引法,由此開始了自動標引的探索。從60年代后期到70年代末,自動標引研究取得了很大進展,提出了概率統(tǒng)計標引法和各種加權(quán)模型等。80年代以來,研究人員開始從語言學角度研究標引技術(shù)。近年來,自動標引技術(shù)開始向人工智能方向發(fā)展。
1 全文檢索時代自動標引的重要性
現(xiàn)在人們已經(jīng)可以實現(xiàn)全文檢索,但這并不意味著標引的重要性降低了。與之相反,面對海量信息的檢索與挖掘,標引反而顯得愈發(fā)重要:
1.1 標引是信息過濾的必要方法
無論是電子環(huán)境還是印本環(huán)境,信息過濾都是非常必要的。尤其在充斥著大量信息的網(wǎng)絡(luò)環(huán)境下,對不同的信息價值進行過濾與甄別是必然的,而標引正是信息過濾的必要組成部分[2]。
1.2 標引是對信息的精煉與提升,對信息本身有智能貢獻雖然Odlyzko在幾年前表示,圖書館和學術(shù)期刊至少在傳統(tǒng)模式上會過時[3],但他卻認為標引的前途是光明的。他表示,標引能夠為信息提供重要智能貢獻,而這種貢獻的成本并不高[3]。
1.3 標引可以使檢索更有效率,更為準確
Jacsó表示,全文數(shù)據(jù)庫通過文摘可以獲得更有效的使用[4]。顯而易見,瀏覽檢索列表的關(guān)鍵詞與文摘能更快的選出需要的文章。其次,檢索關(guān)鍵詞與文摘比檢索海量全文的結(jié)果更準確,也更有效率,能更大程度的節(jié)省用戶獲取有用信息的所用的時間。
總之,人目前的全文檢索效率與質(zhì)量并不能很好的滿足人們準確檢索的需求,關(guān)鍵詞自動標引技術(shù)成為了必然的發(fā)展趨勢。
2 自動標引技術(shù)的分類及其優(yōu)劣勢
2.1 自動標引技術(shù)的分類
按照標引詞的來源,自動標引可以分為自動抽詞標引和自動賦詞標引。自動抽詞標引即由計算機自動從文本中抽取詞或短語來表達信息資源的主題內(nèi)容。自動賦詞標引就是從某種形式的受控詞表中選取詞語來表達文獻資源的主題內(nèi)容。自動抽詞標引的標引詞來自文獻資源本身;而自動賦詞標引已經(jīng)超出了單純自然語言的范圍,是自然語言與受控語言的結(jié)合。目前絕大部分的自動標引方法都是基于抽詞思想的。
按照標引技術(shù)采用的理論依據(jù)來看,自動標引可以分為統(tǒng)計分析方法、語言分析方法、人工智能法和混合方法。
2.1.1 統(tǒng)計分析方法
統(tǒng)計分析方法的基本原理在于術(shù)語具有一些顯著的統(tǒng)計特征,如共現(xiàn)、逆文檔詞頻、熵、互信息等[5]。統(tǒng)計分析方法是目前應(yīng)用最多的標引方法。在這類方法中,可以分為一般統(tǒng)計法、加權(quán)統(tǒng)計法和分類判別統(tǒng)計法。
(1)一般統(tǒng)計法是指通過對文獻中詞的出現(xiàn)頻率、共現(xiàn)頻率等統(tǒng)計指標進行統(tǒng)計排序,找出處于臨界域(Critical Region)內(nèi)、能真正表達文獻主題內(nèi)容的詞,再根據(jù)情況選取適當數(shù)量的詞作為標引詞。
(2)加權(quán)統(tǒng)計法是在一般統(tǒng)計法的基礎(chǔ)上引入了加權(quán)的概念,以獲得更理想的標引結(jié)果。換言之,人們不僅觀察詞在文獻的標題、文摘或全文中出現(xiàn)的統(tǒng)計信息,而且考慮詞在文獻中出現(xiàn)的位置或含有該詞的文獻的長短等因素。加權(quán)統(tǒng)計法根據(jù)不同的加權(quán)辦法又可派生出不同的處理方法。
(3)概率統(tǒng)計法的原理有二:第一,標引詞在文獻中的出現(xiàn)頻數(shù)的概率有規(guī)律可循;第二,標引詞是否反映文獻主題內(nèi)容在檢索中可以通過概率表示。概率統(tǒng)計法通過分析整體文獻各類詞的概率分布,找到能表達主題內(nèi)容的標引詞的概率分布狀況,從而判定標引詞。概率統(tǒng)計法根據(jù)概率統(tǒng)計模型的不同可以派生出不同的處理方法。
(4)分類判別統(tǒng)計法的主要特點是以詞的頻數(shù)或權(quán)值為基點,然后利用統(tǒng)計學中的數(shù)值分類法(如聚類分析(Cluster Analysis)、因子分析(Factor Analysis),多維排列(Multidimensional Scaling))或判別分析法(Discriminate Analysis)確定詞在含義上的相近和疏遠關(guān)系,同時也從統(tǒng)計的角度解決近義詞、同形異義詞、異形同義詞等問題。這類方法在自動賦詞標引中用得較多,在對標引文獻進行語義分析時也有所應(yīng)用[6]。Stokolov在美國生物科學情報服務(wù)處(BIOSIS)采用分類統(tǒng)計法進行了自動賦詞標引試驗,發(fā)現(xiàn)自動標引與手工標引之結(jié)果的吻合程度可達80%~90%[7]。
統(tǒng)計方法不依賴標引詞的領(lǐng)域特征,能夠比較方便地在不同領(lǐng)域使用。但其忽略的詞語的語義信息,主要關(guān)注多詞關(guān)鍵詞,容易忽略有意義的單詞關(guān)鍵詞,標引效果不是太好[8]。
2.1.2 語言分析方法
標引的對象是由自然語言構(gòu)成的文獻,人們便從語言學的角度去探索自動標引的方法。語言分析標引法是對被標引的對象從詞、句、語義、篇章等層次進行語法分析,從而達到標引的目的。語言分析法可以分為詞法分析(Lexical Analysis)、句法分析(Syntactical Analysis)、語義分析(Semantic Analysis)和篇章分析(Text Analysis)。
(1)詞法分析主要是詞性標注和獲得詞匯的詳細特征,對中文來說,還包括詞匯切分的工作[9]。詞法分析的主要任務(wù)是把接收到的自然語言進行切分,并為每個切分的詞加上詞性標記。為了能夠達到快速準確的自動分詞和詞性標注,在詞法分析各環(huán)節(jié)中還要考慮以下問題:切分歧義的消除、未登錄詞的識別以及兼類詞性的消除。
(2)句法分析是從語法角度上確定句子中每個詞的作用(如主語還是謂語)和詞之間的相互關(guān)系(如是修飾還是被修飾)而實現(xiàn)的[6]。句法分析一般通過與事先準備好的解析規(guī)則或語法相比較而實現(xiàn)。經(jīng)驗證明,這一自動標引方法從整體上講效果欠佳。另外,句法分析本身很難消除詞義的模糊性。為此,Salton指出,所有的句法分析必須輔以語義分析,才能保證標引效果的準確性[10]。
(3)語義分析是分析詞在特定的上下文中的確切含義。和句法分析相比,語義分析在自動標引的使用范圍和效果都強于前者。學術(shù)界對從語言學角度研究自動標引的做法頗有爭議,反對者的主要理由包括:語法太復雜、使用限制多;語言學領(lǐng)域的研究成果對促進自動發(fā)展幫助甚微。
(4)篇章分析是通過計算機找出篇章中內(nèi)容相關(guān)的片斷(詞、句、句群、段、篇等)并在它們之間建立各種索引,如超媒體和超文本結(jié)構(gòu)中鏈接索引,以便用戶能快速檢索出所需要的內(nèi)容,或者跳段瀏覽最感興趣的部分[11]。目前篇章分析已有許多理論和方法,如框架(Frame)理論、基于規(guī)劃的方法等。
總的來說,目前的語言分析法對設(shè)定的關(guān)鍵詞構(gòu)成模式依賴較大,識別效率有限,在詞間關(guān)系的識別上尚欠缺有力試驗的驗證。
2.1.3 人工智能法
人工智能(Artificial Intelligence,AI)是計算機科學的一個分支,它專門研究怎樣用機器理解和模擬人類特有的智能系統(tǒng)的活動,探索人們?nèi)绾芜\用已有的知識、經(jīng)驗和技能去解決問題。實現(xiàn)自動標引的目的是讓機器從事標引工作中的腦力勞動,即讓計算機模擬標引員完成標引文獻的工作[12],因此,人們把人工智能法運用于自動標引研究既順應(yīng)自然,又帶來新的活力。有不少人認為,人工智能法代表著自動標引研究的未來。機器學習法可以分為一般機器學習法、集成學習法和專家系統(tǒng)。
(1)一般機器學習法采用數(shù)值建模的方法,通過對訓練數(shù)據(jù)進行訓練獲得參數(shù),從而進行自動標引。
(2)如果將Madaline理解為多個線性分類器,則這個模型應(yīng)該是集成機器學習最早的雛形了。因此,集成學習法要構(gòu)建多分類器,來進行自動標引。
(3)專家系統(tǒng)是人工智能法應(yīng)用于自動標引的具體體現(xiàn)。專家系統(tǒng)標引法是讓一個智能計算機程序系統(tǒng),內(nèi)部含有大量標引專家水平的知識與經(jīng)驗,能夠利用標引員的知識和解決問題的方法來進行標引。也就是說,專家系統(tǒng)是一個具有大量的標引專門知識與經(jīng)驗的程序系統(tǒng),它應(yīng)用人工智能技術(shù)和計算機技術(shù),根據(jù)標引專家提供的知識和經(jīng)驗,進行推理和判斷,模擬人類標引員的決策過程,以進行標引。
人工智能法進行標引的效果取決于人工智能研究自身進展。人工智能法實施的前提都是要建立數(shù)據(jù)量足夠大的訓練庫或知識庫,其效果的提升有賴于于機器學習的能力與速度的提高。盡管人工智能法進行自動標引比其他方法要困難,但它能從標引員的角度去了解標引過程,模擬標引員的行為??梢灶A(yù)見,隨著技術(shù)的進步,人工智能標引法會有長足的發(fā)展空間。
2.1.4 混合方法
上述方法各有缺陷,因此可以將上述幾種方法根據(jù)情況混合使用,或加入啟發(fā)式知識使用??梢韵壤媒y(tǒng)計分析方法獲取初步標引結(jié)果,再基于語言分析方法利于語法過濾器處理統(tǒng)計分析結(jié)果;也可以先用語言分析方法處理文本獲取候選標引詞,再利用統(tǒng)計模型確定標引詞。同時,各種抽詞算法也越來越多地采用人工智能的方式,來加強語義理解,提高標引效果。
2.2 各類自動標引技術(shù)的優(yōu)劣勢
下表描述了以上各種標引方法的代表方法及其優(yōu)劣勢:
3 自動標引技術(shù)存在問題與展望
3.1 自動標引技術(shù)存在問題
信息標引(Indexing),是根據(jù)文獻的特征,賦予文獻檢索標識的過程,包括兩個主要環(huán)節(jié):一是主題分析,即在了解和確定文獻的內(nèi)容特征及某些外部特征的基礎(chǔ)上,提煉出主題概念;二是轉(zhuǎn)換標識,即用專門的檢索語言(標引語言)中的標識表達主題概念[32]。
主題分析階段,自動標引技術(shù)需要解決的難點就在于采用怎樣的過程能讓計算機形成一種類專家的主題判斷過程。理想的自動標引技術(shù)主題分析階段應(yīng)該能夠形成類人的思維過程,同時也需要吸收專家判斷的經(jīng)驗,才能達到專家標引的深度與廣度。目前自動標引技術(shù)存在的問題有:
(1)分詞算法存在缺陷。找出各意義單元,是進行思考和標引判斷的第一步,而漢語的分詞問題一直存在,到目前為止各種分詞算法對歧義切分都還設(shè)有好的解決方法。這就導致進行自動標引基礎(chǔ)存在問題。
(2)分類主題詞表跟不上科學的發(fā)展?,F(xiàn)代社會各學科發(fā)展異常迅猛,分支學科、邊緣學科不斷涌現(xiàn)。詞表的編制總是落后于科學的發(fā)展。使得基于詞典的切分算法總會有一些新詞切分不出,也極大的影響了基于詞表進行語詞控制的自動標引系統(tǒng)的準確性。
(3)語義分析應(yīng)用范圍狹窄。人工標引的重要主題判斷過程是對各意義單元進行語義判別,目前的計算機語義分析應(yīng)用范圍多局限于結(jié)構(gòu)化文檔,對自由文檔的分析準確程度偏低,不足以支撐廣泛的語義判別。
(4)知識庫規(guī)模不夠。人工智能技術(shù)是將專家經(jīng)驗融入標引過程的重要技術(shù),但目前尚未能從根本上解決知識學習的問題,知識庫更新慢,跟不上學科的發(fā)展。經(jīng)驗證明,開發(fā)一個適用的專家系統(tǒng)至少需5人/年[33]。而目前的自動標引專家系統(tǒng)與這個要求尚有距離。
(5)標引結(jié)果評價。人工標引結(jié)束都會有一個判別、修正的過程,自動標引同樣需要進行相應(yīng)的評價。傳統(tǒng)的自動標引評價是對照人工標引結(jié)果判別或者由專家打分,這種方法主觀性大,一致性程度較差,成本也比較高。因此,構(gòu)建一個自動標引的通用評價模型,以減少自動標引的主觀性,節(jié)省評價成本,是一項有意義的工作。
而轉(zhuǎn)換標識階段,只要轉(zhuǎn)換規(guī)則設(shè)定足夠細致,自動標引的標識轉(zhuǎn)換就能非常精準。因此,此階段的主要問題與難點在轉(zhuǎn)換規(guī)則的設(shè)定上。
另外,自動標引技術(shù)作為一種計算機的實際應(yīng)用,其應(yīng)用效果同樣受到程序本身的制約。各系統(tǒng)的研制者由于其個人知識、技術(shù)水平的限制,缺少合作,不能做到集思廣益,使得自動標引系統(tǒng)局限性大,低水平重復現(xiàn)象比較普遍。
3.2 自動標引技術(shù)展望
從上面的敘述可以看出,理想的自動標引系統(tǒng)能夠形成類人的思維過程,同時也需要吸收專家判斷的經(jīng)驗。因此,自動標引技術(shù)的發(fā)展方向必然是向著語言分析和專家系統(tǒng)的方向發(fā)展。另外,多種方法集成學習,也將是今后自動標引技術(shù)發(fā)展的方向。
(1)語言分析。這方面的研究可以解決3.1描述的前3個問題,在目前的計算機技術(shù)條件下,要把理解自然語言所需的“數(shù)量”眾多、同時在“度”的方面具有高度不確定性和模糊性的知識都用規(guī)則形式表達出來是不可能的。這也是語言分析只能在受限的領(lǐng)域獲得成功的原因。但是毋庸置疑,語言分析是取得良好標引效果的必要條件,也是人工智能發(fā)展的必然階段。因此,尋求更加理想的語言分析方案,是今后自動標引研究的趨勢之一。
(2)專家系統(tǒng)。完全不用或少用人工參與的自動標引系統(tǒng)必然要能借鑒專家經(jīng)驗,而專家系統(tǒng)將是解決3.1第4個問題,并提高標引準確率與全面程度的解決方案。如何提高專家系統(tǒng)的學習能力,如何集成多學科專家系統(tǒng)都將是今后自動標引研究的趨勢之一。
(3)多種標引方法的集成學習。利弊總是相對的,因此各標引方法也總會存在其優(yōu)劣勢,將多種標引方法集成,進行互補的集成學習,將是提高標引質(zhì)量的重要手段。目前還沒有一種方法能完全能模擬并達到標引員的標引能力。多種模型或方法的集成,能在一定程度上提高自動標引的質(zhì)量。而如何進行這種集成學習,很好的將各種標引方法的優(yōu)劣勢進行互補,將是今后自動標引研究的重要趨勢之一。
4 結(jié) 語
總的來說,隨著網(wǎng)絡(luò)的發(fā)展,信息的無序狀態(tài)加劇,信息量成幾何級數(shù)增長,這都使得自動標引不僅是圖書情報業(yè)需要,而是成為了一種廣泛而迫切的社會需求。計算機及信息技術(shù)的發(fā)展及應(yīng)用,將為自動標引技術(shù)的研究帶來更大的變化,最終方便用戶,減少用戶獲取有用信息的時間和精力。
目前,雖然自動標引技術(shù)多種多樣,但由于技術(shù)的限制,小規(guī)模試驗的效果較好,大規(guī)模應(yīng)用的標引質(zhì)量還是不高,標引過程中也少不了人的參與。正如Lancaster和Warner所說,自動標引技術(shù)距離完全實際應(yīng)用仍有很長的距離,只有機器具有足夠智能,才能完全替代人類完成這項重要工作[34]。
參考文獻
[1]自動標引[EB/OL].http:∥baike.baidu.com/view/853543.htm,2008-09-12.
[2]F.W.Lancaster.Do Indexing and Abstracting have a Future?[J].Anales de Documentación,2003,(6):137-144.
[3]Odlyzko,A.M.Tragic loss or good riddance?The impending demise of traditional schol-arly journals.International Journal of Human-Computer Studies,1995,42:71-122.
[4]Jacsó,P.Document-summarization software.Information Today,2002,19(2):22-23.
[5]Buitelaar P,Cimiano P,Grobelnik M.Ontology Learning from Text[C].In:the ECMI/PKDD 2005 Workshop on:Knowledge Discovery and Ontologies,Porto,Protugal,2005.
[6]儲荷婷.索引工作自動化:自動標引的主要方法[J].情報學報,1993,(3):218-229.
[7]Vledutz-Stokolov,N.Concept Recognition in an Automatic Text Processing System for the Life Science[J].Journal of the American Society for Information Science,1987,(4):269-297.
[8]Alegia I,Arregi O,Balza I.Linguistic and Statistical Approsches to Basque Term Extraction[EB/OL].http:∥ixa.is.ehu.es,2008-05-13.
[9]耿騫,毛瑞.漢語自然語言檢索中的詞法分析處理[J].情報科學,2004,(4):466-469.
[10]Salton,G.Automatic Text Proceesing:the Transformation,Analysis,and Retrieval of Information by Computer,Reading,MA,Addison-Wisley,1989:281-284.
[11]劉平蘭.數(shù)字圖書館中基于關(guān)系圖的篇章分析方法研究[J].情報雜志,2003,(12):88-92.
[12]顧敏,史麗萍,李春玲.自動標引綜述[J].黑龍江水專學報,2000,(3):103-104.
[13]Luhn H P.A Statistical Approach to Mechanized Encoding and Searching of Literary Information[J].IBM Journal of Research and Development,1957,(4):309-317.
[14]馬穎華,王永成,蘇貴洋,等.一種基于字同現(xiàn)頻率的漢語文本主題抽取方法[J].計算機研究與發(fā)展,2004,40(6):874-878.
[15]Chien L F.PAT-tree—based Keyword Extraction for Chinese Information Retrieval[A].In:Proceedings of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR1997)[C].Philadelphia,PA,USA.1997:50-59.
[16]Edmundson H P,Oswald V A.Automatic Indexing and Abstracting of the Contents of Documents[R].Planning Research Corp,Document PRC R-126,ASTIA AD No.231606,Los Angeles,1959:1-142.
[17]Edmundson H P.New Methods in Automatic Abstracting Extracting[J].Journal of the Association for Computing Machinery,1969,16(2):264-285.
[18]Maron M E,Kuhns J L.On Relevance,Probabilistic Indexing and Information Retrieval[J].Journal of the Association for Computer Machinery,1960,7(3):216-244.
[19]A.Bookstein,D.Swanson.Probabilistic models for automatic indexing[J].Journal of the American Society for Information science,1974,25(5):312-318.
[20]韓客松,王永成.中文全文標引的主題詞標引和主題概念標引方法[J].情報學報,2001,20(2):212-216.
[21]Hulth A.Improved Automatic Keyword Extraction Given More Linguistic Knowledge[A].In:Proceedings of the 2003 Conference on Emprical Methods in Natural Language Processing[C].Sapporo,Japan,2003:216-223.
[22]索紅光,劉玉樹,曹淑英.一種基于詞匯鏈的關(guān)鍵詞抽取方法[J].中文信息學報,2006,20(6):25-30.
[23]Salton G,Buckley C.Automatic Text Structuring and Retrieval—Experiments in Automatic Encyclopedia Searching[A].In:Proceedings of the Fourteenth SIGIR Conference[C].New York:ACM,1991:21-30.
[24]Frank E,Paynter G W,Witten I H.Domain——Specific Keyphrase Extraction[A].In:Proceedings of the 16th International Joint Conference on Artificial Intelligence[C].Stockholm,Sweden,Morgan Kaufmann,1999:668-673.
[25]李素建,王厚峰,俞士汶,等.關(guān)鍵瀏自動標引的最大熵模型應(yīng)用研究[J].計算機學報,2004,27(9):1192-1197.
[26]hang K,Xu H,Tang J,et al.Keyword Extraction Using Support Vector Machine[A].In:Proceedings of the Seventh International Conference on Web—Age Information Management(WAIM2006)[C].Hong Kong,China,2006:85-96.
[27]Tumey P D.Learning to Extract Keyphrases from Text[R].NRC Technical Report ERB—1057,National Research Council,Canada,1999:1-43.
[28]Witten I H,Paynter G W,F(xiàn)rank E,et al.KEA:Practical Automatic Keyphrase Extraction[A].In:Proceedings of the 4th ACM Conference on Digital Library(DL99)[C].Berkeley,CA,SA,1999.
[29]Humphrey,S.M.MedlndEx System:Medical Indexing Expert System[J].Information Processing and Management,1986,(1):73-88.
[30]Driscoll,J.R.,et al.The Operation and Performance of an Artificially Intelligent Keywording System[J].Information Processing and Management,1991,(1):43-54.
[31]Lois L E.Experiments in Automatic Indexing and Extracting[J].Information Storage and Retrieval,1970,(6):313-334.
[32]葉鷹,潘有能,潘衛(wèi).情報學基礎(chǔ)教程[M].北京:科學出版社,2006:127-131.
[33]陸汝鈐.專家系統(tǒng)開發(fā)環(huán)境[M].北京:科學出版社,1994.
[34]Lancaster,F(xiàn).W.and Warner A.Intelligent Technologies in Library and Information Ser-vice Applications.Medford,NJ,Information Today,2001.