• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      依存句法分析的回顧與發(fā)展

      2022-02-28 11:55:40楊牧蔡言勝
      現(xiàn)代語文 2022年1期
      關(guān)鍵詞:可視化分析

      楊牧 蔡言勝

      摘? 要:依存語法的基本思想是探討詞與詞之間的依存關(guān)系。依存句法分析以依存語法為理論來源,以算法為實現(xiàn)手段,在語言研究和實際應(yīng)用中均具有一定的價值。采用CiteSpace軟件,對Web of Science核心數(shù)據(jù)庫1985—2020年所收錄的相關(guān)文獻進行可視化分析,研究顯示,依存句法分析研究的發(fā)文量呈遞增趨勢,研究內(nèi)容聚焦于語義理解和算法設(shè)計,研究主體為計算機學(xué)界和語言學(xué)界。

      關(guān)鍵詞:依存語法;依存句法分析;可視化分析

      一、引言

      語言學(xué)研究的趨勢之一是越來越強調(diào)用數(shù)據(jù)說明問題。得益于聲學(xué)技術(shù)的發(fā)展,語音學(xué)可以更加精密地采集數(shù)據(jù)。結(jié)合統(tǒng)計學(xué)的分析方法,語音學(xué)研究具備了成熟的定量分析能力。而傳統(tǒng)的語法定量研究主要是統(tǒng)計某類語法單位或特定格式的出現(xiàn)頻次,解釋能力是有限的,因此,語法研究必須采取新的手段。自然語言處理是應(yīng)用語言學(xué)的重要方向之一。自然語言處理直接面向應(yīng)用,這就要求必須有合適的方法批量處理語言,準(zhǔn)確找到所需信息,之后的所有操作都是建立在這個基礎(chǔ)之上的。在具體實踐中,依存語法被證明是合適的理論,學(xué)者們根據(jù)依存語法的基本思想建立起了比較成熟的句法分析方法??梢哉f,依存語法的理論和分析方法,無論是對語言學(xué)的本體研究還是應(yīng)用研究,都提供了很大的幫助。

      依存語法是一種基于詞與詞關(guān)系的形式語法。Robinson曾給出四條公理[1]:1.一個句子只有一個成分是獨立的;2.句子中的其他成分直接依存于某一成分;3.任何一個成分都不能依存于兩個或兩個以上的成分;4.如果成分A直接依存于成分B,而成分C在句子中位于A和B之間,那么,成分C或者依存于A,或者依存于B,或者依存于A和B之間的某一成分。這一理論初看未免有些抽象,下面,我們就以“這是一個好例子”為例來說明這四條公理。該例句的依存樹圖如圖1(左)所示、該例句的依存有向圖如圖1(右)所示:

      從依存樹圖中,可以看出詞語之間的層次關(guān)系;從依存有向圖中,則更有利于看出依存關(guān)系的類型,以及依存關(guān)系兩端詞語的地位,即支配與從屬。同時,上文提到的四條公理在例句中都有所體現(xiàn)。其中,例句中的“是”不依存于其他成分,因此,它是獨立的,并且句中只有“是”一個詞語是獨立的。這符合公理1。除“是”之外的所有詞語都直接依存于其他詞語,如“這”直接依存于“是”。這符合公理2。圖1中只存在向下的分叉,不存在向上的分叉。這說明一個詞語可以有多個從屬詞,但只能有一個支配詞,如“例子”有兩個從屬詞“一個”“好”和一個支配詞“是”。這符合公理3。“一個”直接依存于“例子”,處在中間的“好”依存于“例子”。這符合公理4。簡言之,依存語法認(rèn)為,詞語之間的地位是不平等的,一方從屬于另一方。這種不平等的關(guān)系就是依存關(guān)系。

      二、依存語法研究簡述

      (一)依存語法的產(chǎn)生和發(fā)展

      嚴(yán)格來講,法國語言學(xué)家呂西安·泰尼埃的遺作《結(jié)構(gòu)句法》于1959年的發(fā)表,標(biāo)志著依存語法的正式誕生。這個時間雖然略晚于喬姆斯基的《句法結(jié)構(gòu)》(1954),但也引起了以德國學(xué)者為代表的語言學(xué)家的關(guān)注。從泰尼埃的論述中,學(xué)者們認(rèn)識到了依存語法和短語結(jié)構(gòu)語法的本質(zhì)區(qū)別,這在歐洲尤其是德國引發(fā)了運用依存語法理論解決問題的熱潮。值得注意的是,生成語法此時已經(jīng)統(tǒng)治了美國語言學(xué)界,但仍有學(xué)者將關(guān)注的目光投向依存語法。Hays正式提出了“依存”和“依存語法”兩個術(shù)語,并且形成了一種完全基于依存關(guān)系的句子結(jié)構(gòu)分析方法[2]。

      泰尼埃與Hays是今天公認(rèn)的現(xiàn)代依存語法的先驅(qū),在兩位學(xué)者之后,依存語法理論的發(fā)展勢頭十分迅猛。其中,產(chǎn)生廣泛影響的主要有四家,即理查德· 哈德森的“詞語法(Word Grammar)”理論、Mel’?uk的“意義—文本理論(Meaning-Text Theory)”、Petr Sgall等人的“功能生成描述(Functional Generative Description)”理論、Stan Starosta的“詞格(Lexicase)”理論。

      “詞語法”理論認(rèn)為,語法就是語言中所有的詞構(gòu)成的網(wǎng)絡(luò),語言中不存在短語這一級單位,詞與詞通過依存關(guān)系組織在一起[3](P95)、[4]、[5](P117)。該理論指出,語言的各個層級之間沒有明顯的界限,語言的各個子系統(tǒng)相互交織,為了處理這種情況,“詞語法”選擇運用“關(guān)系(relation)”連接“實體(entities)”以回避層級問題。其中,哈德森用來說明依存關(guān)系的“依存有向圖”得到普遍認(rèn)可與廣泛應(yīng)用?!耙饬x—文本理論”一開始就面向機器翻譯,其關(guān)注點是在于意義的表達和理解[3](P95)、[6](P43)。意義和文本的關(guān)系是多對多的,相同意義可以由不同的文本來表達,相同文本也可以表達不同意義。在Mel’?uk看來,語言的生成比語言的理解更值得關(guān)注,因此,相比于句法分析,該理論更關(guān)注語言的生成?!耙饬x—文本理論”是目前最具影響力的依存語法理論,并且已廣泛應(yīng)用于自然語言處理上。“功能生成描述”理論同樣與自然語言處理密切相關(guān)[3](P96)、[7]。該理論把語言分為四個層次:詞匯層、形態(tài)層、表層句法層、深層語法層。詞匯層指的是原始文本;形態(tài)層是過濾形態(tài)之后的文本;表層句法層就是通常所說的句法層;深層語法層則是語義層。圍繞這一理論,Petr Sgall等人建立了目前最大的依存樹庫——布拉格依存樹庫(Prague Dependency Treebank)和最大的面向應(yīng)用的配價詞典——捷克語動詞配價詞表(The Valency Lexicon of Czech Verbs)。“詞格”理論也是一種依存理論,但在Stan Starosta去世后,其影響力逐漸衰落[3](P96)。

      (二)自動句法分析的研究

      與其他理論相比,依存語法的最大優(yōu)勢是在于從它誕生起就和應(yīng)用聯(lián)系在一起,而自動句法分析則是這些應(yīng)用的基礎(chǔ)。早期的依存分析是基于規(guī)則的分析,首先是依據(jù)于語言學(xué)家歸納出的句法規(guī)則建立起語法知識庫,然后根據(jù)語法知識庫,對文本進行分析。語言學(xué)家們有意識地運用語言理論,積極地嘗試句法分析,開了自動句法分析的先河。Hays曾提出一種識別句子合法性的句法識別器,并啟發(fā)了后來CYK算法的誕生[2];Menzel則提出面向依存分析的“加權(quán)約束依存語法”[8];Gitguet & Vergne依據(jù)泰尼埃的理論,提出一種依存分析和組塊分析相結(jié)合的句法分析器[9]。這些方法對依存分析的應(yīng)用提供了有力的工具,擴大了這一理論的影響。但是問題也顯而易見,語言中本來就存在著語法理論不好解決或解決不了的問題。為了提高準(zhǔn)確性,學(xué)者們繼續(xù)探索更合適的理論或者是訴諸于其他方法。

      隨著大規(guī)模語料庫的建立,海量的語料為依存分析提供了數(shù)據(jù)來源,基于統(tǒng)計的依存分析開始產(chǎn)生。這種方法把語料庫當(dāng)作語言知識的全部來源,通過訓(xùn)練能夠得到正確率較高的句法分析器。Yamada & Matsumoto采用“支持向量機(Support Vector Machine)”,訓(xùn)練出接近當(dāng)時最好的短語結(jié)構(gòu)分析器性能的依存分析器[10];McDonald等采用“生成樹算法”,有效地進行了非標(biāo)記依存關(guān)系的句法分析[11];Sagae基于兒童語言轉(zhuǎn)寫語料庫,開展了依存分析研究[12]。同時,還出現(xiàn)了將規(guī)則與統(tǒng)計方法相結(jié)合的依存分析,學(xué)者們在基于規(guī)則的依存分析中加入了統(tǒng)計方法,這種方法有助于解決一些原來不好處理的棘手問題。Gala利用施樂公司的增量深層句法分析系統(tǒng)(Xero Incremental Deep Parsing Sysytem)所開發(fā)的分析器,具有從萬維網(wǎng)自學(xué)習(xí)的能力[13];Schneider的Pro3Gres分析器,一方面依托于語言學(xué)家所歸納的語法規(guī)則,另一方面把來源于賓州樹庫的詞匯化統(tǒng)計數(shù)據(jù)作為經(jīng)驗依據(jù),有效提高了分析器精度[14]。

      (三)漢語依存分析的研究

      互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,語言學(xué)理論的逐漸成熟,催生了一場計算語言學(xué)的“革命”,從事于中文信息處理的學(xué)者們也意識到依存語法在句法分析上的巨大潛力。

      黃昌寧等介紹了一種基于語料庫的依存分析[15];周明、黃昌寧提出了一種基于規(guī)則和統(tǒng)計的漢語依存分析模型[16];劉偉權(quán)等初步建立起漢語依存關(guān)系的層次體系[17];Zhou結(jié)合淺層短語結(jié)構(gòu)分析和深層依存分析所研制的分析方法,已應(yīng)用于漢日機器翻譯[18]。值得注意的是,在以依存分析為主題的2006年、2007年CoNLL(Conference on Computional Natural Language Learning)中,漢語的依存分析精確度和英語、意大利語等印歐語言同屬于高分區(qū)。由此可見,漢語依存分析研究雖然晚于國外,但也取得了不少成果,并且這些成果很多已經(jīng)應(yīng)用于實踐。

      需要指出的是,如今已經(jīng)產(chǎn)生了一些成熟的面向漢語的句法分析工具。其中,NLTK(Natural Language Toolkit)是最經(jīng)典的自然語言處理工具包,在Python上可以實現(xiàn)詞性標(biāo)注、依存分析等任務(wù)。同時,NLTK還自帶大量英語語料,在引入分詞后的漢語語料時,也適用于漢語的依存分析。LTP(Language Technology Platform)是哈爾濱工業(yè)大學(xué)研發(fā)的自然語言處理基礎(chǔ)技術(shù)平臺,加載訓(xùn)練后的模型,能夠?qū)崿F(xiàn)分詞、詞性標(biāo)注、依存句法分析、語義角色分析等功能。LTP支持在Python中調(diào)用pyltp庫和網(wǎng)頁直接使用兩種方式。SpaCy誕生于2014年,它是工業(yè)級強度的自然語言處理包。在Python中調(diào)用SpaCy庫,可以實現(xiàn)自然語言處理的各種基礎(chǔ)操作、信息提取和深度學(xué)習(xí)預(yù)處理。此外,還有一些基于Python、Java或其他編程語言的工具包,都可應(yīng)用于漢語依存分析,只是會在精確度上有所差異。語體、文本平均句長、語法歧義數(shù)量等因素不同,訓(xùn)練出的模型也會不同,使用者可以加載自己訓(xùn)練好的模型以適應(yīng)自己的需求。

      三、依存分析的主要應(yīng)用范圍

      (一)文本理解

      機器無法像人類一樣直接理解文本,文本的批量處理是建立在解構(gòu)文本的基礎(chǔ)之上的,這就很可能會出現(xiàn)理解歧義或理解偏差。比如,“張三的父親是誰?”這句話經(jīng)過分詞后,可以得到“張三”“的”“父親”“是”“誰”五個詞語。在不考慮句法關(guān)系的情況下,機器會得到兩種解讀:一種是正確理解,詢問“張三的父親”是哪個人;另外一種則是錯誤理解,詢問“張三”是誰的父親?!皬埲母赣H是誰?”的依存樹圖可如圖2所示:

      從圖2可以看出,對“張三的父親是誰?”的理解只有一種?!罢l”和“的”“父親”并不存在依存關(guān)系,因此,第二種理解是錯誤的。由此可見,依存分析能夠顯著提高文本理解的正確率。

      (二)事件抽取

      文本的關(guān)鍵信息是句子所要表達的事件,其中,謂詞最能夠體現(xiàn)事件的性質(zhì)、狀態(tài)、屬性或動作。經(jīng)過依存分析,句子可以被整合為具有依存關(guān)系的樹結(jié)構(gòu),提取核心謂詞所對應(yīng)的節(jié)點就可以把事件抽取出來。在事件抽取時,通常需要關(guān)注的節(jié)點是核心謂詞、與核心謂詞并列的謂詞、核心謂詞的賓語。這里不妨以“張三今天吃了饅頭,喝了啤酒”為例加以說明,其依存樹圖可如圖3所示:

      從圖3可以看出,“張三今天吃了饅頭,喝了啤酒”中的核心謂詞為“吃”,賓語為“饅頭”;與核心謂詞并列的謂詞為“喝”,賓語為“啤酒”。那么,該句的事件就是“吃饅頭”和“喝啤酒”。加上與謂詞具有不同類型依存關(guān)系的節(jié)點,我們還可以得到事件的主體和時間。由此可知,事件抽取不僅能夠有效處理結(jié)構(gòu)化和非結(jié)構(gòu)化的文本數(shù)據(jù),快速地獲得文本的關(guān)鍵信息,而且還能夠根據(jù)抽取出來的結(jié)構(gòu)化數(shù)據(jù),生成我們所需要的信息。

      (三)情感分析

      情感分析也稱“意見挖掘”“傾向性分析”,它的主要任務(wù)是判斷文本的主觀態(tài)度、評價、感情色彩。其中,最為常見的是對評論的情感分析,通過分析結(jié)果,研究者可以有針對性地調(diào)整產(chǎn)品計劃。其基本流程是首先把句子依存分析為詞語級別,接著根據(jù)情感詞典得出詞語的情感得分,然后處理否定邏輯和轉(zhuǎn)折邏輯,得分加權(quán)求和即可得到整個句子的情感色彩。

      (四)機器翻譯

      機器翻譯是自然語言處理的主要課題之一。如前所述,依存分析在“意義—文本理論”中扮演著重要角色。其基本流程是首先把A語言依存分析為樹結(jié)構(gòu),再把詞語翻譯為B語言;接著根據(jù)句法結(jié)構(gòu),把翻譯為B語言的詞匯組織成合乎B語言語法的句子。前一過程與依存分析密切相關(guān),后一過程則與語言生成密切相關(guān)。可以說,依存分析在機器翻譯過程中起到的是理解語言的作用。

      (五)樹庫搭建

      上文曾經(jīng)提及一些基于語料庫的依存句法分析的研究,實際上,依存分析同樣能有效幫助搭建語料庫。在早期語料庫搭建時,許多工作需要人工完成,如分詞、詞性標(biāo)注、句法分析等。在引入句法分析技術(shù)后,這類工作已經(jīng)可以由機器自動完成。依存分析尤其有助于樹庫的搭建,樹庫不同于普通語料庫,它不僅能夠儲存句法分析的結(jié)果,而且能對語言學(xué)研究和自然語言處理起到輔助作用。雖然自動分析的正確率略顯不足,但基本能夠滿足使用的需要。如果需要更高的準(zhǔn)確度,可以將自動分析的結(jié)果加以人工校正。

      四、研究現(xiàn)狀及趨勢

      本文采用CiteSpace軟件,對Web of Science核心數(shù)據(jù)庫所收錄的文獻進行檢索,主題為“dependency parsing”,時間跨度為1985年1月1日到2020年12月31日,共獲得1339篇文獻。基于文獻分析所得數(shù)據(jù),下面,主要從年度發(fā)文量、關(guān)鍵詞、學(xué)術(shù)熱點和研究趨勢、文獻來源四個方面,對依存句法分析的研究現(xiàn)狀進行分析。

      (一)年度發(fā)文量

      我們對1985~2020年依存分析研究的年度發(fā)文量進行了統(tǒng)計,并依據(jù)Web of Science的“引文報告”功能繪制出分布圖。具體如圖4所示:

      從圖4可以看出,1985—1997年,Web of Science中并沒有出現(xiàn)依存分析研究文獻,結(jié)合上文的簡述,可以得知,這一時期依存分析尚處于起步階段;1998—2002年間,每年有10篇左右的相關(guān)文獻被收錄,這說明依存分析已引起學(xué)界注意,但研究成果相對匱乏,發(fā)展較為緩慢;2003—2013年間,依存分析研究進入新階段,每年發(fā)文量均在20篇以上;從2014年開始,發(fā)文量迅速增多,表明依存分析已成為研究熱點。

      之所以會出現(xiàn)上述現(xiàn)象,主要是與技術(shù)手段、應(yīng)用需求等因素有關(guān)。在起步階段,由于技術(shù)手段尚不成熟,相關(guān)成果大多是出現(xiàn)在學(xué)術(shù)會議上或直接服務(wù)于應(yīng)用,而學(xué)術(shù)期刊則基本沒有刊發(fā);2003—2013年間,隨著技術(shù)手段的不斷成熟、應(yīng)用需求的逐步擴大,學(xué)界對依存分析的關(guān)注度也持續(xù)提升;2014年之后,技術(shù)手段更為成熟,研究熱度指數(shù)繼續(xù)上升,依存分析的發(fā)文量也得以顯著增加。

      (二)關(guān)鍵詞共現(xiàn)知識圖譜分析

      在CiteSpace軟件中,首先選擇相關(guān)研究文獻,設(shè)置時間切片為一年;接著選擇“Keyword”,將“g-index”參數(shù)設(shè)置為25;我們共得到節(jié)點465個,連線數(shù)1363條。然后設(shè)置節(jié)點顯示條件為“By Freq”,Threshold為10(顯示頻次大于10的節(jié)點),可以得到關(guān)鍵詞共現(xiàn)知識圖譜。具體如圖5所示:

      在去除檢索詞“dependency parsing”之后,最大節(jié)點為“parsing(句法分析)”和“natural language processing(自然語言處理)”,與它們密切相關(guān)的還有“dependency(依存)”。句法分析是自然語言的主要任務(wù),如此高的共現(xiàn)率,反映出依存分析在句法分析領(lǐng)域內(nèi)的顯著地位。

      數(shù)量和頻次都占絕對優(yōu)勢的節(jié)點是語義理解類節(jié)點,

      從圖5可以看出,語義理解類節(jié)點主要有“information(信息)”“comprehension(理解)”“sentence comprehension(句子理解)”“complexity(復(fù)雜性)”

      “sentiment analysis(情感分析)”,同時,這些節(jié)點大致呈現(xiàn)出聚合關(guān)系。這說明,依存分析聚焦于語義的理解,句法分析的目的之一是使計算機能夠理解自然語言,而依存分析的主要應(yīng)用也都是基于語義理解作出的。

      值得注意的是,“constraint(約束)”也是個頻次很高的節(jié)點。簡單來講,約束是一種規(guī)則,句法分析可以看作是將字符串按一定規(guī)則分析的“約束滿足問題(Constraint Satisfaction Problem)”。約束滿足問題主要包含三組集合:變量集合(X)、每個變量的值域集合(D)、描述變量取值的約束集合(C)。就依存分析而言,句中的詞語是變量,句子為變量集合X;每個詞語可能的支配詞和依存關(guān)系則是值域,所有詞語的值域集合即是D;語法規(guī)則集合即是C。這種方法特別適合于依存分析,它能夠有效評估句子合乎語法的程度,并且能根據(jù)可用時間得到不同準(zhǔn)確度的結(jié)果。

      在圖5中,還有一類與句法分析器密切相關(guān)的節(jié)點,如“model(模型)”“algorithm(算法)”“corpus(語料)”等。構(gòu)建句法分析器一直是依存分析的核心內(nèi)容,目前的主流方法是通過大量語料訓(xùn)練出準(zhǔn)確率高的模型。訓(xùn)練過程中勢必會涉及到算法,經(jīng)典算法主要有樸素貝葉斯、支持向量機等,算法不同,精確度也會有所不同,因此,算法與依存分析密切相關(guān)。

      此外,“brain potential(大腦潛力)”“working memory(工作記憶)”“sentence processing(句子加工)”則涉及心理和認(rèn)知領(lǐng)域。認(rèn)知是目前學(xué)術(shù)界所關(guān)注的熱點問題,語言學(xué)、計算機、文學(xué)、哲學(xué)、生物學(xué)等很多學(xué)科,都開展了與認(rèn)知領(lǐng)域的相關(guān)研究。而依存分析的主要目的是使計算機像人一樣理解語言,認(rèn)知研究可以為依存分析提供參考。

      (三)歷時研究熱點與發(fā)展趨勢

      突現(xiàn)詞(burst)能夠反映一段時間內(nèi)的學(xué)術(shù)熱點。在CiteSpace軟件中,對“Keyword”進行分析,可以得到突現(xiàn)關(guān)鍵詞。從整體上來看,在2014年發(fā)生了一定變化,學(xué)術(shù)熱點由“information(信息)”轉(zhuǎn)變?yōu)榫唧w的“sentiment analysis(情感分析)”。具體如圖6所示:

      由于從關(guān)鍵詞中得到的突現(xiàn)詞較少,我們又選取了“Term”來分析所得到的突現(xiàn)詞,以作為補充。具體如圖7所示:

      從圖7可以看出,1999—2007年間的研究熱點是“l(fā)anguage(語言)”,這一時期內(nèi)的研究整體上較為宏觀;其中,2001—2007年的熱點為“eye movement(眼動)”,眼動現(xiàn)象可以體現(xiàn)語言不同成分的加工速度與心理表征情況。2009—2014年間的研究熱點是“machine learning(機器學(xué)習(xí))”,機器學(xué)習(xí)是依存分析實踐的常用方式,訓(xùn)練集和測試集配合算法能夠訓(xùn)練出所需模型,這種方法一直持續(xù)至今。2011—2015年間的研究熱點是“parsing(句法分析)”,它已包含于主題內(nèi);2016—2020年間的研究熱點則是“sentiment analysis(情感分析)”。2018—2020年間的研究熱點是“deep learning(深度學(xué)習(xí))”,深度學(xué)習(xí)是機器學(xué)習(xí)新的研究方向,旨在通過數(shù)據(jù)使機器獲得類似于人的分析能力,以網(wǎng)絡(luò)表示出概念,其性能要高于傳統(tǒng)機器學(xué)習(xí),借助于這種方法,依存分析的準(zhǔn)確率能夠大大提高。

      在上述基礎(chǔ)上,我們還繪制出1999—2020年依存分析的時區(qū)圖,具體如圖8所示:

      從圖8可以看出,其中的整體趨勢和突現(xiàn)詞圖基本一致??傮w上看,依存分析從依存語法理論和自然語言處理的早期實踐開始,呈現(xiàn)出走向深度學(xué)習(xí)和循環(huán)神經(jīng)網(wǎng)絡(luò)的發(fā)展趨勢。學(xué)界目前聚焦于算法設(shè)計,通過更先進的算法來實現(xiàn)更高準(zhǔn)確率的依存分析。

      (四)學(xué)科分布和國家分布

      在CiteSpace軟件中,選擇“Category”,其他設(shè)置同上;然后將節(jié)點標(biāo)準(zhǔn)參數(shù)設(shè)置為“By Citation”,將Threshold設(shè)置為30,可以得到所收錄文獻的學(xué)科分布圖。具體如圖9所示:

      從圖9可以看出,依存分析的最大研究主體為計算機學(xué)界,其次是語言學(xué)界,再次是工程學(xué)界和心理學(xué)界。自然語言處理屬于計算機學(xué)與語言學(xué)這兩個領(lǐng)域的交叉學(xué)科,因此,這樣的結(jié)果也是符合我們的預(yù)

      期的。依存分析研究主要體現(xiàn)在兩個方面:一是面向于實踐應(yīng)用;二是面向于理論研究。由于計算機學(xué)科占據(jù)了很大比重,今后的依存分析研究可能會出現(xiàn)向計算機應(yīng)用發(fā)展的趨勢。

      在CiteSpace軟件中,選擇“Country”,其他設(shè)置同上;然后將節(jié)點標(biāo)準(zhǔn)參數(shù)設(shè)置為“By Citation”,將Threshold設(shè)置為5,可以得到所收錄文獻的國家來源分布圖。具體如圖10所示:

      從圖10可以看出,美國占據(jù)最大的節(jié)點,德國、日本、韓國也占有一席之地。值得注意的是,來源于中國的文獻數(shù)量僅次于美國,這說明中國學(xué)者在依存分析方面的研究已得到國際認(rèn)可,并處在前沿位置。

      綜上所述,依存句法分析的理論來源是依存語法。法國語言學(xué)家泰尼埃正式提出了現(xiàn)代依存語法,之后,在依存語法領(lǐng)域內(nèi)發(fā)展出各種理論,為依存句法分析提供了強有力的理論支撐。同時,依存語法一直具有與實踐應(yīng)用緊密結(jié)合的優(yōu)良傳統(tǒng),Hays、哈德森均設(shè)計過句法分析器,Mel’?uk也在機器翻譯的實踐中進一步完善了“意義—文本理論”。通過對WOS相關(guān)研究文獻的統(tǒng)計和分析,可以看出,依存句法分析研究的發(fā)文量呈遞增趨勢,研究內(nèi)容聚焦于語義理解和算法設(shè)計,研究主體為計算機學(xué)界和語言學(xué)界。早期的依存分析側(cè)重于理論研究和認(rèn)知研究,后來逐漸走向具體的算法設(shè)計、高性能句法分析器實現(xiàn),其中,語義始終是依存分析的關(guān)注點。可以說,正是由于依存語法理論大量運用在依存分析實踐中,才催生出成熟的自然語言處理工具,而自然語言處理工具的日益成熟,反過來又肯定了依存語法的價值。就目前的研究態(tài)勢來看,自然語言處理領(lǐng)域正處于蓬勃發(fā)展時期,依存分析的進一步壯大也是必然的。

      參考文獻:

      [1]Robinson,J.J.Dependency Structures and Transformational Rules[J].Language,1970,(2).

      [2]Hays,D.G.Dependency Theory:A Formalism and Some Observations[J].Language,1964,(4).

      [3]劉海濤.依存語法的理論與實踐[M].北京:科學(xué)出版社, 2009.

      [4]馮志偉,周建.赫德森的詞語法理論[J].現(xiàn)代語文, 2018,(3).

      [5]Hudson,R.Language Networks:The New Word Grammar[M].Oxford: Oxford University Press,2007.

      [6]Mel’?uk,I.A.Dependency Syntax:Theory and Practice[M].Albany:State University Press of New York,1988.

      [7]馮志偉,周建.布拉格學(xué)派的功能生成描述理論[J].現(xiàn)代語文,2019,(7).

      [8]Menzel,W.Parsing of spoken language under time constraints[A].Proceedings 11th European Conference on Artificial Intelligence[C].1994.

      [9]Giguet,E. & Vergne,J.Syntactic analysis of unrestricted French[A].Proceedings for the International Conference on Recent Advances in Natural Languages Processing[C].1997.

      [10]Yamada,H. & Matsumoto,Y.Statistical Dependency Analysis with Support Vector MachinesProc[A].Proceedings 8th International Workshop on Parsing Technologies[C].2003.

      [11]McDonald,R.,Pereira,F(xiàn).,Ribarov,K. & Haji?,J.Non-Projective Dependency Parsing Using Spanning Tree Algorithms[A].Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing[C].2005.

      [12]Sagae,K.A Multi-Strategy Approach to Parsing of Grammatical Relations in Child Language Transcripts[D].Ph.D thesis,Carnrgie Mellon University,2005.

      [13]Gala,N.Un Modèle D’analyseur Syntaxique Robuste Fondé sur la Modularité et la Lexicalisation de ses Grammaires[D].Thèse de Doctorat en Informatique Université de Paris-Sud,2003.

      [14]Schneider,G.Hybrid Long-Distance Functional Dependency Parsing[D].Ph.D thesis,University of Zurich,2008.

      [15]黃昌寧,苑春法,潘詩梅.語料庫、知識獲取和句法分析[J].中文信息學(xué)報,1992,(3).

      [16]周明,黃昌寧.面向語料庫標(biāo)注的漢語依存體系的探討[J].中文信息學(xué)報,1994,(3).

      [17]劉偉權(quán),王明會,鐘義信.建立現(xiàn)代漢語依存關(guān)系的層次體系[J].中文信息學(xué)報,1996,(2).

      [18]Zhou,M.A Block-Based Robust Dependency Parser for Unrestricted Chinese Text[A].The Second Chinese Language Processing Workshop Attached to ACL2000[C].Hong Kong,2000.

      Review and Development of Dependency Parsing

      Yang Mu,Cai Yansheng

      (College of Chinese Language and Culture, Nankai University, Tianjin 300350, China)

      Abstract:The basic idea of dependency grammar is the dependency relationship between words. Dependency parsing takes dependency grammar as its theoretical source and algorithm as its realization method, and has value in both language research and practical application. Based on CiteSpace’s visual analysis of the documents included in the WOS core database from 1985 to 2020, the number of articles published in dependent parsing is increasing, focusing on semantic understanding and algorithm design, and the main body of research is computer science and linguistics.

      Key words:dependency grammar;dependency parsing;visual analysis

      猜你喜歡
      可視化分析
      基于大數(shù)據(jù)的港口煤炭物流可視化分析平臺
      航海(2017年2期)2017-04-10 05:20:38
      近十五年國外大學(xué)生就業(yè)研究的進展與趨勢
      基于Citespace的商業(yè)生態(tài)系統(tǒng)研究可視化分析
      我國職業(yè)教育師資研究熱點可視化分析
      職教論壇(2016年26期)2017-01-06 19:04:59
      聲波吹灰技術(shù)在SCR中的應(yīng)用研究
      科技傳播(2016年19期)2016-12-27 16:18:28
      可視化分析技術(shù)在網(wǎng)絡(luò)輿情研究中的應(yīng)用
      國內(nèi)外政府信息公開研究的脈絡(luò)、流派與趨勢
      我國教育技術(shù)領(lǐng)域眼動研究的現(xiàn)狀與趨勢分析
      可視化分析在醫(yī)院圖書館信息服務(wù)中的應(yīng)用
      基于中國知網(wǎng)的“和”文化研究文獻的可視化分析
      施秉县| 安泽县| 茌平县| 乡城县| 四子王旗| 无锡市| 东光县| 余干县| 汨罗市| 大理市| 江油市| 会理县| 扶绥县| 收藏| 白河县| 西畴县| 贺州市| 玉树县| 安仁县| 崇左市| 新民市| 灵丘县| 敦煌市| 永顺县| 武穴市| 黄石市| 开平市| 攀枝花市| 永春县| 郸城县| 阳谷县| 庐江县| 榆中县| 连城县| 军事| 宝丰县| 当涂县| 六盘水市| 神农架林区| 碌曲县| 宁明县|