• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      關于自然語言處理的對話
      ——馮志偉教授訪談錄

      2022-06-30 02:17:14馮志偉
      現(xiàn)代語文 2022年6期
      關鍵詞:語言學圖譜語言

      自然語言處理(Natural Language Processing)是一門融語言學、計算機科學、數(shù)學于一體的學科,它以語言為對象,利用計算機技術來分析、理解和處理自然語言??梢哉f,語言文本和對話在各個層面上所廣泛存在的歧義性或多義性(ambiguity),給自然語言處理帶來了很大的困難。馮志偉先生是我國計算語言學的開拓者之一,出版、發(fā)表了一系列與自然語言處理相關的論著。他的《計算語言學基礎》

      、《數(shù)學與語言》

      、《自然語言處理綜論》

      、《自然語言處理簡明教程》

      、《中文信息處理與漢語研究》

      等專(譯)著,在語言學界產(chǎn)生了深遠影響,有力地推動了國內(nèi)自然語言處理的發(fā)展。我們從學術之路、知識圖譜、智能化、自動切詞、發(fā)展方向等方面,就自然語言處理的幾個關鍵性問題,對馮先生進行了專門訪談。

      一、學術之路:走自己的路

      徐琴(以下簡稱“徐”):馮先生,您好!首先非常感謝您接受我們的采訪。您作為我國計算語言學和自然語言處理研究的開拓者之一,是世界上第一個“漢語到多種外語機器翻譯系統(tǒng)”的研制者。那么,當初是由于什么原因讓您棄理從文,毅然決定轉向語言學的呢?您認為語言學最讓您著迷的是什么?

      馮志偉(以下簡稱“馮”):今天是2022年4月15日,恰好是我83歲生日。我從事計算語言學和自然語言處理的研究已經(jīng)有60多年了。

      1957年高中畢業(yè)時,同班同學送給我一本書:蘇聯(lián)科學院院士、著名地球化學家費爾斯曼的《趣味地球化學》

      ,書中描述了費爾斯曼使用地球化學方法在可拉半島找到鉀鹽礦,從而解決了蘇聯(lián)社會主義建設的燃眉之急的事跡,給了我很大的鼓舞。當時地球化學是國家急需的尖端學科,我看了這本書,對地球化學產(chǎn)生了濃厚的興趣,決心學習費爾斯曼,為祖國找到社會主義建設所需要的礦藏。于是我毅然報考了北京大學地球化學專業(yè)。后來,果然以優(yōu)異成績考入北京大學地球化學專業(yè)學習。

      在地球化學專業(yè),我學習了高等數(shù)學、普通物理學、普通化學、礦物學、結晶學等課程,打好了自然科學的基礎。我特別喜歡做數(shù)學題,思考復雜的數(shù)學問題。我在一首詩里寫道:

      數(shù)學就像磁石一樣,

      吸引我走進邏輯的殿堂,

      7.有窮多級列舉法。這種方法把現(xiàn)代漢語中的全部詞分為兩大類:一類是開放詞,如名詞、動詞、形容詞等,它們的成員幾乎是無窮的;另一類是閉鎖詞,如連詞、助詞、嘆詞等,它們的成員是可以一一枚舉的。切詞的時候,先切出具有特殊標志的字符串,如阿拉伯數(shù)字、拉丁字母等,再切出可枚舉的閉鎖詞,最后再逐級切出開放詞。這是一種完全立足于語言學的切詞方法,在計算機上實現(xiàn)起來還有很大難度。

      我似乎看到了自己思想的光芒。

      我自幼就初通英語,能閱讀英語的書籍,在北大圖書館的英文版《無線電工程師協(xié)會會刊:信息論》(I.R.E.Transaction of Information Theory)雜志上,我讀到喬姆斯基(Noam Chomsky)在1956年發(fā)表的論文《語言描寫的三個模型》(Three models for the description of language)。這篇文章是研究語言的,可是卻使用了馬爾可夫鏈(Markov Chain)這樣的數(shù)學方法,喬姆斯基運用數(shù)學方法,為自然語言建立了有限狀態(tài)模型、短語結構模型和轉換模型三個不同的模型,并且分析了這些模型對于自然語言的描述能力和解釋能力。

      喬姆斯基使用的這種數(shù)學方法激發(fā)了我的好奇心,使我對語言學中的形式化方法產(chǎn)生了濃厚興趣,萌發(fā)了強烈的探索愿望。接著,我又懷著興奮的心情通讀了喬姆斯基在1957年發(fā)表的《句法結構》英文本,對語言學的興趣愈發(fā)濃厚了。于是我向?qū)W校教務處誠懇地表達了自己想改行學習語言學的志向。1959年9月,經(jīng)北大教務處批準,我棄理學文,轉入北京大學語言學專業(yè)(07591班)學習,從一年級學起,學號是5705006。這樣,我就從理科的大學三年級轉到文科的一年級,降了兩級,成為了一個文科生。

      當然,理科不管是在科研經(jīng)費上,還是在就業(yè)前景上,都要比文科好得多。但是我當時根本沒有考慮這些功利方面的問題,完全是出于用數(shù)學方法研究語言的興趣,被強烈的興趣所驅(qū)動??梢哉f,棄理學文是我人生的重要轉折。這樣的轉折完全是出于對語言研究的好奇心,并沒有任何的功利目的,可謂是好奇之心戰(zhàn)勝了功利之心。

      但是,在當時的條件下,這樣的轉折需要面對很多問題。

      這時,那些少男少女也喝得差不多了,吉爾金娜顯得有些掃興,端著一杯酒說:“江,你太不給面子了,跑到哪里了?今天為我做了這么多好食品,我得好好敬你一杯?!苯罅琳f:“我出去有點事兒?!奔獱柦鹉炔灰啦火垼罅林缓靡伙嫸M,將那高腳杯的酒全都喝光了??虏旖鹨捕酥槐七^來了,舌頭有些僵硬地說:“江,你太神奇了,過去吉爾金娜說你很有魅力,我還表示懷疑,今天我是親眼見到了,你真的好神奇,很有魅力。”江大亮被俄羅斯那些少男少女團團圍住,狂轟爛炸,沒過一會的工夫就喝得有些暈暈乎乎。

      礦區(qū)內(nèi)侵入巖不發(fā)育,在礦區(qū)中部見有一輝綠巖脈,巖脈長度為700m,厚度為4m,產(chǎn)狀354°~15°∠55°~70°,被F3、F4錯斷。本次工作在Ⅰ號礦體PD3050中段穿脈中發(fā)現(xiàn)綠泥石化陽起石化閃長玢巖脈(圖4)。

      第一,我從理科轉到文科,目的是在于用數(shù)學方法研究語言,用數(shù)學的邏輯之美來揭示語言的結構之妙。這在當時看來是非常奇特的想法,創(chuàng)新性太強了,難以得到別人的理解,必定會遇到重重的阻力和冷漠的白眼,容易被人誤解為“有資產(chǎn)階級名利思想”。

      第二,我在中文系學習中文的同時還學習數(shù)學,必定要比別人花更多的時間,難以騰出時間來關心政治,容易被人誤解為“走白專道路”。

      第三,為了了解國外用數(shù)學方法研究語言的信息,我在中文系學習中文的同時還要學習外文,需要經(jīng)常閱讀各種外文書,容易被人誤解為“崇洋媚外”。

      這些問題,開始轉到中文系時我并沒有想到,只是憑著用數(shù)學方法研究語言的好奇心努力學習,但是隨著時間的推移,這些問題愈演愈烈,時時困擾著我。中文系的同學們不理解我,受到了同學們的鄙夷和白眼,日子越來越難過。我陷入了煢煢孑立、形影相吊的困境。

      我曾經(jīng)想打退堂鼓,回到理科去,但是,我想起意大利詩人但?。―ante Alighieri)的話:“走你自己的路,不要管他人的毀譽!”這句話給了我無窮的力量,鼓舞著我,讓我在眾人的白眼中堅持下去。轉入中文系之后,我除了學好學校規(guī)定的中文系各門課程之外,還進一步苦練英語,大量閱讀外文的文學作品。

      [8]蘭平:《漢學“典范大轉移”與“新漢學”的來龍去脈——陳玨教授訪談錄》,《文藝研究》2014年第10期。

      這個時期,我?guī)煆耐趿Α⒅斓挛?、林燾、高名凱、岑麒祥、周有光等著名語言學家,學習了語言學的基礎知識。王力講授“古代漢語”“漢語史”“中國語言學史”,朱德熙講授“現(xiàn)代漢語研究”,林燾講授“語音學研究”,高名凱講授“普通語言學”,岑麒祥講授“西方語言學史”,周有光講授“漢字改革概論”。我認真學習這些語言學課程,學習成績優(yōu)異。我試圖把自己由一個理科學生轉變?yōu)橐粋€會用人文科學方法來思考的文科學生,把人文科學的知識與自然科學的知識結合起來。

      為了運用數(shù)學方法研究語言,我除了學習語言專業(yè)的課程之外,同時也學習數(shù)學分析、集合論、數(shù)理邏輯、實變函數(shù)、復變函數(shù)、微分方程等數(shù)學系的課程。我在課余做完了蘇聯(lián)數(shù)學家吉米多維奇《數(shù)學分析習題集》

      中的4000多道數(shù)學題,練就了解決復雜數(shù)學問題的能力。我的這些表現(xiàn)不合時俗,在同學中頗有微詞。

      同時學習文科、理科和多門外語幾乎占據(jù)了我的全部時間,體育鍛煉也要用去一定時間。我實在沒有更多的時間來關心政治了,這在當時是很嚴重的問題,受到了很多指摘和批評。有人指摘我是“孔子學生妄圖繼承牛頓事業(yè)”,有人批評我“走白專道路”,“有資產(chǎn)階級名利思想”,“崇洋媚外”。實際上,我只是出于科學的好奇心才這樣專心致志,并沒有像別人想得那么惡劣。我根本就沒有功利的動機!但是,在當時的氣氛下,我是有口難辯,只好忍氣吞聲,夾著尾巴過日子。

      1964年,我考取了岑麒祥教授的研究生,學號是6407903,終于可以名正言順地用數(shù)學方法來研究語言了,岑麒祥教授也同意我的研究生畢業(yè)論文為“數(shù)學方法在語言學中的應用”??墒?,1966年5月爆發(fā)了“文化大革命”,我不可能再繼續(xù)進行這樣的科學研究了。1968年,我被北京大學掃地出門,先是到天津河東區(qū)教初中,后來回到了故鄉(xiāng)昆明教中學。昆明地處邊陲,在那里,北大老師們教給我的那些高大上的語言學知識基本上沒有什么用處,我只好改行當了一名物理教師,聊以維持生計。我徹底地離開了語言學的隊伍。

      NELL還可以使用知識圖譜進行簡單的邏輯推理。例如,從知識圖譜中知道,“Maple Leafs”球隊所在的城市(home town)是多倫多,而多倫多所在的國家(country)是加拿大,因此,可以推論出這個球隊所在的國家也是加拿大。其邏輯推理過程如下:

      家訪是教師、家長、學生之間的紐帶,是學校、家庭、社會之間的橋梁,在學校教育中發(fā)揮著不可替代的作用。事實證明,家庭訪視是有效的教育措施。隨著時代的變遷,一種新的家庭交流方式出現(xiàn)了。它不僅是家訪的輔助手段,而且是家訪的補充。它已經(jīng)成為學校、家庭和社會三結合教育的一種新方式。學校認識到家長在監(jiān)督、理解、宣傳和協(xié)調(diào)學校日常管理中的作用,本校因勢利導地響應家長需求,開放校園,鼓勵并歡迎家長的參與學校學習和生活,本校采取教師主動家訪與請家長到學校來校訪的方式,加強了家校溝通,優(yōu)化了教育方式。

      知識圖譜用結點(vertex)表示語義符號,用邊(edge)表示符號與符號之間的語義關系,由此構成了一種通用的語義知識形式化描述框架。知識圖譜中的三元組用(h,r,t)表示,其中,h表示“頭實體(head)”,r表示“關系(relation)”,t表示“尾實體(tail)”。知識圖譜的三元組結構其實非常簡單,可以表示為:(head,relation,tail);用首字母表示就是:(h,r,t)。這種表示方法簡單、明確、有效。

      二、知識圖譜:自然語言處理的寶庫

      徐:您的學術之路確實是走得無比坎坷,但也真是非同尋常。在那樣艱辛的環(huán)境中,您仍然保持一顆向?qū)W之心,能靜下心來從事學術研究,真是令人欽佩!您無疑是我們年輕人學習的楷模!在現(xiàn)代社會,技術飛速發(fā)展,網(wǎng)絡媒體已經(jīng)滲透到我們生活的方方面面。人類進入了大數(shù)據(jù)時代,讓計算機在這些龐雜的大數(shù)據(jù)中有效提取信息,建立知識庫,為用戶提供精準的信息服務,已成為信息服務的核心目標??梢哉f,知識圖譜(knowledge graph)的出現(xiàn),有助于計算機實現(xiàn)這一目標。不過,在我們的漢語中卻有很多深層的語義關系,僅僅依靠知識圖譜中傳統(tǒng)的知識元素(實體、關系、屬性)抽取技術和方法是遠遠不夠的。那么,您認為,在知識抽取中,對于這些隱含關系的抽取,計算機應如何實現(xiàn)呢?

      馮:早在50年前,1972年的文獻中就出現(xiàn)了“知識圖譜(knowledge graph)”這個術語。2012年5月,谷歌公司(Google)明確提出了知識圖譜的概念,并構建了一個大規(guī)模的知識圖譜,開啟了知識圖譜研究之先河。

      我這一生過得很辛苦,由理科轉到文科,又從文科轉到理科,最后又從理科轉回到文科。歲月蹉跎,青春難再,一生中的很多寶貴時間,都在苦苦的掙扎中煎熬。剛入北京大學的時候,我還是一個18歲的幼稚青年,而今我已經(jīng)是83歲的垂垂老者,只能發(fā)揮余熱了?,F(xiàn)在你們年輕人處于開明盛世,不會再重蹈我的覆轍了。我真羨慕你們!

      在計算機中,結點和邊這樣的符號,都可以通過“符號具化(symbol grounding)”的方式,來表征物理世界和認知世界中的對象,并作為不同個體對認知世界中信息、知識進行描述和交換的橋梁。知識圖譜這種使用統(tǒng)一形式的知識描述框架,便于知識的分享和學習,因此,受到了自然語言處理研究者的普遍歡迎。

      綜上所述,建筑行業(yè)隨著我國的經(jīng)濟發(fā)展,也得到了很大程度上的發(fā)展,并且企業(yè)之間的競爭越來越激烈,因此,為了不斷地促進建筑行業(yè)的發(fā)展,要不斷完善其中的應用技術,保障施工工作的順利進行。

      例如,美國卡內(nèi)基梅隆大學基于“Read the Web”項目研制出NELL知識圖譜,NELL的英文含義就是“Never-Ending Language Learning”(永無止境的語言學習)。NELL每天不間斷地執(zhí)行兩項任務:自動閱讀(Reading)和自動學習(Learning)。自動閱讀任務是從Web文本中獲取知識,并把閱讀到的知識添加到NELL的內(nèi)部知識庫中;自動學習任務是使用機器學習算法獲取新的知識,鞏固和擴展對于知識的理解。NELL可以抽取大量的三元組,并標注出所抽取的迭代輪數(shù)、時間和置信度,還可以進行人工校驗。NELL系統(tǒng)從2010年開始機器自動學習,經(jīng)過半年的學習之后,總共抽取了35萬條實體關系三元組。經(jīng)過人工標注和校正之后,進一步抽取更多的事實,知識抽取的正確率可以達到87%。這里不妨以圖1為例加以說明:

      在OPNET Modeler仿真環(huán)境下,對科文學院現(xiàn)有校園網(wǎng)在開通視頻點播系統(tǒng)前后分別從網(wǎng)絡時延、數(shù)據(jù)庫應用和HTTP應用的響應時間、主干鏈路排隊時延、主干鏈路吞吐量及利用率等多個網(wǎng)絡性能指標進行了分析比較,得出主干鏈路速率是科文學院現(xiàn)有校園網(wǎng)性能的“瓶頸”,為擬定網(wǎng)絡升級改造方案提供了客觀的定量依據(jù).根據(jù)科文學院校園網(wǎng)的實際情況,提出了采用鏈路聚合為主要手段的校園網(wǎng)升級改造方案,仿真結果顯示校園網(wǎng)的性能有了較大的提升.由此得出結論:方案切實可行,能夠達到校園網(wǎng)升級改造的預期目標.

      圖1是NELL抽取的有關“Maple Leafs(楓葉)”球隊的知識片段,該片段由很多三元組構成。例如:

      (Maple Leafs,play,hockey)

      (Maple Leafs,won,Stanley Cup)

      (Maple Leafs,hired,Wilson)

      (Maple Leafs,member,Toskals)

      Boosting算法問題在于更多關注不能正確分類樣本數(shù)據(jù),對于邊界樣本會導致權重失衡,產(chǎn)生“退化問題”。在Boosting基礎上使用指數(shù)權重產(chǎn)生用于二值分類的AdaBoost算法[28,29]。

      (Maple Leafs,member,Sundin)

      閱讀推廣視角下的品牌品質(zhì)是指閱讀推廣的活動質(zhì)量。品牌認知的評估首先要設計品質(zhì)評估要素,比如活動設計的形式是否具有創(chuàng)意性、閱讀內(nèi)容是否吸引讀者、活動是否讓讀者有所獲等。然后通過問卷等不同的評估方式和多樣的評估渠道進行讀者評估。值得注意的是,會存在一些因素因讀者個體的個性、愛好、自身素養(yǎng)程度等不同對品質(zhì)的感受不同,所以品質(zhì)認知評估結果只是一個方向性的評估成果。

      (Maple Leafs,home town,Toronto)

      (Toronto,country,Canada)

      從這些三元組中可以知道,“Maple Leafs”這個球隊是打(play)曲棍球(hockey)的;這個球隊曾經(jīng)獲獎(won),得過Stanley獎杯(Stanley Cup);這個球隊的雇主(hired)是威爾森(Wilson);這個球隊的成員(member)有托斯卡爾思(Toskals)和孫定(Sundin);這個球隊所在的城市(home town)是多倫多(Toronto);而多倫多所在的國家(country)是加拿大(Canada)。這就構成了一個非常復雜的知識系統(tǒng)。

      粉碎“四人幫”后,我有機會于1978年考入中國科學技術大學研究生院學習理科;接著,又公派到法國格勒諾布爾理科醫(yī)科大學應用數(shù)學研究所留學。我在法國研制了世界上第一個把漢語自動地翻譯成法語、英語、日語、俄語和德語五種外語的機器翻譯系統(tǒng)。可以說,國家改革開放政策的實施,使得我有機會回到科學研究崗位,成為一名軟件工程師。1985年,由于國家的需要,我被調(diào)入語言文字應用研究所,繼續(xù)從事語言學研究。

      在智能對話系統(tǒng)中,當用戶提問:“馮志偉出生的時候,喬姆斯基的年齡有多大?”對于這樣的問題,僅僅依靠直接查詢知識圖譜中的三元組,是很難回答的,它屬于隱含的知識,必須進行邏輯推理才可能獲得。

      →(Maple Leafs,country,Canada)在上面的邏輯推理式子中,“∩”是邏輯合取符號,表示“和”的意思。

      NELL通過機器學習的方式以構建知識圖譜,從而可以持續(xù)不斷地從網(wǎng)絡上獲取資源來發(fā)現(xiàn)事實并總結規(guī)則,其中,就涉及到命名實體識別、同名排歧、智能推薦等自然語言處理的技術。

      如果我們具有了數(shù)以億計的這樣的知識圖譜的三元組知識,還可以使用它們進行邏輯推理,從而獲得一些隱含的知識。例如,如果我們有了關于馮志偉和喬姆斯基出生年代的三元組:

      (馮志偉,出生年代,1939)

      (喬姆斯基,出生年代,1928)

      (Maple Leafs,home town,Toronto)∩(Toronto,country,Canada)

      如果有了知識圖譜的上述三元組信息,根據(jù)馮志偉出生時喬姆斯基的年齡應當?shù)扔隈T志偉的出生年代減去喬姆斯基的出生年代這樣的數(shù)學規(guī)律,即:1939-1928=11,我們就可以根據(jù)知識圖譜推論出:馮志偉出生時喬姆斯基的年齡應當是11歲。這樣,我們就可以從知識圖譜中存儲的舊知識中推論出新的、隱含的知識,從而回答“馮志偉出生的時候,喬姆斯基的年齡有多大?”這樣很難直接在知識圖譜中查詢的問題。由此可見,知識圖譜的三元組結構化信息不僅能夠存儲知識,還可以進行邏輯推理,從而產(chǎn)生出新的、隱含的知識,它確實是人類知識的寶庫,是人工智能發(fā)展的階梯,是非常有價值的。

      目前,知識圖譜仍處于初級階段,如何自動地使用知識圖譜的方法來獲取自然語言中隱含的各種語法、語義、語用知識,還需要我們進一步探討。

      三、智能化:實現(xiàn)由直覺到理性的轉變

      徐:也就是說,知識圖譜是一種描述知識的圖,從不同模態(tài)(語音、圖片、文本)的自然語言(人類使用的語言)中,抽取出有意義的知識,并轉換成計算機理解的形式,從而使計算機具備一定的推理能力。不得不令人感嘆,當代社會的技術發(fā)展如此迅速,自然語言處理也邁向了新的征程。那么,您認為,在將來的自然語言處理中,計算機能否像人類一樣發(fā)展出邏輯推理能力?如果可以做到的話,您認為需要我們做哪些方面的努力?

      8.聯(lián)想—回溯法(Association—Backtracking Method,簡稱“AB法”)。這種方法要求建立三個知識庫:特征詞詞庫、實詞詞庫和規(guī)則庫。首先,將待切分的漢字字符串序列按特征詞詞庫分割為若干子串,子串可以是詞,也可以是由幾個詞組合而成的詞群;然后,利用實詞詞庫和規(guī)則庫,將詞群再細分為詞。在切詞時,需要運用一定的語法知識,建立聯(lián)想機制和回溯機制。聯(lián)想機制由聯(lián)想網(wǎng)絡和聯(lián)想推理構成,其中,聯(lián)想網(wǎng)絡描述每個虛詞的構詞能力,聯(lián)想推理利用相應的聯(lián)想網(wǎng)絡來判定所描述的虛詞究竟是單獨成詞還是作為其他詞中的構詞成分?;厮輽C制則主要用于處理歧義句子的切分。聯(lián)想—回溯法雖然增加了算法的時間復雜度和空間復雜度,但是這種方法的切詞正確率較高,是一種行之有效的方法。

      ①大量的觀測數(shù)據(jù)表明,全球氣候正在發(fā)生以全球變暖為主要特征的變化;這種變化除了氣候系統(tǒng)的本身自然周期變化外,人類活動排放的大量溫室氣體是氣候變化的重要原因。

      花橋板栗:于2016年9月采收于湘潭市雨湖區(qū)云湖橋鎮(zhèn)金湖良種板栗示范推廣基地,要求外觀品質(zhì)均一、成熟度適中、無病蟲害。

      目前,基于神經(jīng)網(wǎng)絡和深度學習的自然語言處理,基本上還是在系統(tǒng)1的基礎上進行的,主要依靠大規(guī)?;蛘叱笠?guī)模的數(shù)據(jù)來支持,有的自然語言處理系統(tǒng)的數(shù)據(jù)參數(shù)已經(jīng)到達數(shù)千億之多,這樣的自然語言處理系統(tǒng)具有很強大的處理能力。例如,根據(jù)最近WMT(國際機器翻譯評測會議)的評測結果,英漢神經(jīng)機器翻譯系統(tǒng)對于一般文本的翻譯正確率已經(jīng)達到83%以上,基本上可以滿足普通用戶的要求了??上У氖?,系統(tǒng)1的效率雖然較高,但是它的可解釋性很差,基本上還是一個黑箱(black box)。我們對于系統(tǒng)1的研究,還處于“知其然而不知其所以然”的水平。

      今后,自然語言處理研究需要從系統(tǒng)1的深度學習發(fā)展到系統(tǒng)2的深度學習,實現(xiàn)系統(tǒng)2的邏輯分析和推理功能。這除了需要大規(guī)模數(shù)據(jù)(big data)的支持之外,更需要豐富知識(rich knowledge)的支持,這些知識不僅包括語言學知識(linguistic knowledge),還包括日常生活中的普通常識(common knowledge)。系統(tǒng)2的知識如何融入系統(tǒng)1中,是一個相當復雜的問題,目前還沒有找到有效的途徑,上文中所提到的知識圖譜這一形式化的方法,是我們目前正在探索的一個可行的途徑。可以說,語言學家有必要學習知識圖譜,更新自己的知識觀念,把知識圖譜應用到語言的研究中,或許會有所突破。

      四、自動切詞:多種方法并存

      徐:這樣看來,如果說語言是人類學習、思維的一個工具,那么,知識圖譜則是計算機學習的工具。在自然語言信息處理中,不僅僅包括對于信息的抽取,自動分詞也是重要的組成部分:語言信息處理必須以詞為基本單位,然后才能進行句法、語義分析。英語等西方語言的詞與詞之間在書面上是用空格分開的,一般不存在分詞問題。不過,由于漢語自身的獨特性,在機器自動分詞上存在著很大的困難。在漢語中有這樣一類現(xiàn)象:字段AB,組合起來是詞,分開也是詞。比如,“她將來想當老師”中的“將來”是一個詞,不能切分;在“她將來北京”中,“將來”卻應該切分為“將/來”。那么,您認為,在語言信息處理時,可以采取哪些措施來解決這種有歧義的切分字段?在中文信息處理領域,關于自動分詞技術還有哪些可以采用的方法呢?

      馮:這里首先需要申明的是,我并不喜歡使用“自動分詞”這個術語,而更愿意使用“自動切詞”這個術語。因為“分詞”容易與英語中的“participle”這個術語混淆,而participle是英語中非定式動詞的一種形式。participle既有動詞的作用,又可起形容詞的作用,如“現(xiàn)在分詞(present participle)”“ 過 去 分 詞(past participle)”等,與我們所討論的“自動切詞(automatic word segmentation)”是完全不同的概念。

      你所說的“將來”這個字段,屬于多義組合型歧義切分字段,這種歧義切分字段是由詞與詞之間的串聯(lián)組合產(chǎn)生的。從形式上說,在字段S=a

      …a

      b

      …b

      中,由于a

      …a

      、b

      …b

      和S三者都能分別成詞,字串a(chǎn)

      …a

      與字串b

      …b

      形成了串聯(lián)組合,就會產(chǎn)生歧義切分?!皩怼薄皩ⅰ薄皝怼比叨伎梢苑謩e成詞,因而產(chǎn)生歧義。對于這樣的多義組合型歧義切分字段,可以根據(jù)句法知識進行切分。例如,在“她將來想當老師”這個句子中,動詞“想當”是中心動詞,因此,前面的“將來”應當是表示時間的時間詞,不能切分。而在句子“她將來北京”中,中心動詞是“來”,前面的“將”是表示時態(tài)的副詞,因此,應當切分為“將/來”。根據(jù)這些句法知識,不難進行正確的判定。此外,如“馬上”這個字段可以切分為“馬上”“馬”“上”,三者都可以分別成詞,也是一種多義組合型歧義切分字段,同樣會產(chǎn)生切分歧義。至于在語言信息處理時,如何解決這種有歧義的切分字段,可參看我所撰寫的《自然語言處理中的歧義消解方法》

      一文。

      從上世紀80年代開始,我國學者就對漢語書面文本的自動切詞進行了深入探討。關于這一問題,可參看奉國和、鄭偉的《國內(nèi)中文自動分詞技術研究綜述》

      。歸納起來看,國內(nèi)學者提出的方法主要有以下幾種:

      1.最大匹配法(Maximum Matching Method,簡稱“MM法”)。在計算機中存放一個已知的詞表,這個詞表稱為“底表”;從被切分的語料中,按照給定的方向順序截取一個定長的字符串,通常為6至8個漢字,這個字符串的長度稱為“最大詞長”。把這個具有最大詞長的字符串與底表中的詞相匹配,如果匹配成功,就可以確定這個字符串為詞,計算機程序的指針向后移動,與給定最大詞長相應個數(shù)的漢字繼續(xù)進行匹配;否則,則把該字符串逐次減一,再與底表中的詞進行匹配,直到成功為止。MM法的原理簡單,易于在計算機上實現(xiàn),時間復雜度也比較低。不過,最大詞長的長度較難確定,如果定得太長,則匹配時花費的時間就多,算法的時間復雜度明顯提高;如果定得太短,則不能切分長度超過它的詞,導致切分正確率降低。

      2.逆向最大匹配法(Reverse Maximum Matching Method,簡稱“RMM法”)。這種方法的基本原理與MM法相同,不同的是切詞時的掃描方向。如果說MM法的掃描方向是從左到右取字符串進行匹配,RMM法的掃描方向則是從右到左取字符串進行匹配。實驗表明,RMM法的切詞正確率比MM法更高一些。但是,RMM法要求配置逆序的切詞詞典,這樣的詞典與人們的語言習慣不相符合,修改和維護都不太方便。

      3.逐詞遍歷匹配法。這種方法是把詞典中存放的詞按由長到短的順序,逐個與待切詞的語料進行匹配,直到把語料中的所有的詞都切分出來為止。由于這種方法要把在詞典中的每一個詞都匹配一遍,需要花費很多時間,算法的時間復雜度相應增加,因此,切詞的速度較慢,切詞的效率不高。

      4.雙向掃描法。分別采用MM法和RMM法進行正向和逆向的掃描與初步的切分,并將用MM法初步切分的結果與用RMM法初步切分的結果進行比較。如果兩種結果一致,則判定切分正確;如果兩種結果不一致,則判定為疑點。這時,或者結合上下文有關的信息,或者進行人工干預,選取一種切分作為正確的切分。不過,這種方法也存在一定問題:一是要進行雙向掃描,時間復雜度增加;二是切詞詞典要同時支持正向和逆向兩種順序的匹配與搜索,詞典的結構比一般的切詞詞典要復雜得多。

      5.最佳匹配法(Optimum Matching Method,簡稱“OM法”)。在切詞詞典中,按照詞的出現(xiàn)頻率的大小排列詞條,高頻率的詞排在前,低頻率的詞排在后,從而縮短查詢切詞詞典的時間,加快切詞的速度,使切詞達到最佳效果。這種方法對于切詞的算法沒有什么改進,只是改進了切詞詞典的排列順序,它雖然降低了切詞的時間復雜度,卻沒有提高切詞的正確率。

      6.設立切分標志法。書面漢語中的切分標志主要有兩種:一種是自然的切分標志,如標點符號,詞不能跨越標點符號而存在,標點符號必定是詞的邊界之所在;另一種是非自然的切分標志,如只能在詞首出現(xiàn)的詞首字、只能在詞尾出現(xiàn)的詞尾字、沒有構詞能力的單音節(jié)單純詞、多音節(jié)單純詞、擬聲詞等,詞顯然也不能跨越這些標志而存在,它們也必定是詞的邊界之所在。如果我們搜集了大量的這種切分標志,在切詞時,先找出切分標志,就可以把句子切分成一些較短的字段;然后,再采用MM法或RMM法,進一步把詞切分出來。使用這種方法切詞,不僅要額外消耗時間來掃描切分標志,而且還要花費存貯空間來存放非自然的切分標志,使切詞算法的時間復雜度和空間復雜度都大大增加,而切詞的正確率卻不能提高。因此,采用這種方法的自動切詞系統(tǒng)很少。

      就像在黑暗中電光一閃,

      馮:在認知科學(cognitive science)中,有一個著名的“雙過程理論”。該理論認為,人類的認知可以分為兩個系統(tǒng):系統(tǒng)1和系統(tǒng)2。其中,系統(tǒng)1是基于直覺的(Intuitive-based)系統(tǒng),系統(tǒng)2是基于分析的(Analytic-based)系統(tǒng)。系統(tǒng)1進行“快思維”,是建立在直覺基礎上的、無知覺的思考系統(tǒng),其運作依賴于經(jīng)驗和關聯(lián)。它的基本功能是激活感知、情感、記憶、經(jīng)驗等相關對象,這些都是無意識的、可以快速激活的對象,并把激活的信息構成一個和諧的事件。這將導致系統(tǒng)1很容易被欺騙,只要相關對象是和諧的,系統(tǒng)1就認為是正確的。因此,系統(tǒng)1可以自動地、輕易地、快速地相信任何東西,容易造成誤判。而系統(tǒng)2進行“慢思維”,是人類特有的邏輯思維能力。它利用工作系統(tǒng)中的知識,進行慢速而可靠的邏輯推理,需要意識控制,進行循規(guī)蹈矩的深思熟慮,是人類高級智能的表現(xiàn)。它的基本功能是數(shù)學計算和邏輯推理,進行有意識的判斷和推理,就像一個“慢諸葛”。系統(tǒng)2可以改變系統(tǒng)1的工作方式,彼此之間進行協(xié)調(diào),從而修正系統(tǒng)1的誤判。系統(tǒng)1與系統(tǒng)2的協(xié)調(diào)關系,可如圖2所示(見下頁):

      STZ 誘導的小鼠糖尿病模型在早期階段會產(chǎn)生氧自由基,如超氧陰離子自由基(? O2-)、過氧化氫(H2O2)、羥自由基(? OH)等會引起小鼠體內(nèi)促氧化劑和抗氧化劑失衡導致氧化應激,并與 NO 途徑相互作用導致 β 細胞破壞,引起糖代謝紊亂[7]。

      9.基于詞頻統(tǒng)計的切詞法。這種方法利用詞頻統(tǒng)計的結果來幫助在切詞過程中處理歧義切分字段。例如,AB是一個詞,BC是另一個詞,如果詞頻統(tǒng)計的結果表明BC的出現(xiàn)頻率大于AB的出現(xiàn)頻率,那么,在處理歧義切分字段ABC時,就把BC作為一個單詞,A作為一個單詞,而排斥AB作為一個單詞的可能性,也就是把ABC切分為A/BC。這種方法的缺點是,由于只考慮詞頻,出現(xiàn)頻率較低的詞總是被錯誤地切分。

      10.基于期望的切詞法。這種方法認為,當一個詞出現(xiàn)時,它后面緊隨的詞就會有一種期望,根據(jù)這種期望,在詞表中找出所對應的詞,從而完成切分。這種方法增加了切詞的空間復雜度,但在一定程度上提高了切詞的正確率。

      此外,還有基于專家系統(tǒng)的切詞法和基于神經(jīng)網(wǎng)絡的切詞法,可以說,利用人工智能的方法來進行漢語書面語的自動切分,也取得了較好的成績。

      在上述切詞方法中,MM法、RMM法和逐詞遍歷法是最基本的機械性的切詞方法,而其他方法都不是純粹意義上的機械性的切詞方法。在實際的漢語書面語自動切詞系統(tǒng)中,一般都是幾種方法配合使用,以此達到最理想的切詞效果。

      五、發(fā)展方向:經(jīng)驗主義和理性主義相結合

      徐:馮先生,聽了您的解釋,真是令人茅塞頓開。在進行自然語言處理時,將漢語語法運用到其中,給可能會出現(xiàn)歧義的情況加上限制條件,這樣才能使計算機明白應如何進行自動切詞。同時,也十分感謝馮先生為我們總結了自動切詞技術可以采用的主要方法。接下來,請您談談是如何評價自然語言處理領域的研究現(xiàn)狀的;您認為,這個領域今后應當朝什么方向繼續(xù)努力?

      馮:在自然語言處理領域,我國已經(jīng)在以大數(shù)據(jù)驅(qū)動的深度學習和神經(jīng)網(wǎng)絡方面取得了可喜的成績,在語音識別、語音合成、漢字識別、機器翻譯等應用領域已經(jīng)實現(xiàn)了商品化,自然語言處理的研究成果可以造福于人類。這是經(jīng)驗主義方法的成就,值得高興。但是,我們在以語言學知識驅(qū)動的深度學習和神經(jīng)網(wǎng)絡方面還剛剛起步,這是理性主義方法的不足。“道路阻且長”,我們還要繼續(xù)努力,把理性主義的方法與經(jīng)驗主義的方法進一步結合起來。

      國際著名語言學雜志《語言》(Language)2019年第1期刊登了美國學者Pater的文章《生成語言學和神經(jīng)網(wǎng)絡60年:基礎、分歧與融合》以及該文的回應文章,重點討論了基于連接主義方法的深度學習與語言學研究,特別是生成語言學研究之間的對立與融合關系。

      陸游的地域書寫,比其他作家受時空轉換的影響更明顯。錢鐘書云:“至放翁詩中,居梁益則憶山陰,歸山陰又戀梁益,此乃當前不御,過后方思,遷地為良,安居不樂;人之常情,與議論矛盾殊科?!痹跁r間的流逝與空間的轉變中,陸游關于梁益的地域書寫在內(nèi)容和情緒等方面都發(fā)生了不小的變化,而有些變化因記憶模糊或創(chuàng)作心態(tài)改變甚至會前后矛盾,雖非“議論矛盾”,卻是許多細節(jié)或情緒上的矛盾。

      Pater呼吁,應在神經(jīng)網(wǎng)絡研究和語言學之間進行更多的互動。他認為,如果生成語言學繼續(xù)保持與神經(jīng)網(wǎng)絡和統(tǒng)計學習之間的距離,那么,生成語言學便不可能實現(xiàn)它對語言學習機制進行解釋的承諾

      。Linzen在他的回應文章中指出,語言學研究與深度學習可以相互促進。一方面,語言學家可以詳細描寫神經(jīng)網(wǎng)絡模型的語言學習能力,并通過實驗加以驗證;另一方面,神經(jīng)網(wǎng)絡可以模擬人類加工語言的過程,有助于語言學家研究內(nèi)在制約條件的必要性

      。

      第一,時間分布圖譜表明,在近10年的時間內(nèi),科研成果平穩(wěn)增長,以政府機構改革為主題的研究主要采取定性為主,輔以定量分析的研究方法,研究成果主要發(fā)表在社科類基礎研究和政策研究類刊物上。該研究領域現(xiàn)階段正趨于穩(wěn)定,多個學科的前沿定量研究方法正被引入,研究深度有加強趨勢。

      我贊同他們的意見,深度學習應當與語言學研究結合起來,基于語言大數(shù)據(jù)的經(jīng)驗主義方法應當與基于語言規(guī)則的理性主義方法結合起來,相互促進,相得益彰,從而推動自然語言處理的進一步發(fā)展。我們這一代學者趕上了基于語言大數(shù)據(jù)的經(jīng)驗主義盛行的黃金時代,在自然語言處理中,我們可以把唾手可得的那些低枝頭上的果實,采用深度學習和神經(jīng)網(wǎng)絡的經(jīng)驗主義方法采摘下來;而我們留給下一代的,則是那些處于高枝頭上的最難啃的硬骨頭。

      因此,我們要告誡下一代的學者,不要過分地迷信目前廣為流行的基于語言大數(shù)據(jù)的經(jīng)驗主義方法,不要輕易地忽視目前受到冷落的基于語言規(guī)則的理性主義方法。我們應當讓下一代的年輕學者做好創(chuàng)新的準備,把基于語言大數(shù)據(jù)的經(jīng)驗主義方法和基于語言規(guī)則的理性主義方法巧妙地結合起來,把大數(shù)據(jù)和形式化的知識結合起來,從而把自然語言處理的研究推向深入。

      目前流行的深度學習和神經(jīng)網(wǎng)絡的熱潮,為基于語言大數(shù)據(jù)的經(jīng)驗主義方法添了一把火,預計這樣的熱潮還會繼續(xù)主導自然語言處理領域很多年,這有可能使我們延宕了向基于語言規(guī)則的理性主義方法回歸的日程表。不過,我始終認為,在自然語言處理的研究中,基于語言規(guī)則的理性主義方法復興的歷史步伐是不會改變的,基于語言數(shù)據(jù)的經(jīng)驗主義方法一定要與基于語言規(guī)則的理性主義方法結合起來,這才是自然語言處理發(fā)展的金光大道。

      [1]馮志偉.計算語言學基礎[M].北京:商務印書館,2001.

      [2]馮志偉.數(shù)學與語言[M].北京:世界圖書出版公司,2011.

      [3][美]Jurafsky,D.& Martin,J.H.自然語言處理綜論[M].馮志偉,孫樂譯.北京:電子工業(yè)出版社,2005.

      [4]馮志偉.自然語言處理簡明教程[M].上海:上海外語教育出版社,2012.

      [5]馮志偉.中文信息處理與漢語研究[M].北京:商務印書館,1992.

      [6][蘇]費爾斯曼.趣味地球化學[M].石英,安吉譯.北京:中國青年出版社,1956.

      [7][蘇]吉米多維奇.數(shù)學分析習題集[M].李榮涷譯.北京:高等教育出版社,1958.

      [8]馮志偉.自然語言處理中的歧義消解方法[J].語言文字應用,1996,(1).

      [9]奉國和,鄭偉.國內(nèi)中文自動分詞技術研究綜述[J].圖書情報工作,2011,(2).

      [10]Pater,J.Generative linguistics and neural networks at 60: Foundation, friction, and fusion[J].Language,2019,(1).

      [11]Linzen,T.What can linguistics and deep learning contribute each other?——Response to Joe Pater[J].Language,2019,(1).

      猜你喜歡
      語言學圖譜語言
      繪一張成長圖譜
      語言是刀
      文苑(2020年4期)2020-05-30 12:35:30
      讓語言描寫搖曳多姿
      補腎強身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      認知語言學與對外漢語教學
      累積動態(tài)分析下的同聲傳譯語言壓縮
      主動對接你思維的知識圖譜
      我有我語言
      雜草圖譜
      雜草學報(2012年1期)2012-11-06 07:08:33
      語言學與修辭學:關聯(lián)與互動
      當代修辭學(2011年2期)2011-01-23 06:39:12
      桂平市| 汝城县| 中方县| 敖汉旗| 青河县| 呼图壁县| 武宣县| 苍溪县| 辽宁省| 石家庄市| 班戈县| 南投县| 临汾市| 奈曼旗| 靖边县| 八宿县| 西平县| 灵宝市| 江山市| 保定市| 华亭县| 马龙县| 县级市| 岳池县| 澄迈县| 石台县| 北票市| 庆城县| 长葛市| 兴和县| 肥西县| 贺兰县| 南乐县| 南部县| 额尔古纳市| 屏边| 宜昌市| 白朗县| 调兵山市| 兴业县| 孝感市|