趙棟材 周雁
摘要:隨著人類社會信息化程度和計(jì)算機(jī)水平的提高,自然語言處理(NLP)技術(shù)逐漸成為計(jì)算機(jī)應(yīng)用和人工智能研究的熱點(diǎn)。自然語言的處理方法主要采用描述語言規(guī)律的基本思路,研究者探索出一些有效的技術(shù),并取得一定的成果。通過對此類技術(shù)進(jìn)行升級改造,總結(jié)了研究成果,改進(jìn)基于詞聯(lián)接的自然語言處理技術(shù)的應(yīng)用原理,從而使得該技術(shù)在應(yīng)用中具有更高的處理語言文字的效率和準(zhǔn)確性,使其更適應(yīng)現(xiàn)代的人際交往。
關(guān)鍵詞:詞聯(lián)接;NLP;技術(shù)改進(jìn)
中圖分類號:TP391文獻(xiàn)標(biāo)志碼:A文章編號:1008-1739(2018)09-61-2
Study on Improvement Technology of Natural Language Processing Based on Word Link
ZHAO Dongcai, ZHOU Yan(School of Information Science and Technology, Tibet University, Lhasa Tibet 850000, China)
0引言
隨著人類社會進(jìn)入信息化時(shí)代,計(jì)算機(jī)硬件水平不斷升級改進(jìn),NLP技術(shù)也日益發(fā)展成熟。計(jì)算機(jī)自然語言處理技術(shù)的目標(biāo)是讓計(jì)算機(jī)具有類似人的語言智能,例如能夠和人一樣對語言文字進(jìn)行基礎(chǔ)的聽、說、讀、寫等方面的處理,使得語言文字處理技術(shù)逐漸發(fā)展成熟,最終形成一門綜合性、交叉性學(xué)科[1]。
自然語言處理技術(shù)是計(jì)算機(jī)應(yīng)用和人工智能研究的熱點(diǎn)和難點(diǎn),也是計(jì)算機(jī)技術(shù)和信息社會發(fā)展的一項(xiàng)重大課題[2]。在改進(jìn)計(jì)算機(jī)語言處理技術(shù)的同時(shí),發(fā)揮詞語聯(lián)接功能,研究基于詞連接的自然語言處理技術(shù)的升級改造,使之更精準(zhǔn)地適合于人類信息化社會的發(fā)展,為人類信息化社會和計(jì)算機(jī)技術(shù)的提升提供一定的幫助[3]。
1基于詞聯(lián)接的自然語言處理技術(shù)
1.1詞聯(lián)接自然語言處理技術(shù)發(fā)展階段
自然語言規(guī)則處理技術(shù)屬于理性處理方法,其基本思想是根據(jù)語言規(guī)則分析語言的正確性,建立語言規(guī)則庫。語言規(guī)則包括語義規(guī)則和語法規(guī)則兩方面,其理論基礎(chǔ)源于喬母斯基的形式主義語言學(xué)。該語言學(xué)理論在人類語言學(xué)和計(jì)算機(jī)語言學(xué)中都占有重要地位,其理論中關(guān)于語言結(jié)構(gòu)部分已經(jīng)被廣泛應(yīng)用于自然語言的詞語關(guān)聯(lián)和句法關(guān)聯(lián)處理中[4]。在升級計(jì)算機(jī)硬件條件基礎(chǔ)上,將處理重點(diǎn)放在大規(guī)模的真實(shí)文本處理上,通過建立統(tǒng)計(jì)語言分析模型來分析自然語言的正確性。
基于詞聯(lián)接的自然語言處理技術(shù)也正在不斷地改進(jìn)和發(fā)展,在自然語言處理技術(shù)的應(yīng)用中占有重要的地位。
1.2詞聯(lián)接自然語言處理技術(shù)模型分析
由于受到自然語言環(huán)境的限制,傳統(tǒng)語言處理方法無法對文學(xué)語言進(jìn)行處理分析,缺少對文學(xué)語言的寫作內(nèi)容和創(chuàng)作技巧的分析探究?;谠~聯(lián)接的NLP技術(shù),將結(jié)構(gòu)主義語言學(xué)和認(rèn)知語言學(xué)相結(jié)合,建立起全面、簡便的技術(shù)結(jié)構(gòu),已經(jīng)成為自然語言處理技術(shù)中的核心技術(shù),在自然語言處理系統(tǒng)中占有重要地位,基本模型如圖1所示。
此模型中,體現(xiàn)在受限的自然語言環(huán)境中建立動態(tài)語料庫,動態(tài)語料庫中以高級知識為主體,實(shí)例知識是對高級知識的補(bǔ)充,在一定情況下,實(shí)例知識還可以轉(zhuǎn)化為高級知識,二者都是動態(tài)語料庫中的重要組成內(nèi)容。此模型中也可以分析得出,基于詞聯(lián)接的自然語言處理模型具有受限性、動態(tài)性和經(jīng)驗(yàn)性。
基于詞聯(lián)接的自然語言處理技術(shù)依賴于自然語言環(huán)境,面向的也是受限的自然語言處理,也是某一特定語境中真實(shí)應(yīng)用的語句,是因?yàn)镹LP技術(shù)的受限性才讓此技術(shù)具有可操作性,對受限內(nèi)容進(jìn)行規(guī)范化處理,從而正確而高效地處理語言內(nèi)容[5]。
NLP技術(shù)在自然語言處理上具有動態(tài)性,因?yàn)镹LP語料庫的建設(shè)過程就是一個動態(tài)的過程,受限自然語料庫隨著時(shí)間的推移不斷改變,動態(tài)語庫要進(jìn)行不斷地更新替換,知識庫的更新同樣會加強(qiáng)語言智能機(jī)器處理的能力。因而,NLP技術(shù)在現(xiàn)實(shí)中的應(yīng)用能夠不斷更新,獲取高質(zhì)量的知識[6]。
2基于詞聯(lián)接的自然語言處理技術(shù)改進(jìn)
詞聯(lián)接自然語言處理技術(shù)在現(xiàn)實(shí)應(yīng)用中有其自身的特點(diǎn),然而在應(yīng)用過程中依然會存在一定的限制和不足。首先對單詞邊界的界定,一般而言,漢語中以雙音節(jié)詞為主,如蝴蝶、蜜蜂等。但有時(shí)一些三音節(jié)的詞也比較多,如紅彤彤、綠油油等,四字成語如翩翩起舞、天涯海角等,這些是否界定為詞語還是成語,或者是短語,不僅是語言界難以界定的問題,也是目前語言處理技術(shù)難以克服的問題。其次,在日常語言交際中,詞類和詞性都具有一定的模糊性。漢語中,一個詞具有多類詞性,如工作既可以是名詞又可以是動詞,而詞義上面的模糊性更加明顯,如白天和晚上2個詞表示的時(shí)間是不明顯的,更加沒有完全的界限。
通過對詞聯(lián)接的自然語言技術(shù)的了解和分析,可以構(gòu)建出此類技術(shù)的改進(jìn)模型,如圖2所示。
此類技術(shù)中包括自然語言知識表述、語言分析和語言生成,這3類技術(shù)著重對語言的知識進(jìn)行輸入分析和輸出整理,包括知識獲取、知識評價(jià)和知識修改這3類技術(shù)的應(yīng)用能夠最大限度地對自然語言知識進(jìn)行整理分析和評價(jià)修改,確保自然語言庫中語言知識的準(zhǔn)確性。
知識是主體認(rèn)識經(jīng)驗(yàn)的總和,知識表述技術(shù)是對自然語言處理技術(shù)的綜合改進(jìn),知識作用于主體能夠有效幫助主體解決問題,也是主體獲取知識、認(rèn)識世界的間接過程。但是由于世界的無限性,知識也具有無限性,而知識主體的認(rèn)識卻是有限的,間接通過認(rèn)識世界來獲取知識,可以節(jié)約時(shí)間和提高效率。
自然語言是人類特有的、最為主要的語言,語言作為承載人類知識和信息的載體,有其自身的結(jié)構(gòu)和體系。一般而言,語言結(jié)構(gòu)包括字、詞、句、篇和章5個組成部分,基于詞聯(lián)接的自然語言處理技術(shù)模型可以包括除上述5個層次之外,加入詞聯(lián)接層次,通過改進(jìn)基于詞聯(lián)接的自然語言處理技術(shù),在語言結(jié)構(gòu)中加入一個詞聯(lián)接單位,使得原來由詞和復(fù)雜的句子連接的成分變成了由詞聯(lián)接和句子相連,詞的語義具有不確定性,也存在很多多義詞,而構(gòu)成詞的下級成分———字,具有明確的含義,構(gòu)成詞的上級成分———句子和篇章,往往表達(dá)的也是明確的含義,因而需要在詞和它的上級成分之間建立一個詞聯(lián)接,以確保詞義具有明確性。
3基于詞聯(lián)接的自然語言處理技術(shù)應(yīng)用
經(jīng)過改進(jìn)的詞聯(lián)接自然語言處理技術(shù),可以規(guī)避詞義模糊性和不確定性的弱點(diǎn),將詞聯(lián)接加入到語言成分結(jié)構(gòu)體系中,將詞聯(lián)接技術(shù)加入到自然語言處理技術(shù)中,可以減少詞義模糊性帶來的弊端,提高自然語言處理技術(shù)在現(xiàn)實(shí)生活中的應(yīng)用效率,使得此技術(shù)既可以應(yīng)用于自然語言的處理中,又可以最大程度地處理文學(xué)語言,包括文學(xué)語言的詞匯應(yīng)用技巧以及文學(xué)語言中的修辭概念手法等。
基于詞連接的自然語言處理技術(shù)在現(xiàn)實(shí)生活中具有廣泛的應(yīng)用,可以利用此技術(shù)來進(jìn)行知識的獲取,人類之所以能夠不斷發(fā)展強(qiáng)大,其中一個重要的原因就是經(jīng)過漫長的知識學(xué)習(xí),積累了技能和經(jīng)驗(yàn),而知識的獲取需要通過語言這種載體來承載。詞聯(lián)接技術(shù)使得自然語言得到一定的豐富,也使得自然語言處理技術(shù)得到一定的發(fā)展和改進(jìn)。
①基于詞聯(lián)接的自然語言處理技術(shù)能夠獲得更多的間接知識,直接知識是指人類從自然界和社會生活中經(jīng)過實(shí)踐而得來的知識和經(jīng)驗(yàn),需要耗費(fèi)大量的時(shí)間和精力,那么通過語言和語言處理技術(shù)的不斷改進(jìn)的同時(shí),也改進(jìn)了人類獲取知識的方式。間接知識概括間接,可以直接拿來使用,因而間接知識存在的意義往往大于直接知識,通過不斷改進(jìn)自然語言處理技術(shù),也是改變知識獲取的途徑,從而擴(kuò)展人類獲取語言和知識的途徑。
②基于詞聯(lián)接的自然語言處理技術(shù)的應(yīng)用使得語言更具有一定的體系,也使得語言在運(yùn)用中更具有準(zhǔn)確性。通過詞聯(lián)接自然語言處理技術(shù)對語料進(jìn)行加工,再對某些出錯或者存在歧義的語料內(nèi)容進(jìn)行標(biāo)注,最終使得被加工的語言更加規(guī)范完整,有一定的邏輯性和修辭運(yùn)用合理等特點(diǎn),使得知識的傳遞更加規(guī)范和準(zhǔn)確。
③基于詞聯(lián)接的自然語言處理技術(shù)能夠增加語言規(guī)則的規(guī)范性。語言規(guī)則是規(guī)范語言使用中的一套邏輯體系,一般而言,人類先有語言,后有語言規(guī)則,語言規(guī)則是對語言本身的一種有效性規(guī)范,也是對語言材料在加工中加入邏輯思維的一種方法。語法規(guī)則是由最基礎(chǔ)的字詞按照一定的規(guī)則組裝成句,再將每個句子按照一定的并列、轉(zhuǎn)折、遞進(jìn)等關(guān)系來規(guī)范段落和篇章的邏輯體系,從而形成一套語義完整和邏輯清晰的篇章。
④能夠在日常生活中得到廣泛應(yīng)用,人們在日常交際中需要運(yùn)用語言來組織話語,使得話語具有一定的邏輯結(jié)構(gòu)從而完成交際活動。基于詞聯(lián)接的自然語言處理技術(shù)通過語料庫的積累和語法規(guī)則的建立,從而使得語句上具有一定的邏輯性體系,每種句法成分和句型句式可以通過一定的推理和演繹法來進(jìn)行表達(dá),并形成一個完整的算法結(jié)構(gòu)。
4結(jié)束語
在信息技術(shù)不斷發(fā)展的社會,人類語言處理技術(shù)也發(fā)生著巨大的變化,自然語言處理技術(shù)經(jīng)歷了3次大的階段性轉(zhuǎn)變后,基于詞聯(lián)接的自然語言信息處理技術(shù)正在處于不斷上升階段,但此類技術(shù)在運(yùn)用中依然還存在一定的問題和弱點(diǎn),為此,需要進(jìn)行一定的升級和改造,使之適應(yīng)當(dāng)今高效率的現(xiàn)代社會人際交往。通過對改進(jìn)后的技術(shù)進(jìn)行應(yīng)用,探究其在現(xiàn)實(shí)中的應(yīng)用效果和優(yōu)勢。
參考文獻(xiàn)
[1]王萌,俞士汶,朱學(xué)鋒.自然語言處理技術(shù)及其教育應(yīng)用[J].數(shù)學(xué)的實(shí)踐與認(rèn)識,2015,45(20):151-156.
[2]俞士汶,朱學(xué)鋒,耿立波.自然語言處理技術(shù)與語言深度計(jì)算[J].中國社會科學(xué),2015,12(3):127-135.
[3]孫道功.基于大規(guī)模語義知識庫的“詞匯—句法語義”接口研究[J].語言文字應(yīng)用,2016(2):125-134.
[4]賈潤亮.基于自然語言處理的知識檢索算法研究[J].微電子學(xué)與計(jì)算機(jī),2016,33(10):130-133.
[5]熊志恒,閔華松.基于自然語言的分揀機(jī)器人解析器技術(shù)研究[J].計(jì)算機(jī)工程與應(yīng)用,2017,53(8):113-119.
[6]任海英,于立婷,黃魯成.基于鏈接預(yù)測的科學(xué)研究機(jī)會發(fā)現(xiàn)方法研究[J].情報(bào)雜志,2016,35(10):53-58.