黎謙
摘要:語(yǔ)言文字信息處理技術(shù)奠定了人機(jī)交互的技術(shù)基礎(chǔ),成為人工智能的熱門領(lǐng)域。該項(xiàng)技術(shù)既是實(shí)現(xiàn)人機(jī)交流的突破點(diǎn),也是當(dāng)下衡量國(guó)家現(xiàn)代化水平的一項(xiàng)重要指標(biāo)。該文闡述了語(yǔ)言文字信息處理的技術(shù),并探究了該技術(shù)在“互聯(lián)網(wǎng)+”背景下的應(yīng)用發(fā)展現(xiàn)狀。
關(guān)鍵詞:“互聯(lián)網(wǎng)+” 語(yǔ)言信息處理;機(jī)器翻譯;信息檢索
中圖分類號(hào):TP3? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)30-0194-02
語(yǔ)言文字信息處理技術(shù)是將人類在互動(dòng)交流時(shí)所使用的語(yǔ)言處理轉(zhuǎn)化為計(jì)算機(jī)可以理解的機(jī)器語(yǔ)言的一種技術(shù),它是以語(yǔ)言能力為研究對(duì)象的模型和算法框架,是涉及語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)的交叉研究領(lǐng)域[1]。在“互聯(lián)網(wǎng)+”時(shí)代,該技術(shù)的創(chuàng)新和突破既能夠推動(dòng)人機(jī)智能的發(fā)展,帶來(lái)計(jì)算技術(shù)的革命,又能讓人類進(jìn)一步認(rèn)識(shí)自身的思維和語(yǔ)言文字,更加重視對(duì)語(yǔ)言的教學(xué)和學(xué)習(xí)。
1 語(yǔ)言文字信息處理的技術(shù)分析
1.1 語(yǔ)言文字信息處理基礎(chǔ)技術(shù)
1)詞法分析
組成句子的基本單元是詞。詞法分析具體指的是先把句子中的字符串轉(zhuǎn)變?yōu)樵~串,之后給句中所有詞加句法范疇標(biāo)記的過(guò)程。漢語(yǔ)是一種表意文字,它是以漢字作為單位的。對(duì)漢字的處理技術(shù)包括三步:一是漢字編碼,二是漢字輸入,三是漢字輸出。在處理具體的漢語(yǔ)句子之前要做的就是先將句中的單詞切分出來(lái)。目前機(jī)器自動(dòng)分詞的方法有兩種,一是最大匹配法,二是最大概率法。而對(duì)屈折性語(yǔ)言(如英語(yǔ))進(jìn)行詞法分析時(shí),需要適當(dāng)處理其詞尾、前綴、后綴等,將詞形還原。
詞性即詞匯所具有的基本語(yǔ)法屬性。詞性標(biāo)注即判斷句中詞的語(yǔ)法范疇,明確其詞性并標(biāo)注出來(lái)的過(guò)程。標(biāo)注的關(guān)鍵和難題在于消除歧義。一般詞性標(biāo)注所采用的方法有基于統(tǒng)計(jì)和基于規(guī)則兩種。詞法分析的另一個(gè)主要任務(wù)就是詞義標(biāo)注,重點(diǎn)問(wèn)題在于怎樣在具體句子中確定多義詞的義項(xiàng)。在標(biāo)注詞義時(shí),往往先明確語(yǔ)境,再標(biāo)注詞義。其方法也有基于統(tǒng)計(jì)和基于規(guī)則兩種。
2)句法分析
句法分析的目的在于識(shí)別句中成分及它們的相互關(guān)系,明確該句的句法結(jié)構(gòu)。判斷單詞序列是否符合給定語(yǔ)法,并對(duì)符合的句子進(jìn)行句法結(jié)構(gòu)分析。一般用來(lái)完成此種分析任務(wù)的程序模塊被稱作句法分析器。句法分析分淺層句法分析和完全句法分析兩種。前者用來(lái)對(duì)句中結(jié)構(gòu)簡(jiǎn)單的成分進(jìn)行識(shí)別,后者則更為復(fù)雜,要通過(guò)句法分析得出句子的完整的句法樹(shù)。
3)語(yǔ)義分析
語(yǔ)義分析即計(jì)算機(jī)在分析某個(gè)文檔語(yǔ)義內(nèi)容的基礎(chǔ)上對(duì)其進(jìn)行學(xué)習(xí)和理解。語(yǔ)義分析根據(jù)語(yǔ)言單位不同可分成篇章級(jí)、句子級(jí)和詞匯級(jí)三個(gè)級(jí)別。詞匯級(jí)的任務(wù)在于獲得詞語(yǔ)的具體意義,句子級(jí)的任務(wù)則在于分析句子的整體語(yǔ)義,篇章級(jí)的任務(wù)則在于提取文本結(jié)構(gòu),闡明文本單元彼此間所具有的語(yǔ)義關(guān)系。
4)篇章分析
篇章分析的目的在于明確篇章的結(jié)構(gòu),并概括提煉篇章的特征。通常篇章的基本結(jié)構(gòu)分析,往往意味著對(duì)文本內(nèi)部關(guān)系結(jié)構(gòu)進(jìn)行探究,即邏輯、指代、功能、事件或者話題等結(jié)構(gòu)。
5)生成自然語(yǔ)言
生成自然語(yǔ)言指的是計(jì)算機(jī)在關(guān)鍵信息基礎(chǔ)上加之機(jī)器表達(dá)形式,模擬人類寫作并最終生成質(zhì)量較高的自然語(yǔ)言文本內(nèi)容的一種技術(shù)?;谏疃葘W(xué)習(xí)的方法、基于知識(shí)檢索的方法和基于規(guī)則的方法都是較為常用的生成方法。
1.2 語(yǔ)言文字信息處理的應(yīng)用技術(shù)
語(yǔ)言文字信息處理除了能夠處理文本,為大數(shù)據(jù)應(yīng)用提供服務(wù),它自身也有一些應(yīng)用技術(shù),比如機(jī)器寫作、信息抽取、閱讀理解、對(duì)話等,能夠應(yīng)用在科技服務(wù)、在線教育、信息檢索等社會(huì)的各個(gè)方面。
1)信息抽取和構(gòu)建知識(shí)圖譜
信息抽取的含義是計(jì)算機(jī)識(shí)別某個(gè)文檔的結(jié)構(gòu)化信息并最終生成。之后再將這些從文檔中抽取出來(lái)的結(jié)構(gòu)化信息按特定形式集中起來(lái)。應(yīng)注意的是,信息抽取只分析文檔的部分信息。在語(yǔ)言文字信息處理領(lǐng)域,知識(shí)圖譜構(gòu)建是熱點(diǎn),它包括事件抽取、實(shí)體識(shí)別、關(guān)系抽取、實(shí)體屬性識(shí)別等。其任務(wù)為知識(shí)的建模、融合、賦能、圖譜構(gòu)建、推理計(jì)算等[2]。
2)智能寫作和智能問(wèn)答
智能寫作的含義是計(jì)算機(jī)將自然語(yǔ)言生成器和算法作為自己的工具去“書寫”文本。智能問(wèn)答則更復(fù)雜,需要把握問(wèn)答的目的、正確理解語(yǔ)言的深層意思、搜索符合問(wèn)答主題的知識(shí),問(wèn)答系統(tǒng)的功能往往有分析、分類、理解和答案的檢索、匹配、生成等。
2 語(yǔ)言文字信息處理技術(shù)的應(yīng)用發(fā)展研究
2.1 信息檢索
信息檢索系統(tǒng)的工作通常包括四部分:一是處理文獻(xiàn)信息,通過(guò)分析提取關(guān)鍵信息后,建立數(shù)據(jù)庫(kù)或者轉(zhuǎn)換文檔;二是提問(wèn)處理,對(duì)用戶輸入的查詢?cè)~進(jìn)行解釋;三是匹配問(wèn)題,即匹配查詢提問(wèn)和數(shù)據(jù)庫(kù)及轉(zhuǎn)換文檔之中的內(nèi)容;四是按照特定順序?qū)⒉樵兘Y(jié)果顯示出來(lái)。信息檢索需要利用自然語(yǔ)言檢索和標(biāo)引,它的每個(gè)階段都離不開(kāi)語(yǔ)言文字信息處理技術(shù)的應(yīng)用。
1)處理文獻(xiàn)信息
第一,自然語(yǔ)言標(biāo)引,即計(jì)算機(jī)提取能夠表征文檔內(nèi)容的信息或特征詞加以標(biāo)引。計(jì)算機(jī)自動(dòng)標(biāo)引是常用標(biāo)引方式,其目的在于讓文獻(xiàn)擁有標(biāo)引詞,以便在具體檢索過(guò)程中直接匹配檢索詞匯。自然語(yǔ)言標(biāo)引包括字索引、詞索引和短語(yǔ)索引三種索引方式。第二,自動(dòng)抽取主題詞,即按照文獻(xiàn)所闡述的問(wèn)題和對(duì)象提煉出主題詞,并將其存入文獻(xiàn)庫(kù)和檢索系統(tǒng)。當(dāng)前自動(dòng)抽取主題所采用的算法,是指對(duì)綜合位置、詞頻等因素進(jìn)行統(tǒng)計(jì)的一種方法。信息提取運(yùn)用算法能夠得到文檔中重要性較強(qiáng)的句子,這就是主題句。之后還要對(duì)主題句進(jìn)行語(yǔ)義分析以及句法分析,明確句子內(nèi)部各部分的語(yǔ)義關(guān)系。第三,自動(dòng)生成文摘,即對(duì)文檔內(nèi)容進(jìn)行語(yǔ)義分析和邏輯分析之后生成具有可讀性的摘要,介紹主體內(nèi)容,便于用戶判斷文章是否符合自己的需要。第四,文本自動(dòng)分類,即計(jì)算機(jī)系統(tǒng)以文檔的屬性或內(nèi)容為根據(jù)將語(yǔ)言文本歸為某個(gè)主題類別的過(guò)程,這樣便于用戶精確查找。文本分類可分為兩類,一是自動(dòng)聚類,二是自動(dòng)歸類。這兩種分類方法都需要充分運(yùn)用語(yǔ)言文字信息處理技術(shù),比如詞頻統(tǒng)一、相似度計(jì)算、漢語(yǔ)自動(dòng)分詞、分類算法、特征提取等。
2)自然語(yǔ)言檢索接口
檢索系統(tǒng)通過(guò)檢索接口和用戶相連接,如果沒(méi)有用戶接口,那么系統(tǒng)功能就會(huì)被閑置。在“互聯(lián)網(wǎng)+”時(shí)代,人們有了愈來(lái)愈高的檢索要求。所以怎樣讓計(jì)算機(jī)更準(zhǔn)確地理解用戶意圖、讓用戶更方便快捷地查詢信息就成了一個(gè)重要課題。自然語(yǔ)言檢索接口應(yīng)運(yùn)而生。作為人性化的智能接口,其功能在于接受用戶輸入的信息,讓系統(tǒng)對(duì)用戶提問(wèn)進(jìn)行語(yǔ)言分析,并通過(guò)人機(jī)交互判斷出用戶需求,從而得出更準(zhǔn)確、全面的檢索結(jié)果。
3)匹配控制
匹配控制包括自由詞匹配和概念匹配。自由詞匹配是按照特定的檢索模型對(duì)用戶提問(wèn)和索引項(xiàng)進(jìn)行匹配,并將包含自由詞的摘要和URL反饋給用戶。而概念匹配又被稱為語(yǔ)義檢索,它分析用戶檢索詞的概念意義,并為其匹配出具有相近或相同意思的詞語(yǔ),這一功能對(duì)語(yǔ)言檢索的多義和同義問(wèn)題進(jìn)行了解決。語(yǔ)義檢索有兩項(xiàng)基本功能,一是相關(guān)概念聯(lián)想,二是同義擴(kuò)展檢索,而這無(wú)疑和語(yǔ)言文字信息處理技術(shù)密切相關(guān),即該技術(shù)能夠抽取文檔概念,并對(duì)概念進(jìn)行聚類,由此生成一定的概念空間。當(dāng)用戶輸入文字后,檢索系統(tǒng)會(huì)迅速匹配出在概念語(yǔ)義空間方面最為相似的概念,并按照相似性遞減規(guī)律將檢索結(jié)果呈現(xiàn)給用戶[3]。
4)查詢結(jié)果處理
查詢結(jié)果處理指的是計(jì)算機(jī)用算法計(jì)算出相關(guān)度并以此為依據(jù)對(duì)檢索結(jié)果進(jìn)行排序,將和用戶需求關(guān)系最為密切的結(jié)果排列在前。為了使服務(wù)更加個(gè)性化,還需要對(duì)用戶檢索行為進(jìn)行追蹤,并運(yùn)用語(yǔ)義\語(yǔ)境對(duì)用戶需求進(jìn)行分析,將用戶需求和文檔進(jìn)行概念匹配,使查詢結(jié)果更符合用戶興趣。語(yǔ)言文字信息處理技術(shù)的提升能夠提高查詢結(jié)果的排序質(zhì)量,因?yàn)樗軌蚋鼫?zhǔn)確地把握用戶意圖,更精準(zhǔn)地匹配文獻(xiàn)[4]。
2.2 機(jī)器翻譯
1)機(jī)器學(xué)習(xí)
語(yǔ)言文字信息處理技術(shù)的一個(gè)主要特點(diǎn)就是更加依賴于機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)語(yǔ)言知識(shí)的獲取。機(jī)器學(xué)習(xí)是主要研究怎樣在經(jīng)驗(yàn)的基礎(chǔ)上通過(guò)計(jì)算對(duì)系統(tǒng)自身的性能進(jìn)行改善的一門學(xué)科。機(jī)器學(xué)習(xí)的工作方式如下:首先,把大量訓(xùn)練數(shù)據(jù)輸入計(jì)算機(jī),從而構(gòu)建出初始模型;之后運(yùn)用測(cè)試數(shù)據(jù)來(lái)檢查初始模型,使之不斷完善,并最終生成一個(gè)訓(xùn)練完好的模型;最后,如果再接收到新數(shù)據(jù),那么人類就能夠運(yùn)用計(jì)算機(jī)和新模型進(jìn)行預(yù)測(cè)或者判斷。此后的新數(shù)據(jù)、調(diào)整的參數(shù)、各異的特征等,都能夠用來(lái)對(duì)算法的性能進(jìn)行提升,使算法更加完善。
2)機(jī)器翻譯
機(jī)器翻譯是指計(jì)算機(jī)具有自動(dòng)轉(zhuǎn)換語(yǔ)言文字的功能。這里的語(yǔ)言文字等同于自然語(yǔ)言,要將它和人工語(yǔ)言區(qū)別開(kāi)來(lái),比如計(jì)算機(jī)編程語(yǔ)言即為人工語(yǔ)言。有專家學(xué)者指出,機(jī)器翻譯實(shí)際上是語(yǔ)言文字信息處理技術(shù)的一個(gè)重要分支,它在具體的翻譯過(guò)程中會(huì)遇到很多語(yǔ)言文字信息處理的一些經(jīng)典問(wèn)題,比如詞性標(biāo)引、字詞切分、句法分析等。機(jī)器翻譯的方法分為基于規(guī)則和基于語(yǔ)料庫(kù)的機(jī)器翻譯方法兩種。
在機(jī)器翻譯之中,數(shù)據(jù)即語(yǔ)料被當(dāng)作訓(xùn)練數(shù)據(jù),并被用于模型的訓(xùn)練。語(yǔ)料被劃分成各種類型,分別用于不同模型的訓(xùn)練。
下面以語(yǔ)言模型為例具體說(shuō)明該過(guò)程對(duì)語(yǔ)言文字信息處理技術(shù)的應(yīng)用。首先,選取目標(biāo)語(yǔ)言中的大量語(yǔ)料,并讓其成為訓(xùn)練數(shù)據(jù),計(jì)算機(jī)運(yùn)用此數(shù)據(jù)得到知識(shí),并建構(gòu)起一定的語(yǔ)言模型。但訓(xùn)練數(shù)據(jù)并不涵蓋所有語(yǔ)料,所以計(jì)算機(jī)無(wú)法實(shí)現(xiàn)對(duì)所有樣例數(shù)據(jù)的覆蓋,這時(shí)一般就會(huì)用數(shù)據(jù)平滑算法來(lái)完善語(yǔ)言模型。很多語(yǔ)言文字信息處理的應(yīng)用都運(yùn)用語(yǔ)言模型來(lái)生成文本,這些模型以之前出現(xiàn)過(guò)的語(yǔ)境和單詞為基礎(chǔ),通過(guò)接受相應(yīng)的訓(xùn)練來(lái)讓自身具備能夠預(yù)測(cè)接下來(lái)出現(xiàn)的單詞的功能。最終建好的語(yǔ)言模型具有預(yù)算句子出現(xiàn)可能性的重要功能,也是在此基礎(chǔ)上譯文才更加接近人類優(yōu)秀的翻譯文章。
不管是建立概率模型的過(guò)程,還是模型訓(xùn)練過(guò)程,都需要機(jī)器學(xué)習(xí)算法的支持。在模型建立的具體過(guò)程中,機(jī)器翻譯也會(huì)應(yīng)用參數(shù)特征來(lái)改進(jìn)和完善自身的算法[5]。所以說(shuō)機(jī)器翻譯是語(yǔ)言文字信息處理技術(shù)的一個(gè)較為重要的研究方向,并且通過(guò)上述分析可知,語(yǔ)言文字信息處理技術(shù)在機(jī)器翻譯中有著極為重要的地位。
2.3 社會(huì)計(jì)算
社會(huì)計(jì)算又稱作社會(huì)計(jì)算學(xué),指的是在“互聯(lián)網(wǎng)+”背景下,將社會(huì)科學(xué)理論作為指導(dǎo),運(yùn)用現(xiàn)代信息技術(shù)為人類社會(huì)提供知識(shí)、探求規(guī)律、分析關(guān)系、推進(jìn)交流、解決社會(huì)難題的一門學(xué)科。
社會(huì)媒體實(shí)際上是社會(huì)計(jì)算的重要工具和手段,社會(huì)媒體有海量用戶,它允許用戶在線上進(jìn)行發(fā)布、交流、傳遞和分享,并最終形成一個(gè)虛擬的網(wǎng)絡(luò)社區(qū)[6]。在“互聯(lián)網(wǎng)+”背景下,社會(huì)媒體變得更加多樣化,從最初的博客、論壇到如今的微信、社交網(wǎng)站等,由此它也成為網(wǎng)絡(luò)技術(shù)發(fā)展的趨勢(shì)和焦點(diǎn)。運(yùn)用語(yǔ)言文字信息處理技術(shù)可以闡明社會(huì)媒體中的文本屬性,社會(huì)媒體中出現(xiàn)的文本具有較強(qiáng)的實(shí)時(shí)性、字?jǐn)?shù)不多、淺顯易讀,同時(shí)它具有較強(qiáng)的交互性、社交性。社會(huì)媒體使每個(gè)用戶都擁有了創(chuàng)造和傳播內(nèi)容的權(quán)利,他們能夠發(fā)布個(gè)性內(nèi)容,進(jìn)行社會(huì)化傳播,這些網(wǎng)絡(luò)用戶也能夠形成社會(huì)化網(wǎng)絡(luò)。
社會(huì)網(wǎng)絡(luò)類屬于關(guān)系網(wǎng)絡(luò),以網(wǎng)絡(luò)為媒介實(shí)現(xiàn)了個(gè)人之間以及群體之間的互通。運(yùn)用語(yǔ)言文字信息處理技術(shù)提取社會(huì)網(wǎng)絡(luò)中的關(guān)鍵字和高頻詞等,分析“互聯(lián)網(wǎng)+”時(shí)代人類語(yǔ)言文字信息中所蘊(yùn)含的新內(nèi)涵,能夠更加清晰地了解當(dāng)下人類社會(huì)的行為方式和組織特點(diǎn)等,從而為人群的社會(huì)結(jié)構(gòu)研究奠定基礎(chǔ)。
3 結(jié)語(yǔ)
“互聯(lián)網(wǎng)+”時(shí)代的語(yǔ)言文字信息處理技術(shù)具有非常廣闊的應(yīng)用領(lǐng)域和樂(lè)觀的應(yīng)用前景。作為涉及多學(xué)科領(lǐng)域的一種處理技術(shù),其發(fā)展和繁榮必將極大促進(jìn)相關(guān)學(xué)科的發(fā)展。各種語(yǔ)料庫(kù)數(shù)據(jù)資源的不斷豐富、新理論的不斷出現(xiàn)、分析技術(shù)的迅捷發(fā)展、研究模型的逐漸完善,都為理論研究打下了堅(jiān)實(shí)基礎(chǔ),語(yǔ)言文字信息處理技術(shù)的迅速發(fā)展也將使其在計(jì)算機(jī)科學(xué)研究中的重要地位得到進(jìn)一步的鞏固。
參考文獻(xiàn):
[1] 李生.自然語(yǔ)言處理的研究與發(fā)展[J].燕山大學(xué)學(xué)報(bào),2013,37(5):377-384.
[2] 林奕歐,雷航,李曉瑜,等.自然語(yǔ)言處理中的深度學(xué)習(xí):方法及應(yīng)用[J].電子科技大學(xué)學(xué)報(bào),2017,46(6):913-919.
[3] 史兆鵬,鄒徐熹,向潤(rùn)昭.基于依存句法分析的多特征詞義消歧[J].計(jì)算機(jī)工程,2017,43(9):210-213.
[4] 殷淑娥,田偉,于泳海.自然語(yǔ)言處理技術(shù)在搜索引擎中的應(yīng)用[J].電子商務(wù),2012(5):67,69.
[5] 馮志偉.機(jī)器翻譯與人工智能的平行發(fā)展[J].外國(guó)語(yǔ)(上海外國(guó)語(yǔ)大學(xué)學(xué)報(bào)),2018,41(6):35-48.
[6] 方明之.自然語(yǔ)言處理技術(shù)發(fā)展與未來(lái)[J].科技傳播,2019,11(6):143-144.
【通聯(lián)編輯:代影】