• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      自然語言處理技術(shù)簡述及在礦冶領(lǐng)域的應(yīng)用展望

      2018-09-27 06:00:30供稿劉韞赫呂凝徐昊
      金屬世界 2018年5期
      關(guān)鍵詞:語料語義語音

      供稿|劉韞赫,呂凝,徐昊 /

      作者單位:1. 河北樂亭第一中學(xué),河北 樂亭 063600;2. 北京科技大學(xué)自動化學(xué)院,北京 100083

      內(nèi)容導(dǎo)讀

      作為人工智能領(lǐng)域的關(guān)鍵挑戰(zhàn)之一,盡管機器學(xué)習(xí)技術(shù)近10年來取得了顯著突破,但是自然語言處理任務(wù)依然是亟需攻克的研究熱點問題。文章介紹了自然語言處理領(lǐng)域的主要任務(wù),梳理了自然語言處理的主要方法和發(fā)展,重點分析了基于深度學(xué)習(xí)的自然語言處理方法。結(jié)合礦冶領(lǐng)域的知識庫構(gòu)建特點,對自然語言處理技術(shù)在礦冶領(lǐng)域的應(yīng)用可行性進(jìn)行了分析和展望。以深度學(xué)習(xí)為代表的機器學(xué)習(xí)模型在處理復(fù)雜異構(gòu)的自然語言時表現(xiàn)出更為強大的能力,能夠更為精準(zhǔn)地挖掘知識,有效完成信息抽取任務(wù)。自然語言處理技術(shù)服務(wù)于礦冶生產(chǎn),能夠協(xié)助領(lǐng)域?qū)<液脱芯咳藛T構(gòu)建更為全面、高效、準(zhǔn)確的知識庫,同時實現(xiàn)更為智能的知識服務(wù)系統(tǒng)。

      近十年是計算機技術(shù)、自動化技術(shù)、人工智能技術(shù)取得突破性進(jìn)展的10年。為構(gòu)建通用、易用的人工智能體,自然語言處理是非常重要的任務(wù)。如何讓機器理解人類的語言,并能夠?qū)?fù)雜語言進(jìn)行分析和理解,是數(shù)十年來致力于人工智能領(lǐng)域研究的科學(xué)家們十分關(guān)注的問題。構(gòu)建人工智能體的宏偉目標(biāo)在于讓機器幫助人類進(jìn)行復(fù)雜而精準(zhǔn)的計算,并進(jìn)行決策。計算機的決策需要一定的人類知識,而語言正是人類智慧和復(fù)雜知識的載體。有理由認(rèn)為,自然語言處理領(lǐng)域的進(jìn)展和突破,可以提高計算機的自學(xué)習(xí)能力,同時有效推動我國智能制造、智慧制造的進(jìn)程。

      自然語言處理的主要任務(wù)

      語音識別

      自然語言處理包括語音識別和語義分析。語音識別的任務(wù)之一是將人類語音轉(zhuǎn)化為對應(yīng)的文字,該任務(wù)是將通信領(lǐng)域信號處理原理推廣到自然語言領(lǐng)域的一個成功的嘗試。簡單來說,語音識別根據(jù)聲音的底層特征,如語調(diào)、音速、音節(jié)、音位等聲學(xué)特征,通過特定的處理方法,將其抽象為一個狀態(tài)序列?;蛘哒f,聲音本身也是一種信號的形式,它具有特定的頻率特征。采用對應(yīng)的特征處理方法,語言可以被轉(zhuǎn)化為特定的信號序列形式。通過合理的模型設(shè)計和大規(guī)模的語音語料訓(xùn)練,計算機可以正確地識別出語音信號序列的形式,從而達(dá)到預(yù)測語音信號、實現(xiàn)語音辨識的目的。圖1是一個典型的語音識別模塊的設(shè)計框圖。

      圖 1 語音識別模塊設(shè)計框圖

      目前,處于語音識別研究第一梯隊的國內(nèi)研究隊伍有中國科技大學(xué)科大訊飛團隊、百度語音、騰訊語音等。當(dāng)前的技術(shù)水平已經(jīng)可以較好地完成語音識別任務(wù):科大訊飛團隊開發(fā)的語音識別工具包甚至可以實現(xiàn)對于中國方言近乎百分之百的識別;在百度公司、騰訊公司推出的各種互聯(lián)網(wǎng)產(chǎn)品中,語音識別技術(shù)也已經(jīng)非常普遍。因此,自然語言處理任務(wù)的主要挑戰(zhàn)在于語義分析。

      語義分析

      語義分析和語言理解是目前自然語言處理領(lǐng)域的重點研究方向,也是制約機器智能的一大技術(shù)瓶頸。從任務(wù)角度出發(fā),語義分析的主要任務(wù)涉及語義分類問題、信息配對類問題、機器翻譯類問題、結(jié)構(gòu)化信息處理問題和對話類問題。

      語義分類問題是最常見的自然語言處理問題,其目標(biāo)是給特定的一段文字標(biāo)注對應(yīng)的標(biāo)簽,例如文檔主題分類、本文情感分析等實際任務(wù)。

      信息配對類問題的實質(zhì)是根據(jù)特定的配對方式對某一段文字匹配對應(yīng)的文字,例如查詢系統(tǒng)、簡單的問答系統(tǒng)。

      機器翻譯類問題就是通過計算機進(jìn)行翻譯,常見的翻譯工具有谷歌翻譯、百度翻譯、有道翻譯等。

      結(jié)構(gòu)化信息處理問題主要面向自然語言中特定的結(jié)構(gòu)化信息,如詞性標(biāo)注、分詞、命名實體識別、句法分析、自動摘要等任務(wù)。

      對話類問題可分為長對話問題和短對話問題。短對話問題類似于信息配對問題中的問答系統(tǒng),通過對大量問答對話的訓(xùn)練得到合適的回答,從而實現(xiàn)一對一的對話。長對話問題則更為復(fù)雜,要求計算機和人類針對某一特定的場景進(jìn)行系統(tǒng)的交流,并給出符合語境的回答。長對話問題是構(gòu)建對話系統(tǒng)的核心目標(biāo),也是現(xiàn)有技術(shù)尚未突破的難題。

      自然語言處理的主要方法

      基于規(guī)則的自然語言處理

      早在20世紀(jì)50年代,稍晚于第一臺計算機研制成功的時候,研究人員就已經(jīng)開始試圖利用計算機技術(shù)去實現(xiàn)對自然語言的挖掘和處理。最初的自然語言處理是以語法規(guī)則為出發(fā)點,力求將自然語言轉(zhuǎn)化為和語法規(guī)則相匹配的語言單元和結(jié)構(gòu)。

      早期的語法規(guī)則由語言學(xué)家手工實現(xiàn)。隨著高級編程語言的普及,部分計算機領(lǐng)域的學(xué)者試圖通過編譯器等結(jié)構(gòu)化工具,以處理類似高級編程語言的形式對自然語言進(jìn)行概括,試圖增強對語法規(guī)則的描述能力,這些方法在一定程度上減輕了語言學(xué)家編制語法規(guī)則的工作。

      基于規(guī)則的自然語言處理的主要瓶頸在于語言的流動性。一段簡單的自然語言可能涉及到極為復(fù)雜的語法結(jié)構(gòu)。而人們的語言描述是變化的,這給歸納合理全面的語法規(guī)則帶來了極大的困難。更為復(fù)雜的是,許多語言信息來自于常識,如一詞多義等,通過語法規(guī)則實現(xiàn)帶有常識信息的語義理解顯然是十分困難的。

      基于統(tǒng)計的自然語言處理

      20世紀(jì)70年代,基于統(tǒng)計的語言處理方式日趨成為研究的主流。這一時期的代表學(xué)者是Frederick Jelinek 教授[1]?;诮y(tǒng)計的自然語言處理模型從大規(guī)模的原始自然語言語料出發(fā),通過已有的統(tǒng)計學(xué)、數(shù)學(xué)原理,把自然語言處理的任務(wù)轉(zhuǎn)化為概率預(yù)測的問題。簡單來說,一個統(tǒng)計語言模型可以簡單表示為:

      假定自然語言中某個字符只和該字符前面的N–1個字符有關(guān),對于給定的字符串S=(w1,w2,…wn),判定該字符串為自然語言的標(biāo)準(zhǔn)為該字符串符合貝葉斯條件如公式(1)所示。

      通過統(tǒng)計可以得到不同詞出現(xiàn)的概率,因此就可以有效地訓(xùn)練機器學(xué)習(xí)模型,達(dá)到預(yù)測語言標(biāo)簽、辨識語義狀態(tài)和規(guī)律的目的。

      值得一提的是,馬爾科夫模型由于其強大的序列預(yù)測能力,在語音識別領(lǐng)域、機器翻譯領(lǐng)域、結(jié)構(gòu)化語言處理領(lǐng)域(如分詞、拼寫矯正)發(fā)揮了至關(guān)重要的作用,是經(jīng)典統(tǒng)計自然語言處理方法中的一座豐碑[2-3]。

      其他統(tǒng)計分析模型如采用矩陣奇異值分解理論的LSI(Latent Semantic Index)模型,使用狄利克雷概率理論的LDA(Latent Dirichlet Allocation)模型,基于詞頻統(tǒng)計的TF-IDF模型(Term Frequency–Inverse Document Frequency)等都在自然語言處理任務(wù),如主題分類等任務(wù)中取得了令人滿意的效果。其他統(tǒng)計學(xué)工具如主成分分析、互信息、熵等概念也都可以應(yīng)用于自然語言處理領(lǐng)域來提取特征。

      深度學(xué)習(xí)與自然語言處理

      基于深度學(xué)習(xí)的自然語言處理方法是統(tǒng)計自然語言處理方法的一個分支。深度學(xué)習(xí)方法同樣從大規(guī)模的語料出發(fā),用深度神經(jīng)網(wǎng)絡(luò)作為學(xué)習(xí)算法代替經(jīng)典的機器學(xué)習(xí)模型。

      ◆ 深度模型的結(jié)構(gòu)框架

      人工神經(jīng)網(wǎng)絡(luò)模型模擬生物系統(tǒng)中的神經(jīng)認(rèn)知學(xué)習(xí)機制。該模型以節(jié)點為單元,通過動態(tài)訓(xùn)練權(quán)值和偏置的方式模仿神經(jīng)元借助神經(jīng)突觸傳遞信息的過程,以達(dá)到學(xué)習(xí)數(shù)據(jù)內(nèi)部潛在規(guī)律的目的。神經(jīng)網(wǎng)絡(luò)模型的本質(zhì)是一種數(shù)學(xué)模型,經(jīng)過復(fù)雜訓(xùn)練的模型具有較好的分類和預(yù)測功能,能夠針對輸入產(chǎn)生與之匹配的輸出。經(jīng)典的神經(jīng)網(wǎng)絡(luò)有BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)、Hopfield神經(jīng)網(wǎng)絡(luò)等。圖2為基本的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)。

      圖2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

      在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)研究中,人們普遍認(rèn)為有監(jiān)督訓(xùn)練多隱層的神經(jīng)網(wǎng)絡(luò)會產(chǎn)生較大的誤差從而影響訓(xùn)練效果,直到2006年多倫多大學(xué)的Hinton教授提出深度信念網(wǎng)絡(luò)(Deep Belief Networks,DBNs)[4],通過兩階段訓(xùn)練,結(jié)合無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)的訓(xùn)練方式,在機理上使深度網(wǎng)絡(luò)完成機器學(xué)習(xí)任務(wù)成為可能,并極大提升了模型的機器學(xué)習(xí)能力和準(zhǔn)確率。

      有別于經(jīng)典神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),深度神經(jīng)網(wǎng)絡(luò)以多個隱層為特點,構(gòu)建更為復(fù)雜的深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),從而使模型具有更為復(fù)雜的表現(xiàn)能力和強大的學(xué)習(xí)能力。圖3為深度神經(jīng)網(wǎng)絡(luò)示意圖。

      圖3 深度神經(jīng)網(wǎng)絡(luò)示意圖

      圖4 神經(jīng)語言模型

      ◆ 神經(jīng)語言模型與詞向量的表示

      進(jìn)行統(tǒng)計自然語言處理和分析一個很重要的任務(wù)是對語言進(jìn)行向量化表示,進(jìn)而將其作為機器學(xué)習(xí)模型的輸入。傳統(tǒng)自然語言處理方法中用獨熱表示、詞袋模型等結(jié)構(gòu)表示自然語言。

      獨熱表示又叫one-hot表示方法,即構(gòu)建向量,對于語料中出現(xiàn)的每一個詞作為向量的一位。在實際語料中,出現(xiàn)該詞則這一位為1,其他位均為0。詞袋模型(Bag of words)則構(gòu)建語義詞典,在詞向量中以語義詞典中的每個詞作為向量的一位,在實際語料中以該詞出現(xiàn)的次數(shù)作為向量對應(yīng)位的賦值。假定對以下包含兩個文檔的語料進(jìn)行詞袋模型文本表示:

      文檔一:小明/喜歡/玩/足球,小剛/也/喜歡。

      文檔二:小明/也/喜歡/玩/籃球。

      可構(gòu)建的語義詞典為:Dictionary = {1:“小明”,2:“喜歡”,3:“玩”,4:“足球”,5:“小剛”,6:“也”,7:“籃球”}。

      構(gòu)建的語料表示為:

      文檔一:[1,2,1,1,1,1,0]。

      文檔二:[1,1,1,0,0,1,1]。

      相較于獨熱表示的形式,詞袋模型的詞向量更為稠密,但忽視了語序信息。

      神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于自然語言處理始于蒙特利爾大學(xué)的Bengio教授于2003年提出的神經(jīng)語言模型,如圖4所示。這一語言模型在完成一定的自然語言處理任務(wù)的同時,完成了對語義單元的稠密表示。

      圖4中的神經(jīng)網(wǎng)絡(luò)語言模型首先初始化一組向量作為神經(jīng)網(wǎng)絡(luò)的輸入,該網(wǎng)絡(luò)需完成和語義相關(guān)的預(yù)測任務(wù),即在輸出層對目標(biāo)詞進(jìn)行預(yù)測,從而達(dá)到有監(jiān)督訓(xùn)練網(wǎng)絡(luò)的目的[5]。在網(wǎng)絡(luò)訓(xùn)練完畢后,相關(guān)的詞向量也在訓(xùn)練網(wǎng)絡(luò)的同時訓(xùn)練得出。

      在Bengio教授提出神經(jīng)語言模型后,許多深度網(wǎng)絡(luò)結(jié)構(gòu)被用于自然語言處理任務(wù)。如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,Recurrent Neural Networks)在隱含層節(jié)點間增加了鏈接,并可在t時刻對(t–1)時刻乃至(t–n)時刻對t時刻的節(jié)點產(chǎn)生作用。這種循環(huán)結(jié)構(gòu)更符合人腦記憶的形式,從而能更為出色地處理文本領(lǐng)域的序列問題。在RNN基礎(chǔ)上,研究者們進(jìn)一步改良并提出長短記憶模型(LSTM,Long Short-Term Memory)、雙向長短記憶模型Bi-LSTM及門控循環(huán)單元(GRU,Gated Recurrent Unit)等結(jié)構(gòu),設(shè)計了更為精密的循環(huán)神經(jīng)網(wǎng)絡(luò)單元。此外,在圖像領(lǐng)域應(yīng)用極為廣泛的卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional Neural Network)也被有效應(yīng)用于文本分類任務(wù)。

      在深度學(xué)習(xí)模型中,Mikolov提出的Word2vec技術(shù)為主流的文本表示技術(shù)。這一方式沿襲了Bengio提出的神經(jīng)網(wǎng)絡(luò)語言結(jié)構(gòu),通過特定的CBOW模型和Skip-gram模型生成更為稠密的詞向量[6]。這些包含更多語義信息的詞向量可以作為深度網(wǎng)絡(luò)的輸入,使深度網(wǎng)絡(luò)結(jié)構(gòu)更精準(zhǔn)地完成自然語言處理任務(wù)。

      礦冶領(lǐng)域中可能應(yīng)用的自然語言處理

      目前我國的礦冶領(lǐng)域在進(jìn)行產(chǎn)業(yè)升級,有理由認(rèn)為,包含自然語言處理的人工智能技術(shù)能夠有效推動這一進(jìn)程。概括來講,除通用語音服務(wù)外,自然語言處理技術(shù)可應(yīng)用于礦冶領(lǐng)域的知識庫構(gòu)建和知識服務(wù)。

      生產(chǎn)語料知識庫構(gòu)建

      和傳統(tǒng)工業(yè)生產(chǎn)類似,礦冶領(lǐng)域的生產(chǎn)數(shù)據(jù)和生產(chǎn)記錄文檔往往十分復(fù)雜,具有極為豐富的自然語言信息。在復(fù)雜異構(gòu)的領(lǐng)域語料庫中有效抽取信息,同時完成知識推理,是知識工程的核心內(nèi)容?;谧匀徽Z言處理的語義分析及分類、知識表示、信息匹配等技術(shù),可以在復(fù)雜的原始語料中更為有效地抽取知識。例如,選取礦山生產(chǎn)中的技術(shù)說明文檔,應(yīng)用Word2vec模型訓(xùn)練即可得出一組和“廠礦”一詞具有相近向量的詞。這種基于神經(jīng)網(wǎng)絡(luò)模型的自然語言處理技術(shù)可以更為有效地抽象文本知識,并進(jìn)行計算,從而構(gòu)建更為高效合理的知識庫和專家系統(tǒng)。

      自然語言知識服務(wù)

      基于自然語言處理的對話生成和信息表示技術(shù)能夠構(gòu)建更為合理、更具智能并具有一定實時反應(yīng)和決策能力的知識服務(wù)系統(tǒng)。有別于傳統(tǒng)知識服務(wù)系統(tǒng)以半結(jié)構(gòu)化或數(shù)字形式的輸出為主要形式,自然語言知識服務(wù)系統(tǒng)可提供更具人性化、更易理解的知識服務(wù)。

      圖5為一組離散化的礦山浮選生產(chǎn)數(shù)據(jù),圖6則為由這組數(shù)據(jù)得出的一組控制規(guī)則,利用合理的自然語言處理和對話生成技術(shù),可以得出更為精準(zhǔn)和智能的知識服務(wù),如“當(dāng)前原礦品位中等偏下,亞鐵含量偏低,加藥量偏高,在浮選精礦要求中等時,請選用A方案”等。

      圖5 礦山浮選生產(chǎn)數(shù)據(jù)示例

      圖6 礦山浮選生產(chǎn)控制指令示例

      結(jié)束語

      經(jīng)過數(shù)十年的發(fā)展,自然語言處理領(lǐng)域的研究內(nèi)容經(jīng)歷了由規(guī)則到統(tǒng)計的轉(zhuǎn)變。近年來,以深度學(xué)習(xí)為代表的機器學(xué)習(xí)模型在處理復(fù)雜異構(gòu)的自然語言時表現(xiàn)出更為強大的能力,能夠更為精準(zhǔn)地挖掘知識,有效完成信息抽取任務(wù)。自然語言處理技術(shù)可以服務(wù)于礦冶領(lǐng)域的生產(chǎn),能夠協(xié)助領(lǐng)域?qū)<液脱芯咳藛T構(gòu)建更為全面、高效、準(zhǔn)確的知識庫,同時實現(xiàn)更為智能的知識服務(wù)系統(tǒng)。

      猜你喜歡
      語料語義語音
      語言與語義
      魔力語音
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
      認(rèn)知范疇模糊與語義模糊
      《苗防備覽》中的湘西語料
      伊川县| 保定市| 富阳市| 台山市| 海兴县| 阳江市| 晋江市| 西吉县| 拜城县| 通辽市| 响水县| 常宁市| 云林县| 平谷区| 漠河县| 威海市| 金秀| 景洪市| 温宿县| 鹤山市| 绥芬河市| 铜山县| 定西市| 甘肃省| 建水县| 香港| 江门市| 安图县| 徐州市| 五寨县| 临汾市| 瑞丽市| 建始县| 陇西县| 西藏| 老河口市| 井冈山市| 当雄县| 绥中县| 克东县| 扶风县|