• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向自然語言處理的深度學習

    2018-02-25 14:27:38薛亞非
    電子技術與軟件工程 2018年12期
    關鍵詞:自然語言處理機器學習深度學習

    薛亞非

    摘要 近年來,在語音和圖像處理領域中,對于深度學習的研究現(xiàn)已取得突出成就,但在自然語言處理領域中,還尚未取得重大突破?;诖耍恼轮饕獜膶W習定義、應用動機、基本框架等方面入手,對深度學習進行了全方位介紹,同時還對面向自然語言處理的深度學習進行了深入研究。

    【關鍵詞】自然語言處理 深度學習 自動編碼器 神經網絡 機器學習

    所謂“深度學習”,即通過深層神經網絡的建立,對人體大腦機制進行模擬,并分析文本、語音、圖像等數據。在現(xiàn)階段的機器學習研究中,深度學習是一個重點熱議的話題。在傳統(tǒng)機器學習工作中,其質量和效果與輸入特征和人工設計數據息息相關,而機器學習的方法只是對學習權重加以優(yōu)化,從而輸出最優(yōu)學習結果。而深度學習可自動完成特征提取和數據表示工作,并提倡通過學習來提取出不同維度和不同水平的有效表示,從而不斷提升對數據的解釋能力。從認知科學的角度分析,深度學習的思路與人們的學習機理十分契合,本文主要研究了面向自然語言處理的深度學習。

    1 深度學習概述

    1.1 深度結構

    相比于以往的淺層學習,深度學習在具體實踐的過程中,對模型的深度具有較高要求,基本上均要求具備3層以上隱層節(jié)點,甚至是可以達到10層,從而可形成多層非線性映射結構,為復雜函數的逼近提供了便利條件。另外,深度學習十分重視特征學習,通過非監(jiān)督預訓練的方式,改變原始樣本的特征,形成一個全新的特征空間,這種新特征更加有助于預測和分類的實現(xiàn)。另外,生成性預訓練,也可有效防止由于網絡函數表達能力而導致的擬合問題。

    在深度學習中,關于“深度”,其主要是來源于流圖的屬性表示,而流圖可對輸入、輸出過程中涵蓋的相關計算進行表示,經過節(jié)點計算,原始輸入產生的結果,可被作為下一節(jié)點的輸入,以此類推。

    將深度結構作為一種因子分解,隨機狀態(tài)下選取的函數,通常很難通過網絡結構進行表示,但相比于淺層結構。深度結構表示的有效性更高。相關人員預測,在這些不能用淺層結構表示而可以用深層次結構表示的函數中,極有可能存在某種結構,能夠通過深層結構進行泛化表示。

    1.2 應用動機

    將待處理問題中的對象通過特征進行表示,是應用任務的首要工作。在對文本分類進行處理的過程中,人們經常會通過詞結合特征對文檔進行表示和描述,之后通過各種各樣的分類算法完成分類。而在處理圖像任務的過程中,最常見的便是通過像素集合特征的方式來表示圖像,不同的特征對最后的結果也會產生不同的影響。因此,人們在解決實際問題的過程中,選擇恰當、合理的特征至關重要。

    在很多訓練任務中,如本文、圖像、語音等等,以圖像識別為例,圖像的像素是最初的原始輸入,其他的相鄰的像素可以一同構成線條,而由線條的結合又可形成紋理,最后形成圖像。而通過局部的圖像還能構成一個完整的物體。通過整個過程不難看出,淺層特征和原始輸入之間的關聯(lián)和很容易找到,在此前提下,借助中間層的相關特征,能夠獲得高層特征和原始輸入之間的關系。

    以往的機器學習方式,對于特征表示的依賴性較強,自動組織信息和抽取信息的能力較弱,通過人工選擇,雖然能夠借助人類的經驗知識和智慧來彌補這一不足和缺陷,但若想達到深入理解問題的層次,相關研究人員仍需花費大量的時間和精力。而這也在很大程度上限制了機器學習向智能化學習的方向發(fā)展,因此,從能夠觀察到的感官數據中,解釋或者是識別相關特征,逐漸擺脫選擇人工特征的局限性,也逐漸成為了深度學習過程中的重要思想。從某種意義上來看,能夠具備自動化學習功能的學習方式,均可被納入深度學習范疇。

    1.3 首要任務

    對于深度學習而言,其首要任務是找尋一種簡單、便捷的算法,能夠對待解決問題進行分層表示,通過特征的變換.將原始樣本的特征逐漸轉變換到一個全新的特征空間,如此便可更加方便的借助特征,來完成預測和分類任務。由此也凸顯了表示學習和特征學習的重要性,這一思想與傳統(tǒng)的機器學習方式相一致,但差異在于,深度學習可自動的提取特征,但以往的機器學習,對于人工分析的依賴性較強。自動化程度較低。深度學習會學習數據的變換形式,在預測器或者分類器構建的過程中,更加容易獲取價值信息。

    2 面向自然語言處理的深度學習研究及其應用

    在語音和圖像領域中,對于深度學習的研究現(xiàn)己取得顯著成就。但在自然語言處理領域中,還未取得重大進展,不同于圖像,語言產生于人的大腦,經過一系列的加工和處理之后形成符號系統(tǒng),在自然語言領域中,人工神經網絡對人腦結構的模仿具有突出優(yōu)勢,但現(xiàn)實卻并非如此。最近幾十年來,自然語言的處理基本都是以統(tǒng)計模型為主,而人工神經網絡作為一種傳統(tǒng)的統(tǒng)計方式,卻并未在自然語言處理領域中得到相應的重視。

    2.1 深度學習的可用性研究

    2.1.1 特征表示學習需求

    在自然語言處理任務中,首要工作便是對對象的表現(xiàn)形式進行處理,為了能夠更加精準的描述和表示對象,一般會選擇一些特征,如在處理文本的過程中,經常會使用詞集合對文檔進行表示,結合傳統(tǒng)手工方式的抽取特征,不僅浪費時間和精力,且整個過程也比較缺乏嚴謹性,完備性不足。另外,處理領域和處理任務的不同,特征提取也要重復的進行,難以實現(xiàn)共享。而深度學習主要就是為了解決上述問題而產生,即要實現(xiàn)自動化的從數據中獲取特征的目標。

    2.1.2 無監(jiān)督特征和權重學習需求

    目前,很多效果顯著的自然語言處理任務和學習方式,均是比較依賴于標注數據,在此情況下,有監(jiān)督學習方式和標志語料庫逐漸成為重要的主流手段。但在實踐應用過程中,若想從自然語言中大量存在的標注數據中獲取或挖掘價值信息,就一定要提升對無監(jiān)督方法的重視程度。而深度學習便是通過該方式完成了預訓練任務,并提供出了恰當的訓練模型。

    2.1.3 學習多層分類表示需求

    研究表明,大腦結構可輔助人們完成學習,其屬于一種多層的皮質層,不同的皮質層,其所對應的學習表示結構各不相同。表示越抽象,便越能夠交叉支持具體任務處理,因此,一定要充分的利用好學習模型,并要盡可能多的抽取其中的價值表示形式,通過深度學習能夠很好的完成上述目標。

    另外,人類的自然語言具有一定的遞歸屬性。例如,自然語言中的句子,一般是由短語、字詞等共同組成,而深度學習確可為其提供了一種較為便捷的遞歸操作,同時可充分滿足自然語言遞歸組合的實際需求,如遞歸神經網絡。

    2.1.4 硬件及技術支撐平臺

    深度學習機構是由很多的神經網絡節(jié)點共同構成,其在進行預訓練的過程中,一般需要得到高性能計算機的輔助和支持。隨著科學技術的不斷發(fā)展,目前,能夠提供高性能計算機的平臺逐漸成熟,具體如圖像處理單元、多核計算等等。提供算法支持技術也獲得了快速發(fā)展,如Auto-encoders、RBM等等。與此同時,自然語言處理的預演算法和模型也得到了優(yōu)化,其性能得到了顯著改善。隨著軟硬件技術的不斷發(fā)展,均為面向自然語言處理的深度學習研究提供了良好環(huán)境。

    2.2 面向自然語言處理的深度學習研究模型

    若想實現(xiàn)深度學習在自然語言處理領域中的有效應用,首先要解決以下問題,

    (1)應用領域內的原始特征表示;

    (2)要選擇恰當、合理的深度學習算法。

    前者隸屬于數數據表示的范疇,而后者則是隸屬于深度學習結構的范疇,即深度學習模型。例如,在處理圖像的過程中,在選擇原始特征表示時,一般會以圖像像素矩陣為主。而在處理于語音任務的過程中,則通常會優(yōu)先選擇基本語音單位,最為典型的便是音素。同時,還應對深度學習框架加以明確。

    結合上述可知,深度學習的主要任務是特征學習,而從本質上來看,這種學習模型實則是屬于一種基于原始特征的輸入,經過多層非線性處理,對復雜的特征表示方式進行學習。如果能夠與特定的領域任務進行結合,則深度學習一般可借助自動學習的特征表示,對新型分類器進行構建,同時還可自動生成工具,從而完成更多領域的任務。例如,在逐層訓練中,自動編碼器構建屬于最核心、最關鍵的部分,在構建深度學習模型的過程中,自動編碼器發(fā)揮著神經網絡的作用和功能。

    2.2.1 無監(jiān)督構建自動把編碼器

    在確定了原始輸入之后,第一層為訓練模型,在整個模型中扮演著認知結構的角色,可對原始輸入進行編碼,從而形成初級特征。為了對編碼之后特征的等價抽象表示進行驗證,并沒有丟失過多信息,一般情況下會引入一個相對應的解碼器,通過其實現(xiàn)與原始數據輸入的比較驗證,而驗證之后的結果誤差就是代價函數,可將其應用于解碼器和編碼器的訓練中。在達到訓練目標之后,所確定的參數神經網絡編碼器便是第一層模型,由此也可獲取原始數據的抽象表示。完成上述操作之后,需將神經網絡編碼器參數進行固定,將抽象輸入當做輸入,重復上述操作,以此類推,便可獲取第二、三層的模型,直到滿足訓練的要求為止。

    2.2.2 有監(jiān)督訓練分類器

    通過上述操作能夠獲得自動編碼器,且原始輸入信號也有很多表達特征,而這些特征便可用來表示原始輸入信號。但目前,自動編碼器,還不具備分類功能,為了彌補這一缺陷和不足,一般可在自動編碼器的最高層增加分類器。調整參數的方式包括:對最高層分類器參數進行調整;結合標簽樣本,對所有自動編碼器參數進行調整。深度學習模型的存在局部最優(yōu)解,通過逐層初始化的方式,可對深層模型進行調整,使其達最佳優(yōu)解位置,從而為最優(yōu)效果提供保障。而淺層模型對于人工經驗的依賴性較強,而這也是其局限所在,模型自身只是一種預測和分類工具。因此,在淺層模型系統(tǒng)中,模型的好壞并不能起到決定性的作用,選取特征的好壞才是重點。相關人員在對上述問題進行研究的過程中,不僅要全面深刻的了解任務領域的相關問題,同時還需要花費大量的時間和精力對實驗進行反復探索。實質上,逐層初始化模型也是特征學習的過程中,借助隱蔽層,對原始輸入進行抽象表示,并對數據結構進行學習,尋找有效特征,從而不斷提升分類問題的精確性,在得到有效特征之后,也就完成了模型的整體訓練

    面向自然語言處理的深度學習研究,也應重點考慮上述相關問題,在應用領域內的原始特征表示問題上,包括此詞向量空間、向量空間模型、詞貸模型等表示方式。在深度學習算法的問題上,一般要結合語言的實際特征,來選擇一種合理的深度學習模型。人類的自然語言具有一定的遞歸屬性。例如,自然語言中的句子,一般是由短語、字詞等共同組成,因此,這種遞歸屬性也是自然語言所具備的特征。基于該特性的深度學習模型包括卷積神經網絡模型、遞歸神經網絡模型以及循環(huán)神經網絡模型等等。

    綜合衡量了上述問題之后,在自然語言處理領域中的深度學習方式如下:

    (1)在深度學習模型構建過程中,通過原始特征的應用,對端對端系統(tǒng)進行構建,從而逐步完成處理任務。

    (2)在現(xiàn)有模型的基礎上,將完成訓練的原始特征作為輔助特征并進行實踐應用。

    在方法一中,較為奠定的代表是SENNA系統(tǒng),以多層一維卷積神經網絡和向量方法為基礎和前提,逐步完成了命名實體識別、語塊切分、詞性標注等相關工作任務。類似的工作還包括Socher,即以遞歸神經網絡為基礎完成語法分析、情感分析等多項工作。在第二種方法中,較為典型的如Turian,即將詞向量加入最優(yōu)系統(tǒng)中,從而不斷提升短語識別和命名實體識別的精準性和效率性。

    3 結束語

    綜上所述,不同于圖像處理,自然語言分層抽象并不突出,深度學習在自然語言處理領域中所選取的特征表示,目前以Wordembedding機制為主,實踐過程中還存在著一定問題,但總而言之,深度學習為自然語言處理提供了全新的嘗試,可行性較高,如此也使得語言和任務之間的泛化遷移變得更加容易。

    參考文獻

    [1]林奕歐,雷航,李曉瑜等,自然語言處理中的深度學習:方法及應用[J].電子科技大學學報,2017,464: 45-963.

    [2]昝紅英,朱學鋒,面向自然語言處理的漢語虛詞研究與廣義虛詞知識庫構建[J].當代語言學,2014,4265:124-135.

    [3]鞏捷甫,面向語文作文自動評閱的修辭手法識別系統(tǒng)的設計與實現(xiàn)[J].哈爾濱工業(yè)大學,2016,45: 63-362.

    [4]陳致鵬,面向小學生閱讀理解題型的智能解題系統(tǒng)研究與實現(xiàn)[J]哈爾濱工業(yè)大學,2016,74-455.

    [5]郭鵬.深度卷積神經網絡及其在手寫體漢字識別中的應用研究[J],四川師范大學,20164,45: 88-654.

    猜你喜歡
    自然語言處理機器學習深度學習
    基于組合分類算法的源代碼注釋質量評估方法
    MOOC與翻轉課堂融合的深度學習場域建構
    基于機器學習的圖像特征提取技術在圖像版權保護中的應用
    大數據技術在反恐怖主義中的應用展望
    基于網絡搜索數據的平遙旅游客流量預測分析
    時代金融(2016年27期)2016-11-25 17:51:36
    前綴字母為特征在維吾爾語文本情感分類中的研究
    科教導刊(2016年26期)2016-11-15 20:19:33
    深度學習算法應用于巖石圖像處理的可行性研究
    軟件導刊(2016年9期)2016-11-07 22:20:49
    基于深度卷積網絡的人臉年齡分析算法與實現(xiàn)
    軟件工程(2016年8期)2016-10-25 15:47:34
    基于支持向量機的金融數據分析研究
    面向機器人導航的漢語路徑自然語言組塊分析方法研究
    石阡县| 阿尔山市| 铁岭市| 太湖县| 化州市| 瓮安县| 铜梁县| 花垣县| 常熟市| 特克斯县| 大同市| 凤庆县| 亳州市| 乳源| 文山县| 呈贡县| 贵溪市| 任丘市| 云阳县| 调兵山市| 雷波县| 阳曲县| 久治县| 启东市| 长乐市| 嘉善县| 宣恩县| 谷城县| 南川市| 襄垣县| 威海市| 聂荣县| 罗甸县| 涞源县| 麦盖提县| 乐都县| 金阳县| 龙山县| 通山县| 额尔古纳市| 东海县|