• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      學(xué)術(shù)文本結(jié)構(gòu)功能深度學(xué)習(xí)識(shí)別方法的多學(xué)科對(duì)比分析

      2019-02-25 03:14:45李楠方麗張逸飛
      現(xiàn)代情報(bào) 2019年12期
      關(guān)鍵詞:文本分類多學(xué)科深度學(xué)習(xí)

      李楠 方麗 張逸飛

      摘要:[目的/意義]學(xué)術(shù)文本的結(jié)構(gòu)功能識(shí)別可視為多類別文本自動(dòng)分類問(wèn)題,借助深度學(xué)習(xí)技術(shù)能夠獲得良好的自動(dòng)識(shí)別性能,然而目前缺少其在不同學(xué)科適用性的對(duì)比研究。[方法/過(guò)程]選擇醫(yī)學(xué)、圖情、數(shù)據(jù)、出版、經(jīng)濟(jì)5個(gè)學(xué)科方向5種期刊的6 452篇結(jié)構(gòu)式摘要為基礎(chǔ)語(yǔ)料,設(shè)計(jì)并實(shí)現(xiàn)了基于Magpie深度學(xué)習(xí)組件的學(xué)術(shù)文本結(jié)構(gòu)功能識(shí)別實(shí)驗(yàn),通過(guò)對(duì)比分析同一分類模型在不同學(xué)科領(lǐng)域?qū)嶒?yàn)語(yǔ)料上的性能表現(xiàn)及其影響因素,揭示機(jī)器學(xué)習(xí)方法的學(xué)科適用性規(guī)律。[結(jié)果/結(jié)論]實(shí)驗(yàn)結(jié)果顯示,學(xué)科差異性對(duì)于機(jī)器學(xué)習(xí)效果有顯著的影響,其中醫(yī)學(xué)領(lǐng)域?qū)W術(shù)文本的結(jié)構(gòu)功能識(shí)別效率明顯高于其他學(xué)科,常見(jiàn)的學(xué)術(shù)文本功能結(jié)構(gòu)框架中“方法”和“結(jié)果”的機(jī)器學(xué)習(xí)識(shí)別效果更佳。

      關(guān)鍵詞:文本結(jié)構(gòu)功能識(shí)別;深度學(xué)習(xí);多學(xué)科;文本分類;Magpie

      DOl: 10.3969/j .issn .1008 -0821 .2019 .12 .007

      [中圖分類號(hào)] G203 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1008-0821( 2019) 12-0055-09

      學(xué)術(shù)文本的結(jié)構(gòu)功能是對(duì)學(xué)術(shù)文獻(xiàn)的結(jié)構(gòu)和章節(jié)功能的描述與概括[1],通常研究性論文的結(jié)構(gòu)可以根據(jù)IMRaD模型的定義劃分為“目的”、“方法”、“結(jié)果”和“結(jié)論”等部分[2],這種結(jié)構(gòu)化的功能劃分能夠更加清晰地展示學(xué)術(shù)文獻(xiàn)的語(yǔ)義構(gòu)成,便于更細(xì)粒度的知識(shí)檢索、挖掘與發(fā)現(xiàn),因而在圖書(shū)情報(bào)及信息科學(xué)領(lǐng)域,學(xué)術(shù)文本的結(jié)構(gòu)功能識(shí)別成為學(xué)術(shù)文獻(xiàn)知識(shí)挖掘的重要研究?jī)?nèi)容之一。而隨著機(jī)器學(xué)習(xí)技術(shù)的興起,基于傳統(tǒng)的條件隨機(jī)場(chǎng)(CRF)、支持向量機(jī)(SVM)等機(jī)器學(xué)習(xí)模型的自動(dòng)識(shí)別方法獲得了良好的實(shí)驗(yàn)性能,識(shí)別準(zhǔn)確率可達(dá)到70% - 80%[ 1.3-4]。尤其是近年來(lái),深度學(xué)習(xí)領(lǐng)域的技術(shù)突破使得自然語(yǔ)言處理能力得到極大提升,文本結(jié)構(gòu)功能識(shí)別的效果獲得了更深層次地優(yōu)化,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)( LSTM)等深度學(xué)習(xí)模型的最優(yōu)識(shí)別效果可接近或超過(guò)90%[ 5-6]。

      然而,在數(shù)據(jù)的復(fù)雜性和規(guī)模化效應(yīng)的影響下,深度學(xué)習(xí)等機(jī)器學(xué)習(xí)方法的應(yīng)用研究同樣面臨諸多值得深入探討的現(xiàn)實(shí)問(wèn)題,不同應(yīng)用情境下機(jī)器學(xué)習(xí)方法的適用性問(wèn)題就是其中之一?;跈C(jī)器學(xué)習(xí)的文本結(jié)構(gòu)功能識(shí)別問(wèn)題本質(zhì)上是基于文本的語(yǔ)法及語(yǔ)義特征實(shí)現(xiàn)的自動(dòng)處理過(guò)程,因此,識(shí)別性能依賴機(jī)器學(xué)習(xí)模型對(duì)于文本特征的提取和訓(xùn)練學(xué)習(xí)效果。而學(xué)術(shù)文本不同于一般的開(kāi)放域文本,學(xué)術(shù)研究的科學(xué)范式導(dǎo)致了學(xué)術(shù)文獻(xiàn)在科學(xué)陳述邏輯、語(yǔ)言表達(dá)方式、語(yǔ)義結(jié)構(gòu)功能等方面具有規(guī)律性的同時(shí)也存在一定差異,從而使得學(xué)術(shù)文本具有鮮明的學(xué)科特征。機(jī)器學(xué)習(xí)模型能否實(shí)現(xiàn)對(duì)特定應(yīng)用情境下文本語(yǔ)法及語(yǔ)義特征的提取則直接影響著實(shí)際的應(yīng)用效果。目前,大多數(shù)研究主要集中于各類機(jī)器學(xué)習(xí)模型的運(yùn)行性能與應(yīng)用效果[7-8],卻少有學(xué)者從學(xué)科差異的視角探討學(xué)術(shù)語(yǔ)境下機(jī)器學(xué)習(xí)方法的適用性。針對(duì)上述情況,本文選取不同學(xué)科、具有不同語(yǔ)義結(jié)構(gòu)的學(xué)術(shù)文本建立深度學(xué)習(xí)實(shí)驗(yàn)環(huán)境,通過(guò)對(duì)實(shí)驗(yàn)結(jié)果的對(duì)比分析,評(píng)估機(jī)器學(xué)習(xí)模型在不同學(xué)科的運(yùn)行表現(xiàn)。本研究不僅為驗(yàn)證深度學(xué)習(xí)模型在語(yǔ)義結(jié)構(gòu)功能識(shí)別應(yīng)用上的性能狀況提供第一手的實(shí)證資料,而且為深度學(xué)習(xí)方法在不同學(xué)科背景下的應(yīng)用提供有價(jià)值的參考建議。

      1 文本結(jié)構(gòu)功能識(shí)別相關(guān)研究

      學(xué)術(shù)文本的內(nèi)容結(jié)構(gòu)具有一定的規(guī)律性,語(yǔ)句、段落或章節(jié)等不同的結(jié)構(gòu)單元承擔(dān)相應(yīng)的語(yǔ)義功能,例如:特定語(yǔ)句陳述研究的目的或意義,特定段落描述研究方法,特定章節(jié)給出實(shí)驗(yàn)結(jié)果等。因而,學(xué)術(shù)文本的結(jié)構(gòu)功能識(shí)別問(wèn)題從機(jī)器學(xué)習(xí)的視角可視為一種文本自動(dòng)分類任務(wù),即在學(xué)術(shù)文獻(xiàn)的結(jié)構(gòu)框架下,對(duì)句子、段落或章節(jié)等不同層次的文本單元進(jìn)行語(yǔ)義功能的分類預(yù)測(cè),實(shí)現(xiàn)結(jié)構(gòu)功能語(yǔ)義標(biāo)簽的自動(dòng)標(biāo)注。目前相關(guān)研究根據(jù)結(jié)構(gòu)框架的不同主要分為兩類:

      一是對(duì)標(biāo)題、摘要、章節(jié)、圖表、公式等邏輯結(jié)構(gòu)層次的自動(dòng)識(shí)別,結(jié)構(gòu)功能識(shí)別的主要對(duì)象是學(xué)術(shù)文本內(nèi)容中包含的顯性知識(shí)單元。例如LuongMT等采用條件隨機(jī)場(chǎng)(CRF)方法實(shí)現(xiàn)文獻(xiàn)中標(biāo)題、作者、摘要、圖表等邏輯結(jié)構(gòu)的識(shí)別[9],Tu-arob S等則是采用支持向量機(jī)(SVM)和樸素貝葉斯(NBC)模型對(duì)學(xué)術(shù)文獻(xiàn)的章節(jié)邊界進(jìn)行劃分[10],Constantin A等提出了一種解析PDF文檔結(jié)構(gòu)的技術(shù)方案,實(shí)現(xiàn)了從PDF格式的學(xué)術(shù)文獻(xiàn)中獲取邏輯機(jī)構(gòu)并實(shí)現(xiàn)XML規(guī)范化描述的工具,實(shí)現(xiàn)了對(duì)標(biāo)題、作者、參考文獻(xiàn)等結(jié)構(gòu)的識(shí)別[11]。而國(guó)內(nèi)相關(guān)研究也取得了進(jìn)展,黃永等同樣以支持向量機(jī)為分類器引入詞匯聚類特征實(shí)現(xiàn)章節(jié)結(jié)構(gòu)的識(shí)別[4]。

      二是對(duì)文本內(nèi)容的功能性結(jié)構(gòu)層次的自動(dòng)識(shí)別,例如IMRaD模型定義的“四項(xiàng)式”功能結(jié)構(gòu),并不一定與文本的語(yǔ)句、段落或章節(jié)等邏輯結(jié)構(gòu)逐一對(duì)應(yīng),對(duì)學(xué)術(shù)文本中的語(yǔ)句、段落或章節(jié)等不同層次的單元根據(jù)不同的文本功能結(jié)構(gòu)進(jìn)行分類標(biāo)識(shí),是近年來(lái)研究的重點(diǎn),也是本文關(guān)注的研究?jī)?nèi)容。目前,常用的學(xué)術(shù)文本功能結(jié)構(gòu)框架除了廣泛采用的IMRaD模型,還有根據(jù)特定領(lǐng)域的學(xué)科特點(diǎn)或論文體裁需求而定義的不同結(jié)構(gòu)模型,比如早期臨床類論文采用的“八項(xiàng)式”結(jié)構(gòu),包含目的、設(shè)計(jì)、研究單位、研究對(duì)象、處理方法、測(cè)定、主要結(jié)果和結(jié)論等要素,后經(jīng)改進(jìn)后稱為Haynes -Huth結(jié)構(gòu)[12];根據(jù)循證醫(yī)學(xué)的臨床指南,生物醫(yī)學(xué)領(lǐng)域通常遵循PICO“四項(xiàng)式”結(jié)構(gòu),包含研究樣本、臨床干預(yù)、對(duì)照、干預(yù)的影響或結(jié)果,以便明確體現(xiàn)臨床醫(yī)學(xué)涉及的主要信息內(nèi)容[13];在社會(huì)科學(xué)領(lǐng)域也有采用背景、目的、方法、結(jié)果、結(jié)論和評(píng)述等“六項(xiàng)式”結(jié)構(gòu);針對(duì)綜述型論文提出的包括目的、資料來(lái)源、研究選擇、資料提取、資料綜合、結(jié)論等的“六項(xiàng)式”結(jié)構(gòu)。上述功能結(jié)構(gòu)框架已在不同領(lǐng)域文獻(xiàn)的結(jié)構(gòu)式摘要中得到采用,而在文本結(jié)構(gòu)功能識(shí)別研究中,功能結(jié)構(gòu)框架仍然以IMRaD為主。

      在實(shí)現(xiàn)方法上,除了傳統(tǒng)的CRF、SVM分類模型以及多種分類模型的融合改進(jìn)以外,近年來(lái)深度學(xué)習(xí)模型的應(yīng)用逐漸深入,以卷積神經(jīng)網(wǎng)絡(luò)( CNN)、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)為代表的深度學(xué)習(xí)模型,以及在此基礎(chǔ)上創(chuàng)新的長(zhǎng)短期記憶網(wǎng)絡(luò)( LSTM)、LSTM - CRF、CNN -CRF等模型層出不窮,學(xué)者們圍繞不同分類模型在文本結(jié)構(gòu)功能識(shí)別中的應(yīng)用展開(kāi)研究。筆者從調(diào)研文獻(xiàn)中選取了近年來(lái)發(fā)表的5種代表性方法,對(duì)其研究對(duì)象、功能結(jié)構(gòu)、分類模型等進(jìn)行了對(duì)比,如表1所示,現(xiàn)有研究主要從機(jī)器學(xué)習(xí)方法有效性的視角更多地關(guān)注不同分類模型(分類器)在單一數(shù)據(jù)集上的實(shí)驗(yàn)性能,包括不同分類模型的整體和單類別識(shí)別性能、方法的執(zhí)行效率、分類參數(shù)的最優(yōu)設(shè)置等。其中,前3項(xiàng)研究采用傳統(tǒng)的機(jī)器學(xué)習(xí)模型,后兩項(xiàng)則采用深度學(xué)習(xí)模型,性能對(duì)比結(jié)果顯示深度學(xué)習(xí)模型的實(shí)驗(yàn)性能整體高于傳統(tǒng)模型,但由于現(xiàn)有研究針對(duì)不同學(xué)科領(lǐng)域的學(xué)術(shù)文本展開(kāi),樣本的語(yǔ)種、規(guī)模、學(xué)科領(lǐng)域、功能結(jié)構(gòu)都存在差異,因此無(wú)法直接對(duì)比分析其性能差異的影響因素?;谏鲜龇治?,本文重點(diǎn)關(guān)注特定分類模型在不同實(shí)驗(yàn)條件下的性能表現(xiàn),以探索機(jī)器學(xué)習(xí)模型實(shí)際應(yīng)用性能的深層規(guī)律。

      2 基于深度學(xué)習(xí)的學(xué)術(shù)文本語(yǔ)義結(jié)構(gòu)功能識(shí)別實(shí)驗(yàn)

      2.1 數(shù)據(jù)準(zhǔn)備

      結(jié)構(gòu)式摘要是近年來(lái)在部分學(xué)科領(lǐng)域推廣使用的摘要撰寫(xiě)方式,倡導(dǎo)作者根據(jù)研究要素構(gòu)成提供結(jié)構(gòu)化的簡(jiǎn)要內(nèi)容陳述,據(jù)統(tǒng)計(jì)ESI高被引期刊中提供結(jié)構(gòu)式摘要的期刊總體占比14.4%,而生物醫(yī)學(xué)領(lǐng)域采用結(jié)構(gòu)式摘要的期刊占比達(dá)到29.2%[15]。盡管結(jié)構(gòu)式摘要并未覆蓋所有學(xué)科領(lǐng)域,但這種自帶功能結(jié)構(gòu)標(biāo)簽的摘要文本,對(duì)于開(kāi)展有監(jiān)督機(jī)器學(xué)習(xí)提供了極大的便利,因而成為眾多學(xué)者選擇的理想實(shí)驗(yàn)語(yǔ)料。

      為了保證語(yǔ)料的選取滿足多學(xué)科對(duì)比研究的實(shí)驗(yàn)需求,筆者通過(guò)對(duì)中國(guó)知網(wǎng)( CNKI)收錄期刊的摘要文本結(jié)構(gòu)化程度、摘要語(yǔ)義結(jié)構(gòu)、所屬學(xué)科分類、文獻(xiàn)量等方面進(jìn)行調(diào)研,從5個(gè)不同的學(xué)科分支分別選擇一種代表性期刊,以5種期刊上提供結(jié)構(gòu)式摘要的刊載論文摘要文本作為實(shí)驗(yàn)數(shù)據(jù)。其中,醫(yī)藥、衛(wèi)生類選取了國(guó)內(nèi)最早引進(jìn)結(jié)構(gòu)式摘要并構(gòu)建了生物醫(yī)學(xué)領(lǐng)域“四項(xiàng)式”摘要結(jié)構(gòu)化模型的《新鄉(xiāng)醫(yī)學(xué)院學(xué)報(bào)》[16],傳統(tǒng)的圖情類期刊《圖書(shū)情報(bào)工作》和《數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)》則根據(jù)其發(fā)文所屬的中圖分類分布,將兩個(gè)期刊分別作為圖書(shū)館學(xué)、圖書(shū)館事業(yè)類( G25)和信息處理、信息加工類( TP391)的代表期刊,而針對(duì)目前提供結(jié)構(gòu)式摘要的經(jīng)濟(jì)類期刊較少的情況,選擇了同時(shí)被CSSCI和北大核心期刊收錄的《數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究》作為經(jīng)濟(jì)類實(shí)驗(yàn)語(yǔ)料。實(shí)驗(yàn)數(shù)據(jù)集詳情如表2所示。

      考慮到實(shí)驗(yàn)數(shù)據(jù)規(guī)模平衡性,除《新鄉(xiāng)醫(yī)學(xué)院學(xué)報(bào)》只選取了10年數(shù)據(jù)外,其他期刊數(shù)據(jù)的起始年份均是從提供結(jié)構(gòu)式摘要的卷期年份開(kāi)始截止至檢索日期(2019年6月)。然后,對(duì)獲取的文本數(shù)據(jù)進(jìn)行預(yù)處理,包括過(guò)濾非研究論文數(shù)據(jù)、對(duì)摘要文本進(jìn)行語(yǔ)句切分等,經(jīng)過(guò)預(yù)處理共獲得符合要求的學(xué)術(shù)文本摘要6 452篇,帶語(yǔ)義標(biāo)簽的學(xué)術(shù)文本語(yǔ)句32 160條記錄,數(shù)據(jù)的訓(xùn)練測(cè)試比為9:1(摘要文本語(yǔ)料示例見(jiàn)圖1)。

      2.2 工具選取與實(shí)驗(yàn)步驟

      實(shí)驗(yàn)采用開(kāi)源深度學(xué)習(xí)組件Magpie[17]作為基礎(chǔ)工具實(shí)現(xiàn)學(xué)術(shù)期刊摘要文本的功能結(jié)構(gòu)識(shí)別實(shí)驗(yàn),解決多學(xué)科不同期刊不同功能結(jié)構(gòu)框架下的多類別分類問(wèn)題( Multi-class Classification)。Magpie最初用于實(shí)現(xiàn)高等物理領(lǐng)域文獻(xiàn)摘要的主題分類標(biāo)引,后被改進(jìn)并封裝后成為一種實(shí)現(xiàn)大規(guī)模訓(xùn)練語(yǔ)料基礎(chǔ)上的文本分類通用工具。目前,Magpie采用的基礎(chǔ)模型參考了先后由Kim y[18]和Berger MJ[19]提出的基于CNN的文本分類模型。封裝后的Magpie在Word2Vec實(shí)現(xiàn)的詞向量化基礎(chǔ)上,通過(guò)SciKit Leam進(jìn)行數(shù)據(jù)集的標(biāo)準(zhǔn)化處理,然后利用Keras神經(jīng)網(wǎng)絡(luò)API實(shí)現(xiàn)深度學(xué)習(xí)完成分類任務(wù),基本原理如圖2所示。

      為科學(xué)全面地評(píng)估機(jī)器學(xué)習(xí)方法的適用性,實(shí)驗(yàn)根據(jù)5種期刊所屬的中圖分類(見(jiàn)2.1節(jié)表2)將樣本語(yǔ)料分為5組,下文簡(jiǎn)稱“醫(yī)學(xué)”、“圖情”、“數(shù)據(jù)”、“出版”、“經(jīng)濟(jì)”,從學(xué)科差別、功能結(jié)構(gòu)、樣本規(guī)模等多種角度,觀察5組數(shù)據(jù)的分類性能差異,分析機(jī)器學(xué)習(xí)的影響因素及變化規(guī)律。具體步驟如下:首先,將實(shí)驗(yàn)數(shù)據(jù)通過(guò)分詞處理后利用Word2Vec算法構(gòu)建各獨(dú)立語(yǔ)句文本的詞向量( Word_Vector);然后,在對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理( Scaler)后調(diào)用Mapgie組件開(kāi)展機(jī)器學(xué)習(xí);最后,生成相應(yīng)的機(jī)器學(xué)習(xí)模型( Model. h5),并應(yīng)用于測(cè)試語(yǔ)料的自動(dòng)分類。部分示例代碼如下:

      magpie= Magpie(

      keras_model='../magpie_result/20_0.1 _li/mod-e1.h5 '.

      word2vec_ model='../magpie _result/20 _0.1 _li/embeddings ',

      scaler='../magpie_result/20_0. l_li/scaler ',

      labels=[' purpose',' method',' result',' limita-tion ', 'application',valuation])

      #調(diào)用Magpie機(jī)器學(xué)習(xí)模型及語(yǔ)義標(biāo)注集

      for index in df_test_data.index:

      test—sentence= df—test—data. loc[ index,”sen-tence”]

      test_sentence= jieba. cut( test _sentence, cut_all=False.HMM =True)

      test—sentence=””.join( test_sentence)

      #測(cè)試語(yǔ)句切分及預(yù)處理

      temp= magpie.predict_from_text( test_sentence)

      #應(yīng)用Magpie進(jìn)行分類預(yù)測(cè)

      2.3 性能評(píng)價(jià)方法

      目前對(duì)于文本分類實(shí)驗(yàn)的測(cè)評(píng)主要有如下指標(biāo):精確率( Precision)、召回率(Recall)以及調(diào)和均值( F-Score),可以單獨(dú)評(píng)價(jià)不同分類的局部預(yù)測(cè)性能,并通過(guò)均值計(jì)算表達(dá)整體性能。為方便對(duì)比分析,本實(shí)驗(yàn)對(duì)混淆矩陣進(jìn)行了P、R和F值列的擴(kuò)展。具體混淆矩陣及其計(jì)算公式如下:

      其中混淆矩陣中Ci表示分類,行代表真實(shí)值即摘要文本中自帶的分類標(biāo)簽,列代表預(yù)測(cè)值即機(jī)器學(xué)習(xí)的分類預(yù)測(cè)結(jié)果,矩陣元素Xij表示真實(shí)值為Ci的文本被預(yù)測(cè)為Cj的類別數(shù),各分類的準(zhǔn)確率Pi根據(jù)預(yù)測(cè)值對(duì)應(yīng)的列元素進(jìn)行計(jì)算,召回率Ri根據(jù)真實(shí)值對(duì)應(yīng)的行元素進(jìn)行計(jì)算,整體準(zhǔn)確率和召回率根據(jù)均值計(jì)算。計(jì)算公式如下:

      3 實(shí)驗(yàn)結(jié)果分析

      3.1 不同學(xué)科的文本結(jié)構(gòu)功能識(shí)別效果初步分析

      實(shí)驗(yàn)選擇Python3.6開(kāi)發(fā)環(huán)境并調(diào)用Mag-piel.0,設(shè)置訓(xùn)練語(yǔ)料中10%的數(shù)據(jù)作為機(jī)器學(xué)習(xí)效果的測(cè)試數(shù)據(jù)(即Test_ratio=0.1),文本的詞向量維度設(shè)置為300(即vec_dim= 300),學(xué)習(xí)迭代次數(shù)設(shè)置為20(即Epochs= 20)。對(duì)5個(gè)學(xué)科的語(yǔ)句級(jí)文本數(shù)據(jù)進(jìn)行標(biāo)注實(shí)驗(yàn)結(jié)果如下:

      通過(guò)上述同參數(shù)對(duì)比實(shí)驗(yàn)可以發(fā)現(xiàn):醫(yī)學(xué)類文獻(xiàn)摘要文本的語(yǔ)義結(jié)構(gòu)功能自動(dòng)識(shí)別效果最優(yōu),其次是圖情和經(jīng)濟(jì)類摘要文本,識(shí)別效果較差的為數(shù)據(jù)類和出版類摘要文本。其中,醫(yī)學(xué)類文本較其他4個(gè)學(xué)科的語(yǔ)義結(jié)構(gòu)識(shí)別正確率有明顯優(yōu)勢(shì)。結(jié)合表5-7的混淆矩陣顯示,醫(yī)學(xué)類表征分類器整體性能的F值分布在0. 8619 -0.9105之間,各分類的性能表現(xiàn)都接近或優(yōu)于90%;而在其他學(xué)科,比如圖情和出版類文本上整體F值分別僅有0. 683和0. 5949,表明相同的分類模型在不同學(xué)科文本中性能差異明顯。

      究其原因,醫(yī)學(xué)類文本在語(yǔ)言形式表達(dá)上具有明顯的規(guī)律性,使得各分類都有顯著的排他性特征。例如,對(duì)醫(yī)學(xué)類文本的句式進(jìn)行歸納總結(jié)可以發(fā)現(xiàn)其句式具有特定規(guī)律,以“目的”類樣本為例,491條分類正確的樣本中,以“探討/探尋/探索…” (286條)、 “了解/考察/觀察…” (106條)、“研究…”(37條)、“分析/比較…”(32條)、“評(píng)價(jià)/總結(jié)…”(19條)為代表句型,共計(jì)480條,占該分類樣本總數(shù)的98%。而在其他4個(gè)學(xué)科,這種句式表達(dá)的規(guī)律性相對(duì)不顯著。

      除了句式特征,只出現(xiàn)在某一類樣本中的高頻詞往往在分類等機(jī)器處理的過(guò)程中作為基本特征具有很高的區(qū)分度,將這種具有高區(qū)分度的高頻詞(常為學(xué)科術(shù)語(yǔ))其稱為類別的專有高頻詞,據(jù)此對(duì)實(shí)驗(yàn)文本進(jìn)行高頻詞分析,統(tǒng)計(jì)結(jié)果同樣呈現(xiàn)出規(guī)律性。如表8所示醫(yī)學(xué)和圖情類語(yǔ)料專有高頻詞數(shù)量分布相對(duì)突出,醫(yī)學(xué)詞頻高于60的43個(gè)高頻詞中專有高頻詞有29個(gè),占比67%,詞頻高于50的高頻詞集合中專有高頻詞占比甚至達(dá)到75%,相較而言圖情類文本表現(xiàn)稍弱,詞頻高于50的高頻詞集合中專有高頻詞占比最高,達(dá)到67.6%;而出版、數(shù)據(jù)和經(jīng)濟(jì)類語(yǔ)料整體上高頻詞相對(duì)較少,詞頻超過(guò)20的高頻詞分別僅有32、29、10個(gè),專有高頻詞數(shù)量極少。而從詞頻均值來(lái)看,醫(yī)學(xué)類表現(xiàn)強(qiáng)勢(shì),高頻詞的詞頻均值遠(yuǎn)超其他類別,盡管出版類語(yǔ)料的詞頻均值也出現(xiàn)了40以上的較高數(shù)值,但高頻詞數(shù)量的限制使得出版類語(yǔ)料的文本特征區(qū)分度仍然較弱。從專有高頻詞與詞頻均值的分析結(jié)果來(lái)看,其特征規(guī)律也與實(shí)驗(yàn)結(jié)果保持一致。雖然除醫(yī)學(xué)和圖情類外其他3類語(yǔ)料識(shí)別效果偏低的情況,一定程度上可能受這3類語(yǔ)料的樣本規(guī)模的影響,但筆者認(rèn)為其數(shù)據(jù)統(tǒng)計(jì)結(jié)果呈現(xiàn)的規(guī)律一定程度上也反映出學(xué)科本身的術(shù)語(yǔ)專指度水平也是機(jī)器學(xué)習(xí)效果學(xué)科差異化產(chǎn)生的實(shí)質(zhì)影響因素。

      3.2 不同結(jié)構(gòu)框架下學(xué)術(shù)文本結(jié)構(gòu)功能識(shí)別效果深度分析

      為了進(jìn)一步探究學(xué)科文本特征差異產(chǎn)生的原因,實(shí)驗(yàn)對(duì)不同功能結(jié)構(gòu)框架下各分類的識(shí)別性能分別進(jìn)行了對(duì)比分析。在5組樣本數(shù)據(jù)中,醫(yī)學(xué)和出版兩類文本的功能結(jié)構(gòu)完全相同,但其他3類文本也都包含了目的(研究目標(biāo))、方法(過(guò)程/方法、研究方法)、結(jié)果(研究發(fā)現(xiàn))等常用功能結(jié)構(gòu),根據(jù)期刊實(shí)際要求而略有不同。而對(duì)照不同功能結(jié)構(gòu)的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)在各個(gè)學(xué)科不同分類之間的識(shí)別性能各異,縱向比較并沒(méi)有明顯的共同規(guī)律。醫(yī)學(xué)類整體準(zhǔn)確率都在90%左右,尤其是“目的”和“結(jié)果”類的識(shí)別準(zhǔn)確率高于90%,而出版和圖情類文本的識(shí)別準(zhǔn)確率最高值出現(xiàn)在“方法”類,經(jīng)濟(jì)和數(shù)據(jù)類的識(shí)別準(zhǔn)確率最高值分別出現(xiàn)在“研究?jī)r(jià)值”和“局限”類。

      而從橫向比較來(lái)看,在“方法”和“結(jié)果”類的識(shí)別召回率上各個(gè)學(xué)科的表現(xiàn)趨勢(shì)是基本一致的,醫(yī)學(xué)類文本的“方法”類識(shí)別召回率達(dá)到全局最優(yōu)的94.43%,經(jīng)濟(jì)類文本的“研究發(fā)現(xiàn)”類召回率達(dá)到91.89%,其他學(xué)科的“方法”或“結(jié)果”類召回率均為學(xué)科內(nèi)最優(yōu),這一現(xiàn)象說(shuō)明了這兩類文本的機(jī)器學(xué)習(xí)特征分類辨識(shí)度較高,而體現(xiàn)在F值上也具有同樣的規(guī)律。不同功能結(jié)構(gòu)的分類可辨識(shí)度具有一定差異,對(duì)于機(jī)器學(xué)習(xí)的效果有一定程度的影響。

      結(jié)合詞頻分析對(duì)各分類專有高頻詞進(jìn)行單獨(dú)統(tǒng)計(jì)也可以發(fā)現(xiàn),在醫(yī)學(xué)類文本中專有高頻詞的分布相對(duì)均衡,每個(gè)分類基本都有一定數(shù)量的專有高頻詞且詞頻相對(duì)較高,而在圖情類文本中專有高頻詞分布逐步向“方法/過(guò)程”類傾斜,在出版類文本中排名前15位的專有高頻詞就只在“方法”類中出現(xiàn)了,這一分布特點(diǎn)進(jìn)一步印證了不同功能結(jié)構(gòu)分類的可辨識(shí)度差異的存在。綜合實(shí)驗(yàn)結(jié)果證明在功能結(jié)構(gòu)中“方法”和“結(jié)果”類事實(shí)描述的學(xué)術(shù)性內(nèi)容具有更高的可辨識(shí)度,除了醫(yī)學(xué)領(lǐng)域,其他學(xué)科的“目的”、“結(jié)論”等思辨性較強(qiáng)的闡述性內(nèi)容則在機(jī)器學(xué)習(xí)過(guò)程中呈現(xiàn)較低的識(shí)別效果。

      4 總結(jié)

      本文創(chuàng)新性地從多學(xué)科對(duì)比分析的視角考量深度學(xué)習(xí)方法在學(xué)術(shù)文本結(jié)構(gòu)功能識(shí)別中的應(yīng)用效果,在相同分類模型的基礎(chǔ)上對(duì)不同學(xué)科文本的整體識(shí)別效果、各分類的局部識(shí)別性能以及不同學(xué)科文本的統(tǒng)計(jì)特征等進(jìn)行對(duì)比研究。從實(shí)驗(yàn)結(jié)果來(lái)看,深度學(xué)習(xí)模型在文本結(jié)構(gòu)功能識(shí)別中的應(yīng)用效果毫無(wú)疑問(wèn)高于傳統(tǒng)的機(jī)器學(xué)習(xí)模型,本文的實(shí)驗(yàn)數(shù)據(jù)并未進(jìn)行過(guò)多的數(shù)據(jù)篩選及模型優(yōu)化,獲得的實(shí)驗(yàn)結(jié)果已經(jīng)超過(guò)部分調(diào)研的相關(guān)研究成果,再次證明了深度學(xué)習(xí)策略優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)方法中的機(jī)器學(xué)習(xí)特征建模策略,依靠神經(jīng)網(wǎng)絡(luò)的迭代計(jì)算與自學(xué)習(xí)來(lái)實(shí)現(xiàn)對(duì)特征的提取與模型構(gòu)建,在以自然語(yǔ)言處理為基礎(chǔ)的研究中具有很好的適用性。更重要的是,實(shí)驗(yàn)研究的結(jié)果證明了學(xué)科差異性對(duì)學(xué)術(shù)文本結(jié)構(gòu)功能識(shí)別效果的影響是不可忽視的,而學(xué)術(shù)文本的句式、高頻詞等規(guī)律性特征是出現(xiàn)這種學(xué)科差異性的重要原因。因此,在當(dāng)前大數(shù)據(jù)研究不斷深入,大量研究依靠數(shù)據(jù)規(guī)?;幚硪蕴嵘龣C(jī)器學(xué)習(xí)效率的同時(shí),我們應(yīng)當(dāng)充分考慮學(xué)科差異化帶來(lái)的影響,不應(yīng)該盲目構(gòu)建跨學(xué)科大規(guī)模應(yīng)用數(shù)據(jù)集合,而需要充分融人數(shù)據(jù)的學(xué)科特征,包括文本的語(yǔ)言表達(dá)特點(diǎn)、語(yǔ)義結(jié)構(gòu)差異、學(xué)科術(shù)語(yǔ)專指度等,在形成合理的跨學(xué)科數(shù)據(jù)集成框架后再考慮多學(xué)科數(shù)據(jù)的融合與集成應(yīng)用。由于本次實(shí)驗(yàn)選取的各學(xué)科樣本規(guī)模并不均衡,部分學(xué)科樣本量偏小,一定程度上會(huì)對(duì)實(shí)驗(yàn)結(jié)果的有效性產(chǎn)生一定影響,因此擬在后續(xù)研究中進(jìn)一步擴(kuò)大數(shù)據(jù)規(guī)模及學(xué)科覆蓋面,一方面更深層次、更全面地衡量機(jī)器學(xué)習(xí)的性能和泛化能力,實(shí)現(xiàn)更準(zhǔn)確地學(xué)科差異化的影響評(píng)估;另外一方面也可以從深度學(xué)習(xí)的技術(shù)視角,進(jìn)一步探索在不同學(xué)科語(yǔ)境下深度學(xué)習(xí)方法在條件設(shè)置、參數(shù)選取等方面是否也具有學(xué)科差異化表現(xiàn)等一系列問(wèn)題。

      猜你喜歡
      文本分類多學(xué)科深度學(xué)習(xí)
      基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
      基于貝葉斯分類器的中文文本分類
      關(guān)于新能源科學(xué)與工程專業(yè)培養(yǎng)方案思考
      科技視界(2016年26期)2016-12-17 17:02:53
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      多學(xué)科視野中幼兒園教育“小學(xué)化”現(xiàn)象透視
      基于蟻群智能算法的研究文本分類
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
      科技視界(2016年24期)2016-10-11 09:36:57
      东平县| 哈尔滨市| 阿瓦提县| 曲麻莱县| 苗栗县| 崇仁县| 文登市| 河曲县| 安化县| 永城市| 道孚县| 安龙县| 铁力市| 玉屏| 台南县| 冕宁县| 呼玛县| 米林县| 民和| 疏附县| 衡阳市| 长治市| 宿松县| 南靖县| 曲松县| 同心县| 芮城县| 弋阳县| 娄烦县| 和政县| 辽阳县| 文水县| 南开区| 双峰县| 舟曲县| 浏阳市| 溆浦县| 遂昌县| 马鞍山市| 汾西县| 江口县|