• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于配對排序損失的文本多標(biāo)簽學(xué)習(xí)算法

    2020-10-21 00:57:58顧天飛彭敦陸
    關(guān)鍵詞:排序標(biāo)簽損失

    顧天飛,彭敦陸

    (上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海200093)

    1 引 言

    文本分類是自然語言處理領(lǐng)域中的一項(xiàng)重要任務(wù),是構(gòu)建信息檢索、對話機(jī)器人等復(fù)雜系統(tǒng)的基礎(chǔ).多分類假設(shè)類別之間是互斥的,即一篇文檔有且只能歸屬于單個(gè)類別.而事實(shí)上,對象是多語義的,比如一篇新聞能同時(shí)標(biāo)注上“體育”和“足球”標(biāo)簽.所以,多標(biāo)簽更適合用來對現(xiàn)實(shí)問題進(jìn)行建模,并有其實(shí)際的應(yīng)用背景和學(xué)術(shù)價(jià)值.

    多標(biāo)簽學(xué)習(xí)存在多標(biāo)簽分類和標(biāo)簽排序兩類任務(wù)[11],前者將標(biāo)簽集劃分為與樣本相關(guān)和不相關(guān)兩部分,后者則預(yù)測標(biāo)簽之間的前后關(guān)系.上述兩項(xiàng)任務(wù)存在共通性,多標(biāo)簽分類和標(biāo)簽排序之間是可以相互轉(zhuǎn)換的,文獻(xiàn)引入校準(zhǔn)標(biāo)簽對排序的標(biāo)簽進(jìn)行劃分[14],而采用判別模型完成多標(biāo)簽分類時(shí),樣本對標(biāo)簽的后驗(yàn)概率天然具有可排序性[5].故而,學(xué)界和業(yè)界開始嘗試將兩項(xiàng)任務(wù)聯(lián)合起來進(jìn)行解決,并運(yùn)用于不同的應(yīng)用領(lǐng)域[6,9,16].大體上,這類方法基于以下思想,得分較高的標(biāo)簽更能體現(xiàn)樣本的語義,模型應(yīng)使正標(biāo)簽集排在負(fù)標(biāo)簽集之前,這樣篩選出來的標(biāo)簽也更加精準(zhǔn)[16],從這一角度看,標(biāo)簽排序考慮到了標(biāo)簽的相對關(guān)系.

    對于文本處理,過去的研究普遍采用文本特征手工提取的方式[19,20].得益于深度學(xué)習(xí)的發(fā)展,端到端的深度表征模型已成為當(dāng)今的主流[1-5,7,8,15].與此同時(shí),深度模型的性能受到標(biāo)注數(shù)據(jù)缺失和語義提取不足的限制.為此,本研究引入遷移學(xué)習(xí),將BERT[1]作為模型的特征提取部分,將多標(biāo)簽分類和排序共同納入考慮,利用標(biāo)簽之間的相對關(guān)系來增強(qiáng)多標(biāo)簽預(yù)測的有效性.文獻(xiàn)普遍采用錯誤排序統(tǒng)計(jì)[10]和鉸鏈損失[9]刻畫多標(biāo)簽排序誤差,但這些損失函數(shù)通常難以優(yōu)化,尤其在深度模型的背景下.故本文采用一種替代的配對排序損失,該損失函數(shù)在實(shí)數(shù)域上可微,同時(shí)也是鉸鏈損失的邊界.此外,為了更準(zhǔn)確地獲得文本實(shí)例對應(yīng)的標(biāo)簽集,標(biāo)簽的篩選被看作為一項(xiàng)二值分類,用一個(gè)輔助網(wǎng)絡(luò)構(gòu)建篩選標(biāo)簽的閾值.

    本文的貢獻(xiàn)如下:1)將遷移模型BERT運(yùn)用于文本多標(biāo)簽學(xué)習(xí);2)提出配對排序目標(biāo)函數(shù)對標(biāo)簽排序任務(wù)進(jìn)行建模,并給出了相應(yīng)的理論分析.最后,為了決斷出精準(zhǔn)的標(biāo)簽集,算法引入額外的輔助網(wǎng)絡(luò)進(jìn)行閾值預(yù)測.

    2 相關(guān)工作

    一般地,解決多標(biāo)簽任務(wù)存在兩類思路,問題轉(zhuǎn)換和算法適應(yīng)[11].前者將多標(biāo)簽學(xué)習(xí)轉(zhuǎn)化為二值分類[11]、多分類[12]或標(biāo)簽排序[14],后者則修改現(xiàn)有的學(xué)習(xí)算法以適應(yīng)多標(biāo)簽領(lǐng)域[13].上述技術(shù)主要集中于傳統(tǒng)機(jī)器學(xué)習(xí),往往存在嚴(yán)重的性能瓶頸,計(jì)算規(guī)模和標(biāo)簽空間呈正比[10-14].如今,神經(jīng)網(wǎng)絡(luò)在模式識別領(lǐng)域獲得了巨大的成功,其中很大一部分運(yùn)用到了多標(biāo)簽學(xué)習(xí)中[3,5-9].

    傳統(tǒng)的文本分類算法受限于語義和句法信息提取能力的不足,深度模型已經(jīng)成為了該領(lǐng)域的主流.文獻(xiàn)[15]率先采用詞向量word2vec[17]進(jìn)行詞嵌入和卷積神經(jīng)網(wǎng)絡(luò)作為特征提取器,獲得了顯著的性能提升.該模型奠定了深度文本分類的一種范式,即模型一般由詞嵌入層、銜接模型和分類器三部分組成.如何通過海量的語料庫無監(jiān)督學(xué)習(xí)到詞的表示是一項(xiàng)熱門研究,Word2vec[17]通過對詞語上下文和語義關(guān)系進(jìn)行建模,將詞語嵌入到稠密的歐式空間中.BERT[1]由多層Transformer[4]構(gòu)建而成,能解析出更深層的語義,并能適用于各項(xiàng)下游任務(wù).

    文本多標(biāo)簽學(xué)習(xí)需要考慮到兩方面,文本信息的提取和標(biāo)簽之間的相關(guān)性,現(xiàn)有的研究基本上是圍繞這兩方面展開的.一部分研究構(gòu)建了基于卷積神經(jīng)網(wǎng)絡(luò)的模型[5,7,8],文獻(xiàn)[3]采用了二值交叉損失對多標(biāo)簽進(jìn)行建模,文獻(xiàn)[8]引入指示神經(jīng)元對標(biāo)簽共現(xiàn)進(jìn)行建模,以利用標(biāo)簽的信息,文獻(xiàn)[5]將標(biāo)簽預(yù)測看作為序列生成,引入循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建標(biāo)簽之間的關(guān)系.文本序列的各個(gè)位置對標(biāo)簽的影響是不同的,SGM[3]利用注意力機(jī)制加強(qiáng)模型的關(guān)注性.

    排序?qū)W習(xí)的目的是通過機(jī)器學(xué)習(xí)算法對項(xiàng)目進(jìn)行排序,在信息檢索、推薦系統(tǒng)中運(yùn)用極為廣泛.多標(biāo)簽學(xué)習(xí)存在以下假設(shè),與樣本相關(guān)的標(biāo)簽在排序上高于不相關(guān)的標(biāo)簽,所以排序任務(wù)能很好的刻畫這種標(biāo)簽關(guān)系.文獻(xiàn)[16]最早將文本多標(biāo)簽分類看作為一項(xiàng)排序任務(wù),并利用配對排序損失刻畫誤差,但文獻(xiàn)僅在多層感知機(jī)模型上驗(yàn)證了損失函數(shù)的有效性.配對排序損失也可以應(yīng)用于圖像檢測領(lǐng)域[6,9],但研究中普遍采用的鉸鏈損失存在訓(xùn)練困難的問題.為了彌補(bǔ)上述缺點(diǎn),本研究在深度文本多標(biāo)簽學(xué)習(xí)背景下,嘗試了語言模型的遷移學(xué)習(xí),并著重了探討了配對損失的使用.

    3 本文工作

    本章將首先給出問題的定義,然后提出結(jié)合BERT的文本特征提取模型,最后給出配對排序和標(biāo)簽閾值預(yù)測的設(shè)計(jì),以及相關(guān)的目標(biāo)函數(shù).

    3.1 問題描述

    定義1.多標(biāo)簽排序任務(wù),給定樣本x,若s*為理想的映射函數(shù),則需滿足以下性質(zhì):

    (1)

    3.2 多標(biāo)簽文本學(xué)習(xí)模型

    在深度自然語言處理中,一個(gè)端到端模型一般由以下幾個(gè)步驟組成,首先將原始文本序列嵌入至稠密的表征詞嵌入h1,h2,…,hl,其次通過銜接模型將詞嵌入序列轉(zhuǎn)化為定長的表征向量,最終輸入到文本分類器中.對詞嵌入表征的研究和應(yīng)用向來受到學(xué)界和業(yè)界的廣泛關(guān)注,通過預(yù)訓(xùn)練詞向量使詞嵌入涵蓋語義和語法信息.然而,類似于Word2vec詞向量模型存在無法解析一詞多義,上下文信息缺失等缺點(diǎn),往往對性能的提升并不明顯.BERT作為一種語言遷移模型,可以較好地彌補(bǔ)上述缺陷.

    在詞嵌入階段,bert(·)將原始文本序列x中的每個(gè)元素映射到固定尺寸的嵌入,映射方式如下:

    h1,h2,…,hl=bert(w1,w2,…,wl)

    (2)

    這里,h∈d,d>L的維度由bert(·)決定.銜接模型用于對嵌入進(jìn)行整合,文獻(xiàn)中,通常會壘砌大量模型[5,15],對于這一環(huán)節(jié)本研究不做過多地復(fù)雜化,采用均值操作mean(·)將嵌入序列轉(zhuǎn)化為d維的特征向量f:

    (3)

    接下來,考慮標(biāo)簽相關(guān)性得分的建模,由d維特征向量向L維向量映射,形式化為:

    s=relu(Wsf+bs)

    (4)

    其中,Ws∈L×d為權(quán)重矩陣,bs∈L為偏置向量.式(4)中的relu(·)為神經(jīng)網(wǎng)絡(luò)的激活函數(shù).至此,對某個(gè)輸入樣本x,便能得到模型對各個(gè)類別的打分s,即為類別對樣本的相關(guān)性.多標(biāo)簽和多類別分類在判決函數(shù)上存在一定差異.多類別假設(shè)類別之間是相互獨(dú)立的,故而往往取得分最大的類別作為輸出標(biāo)簽.在多標(biāo)簽分類中,每個(gè)實(shí)例對應(yīng)的標(biāo)簽數(shù)是不同的.簡單的做法是取前k最大得分或設(shè)置全局閾值(將得分大于某一閾值的標(biāo)簽篩選出來),這些方法會造成額外的預(yù)測誤差.本研究將采取一種更靈活的做法,即讓g(·)作為一項(xiàng)可學(xué)習(xí)的函數(shù),為每個(gè)標(biāo)簽自動地學(xué)習(xí)得到適應(yīng)于樣本特征f的閾值.閾值建模類似于標(biāo)簽相關(guān)性得分模型:

    θ=relu(Wthrf+bthr)

    (5)

    模型的預(yù)測同時(shí)依賴于式(4)和式(5):

    (6)

    上式中,si,k表示樣本與標(biāo)簽的相關(guān)性得分si的第k分量,θi,k表示閾值的第k分量.圖1為模型的整體框架.

    3.3 多標(biāo)簽配對排序損失

    上節(jié)介紹了結(jié)合語言遷移模型的多標(biāo)簽分類模型,本節(jié)將引出如何對模型參數(shù)進(jìn)行優(yōu)化.形式上,需要解決如下優(yōu)化問題:

    (7)

    這里,l為每個(gè)樣本上的損失項(xiàng),R為模型參數(shù)的正則項(xiàng),Φs=[Ws,bs]為標(biāo)簽相關(guān)性得分模型的參數(shù).在訓(xùn)練式(7)時(shí),解凍bert,對其進(jìn)行參數(shù)微調(diào).由定義1可得,屬于Y的標(biāo)簽得分需盡可能地大,反之亦然.借鑒三元損失,易對損失進(jìn)行建模:

    圖1 算法框架Fig.1 Architecture of algorithm

    (8)

    式(8)采用了鉸鏈損失,α是一項(xiàng)超參數(shù),用來設(shè)定相關(guān)與不相關(guān)標(biāo)簽之間的邊界.該損失函數(shù)是非光滑的,在x=0處不可微,從而造成了優(yōu)化的困難.為解決上述問題,本研究考慮引入替代損失:

    (9)

    圖2 損失函數(shù)ls的性質(zhì)Fig.2 Property of loss function ls

    上式中,β是常系數(shù).替代損失式(9)是式(8)光滑的近似.由圖2中實(shí)線可見,該損失函數(shù)為實(shí)數(shù)域上處處可微的凸函數(shù),在+上為鉸鏈損失的邊界,當(dāng)且僅當(dāng),β=ea-1.此外,β值越小,則實(shí)線越接近y=0.章節(jié)4給出了相應(yīng)的梯度求解,并且從經(jīng)驗(yàn)誤差最小化和貝葉斯最優(yōu)預(yù)測角度進(jìn)行理論分析.

    (10)

    3.4 閾值模型損失

    式(5)為閾值回歸模型,根據(jù)樣本特征為每個(gè)標(biāo)簽學(xué)習(xí)篩選閾值θ,并通過式(6)得到最終的預(yù)測標(biāo)簽集.對某個(gè)標(biāo)簽來說,預(yù)測可以轉(zhuǎn)換為一項(xiàng)二值問題,得分大于閾值為正樣本,反之作為負(fù)樣本.于是,閾值參數(shù)的目標(biāo)函數(shù)可以寫成以下形式:

    (11)

    4 理論分析

    本章首先對優(yōu)化目標(biāo)函數(shù)進(jìn)行梯度計(jì)算,考慮式(10)對sm和sn的梯度為:

    (12)

    (13)

    整合式(12)和式(13)可以得到:

    (14)

    這里,ξn,m為L維向量,其中第n項(xiàng)為+1,第m項(xiàng)為-1,其余項(xiàng)為0,以上計(jì)算結(jié)果說明說明了目標(biāo)函數(shù)在實(shí)數(shù)域上式處處可微的.文獻(xiàn)[18]從經(jīng)驗(yàn)誤差最小化和貝葉斯最優(yōu)預(yù)測角度,證明了排序統(tǒng)計(jì)的有效性.相同地,對損失函數(shù)式(9)進(jìn)行理論分析,式(10)作為簡化版本同理可得.考慮貝葉斯預(yù)測準(zhǔn)則:

    sk(x)=p(k∈Y|x)=∑Y∈y,k∈Yp(Y|x)

    (15)

    上式?jīng)Q定了標(biāo)簽λk的得分即相應(yīng)的排序,p(k∈Y|x)為標(biāo)簽域中所有可能的標(biāo)簽集的邊際分布.

    定理1.采用損失函數(shù)式(9)能達(dá)到經(jīng)驗(yàn)損失最小化.

    證明:考慮損失函數(shù)經(jīng)驗(yàn)誤差最小化:

    R(s)=[ls(s(x),Y)]

    (16)

    將式(16)改寫成條件經(jīng)驗(yàn)損失的形式:

    R(s|x)=[ls(s(x),Y)|x]

    (17)

    這里,γm,n=ln (1+esTξm,n).現(xiàn)需找到使經(jīng)驗(yàn)損失最小化的得分函數(shù)s*,即盡可能滿足定義1.計(jì)算式(17)的一階和二階導(dǎo):

    (18)

    (19)

    (20)

    (21)

    替換式(21)中的(n,m),得到:

    (22)

    (23)

    (24)

    式(24)易得p(m∈Y|x)>p(n∈Y|x),基本滿足貝葉斯預(yù)測準(zhǔn)則.綜上,以式(9)作為排序損失,能達(dá)到經(jīng)驗(yàn)損失最小化.

    5 實(shí)驗(yàn)評估

    本章節(jié)將在真實(shí)的中文文本數(shù)據(jù)集上驗(yàn)證本文所提算法的性能,實(shí)驗(yàn)首先對比了不同的標(biāo)簽決斷方法和損失函數(shù)的表現(xiàn),最后與一些主流的方法進(jìn)行比較.

    5.1 實(shí)驗(yàn)數(shù)據(jù)

    本實(shí)驗(yàn)選用了法研杯比賽CAIL2018(1)https://github.com/thunlp/CAIL罪名預(yù)測任務(wù),來進(jìn)行算法驗(yàn)證.為減少訓(xùn)練時(shí)間,選取了187100份樣本,并根據(jù)8∶1∶1的比例將數(shù)據(jù)集劃分為訓(xùn)練集,測試集和驗(yàn)證集.多標(biāo)簽數(shù)據(jù)集存在額外的性質(zhì),表1給出相關(guān)的信息.在文獻(xiàn)中,Card和Dens分別表示樣本所屬標(biāo)簽平均數(shù)量和標(biāo)簽密度.標(biāo)簽集數(shù)量較大說明存在大量標(biāo)簽共現(xiàn)的情況,如何利用上標(biāo)簽的關(guān)系顯得額外重要.

    表1 多標(biāo)簽信息Table 1 Data set information

    5.2 實(shí)驗(yàn)設(shè)置

    1)實(shí)驗(yàn)平臺:本研究中所有的代碼都由Python編寫,模型基于Tensorflow搭建.采用哈工大提供的BERT(2)https://github.com/ymcui/Chinese-BERT-wwm預(yù)訓(xùn)練模型,該版本在海量的中文語料庫上完成訓(xùn)練,并在各項(xiàng)中文任務(wù)驗(yàn)證了其有效性.設(shè)備系統(tǒng)為Ubuntu16.04,配備兩塊NVIDIA GeForce 1080Ti顯卡,內(nèi)存為64G.

    2)數(shù)據(jù)預(yù)處理:原始文本數(shù)據(jù)已經(jīng)做了脫敏處理,本實(shí)驗(yàn)將作進(jìn)一步地優(yōu)化,去除了文檔中的特殊符號,西文字符等.由于文書是存在格式的,其中有些子句實(shí)際上是無用的,比如“人民檢察院指控”,“公訴機(jī)關(guān)指控”或者文書審理日期等,實(shí)驗(yàn)中將上述字符串從文檔中剔除.為處理數(shù)據(jù)集存在的多標(biāo)簽不平衡問題,這里首先按照50:50的比例將標(biāo)簽集劃分為多數(shù)類和少數(shù)類,并對少數(shù)類進(jìn)行上采樣處理.

    3)實(shí)驗(yàn)參數(shù)設(shè)置:第一階段對標(biāo)簽得分模型進(jìn)行優(yōu)化,該階段解凍bert的參數(shù),做參數(shù)微調(diào).第二階段凍結(jié)bert,僅對閾值模型進(jìn)行優(yōu)化.兩個(gè)階段皆采用ADAM優(yōu)化器,學(xué)習(xí)率設(shè)置為0.001.BERT模型輸入序列的尺寸上存在限制,最大輸入為512,訓(xùn)練中將長文本按200字符為單位進(jìn)行分割,模型預(yù)測過程中,將由各個(gè)劃分的特征均值作為完整文本的特征.式(10)配對子采樣的數(shù)量為120.由式(14)可知,超參數(shù)β是一項(xiàng)平滑參數(shù),對梯度的尺度和訓(xùn)練的收斂性存在一定影響,與學(xué)習(xí)率的功能是相似的.β過大會使損失函數(shù)趨向于線性,過小則趨向于為零,在超參數(shù)調(diào)優(yōu)過程中,嘗試了區(qū)間0.1至2都能使訓(xùn)練收斂,故方便起見這里設(shè)置為1.

    4)評價(jià)指標(biāo):本研究同時(shí)考慮到了多標(biāo)簽的分類和排序兩方面,所以實(shí)驗(yàn)也將從這兩方面對預(yù)測結(jié)果進(jìn)行評估.下面所闡述的評價(jià)指標(biāo)都參考自文獻(xiàn)[11],采用宏觀和微觀F1得分衡量分類性能:

    (25)

    (26)

    這里,eval=2·prec·recall/(prec+recall)為F1得分,用于調(diào)和準(zhǔn)確率prec=TP/(TP+FP),召回率recall=TP/(TP+FN).在以上式子中,TP表示為真正樣本,F(xiàn)P為假正樣本,TN為真負(fù)樣本,F(xiàn)N為假負(fù)樣本.用排序誤差衡量排序性能:

    RankL=

    (27)

    排序損失RankL統(tǒng)計(jì)預(yù)測結(jié)果中的對誤排標(biāo)簽對,數(shù)值越小越好.

    5.3 實(shí)驗(yàn)結(jié)果分析

    本章節(jié)將通過實(shí)驗(yàn)評估本文所提算法的有效性.

    實(shí)驗(yàn)1.不同標(biāo)簽決斷方法

    在章節(jié)3.2中提到了其它兩種標(biāo)簽決斷方法,Top-k和全局閾值,在使用中,k值取1、3和5,閾值從0.05-0.95按照0.01為間隔,表2展示測試集上最優(yōu)得分.值得注意的是,本文提出的得分模型其輸出是映射到實(shí)數(shù)域上的,所以通過sigmoid將其約束到概率空間中.相對來說,宏觀和微觀指標(biāo)衡量了模型的整體分類性能,對標(biāo)簽的誤選較為敏感,Top-k和全局閾值是靜態(tài)的刷選策略,而沒有考慮到了樣本特征本身所攜帶的信息,從而造成得分上的下滑.并且,在使用這些算法的時(shí)候往往會遇到超參的優(yōu)化問題.表2中的結(jié)果說明在多標(biāo)簽領(lǐng)域,標(biāo)簽決斷對最終預(yù)測結(jié)果的影響非常大.相比于全局閾值,閾值預(yù)測方法在分類指標(biāo)上能提供2%的提升,排序指標(biāo)上也是表現(xiàn)最優(yōu)的.

    表2 標(biāo)簽決斷技術(shù)的對比Table 2 Comparison of label decision

    實(shí)驗(yàn)2.不同訓(xùn)練方式

    本實(shí)驗(yàn)將配對排序損失和其它幾種目標(biāo)函數(shù)進(jìn)行比較:

    1)二值交叉損失[5](BCE):

    (28)

    BCE相當(dāng)于標(biāo)簽轉(zhuǎn)換,類似于參數(shù)共享的二值分類模型;

    2)鉸鏈損失式(8);

    3)BP-MLL[8]基于指數(shù)損失.為了確保方法之間的可對比性,實(shí)驗(yàn)采用同一套數(shù)據(jù)預(yù)處理技術(shù),并且默認(rèn)采用閾值預(yù)測技術(shù).表3展示了各種訓(xùn)練方式之間的性能對比.可以看到BCE在微觀指標(biāo)上的表現(xiàn)略微占有,但在其余指標(biāo)上,文本的算法存在競爭性的優(yōu)勢.這是由于BCE注重整體的分類誤差,配對排序損失則考慮錯誤的排序?qū)?宏觀指標(biāo)是標(biāo)簽F1得分的平均,本文的算法在MacroF1上的優(yōu)勢也體現(xiàn)了數(shù)據(jù)不平衡對配對排序損失的影響較低.

    表3 訓(xùn)練方式之間的對比Table 3 Comparison of training approaches

    實(shí)驗(yàn)3.不同模型進(jìn)行對比

    前兩項(xiàng)實(shí)驗(yàn)分別從標(biāo)簽決斷和訓(xùn)練方式做了對比,本實(shí)驗(yàn)將選取一些常用的多標(biāo)簽算法進(jìn)行完整的對比:

    1)二值相關(guān)BR[11]為每個(gè)標(biāo)簽訓(xùn)練一個(gè)SVM分類器;

    2)ML-KNN[13]將KNN拓展到多標(biāo)簽領(lǐng)域,是一種惰性學(xué)習(xí)器;

    3)卷積神經(jīng)網(wǎng)絡(luò)CNN[5]是最常用的深度文本模型;

    4)CNN-RNN[7]采用循環(huán)神經(jīng)網(wǎng)絡(luò)對標(biāo)簽之間的關(guān)系進(jìn)行建模.

    接下來將對上述算法的執(zhí)行流程做一定闡述,對于詞級模型,首先中文文書進(jìn)行分詞,算法1)2)采用TF-IDF算法進(jìn)行特征提取,算法3)4)則將詞嵌入至定長向量.

    表4 不同算法性能對比Table 4 Performance comparison of different algorithms

    表4展示了在全數(shù)據(jù)上,不同算法之間的性能比較.圖3展示了在不同比例數(shù)據(jù)集上的分類性能.實(shí)驗(yàn)結(jié)果顯示,隨著數(shù)據(jù)規(guī)模的增大,深度學(xué)習(xí)算法能獲得更好的表現(xiàn).相比于另兩種深度模型CNN和CNN-RNN,本文提出的算法的整體性能都較優(yōu).這是由于研究在文本特征提取和標(biāo)簽決斷上都做了考慮.遷移的BERT模型能提供數(shù)據(jù)集之外的語義知識并且具有更多的參數(shù)量,由圖3可見,模型表現(xiàn)受到數(shù)據(jù)集尺寸的波動較小.配對排序損失能鋪?zhàn)降綐?biāo)簽之間的排序關(guān)系,使相關(guān)度較高的標(biāo)簽?zāi)塬@得更大的得分,同時(shí),自適應(yīng)的標(biāo)簽閾值學(xué)習(xí)能幫助算法得到更精準(zhǔn)的預(yù)測結(jié)果.

    圖3 不同比例數(shù)據(jù)集上的對比Fig.3 Comparison with different dataset proportion

    6 總 結(jié)

    多標(biāo)簽文本學(xué)習(xí)能幫助用戶對文檔進(jìn)行有效管理,加強(qiáng)多媒體系統(tǒng)的可用性.傳統(tǒng)的,基于機(jī)器學(xué)習(xí)的算法受限于特征提取和模型容量,存在嚴(yán)重性能瓶頸.本文提出的算法利用中文BERT預(yù)訓(xùn)練語言模型對文書進(jìn)行特征提取,模型架構(gòu)上更精煉且高.算法選用配對排序損失作為目標(biāo)函數(shù),以鋪?zhàn)降綐?biāo)簽之間的關(guān)系.此外,為了更精準(zhǔn)地得到結(jié)果,引入輔助的閾值預(yù)測模型,對標(biāo)簽預(yù)測進(jìn)行建模.實(shí)驗(yàn)在法條預(yù)測和罪名推薦兩項(xiàng)任務(wù)上驗(yàn)證了算法的有效性.作為自然語言處理的一項(xiàng)子任務(wù),BERT對多標(biāo)簽文本分類也是適用的,將閾值預(yù)測看作一項(xiàng)學(xué)習(xí)任務(wù),相比Top-k和全局閾值,在測試集上表現(xiàn)更優(yōu)異.未來我們將在更多的多標(biāo)簽數(shù)據(jù)集上對算法進(jìn)行驗(yàn)證,并將對標(biāo)簽之間的相關(guān)性做進(jìn)一步探討.

    猜你喜歡
    排序標(biāo)簽損失
    少問一句,損失千金
    排序不等式
    胖胖損失了多少元
    恐怖排序
    節(jié)日排序
    玉米抽穗前倒伏怎么辦?怎么減少損失?
    無懼標(biāo)簽 Alfa Romeo Giulia 200HP
    車迷(2018年11期)2018-08-30 03:20:32
    不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
    海峽姐妹(2018年3期)2018-05-09 08:21:02
    刻舟求劍
    兒童繪本(2018年5期)2018-04-12 16:45:32
    標(biāo)簽化傷害了誰
    台东县| 高平市| 盘锦市| 田东县| 安阳市| 临武县| 峨山| 信阳市| 根河市| 栾城县| 奈曼旗| 巧家县| 伽师县| 曲靖市| 建德市| 兴宁市| 兰溪市| 淮滨县| 论坛| 天柱县| 苗栗市| 塔城市| 灵川县| 海盐县| 崇信县| 台北县| 巨野县| 金门县| 吉林市| 琼结县| 西峡县| 紫云| 惠州市| 成安县| 克东县| 卢龙县| 乐都县| 孟津县| 乐至县| 上杭县| 沂源县|