99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

<nav id="ss8ss"><sup id="ss8ss"></sup></nav><nav id="ss8ss"><sup id="ss8ss"></sup></nav><tr id="ss8ss"><small id="ss8ss"></small></tr>

<tfoot id="ss8ss"><dd id="ss8ss"></dd></tfoot>

?

基于深度學(xué)習(xí)的文本情感分析并行化算法

2019-07-11 07:09:16翟東海侯佳林劉月

西南交通大學(xué)學(xué)報 2019年3期

關(guān)鍵詞：數(shù)據(jù)量個數(shù)向量

翟東海，侯佳林，劉月

（西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院，四川成都 611756）

文本情感分析是利用計(jì)算機(jī)技術(shù)對“人們關(guān)于產(chǎn)品、服務(wù)、事件等實(shí)體的評論”等文本進(jìn)行分析處理以獲得其表達(dá)的主觀情感信息的過程.其主要包括：情感信息分類、情感信息抽取、情感分析技術(shù)應(yīng)用等[1-3].傳統(tǒng)的情感分析方法包括支持向量機(jī)、條件隨機(jī)場、信息熵等，且均采用詞袋模型.如文獻(xiàn)[4]采用SVM （support vector machine）對句子進(jìn)行情感識別及分類.但這種淺層模型在處理海量數(shù)據(jù)時通常存在著數(shù)據(jù)稀疏性以及數(shù)據(jù)維度高等問題.Geoffrey Hinton 等[5-6]于2006年提出的深度學(xué)習(xí)模型為解決這些問題提供了新思路.當(dāng)前，在文本情感分析任務(wù)上應(yīng)用較多的神經(jīng)網(wǎng)絡(luò)模型有卷積神經(jīng)網(wǎng)絡(luò)（CNN）、基于序列的模型（RNN）和樹型結(jié)構(gòu)模型（RAE）等.如文獻(xiàn)[7]采用CNN 進(jìn)行情感極性分類；文獻(xiàn)[8]采用雙向序列模型（BLSTM）進(jìn)行中文文本分類研究.因樹形結(jié)構(gòu)模型（如深度學(xué)習(xí)中的遞歸自編碼算法）在文本特征提取、情感分析中表現(xiàn)優(yōu)異，受到了學(xué)者們的廣泛關(guān)注，如文獻(xiàn)[9-11]都是遞歸自編碼算法的典型應(yīng)用范例.

神經(jīng)網(wǎng)絡(luò)模型雖然能夠極大程度地學(xué)習(xí)到文本內(nèi)容所隱含的語義信息，顯著提高分類的準(zhǔn)確率，但深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時耗時、收斂慢的問題也逐漸受到了研究者們的關(guān)注.文獻(xiàn)[12]通過開發(fā)新的計(jì)算框架DistBelief 來實(shí)現(xiàn)大規(guī)模神經(jīng)網(wǎng)絡(luò)的訓(xùn)練；文獻(xiàn)[13]中使用GPU 來訓(xùn)練深度玻爾茲曼機(jī)，但GPU因受內(nèi)存所限，數(shù)據(jù)量大時效果也不太理想.

隨著并行計(jì)算的興起，在處理大規(guī)模數(shù)據(jù)、復(fù)雜計(jì)算時，研究人員往往向其尋求幫助.Berkeley AMP lab 的Spark[14]、谷歌的TensorFlow[15]、微軟的Dryad[16]以及谷歌的MapReduce[17]都是該領(lǐng)域內(nèi)的佼佼者.而MapReduce 框架以其較強(qiáng)的可擴(kuò)展性、良好的可用性、較好的容錯能力，成為研究者關(guān)注的熱點(diǎn)[18].在諸多MapReduce 的實(shí)現(xiàn)中，Apache Hadoo 因良好的開源性深受業(yè)界青睞.因此，利用Apache Hadoop中的MapReduce 并行計(jì)算框架對神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化加速也吸引了諸多學(xué)者的研究興趣.神經(jīng)網(wǎng)絡(luò)的并行化加速是在分布式集群上，用多個集群節(jié)點(diǎn)同時對一個神經(jīng)網(wǎng)絡(luò)進(jìn)行并行化處理，以提高此網(wǎng)絡(luò)的訓(xùn)練速度.網(wǎng)絡(luò)的并行化方式分為兩種：節(jié)點(diǎn)并行化和數(shù)據(jù)并行化.但由于開發(fā)者對MapReduce 框架的底層實(shí)現(xiàn)并不清楚，因此開發(fā)者不能明確地將某項(xiàng)任務(wù)交由某個節(jié)點(diǎn)處理.且對海量數(shù)據(jù)集的節(jié)點(diǎn)并行化處理會使得I/O 開銷過大.因此，在MapReduce 框架中采用的是數(shù)據(jù)并行方式來加速網(wǎng)絡(luò)訓(xùn)練.文獻(xiàn)[19-21]皆是基于Hadoop 中的MapReduce 所做的不同并行化處理的例子，證明了利用MapReduce可以有效加快網(wǎng)絡(luò)訓(xùn)練速度，從而大大縮短神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時間.

本文針對Socher 等提出的Semi-Supervised 文本情感分析算法[9]，使用開源Hadoop 中的MapReduce并行框架提出并行優(yōu)化策略，綜合利用集群節(jié)點(diǎn)的計(jì)算資源，使其在處理大規(guī)模文本時更加高效.

1 相關(guān)工作

1.1 MapReduce

Google 提出的MapReduce 以其優(yōu)越的整合計(jì)算節(jié)點(diǎn)的能力所著稱，此處對其做簡要介紹.MapReduce 采用“分而治之”的思想，通過主節(jié)點(diǎn)調(diào)度，將任務(wù)分配到其下的子節(jié)點(diǎn)中，并行處理后輸出最終結(jié)果.總的來說，MapReduce 是通過用戶編寫Map 函數(shù)和Reduce 函數(shù)來實(shí)現(xiàn)結(jié)果計(jì)算的，用戶只需關(guān)注這兩個函數(shù)的編寫，其他的問題，諸如容錯、負(fù)載均衡、調(diào)度都交給框架處理.在MapReduce中，一個任務(wù)首先被分成許多輸入鍵值對＜kin，vin＞，然后在Map 函數(shù)作用下生成中間結(jié)果＜kmid，vmid＞，這些中間結(jié)果存放于內(nèi)存之中.接著，這些中間結(jié)果將作為Reduce 函數(shù)的輸入，根據(jù)Reduce 中的用戶邏輯輸出最終結(jié)果＜kout，vout＞.其流程如圖1所示，圖中：M為數(shù)據(jù)存儲數(shù)；m為中間結(jié)果鍵值對數(shù)目.

圖1 MapReduce 工作流程Fig.1 Workflow chart of MapReduce

1.2 Semi-Supervised RAE 文本情感分析

1.2.1 用詞向量表示詞語

不同于以往的詞袋模型[22]，Semi-Supervised RAE用詞向量表示詞語并作為神經(jīng)網(wǎng)絡(luò)的輸入，如（0，1，0，0）表示“大學(xué)生”，（1，1，0，1）表示“教師”.若一個句子x含m個詞，則第k個詞為xk，1 ≤k≤m.將詞xk以標(biāo)準(zhǔn)正態(tài)分布的形式映射到n維實(shí)向量空間上，可表示為xk∈Rn.所有詞的詞向量存儲在一個詞嵌入矩陣L∈Rn×|V|中，V為詞匯表的大小.則xk的向量表示為

式中：bk為一個維度為詞表大小、值為0 或1 的二值向量，除了第k個索引之外的所有位置都是0.

1.2.2 有監(jiān)督遞歸自編碼

在獲取句子的低維向量表示時，傳統(tǒng)的自編碼方法需要將句子的樹形結(jié)構(gòu)作為先驗(yàn)知識，這種編碼方法稱為有監(jiān)督遞歸自編碼.假設(shè)一個句子用向量表示為x= (x1,x2,···,xm)，已知子節(jié)點(diǎn)c1、c2的輸入詞向量為x1、x2，則父節(jié)點(diǎn)pi的計(jì)算方法為

式中：i=1 ,2,···；C= [c1；c2]表示c1、c2的詞向量拼接矩陣；f(·)為網(wǎng)絡(luò)的激活函數(shù)；wfi和bfi分別為計(jì)算父節(jié)點(diǎn)時的權(quán)重和偏置參數(shù).

為了測試父節(jié)點(diǎn)對子節(jié)點(diǎn)的表示能力，在各父節(jié)點(diǎn)上添加其對應(yīng)子節(jié)點(diǎn)的重構(gòu)層（圖2），根據(jù)原始節(jié)點(diǎn)與重構(gòu)節(jié)點(diǎn)的差值來表示誤差.

圖2 有監(jiān)督遞歸自編碼結(jié)構(gòu)Fig.2 Structure of supervised RAE

重構(gòu)節(jié)點(diǎn)計(jì)算方法為

式中：j=1 ,2,···；C′=[c′1；c′2]為c1、c2的重構(gòu)節(jié)點(diǎn)c′1、c′2的詞向量拼接矩陣；brj為偏置項(xiàng)；wrj為權(quán)重參數(shù)矩陣.

詞向量采用歐式距離計(jì)算重構(gòu)誤差，即

1.2.3 無監(jiān)督遞歸自編碼

通常情況下，句子的樹形結(jié)構(gòu)往往未知，這種需要自主學(xué)習(xí)樹形結(jié)構(gòu)的自編碼方法稱為無監(jiān)督遞歸自編碼.樹形結(jié)構(gòu)預(yù)測過程的優(yōu)化目標(biāo)函數(shù)為

式中：Rθ(x)為句子x的最優(yōu)樹型結(jié)構(gòu)模型，θ為參數(shù)集；集合A（x）為句子x所有可能的樹形結(jié)構(gòu)集合；y為其中的一種結(jié)構(gòu)；s為計(jì)算過程中非終端節(jié)點(diǎn)的三元結(jié)構(gòu)（由2 個子節(jié)點(diǎn)cs1、cs2和1 個父節(jié)點(diǎn)Ps組成）；Cs=[cs1,cs2]；T（y）為這種三元結(jié)構(gòu)的檢索函數(shù).

不同詞語對句子整體含義的貢獻(xiàn)度不同，為了體現(xiàn)這種差異在計(jì)算重構(gòu)誤差時給不同的詞語賦予不同的權(quán)重，

式中：n1、n2為當(dāng)前子節(jié)點(diǎn)c1、c2下面的詞數(shù).

為了防止遞歸自編碼算法在不斷迭代減小重構(gòu)誤差時計(jì)算出的父節(jié)點(diǎn)過小，為后續(xù)計(jì)算造成不必要的麻煩，此處對式（2）進(jìn)行歸一化處理：

1.2.4 半監(jiān)督遞歸自編碼

得到句子的向量表示后，為計(jì)算整體語句的情感傾向，在網(wǎng)絡(luò)結(jié)構(gòu)上增加softmax（·）分類器：

式中：l為當(dāng)前的情感種類；wl為參數(shù)矩陣.

若有K種情感，則d∈RK，且分類層交叉熵誤差計(jì)算方法為

式中：t為標(biāo)簽的分布；tk為第k種情感的標(biāo)簽分布；dk為條件概率，且

因此，半監(jiān)督遞歸自編碼在數(shù)據(jù)集上的優(yōu)化目標(biāo)函數(shù)為

式中：N為訓(xùn)練數(shù)據(jù)集大?。沪藶長2正則項(xiàng)系數(shù)；

并且，此時每個非終端節(jié)點(diǎn)的誤差變?yōu)橹貥?gòu)誤差與交叉熵誤差的加權(quán)和為

式中：α為權(quán)衡重構(gòu)誤差和交叉熵誤差的調(diào)節(jié)參數(shù).

采用L-BFGS （limited-memory Broyden-Fletcher-Goldfarb-Shanno）算法求解優(yōu)化目標(biāo)函數(shù)式（11）的最優(yōu)解，其中所用的梯度為

式中：θ= {wfi，bfi，wrj，brj，wl，L}.

2 Semi-Supervised RAE 模型的并行化

在使用Semi-Supervised RAE 算法進(jìn)行文本情感分析時，往往需要先根據(jù)訓(xùn)練數(shù)據(jù)集，訓(xùn)練出較好的模型，然后再將此模型應(yīng)用于情感分析.因此，針對Semi-Supervised RAE 模型的并行化也將分為兩步：首先是針對大量訓(xùn)練數(shù)據(jù)集的并行化研究，當(dāng)模型訓(xùn)練好后，利用其并調(diào)用相應(yīng)的并行化算法，進(jìn)行測試數(shù)據(jù)集的文本情感分析.

2.1 大量訓(xùn)練數(shù)據(jù)集情況下

在Semi-Supervised RAE 的訓(xùn)練階段，通過貪心算法構(gòu)建句子的最優(yōu)樹結(jié)構(gòu)以獲得該語句的向量編碼，接著通過優(yōu)化目標(biāo)函數(shù)式（11）迭代得到最優(yōu)的參數(shù)集，為獲得最佳文本情感分析結(jié)果做好準(zhǔn)備.

本文采用MapReduce 并行框架來加快訓(xùn)練速度以便解決原模型在大數(shù)據(jù)量的情況下訓(xùn)練時間過長的問題.首先對總的訓(xùn)練數(shù)據(jù)集進(jìn)行分塊，并將每一個數(shù)據(jù)塊分派給不同的Map 節(jié)點(diǎn).利用這些數(shù)據(jù)塊，Map 節(jié)點(diǎn)依次計(jì)算相應(yīng)數(shù)據(jù)塊中每一個句子x的最優(yōu)樹結(jié)構(gòu)，并計(jì)算相應(yīng)句子的誤差，直至數(shù)據(jù)塊中所有語句誤差計(jì)算完畢并暫存在緩沖區(qū).Reduce階段，節(jié)點(diǎn)累加緩沖區(qū)的塊誤差來計(jì)算得到這個數(shù)據(jù)集的誤差和并利用L-BFGS 算法求出最優(yōu)參數(shù)集.算法整體流程如圖3所示.該算法的主要計(jì)算量集中于Map 階段，為了克服并行化后神經(jīng)網(wǎng)絡(luò)出現(xiàn)弱化現(xiàn)象[19]，集群只設(shè)置了一個Reduce 節(jié)點(diǎn)如圖3所示，圖中Nt為訓(xùn)練數(shù)據(jù)集合塊數(shù).

2.2 大量測試數(shù)據(jù)集情況下

當(dāng)模型訓(xùn)練好后，本文針對測試數(shù)據(jù)集較大情況下測試結(jié)果輸出慢的特點(diǎn)，也設(shè)計(jì)了相應(yīng)的并行化算法.首先，將測試數(shù)據(jù)集分塊，用訓(xùn)練階段得到的最優(yōu)參數(shù)集來初始化節(jié)點(diǎn).在Map 階段，求出每條語句的向量表示，并輸出到緩沖區(qū).在Reduce 階段，softmax（·）分類器利用每條語句的向量表示輸出句子ID 及其情感標(biāo)簽，算法流程如圖4所示，圖中，Nc為測試數(shù)據(jù)集合塊數(shù).

圖3 大量訓(xùn)練集并行化算法Fig.3 Parallel Computing based on a big training dataset

圖4 大量測試集并行化算法Fig.4 Parallel Computing based on a big test datasets

3 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)中用到的節(jié)點(diǎn)皆為AMD 雙核2.5 GHz 處理器，內(nèi)存4 GB.節(jié)點(diǎn)操作系統(tǒng)為Ubuntu14.04，Hadoop版本為1.0.2，Java 版本為1.6.0_33.此次實(shí)驗(yàn)中，詞向量選用100 維，算法最大迭代次數(shù)為1 000，權(quán)衡重構(gòu)誤差和交叉熵誤差的調(diào)節(jié)參數(shù)α設(shè)為0.2.

為了克服現(xiàn)有的情感分析語料庫數(shù)據(jù)量較小[23-24]的問題，本文采用爬蟲程序從美國亞馬遜購物網(wǎng)站上抓取了12 萬條商品評論數(shù)據(jù)，構(gòu)建了兩個語料庫AmazonCorpus2 和AmazonCorpus10，用以測試并行化后的加速效果.此外，Movie Reviews（MR）[25]數(shù)據(jù)集也用于本文實(shí)例驗(yàn)證中，以分析算法分類準(zhǔn)確率時與原算法作對比（如表1所示）.

表1 語料庫信息Tab.1 Corpus information

根據(jù)商品質(zhì)量的優(yōu)劣，美國亞馬遜購物網(wǎng)站將用戶對商品的評分設(shè)置為1～5 級.為了便于情感分析與模型訓(xùn)練，在本文制作的語料庫中將1～5 級轉(zhuǎn)化為負(fù)面、中性、正面3 類評價，轉(zhuǎn)換規(guī)則如下：1～2 級評分為負(fù)面評價記為-1，3 級評分為中性評價記為0，4～5 級評分為正面評價記為1.

MR 數(shù)據(jù)集僅被分為兩類，即正面評價記為1，和負(fù)面評價記為 -1.詳情如表2、3 所示.

表2 AmazonCorpus 語料庫樣例Tab.2 Samples of the AmazonCorpus

表3 MR 語料庫樣例Tab.3 Samples of the MR corpus

3.1 算法分類精確度分析

此處選用MR 和AmazonCorpus2 兩個語料庫，將并行化算法與原始模型及兩個在情感分析任務(wù)上應(yīng)用較為廣泛的baseline 模型——CNN 和BLSTM做精確度對比試驗(yàn).試驗(yàn)時，并行化訓(xùn)練算法的Map節(jié)點(diǎn)設(shè)為3，Reduce 節(jié)點(diǎn)為1，試驗(yàn)結(jié)果如表4所示.從表4中可看出，并行化算法和原始算法擁有幾乎相同的精確度（精確度 = 預(yù)測正確樣本量/樣本總量），均高于CNN 和BLSTM 模型，但并行化算法訓(xùn)練時間遠(yuǎn)小于其它算法的訓(xùn)練時間.這是因?yàn)镃NN雖然具有較強(qiáng)的捕獲局部特征的能力，但它忽略了文本的上下文語義及結(jié)構(gòu)特征，使得模型的訓(xùn)練效果容易收斂到局部最小值而非全局最小值.而BLSTM通過一個正向LSTM 和一個反向LSTM 來學(xué)習(xí)文本的上下文語義特征的同時引入了較多的冗余特征信息，這些冗余信息會影響模型的精確度；且LSTM 內(nèi)部的門結(jié)構(gòu)和記憶單元使得模型的時間復(fù)雜度較大.

表4 算法精確度對比表Tab.4 Accuracy comparison of algorithms

3.2 算法執(zhí)行效率分析

對于并行化算法的執(zhí)行效率，此處分別針對并行化訓(xùn)練算法和并行化測試算法進(jìn)行分析.首先，用AmazonCorpus10 語料庫進(jìn)行并行化訓(xùn)練算法的仿真.集群節(jié)點(diǎn)個數(shù)分別為1、2 （1 個Mapper，1 個Reducer）、3 （2 個Mapper，1 個Reducer）、5 （4 個Mapper，1 個Reducer）、9 （8 個Mapper，1 個Reducer）、17（16 個Mapper，1 個Reducer），33 （32 個Mapper，1 個Reducer），節(jié)點(diǎn)個數(shù)為1 時，表示原始算法的訓(xùn)練；其余集群中Reduce 節(jié)點(diǎn)個數(shù)均為1.實(shí)驗(yàn)結(jié)果如圖5所示.

圖5 不同節(jié)點(diǎn)并行化訓(xùn)練時間對比Fig.5 Parallel training time comparison among different nodes

從圖5可得，當(dāng)集群中節(jié)點(diǎn)個數(shù)為2 時，并行化算法沒有原始算法效率高，其原因主要是節(jié)點(diǎn)初始化、任務(wù)調(diào)度及算法迭代時更新參數(shù)集均需要消耗一定量的時間.但隨著節(jié)點(diǎn)逐漸增多，耗時量幾乎線性下降，說明并行化算法效果良好.當(dāng)節(jié)點(diǎn)增加到9 個以后，耗時量下降變緩，說明訓(xùn)練時間受節(jié)點(diǎn)數(shù)量的制約開始減弱，此時算法瓶頸已不再為Map 節(jié)點(diǎn)個數(shù).

其次，利用上述AmazonCorpus10 語料庫的訓(xùn)練得到的參數(shù)集來初始化“并行化測試算法”.測試集是在AmazonCorpus2 語料庫的基礎(chǔ)上，對其數(shù)據(jù)量作20、40、80、160 倍擴(kuò)展的大數(shù)據(jù)集，即本次測試的數(shù)據(jù)量為40、80、160、320 萬條語句.針對這些數(shù)據(jù)，分別選擇1、3、4、6、10、18，34 個節(jié)點(diǎn)對其做并行化，其中節(jié)點(diǎn)個數(shù)為1 表示原始算法，其余集群中Reduce 節(jié)點(diǎn)個數(shù)均為2，實(shí)驗(yàn)結(jié)果如圖6所示.

圖6 不同數(shù)據(jù)量測試時間對比Fig.6 Test time comparison among different data volumes

從圖6可得出，當(dāng)數(shù)據(jù)量增大時，并行化測試算法可大大縮短數(shù)據(jù)集的執(zhí)行時間，如在語句數(shù)據(jù)量為40 萬條時，34 個節(jié)點(diǎn)所需執(zhí)行時間約是原始算法的1/10.但數(shù)據(jù)量較大時，增加Map 節(jié)點(diǎn)個數(shù)，算法加速效果逐漸變?nèi)酰@種情況在語句數(shù)據(jù)量為320 萬條時較為明顯.通過對集群節(jié)點(diǎn)計(jì)算量分析可知，此時影響算法效率的主要因素是Reduce 節(jié)點(diǎn)個數(shù).

為了進(jìn)一步探索Reduce 節(jié)點(diǎn)個數(shù)對加速效果的影響，此次在Map 節(jié)點(diǎn)為8、16、32 個時，通過增加Reduce 節(jié)點(diǎn)個數(shù)，分別測量語句數(shù)據(jù)量為320、640、1 280 萬條（AmazonCorpus2 語料庫作160、320、640 倍擴(kuò)展）時的并行化算法加速效果.實(shí)驗(yàn)結(jié)果如圖7所示.

從圖7、8、9 中可明顯得出，當(dāng)Map 節(jié)點(diǎn)達(dá)到一定量后，增加Reduce 節(jié)點(diǎn)個數(shù)，可顯著提高算法執(zhí)行效率.如圖7中Map 節(jié)點(diǎn)為32 時，相同語句數(shù)據(jù)量Reduce 節(jié)點(diǎn)個數(shù)為5 時的測試時間約是2 時的一半，可見當(dāng)Map 節(jié)點(diǎn)足夠多時，適當(dāng)增加Reduce節(jié)點(diǎn)個數(shù)可以提高算法的執(zhí)行效率.

圖8 640 萬條語句數(shù)據(jù)量加速效果對比Fig.8 Acceleration effect comparison on 6.4 million data

圖9 1 280 萬條語句數(shù)據(jù)量加速效果對比Fig.9 Acceleration effect comparison on 12.8 million data

4 結(jié)束語

本文基于MapReduce 并行化可擴(kuò)展計(jì)算框架提出了半監(jiān)督遞歸自編碼文本情感分析模型的優(yōu)化算法：針對模型在大訓(xùn)練數(shù)據(jù)集上收斂速度緩慢的問題，本文優(yōu)化算法首先采用“分而治之”的思想對數(shù)據(jù)集做分塊處理后輸入Map 節(jié)點(diǎn)計(jì)算塊誤差，接著將塊誤差輸出到緩沖區(qū)中匯總，而Reduce 節(jié)點(diǎn)先利用塊誤差計(jì)算出優(yōu)化目標(biāo)函數(shù)，然后調(diào)用LBFGS 算法更新模型參數(shù)集，迭代上述訓(xùn)練過程直至目標(biāo)函數(shù)收斂，從而得到模型最優(yōu)參數(shù)集；針對模型在大測試數(shù)據(jù)集上測試結(jié)果輸出緩慢的問題，本文優(yōu)化算法在利用最優(yōu)參數(shù)集初始化模型后，在Map 節(jié)點(diǎn)中計(jì)算出各句子的向量表示，并存儲于緩沖區(qū)中.然后Reduce 節(jié)點(diǎn)中的分類器利用緩沖區(qū)中的向量表示計(jì)算各語句的情感標(biāo)簽.從實(shí)驗(yàn)結(jié)果可得出，本文算法明顯提高了原始算法的運(yùn)行效率.然而本文算法也有不足之處，如在訓(xùn)練階段，并行化算法中Reduce 節(jié)點(diǎn)一次最多只能運(yùn)行一個，這將成為大規(guī)模并行訓(xùn)練時算法的瓶頸；在測試階段，當(dāng)數(shù)據(jù)量大時Reduce 節(jié)點(diǎn)個數(shù)的選擇也直接影響了算法的效率，此時急需一種有效的調(diào)節(jié)機(jī)制，能夠均衡當(dāng)前集群中的Reduce 節(jié)點(diǎn)個數(shù)，以上這些都將成為今后進(jìn)一步研究的重點(diǎn).

猜你喜歡

數(shù)據(jù)量個數(shù)向量

向量的分解

新高考·高一數(shù)學(xué)(2022年3期)2022-04-28 07:02:46

怎樣數(shù)出小正方體的個數(shù)

小學(xué)生學(xué)習(xí)指導(dǎo)(低年級)(2021年9期)2021-10-14 07:57:00

基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化

北京大學(xué)學(xué)報(自然科學(xué)版)(2021年3期)2021-07-16 07:13:40

計(jì)算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法

東北師大學(xué)報(自然科學(xué)版)(2021年1期)2021-03-27 01:22:14

聚焦“向量與三角”創(chuàng)新題

中學(xué)生數(shù)理化(高中版.高考數(shù)學(xué))(2021年1期)2021-03-19 08:28:36

高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬

電腦愛好者(2020年19期)2020-10-20 06:02:06

寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究

電子制作(2019年13期)2020-01-14 03:15:18

等腰三角形個數(shù)探索

中學(xué)生數(shù)理化·七年級數(shù)學(xué)人教版(2019年10期)2019-11-25 07:34:00

怎樣數(shù)出小木塊的個數(shù)

小學(xué)生學(xué)習(xí)指導(dǎo)(低年級)(2019年9期)2019-09-25 07:43:28

怎樣數(shù)出小正方體的個數(shù)

小學(xué)生學(xué)習(xí)指導(dǎo)(低年級)(2018年9期)2018-09-26 05:59:46

西南交通大學(xué)學(xué)報2019年3期

西南交通大學(xué)學(xué)報的其它文章: 基于CDEM的砂卵石地層盾構(gòu)開挖面穩(wěn)定性分析; 大規(guī)模定制環(huán)境下基于公理設(shè)計(jì)的物流系統(tǒng)評價; 磷受控對釀酒廢水-微藻培育耦合體系的影響; 基于高斯混合部件模型的鐵路扣件檢測; 基于EEMD-Hilbert和FWA-SVM的滾動軸承故障診斷方法; 鐵路貨車車體線路動態(tài)響應(yīng)仿真與驗(yàn)證

云霄县| 定结县| 仲巴县| 鸡泽县| 新安县| 渝中区| 肃北| 深水埗区| 颍上县| 六安市| 任丘市| 遂昌县| 莱阳市| 宁远县| 大关县| 汉中市| 莎车县| 巧家县| 镇康县| 托克托县| 九江市| 吉安市| 旌德县| 德化县| 四子王旗| 乌拉特后旗| 霍山县| 海口市| 明水县| 津南区| 永兴县| 旬邑县| 威海市| 藁城市| 汕尾市| 洞头县| 子洲县| 隆安县| 凤城市| 岳阳市| 卓尼县|

<nav id="0ss0s"></nav>

<tr id="0ss0s"><small id="0ss0s"></small></tr>

<nav id="0ss0s"></nav>