• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于張量分解的分布式主題分類模型①

      2018-06-14 08:49:06馬年圣卞藝杰唐明偉
      計算機系統(tǒng)應(yīng)用 2018年6期
      關(guān)鍵詞:張量文檔詞語

      馬年圣,卞藝杰,唐明偉

      1(河海大學(xué) 商學(xué)院,南京 211100)

      2(南京審計大學(xué) 管理科學(xué)與工程學(xué)院,南京 211815)

      大數(shù)據(jù)時代,網(wǎng)絡(luò)信息紛繁復(fù)雜,需要我們從眾多網(wǎng)絡(luò)數(shù)據(jù)中提取出高價值的隱含信息,挖掘出的分類信息可用于內(nèi)容推薦、針對性營銷以及實時預(yù)測等功能.而其中主題分類又是現(xiàn)今網(wǎng)絡(luò)信息時代的一大研究熱點,傳統(tǒng)的主題分類主要是以基本分類方法以及人工標(biāo)簽來實現(xiàn),但是人工干預(yù)過多勢必影響到最終的分類結(jié)果,這就需要我們尋求一個無監(jiān)督的方法,從文檔信息的采集到最后的結(jié)果輸出無需人工參與.

      LDA (Latent Distributed Allocation)主題模型便是一個無監(jiān)督的數(shù)據(jù)挖掘方法,該模型可從大規(guī)模數(shù)據(jù)中進行文檔主題的抽取,能夠出色地完成挖掘文本的潛在關(guān)系、判別關(guān)聯(lián)性等工作,顯著提高信息的分類及利用效率.LDA模型參數(shù)計算的空間以及時間復(fù)雜度較高,并且對軟硬件需求也提出高要求,所以模型參數(shù)求解優(yōu)化一直是研究熱點.Blei等人采用“變分推斷-EM”算法進行LDA模型參數(shù)計算,在單機模式下,隨機變分推斷快速而準(zhǔn)確,但是在分布式計算中因交互過高而顯疲態(tài)[1];批量變分推斷具有很高的交互效率,但在計算E-step時并行效率差強人意[2];馬爾可夫鏈在分布式同步和異步計算方面體現(xiàn)出較好的移植性,但其計算效率過低還有待優(yōu)化[3];唐曉波等人采用熱度進行模型參數(shù)計算的優(yōu)化,通過求解微博的熱度來實現(xiàn)信息的分類工作,其結(jié)果也更加直觀,但是其熱度的計算方法比較單一,并不適用于其他的網(wǎng)絡(luò)數(shù)據(jù)的分類工作[4].

      而在LDA模型的針對性使用方案方面也進行了大量研究,Ramage等人提出Labeled LDA模型進行有監(jiān)督的主題分類,在主題建模中添加文檔的標(biāo)簽,克服了原始模型強制分配主題的缺陷,但是也使得計算量翻倍增加[5];桂思思等人融入多時間節(jié)點函數(shù)進行用戶興趣的預(yù)測,但是時間差值的確定比較主觀,偏差不可避免[6];關(guān)鵬等人采用生命周期理論同主題模型結(jié)合,能夠展現(xiàn)所觀察文本的隨時間所發(fā)生的變化,然而參數(shù)的計算沒有改進為適合生命周期理論的方法[7].

      上述國內(nèi)外對于LDA主題模型的改進都針對特定的數(shù)據(jù)分類,而在處理數(shù)據(jù)量大、維度較高的網(wǎng)絡(luò)信息時效率、準(zhǔn)確性等問題便凸顯出來,且上述研究大部分都是單機下進行實驗,平臺移植性較差.LDA主題模型涵蓋了大量的數(shù)據(jù)以及變量,構(gòu)成了高維數(shù)據(jù)問題,在時間軸上產(chǎn)生了大量的多元數(shù)據(jù),其中也包含很多數(shù)據(jù)噪聲,而張量分解方法能夠通過數(shù)據(jù)降維以及張量近似的方法來優(yōu)化計算.本文通過隨機奇異值分解和白化變換將主題模型參數(shù)計算轉(zhuǎn)化為三階張量的CP分解,加之以ALS算法以及數(shù)據(jù)處理技術(shù),極大地提高了并行化和準(zhǔn)確性,可達到更高的收斂率以及抗干擾性.本文實驗在Spark集群上進行,充分發(fā)揮Spark作為輕量級大數(shù)據(jù)處理框架的特點,及其大規(guī)模數(shù)據(jù)的計算效率明顯優(yōu)于Hadoop的特性.改進后的LDA計算模型適用于大數(shù)據(jù)時代復(fù)雜且高維的信息特點,能夠出色地完成巨量網(wǎng)絡(luò)信息的分類工作,適用于搜索引擎、文本解讀、信息推送等數(shù)據(jù)應(yīng)用領(lǐng)域.

      1 相關(guān)基礎(chǔ)理論

      在國內(nèi)外學(xué)者的討論當(dāng)中,LDA主題模型暴露出其不足的方面,單機模式下,模型訓(xùn)練時間長,精確度不高,并且對于模型超參求解的要求較高,這些都對模型的發(fā)展應(yīng)用提出了挑戰(zhàn).現(xiàn)被廣泛使用的LDA參數(shù)求解方法有變分推斷和馬爾可夫鏈,但數(shù)據(jù)量較大的情況下,兩種方法的計算效率還是比較低下,這就需要我們采用“分治”思想,選用張量分解的方法來優(yōu)化模型參數(shù)計算,采用更高效率和精確度的降維計算方法,同時使用分布式計算模式來提升模型訓(xùn)練的效率,以適用于網(wǎng)絡(luò)大數(shù)據(jù)量文本的主題分類推薦.

      1.1 LDA主題模型

      潛在狄利克雷分布模型LDA由Blei等人于2003年提出后,便被廣泛應(yīng)用于觀點挖掘、主題相關(guān)性和信息檢索等領(lǐng)域[8].LDA通過對離散數(shù)據(jù)集的建模,從中提取文本隱含主題,能在海量網(wǎng)絡(luò)數(shù)據(jù)中自動尋找信息間的語義主題,克服傳統(tǒng)信息檢索中文檔相似度計算方法的缺陷.LDA主題模型屬于詞袋模型,它認(rèn)為文本中包含著無序的詞語,參數(shù)空間的規(guī)模與訓(xùn)練文檔數(shù)量無關(guān),適合處理大規(guī)模語料庫.同時作為全概率生成模型,LDA主題模型的突出優(yōu)點是具有清晰的層次結(jié)構(gòu)[9],LDA是一個三層的貝葉斯框架模型,每一層都有相應(yīng)的隨機變量或者參數(shù)控制,包含詞匯、主題、文檔的三層結(jié)構(gòu),數(shù)據(jù)集中的文檔被看作是有限個隱含主題所構(gòu)成的混合分布,而相應(yīng)的每個主題也都是對應(yīng)的數(shù)據(jù)集中一組特征詞匯的混合分布,模型的概率圖如圖1所示.

      圖1 LDA主題模型概率圖

      圖1中,只有W是可觀察到的變量,其他都是隱含變量或者參數(shù).其中,φ表示“主題-詞語”分布,θ表示“文檔-主題”分布,α、 β分別是 θ和 φ的先驗分布,N表示文檔的單詞總數(shù),M表示文檔的總數(shù),Z為選定的主題,由以上LDA主題模型概率圖可得到主題生成的聯(lián)合概率如公式(1)所示:

      LDA模型訓(xùn)練便是求得參數(shù) α和 β的值,使P(θ|α,β)為最大.同LSA和PLSA模型會產(chǎn)生的過擬合問題不同,LDA主題模型采用狄利克雷分布,從而簡化了模型的推導(dǎo)過程,并且具有很好的先驗概率假設(shè),參數(shù)數(shù)量不會隨著文本數(shù)量的增長而線性增長,泛化能力強,在算法復(fù)雜度和展示效果方面表現(xiàn)優(yōu)越,廣泛應(yīng)用于文本的處理當(dāng)中.

      1.2 CP分解

      CP分解,即Candecomp/Parafac分解,是傳統(tǒng)矩陣分解的拓展,廣泛應(yīng)用于信號傳輸、數(shù)據(jù)分析等領(lǐng)域,它是把張量分解為一系列rank-one張量的計算過程,對于一個三階張量分解可以寫成如下的向量和的形式:

      其中,?表示張量積運算,R表示張量的秩公式(2)中三階張量也可寫成如下元素乘和的等價形式:

      式中根據(jù)公式(3),CP分解便將張量表示為有限數(shù)目的rankone張量之和,分解模型如圖2所示.

      圖2 CP分解模型

      CP分解具有唯一性,其實質(zhì)上指的是張量的秩分解是唯一的,而傳統(tǒng)的矩陣分解并不是唯一的[10].目前已有多種方法可以計算CP分解,其中最簡單有效的是交替最小二乘法(Alternating Least Square,ALS),也是本文所選用的張量分解方法.對于三階張量ALS的思想是找到R個rank-one張量或者一組因子矩陣來逼近如公式(4)所示:

      式中,符號⊙表示Khatri-Rao積,當(dāng)滿足一定的迭代條件時,迭代終止.因為ALS算法需多次迭代才收斂,所以我們將算法應(yīng)用到Spark平臺中進行分布式計算,以求快速的求得全局的最優(yōu)參數(shù),減少大量的實驗時間,這也是分布式計算在現(xiàn)今模型求解中的優(yōu)勢之處.

      2 基于張量分解的主題分類模型

      2.1 基于張量分解的LDA主題分類主體模型

      在LDA主題模型中,每篇文檔都存在著K個潛在的主題,第k個主題具有“主題-詞語”的條件分布概率將所有主題的條件分布概率組成矩陣為總詞匯量,則 φ便是模型求解的“主題-詞語”分布矩陣.而在第m篇文檔中,其混合分布的潛在話題是根據(jù)狄利克雷先驗參數(shù)所求得,已知先驗參數(shù)分布下,便可求得文檔m的“文檔-主題”分布矩陣

      傳統(tǒng)的LDA主題模型的參數(shù)估計方法包括變分推斷,馬爾可夫鏈等,本文采用矩量法將參數(shù)估計轉(zhuǎn)化為張量分解的方式進行迭代.主題為的LDA主題模型可通過文本詞匯表示為張量的形式,Anandkumar等人[12]對主題模型張量的表現(xiàn)形式有如下定義.

      其中表示一個詞語,V為文檔集中所有的詞匯,為同一篇文章的詞語,對于詞語v,任意u≠v,符號 ?為張量積運算,任意的E為向量期望表示話題分布的稀疏程度,α0越小,表明文檔中隱含的主題越少.張量M2、M3通過分解可轉(zhuǎn)化為如下張量積的表現(xiàn)形式:

      其中,K為我們從文檔集中抽取的主題數(shù),通過公式(5)~(9),主題模型參數(shù)求解便可轉(zhuǎn)化為矩陣張量分解的方式.從公式(8)可以得出二階矩M2的低秩分解可求得包含 αk和 φk的子空間,而M3的張量分解可求得潛在狄利克雷先驗分布 α以及“主題-詞語”分布矩陣,最終通過先驗分布 α求解“文檔-主題”矩陣.

      在進行M3張量分解分解前,通過數(shù)據(jù)的預(yù)處理(包括數(shù)據(jù)向量化、正交化和降維操作等)來保證模型的收斂率和抗噪聲干擾,隨機奇異值分解[13]作為高效的矩陣低秩分解手段,此處選用該方法來執(zhí)行對的正交分解,接下來利用矩量法將LDA主題模型參數(shù)估計轉(zhuǎn)化為低維下張量的CP分解,最終生成“文檔-主題”、“主題-詞語”矩陣.模型參數(shù)求解步驟如表(1)所示.

      模型最終會生成“文檔-主題”、“主題-詞語”概率分布,根據(jù)“文檔-主題”矩陣可選取概率最大的主題為該文檔的第一候選主題,而通過“主題-詞語”矩陣可推斷是該主題的具體含義,結(jié)合文檔中已經(jīng)得出的候選主題,便可實現(xiàn)該文檔的主題分類.

      表1 基于張量分解的主題分類模型求解步驟

      2.2 模型的關(guān)鍵技術(shù)

      2.1小節(jié)中基于張量分解的LDA主題分類模型可拆分為3個重要階段,第1階段為數(shù)據(jù)預(yù)處理,第2階段為基于ALS算法的CP分解,第3階段為主題分類計算.

      (1) 數(shù)據(jù)預(yù)處理

      網(wǎng)絡(luò)信息不同于普通文本信息,數(shù)據(jù)形式、結(jié)構(gòu)均有差異,所以預(yù)處理的首要工作便是進行分詞等一系列操作,數(shù)據(jù)預(yù)處理完成后,需對數(shù)據(jù)進行向量化以及降維操作,以便大量減少參數(shù)迭代時的計算量.在進行張量形式的多維數(shù)組操作時,數(shù)據(jù)維數(shù)的大小直接決定了矩陣操作的計算量大小,尤其是在處理自然語言這種高維數(shù)據(jù)時,在內(nèi)存中進行三階矩的存儲操作的運算量都是極大的.數(shù)據(jù)稀疏化是其中一類方法,更好的則是進行線性降維,加之以張量乘積的形式來避免直接生成張量,能夠大幅度減少計算規(guī)模,并且對于張量的操作也是高效的[14].

      在此首先進行張量白化變換(Whitening Transformation),低秩正交分解二階矩.奇異值分解在進行矩陣分解中表現(xiàn)出極大的優(yōu)勢,但當(dāng)數(shù)據(jù)的行列數(shù)過大時,奇異值分解表現(xiàn)出分解緩慢、效率低等缺點,而隨機奇異值分解通過生成子空間進行迭代運算能夠加快分解工作,此處采用隨機奇異值分解進行的分解操作[13].

      隨機奇異值分解算法可以總結(jié)為兩步計算,第一階段構(gòu)造一個正交基,其值域接近于M2,即構(gòu)造正交矩陣Q,使得第二階段將矩陣約束于K維子空間中,運用奇異值分解來計算QTM2,求得U、Σ、Z.

      由隨機奇異值分解可得定義為白化矩陣,令則便是正交向量,證明如下:

      最后使用公式(7)可計算生成維數(shù)為K3的正交三階矩至此,便完成了M3白化以及正交化操作,即數(shù)據(jù)預(yù)處理階段結(jié)束.

      (2) 基于ALS算法的張量分解

      計算生成后,運行基于交替最小二乘法的張量分解,ALS算法的核心是找到最接近的有限數(shù)目的rank-one之和[11],即為:

      其中,為分解的rank-one之和,交替最小二乘法是一個迭代算法,算法交替的進行A,B,C的優(yōu)化,每一次迭代過程中,總是假定其他兩個矩陣是已知的,通過求解最小化的問題來分解矩陣.當(dāng)B和C值固定后,可以將公式改寫為如下形式:

      將? 帶入最小值求解中,最終基于交替最小二乘法的張量分解便轉(zhuǎn)化為如下的最優(yōu)化計算:

      其中,⊙表示Khatri-Rao積,每次迭代都進行 λ的計算以保證特征向量每一列均為歸一化,此處采用Khatri-Rao積的偽逆矩陣形式優(yōu)化計算[15],如公式(13)所示:

      式中,?為哈達馬乘積,通過變換,僅需計算K×K的偽逆矩陣而無需計算K×K2原矩陣.ALS算法是一種批量同步并行計算模型[16],在K階并行的保證下,公式(11)中左邊的每一行均可作為獨立的一部分來進行參數(shù)的估計,并且在使用Spark計算框架進行分析時,每運行一個ALS子程序之前可通過廣播變量同步最新估計的參數(shù)[17],進行算法迭代時的空間需求以及每個節(jié)點所進行的總交互量均為

      (3) 模型主題分類計算

      張量分解收斂后,采用反白化變換,計算原文檔集中的狄利克雷先驗分布以及“主題-詞語”分布矩陣.反白化變換強調(diào)張量結(jié)構(gòu)的特殊性[12],通過分解后的張量數(shù)據(jù)來投影反射出LDA模型參數(shù),如下所示:

      給定CP分解后的向量線性無關(guān),標(biāo)量均大于0,則:

      ①的特征值和特征向量分別為

      ②原詞匯空間的狄利克雷先驗參數(shù)

      ③是的穆爾彭羅斯偽逆矩陣[18],原詞匯空間的“主題-詞語”分布概率

      由反白化變化可推導(dǎo)出同時給定分解后的特征向量,求解矩陣使得待原詞匯空間參數(shù)求解后,根據(jù)原輸入文檔集和先驗分布生成“文檔-主題”分布矩陣最后,為了更直觀的顯示以及更精準(zhǔn)的分類,將“文檔-主題”、“主題-詞語”矩陣進行概率排序,在進行文檔分類時需指定特定的分類類別,所以我們根據(jù)文檔中的重點主題以及主題中的重點詞語,選取其中概率最高主題為該文檔的主題類別,抽取概率為前20的詞語作為該主題的特征詞,進行下一步的主題分類工作.

      3 仿真實驗

      3.1 平臺構(gòu)建

      實驗包括模型對比和主題分布分析,實驗數(shù)據(jù)通過WebMagic爬蟲技術(shù)在網(wǎng)絡(luò)上自動抓取,通過對頁面的分析來下載相應(yīng)的新聞信息文本,主要采集于各大新聞網(wǎng)站的新聞信息數(shù)據(jù),如“中國新聞網(wǎng)”、“鳳凰網(wǎng)”等,主要涉及經(jīng)濟、軍事、文化等領(lǐng)域,在進行文本的白噪聲處理后,篩選出1800條作為原始分析數(shù)據(jù).為保證實驗的可靠性以及可識別性,需定義停用詞表,詞表中包含常用詞、常見語氣詞、助詞等高頻率出現(xiàn)的詞語,同時根據(jù)中文文本的特殊性,還進行了繁簡轉(zhuǎn)換,保證實驗數(shù)據(jù)的格式統(tǒng)一,通過該停用詞典可剔除大部分的噪聲詞語[19].

      實驗使用Scala作為編程語言,在Spark集群模式上進行模型訓(xùn)練與預(yù)測,主節(jié)點master進行任務(wù)調(diào)度,從節(jié)點worker進行同步的運算.worker之間交替的計算更新的參數(shù),廣播參數(shù)至其他的節(jié)點,最后進行數(shù)據(jù)的同步.而master則負(fù)責(zé)檢查是否實時的檢驗是否需要結(jié)束運算以及負(fù)責(zé)各節(jié)點資源之間的調(diào)度,實驗集群均為Centos 7系統(tǒng),每個節(jié)點內(nèi)存均為4 G,實驗主要步驟如圖3所示.

      圖3 仿真實驗步驟

      3.2 實驗結(jié)果與分析

      實驗首先將模型訓(xùn)練時間和困惑度同基于EM算法的LDA模型進行對比,其中,模型生成時間是體現(xiàn)模型計算是否高效的重要指標(biāo)之一,而困惑度則是衡量模型是否同原始數(shù)據(jù)相吻合的重要檢驗標(biāo)準(zhǔn),最后通過網(wǎng)絡(luò)新聞數(shù)據(jù)的預(yù)測,來說明基于張量分解的LDA主題模型適用于網(wǎng)絡(luò)數(shù)據(jù)的分類工作.

      (1) 訓(xùn)練時間對比

      在相同運行環(huán)境下,設(shè)置迭代次數(shù)為500次,主題數(shù)為50,將本文模型同基于EM算法的主題模型進行訓(xùn)練對比,通過增加計算節(jié)點數(shù)來對比模型訓(xùn)練時間長短,結(jié)果顯示基于張量分解的主題模型在時間方面顯現(xiàn)出極大的優(yōu)勢,如圖4所示.

      圖4 模型時間對比圖

      從圖中可以看出,基于張量分解的主題模型在訓(xùn)練時間明顯優(yōu)于基于EM算法的LDA主題模型.增加節(jié)點數(shù)對于運算時間的減少是明顯的,體現(xiàn)出Spark大數(shù)據(jù)平臺在各節(jié)點內(nèi)存不變的情況下,節(jié)點個數(shù)對于運行時間是成反比的.兩個算法開始增加節(jié)點數(shù)對于時間的優(yōu)化更是相當(dāng)顯著,但隨著節(jié)點數(shù)的增加,增益效果降低,同基于EM算法的LDA主題模型相比,基于張量分解的LDA模型在節(jié)點數(shù)增加時,其計算時間下降幅度更大,表明基于張量分解的LDA主題模型對多節(jié)點的集群有更好的計算能力,更加表現(xiàn)出模型對于大運算量的適應(yīng)性.

      (2) 困惑度對比

      困惑度作為文本建模中常用的評價指標(biāo),其值越小,模型對于上下文的約束能力就越強,表明語言模型吻合度越好[8].其公式如下所示:

      式中,Dtest為測試文檔集,Wm為測試m文檔中觀測到的單詞,P(Wm)為模型產(chǎn)生文本W(wǎng)m的概率,Nm為文檔m的單詞數(shù).

      在相同的語料和參數(shù)設(shè)置下,計算基于EM算法的LDA主題模型和基于張量分解的主題模型,兩種方法困惑度隨隱含主題數(shù)目的變化情況如圖5所示.

      通過圖5可得到,隨著主題數(shù)量的不斷增加,兩個模型的困惑度都在相應(yīng)的降低,在達到最低點時,主題抽取的個數(shù)各不相同,基于張量分解的LDA主題模型在該訓(xùn)練文檔集中主題數(shù)為50時困惑度最小.在數(shù)據(jù)量較大、主題較多時,本文模型困惑度明顯低于基于EM算法的LDA主題模型.

      圖5 抽取主題數(shù)的困惑度對比

      (3) 主題分布分析

      將預(yù)處理的新聞信息通過本文LDA主題分類模型進行訓(xùn)練,針對新聞文本的特殊性,在定義特征詞時,進行數(shù)據(jù)預(yù)處理時加入了時間等詞的停用,設(shè)置主題數(shù)為待模型預(yù)測完成后,隨機抽取三個文檔以及他們相對應(yīng)的主題進行分析,部分結(jié)果如表2、表3所示.

      表2 topicN= 50時文檔與主題的分布概率

      表3 topicN= 50時主題與詞的分布概率

      表2可以看出,每篇文檔根據(jù)文中詞語的分布,不局限于單個主題,但第一個主題的概率較大,可以整體概括整篇文檔的大概主題方向.例如文檔5中主題1的概率為0.777 85,相對應(yīng),主題一中出現(xiàn)的都是企業(yè)發(fā)展類的詞匯,則主題1便為企業(yè)主題,進一步的將文檔5便可分類到企業(yè)模塊.

      表3清晰地展現(xiàn)出不同主題其中的含義,可讀性強,同時本文實證數(shù)據(jù)來源于網(wǎng)絡(luò)新聞信息,從中可窺探社會熱點.主題1涉及企業(yè)發(fā)展,其大部分的詞語均是企業(yè)在現(xiàn)代社會發(fā)展所重視的方面,同時也是企業(yè)發(fā)展中強調(diào)的高頻詞.而主題30則是經(jīng)濟類,通過各經(jīng)濟詞語的羅列,能夠?qū)Σ糠值慕鹑诘膶I(yè)用詞有一定的了解,可運用于新聞定位推送,同時在新聞里出現(xiàn),更能說明媒體以及公眾對于經(jīng)濟的關(guān)注.最后主題48則為文化產(chǎn)業(yè)電影類,新聞中能夠涉及到如下的詞語,說明人們在現(xiàn)今生活高壓力下對于電影、文化的關(guān)注.以上的“主題-詞語”分布能夠說明主題模型對于網(wǎng)絡(luò)數(shù)據(jù)分類的高效性,顯性地挖掘網(wǎng)絡(luò)信息中所蘊含的內(nèi)涵,可充分適用于信息推薦、搜索引擎當(dāng)中.

      4 結(jié)論與展望

      本文將張量分解引入到LDA主題模型的訓(xùn)練中,利用矩量法將數(shù)據(jù)轉(zhuǎn)換為張量分解的計算形式,運行基于交替最小二乘法的CP分解進行參數(shù)迭代,最后使用網(wǎng)絡(luò)數(shù)據(jù)在大數(shù)據(jù)平臺Spark中驗證分析,實驗表明,基于張量分解的LDA主題模型在網(wǎng)絡(luò)數(shù)據(jù)主題、詞匯生成方面同基礎(chǔ)主題模型更有優(yōu)勢,更加適用于網(wǎng)絡(luò)數(shù)據(jù)主題的分類.當(dāng)然,網(wǎng)絡(luò)數(shù)據(jù)的預(yù)處理準(zhǔn)確性有待提高,對于主題模型的原始輸入以及計算優(yōu)化是我們下一階段需要研究的內(nèi)容.

      1 Hoffman MD,Blei DM,Wang C,et al.Stochastic variational inference.Journal of Machine Learning Research,2013,14(5):1303-1347.

      2 Nallapati R,Cohen W,Lafferty J.Parallelized variational em for latent dirichlet allocation:An experimental evaluation of speed and scalability.Proceedings of 2007 Seventh IEEE International Conference on Data Mining Workshops(ICDMW 2007).Omaha,NE,USA.2007.349-354.

      3 Griffiths TL,Steyvers M.Finding scientific topics.Proceedings of the National Academy of Sciences of the United States of America,2004,101(S1):5228-5235.

      4 唐曉波,向坤.基于LDA模型和微博熱度的熱點挖掘.圖書 情 報 工 作 ,2014,58(5):58-63.[doi:10.11925/infotech.1003-3513.2014.05.08]

      5 Ramage D,Hall D,Nallapati R,et al.Labeled LDA:A supervised topic model for credit attribution in multi-labeled corpora.Proceedings of 2009 Conference on Empirical Methods in Natural Language Processing.Singapore.2009.248-256.

      6 桂思思,陸偉,黃詩豪,等.融合主題模型及多時間節(jié)點函數(shù)的用戶興趣預(yù)測研究.現(xiàn)代圖書情報技術(shù),2015,(9):9-16.[doi:10.11925/infotech.1003-3513.2015.09.02]

      7 關(guān)鵬,王曰芬.基于LDA主題模型和生命周期理論的科學(xué)文獻主題挖掘.情報學(xué)報,2015,34(3):286-299.

      8 Blei DM,Ng AY,Jordan MI.Latent dirichlet allocation.Journal of Machine Learning Research,2003,3(4/5):993-1022.

      9 李湘東,胡逸泉,黃莉.采用LDA主題模型的多種類型文獻混合自動分類研究.圖書館論壇,2015,35(1):74-80.

      10 Sidiropoulos ND,Bro R.On the uniqueness of multilinear decomposition of N-way arrays.Journal of Chemometrics,2000,14:229-239.[doi:10.1002/(ISSN)1099-128X]

      11 Kolda TG,Bader BW.Tensor decompositions and applications.SIAM Review,2009,51(3):455-500.[doi:10.1137/07070111X]

      12 Anandkumar A,Foster DP,Hsu D,et al.A spectral algorithm for latent dirichlet allocation.Algorithmica,2015,72(1):193-214.[doi:10.1007/s00453-014-9909-1]

      13 Halko N,Martinsson PG,Tropp JA.Finding structure with randomness:Probabilistic algorithms for constructing approximate matrix decompositions.SIAM Review,2010,53(2):217-288.

      14 Anandkumar A,Ge R,Hsu D,et al.Tensor decompositions for learning latent variable models.The Journal of Machine Learning Research,2014,15(1):2773-2832.

      15 Liu SZ,Trenkler G.Hadamard,khatri-rao,kronecker and other matrix products.International Journal of Information and Systems Sciences,2008,4(1):160-177.

      16 Valiant LG.A bridging model for parallel computation.Communications of the ACM,1990,33(8):103-111.[doi:10.1145/79173.79181]

      17 Wang YN,Tung HY,Smola A J,et al.Fast and guaranteed tensor decomposition via sketching.Proceedings of 2015 Advances in Neural Information Processing Systems (NIPS).Montreal,Canada.2015.991-999.

      18 Macausland R.The moore-penrose inverse and least squares[Thesis].Tacoma,Washington,USA:University of Puget Sound,2014.

      19 馮永,李華,鐘將,等.基于自適應(yīng)中文分詞和近似SVM的文本分類算法.計算機科學(xué),2010,37(1):251-254,293.

      猜你喜歡
      張量文檔詞語
      容易混淆的詞語
      有人一聲不吭向你扔了個文檔
      偶數(shù)階張量core逆的性質(zhì)和應(yīng)用
      找詞語
      四元數(shù)張量方程A*NX=B 的通解
      詞語欣賞
      擴散張量成像MRI 在CO中毒后遲發(fā)腦病中的應(yīng)用
      基于RI碼計算的Word復(fù)制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      一枚詞語一門靜
      德兴市| 耒阳市| 安远县| 清丰县| 莆田市| 从化市| 兴仁县| 栾川县| 临猗县| 区。| 英山县| 西昌市| 剑阁县| 德令哈市| 吉隆县| 九寨沟县| 龙井市| 长垣县| 齐齐哈尔市| 哈尔滨市| 阳东县| 乡宁县| 息烽县| 离岛区| 永靖县| 安义县| 醴陵市| 延寿县| 莎车县| 湄潭县| 高阳县| 深水埗区| 肇庆市| 黑河市| 高清| 阿瓦提县| 雷波县| 西乡县| 邹城市| 红河县| 兴和县|