• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向多源數(shù)據(jù)的可擴(kuò)展主題建模分析框架*

      2019-07-18 01:08:08張靈簫趙俊峰鄒艷珍
      計(jì)算機(jī)與生活 2019年5期
      關(guān)鍵詞:數(shù)據(jù)源視圖文檔

      唐 爽,張靈簫,趙俊峰,3+,謝 冰,3,鄒艷珍,3

      1.北京大學(xué) 信息科學(xué)技術(shù)學(xué)院,北京 100871

      2.高可信軟件技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871

      3.北京大學(xué)(天津?yàn)I海)新一代信息技術(shù)研究院,天津 300450

      1 概述

      隨著大數(shù)據(jù)相關(guān)技術(shù)的不斷發(fā)展和應(yīng)用,數(shù)據(jù)的獲取和存儲(chǔ)變得越來越方便,計(jì)算機(jī)系統(tǒng)中積累了來自各種行業(yè)海量的數(shù)據(jù)[1-3],這些數(shù)據(jù)包括日常生產(chǎn)、業(yè)務(wù)、交易等過程中的記錄,從互聯(lián)網(wǎng)中搜集到的數(shù)據(jù)集,還有來自自動(dòng)監(jiān)測系統(tǒng)的監(jiān)測指標(biāo)等。對(duì)這些數(shù)據(jù)進(jìn)行分析處理,能夠獲取大量有價(jià)值的信息[4-7]。由于現(xiàn)有的大量系統(tǒng)都基于SQL(structured query language)數(shù)據(jù)庫,這些數(shù)據(jù)中有很大一部分都是結(jié)構(gòu)化數(shù)據(jù),分析處理這些結(jié)構(gòu)化數(shù)據(jù)是一個(gè)重要工作[8-9]。這些結(jié)構(gòu)化數(shù)據(jù)具有高維度、低質(zhì)量、無標(biāo)注等特點(diǎn)[1,8],因此從原始數(shù)據(jù)中采用無監(jiān)督的方式進(jìn)行特征抽取,并對(duì)原始數(shù)據(jù)進(jìn)行信息提煉和降維是提高分析效率和效果的必要手段。

      主題建模(topic modeling)技術(shù)[10]最初是從自然語言文本中抽取主題信息的一種技術(shù),該技術(shù)假設(shè)主題是一組語義相關(guān)的詞語,而文章由多個(gè)主題混合而成。由于主題建模擁有對(duì)數(shù)據(jù)原始特征進(jìn)行抽象的能力,它實(shí)際上成為了一種通用性的高級(jí)特征抽取方法。除此之外主題建模還是一種無監(jiān)督學(xué)習(xí)方法,它能對(duì)無標(biāo)注數(shù)據(jù)進(jìn)行分析,因此本文選擇主題建模方法來處理前面所提到的大量高維度、低質(zhì)量、無標(biāo)注的結(jié)構(gòu)化數(shù)據(jù)。目前已有大量研究工作致力于將主題建模技術(shù)應(yīng)用到結(jié)構(gòu)化數(shù)據(jù)分析中去,例如基于電子商務(wù)交易數(shù)據(jù)的用戶畫像[11],基于診療記錄的臨床路徑模式發(fā)現(xiàn)[12]等。

      要將主題建模技術(shù)更好地應(yīng)用于結(jié)構(gòu)化數(shù)據(jù),還有很多問題需要解決,主要有以下三方面:

      (1)結(jié)構(gòu)化數(shù)據(jù)由二維表來邏輯表達(dá)和實(shí)現(xiàn),包含表內(nèi)字段和表間關(guān)聯(lián)信息,這與由標(biāo)題和詞語集合組成的文檔數(shù)據(jù)有較大差異,無法直接作為主題建模的輸入,通常需要進(jìn)行轉(zhuǎn)化處理。

      (2)樸素的主題建模算法不支持對(duì)表內(nèi)多個(gè)字段以及多表關(guān)聯(lián)信息進(jìn)行建模,因此無法滿足對(duì)結(jié)構(gòu)化數(shù)據(jù)的分析需求,需要對(duì)其進(jìn)行擴(kuò)展。

      (3)主題建模的結(jié)果非常抽象,需要良好的可視化方法便于用戶理解。

      目前常用的主題建模工具1)MALLET,http://mallet.cs.umass.edu;Stanford TMT,https://nlp.stanford.edu/software/tmt/tmt-0.4;Gensim,https://radimrehurek.com/gensim。均不能很好地解決以上問題,針對(duì)這一情況,本文提出了一個(gè)基于可擴(kuò)展主題建模技術(shù)的數(shù)據(jù)分析框架DBInsight,它能夠?qū)ΠńY(jié)構(gòu)化數(shù)據(jù)在內(nèi)的多源數(shù)據(jù)進(jìn)行主題建模分析,并提供可視化結(jié)果展示。本文的主要貢獻(xiàn)有:

      (1)提出了針對(duì)結(jié)構(gòu)化數(shù)據(jù)特點(diǎn)進(jìn)行建模分析的兩種擴(kuò)展主題模型。

      (2)提出了一個(gè)基于可擴(kuò)展主題建模技術(shù)的多源數(shù)據(jù)分析框架。

      (3)根據(jù)上述數(shù)據(jù)分析框架實(shí)現(xiàn)了一個(gè)數(shù)據(jù)分析工具,通過對(duì)兩個(gè)現(xiàn)實(shí)數(shù)據(jù)集的分析,證明該框架是可行有效的。

      本文后續(xù)內(nèi)容組織如下:第2章介紹擴(kuò)展的主題模型;第3章詳細(xì)介紹基于可擴(kuò)展主題建模技術(shù)的多源數(shù)據(jù)分析框架;第4章展示根據(jù)此框架實(shí)現(xiàn)的數(shù)據(jù)分析工具以及實(shí)驗(yàn);第5章是總結(jié)和未來工作。

      2 擴(kuò)展的主題模型

      2.1 樸素LDA主題模型

      潛在狄利克雷分布(latent Dirichlet allocation,LDA)[13]是最樸素的主題模型,其基礎(chǔ)假設(shè)是文章是由多個(gè)主題構(gòu)成的,而每個(gè)主題都是詞集的一個(gè)概率分布。

      用概率圖模型[14]描述LDA算法的實(shí)例生成過程如圖1,其過程可以描述為:

      (1)從以β為參數(shù)的Dirichlet分布中抽樣K個(gè)主題的詞語分布φ。

      (2)從以α為參數(shù)的Dirichlet分布中抽樣M個(gè)文檔的主題分布θ。

      (3)對(duì)于第i篇文檔的第j個(gè)詞語,首先從第i篇文檔的主題分布中抽樣一個(gè)主題zi,j,然后從該主題的詞語分布中抽樣一個(gè)詞語xi,j。

      (4)重復(fù)過程3,直到生成所有的N個(gè)詞語。

      Fig.1 LDAprobabilistic graphical model圖1LDA概率圖模型

      求解LDA模型的普遍方法是吉布斯采樣,其流程可以概括為:對(duì)z值進(jìn)行隨機(jī)初始化,多次迭代進(jìn)行吉布斯采樣(為每一個(gè)z重新分配主題),最后對(duì)z值進(jìn)行計(jì)數(shù)求得分布θ和φ。該算法的關(guān)鍵在于為z重新分配主題k′:p(z=k′|z-i,x)。在這里需要根據(jù)其他所有位置上的主題分布計(jì)算當(dāng)前位置上分配到每個(gè)主題k的概率p(z=k′|z-i,x),并且將所有k個(gè)主題的概率合并為一個(gè)多項(xiàng)分布并對(duì)其抽樣,將抽樣得到的主題k′賦給當(dāng)前位置上的z值。下面給出p(z=k′|z-i,x)的計(jì)算公式:

      式(1)中,k代表當(dāng)前位置上分配k主題時(shí)的概率,x代表當(dāng)前位置上的特征,m代表當(dāng)前實(shí)例的編號(hào)。公式右邊由兩個(gè)因子組成。首先,代表所有實(shí)例中x分配給主題k的計(jì)數(shù),而代表所有分配給主題k的任意特征的計(jì)數(shù)。兩式各加上Dirichlet先驗(yàn)β做平滑后相除,實(shí)際上代表了所有分配了主題k的詞中當(dāng)前的x所占的比例。同理,右側(cè)因子中代表文檔m中分配給k主題的特征的個(gè)數(shù),代表實(shí)例的所有詞個(gè)數(shù)。兩式各加上Dirichlet先驗(yàn)α做平滑后相除得到當(dāng)前實(shí)例m中主題k所占的比例。式(1)語義為:當(dāng)前位置分配主題k的概率等于當(dāng)前實(shí)例中主題k的占比乘以主題k中當(dāng)前特征的占比,實(shí)際上就代表了實(shí)例從主題到特征的生成過程。

      2.2 多視圖LDA主題模型

      樸素LDA主題模型只考慮單種詞語,不適合處理多表關(guān)聯(lián)的結(jié)構(gòu)化數(shù)據(jù)。針對(duì)關(guān)系型數(shù)據(jù)庫中常見的多表關(guān)聯(lián)關(guān)系,將樸素主題模型擴(kuò)展到多視圖主題模型,將多個(gè)表看作描述同一實(shí)例的不同視圖,從而在主題中包含屬于多個(gè)視圖的關(guān)聯(lián)特征。這種擴(kuò)展后的模型能充分利用不同視圖之間互補(bǔ)的特性提高建模效果。

      多視圖LDA主題模型的概率圖模型如圖2,它在樸素LDA主題模型的基礎(chǔ)上增加了多個(gè)視圖下的主題詞語分布。圖2中,α是主題分布的超參數(shù),θ表示每個(gè)實(shí)例(文檔)的主題分布。每個(gè)視圖有獨(dú)立的主題分配變量z,產(chǎn)生的特征x,主題-特征分布φ,以及超參數(shù)β。同時(shí),所有視圖中的特征最終是由同一個(gè)主題分布θ抽樣產(chǎn)生的,該θ代表了模型不同視圖間的共同優(yōu)化目標(biāo)。圖2展示了包含兩個(gè)不同視圖的模型,而多視圖的LDA可以擴(kuò)展到包含任意多個(gè)不同視圖的場景,可以適應(yīng)包含任意數(shù)量的關(guān)聯(lián)表的數(shù)據(jù)。對(duì)于包含n個(gè)關(guān)聯(lián)表的數(shù)據(jù),每一個(gè)實(shí)例的實(shí)例主題分布是唯一的,它主導(dǎo)了n類不同特征的生成,每類特征都包含各自的φ,每一個(gè)主題包含n個(gè)對(duì)應(yīng)的主題-特征分布。

      Fig.2 Multi-view LDAprobabilistic graphical model圖2 多視圖LDA概率圖模型

      多視圖LDA模型的求解過程與樸素LDA類似,主要區(qū)別在于為z重新分配主題時(shí)只計(jì)算該視圖下的特征占比,以圖2中視圖A為例,其核心概率計(jì)算公式如下:

      式(2)中,左邊的因子用于估算當(dāng)前視圖中的主題-特征分布,右邊的因子用所有視圖中特征計(jì)數(shù)估算實(shí)例-主題分布,該因子在計(jì)算每個(gè)視圖中特征主題分配概率時(shí)形式都相同,實(shí)際上起到了在各個(gè)視圖之間傳遞信息,達(dá)到“共識(shí)”的目的。

      2.3 多屬性LDA主題模型

      樸素LDA主題模型無法考慮數(shù)據(jù)集中非文本信息,如連續(xù)數(shù)值等。而結(jié)構(gòu)化數(shù)據(jù)中每一個(gè)表內(nèi)存在大量的非文本數(shù)據(jù),為了充分利用這些非文本數(shù)據(jù),將樸素主題模型擴(kuò)展為多屬性主題模型,其核心思想為:將數(shù)據(jù)表中每一個(gè)字段都看作描述主題特征的一種屬性,根據(jù)多個(gè)屬性能劃分出更準(zhǔn)確的主題。它的思路是在樸素LDA中增加代表屬性的隨機(jī)變量。

      Fig.3 Multi-attribute LDAprobabilistic graphical model圖3 多屬性LDA概率圖模型

      多屬性LDA主題模型的概率圖模型如圖3,圖中f表示描述屬性的隨機(jī)變量,λ代表f所服從的概率分布。注意由于f所服從的概率分布由x和z共同決定,不同的主題和特征對(duì)應(yīng)不同的λ。因此包含λ的方框總共重復(fù)K×V次,代表模型中總共包含K×V個(gè)不同的λ。這里K代表主題個(gè)數(shù),V代表特征的種類數(shù)。此外,還為λ引入了概率分布的先驗(yàn)γ。由于不同特征服從不同的概率分布,甚至可能為不同類型的值(離散型或者連續(xù)型),因此很多情況下往往需要對(duì)不同的特征分別確定其合適的γ先驗(yàn),其分布是λ分布的共軛先驗(yàn)分布。例如在電子病歷的檢驗(yàn)檢查數(shù)據(jù)中,不同檢查項(xiàng)目的取值范圍是非常不同的,如果將檢查項(xiàng)目結(jié)果作為不同的特征,那么對(duì)于V類特征自然應(yīng)該有不同的V種先驗(yàn)。

      多屬性LDA的求解在樸素LDA的基礎(chǔ)上要增加對(duì)特征值的考慮,以增加一種屬性f為例,其核心概率計(jì)算公式如下:

      可以看到,為z分配新的主題時(shí)還要考慮特征值f。式(3)中第三項(xiàng)因子代表當(dāng)前位置上的屬性f在該位置上特征xi和主題分配zi確定的情況下,給定其他該主題和該特征下的屬性值,該屬性取當(dāng)前值的概率。該項(xiàng)的計(jì)算由該特征的先驗(yàn)分布決定,增加多種屬性就在公式中再添加與此類似的對(duì)應(yīng)項(xiàng)。

      以上提出的多視圖LDA、多屬性LDA兩種算法分別是針對(duì)結(jié)構(gòu)化數(shù)據(jù)的多表關(guān)聯(lián)關(guān)系以及表內(nèi)多字段對(duì)應(yīng)關(guān)系進(jìn)行主題建模分析的擴(kuò)展算法。在實(shí)際應(yīng)用中兩者還能進(jìn)一步結(jié)合成為多視圖多屬性LDA算法,能夠較好地滿足結(jié)構(gòu)化數(shù)據(jù)分析需求,同時(shí)該圖模型還能夠進(jìn)一步擴(kuò)展,該算法理論上支持對(duì)任意多視圖,每個(gè)視圖內(nèi)任意多特征同時(shí)進(jìn)行分析,具有可擴(kuò)展性,因此本文稱之為可擴(kuò)展主題模型,運(yùn)用該模型進(jìn)行主題建模分析的技術(shù)稱為“可擴(kuò)展主題建模技術(shù)”。

      3 多源數(shù)據(jù)分析框架

      3.1 問題分析

      本文將多源數(shù)據(jù)的分析流程分為三部分:數(shù)據(jù)導(dǎo)入、數(shù)據(jù)分析以及數(shù)據(jù)可視化。

      (1)數(shù)據(jù)導(dǎo)入。將外部不同來源的數(shù)據(jù)轉(zhuǎn)化為主題建模算法的輸入格式,并根據(jù)需求進(jìn)行預(yù)處理,消除不同來源數(shù)據(jù)的差異性。為了支持多源數(shù)據(jù)靈活組合,系統(tǒng)應(yīng)提供通用的數(shù)據(jù)接口,以接入不同來源的數(shù)據(jù)。

      (2)數(shù)據(jù)分析。為了增加分析框架的適用范圍,該框架支持多種不同的主題建模算法,并且能夠靈活地修改算法參數(shù)。

      (3)數(shù)據(jù)可視化。將主題建模的結(jié)果進(jìn)行可視化,方便用戶快速地了解主題建模的結(jié)果。由于主題建模算法有許多種,工具還應(yīng)該支持為特定算法擴(kuò)展單獨(dú)的可視化方法。

      3.2 框架總體設(shè)計(jì)

      DBInsight框架主要分為三部分,如圖4所示。

      (1)數(shù)據(jù)導(dǎo)入。數(shù)據(jù)導(dǎo)入過程分為三個(gè)步驟:一是訪問外部數(shù)據(jù)源,這里需要用戶提供訪問數(shù)據(jù)源所需的連接信息;二是將外部數(shù)據(jù)轉(zhuǎn)化為主題模型算法標(biāo)準(zhǔn)文檔格式(文檔集,包含多篇由名稱和詞語集合組成的文檔);三是對(duì)文檔進(jìn)行預(yù)處理,例如html、xml格式解析,長文本分詞,去除停用詞等。

      (2)數(shù)據(jù)分析。數(shù)據(jù)分析的核心是主題建模算法。數(shù)據(jù)分析時(shí)用戶能夠選擇要分析的文檔集,要使用的主題建模算法,并且設(shè)置算法所需參數(shù),例如LDA算法需要設(shè)定參數(shù)α、β以及主題數(shù)目。為了提高框架的可用性,本框架對(duì)算法擴(kuò)展提供良好的支持,方便用戶添加新的建模算法。

      (3)數(shù)據(jù)可視化。根據(jù)建模結(jié)果的特點(diǎn),選擇適當(dāng)?shù)目梢暬绞健3藢?duì)基本分析結(jié)果可視化以外,框架還支持在分析結(jié)果上進(jìn)一步的深入分析,并將分析結(jié)果可視化。對(duì)于特定算法可視化的支持,通過提供擴(kuò)展接口實(shí)現(xiàn)。

      Fig.4 DBInsight frame diagram圖4 DBInsight框架圖

      3.3 數(shù)據(jù)導(dǎo)入

      數(shù)據(jù)導(dǎo)入部分主要分為三個(gè)步驟:訪問數(shù)據(jù)源、導(dǎo)入數(shù)據(jù)、數(shù)據(jù)預(yù)處理。其中前兩個(gè)步驟將外部多源數(shù)據(jù)轉(zhuǎn)化為標(biāo)準(zhǔn)文檔格式,第三個(gè)步驟在標(biāo)準(zhǔn)格式的基礎(chǔ)上進(jìn)行預(yù)處理。

      3.3.1 訪問數(shù)據(jù)源并導(dǎo)入數(shù)據(jù)

      訪問數(shù)據(jù)源以及導(dǎo)入數(shù)據(jù)的流程如圖5所示。DBInsight框架使用數(shù)據(jù)源、數(shù)據(jù)塊以及導(dǎo)入器三個(gè)概念對(duì)這一流程進(jìn)行建模。其中數(shù)據(jù)源指用戶輸入的外部數(shù)據(jù)來源信息,利用這些信息能建立到外部數(shù)據(jù)源的連接。數(shù)據(jù)塊即本文定義的標(biāo)準(zhǔn)文檔格式的數(shù)據(jù)。導(dǎo)入器是一段程序,用來連接到數(shù)據(jù)源,并導(dǎo)入數(shù)據(jù)轉(zhuǎn)化為數(shù)據(jù)塊。

      Fig.5 Access data source,import data圖5 訪問數(shù)據(jù)源、導(dǎo)入數(shù)據(jù)流程

      框架引入數(shù)據(jù)塊的概念來提高可擴(kuò)展性。如果系統(tǒng)直接從外部數(shù)據(jù)源讀取數(shù)據(jù)進(jìn)行算法分析,一個(gè)支持m種數(shù)據(jù)源,n種分析算法的系統(tǒng)需要編寫m×n份代碼來實(shí)現(xiàn)。而有了數(shù)據(jù)塊,將數(shù)據(jù)塊作為數(shù)據(jù)導(dǎo)入的標(biāo)準(zhǔn)輸出格式,算法分析的標(biāo)準(zhǔn)輸入格式,只用編寫m+n份代碼就能實(shí)現(xiàn)工具的功能。要添加一種新的數(shù)據(jù)源,只需要提供新的導(dǎo)入器即可,避免了為每一種算法進(jìn)行適配。

      導(dǎo)入器的主要工作是將外部數(shù)據(jù)源中的數(shù)據(jù)按照用戶輸入的映射關(guān)系映射為文檔數(shù)據(jù)(標(biāo)題和詞語)??蚣苤刑峁┝藢?duì)SQL數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫[15]以及文本文件進(jìn)行導(dǎo)入的方法。對(duì)于SQL數(shù)據(jù)庫,采用選擇表格和字段的方式得到數(shù)據(jù)庫中字段到文檔標(biāo)題、詞語的映射關(guān)系;對(duì)于NoSQL數(shù)據(jù)庫,需要用戶輸入對(duì)應(yīng)的數(shù)據(jù)庫查詢語句和查詢結(jié)果到文檔的映射關(guān)系;對(duì)于文本文件的支持和傳統(tǒng)主題建模分析工具類似,將一個(gè)文件視為一個(gè)文檔,文檔的標(biāo)題與文件名相同,文件內(nèi)容就是文檔的內(nèi)容。

      3.3.2 數(shù)據(jù)預(yù)處理

      從外部數(shù)據(jù)源直接轉(zhuǎn)化而來的數(shù)據(jù)塊,根據(jù)需求可以進(jìn)行進(jìn)一步的預(yù)處理,例如帶html標(biāo)簽的數(shù)據(jù)可能需要對(duì)標(biāo)簽進(jìn)行解析,獲取所需要的數(shù)據(jù)。而分詞、去停用詞、大小寫統(tǒng)一化這些方法是文本數(shù)據(jù)預(yù)處理的常用方法,框架也提供支持。這些預(yù)處理操作主要是對(duì)原數(shù)據(jù)塊中文檔詞語的進(jìn)一步處理,圖6展示了對(duì)數(shù)據(jù)塊進(jìn)行分詞預(yù)處理的效果。

      Fig.6 Preprocess:data chunk segmentation圖6 數(shù)據(jù)塊分詞預(yù)處理

      3.4 數(shù)據(jù)分析

      數(shù)據(jù)分析是主題建模工具的核心內(nèi)容。從前面的數(shù)據(jù)導(dǎo)入部分得到了數(shù)據(jù)塊這一種標(biāo)準(zhǔn)格式的文檔數(shù)據(jù),數(shù)據(jù)分析就是將數(shù)據(jù)塊作為輸入數(shù)據(jù),進(jìn)行主題建模分析,并將分析結(jié)果以概率分布的形式保存下來,其主要流程如圖7所示。

      Fig.7 Main processes of data analysis圖7 數(shù)據(jù)分析主要流程

      作為主題建模分析的通用框架,框架支持算法擴(kuò)展。當(dāng)用戶需要添加一種新的算法時(shí),只要保證算法的輸入格式是框架提供的標(biāo)準(zhǔn)文檔格式,算法的輸出格式是框架提供的標(biāo)準(zhǔn)結(jié)果格式,框架就能將新算法添加到算法選項(xiàng)中。

      框架還對(duì)結(jié)構(gòu)化數(shù)據(jù)分析的場景進(jìn)行了針對(duì)性的優(yōu)化。對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析時(shí)常常涉及到對(duì)表內(nèi)多字段和多表中不同字段的分析,這種需求能夠從輸入數(shù)據(jù)格式得到,因此框架能夠根據(jù)輸入數(shù)據(jù)自動(dòng)為用戶選擇要使用的分析算法。例如用戶選擇了同一表內(nèi)多個(gè)字段作為輸入,則采用多屬性LDA進(jìn)行建模分析,如果選擇了多個(gè)表下的字段,則采用多視圖LDA或者多視圖多屬性LDA進(jìn)行分析,這種自動(dòng)選擇降低了框架的使用門檻,用戶無需具有多視圖、多屬性LDA的相關(guān)知識(shí)就能使用框架對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行建模分析。

      為了提高可用性,框架將一次分析過程看作一項(xiàng)分析任務(wù),并且支持任務(wù)管理操作。用戶創(chuàng)建分析任務(wù)進(jìn)行建模分析,并且可以暫停一項(xiàng)正在進(jìn)行的分析任務(wù)或者繼續(xù)一項(xiàng)暫停中的分析任務(wù),還可以取消一項(xiàng)分析任務(wù)。不同分析任務(wù)之間可以并行處理,這提高了分析工作的效率。

      3.5 數(shù)據(jù)可視化

      經(jīng)過主題建模分析,得到了主題建模的結(jié)果,主題-詞語分布和文檔-主題分布。數(shù)據(jù)可視化部分就是設(shè)計(jì)分析和可視化方法,將主題建模結(jié)果更好地呈現(xiàn)給用戶。其中兩個(gè)基本的分布信息作為主題建模最直接的結(jié)果,框架分別從主題和文檔的角度進(jìn)行可視化。而在主題建模結(jié)果的基礎(chǔ)上,框架支持進(jìn)一步的應(yīng)用分析,并對(duì)應(yīng)用結(jié)果進(jìn)行可視化。

      4 工具實(shí)現(xiàn)與應(yīng)用展示

      4.1 DBInsight框架的工具實(shí)現(xiàn)

      根據(jù)前面提出的DBInsight框架,本文實(shí)現(xiàn)了一個(gè)基于主題建模的數(shù)據(jù)分析工具,工具的方法流程見圖8。

      工具支持MySQL(https://www.mysql.com)為代表的結(jié)構(gòu)化數(shù)據(jù)源、Neo4j(https://neo4j.com)為代表的NoSQL數(shù)據(jù)源以及文本文件數(shù)據(jù)源,并提供了樸素LDA算法以及多屬性LDA、多視圖LDA算法、多屬性多視圖LDA算法三種擴(kuò)展算法,主題建模結(jié)果通過Web頁面渲染圖表進(jìn)行可視化。

      4.2 工具界面和使用展示

      圖9是工具的主界面,此界面展示了工具中的數(shù)據(jù)塊信息。

      用戶能夠添加新的數(shù)據(jù)塊,用戶輸入連接信息后工具能夠預(yù)覽數(shù)據(jù)源信息,方便用戶選擇要導(dǎo)入的數(shù)據(jù)。

      數(shù)據(jù)導(dǎo)入完成后,用戶可以創(chuàng)建新的建模分析任務(wù),如圖10所示,用戶需要選擇要分析的數(shù)據(jù)塊以及設(shè)置參數(shù)。

      建模分析完成后,用戶能夠得到建模結(jié)果的可視化圖表,如圖11所示。

      用戶分析數(shù)據(jù)時(shí),首先添加數(shù)據(jù)源,導(dǎo)入數(shù)據(jù);然后選擇要使用的分析算法,設(shè)置算法參數(shù),創(chuàng)建分析任務(wù);分析完成后,通過可視化界面查看分析結(jié)果。工具提供了完整的圖形化界面支持,因此用戶不需要編寫具體代碼,只需要按照提示選擇和輸入信息即可完成分析工作。

      Fig.8 Method process of tool圖8 工具方法流程

      Fig.9 Main interface of tool圖9 工具主界面

      Fig.10 Interface for creating analysis task圖10 創(chuàng)建分析任務(wù)界面

      Fig.11 Interface for result visualization圖11 結(jié)果可視化界面

      目前常用的主題建模分析工具,它們大多是一些開源的開發(fā)工具包,因此沒有圖形用戶界面支持,同時(shí)這些工具只支持對(duì)文本數(shù)據(jù)進(jìn)行分析,輸出結(jié)果也只是主題分布,沒有可視化圖表。使用這些工具對(duì)SQL等結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析時(shí),用戶需要自己編寫將SQL數(shù)據(jù)轉(zhuǎn)化為文檔文件的代碼,然后調(diào)用工具進(jìn)行算法分析,再使用或者編寫可視化工具進(jìn)行可視化展示。

      相對(duì)于這些現(xiàn)有的主題建模分析工具,本文實(shí)現(xiàn)的工具自動(dòng)化地完成了數(shù)據(jù)導(dǎo)入和結(jié)果可視化的工作,降低了主題建模分析的知識(shí)門檻,提高了分析工作的效率。

      4.3 分析結(jié)果展示

      本部分主要介紹工具在兩個(gè)結(jié)構(gòu)化數(shù)據(jù)集上的分析結(jié)果。

      4.3.1 北京某醫(yī)院門診記錄數(shù)據(jù)集

      該數(shù)據(jù)集包含了北京某醫(yī)院2009至2012年的門診記錄數(shù)據(jù),包含診斷信息、用藥信息、檢驗(yàn)檢查信息等。數(shù)據(jù)集的形式為SQL數(shù)據(jù)庫,是標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù)。本實(shí)驗(yàn)用到了病人診斷表以及病人用藥表的數(shù)據(jù),希望得到診斷和用藥之間的關(guān)聯(lián)關(guān)系。

      本實(shí)驗(yàn)中文檔的定義:選擇病人id作為文檔id;分別選擇了兩種視圖的詞語,一是病人診斷表中的疾病名稱,二是病人用藥表中的藥品名稱。參數(shù)設(shè)置為:α=0.1,β=1,主題數(shù)目k=20。

      圖12展示了其中一個(gè)主題的信息。其中toppatient對(duì)應(yīng)的視圖就是疾病名稱,toppatient-billing對(duì)應(yīng)的視圖是藥品名稱。該主題展示了其中包含的兩種視圖詞語之間的關(guān)聯(lián)關(guān)系,即疾病和藥品的關(guān)聯(lián)關(guān)系。

      從疾病對(duì)應(yīng)的詞語分布信息可以看出,這是關(guān)于高血壓的主題。而藥品的分布信息中占比較高的藥物拜新同、安博維(厄貝沙坦)、美卡素(替米沙坦)都是用于高血壓治療的藥物,因此可以判斷該主題展示的疾病和用藥的關(guān)聯(lián)信息是有效的。

      4.3.2 MovieLens數(shù)據(jù)集

      MovieLens數(shù)據(jù)集[16]是GroupLens Research采集的一組從20世紀(jì)90年代末到21世紀(jì)初由MovieLens用戶提供的電影評(píng)分?jǐn)?shù)據(jù)。其中包含電影評(píng)分、電影元數(shù)據(jù)以及用戶的個(gè)人信息。數(shù)據(jù)集存儲(chǔ)在SQL數(shù)據(jù)庫中,是標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù)。本實(shí)驗(yàn)主要用到了用戶電影評(píng)分的數(shù)據(jù)表,本實(shí)驗(yàn)中文檔的定義為:選擇MovieLens用戶id作為文檔名稱,選擇用戶評(píng)論的電影名稱作為文檔詞語,額外選擇用戶對(duì)電影的評(píng)分作為詞語的屬性。參數(shù)設(shè)定為:α=0.1,β=1,主題數(shù)目k=50,評(píng)分屬性的分布設(shè)定為均勻分布。

      Fig.12 Multi-view topic-word distribution圖12 多視圖主題-詞語分布信息

      Fig.13 Multi-attribute topic-word distribution圖13 多屬性主題-詞語分布信息

      圖13是從結(jié)果中選擇的一個(gè)主題的信息,可以看出這個(gè)主題主要是關(guān)于驚悚類和愛情類電影的,因?yàn)檎急容^高的電影有《洛城機(jī)密(L.A.Confidential)》《英國病人(The English Patient)》《驚聲尖叫(Scream)》《連鎖陰謀(Conspiracy Theory)》《猜·情·尋(Chasing Amy)》,它們都具有驚悚或者愛情的元素。同時(shí)根據(jù)評(píng)分這一屬性信息,發(fā)現(xiàn)該偏好主題表現(xiàn)為對(duì)驚悚類電影不喜歡以及喜愛愛情電影(幾部驚悚類電影評(píng)分都較低,而愛情片評(píng)分高)。

      5 總結(jié)和未來工作

      本文從對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行主題建模分析的應(yīng)用場景出發(fā),發(fā)現(xiàn)了對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行主題建模分析存在的問題。并針對(duì)這些問題進(jìn)行分析并設(shè)計(jì)了分為數(shù)據(jù)導(dǎo)入、數(shù)據(jù)分析、數(shù)據(jù)可視化三部分的數(shù)據(jù)分析框架,支持多種擴(kuò)展方式。并在框架的基礎(chǔ)上實(shí)現(xiàn)了一個(gè)數(shù)據(jù)分析工具,該框架和工具降低了主題建模分析的知識(shí)門檻,簡化了操作流程,提高了主題建模分析工作的效率,同時(shí)對(duì)結(jié)果的可視化使用戶更好地了解分析結(jié)果,提升了分析的價(jià)值。

      未來工作可以從三方面進(jìn)行:一是提供編程開發(fā)的API,讓框架方便地集成到其他項(xiàng)目中;二是實(shí)現(xiàn)更高效的數(shù)據(jù)處理模式,例如流式處理、在線訓(xùn)練、分布式計(jì)算等;三是加入對(duì)更多數(shù)據(jù)源和分析算法的支持。

      猜你喜歡
      數(shù)據(jù)源視圖文檔
      有人一聲不吭向你扔了個(gè)文檔
      Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
      5.3 視圖與投影
      視圖
      Y—20重型運(yùn)輸機(jī)多視圖
      SA2型76毫米車載高炮多視圖
      基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
      读书| 右玉县| 广西| 淮滨县| 远安县| 临泉县| 平度市| 丹寨县| 从江县| 吉木乃县| 平顺县| 漳平市| 天全县| 平凉市| 阜新| 渭南市| 绥德县| 阜康市| 台东市| 河西区| 寿阳县| 灯塔市| 行唐县| 息烽县| 应城市| 江安县| 邓州市| 桂东县| 简阳市| 咸宁市| 阳山县| 黄平县| 兴化市| 富蕴县| 宁乡县| 湛江市| 田林县| 烟台市| 溆浦县| 沙洋县| 开江县|