• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      網(wǎng)絡(luò)用戶(hù)自描述標(biāo)簽向量生成及標(biāo)簽層次體系構(gòu)建方法*

      2018-11-19 02:11:54裘杭萍王沁雪
      關(guān)鍵詞:標(biāo)簽向量分類(lèi)

      孫 毅,裘杭萍,王沁雪

      (1.中國(guó)人民解放軍陸軍工程大學(xué) 指揮控制工程學(xué)院,江蘇 南京 210000;2.山東省萊蕪市實(shí)驗(yàn)中學(xué),山東 萊蕪 271100)

      0 引言

      隨著信息技術(shù)和社交媒體的快速發(fā)展,世界已經(jīng)進(jìn)入了網(wǎng)絡(luò)化的大數(shù)據(jù)時(shí)代。面對(duì)呈指數(shù)級(jí)增長(zhǎng)的數(shù)據(jù),人們需要更加有效的方法對(duì)所擁有的數(shù)據(jù)信息進(jìn)行快速準(zhǔn)確的分類(lèi),便捷地提取出實(shí)時(shí)、精煉、對(duì)商業(yè)分析有價(jià)值的知識(shí),并且做到對(duì)網(wǎng)絡(luò)和信息的安全管理與控制[1],因此網(wǎng)絡(luò)用戶(hù)標(biāo)簽(Network User Hashtag)應(yīng)運(yùn)而生。

      網(wǎng)絡(luò)用戶(hù)標(biāo)簽是用戶(hù)網(wǎng)絡(luò)資源的描述,一般以詞組、短語(yǔ)或短句子的形式出現(xiàn)。其中被描述的網(wǎng)絡(luò)資源對(duì)象大致可分為兩種:一是多媒體資源,如文本、視頻、音頻等;二是實(shí)體資源,如人物、網(wǎng)絡(luò)用戶(hù)或網(wǎng)絡(luò)購(gòu)物商品等。通過(guò)用戶(hù)標(biāo)簽,可以迅速掌握網(wǎng)絡(luò)資源的情況,更方便地檢索出用戶(hù)需要的內(nèi)容。

      對(duì)網(wǎng)絡(luò)用戶(hù)標(biāo)簽的研究一直是近幾年來(lái)國(guó)內(nèi)外信息檢索領(lǐng)域的熱點(diǎn),將網(wǎng)絡(luò)用戶(hù)標(biāo)簽化來(lái)構(gòu)建用戶(hù)畫(huà)像以實(shí)現(xiàn)對(duì)用戶(hù)進(jìn)行內(nèi)容推薦及個(gè)性化服務(wù)就是其中一個(gè)重要的課題。隨著用戶(hù)自描述標(biāo)簽的普及,越來(lái)越多的學(xué)者開(kāi)始對(duì)其進(jìn)行研究。劉列等人基于約263萬(wàn)個(gè)微博用戶(hù)的真實(shí)數(shù)據(jù),對(duì)用戶(hù)標(biāo)簽的分布進(jìn)行了研究和分析,發(fā)現(xiàn)了基于關(guān)注關(guān)系的標(biāo)簽預(yù)測(cè)算法[1];池雪花等人對(duì)不同學(xué)科領(lǐng)域的用戶(hù)標(biāo)簽標(biāo)注行為差異進(jìn)行了研究[2];劉蘇祺提出一種基于社交網(wǎng)絡(luò)中用戶(hù)自描述標(biāo)簽的層次分類(lèi)體系構(gòu)建方法[3];GONG Y等人提出了用戶(hù)標(biāo)簽和微博文章主題之間的轉(zhuǎn)換方法來(lái)對(duì)用戶(hù)進(jìn)行推薦[4];劉慧婷等人通過(guò)衡量用戶(hù)好友興趣相似度和提取用戶(hù)博文主題來(lái)構(gòu)建用戶(hù)標(biāo)簽矩陣對(duì)用戶(hù)進(jìn)行標(biāo)簽的推薦[5]。

      目前關(guān)于網(wǎng)絡(luò)用戶(hù)自定義標(biāo)簽的研究主要集中在基于用戶(hù)標(biāo)簽的抽取和推薦方面,而對(duì)用戶(hù)自描述標(biāo)簽本身缺乏內(nèi)在關(guān)系的分析和知識(shí)層的挖掘。因此,針對(duì)在網(wǎng)絡(luò)用戶(hù)自定義標(biāo)簽層次分類(lèi)過(guò)程中低頻標(biāo)簽利用率低的問(wèn)題,本文嘗試?yán)玫皖l標(biāo)簽擴(kuò)展理解的方法,構(gòu)建網(wǎng)絡(luò)用戶(hù)自描述標(biāo)簽的層次分類(lèi)體系。

      1 標(biāo)簽向量生成方法

      近幾年的研究中,多種詞向量方法應(yīng)用廣泛,目前最常用的模型為Word2Vec模型[7]和Glove模型[8],二者都是基于詞共現(xiàn)假設(shè)的無(wú)監(jiān)督學(xué)習(xí)方法,可以很好地表征詞與詞之間的距離關(guān)系。詞向量的出現(xiàn)帶動(dòng)了句向量和其他粒度層面的文本向量模型的出現(xiàn),并很好地運(yùn)用到了文本相似度計(jì)算、文本分類(lèi)和文本情感分類(lèi)等領(lǐng)域。目前主要的句向量生成方法有4類(lèi):簡(jiǎn)單向量平均、無(wú)監(jiān)督學(xué)習(xí)方法、有監(jiān)督學(xué)習(xí)方法以及多任務(wù)學(xué)習(xí)方案[9-11]。

      目前,基于平滑反頻率的句向量生成方法在文本相似度計(jì)算和文本分類(lèi)任務(wù)上的表現(xiàn)已經(jīng)超過(guò)TF-IDF權(quán)值平均和有監(jiān)督的RNN、LSTM、skip-thought方法[12]。平滑反頻率句向量通過(guò)權(quán)重將詞向量加權(quán)為句向量,權(quán)重計(jì)算公式如下:

      (1)

      其中a為常量參數(shù),可根據(jù)任務(wù)進(jìn)行調(diào)節(jié);p(w)為單詞w經(jīng)過(guò)大量領(lǐng)域文本統(tǒng)計(jì)后的頻率,即單詞w的權(quán)重與其頻率呈反比。由于用戶(hù)自描述標(biāo)簽的短文本特性,本文基于平滑反頻率句向量生成方法,設(shè)計(jì)了用戶(hù)標(biāo)簽向量的生成方法,生成的標(biāo)簽的向量用于之后的標(biāo)簽體系構(gòu)建。

      本節(jié)標(biāo)簽向量的生成框架以及其中包含的組件如圖1所示。首先通過(guò)詞頻統(tǒng)計(jì)將標(biāo)簽組集合分為高頻標(biāo)簽和低頻標(biāo)簽。高頻標(biāo)簽直接使用詞向量集中的向量,并將該標(biāo)簽擴(kuò)充到分詞器的詞庫(kù)中。同時(shí)將低頻標(biāo)簽通過(guò)設(shè)定的規(guī)則轉(zhuǎn)換為高頻標(biāo)簽組成的詞組,然后通過(guò)向量合成的方法生成標(biāo)簽向量。

      圖1 標(biāo)簽向量的生成框架

      1.1 數(shù)據(jù)預(yù)處理

      通過(guò)爬取新浪微博用戶(hù)的信息數(shù)據(jù),得到13萬(wàn)條用戶(hù)信息,過(guò)濾掉沒(méi)有設(shè)置用戶(hù)標(biāo)簽的用戶(hù),得到86 517個(gè)標(biāo)簽組。對(duì)標(biāo)簽集進(jìn)行詞頻統(tǒng)計(jì),得到如圖2和圖3所示的統(tǒng)計(jì)結(jié)果??梢钥闯?,出現(xiàn)頻率在100次以上的標(biāo)簽僅占總標(biāo)簽數(shù)量的0.306%,而僅出現(xiàn)1次的標(biāo)簽占67.700%。由此可見(jiàn),對(duì)于大多數(shù)網(wǎng)絡(luò)用戶(hù)自定義標(biāo)簽來(lái)說(shuō),都是“罕見(jiàn)”的,充分反映了用戶(hù)自定義標(biāo)簽的自由性和語(yǔ)義上獨(dú)特性。

      圖2 標(biāo)簽頻率分布

      圖3 高頻標(biāo)簽頻率詞云

      1.2 詞向量生成

      本文運(yùn)用Word2Vec模型對(duì)維基百科[12]中的30萬(wàn)篇中文語(yǔ)料進(jìn)行訓(xùn)練得到包含104萬(wàn)個(gè)中文詞語(yǔ)的詞向量集合,每個(gè)詞向量的維度為200維。將該詞向量集定義為:

      WS={W1,W2,…Wi,…Wk}

      (2)

      式中Wi表示詞集中第i個(gè)詞的詞向量。

      WVi=|wi,1,…,wi,j,…,wi,200|

      (3)

      1.3 標(biāo)簽分類(lèi)

      本文將標(biāo)簽劃分為高頻標(biāo)簽和低頻標(biāo)簽。其中高頻標(biāo)簽表示在用戶(hù)標(biāo)簽中出現(xiàn)頻率較高的,且和由語(yǔ)料庫(kù)的詞向量集中的詞所對(duì)應(yīng)的,即語(yǔ)義較為明確的標(biāo)簽。低頻標(biāo)簽又分為組合標(biāo)簽和生僻標(biāo)簽,組合標(biāo)簽是由高頻標(biāo)簽組合而來(lái)的標(biāo)簽,如“游戲動(dòng)漫”,這一標(biāo)簽由“游戲”和“動(dòng)漫”兩個(gè)高頻標(biāo)簽組合而來(lái)。生僻標(biāo)簽指在詞向量集中沒(méi)有對(duì)應(yīng)詞的標(biāo)簽,即語(yǔ)義上難以理解,一般來(lái)說(shuō)多為網(wǎng)絡(luò)俚語(yǔ),或者針對(duì)性較強(qiáng)、受眾較少的詞語(yǔ),這類(lèi)詞在語(yǔ)料庫(kù)極少出現(xiàn)甚至不存在,因此得不到很好的訓(xùn)練。

      本文給定3類(lèi)標(biāo)簽的劃分依據(jù)如下:

      依據(jù)一:標(biāo)簽tagi在詞集中存在對(duì)應(yīng)的詞Wi的為高頻標(biāo)簽。高頻標(biāo)簽集定義為T(mén)S_HF={tag1,…,tagk}。

      依據(jù)二:標(biāo)簽tagi通過(guò)分詞器進(jìn)行拆分后的詞中存在高頻標(biāo)簽的為組合標(biāo)簽。組合標(biāo)簽定義為T(mén)S_CB={tagk+1,…,tagl}。

      依據(jù)三:標(biāo)簽在詞集中沒(méi)有對(duì)應(yīng)的詞且拆分的詞中不存在高頻標(biāo)簽的為生僻標(biāo)簽。生僻標(biāo)簽定義為T(mén)S_UC={tagl+1,…,tagm}。

      1.4 分詞及語(yǔ)料擴(kuò)充方法

      本文的中文分詞器采用國(guó)內(nèi)開(kāi)源的“結(jié)巴”中文分詞工具對(duì)組合詞進(jìn)行分詞[11],分詞后詞語(yǔ)都帶有詞性標(biāo)記。對(duì)組合詞進(jìn)行分詞處理后去除非高頻詞,再去除停用詞,得到由高頻詞組成的標(biāo)簽組group(tagi)={tag1,…,tagp}。

      將低頻標(biāo)簽詞tagi提交到搜索引擎中,對(duì)搜索結(jié)果的文本內(nèi)容進(jìn)行關(guān)鍵詞抽取,抽取算法采用TF-IDF算法。剔除抽取返回的關(guān)鍵詞中不存在于詞集WS中的詞和其本身,取前5個(gè)作為該詞的擴(kuò)展詞組extended(tagi)={tag1,…,tag5}。

      1.5 詞組向量

      將組合標(biāo)簽的組合詞組和生僻標(biāo)簽的擴(kuò)展詞組組合成詞組向量,用于詞組標(biāo)簽和高頻標(biāo)簽之間距離的計(jì)算和標(biāo)簽體系的生成。由于用戶(hù)自定義標(biāo)簽相對(duì)較短,絕大數(shù)情況下一個(gè)標(biāo)簽中的子標(biāo)簽僅會(huì)出現(xiàn)一次,因此很難用單個(gè)標(biāo)簽中各個(gè)子標(biāo)簽的頻率來(lái)衡量其對(duì)父標(biāo)簽的重要程度。本文基于平滑反頻率句向量的權(quán)重計(jì)算思想定義標(biāo)簽向量組合規(guī)則如下:

      (1)組合標(biāo)簽向量TV_CB

      (4)

      (5)

      (2)生僻標(biāo)簽向量TV_UC

      (6)

      (7)

      其中f(tagi)表示標(biāo)簽在整個(gè)數(shù)據(jù)集中出現(xiàn)的頻率;f_e是通過(guò)TF-IDF算法得到的關(guān)鍵詞的權(quán)重,此處對(duì)權(quán)重進(jìn)行歸一化處理。

      參數(shù)a根據(jù)論文[12]的經(jīng)驗(yàn)設(shè)為10-3。

      2 標(biāo)簽分層體系建立方法

      標(biāo)簽體系的建立過(guò)程包括標(biāo)簽之間上下位關(guān)系的確定和標(biāo)簽樹(shù)的最終生成。

      2.1 上下位關(guān)系檢測(cè)

      一般意義上詞與詞的上下位關(guān)系是指詞與詞之間在語(yǔ)義上的從屬關(guān)系[13]。即詞A和詞B在語(yǔ)義上滿(mǎn)足“B是一種/類(lèi)/個(gè)A”,則稱(chēng)A與B之間有上下位關(guān)系,其中A是B的上位觀念(hypernym),B是A的下位概念(hyponym),B是A的類(lèi)別,A是B的實(shí)例,“是一種/類(lèi)/個(gè)”等表述方式成為上下位關(guān)系的模式。上下位關(guān)系抽取是關(guān)系抽取的一種,單獨(dú)抽取上下位關(guān)系是一個(gè)二分類(lèi)問(wèn)題,判斷上下位關(guān)系關(guān)鍵在于特征的選取。關(guān)系抽取的方法主要出發(fā)點(diǎn)有2個(gè):一是基于詞語(yǔ)間的共現(xiàn)性,另一個(gè)是基于詞語(yǔ)間的模式。

      由于詞語(yǔ)間的關(guān)系較為復(fù)雜,兩個(gè)詞共同出現(xiàn)的原因可能有很多,單純基于共現(xiàn)關(guān)系和距離去判斷詞語(yǔ)的上下位關(guān)系效果并不好。因此,本文通過(guò)提取關(guān)系模式的方法來(lái)進(jìn)行上下位關(guān)系分類(lèi)。首先,人工選取數(shù)量相同的具有上下位關(guān)系的(正例)和不具有上下位關(guān)系的(反例)標(biāo)簽對(duì),將這些標(biāo)簽對(duì)作為關(guān)鍵詞提交搜索引擎來(lái)獲得包含標(biāo)簽對(duì)的語(yǔ)料。然后通過(guò)均方差選擇的方法提取上下位關(guān)系的關(guān)鍵模式。通過(guò)將帶有上下位關(guān)系標(biāo)記和特征向量的標(biāo)簽對(duì)交由分類(lèi)器訓(xùn)練出分類(lèi)模型。

      2.1.1特征向量選取

      對(duì)于任意標(biāo)簽對(duì)TPij={ti,tj},本文選取的特征向量TP_Feature包含3類(lèi)特征:標(biāo)簽對(duì)向量距離、標(biāo)簽對(duì)出現(xiàn)的前后位置關(guān)系、標(biāo)簽對(duì)模式出現(xiàn)頻率。TP_Feature=[TP_Dist, TP_Adj, TP_Sep, TP_Mod]

      (8)

      (1)標(biāo)簽對(duì)距離TP_Dis(ti,tj)通過(guò)計(jì)算標(biāo)簽向量間的余弦距離得到,

      TP_Dist(ti,tj)=cos(ti,tj)

      (9)

      (2)標(biāo)簽對(duì)ti和tj出現(xiàn)的前后位置關(guān)系包括2種情況:一是兩者相連組成詞語(yǔ)titj或tjti的情況;二是兩者之間存在某類(lèi)模式組成句式ti…tj或tj…ti的情況。分別定義兩種情況下的特征變量

      (10)

      (11)

      其中分子均表示ti在tj前的頻率,分母表示tj在ti前的情況,比值用反正切函數(shù)歸一化。

      (6)標(biāo)簽對(duì)模式TP_Mod(ti,tj)是由上下位關(guān)系中關(guān)鍵模式出現(xiàn)的頻率組成的向量,

      TP_Mod(ti,tj)={Mod1,…,Modk}

      (12)

      2.1.2基于均方差選擇的模式排序方法

      在模式篩選的過(guò)程中存在大量的噪聲,通過(guò)方差選擇的方法對(duì)這些模式進(jìn)行排序以提高分類(lèi)的效果,其方法如下。

      對(duì)于模式Modi,其出現(xiàn)在正例和反例中的概率分別為P(Modi|Pos)和P(Modi|Neg),則其模式概率均方差為:

      (13)

      其中X1=P(Modi|Pos),X2=P(Modi|Neg)。

      根據(jù)均方差的大小對(duì)模式進(jìn)行排序,方差越大的模式對(duì)于上下位分類(lèi)的貢獻(xiàn)越大,本文選取前5種模式作為特征向量中的關(guān)鍵模式。

      2.2 標(biāo)簽樹(shù)構(gòu)建方法

      標(biāo)簽樹(shù)的生成過(guò)程中,將標(biāo)簽頻率作為標(biāo)簽節(jié)點(diǎn)的權(quán)重,通過(guò)自頂向下、由重到輕的方法將節(jié)點(diǎn)插入到樹(shù)中。

      算法1標(biāo)簽樹(shù)構(gòu)建

      輸入:T={tag1,…,tagk},F(xiàn)={f(tag1),…,f(tagk)},TV={tv1,…, tvk},Classifier

      輸出:Tag_Tree

      1:funcion TRAVEL(node,tag)

      2: if Classifier(node,tag)=Truethen

      3: Flag1←False

      4: for child in node.children

      5: if Classifier(child,tag)= True then

      6: Flag1←True

      7: break

      8: end if

      9: if Classifier(tag,child)= True then

      10: add child to tag.children

      11: del child from node.children

      12: return

      13: end if

      14: if Flag1=True then travel(child,tag)

      15: else add tag to node.children

      16: end if

      17: else

      18: Flag2←False

      19: for child in node.children

      20: if Classifier(child,tag)= True then

      21: Flag2←True

      22: travel(child,tag)

      23: break

      24: end if

      25: end for

      26: if Flag2=false then

      27: node←the nearest node in node.children

      28: travle(node,tag)

      29: end if

      30: end if

      31:end function

      32:

      33:function BUILDTREE(T,F,TV,Classifier)

      34: Tag_Tree←?;

      35: sortTasFand reverse=True;

      //將T按照頻率逆序排序

      36: whileT≠?

      37: tag←T.pop();

      38: node←Tag_Tree.root;

      39: TRAVEL(node,tag)

      40: end while

      41:end function

      算法1中T表示標(biāo)簽集,F(xiàn)表示標(biāo)簽頻率集,Classifier(tag1,tag2)為標(biāo)簽上下位關(guān)系分類(lèi)器,當(dāng)tag1為tag2的上位標(biāo)簽時(shí)返回True,否則返回False,TV表示標(biāo)簽向量集,Tag_Tree表示標(biāo)簽樹(shù)。

      TRAVEL(node,tag)為標(biāo)簽樹(shù)的遍歷和節(jié)點(diǎn)插入的遞歸函數(shù),BUILDTREE(T,F,TV,Classifier)為構(gòu)造樹(shù)的主函數(shù)。

      該算法首先將標(biāo)簽集按照標(biāo)簽頻率從大到小排序,然后每次取出頻率最大的標(biāo)簽tag,從標(biāo)簽樹(shù)的根節(jié)點(diǎn)Tag_Tree.root開(kāi)始遍歷(第34~40行),在遍歷過(guò)程中存在4種情況,情況一如圖2(a)所示(圖中箭頭由下位標(biāo)簽指向上位標(biāo)簽),在標(biāo)簽“喜劇”的插入過(guò)程中,標(biāo)簽“藝術(shù)”為標(biāo)簽“喜劇”的上位標(biāo)簽,且“藝術(shù)”的子節(jié)點(diǎn)中無(wú)“喜劇”的上位標(biāo)簽或下位標(biāo)簽,將“喜劇”加入到“藝術(shù)”的子節(jié)點(diǎn)中(第15行);情況二如圖2(b)所示,在標(biāo)簽“電影”的插入過(guò)程中,“藝術(shù)”是電影的上位標(biāo)簽,而“喜劇”是“電影”的下位標(biāo)簽,將“電影”插入到“藝術(shù)”和“喜劇”之間(第9~13行);情況三如圖2(c)所示,在節(jié)標(biāo)簽“搖滾”的插入過(guò)程中,“藝術(shù)”是“搖滾”的上位標(biāo)簽,同時(shí)“藝術(shù)”的子標(biāo)簽中的“音樂(lè)”也同樣是“搖滾”的上位標(biāo)簽,算法將遞歸地遍歷節(jié)點(diǎn)“音樂(lè)”(第3~7,14行);由于標(biāo)簽上下位傳遞關(guān)系不夠強(qiáng),并且分類(lèi)器在上下位關(guān)系識(shí)別時(shí)可能會(huì)出現(xiàn)錯(cuò)誤,將無(wú)法找節(jié)點(diǎn)到上下位關(guān)系的情況歸為情況四,此時(shí)將會(huì)繼續(xù)遍歷子節(jié)點(diǎn)中與該節(jié)點(diǎn)距離最近的一個(gè)(第26~28行)。

      圖4 標(biāo)簽樹(shù)節(jié)點(diǎn)插入過(guò)程

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)與預(yù)處理

      本文的實(shí)驗(yàn)數(shù)據(jù)抽取自網(wǎng)易微博[13],共有標(biāo)簽67 074 個(gè),由于標(biāo)簽對(duì)的個(gè)數(shù)是標(biāo)簽個(gè)數(shù)的平方,有數(shù)十億個(gè),但在這些標(biāo)簽對(duì)中,是上下位關(guān)系的標(biāo)簽只占極少一部分,存在嚴(yán)重的類(lèi)別不平衡問(wèn)題,因此本文只選出了出現(xiàn)頻率較高的200個(gè)標(biāo)簽,組成了700個(gè)標(biāo)簽對(duì),通過(guò)人工標(biāo)準(zhǔn)的方法得到正例165個(gè),反例535個(gè),運(yùn)用所選標(biāo)簽對(duì)進(jìn)行模式提取。

      3.2 實(shí)驗(yàn)結(jié)果與分析

      3.2.1上下位關(guān)系特征選擇

      通過(guò)模式提取得到關(guān)鍵模式Key_Model={“的”,“是”,“是一”,“稱(chēng)為”,“是什么”}。

      標(biāo)簽對(duì)的特征向量為T(mén)P_Feature = [TP_Dist,TP_Adj,TP_Sep,Mod1,Mod2,Mod3,Mod4,Mod5],共8項(xiàng),例如TP_Feature(繪畫(huà),藝術(shù)) = [0.166,0.999,0.999, 0.169,0.128,0.032,0.010,0.013],TP_Feature(聽(tīng)歌,看書(shū)) = [0.204,0.787,0.729,0.010,0.039,0,0,0]。

      3.2.2實(shí)驗(yàn)設(shè)置

      本文分別采用支持向量機(jī)(SVM)、決策樹(shù)、隨機(jī)森林(Random Forest)、極端隨機(jī)樹(shù)(Extremely Randomized Trees)和BP神經(jīng)網(wǎng)絡(luò)5種方法對(duì)標(biāo)簽進(jìn)行上下位關(guān)系的分類(lèi)。除了BP神經(jīng)網(wǎng)絡(luò)采用TensorFlow框架,其余算法均采用Python中的sklearn開(kāi)發(fā)包。

      極端隨機(jī)樹(shù)、隨機(jī)森林和決策樹(shù)均采用回歸模型。極端隨機(jī)樹(shù)和隨機(jī)森林參數(shù)設(shè)置大致相同,最大迭代次數(shù)為10,特征的評(píng)價(jià)標(biāo)準(zhǔn)為均方差MSE,劃分時(shí)最大特征數(shù)為8,不限制最大決策深度,內(nèi)部節(jié)點(diǎn)再劃分最小樣本數(shù) 2,葉節(jié)點(diǎn)最小樣本數(shù)為1,判斷閾值設(shè)為0.6。決策樹(shù)的特征的評(píng)價(jià)標(biāo)準(zhǔn)為均方差MSE,節(jié)點(diǎn)分類(lèi)策略為最好分類(lèi),內(nèi)部節(jié)點(diǎn)再劃分最小樣本數(shù) 2,葉節(jié)點(diǎn)最小樣本數(shù)為1,判斷閾值設(shè)為0.6。

      支持向量機(jī)采用高斯核函數(shù),核函數(shù)系數(shù)為6,SVC的懲罰值為1,停止訓(xùn)練誤差為10-3,無(wú)最大迭代次數(shù)限制,決策函數(shù)為OVR。

      BP神經(jīng)網(wǎng)絡(luò)采用全連接的四層結(jié)構(gòu),2個(gè)隱藏層節(jié)點(diǎn)均為20個(gè),采用雙曲正切函數(shù)作為激活函數(shù),學(xué)習(xí)率為0.1,損失函數(shù)為均方誤差,輸出閾值為0.7。

      3.2.3結(jié)果分析

      實(shí)驗(yàn)通過(guò)循環(huán)Hold-Out檢驗(yàn)的方法,每次將數(shù)據(jù)集隨機(jī)分為訓(xùn)練集和測(cè)試集兩部分,分別為70%和30%,共循環(huán)100次,統(tǒng)計(jì)5種分類(lèi)器的精確度ACU、查準(zhǔn)率Precision、查全率Recall和F1值的平均值,結(jié)果如表1所示。其中精確度如圖5所示,其他三項(xiàng)指標(biāo)如圖6所示。

      表1 標(biāo)簽上下位關(guān)系檢測(cè)算法效果

      圖5 標(biāo)簽上下位關(guān)系檢測(cè)算法精確度

      圖6 標(biāo)簽上下位關(guān)系檢測(cè)算法3項(xiàng)指標(biāo)

      圖5和圖6中ET、RF、DT、SVM、BP分別表示極端隨機(jī)樹(shù)、隨機(jī)森林、決策樹(shù)、支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)。

      從結(jié)果不難看出,5種分類(lèi)器的分類(lèi)效果均令人滿(mǎn)意,其中極端隨機(jī)樹(shù)和隨機(jī)森林在4項(xiàng)指標(biāo)中都有較好的表現(xiàn),上下位關(guān)系檢測(cè)的查準(zhǔn)率較文獻(xiàn)[3]中的算法提高了近20%,說(shuō)明本文所采用的特征提取方法較考慮標(biāo)簽共現(xiàn)的方法有明顯的優(yōu)勢(shì)。同時(shí),BP神經(jīng)網(wǎng)絡(luò)在5種方法中效果最差,且在實(shí)驗(yàn)過(guò)程中,結(jié)果隨參數(shù)調(diào)整波動(dòng)較大,說(shuō)明BP神經(jīng)網(wǎng)絡(luò)在處理小規(guī)模確定特征的分類(lèi)問(wèn)題上并不占優(yōu)勢(shì)。

      本文利用隨機(jī)森林模型中8項(xiàng)特征對(duì)預(yù)測(cè)函數(shù)的貢獻(xiàn)率來(lái)考察8項(xiàng)特征的重要程度,得到如表2所示的特征貢獻(xiàn)率??梢钥闯瞿J?(“是一”)和模式5(“是什么”)的貢獻(xiàn)率最高,分別為69.49%和10.09%,其他均在10%以下。同時(shí)可以看到,標(biāo)簽向量距離對(duì)決策函數(shù)貢獻(xiàn)并不大,再次說(shuō)明基于詞語(yǔ)共現(xiàn)的方法來(lái)判斷上下位關(guān)系效果并不會(huì)太好。由于實(shí)驗(yàn)受限于數(shù)據(jù)規(guī)模和特征選取的個(gè)數(shù),特征項(xiàng)的貢獻(xiàn)率只能一定程度上反映各特征的重要程度。

      表2 特征貢獻(xiàn)率

      4 結(jié)論

      本文提出了一種網(wǎng)絡(luò)用戶(hù)自描述標(biāo)簽層次體系構(gòu)建的方法。其中著重描述了標(biāo)簽向量的生成方法和標(biāo)簽層次體系的構(gòu)建方法,主要意義有以下兩個(gè)方面:

      (1)通過(guò)將用戶(hù)自描述標(biāo)簽向量化,可以將網(wǎng)絡(luò)用戶(hù)抽象為由多個(gè)標(biāo)簽向量構(gòu)成的標(biāo)簽矩陣,可以形象地將標(biāo)簽向量作為“點(diǎn)”,將網(wǎng)絡(luò)用戶(hù)定義為由標(biāo)簽組成的“點(diǎn)集”,進(jìn)而對(duì)于用戶(hù)的相似度計(jì)算或聚類(lèi)等分析過(guò)程變?yōu)閷?duì)“點(diǎn)集”的操作,可以高效地計(jì)算用戶(hù)間距離,實(shí)現(xiàn)標(biāo)簽推薦等任務(wù)。

      (2)通過(guò)標(biāo)簽層次體系的構(gòu)建,在用戶(hù)標(biāo)簽推薦過(guò)程中,可以根據(jù)標(biāo)簽體系進(jìn)行推薦,例如對(duì)于擁有標(biāo)簽“足球”的用戶(hù),可以?xún)?yōu)先向該用戶(hù)推薦與“足球”同一分支下的“籃球”等兄弟標(biāo)簽,可以提高推薦的效率和準(zhǔn)確性。

      猜你喜歡
      標(biāo)簽向量分類(lèi)
      向量的分解
      分類(lèi)算一算
      聚焦“向量與三角”創(chuàng)新題
      分類(lèi)討論求坐標(biāo)
      無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車(chē)迷(2018年11期)2018-08-30 03:20:32
      數(shù)據(jù)分析中的分類(lèi)討論
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      教你一招:數(shù)的分類(lèi)
      標(biāo)簽化傷害了誰(shuí)
      向量垂直在解析幾何中的應(yīng)用
      榆社县| 玉溪市| 双桥区| 饶河县| 扎兰屯市| 瑞安市| 巴青县| 彰武县| 鄂温| 潢川县| 右玉县| 尤溪县| 阳东县| 微山县| 镇平县| 铜川市| 两当县| 新营市| 富锦市| 垦利县| 公安县| 溆浦县| 霸州市| 霍城县| 杂多县| 鸡西市| 莆田市| 富裕县| 虹口区| 永泰县| 宿迁市| 墨玉县| 湖北省| 郯城县| 洪江市| 若尔盖县| 遂平县| 成安县| 西平县| 日喀则市| 观塘区|