• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于卷積神經(jīng)網(wǎng)絡(luò)的字符級(jí)用戶(hù)名嵌入跨社交網(wǎng)絡(luò)身份匹配算法

    2021-04-13 19:14:09劉甜甜
    電腦知識(shí)與技術(shù) 2021年5期
    關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)

    劉甜甜

    摘要:針對(duì)現(xiàn)有基于用戶(hù)名的跨社交網(wǎng)絡(luò)用戶(hù)身份匹配算法,匹配時(shí)需要設(shè)計(jì)復(fù)雜的用戶(hù)名字符串統(tǒng)計(jì)特征用于機(jī)器學(xué)習(xí)模型輸入,本文提出了一個(gè)端到端的基于卷積神經(jīng)網(wǎng)絡(luò)的用戶(hù)名字符級(jí)嵌入身份匹配算法。

    關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);用戶(hù)名嵌入;字符級(jí);用戶(hù)身份匹配

    1 概述

    跨社交網(wǎng)絡(luò)用戶(hù)身份匹配技術(shù)是跨多個(gè)在線社交平臺(tái)進(jìn)行信息融合的先決條件?,F(xiàn)有的許多跨社交網(wǎng)絡(luò)用戶(hù)身份匹配模型主要是基于監(jiān)督算法提出的,即給定一組標(biāo)記的匹配用戶(hù),錨鏈接推理預(yù)測(cè)問(wèn)題可以建模為二分類(lèi)任務(wù)。

    用戶(hù)在選擇用戶(hù)名時(shí)通常會(huì)表現(xiàn)出某些行為模式,多個(gè)社交網(wǎng)絡(luò)平臺(tái)中傾向于使用具有個(gè)人特點(diǎn)的相似用戶(hù)名顯示自己的偏好,也具有獨(dú)特性[1],因此基于用戶(hù)名的跨社交網(wǎng)絡(luò)用戶(hù)身份匹配方法最簡(jiǎn)單直觀,提取用戶(hù)名特征,設(shè)計(jì)基于相似度的學(xué)習(xí)匹配模型來(lái)預(yù)測(cè)錨鏈接。

    Zafarani 等人[2]通過(guò)對(duì)多個(gè)社交網(wǎng)絡(luò)平臺(tái)中用戶(hù)名相似度的統(tǒng)計(jì)驗(yàn)證分析,以實(shí)證的方式研究了在不同社交網(wǎng)絡(luò)平臺(tái)中識(shí)別相應(yīng)身份的可能性。Li等人[3]利用有監(jiān)督的機(jī)器學(xué)習(xí)算法來(lái)實(shí)現(xiàn)用戶(hù)身份匹配,該工作僅依靠不同的用戶(hù)名命名方式來(lái)提取冗余信息特征,在此特征集上進(jìn)行模型的訓(xùn)練。

    用戶(hù)名是最直觀、最易獲取的數(shù)據(jù)形式,基于用戶(hù)名的跨網(wǎng)絡(luò)用戶(hù)身份匹配方法通過(guò)挖掘取名行為習(xí)慣特征進(jìn)行匹配建模(如圖 1),取得了一定的研究成果。但是特征提取方法復(fù)雜煩瑣,針對(duì)此我們提出了基于卷積神經(jīng)網(wǎng)絡(luò)用戶(hù)名字符嵌入的深度學(xué)習(xí)模型,避免了復(fù)雜的特征提取過(guò)程,提高了模型的泛化能力。

    2 基于用戶(hù)名嵌入的跨社交網(wǎng)絡(luò)用戶(hù)身份匹配算法

    本文中提出了基于卷積神經(jīng)網(wǎng)絡(luò)的字符級(jí)用戶(hù)名嵌入匹配算法,實(shí)現(xiàn)端到端的跨社交網(wǎng)絡(luò)用戶(hù)身份匹配。

    2.1 字符卷積神經(jīng)網(wǎng)絡(luò)

    文本嵌入通常采用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來(lái)進(jìn)行建模,因?yàn)镽NN天生的循環(huán)自回歸結(jié)構(gòu)是對(duì)時(shí)間序列很好表示。而傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)一般認(rèn)為不太適合時(shí)序問(wèn)題的建模,主要由于其卷積核大小的限制,不能很好地抓取長(zhǎng)時(shí)的依賴(lài)信息。Zhang[4]等人于2015年首次提出基于字符級(jí)的卷積神經(jīng)網(wǎng)絡(luò)用于文本分類(lèi)任務(wù),初次探索了文本的字符級(jí)向量表示方法。

    2.2 輸入文本處理

    深度神經(jīng)網(wǎng)絡(luò)模型的輸入應(yīng)是文本向量化表示形式,在將用戶(hù)名文本信息輸入神經(jīng)網(wǎng)絡(luò)模型前,需要將文本表示為模型可處理的數(shù)字形式。對(duì)該研究問(wèn)題來(lái)說(shuō),輸入樣本應(yīng)該是一對(duì)社交賬號(hào)的用戶(hù)名,首先需要從數(shù)據(jù)集中進(jìn)行樣本對(duì)的構(gòu)建,再對(duì)樣本進(jìn)行初始的字符向量化表示。

    2.2.1樣本對(duì)構(gòu)建

    對(duì)給定的已知錨鏈接集合[AS,T], 我們首先將其中的一對(duì)匹配賬號(hào) [(vSi,uTj)] 的用戶(hù)名通過(guò)空格連接起來(lái),作為二分類(lèi)模型框架下的一個(gè)正樣本,隨機(jī)抽取數(shù)據(jù)產(chǎn)生負(fù)樣本對(duì),使正負(fù)樣本比例達(dá)到 1:1,產(chǎn)生可以用于模型訓(xùn)練的用戶(hù)名對(duì)樣本數(shù)據(jù)集。

    2.2.2字符向量化

    模型輸入層要求文本數(shù)據(jù)形式為矩陣形式,首先將字符轉(zhuǎn)化為可處理的數(shù)字化向量表示。為了比較用戶(hù)名中所包含的大、小寫(xiě)字母對(duì)模型特征提取的貢獻(xiàn),分別采用了兩種字母表進(jìn)行用戶(hù)名嵌入。一是大小為 70 的字母表,包含英文小寫(xiě)字母、數(shù)字和常見(jiàn)符號(hào)。大寫(xiě)字母通常會(huì)用在用戶(hù)名首位,或表示用戶(hù)名縮寫(xiě),為了捕捉這一特性中的隱含特征,引入英文大寫(xiě)字母 26 個(gè),將字母表擴(kuò)充為 96 個(gè),進(jìn)行字符級(jí)的用戶(hù)名文本嵌入,兩種字母如表1所示,表中的字母基本包含了用戶(hù)名樣本中的所有字符。

    根據(jù)相應(yīng)的字母表的長(zhǎng)度,將樣本中每一個(gè)輸入的字符初始嵌入轉(zhuǎn)化為 [m] 維向量,將用戶(hù)名字符序列轉(zhuǎn)變?yōu)楣潭ㄩL(zhǎng)度為 [l] 的 [m] 維序列,少數(shù)不在字母表中的特殊字符和空字符轉(zhuǎn)化為維度 [m] 的全零向量,得到二維文本字符特征矩陣。對(duì)于其中的一個(gè)用戶(hù)名對(duì)的樣本 [N=(w0,w1,...,wn)],其中 [n] 表示用戶(hù)名樣本中包含的單詞的個(gè)數(shù),[wi ]表示其中的第 [i] 個(gè)詞, [wi ]包含[ l ]個(gè)字符,每個(gè)字符的嵌入向量為 [cj],其大小為 m 維,因此可以用于輸入卷積神經(jīng)網(wǎng)絡(luò)來(lái)處理每一個(gè)字符得到該用戶(hù)名樣本的字符級(jí)向量表示。

    2.3基于卷積神經(jīng)網(wǎng)絡(luò)的字符級(jí)用戶(hù)名嵌入匹配模型設(shè)計(jì)

    卷積神經(jīng)網(wǎng)絡(luò)的核心結(jié)構(gòu)主要包括卷積層、池化層以及全連接層,卷積層和池化層組合成為特征抽取器來(lái)提取用戶(hù)名文本中蘊(yùn)含的高階語(yǔ)義特征。本文設(shè)計(jì)的跨社交網(wǎng)絡(luò)用戶(hù)匹配模型框架圖如2所示。

    由模型框架可知,該模型以定長(zhǎng)的二維矩陣作為輸入層,根據(jù)字母表選取的不同,輸入的特征個(gè)數(shù)分別為 70 和 96,用戶(hù)名文本特征向量的長(zhǎng)度為該數(shù)據(jù)集中最大樣本長(zhǎng)度的字符數(shù)。之后與卷積核做卷積操作,對(duì)輸入文本進(jìn)行局部特征提取,經(jīng)過(guò)池化層對(duì)卷積層輸出的特征圖進(jìn)行最大池化操作,實(shí)現(xiàn)局部特征再提取。本論文中的模型設(shè)計(jì)了三個(gè)卷積池化層用于提取特征,將提取到的所有特征送入三個(gè)全連接層,由一個(gè)特征空間線性變換到另一個(gè)特征空間,最后通過(guò)softmax 分類(lèi)器,輸出分類(lèi)結(jié)果。本論文中所提模型設(shè)計(jì)的卷積池化層和全連接層如下表 2 所示,全連接層之間加入dropout 層實(shí)現(xiàn)模型的正則化。

    3 實(shí)驗(yàn)驗(yàn)證與分析

    為驗(yàn)證所提算法的有效性,在真實(shí)社交網(wǎng)絡(luò)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)集來(lái)源于zhang等人的論文[5], 是Foursquare 和 Twitter 兩個(gè)社交網(wǎng)絡(luò)。

    3.1實(shí)驗(yàn)設(shè)置

    我們采用以下基于用戶(hù)名嵌入表示的基準(zhǔn)算法進(jìn)行了對(duì)比實(shí)驗(yàn)。

    CharCNN Alignment-96。字母表采用96 個(gè)字符,全連接網(wǎng)絡(luò)作為預(yù)測(cè)輸出層。

    CharCNN Alignment-70。字母表采用70 個(gè)字符,全連接網(wǎng)絡(luò)作為預(yù)測(cè)輸出層。

    Word2Vec + Full Connected Layers。用戶(hù)名通過(guò) word2vec 嵌入表示,CharCNN 模型中全連接部分作為預(yù)測(cè)層。

    Word2Vec + 隨機(jī)森林。用戶(hù)名通過(guò) word2vec 嵌入表示,隨機(jī)森林作為預(yù)測(cè)模型。

    Word2Vec + SVM。用戶(hù)名通過(guò) word2vec 嵌入表示,支持向量機(jī)作為預(yù)測(cè)模型。

    Word2Vec + GBDT。 用戶(hù)名通過(guò) word2vec 嵌入表示,梯度提升樹(shù)作為預(yù)測(cè)模型。

    3.2實(shí)驗(yàn)結(jié)果與分析

    數(shù)據(jù)集劃分為 80% 作為訓(xùn)練集,20% 作為測(cè)試集,與基于 word2vec 的用戶(hù)名嵌入基準(zhǔn)匹配方法做對(duì)比實(shí)驗(yàn),得圖3中的實(shí)驗(yàn)結(jié)果,橫軸表示預(yù)測(cè)結(jié)果的評(píng)價(jià)指標(biāo),縱軸表示三種預(yù)測(cè)指標(biāo)值的大小,不同的顏色分別代表了不同的用戶(hù)名嵌入匹配方法。

    對(duì)比不同方法的實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),基于卷積神經(jīng)網(wǎng)絡(luò)字符級(jí)用戶(hù)名嵌入模型當(dāng)采用 96 個(gè)字符作為字母表時(shí),其 Precision,Recall 和 F1 值分別提升了 2.2%,3.09%,2.62%。因此實(shí)驗(yàn)結(jié)果表明在用戶(hù)名嵌入研究問(wèn)題下,由于用戶(hù)名字符組成結(jié)構(gòu)的特異性,大寫(xiě)字母對(duì)于字符組合語(yǔ)義特征的表達(dá)具有積極作用。除此以外,經(jīng)典的 Word2Vec 文本嵌入方法無(wú)法在基于用戶(hù)名嵌入的身份匹配這一問(wèn)題上獲得比較好的結(jié)果。實(shí)驗(yàn)證明了本文提出的基于卷積神經(jīng)網(wǎng)絡(luò)的字符級(jí)用戶(hù)名嵌入匹配算法的有效性。

    4總結(jié)

    現(xiàn)有基于用戶(hù)名的身份匹配算法從用戶(hù)名字符串中提取各類(lèi)字符統(tǒng)計(jì)特征以捕獲用戶(hù)名選取背后的行為模式,但設(shè)計(jì)特征提取過(guò)程復(fù)雜,不同數(shù)據(jù)集間特征設(shè)計(jì)規(guī)則差異較大,缺乏通用性。本文針對(duì)用戶(hù)名數(shù)據(jù),提出了基于卷積神經(jīng)網(wǎng)絡(luò)的字符級(jí)用戶(hù)名嵌入匹配算法,這是一個(gè)端到端的深度模型框架,可以自動(dòng)學(xué)習(xí)獲得用戶(hù)名字符組合模式的隱含特征。該模型避免了復(fù)雜的特征提取過(guò)程,同時(shí)較易對(duì)模型進(jìn)行擴(kuò)展,提高了模型對(duì)不同語(yǔ)言的泛化能力以及通用性。

    參考文獻(xiàn):

    [1] ZAFARANI R, LIU H. Connecting users across social media sites: a behavioral modeling approach[C]//Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2013: 41-49.

    [2] ZAFARANI R, LIU H. Connecting Corresponding Identities across Communities.[C]//Proceedings of the 3rd International Conference on Weblogs and Social Media, 2009: 354-357.

    [3] LI Y, PENG Y, JI W, et al. User identification based on display names across online social networks[J]. IEEE Access, 2017(5): 17342-17353.

    [4] ZHANG X, ZHAO J, LECUN Y. Character-level convolutional networks for text classification[J]. Advances in neural information processing systems, 2015(28): 649657.

    [5] ZHANG J, YU P S. Integrated anchor and social link predictions across social networks[C]//Proceedings of the 24th International Conference on Artificial Intelligence, 2015: 2125-2131.

    【通聯(lián)編輯:光文玲】

    猜你喜歡
    卷積神經(jīng)網(wǎng)絡(luò)
    基于深度神經(jīng)網(wǎng)絡(luò)的微表情識(shí)別
    卷積神經(jīng)網(wǎng)絡(luò)中減少訓(xùn)練樣本時(shí)間方法研究
    卷積神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型研究
    基于卷積神經(jīng)網(wǎng)絡(luò)的車(chē)輛檢索方法研究
    基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
    基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
    深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
    基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
    軟件工程(2016年8期)2016-10-25 15:47:34
    深度學(xué)習(xí)技術(shù)下的中文微博情感的分析與研究
    軟件(2016年5期)2016-08-30 06:27:49
    基于卷積神經(jīng)網(wǎng)絡(luò)的樹(shù)葉識(shí)別的算法的研究
    青岛市| 洪泽县| 龙川县| 广汉市| 合阳县| 建始县| 依安县| 色达县| 太仆寺旗| 永安市| 招远市| 两当县| 安顺市| 双辽市| 双牌县| 长治县| 美姑县| 禹城市| 乡城县| 黄浦区| 京山县| 峨眉山市| 东丽区| 永济市| 长丰县| 云梦县| 景宁| 三都| 策勒县| 久治县| 鄯善县| 若羌县| 留坝县| 铜川市| 酒泉市| 墨竹工卡县| 苗栗市| 曲靖市| 托里县| 遵义市| 会昌县|