• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種融合關(guān)系抽取的推薦系統(tǒng)

    2022-11-18 03:57:30高春曉盧士帥劉瓊昕宋祥
    關(guān)鍵詞:特征提取圖譜物品

    高春曉,盧士帥,劉瓊昕,宋祥

    (1. 北京理工大學(xué) 北京市海量語言信息處理與云計(jì)算應(yīng)用工程技術(shù)研究中心,北京 100081;2. 北京理工大學(xué) 計(jì)算機(jī)學(xué)院,北京 100081)

    隨著信息技術(shù)的快速發(fā)展,人們?cè)絹碓诫y以從龐大的信息流中尋找自身感興趣的信息. 推薦系統(tǒng)通過用戶的歷史交互行為發(fā)掘用戶的興趣愛好,為用戶個(gè)性化推薦物品.

    基于內(nèi)容的推薦算法應(yīng)用廣泛,但存在知識(shí)利用不充分問題. 為了解決這一問題,本文提出了一種融合關(guān)系抽取的推薦系統(tǒng)FRE-RE(A REcommendation system with Fusion Relation Extraction),用補(bǔ)充模板的關(guān)系抽取技術(shù)構(gòu)建增強(qiáng)知識(shí)圖譜,進(jìn)而獲得增強(qiáng)實(shí)體特征,與文本特征、基礎(chǔ)實(shí)體特征融合后構(gòu)建物品特征,應(yīng)用到推薦系統(tǒng)中來. 實(shí)驗(yàn)證明,補(bǔ)充模板特征的關(guān)系抽取模型可以提高基礎(chǔ)模型的效果,具有廣泛的適用性;融合關(guān)系抽取的推薦系統(tǒng)效果優(yōu)于其它模型,模型改進(jìn)的各部分都是有效的.

    1 國內(nèi)外研究現(xiàn)狀

    推薦系統(tǒng)主要包含3 類:基于內(nèi)容的推薦系統(tǒng)、基于時(shí)間線的推薦系統(tǒng)和基于知識(shí)圖譜的推薦系統(tǒng).

    基于內(nèi)容的推薦算法根據(jù)物品的特性和用戶的特殊偏好等特征屬性進(jìn)行推薦. 矩陣分解是內(nèi)容推薦算法中一種常見的方法,DIETZ 等[1]提出了NRTCBR 模型,將對(duì)話引用到推薦系統(tǒng)中,讓用戶在對(duì)話回合中反饋更新數(shù)據(jù). OPPERMANN 等[2]提出了Viz-Commender 模型,在存儲(chǔ)庫中計(jì)算文本的相似性. 劉瓊昕等[3]提出了一種基于知識(shí)表示學(xué)習(xí)的協(xié)同矩陣分解方法,該方法從物品的知識(shí)圖譜中學(xué)習(xí)其向量表示,并在此基礎(chǔ)上聯(lián)合地分解反饋矩陣和物品關(guān)聯(lián)度矩陣,兩種矩陣共享物品向量,利用物品的語義信息彌補(bǔ)反饋數(shù)據(jù)的缺失.

    基于時(shí)間線的推薦系統(tǒng)將用戶與物品的交互時(shí)間信息融入模型中,YU 等[4]提出DREAM 模型,把用戶在不同時(shí)間的動(dòng)態(tài)偏好和用戶的全局序列特性結(jié)合. LI 等[5]提出NARM 模型,使用新的注意力機(jī)制,對(duì)用戶的行為進(jìn)行序列化建模并捕獲用戶在當(dāng)前會(huì)話中的主要目的.

    知識(shí)圖譜在多個(gè)領(lǐng)域取得了很多應(yīng)用,許多學(xué)者嘗試將其引入到推薦系統(tǒng)中. SUN 等[6]提出了NIAGCN 模型,使用逐層鄰居聚合(PNA)并行圖卷積網(wǎng)絡(luò)(Parallel-GCNs)和跨深度集成(CDE). JIN 等[7]把創(chuàng)新后的圖卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在知識(shí)圖譜推薦系統(tǒng)上來,提出了MBGCN 模型. SHI 等[8]使用深度神經(jīng)網(wǎng)絡(luò)搭配自注意力機(jī)制,提出了NeuACF 模型. KGAT[9]在CKG 嵌入層將用戶-項(xiàng)目交互矩陣與知識(shí)圖譜相結(jié)合,通過嵌入的方式得到圖譜項(xiàng)目向量表示,然后進(jìn)行推薦. 劉瓊昕等[10]提出了基于知識(shí)增強(qiáng)的深度新聞推薦網(wǎng)絡(luò),利用長短期記憶網(wǎng)絡(luò)提取知識(shí)圖譜中的實(shí)體路徑特征.

    2 融合關(guān)系抽取的推薦系統(tǒng)模型介紹

    系統(tǒng)的流程圖如圖1 所示,首先通過實(shí)體鏈接將歷史行為中交互物品的文本描述轉(zhuǎn)化為包含實(shí)體集合的文本描述,然后構(gòu)建基礎(chǔ)知識(shí)圖譜和增強(qiáng)知識(shí)圖譜;利用得到的兩個(gè)知識(shí)圖譜,進(jìn)行物品特征構(gòu)建;將用戶歷史行為中交互的物品特征向量用用戶興趣構(gòu)建模型進(jìn)行融合,得到用戶興趣特征向量,與目標(biāo)物品的特征向量通過多層感知機(jī)相關(guān)度預(yù)測(cè),進(jìn)而進(jìn)行推薦.

    圖1 融合關(guān)系抽取的推薦系統(tǒng)整體流程Fig. 1 The whole process of recommendation system based on fusion relationship extraction

    2.1 模型架構(gòu)介紹

    本文提出的融合關(guān)系抽取的推薦系統(tǒng)由4 部分組成,分別是知識(shí)提取、物品特征構(gòu)建、用戶興趣構(gòu)建和多層感知機(jī)(如圖2 所示).

    圖2 融合關(guān)系抽取的推薦系統(tǒng)Fig. 2 Recommendation system with fusion of relation extraction

    模型定義如式(1)所示.

    2.2 補(bǔ)充模板特征的關(guān)系抽取模型

    傳統(tǒng)的關(guān)系抽取模型沒有充分挖掘?qū)嶓w在詞典中的深層次聯(lián)系,并且對(duì)WordNet 詞典信息利用過于簡單. 為此,提出了一種補(bǔ)充模板特征的關(guān)系抽取模型,使用WordNet 詞典中實(shí)體上位詞路徑,同時(shí)使用與傳統(tǒng)模型完全獨(dú)立的網(wǎng)絡(luò)結(jié)構(gòu)提取模板特征.

    2.2.1 模板特征

    模板特征是指一個(gè)句子按照一定規(guī)則用上位詞路徑替換實(shí)體之后得到的句子的語義特征. 某個(gè)實(shí)體的完全上位詞路徑是實(shí)體在WordNet 詞典中從頂層實(shí)體到該實(shí)體的一條路徑.

    本文中實(shí)體上位詞路徑定義為該實(shí)體的前n層完全上位詞路徑. 使用實(shí)體上位詞路徑替換實(shí)體后,得到的句子作為補(bǔ)充模板關(guān)系抽取模塊的一個(gè)訓(xùn)練樣本,通過模型訓(xùn)練提取模板特征.

    2.2.2 關(guān)系抽取模型框架

    模型分為3 個(gè)部分,分別是句子特征提取器、模板特征提取器和門限融合(如圖3 所示).

    圖3 補(bǔ)充模板特征的關(guān)系抽取模型Fig. 3 Relation extraction model supplemented with template features

    1)句子特征提取.

    2)模板特征提取器.

    模板特征提取器是通過神經(jīng)網(wǎng)絡(luò)提取句子模板特征,并在提取過程中盡可能減少實(shí)體信息. 由于模板是一個(gè)全局特征,而雙向LSTM 對(duì)提取全局特征有天然的優(yōu)勢(shì),同時(shí)使用注意力機(jī)制可以進(jìn)一步提高特征的準(zhǔn)確性,所以采用雙向LSTM 和注意力機(jī)制結(jié)合的方式進(jìn)行特征抽取.

    模板特征提取器的架構(gòu)圖如圖3 右側(cè)所示,由5部分組成,分別是實(shí)體替換、嵌入層、自注意力層、BLSTM 層和注意力層.

    模型首先將句子中的實(shí)體替換為實(shí)體上位詞路徑. 具體地,采用迭代的方法,不斷地尋找當(dāng)前詞語的上位詞,直到WordNet 詞典中的頂層實(shí)體;然后截取實(shí)體的前s層完全上位詞路徑,即得到實(shí)體上位詞路徑,s為超參數(shù),實(shí)驗(yàn)中選取s=6(見算法1). 經(jīng)過實(shí)體替換后,句子可以表示為x=[x1,x2,···,xn], 其中,xi表示句子中第i個(gè) 詞,n為句子長度.

    2.2.3 關(guān)系預(yù)測(cè)

    在得到文本特征向量V后,本文使用全連接網(wǎng)絡(luò)和softmax 函數(shù)作為分類器進(jìn)行預(yù)測(cè). 文本特征向量V作為輸入,得到關(guān)系類別的概率分布p?(y|S),則預(yù)測(cè)結(jié)果y? 是概率分布p?(y|S)的最大值所對(duì)應(yīng)的關(guān)系類別,如式(20)~(21)所示. 其中,S表示句子,WS∈Rm×mg為 文本特征與關(guān)系的映射矩陣,bS∈Rm為偏置向量.

    2.3 融入關(guān)系抽取的推薦系統(tǒng)

    2.3.1 知識(shí)提取

    為了獲取物品的描述文本中所包含的知識(shí),本文通過一些流程進(jìn)行知識(shí)提取,如圖4 所示. 流程分為3 個(gè)部分,分別獲得詞嵌入集合Sw、基礎(chǔ)實(shí)體嵌入集合Sb和增強(qiáng)實(shí)體嵌入集合Se.

    圖4 知識(shí)提取流程Fig. 4 Knowledge extraction process

    在獲得詞嵌入集合的流程中,本文使用word2vec詞嵌入[12]方法,從大規(guī)模語料中訓(xùn)練得到詞嵌入集合Sw,其中每個(gè)詞嵌入的維度為dw.

    在獲得實(shí)體嵌入集合的流程中,本文采用實(shí)體鏈接技術(shù)[13-14],通過與知識(shí)庫進(jìn)行匹配消歧,獲得文本中包含的實(shí)體集合. 由于原始知識(shí)圖譜規(guī)模較大,本文從中抽取一個(gè)子圖,去除不在實(shí)體集合中的結(jié)點(diǎn),得到基礎(chǔ)知識(shí)圖譜. 此外,本文依據(jù)實(shí)體集合,在描述文本中標(biāo)注出對(duì)應(yīng)的實(shí)體,采用第2.2 節(jié)的補(bǔ)充模板特征的關(guān)系抽取模型進(jìn)行關(guān)系識(shí)別. 經(jīng)過實(shí)體鏈接后,一個(gè)句子中可能包含多個(gè)實(shí)體,本文對(duì)所有的實(shí)體進(jìn)行組合、預(yù)測(cè),構(gòu)建出增強(qiáng)知識(shí)圖譜. 最后本文采用知識(shí)表示學(xué)習(xí)方法(如TransE、TransR、TransD等),將基礎(chǔ)知識(shí)圖譜和增強(qiáng)知識(shí)圖譜中的實(shí)體和關(guān)系映射到低維向量空間中,獲得基礎(chǔ)實(shí)體嵌入集合Sb和增強(qiáng)實(shí)體嵌入集合Se,其中每個(gè)基礎(chǔ)實(shí)體嵌入和增強(qiáng)實(shí)體嵌入的維度均為de.

    2.3.2 物品特征構(gòu)建

    本文構(gòu)建物品特征采用知識(shí)感知的卷積神經(jīng)網(wǎng)絡(luò)KCNN,考慮3 種特征,分別是文本特征、基礎(chǔ)實(shí)體特征和增強(qiáng)實(shí)體特征. 物品特征構(gòu)建如圖5 所示.

    圖5 物品特征構(gòu)建Fig. 5 Item feature construction

    2.3.3 用戶興趣構(gòu)建

    本文使用注意力機(jī)制構(gòu)建用戶興趣,如圖6 所示. 假定用戶u的歷史交互行為中包含n個(gè)物品,其描

    圖6 用戶興趣構(gòu)建Fig. 6 User interest building

    3 融入關(guān)系抽取的推薦系統(tǒng)實(shí)驗(yàn)

    實(shí)驗(yàn)包含兩部分,首先驗(yàn)證補(bǔ)充模板特征的關(guān)系抽取模型的有效性,然后證明融合關(guān)系抽取的推薦系統(tǒng)的有效性.

    3.1 補(bǔ)充模板特征的關(guān)系抽取模型

    3.1.1 數(shù)據(jù)集和對(duì)比實(shí)驗(yàn)

    實(shí)驗(yàn)使用SemEval-2010 Task 8[15]數(shù)據(jù)集進(jìn)行關(guān)系抽取.

    為了驗(yàn)證模板特征提取器的有效性和適用性,本文選擇不同的關(guān)系抽取模型作為句子特征提取器,對(duì)比添加模板特征提取器前后的模型效果,實(shí)驗(yàn)結(jié)果如表1 所示.

    本文在句子特征提取器中采用的模型包含3 類,分別是使用詞法的模型、基于句法的模型和端對(duì)端模型.

    由表1 可知,模型在補(bǔ)充模板特征后效果均有提升,這表明模板特征提取器對(duì)提升模型預(yù)測(cè)效果是有效的,并且具有普遍的適用性.

    表1 模型補(bǔ)充模板特征前后的效果對(duì)比Tab. 1 Comparison of effects before and after model supplement template features

    3.1.2 有效性實(shí)驗(yàn)

    為了驗(yàn)證實(shí)體上位詞路徑和模板位置標(biāo)志的有效性,本文采用P-CNN 模型作為句子特征提取器,設(shè)計(jì)了如表2 所示的有效性實(shí)驗(yàn).

    表2 模型中EHP 和TPI 的有效性驗(yàn)證Tab. 2 Validation of EHP and TPI in the model

    其中,SF 表示句子特征提取器;WE 和EHP 分別表示使用實(shí)體和實(shí)體上位詞路徑進(jìn)行關(guān)系抽??;TPI、PI 和PE 分別表示使用模板位置標(biāo)志、位置標(biāo)志和位置嵌入. TPI 指本文提出的模板位置標(biāo)志;PI 指不去除4 個(gè)位置標(biāo)志<e1>、</e1>、<e2>和</e2>,將其當(dāng)作句子中的詞,進(jìn)行關(guān)系抽?。籔E 指獲得句子中詞語與實(shí)體對(duì)相對(duì)距離,通過嵌入矩陣獲得位置向量,與詞向量拼接作為輸入.

    當(dāng)使用詞嵌入時(shí),模板特征提取器模塊與句子特征提取器模塊功能類似,提取模板特征能力非常弱,提取句子特征能力非常強(qiáng),因此使用位置嵌入方式影響最大,模板位置標(biāo)志方式影響最?。划?dāng)使用實(shí)體上位詞路徑時(shí),模板特征提取器模塊可以實(shí)現(xiàn)提取模板功能,且能力非常強(qiáng),因此使用模板位置標(biāo)志方式影響最大,位置嵌入方式影響最小. 由表2 可知,同時(shí)使用句子特征提取器和模板特征提取器,并且使用模板位置標(biāo)志信息,模型可以獲得最好的效果.

    3.2 融合關(guān)系抽取的推薦系統(tǒng)

    3.2.1 數(shù)據(jù)集和對(duì)比實(shí)驗(yàn)

    融合關(guān)系抽取的推薦系統(tǒng)采用的數(shù)據(jù)集來自亞馬遜(Amazon.com),在Electronics 子集上進(jìn)行實(shí)驗(yàn).將FRE-RE 與其他模型進(jìn)行對(duì)比,結(jié)果如表3 所示.

    表3 Electronics 子集上與其他模型的對(duì)比結(jié)果Tab. 3 Comparison results with other models on Electronics data set

    FRE-RE 在Electronics 子集上的推薦效果要優(yōu)于其他推薦模型. FRE-RE 與DKN 模型相比增加了增強(qiáng)知識(shí)圖譜信息,采用補(bǔ)充模板特征的關(guān)系抽取模型等獲得增強(qiáng)實(shí)體特征,使得模型包含更多的知識(shí)信息;與RippleNet 模型相比區(qū)分了普適知識(shí)和專業(yè)知識(shí),即基礎(chǔ)實(shí)體特征和增強(qiáng)實(shí)體特征,保留了更多的有效信息,預(yù)測(cè)效果進(jìn)一步提升.

    3.2.2 消融實(shí)驗(yàn)

    為了驗(yàn)證模型各個(gè)部分的有效性,本文設(shè)計(jì)了消融實(shí)驗(yàn),結(jié)果如表4 所示.

    表4 消融實(shí)驗(yàn)結(jié)果Tab. 4 Ablation experiment results

    其中,“-EnhancedEntity”表示模型僅使用文本特征和基礎(chǔ)實(shí)體特征;“-TemplateFeature”表示在知識(shí)提取中采用去除模板特征的關(guān)系抽取模型獲得增強(qiáng)實(shí)體特征;“-TransE”、“-TransR”和“-TransD”分別表示使用不同的知識(shí)表示學(xué)習(xí)方法獲得增強(qiáng)實(shí)體特征,使用不同知識(shí)表示學(xué)習(xí)方法的實(shí)驗(yàn)結(jié)果如表5所示.

    表5 不同知識(shí)表示學(xué)習(xí)方法實(shí)驗(yàn)結(jié)果Tab. 5 The results of different knowledge represent methods

    由表4 可以得出,在物品特征構(gòu)建中補(bǔ)充增強(qiáng)實(shí)體特征與未補(bǔ)充相比,前者模型效果比后者約高0.9%,這說明增強(qiáng)實(shí)體特征的有效性. FRE-RE 和去除模板特征后的實(shí)驗(yàn)結(jié)果相比約高0.4%,這說明模板特征在模型中的有效性. 由表5 可以得出,在知識(shí)表示學(xué)習(xí)方法的選擇中,TransE、TransR 和TransD 效果依次提高,相差較小.

    4 結(jié) 論

    為了解決傳統(tǒng)的推薦模型存在物品知識(shí)利用不充分的問題,本文提出了融合關(guān)系抽取的推薦系統(tǒng)FRE-RE,首先通過知識(shí)提取獲得詞嵌入集合、基礎(chǔ)實(shí)體嵌入集合和增強(qiáng)實(shí)體嵌入集合;然后將所有的知識(shí)信息融入到神經(jīng)網(wǎng)絡(luò)中,構(gòu)建物品特征;接著把用戶的歷史交互行為作為輸入信息,采用注意力網(wǎng)絡(luò)構(gòu)建用戶特征;最后使用多層感知機(jī)實(shí)現(xiàn)個(gè)性化推薦. 在獲取增強(qiáng)實(shí)體嵌入集合時(shí),需要使用關(guān)系抽取技術(shù),本文對(duì)其進(jìn)行深入研究,提出了補(bǔ)充模板特征的關(guān)系抽取模型,利用WordNet 詞典信息挖掘?qū)嶓w間深層次聯(lián)系. 該模型首先獲得句子特征,然后通過WordNet 詞典獲得實(shí)體上位詞路徑作為模型輸入,采用雙向LSTM 和注意力機(jī)制等獲得模板特征,最后通過門限融合的方式融合兩種特征,預(yù)測(cè)關(guān)系類別.

    實(shí)驗(yàn)表明補(bǔ)充模板特征的關(guān)系抽取模型可以提高基礎(chǔ)模型的效果,具有適用性;融合關(guān)系抽取的推薦系統(tǒng)的預(yù)測(cè)效果比其他模型好,且模型的各個(gè)部分都是有效的.

    在今后的研究工作中,可以考慮:在補(bǔ)充模板特征的關(guān)系抽取模型中使用蒸餾網(wǎng)絡(luò)對(duì)多條路徑進(jìn)行選擇;在融合關(guān)系抽取的推薦系統(tǒng)中把關(guān)系抽取和命名實(shí)體識(shí)別或事件抽取等任務(wù)聯(lián)合學(xué)習(xí). 通過這些手段,更加充分地挖掘現(xiàn)有數(shù)據(jù),獲取更加準(zhǔn)確的知識(shí).

    猜你喜歡
    特征提取圖譜物品
    稱物品
    “雙十一”,你搶到了想要的物品嗎?
    繪一張成長圖譜
    誰動(dòng)了凡·高的物品
    基于Daubechies(dbN)的飛行器音頻特征提取
    電子制作(2018年19期)2018-11-14 02:37:08
    補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
    中成藥(2017年3期)2017-05-17 06:09:01
    Bagging RCSP腦電特征提取算法
    主動(dòng)對(duì)接你思維的知識(shí)圖譜
    找物品
    基于MED和循環(huán)域解調(diào)的多故障特征提取
    博爱县| 文登市| 泰来县| 苏州市| 三门县| 滕州市| 南丰县| 平度市| 县级市| 武定县| 濮阳县| 正蓝旗| 修文县| 旺苍县| 两当县| 米易县| 浠水县| 万年县| 定远县| 怀柔区| 石渠县| 朝阳区| 贞丰县| 姚安县| 班戈县| 博罗县| 浦东新区| 维西| 油尖旺区| 渝中区| 伽师县| 昌邑市| 静安区| 巴南区| 简阳市| 长汀县| 云浮市| 大荔县| 牡丹江市| 新龙县| 郎溪县|