• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于BERT的學(xué)術(shù)合作者推薦研究

    2021-04-06 10:13:42周亦敏
    關(guān)鍵詞:合作者研究者向量

    周亦敏,黃 俊

    (上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)

    0 引 言

    當(dāng)今,已經(jīng)形成一些學(xué)術(shù)搜索引擎,例如微軟學(xué)術(shù)搜索、谷歌學(xué)術(shù)搜索和AMiner等,這使得探索諸如科學(xué)文獻(xiàn)和研究者概況這類海量的數(shù)字學(xué)術(shù)資料更方便。數(shù)據(jù)量和種類的快速增長(zhǎng)需要更先進(jìn)的工具來幫助學(xué)術(shù)數(shù)據(jù)的研究,并且已經(jīng)付出巨大的努力來開發(fā)各種高效的應(yīng)用。長(zhǎng)期以來,學(xué)術(shù)合作者推薦被認(rèn)為是開發(fā)學(xué)術(shù)數(shù)據(jù)的一種有效應(yīng)用,其目的是為給定的研究者找到潛在的合作者。在過去的幾年中,已經(jīng)提出了一些方法[1-3]來解決這樣的問題。盡管取得了進(jìn)步,但現(xiàn)有的技術(shù)只能推薦不考慮上下文關(guān)系的合作者。例如,目前的工作不能推薦合適的候選人給一個(gè)不僅包含“機(jī)器學(xué)習(xí)[4]”而且包含“推薦算法”主題的研究者。一般來說,在尋找合作者之前,研究者會(huì)先確定他要研究的主題。因此,有必要使用上下文關(guān)系為學(xué)術(shù)合作者提供推薦。

    1 相關(guān)工作

    1.1 問題定義

    研究者:一名研究者與他發(fā)表的文獻(xiàn)有關(guān),這些文獻(xiàn)揭示了他的研究興趣和與他人的學(xué)術(shù)合作。

    研究主題:研究主題是從特定文段(如標(biāo)題或關(guān)鍵詞列表中的一個(gè)詞)中提取的關(guān)鍵詞或短語;同時(shí),一個(gè)文獻(xiàn)包含一個(gè)或多個(gè)研究主題,這些研究主題共同反映了其潛在的范疇。

    上下文:合作上下文指的是研究人員在其合作文獻(xiàn)中共同研究的主題集。

    基于以上的初步研究,對(duì)基于BERT的學(xué)術(shù)合作者推薦研究的定義如下:

    BACR給定研究者r0和主題T0,從所有候選者R中找到合作者r,這些合作者將在T0上與r0一起工作,具有最高的可靠性。

    1.2 數(shù)據(jù)預(yù)處理

    該文所研究的學(xué)術(shù)合作者推薦主要用到兩組數(shù)據(jù):研究者和研究主題。研究者每篇學(xué)術(shù)文獻(xiàn)都已給出,需要進(jìn)行預(yù)處理的數(shù)據(jù)是研究主題,主要使用以下兩個(gè)方法:

    (1)詞干提取:去除詞綴得到詞根的過程(得到單詞最一般的寫法)。對(duì)于一個(gè)詞的形態(tài)詞根,詞干不需要完全相同;相關(guān)的詞映射到同一個(gè)詞干一般就能得到滿意的結(jié)果,即使該詞干不是詞的有效根。

    (2)停用詞去除:因?yàn)樵谖墨I(xiàn)的標(biāo)題和摘要中通常會(huì)有一些高頻但無實(shí)際意義的詞,如:“this”,“of”,“is”,“at”等,該文將此類詞語加入停用詞表過濾掉。

    基于以上兩個(gè)方法,從文獻(xiàn)的標(biāo)題和摘要中獲取到一些詞組配合文獻(xiàn)已有的關(guān)鍵詞生成真正的關(guān)鍵詞組。

    2 BERT模型

    BERT[5],即是bidirectional encoder representations from transformers,顧名思義,BERT模型重要部分是基于雙向的Transformer編碼器來實(shí)現(xiàn)的,其模型結(jié)構(gòu)如圖1所示。

    圖1 BERT模型結(jié)構(gòu)

    圖1中的w1,w2,…,w5表示字的文本輸入,經(jīng)過雙向的Transformer編碼器,就可以得到文本的向量化表示,即文本的向量化表示主要是通過Transformer編碼器實(shí)現(xiàn)的。Transformer是由文獻(xiàn)[6]提出,是一個(gè)基于Self-attention的Seq2seq模型,也就是Encoder將一個(gè)可變長(zhǎng)度的輸入序列變成固定長(zhǎng)度的向量,而Decoder將這個(gè)固定長(zhǎng)度的向量解碼成為可變長(zhǎng)度的輸出序列。通常Seq2seq模型中使用RNN來實(shí)現(xiàn)Encoder-Decoder的序列轉(zhuǎn)換,但是RNN存在無法并行、運(yùn)行慢的缺點(diǎn),為了改進(jìn)它的不足,Transformer使用Self-attention來替代RNN。Transformer模型的encoder結(jié)構(gòu)如圖2所示。

    從圖2中可以看出,Encoder的輸入是一句話的字嵌入表示,并且加上該句話中每個(gè)字的位置信息,再經(jīng)>過Self-attention層,使Encoder在編碼每個(gè)字的時(shí)候可以查看該字的前后字的信息。它的輸出會(huì)經(jīng)過一層Add & Norm層,Add表示將Self-attention層的輸入和輸出進(jìn)行相加,Norm表示將相加過的輸出進(jìn)行歸一化處理,使得Self-attention層的輸出有固定的均值和標(biāo)準(zhǔn)差,其中均值為0,標(biāo)準(zhǔn)差為1。歸一化后的向量列表再傳入一層全連接的前饋神經(jīng)網(wǎng)絡(luò),同樣的,F(xiàn)eed Forward層也會(huì)由相應(yīng)的Add & Norm層處理,然后輸出全新的歸一化后的詞向量列表。

    圖2 Transformer Encoder結(jié)構(gòu)

    圖1中的Embedding包含三個(gè)嵌入層分別是Token Embeddings、Segment Embeddings和Position Embeddings,如圖3所示。

    圖3 BERT的輸入表示

    Token Embeddings:Token Embeddings層是要將各個(gè)詞轉(zhuǎn)換成固定維度的向量。輸入文本在送入Token Embeddings層之前要先進(jìn)行tokenization處理。此外,兩個(gè)特殊的token會(huì)被插入到tokenization的結(jié)果的開頭([CLS])和結(jié)尾([SEP])。

    Segment Embeddings:Segment Embeddings層標(biāo)記輸入的句子對(duì)的每個(gè)句子,只有兩種向量表示。前一個(gè)向量是把0賦給第一個(gè)句子中的各個(gè)token,后一個(gè)向量是把1賦給第二個(gè)句子中的各個(gè)token。如果輸入僅僅只有一個(gè)句子,那么它的segment embedding就是全0。

    Position Embeddings:Position Embeddings層標(biāo)識(shí)序列的順序信息,最長(zhǎng)序列長(zhǎng)度為512。Position Embeddings layer實(shí)際上就是一個(gè)lookup表,表的第一行代表第一個(gè)序列的第一個(gè)位置,第二行代表序列的第二個(gè)位置,以此類推。

    BERT模型使用兩個(gè)新的無監(jiān)督預(yù)測(cè)任務(wù)來對(duì)BERT進(jìn)行預(yù)訓(xùn)練,分別是Masked LM和Next Sentence Prediction:

    MLM:給定一句話,隨機(jī)掩蓋部分輸入詞,然后根據(jù)剩余的詞對(duì)那些被掩蓋的詞進(jìn)行預(yù)測(cè)。這個(gè)任務(wù)在業(yè)界被稱為Cloze task(完型填空任務(wù)),它是為了讓BERT模型能夠?qū)崿F(xiàn)深度的雙向表示,不僅需要某個(gè)詞左側(cè)的語言信息,也需要它右側(cè)的語言信息,具體做法是:針對(duì)訓(xùn)練樣本中的每個(gè)句子隨機(jī)抹去其中15%的詞匯用于預(yù)測(cè),例如:“加油武漢,加油中國(guó)”,被抹去的詞是“中”,對(duì)于被抹去的詞,進(jìn)一步采取以下策略:(1)80%的概率真的用[MASK]去替代被抹去的詞:“加油武漢加油中國(guó)”->“加油武漢,加油[MASK]國(guó)”;(2)10%的概率用一個(gè)隨機(jī)詞去替代它:“加油武漢,加油中國(guó)”->“加油武漢,加油大國(guó)”;(3)10%的概率保持不變:“加油武漢,加油中國(guó)”->“加油武漢,加油中國(guó)”。這樣做的主要原因是:在后續(xù)微調(diào)任務(wù)中語句中并不會(huì)出現(xiàn)[MASK]標(biāo)記,若總是使用[MASK]來替代被抹去的詞,就會(huì)導(dǎo)致模型的預(yù)訓(xùn)練與后續(xù)的微調(diào)不一致。這樣做的優(yōu)點(diǎn)是:采用上面的策略后,Transformer encoder就不知道會(huì)讓它預(yù)測(cè)哪個(gè)單詞,換言之它不知道哪個(gè)單詞會(huì)被隨機(jī)單詞給替換掉,那么它就不得不保持每個(gè)輸入token的一個(gè)上下文的表征分布。也就是說如果模型學(xué)習(xí)到了要預(yù)測(cè)的單詞是什么,那么就會(huì)丟失對(duì)上下文信息的學(xué)習(xí),而如果模型訓(xùn)練過程中無法學(xué)習(xí)到哪個(gè)單詞會(huì)被預(yù)測(cè),那么就必須通過學(xué)習(xí)上下文的信息來判斷出需要預(yù)測(cè)的單詞,這樣的模型才具有對(duì)句子的特征表示能力。另外,由于隨機(jī)替換相對(duì)句子中所有tokens的發(fā)生概率只有1.5%(即15%的10%),所以并不會(huì)影響到模型的語言理解能力。

    NSP:給定一篇文章中的兩句話,判斷第二句話在文章中是否緊跟在第一句話之后。許多重要的自然語言處理下游任務(wù),如問答(QA)和自然語言推理(NLI)都是基于理解兩個(gè)句子之間的關(guān)系,因此這個(gè)任務(wù)是為了讓BERT模型學(xué)習(xí)到兩個(gè)句子之間的關(guān)系。具體做法是:從文本語料庫中隨機(jī)選擇50%正確語句對(duì)和50%錯(cuò)誤語句對(duì),即若選擇A和B作為訓(xùn)練樣本時(shí),B有50%的概率是A的下一個(gè)句子(標(biāo)記為IsNext),也有50%的概率是來自語料庫中隨機(jī)選擇的句子(標(biāo)記為NotNext),本質(zhì)上是在訓(xùn)練一個(gè)二分類模型,判斷句子之間的正確關(guān)系。在實(shí)際訓(xùn)練中,NSP任務(wù)與MLM任務(wù)相結(jié)合,讓模型能夠更準(zhǔn)確地刻畫語句乃至篇章層面的語義信息。

    BERT模型的輸出有兩種形式,一種是字符級(jí)別的向量,即輸入短文本的每個(gè)字符對(duì)應(yīng)的有一個(gè)向量表示;另外一種是句子級(jí)別的向量,即BERT模型輸出最左邊[CLS]特殊符號(hào)的向量,它認(rèn)為這個(gè)向量可以代表整個(gè)句子的語義,如圖4所示。

    圖4 BERT模型輸出

    圖4中,最底端中的[CLS]和[SEP]是BERT模型自動(dòng)添加的句子開頭和結(jié)尾的表示符號(hào),可以看到輸入字符串中每個(gè)字符經(jīng)過BERT模型后都有相應(yīng)的向量表示,當(dāng)想要得到一個(gè)句子的向量時(shí),BERT模型輸出最左邊[CLS]特殊符號(hào)的向量,該文應(yīng)用的就是BERT模型的這種輸出。

    3 邏輯回歸模型

    經(jīng)過上節(jié)的處理后,有了研究者和研究主題的向量表示,該文要做的是推薦學(xué)術(shù)合作者,故此巧妙設(shè)置二分類判斷輸入樣本是正類的概率,輸出此概率,最后按照概率的大小做出推薦。在此引入邏輯回歸模型[7](logistic regression),它屬于廣義線性模型。

    假設(shè)有訓(xùn)練樣本集{(x1,y1),(x2,y2),…,(xm,ym)},其中xi∈Rn,表示第i個(gè)訓(xùn)練樣本對(duì)應(yīng)的某篇學(xué)術(shù)文獻(xiàn)里的研究者研究主題向量,維度為n,共m個(gè)訓(xùn)練樣本,yi∈{0,1}表示第i個(gè)訓(xùn)練樣本是否是正類。假設(shè)預(yù)測(cè)函數(shù)為:

    hθ(x)=g(θTx)

    (1)

    其中,x表示特征向量,g表示一個(gè)常用的Logistic函數(shù)(Sigmoid函數(shù)):

    g(z)=1/(1+e(-z))

    (2)

    其中,e是歐拉常數(shù),z表示曲線陡度。

    結(jié)合以上兩式,構(gòu)造的預(yù)測(cè)函數(shù)為:

    hθ(x)=g(θTx)=1/(1+e(-θTx))

    (3)

    由于g(z)函數(shù)的特性,它輸出的結(jié)果不是預(yù)測(cè)結(jié)果,而是一個(gè)預(yù)測(cè)為正類的概率的值,預(yù)測(cè)為負(fù)例的概率就是1-g(z),函數(shù)表示形式如下:

    (4)

    由式(4)可知,hθ(x)預(yù)測(cè)正確的概率為:

    P(正確)=((g(xi,θ))(yi)*(1-g(xi,θ))(1-yi)

    (5)

    其中,yi為某一條樣本的預(yù)測(cè)值,取值范圍為0或者1。一般進(jìn)行到這里就應(yīng)該選擇判別的閾值,由于該文是做出推薦,實(shí)際上是輸出正類概率,最后篩選出前k個(gè)即為推薦的合作者,故不需要設(shè)定閾值。

    此時(shí)想要找到一組θ,使預(yù)測(cè)出的結(jié)果全部正確的概率最大,而根據(jù)最大似然估計(jì)[8],就是所有樣本預(yù)測(cè)正確的概率相乘得到的P(正確)最大,似然函數(shù)如下:

    (6)

    上述似然函數(shù)最大時(shí),公式中的θ就是所要的最好的θ。由于連乘函數(shù)不好計(jì)算,因此對(duì)公式兩邊求對(duì)數(shù)得到對(duì)數(shù)似然函數(shù):

    (7)

    得到的這個(gè)函數(shù)越大,證明得到的θ越好,所以對(duì)求l(θ)的最大值來求得參數(shù)θ的值,由于在函數(shù)最優(yōu)化的時(shí)候習(xí)慣讓一個(gè)函數(shù)越小越好,故此將式(7)做了以下改變得到邏輯回歸的代價(jià)函數(shù):

    (1-yi)log(1-hθ(xi))]

    (8)

    對(duì)于以上所求得的代價(jià)函數(shù),采用梯度下降的方法來求得最優(yōu)參數(shù)θ。梯度下降過程如下:

    Repeat{

    }

    (9)

    其中:

    而又因?yàn)椋?/p>

    則:

    因此:

    故:

    由以上分析可以得到梯度下降過程如下:

    Repeat{

    }

    其中,i=1,2,…,m表示樣本數(shù),j=1,2,…,n表示特征數(shù)。由此方法求得θ,得到預(yù)測(cè)函數(shù)hθ(x),即可對(duì)新輸入的數(shù)據(jù)輸出為正類的概率。

    4 基于BERT的學(xué)術(shù)合作者推薦算法

    綜上2,3,該文提出基于BERT的學(xué)術(shù)合作者推薦算法,其具體流程可以描述如下:

    算法1:基于BERT的學(xué)術(shù)合作者推薦算法。

    輸入:初始研究者研究主題訓(xùn)練集T={(x1,y1),(x2,y2),…,(xn,yn)},其中xi為每條研究者研究主題,yi表示每條訓(xùn)練樣本是否為正類,i=1,2,…,N;

    輸出:學(xué)術(shù)合作者推薦模型M。

    步驟1:使用第1節(jié)中的方法對(duì)訓(xùn)練集T進(jìn)行預(yù)處理,得到預(yù)處理后的訓(xùn)練集T={(x1,y1),(x2,y2),…,(xn,yn)},其中xi為預(yù)處理后的每條研究者研究主題,yi表示預(yù)處理后的每條訓(xùn)練樣本是否為正類,i=1,2,…,N;

    步驟2:使用第2節(jié)中介紹的BERT預(yù)處理語言模型在訓(xùn)練集T上進(jìn)行微調(diào),采用如圖4所示的BERT模型輸出,得到訓(xùn)練集T對(duì)應(yīng)的特征表示為V=(v1,v2,…,vN),其中vi是每條研究者研究主題xi對(duì)應(yīng)的句子級(jí)別的特征向量,i=1,2,…,N;

    步驟3:將步驟2中得到的特征表示V輸入第3節(jié)中介紹的邏輯回歸模型進(jìn)行訓(xùn)練,輸出學(xué)術(shù)合作者推薦模型M。

    5 實(shí)驗(yàn)與評(píng)價(jià)

    5.1 實(shí)驗(yàn)設(shè)置

    5.1.1 數(shù) 據(jù)

    在該實(shí)驗(yàn)中,采用在文獻(xiàn)[9]中的Citation數(shù)據(jù)集進(jìn)行數(shù)據(jù)分析,該數(shù)據(jù)集共包含629 814篇學(xué)術(shù)文獻(xiàn)和130 745名來自數(shù)據(jù)庫和信息系統(tǒng)相關(guān)社區(qū)的研究者。通過預(yù)處理后共獲得13 379個(gè)關(guān)鍵字,每個(gè)關(guān)鍵字都被視為一個(gè)獨(dú)特的主題。選取其中的600 000篇學(xué)術(shù)文獻(xiàn),按照8∶1∶1的比例進(jìn)行訓(xùn)練集、驗(yàn)證集以及測(cè)試集的劃分。

    5.1.2 評(píng)價(jià)目標(biāo)

    針對(duì)以下目標(biāo)進(jìn)行實(shí)驗(yàn):

    主題受限的合作者推薦:評(píng)價(jià)BERT在確定特定主題下推薦合作者的有效性。該文是基于二分類做出的推薦,分類問題最常用的評(píng)價(jià)指標(biāo)包括精確率P、召回率R以及F1值,它們的計(jì)算需要用到混淆矩陣,混淆矩陣[10]如表1所示。

    表1 分類結(jié)果的混淆矩陣

    其中行代表真實(shí)值;列代表預(yù)測(cè)值;0表示negative;1表示positive。如果預(yù)測(cè)的是0,真實(shí)值是0,就為TN;如果預(yù)測(cè)為1,真實(shí)值為0,就為FP;預(yù)測(cè)為0,真實(shí)值為1,就為FN,預(yù)測(cè)為1,真實(shí)值為1,就為TP。

    (1)精確率P是指分類器預(yù)測(cè)為正類且預(yù)測(cè)正確的樣本占所有預(yù)測(cè)為正類的樣本的比例,計(jì)算公式如下:

    (10)

    (2)召回率R是指分類器預(yù)測(cè)為正類且預(yù)測(cè)正確的樣本占所有真實(shí)為正類的樣本的比例,計(jì)算公式如下:

    (11)

    (3)F1值是兼顧P和R的一個(gè)指標(biāo),一般計(jì)算公式[11]如下:

    (12)

    此時(shí)F是P和R的加權(quán)調(diào)和平均,α>0度量了R對(duì)P的相對(duì)重要性,通常取α=1,此時(shí)是最常見的F1,也即:

    (13)

    其中,0≤F1≤1。當(dāng)P=1且R=1時(shí),F(xiàn)1達(dá)到最大值為1,此時(shí)精確率P和召回率R均達(dá)到100%,這種情況是完美狀態(tài),而由文獻(xiàn)[11]知實(shí)際中很難達(dá)到,因?yàn)镻和R是一對(duì)矛盾的變量,當(dāng)P較高時(shí),R往往會(huì)偏低;當(dāng)R較高時(shí),P又往往偏低。因此,在使用F1值評(píng)估性能時(shí),其值越接近1,說明分類器的性能越好。由于F1值是對(duì)P和R兩個(gè)評(píng)價(jià)指標(biāo)的綜合考慮,可以更加全面地反映性能,因此它是評(píng)價(jià)實(shí)驗(yàn)效果的主要評(píng)價(jià)指標(biāo)。

    5.1.3 評(píng)價(jià)方法

    為了評(píng)估BERT在主題限制的情況下推薦合作者的性能,采用以下基于Network Embedding的具有代表性的方法進(jìn)行比較。

    (1)深層網(wǎng)絡(luò)結(jié)構(gòu)嵌入(SDNE)。SDNE[12]代表為編碼實(shí)體及其關(guān)系的結(jié)構(gòu)信息而設(shè)計(jì)的方法[13]。當(dāng)應(yīng)用于BACR問題時(shí),研究者被視為實(shí)體,在特定主題中的合作被視為上下文關(guān)系。由于主題的組合,BACR中實(shí)際上存在無限數(shù)量的上下文關(guān)系,因此不能直接采用像[13]這樣的常規(guī)方法。

    (2)特定任務(wù)嵌入(TSE)。針對(duì)作者識(shí)別問題,在文獻(xiàn)[14]中提出了TSE。簡(jiǎn)單來說,TSE由三個(gè)層次構(gòu)成:第一個(gè)層次用嵌入學(xué)習(xí)方法表示上下文關(guān)系的每個(gè)來源(如關(guān)鍵詞、場(chǎng)所),如文獻(xiàn)[15-16];在實(shí)驗(yàn)中,這些嵌入是為研究者和研究主題獨(dú)立學(xué)習(xí)的。在第二層,對(duì)所有源的提取嵌入進(jìn)行不同權(quán)重的集成;最后,在集成嵌入的前提下,第三層學(xué)習(xí)特定分類任務(wù)的模型參數(shù)。

    在以上比較方法中共享嵌入維數(shù)Dim。在該實(shí)驗(yàn)中,Dim的范圍為{10,20,30,40,50,60}。粗體表示Dim有效性的比較的默認(rèn)值,其他用于評(píng)估參數(shù)靈敏度。而該文使用的BERT預(yù)訓(xùn)練模型是Google提供的BERT-Base模型,Transformer層數(shù)12層;隱藏層768維;采用了12頭模式;共有110 M個(gè)參數(shù);其他的訓(xùn)練參數(shù)如表2所示。該文使用邏輯回歸用于所有的比較方法,評(píng)價(jià)指標(biāo)主要采用F1值。

    表2 BERT模型訓(xùn)練參數(shù)

    5.2 主題受限的合作預(yù)測(cè)

    5.2.1 BERT的有效性

    所有比較方法的性能總結(jié)為表3,其中維數(shù)Dim設(shè)置為20、40和60;而推薦人數(shù)K設(shè)置為5、10、15和20。根據(jù)所呈現(xiàn)的結(jié)果,BERT證明了其在預(yù)測(cè)主題受限的合作者方面的優(yōu)勢(shì),因?yàn)樗a(chǎn)生的F1明顯高于其他人。

    表3 主題受限的合作者預(yù)測(cè)表現(xiàn)

    給定不同主題研究者傾向于與不同研究員合作,使得有必要使推薦算法考慮研究者主題依賴關(guān)系。通過對(duì)實(shí)驗(yàn)結(jié)果的進(jìn)一步分析,可以得出以下三點(diǎn):

    首先,與SDNE相比,BERT和TSE都具有更好的性能。這些方法中最顯著的區(qū)別在于,BERT和TSE都在訓(xùn)練推薦模型的同時(shí)提取上下文關(guān)系。因此,將上下文關(guān)系引入到推薦模型中是十分必要的。

    其次,通過觀察,BERT的表現(xiàn)甚至比TSE更好。與研究者和研究主題的特征是獨(dú)立訓(xùn)練的TSE不同,特征訓(xùn)練在BERT中是一起訓(xùn)練的。通過這種方式,研究者和研究主題的上下文關(guān)系自然得以保留,從而有助于更準(zhǔn)確的推薦。

    最后,在所有的比較方法中,SDNE的性能最低。很明顯的原因是SDNE沒有考慮到研究者和研究主題之間存在的上下文關(guān)系,不同的研究主題下,研究者傾向于與不同的研究者合作。如研究者A傾向于與B在“推薦算法”上合作而不是C,但卻傾向于與C在“機(jī)器學(xué)習(xí)[4]”上合作而不是B。

    5.2.2 超參數(shù)對(duì)推薦算法的影響

    圖5(a)和(b)分別演示了超參數(shù)Epoch和Learning Rate的影響。根據(jù)給出的結(jié)果,當(dāng)Epoch=3和Learning Rate=1e-5時(shí),獲得了優(yōu)越的性能。此外,很顯然,Learning Rate對(duì)BERT的性能影響更大,因?yàn)樯傻慕Y(jié)果因Learning Rate不同而差異很大。較大的Learning Rate使梯度下降的速率更快,但也可能導(dǎo)致錯(cuò)過全局最優(yōu)點(diǎn);因此,需要通過網(wǎng)格搜索仔細(xì)選擇適當(dāng)?shù)闹怠?/p>

    (a)Epoch對(duì)F1值的影響

    (b)Learning Rate對(duì)F1值的影響圖5 超參數(shù)的影響

    5.3 實(shí)驗(yàn)結(jié)論

    綜上可知,基于BERT的學(xué)術(shù)合作者推薦充分考慮了研究者和研究主題間的上下文關(guān)系,對(duì)比以往的方法顯著提高了性能,相較于TSE最高提高達(dá)到了6.45%,最低提高2.10%;而相較于SDNE最高提高則高達(dá)18.00%,最低也提高了13.52%,這也充分展示了BERT的優(yōu)越性能。

    6 結(jié)束語

    在解決學(xué)術(shù)合作者推薦的問題中,使用BERT模型進(jìn)行研究者和研究主題的向量表示,提出了一種基于BERT模型的學(xué)術(shù)合作者推薦算法,并與SDNE、TSE兩個(gè)模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明BERT模型在研究者研究主題向量的表示上能達(dá)到很好的效果,在一定程度上提升了推薦算法的準(zhǔn)確性。

    猜你喜歡
    合作者研究者向量
    向量的分解
    有“德”的人
    中外文摘(2021年8期)2021-11-11 16:10:08
    有“德”的人
    高等教育中的學(xué)生成為研究者及其啟示
    聚焦“向量與三角”創(chuàng)新題
    研究者稱,經(jīng)CRISPR技術(shù)編輯過的雙胞胎已出生??茖W(xué)將如何回應(yīng)?
    英語文摘(2019年2期)2019-03-30 01:48:40
    怎樣是最好的合作者
    今日文摘(2018年23期)2018-12-17 05:21:20
    怎樣是最好的合作者
    意林(2018年20期)2018-10-31 14:50:42
    研究者調(diào)查數(shù)據(jù)統(tǒng)計(jì)
    中華手工(2018年6期)2018-07-17 10:37:42
    向量垂直在解析幾何中的應(yīng)用
    资溪县| 河源市| 玛多县| 南陵县| 张家港市| 灵丘县| 东安县| 玛纳斯县| 洛宁县| 县级市| 安多县| 青浦区| 呼伦贝尔市| 清镇市| 呈贡县| 新昌县| 如东县| 颍上县| 山东| 都匀市| 治多县| 湘阴县| 明光市| 乐山市| 炉霍县| 平武县| 凭祥市| 江陵县| 克东县| 青海省| 荥经县| 刚察县| 衡阳县| 乌拉特中旗| 津南区| 桐庐县| 南澳县| 邹平县| 甘谷县| 漳州市| 视频|