• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于CiteSpace的國內(nèi)外關(guān)鍵詞提取技術(shù)研究態(tài)勢分析

    2021-03-11 03:35:12王霄漢
    電子技術(shù)與軟件工程 2021年21期
    關(guān)鍵詞:學(xué)者聚類領(lǐng)域

    王霄漢

    (北京工業(yè)大學(xué) 北京市 100124)

    1 引言

    隨著人工智能的飛速發(fā)展,關(guān)鍵詞提取技術(shù)已成為自然語言處理領(lǐng)域中的關(guān)鍵一環(huán)。早期的關(guān)鍵詞提取依賴于專家評定和人工標(biāo)注[1]。隨著人工智能的不斷發(fā)展,自動化關(guān)鍵詞抽取技術(shù)有了很大進(jìn)展,但目前的提取性能與人工提取結(jié)果相差甚遠(yuǎn)。文檔自動標(biāo)引方法是關(guān)鍵詞抽取研究的開端,學(xué)者將此技術(shù)引入到中文關(guān)鍵詞提取領(lǐng)域。在第一個自動關(guān)鍵詞抽取系統(tǒng)實施后,包括中國在內(nèi)的大量科研力量投入到這一領(lǐng)域,并逐步形成了基于統(tǒng)計學(xué)、語言分析、人工智能等多種現(xiàn)有技術(shù)體系[2]。目前,該領(lǐng)域的研究成果比較豐碩,但總體研究情況還沒有理清。本文以關(guān)鍵詞抽取相關(guān)文獻(xiàn)為研究對象,結(jié)合CiteSpace 可視化分析,梳理其演變、應(yīng)用熱點和研究趨勢。

    2 數(shù)據(jù)來源與研究方法

    2.1 數(shù)據(jù)來源

    Web of Science 數(shù)據(jù)庫收錄了中外近萬種學(xué)術(shù)期刊,使其成為國際上頗有影響力的文獻(xiàn)數(shù)據(jù)庫。本文在WebofScience 數(shù)據(jù)庫中使用檢索式TS = ("keyword extraction" OR "feature extraction algorithm" OR "information extraction algorithm" OR "keyword extraction algorithm"),以1997-2021年為跨度,選擇期刊、會議、碩士、博士論文作為文獻(xiàn)類型。共收集有效文獻(xiàn)資料3907 份,由于CiteSpace 分析Web of Science 數(shù)據(jù)庫時有特殊格式要求,因此以純文本格式輸出,并導(dǎo)入CiteSpace 中轉(zhuǎn)換,即可分析數(shù)據(jù)。

    2.2 研究方法

    作為信息可視化領(lǐng)域最先進(jìn)的文獻(xiàn)計量分析軟件之一,CiteSpace 由費城德雷塞爾大學(xué)陳超美教授開發(fā)[3]。CiteSpace 能夠在特定的時空維度上揭示知識發(fā)展過程與結(jié)構(gòu)之間的關(guān)系,揭示知識的演化過程,呈現(xiàn)宏觀及微觀的研究狀況[4]。通過對3907 篇與關(guān)鍵詞抽取相關(guān)的文獻(xiàn)進(jìn)行分析,本文主要分為兩個部分:第一部分是關(guān)鍵詞提取技術(shù)的時空知識圖譜處理結(jié)果及分析,包括關(guān)鍵詞抽取研究技術(shù)的時間分布、空間分布(從宏觀的國家分布及合作關(guān)系到逐漸細(xì)化的機(jī)構(gòu)分布及合作關(guān)系,作者分布及合作關(guān)系);第二部分是研究領(lǐng)域熱點、前沿知識圖譜分析及發(fā)展趨勢預(yù)測,包括該領(lǐng)域的研究熱點演化分析、前沿關(guān)鍵詞分析及研究方向預(yù)測。

    3 關(guān)鍵詞提取技術(shù)時空知識圖譜處理結(jié)果及分析

    3.1 時間分布

    通過檢索Web of Science 數(shù)據(jù)庫,1997年至2021年與關(guān)鍵詞提取技術(shù)相關(guān)的文獻(xiàn)數(shù)量如圖1所示。在20世紀(jì)末,研究人員使用無監(jiān)督學(xué)習(xí)的TF-IDF 算法提取關(guān)鍵詞。隨著學(xué)者在這一領(lǐng)域研究的不斷深入,1999年引入了有監(jiān)督分類學(xué)習(xí)方法,即創(chuàng)建具有關(guān)鍵字特征的分類器,利用二值分類的思想判斷文本中的關(guān)鍵詞,關(guān)鍵字集將是關(guān)鍵字提取的結(jié)果[5]。隨后,在2013年左右,學(xué)者將樸素貝葉斯方法引入到分類器的構(gòu)造中,在一定程度上推動了全球?qū)﹃P(guān)鍵詞提取的研究。該方法主要運用決策樹算法、樸素貝葉斯算法、支持向量機(jī)等[6],在網(wǎng)頁內(nèi)容分析和論文關(guān)鍵詞識別等領(lǐng)域呈現(xiàn)出明顯的增長趨勢,為后續(xù)的關(guān)鍵詞提取技術(shù)奠定了基礎(chǔ)。2017年,學(xué)者提出了PositionRank 算法,關(guān)鍵詞抽取研究已經(jīng)進(jìn)入了一個新的高峰[7]。而2018年10月由Google AI 研究院提出一種預(yù)訓(xùn)練模型BERT(Bidirectional EncoderRepresentations for Transformers),其在機(jī)器閱讀理解頂級水平測試中表現(xiàn)出了優(yōu)秀的成績,對關(guān)鍵詞提取來說有了新的突破??傮w而言,2019-2020年內(nèi)論文數(shù)量繼續(xù)飛速增長,2008-2020年的研究成果比1997-2007年高出近20 倍。

    圖1:文獻(xiàn)數(shù)量圖

    3.2 空間分布及合作關(guān)系

    空間分布主要從國家,機(jī)構(gòu),作者三個方面從宏觀到微觀來分析關(guān)鍵詞提取技術(shù)的研究分布情況。

    3.2.1 國家分布及合作關(guān)系

    在分析關(guān)鍵詞提取研究的國家分布中,在CiteSpace 生成國家間合作圖和統(tǒng)計結(jié)果。結(jié)果N=101(網(wǎng)絡(luò)中的節(jié)點),E=305(網(wǎng)絡(luò)中的邊),density=0.0604(網(wǎng)絡(luò)密度),國家間的合作頻繁且密集,顯示出多個國家在該領(lǐng)域進(jìn)行多邊合作。發(fā)文量前五位為:美國占575 篇,中國565 篇,印度223 篇,日本199 篇,英國164 篇。中國雖然不是關(guān)鍵詞技術(shù)的創(chuàng)始國,但是逐漸追上美國的步伐,和美國發(fā)文量幾乎齊平。然而通過突現(xiàn)值檢測(可以體現(xiàn)出“突然出現(xiàn)”這一趨勢)可得,排名前三的是:日本(22.56),美國(11.32)和英國威爾士(4.71),日本和美國仍然是該研究領(lǐng)域的領(lǐng)跑者,一直有突變性的技術(shù)(谷歌的BERT);而從中心值檢測可得,排名前三的是英國(35),美國(33)和加拿大(27),三國在該研究領(lǐng)域網(wǎng)絡(luò)中的中心性相對較強(qiáng),是其他國家在該領(lǐng)域研究的參照和榜樣;而sigma 值代表突現(xiàn)值和中心度的綜合度量,排名前三的是美國(0.36),英國(0.31)和加拿大(0.17),可得三國在該領(lǐng)域研究的重要性和革新性。

    3.2.2 機(jī)構(gòu)分布

    分析學(xué)術(shù)團(tuán)體和機(jī)構(gòu)對關(guān)鍵詞提取技術(shù)的研究,在CiteSpace種生成機(jī)構(gòu)間合作圖和統(tǒng)計結(jié)果。結(jié)果N=636(網(wǎng)絡(luò)中的節(jié)點),E=230(網(wǎng)絡(luò)中的邊),density=0.0011(網(wǎng)絡(luò)密度),可得關(guān)鍵詞抽取領(lǐng)域的研究人員比較分散,不同機(jī)構(gòu)之間的合作較少,即使合作,機(jī)構(gòu)之間的合作也表現(xiàn)出明顯的區(qū)域特征。

    而在統(tǒng)計教育機(jī)構(gòu)發(fā)文量中,多倫多大學(xué)位于首位,發(fā)文數(shù)量為26 篇,北京郵電大學(xué)發(fā)文量為20 篇,中國科學(xué)院大學(xué)有18 篇。在教育機(jī)構(gòu)合作圖譜中以加拿大多倫多大學(xué)發(fā)文數(shù)量最多,加拿大教育機(jī)構(gòu)對關(guān)鍵詞提取建設(shè)研究處于領(lǐng)先地位,其中教育機(jī)構(gòu)建立的關(guān)鍵詞提取以學(xué)術(shù)型關(guān)鍵詞提取為主。通過突現(xiàn)值檢測可得,排名前三的機(jī)構(gòu)為哈佛大學(xué)(5.15),北京郵電大學(xué)(5.07)和佛羅里達(dá)大學(xué)(4.68),三者仍然是該研究領(lǐng)域的領(lǐng)跑者,一直有突變性的關(guān)鍵詞提取技術(shù);而從中心值檢測可得,排名前三的約翰霍普金斯大學(xué)(15),多倫多大學(xué)(13)和哈佛大學(xué)(9)在該研究領(lǐng)域網(wǎng)絡(luò)中的中心性相對較強(qiáng),是其他機(jī)構(gòu)在該領(lǐng)域研究的標(biāo)桿。因此,上述科研單位在這一領(lǐng)域投入了更多的科研力量,也取得了很強(qiáng)的影響力。

    3.2.3 作者分布及作者合作關(guān)系分析

    通過CiteSpace 分析關(guān)鍵詞提取技術(shù)的代表作者,生成機(jī)構(gòu)間合作圖和統(tǒng)計結(jié)果。結(jié)果N=758(網(wǎng)絡(luò)中的節(jié)點),E=252(網(wǎng)絡(luò)中的邊),density=0.0009(網(wǎng)絡(luò)密度),說明關(guān)鍵詞抽取領(lǐng)域的研究人員極度分散,不同學(xué)者之間的合作很少,即使合作,學(xué)者之間的合作也表現(xiàn)出明顯的區(qū)域特征。共引數(shù)排名前十得大部分作者為國外學(xué)者。其中排在前三學(xué)者有HY LIU(7),ADITI SHARAN(6)和BASILIS GATOS(5),這些作者構(gòu)成了世界相關(guān)領(lǐng)域的重要研究隊伍。雖然發(fā)文量第一的是中國學(xué)者HYLIU,并且是唯一一個具有極高突現(xiàn)值(4.00)的學(xué)者,其在該領(lǐng)域的創(chuàng)新性極強(qiáng),但是中國學(xué)者對國外關(guān)鍵詞提取技術(shù)的合作極少,如圖2,HYLIU 只是和另外一個中國學(xué)者HZHANG 相互合作,而發(fā)文量排名前三的學(xué)者也均與另外一個人合作(如圖2中的ADITISHARAN 和SIFATULLAHSIDDIQI,BASILISGATOS 和GEORGERETSINAS),并沒有完整的合作關(guān)系網(wǎng)。因此還未能發(fā)揮各國作者關(guān)鍵詞提取在國際交流與合作中的作用,而加強(qiáng)關(guān)鍵詞提取間的學(xué)術(shù)交流也是縮減劣勢國關(guān)鍵詞提取發(fā)展與國外關(guān)鍵詞提取發(fā)展差距、提高關(guān)鍵詞提取建設(shè)質(zhì)量的主要途徑之一。而中心值檢測方面,SOPHIE GRIGORIADIS 的中心值最高(10),并且有多人以他為核心來進(jìn)行合作,說明其是在該領(lǐng)域如此分散的學(xué)者合作關(guān)系之間少有的善于交流的學(xué)者,即使和他合作的學(xué)者也有同區(qū)域的特征。

    圖2:作者分布圖譜(部分)

    4 研究熱點、前沿知識圖譜分析及發(fā)展趨勢預(yù)測

    4.1 研究熱點演化分析

    在CiteSpace 中將“關(guān)鍵詞”作為網(wǎng)絡(luò)節(jié)點運行,可得關(guān)鍵詞提取領(lǐng)域的熱點詞。從突現(xiàn)值檢測排行中,剔除排名前2 的由于數(shù)據(jù)收集過程中進(jìn)行文獻(xiàn)搜索所使用的關(guān)鍵詞“keyword extraction”和“feature extraction”,可以發(fā)現(xiàn)tfidf(4.44),自然語言處理(4.31),深度學(xué)習(xí)(4.25),textrank(3.26)算法的突現(xiàn)值很高,這也正是學(xué)者們經(jīng)常所用的關(guān)鍵詞提取的方法算法(CiteSpace 本身就用到tfidf 算法),對關(guān)鍵詞提取技術(shù)來說十分重要。

    表1是通過CiteSpace 聚類得到的13 個關(guān)鍵詞聚類,其中輪廓越接近1 說明聚類越準(zhǔn)確。聚類不光能更集中地驗證上文所述的研究熱點,還能指出一些研究熱點在不同領(lǐng)域方面的具體應(yīng)用,大多數(shù)聚類都是計算機(jī)相關(guān)的應(yīng)用。此外,出現(xiàn)了一些輪廓值高的聚類比如出現(xiàn)的聚類12 是外科學(xué)的應(yīng)用,聚類6 是搜索引擎的應(yīng)用,以及聚類10 是作詩方面的應(yīng)用,因此也不能忽視關(guān)鍵詞在這些非計算機(jī)類的領(lǐng)域的應(yīng)用以及推廣。

    表1:關(guān)鍵詞聚類

    4.2 前沿關(guān)鍵詞分析

    在CiteSpace 中輸入3.2 中數(shù)據(jù)進(jìn)行突現(xiàn)詞檢測分析可得,在2000年,突現(xiàn)詞主要為“文本分類”,“特征權(quán)重”和“古詩生成”等,此時基于自然語言處理技術(shù)的自動化關(guān)鍵詞提取技術(shù)還未發(fā)展,因此此類研究依賴專家評定打分等方式,是關(guān)鍵詞提取技術(shù)的雛形。隨后,在2005年時,突現(xiàn)詞 “特征選擇”,“聚類分析”和“TFIDF模型”等詞出現(xiàn),關(guān)鍵詞提取技術(shù)正式進(jìn)入自動化階段,與人工智能領(lǐng)域開始結(jié)合,飛速發(fā)展。隨后,2015年左右出現(xiàn)突現(xiàn)詞“詞向量(word2vec/doc2vec)”,“主題模型”和“語義相似度”等,說明關(guān)鍵詞抽取技術(shù)已從傳統(tǒng)的統(tǒng)計學(xué)方法發(fā)展到到基于初級語義理解的方法。其中,LDA 主題模型應(yīng)用十分廣泛[8],在文本相似度、微博/推特等短文本的關(guān)鍵詞抽取、文本話題演變分析、文本分割等領(lǐng)域效果極佳,成為關(guān)鍵詞提取相關(guān)技術(shù)的新思路[9]。

    而2020年到2021年的最新突現(xiàn)詞,由圖3可知,在關(guān)鍵詞提取技術(shù)的應(yīng)用方面,包括“規(guī)律識別”,“聚類分析”,“信息提取”等技術(shù)的應(yīng)用,可得在最新的關(guān)鍵詞提取技術(shù)的應(yīng)用中,這些難度更高的方面已經(jīng)被涉及;在關(guān)鍵詞提取技術(shù)的方法方面,包括“tfidf”,“textrank”,“自然語言處理”,“深度學(xué)習(xí)”,“word2vec”等方法,可得在2021年這些前沿性的算法在關(guān)鍵詞提取技術(shù)中的應(yīng)用效果優(yōu)秀,受到學(xué)者廣泛認(rèn)可;而社會網(wǎng)絡(luò)分析方面,“推特”,“情感分析”,“搜索引擎”等突現(xiàn)詞清晰可見,可得學(xué)者已將關(guān)鍵詞提取技術(shù)應(yīng)用于推特或者新浪微博的文本挖掘方面內(nèi)容,對分析突發(fā)事件的公眾輿情及情感起到重要作用[9]。此外,關(guān)鍵詞提取技術(shù)的革新也造福了搜索引擎,如在進(jìn)行學(xué)者-論文匹配時,可有效提升其準(zhǔn)確率與召回率。

    圖3:突現(xiàn)關(guān)鍵詞

    對前沿突現(xiàn)詞檢測進(jìn)行分析可得,當(dāng)前關(guān)鍵詞抽取技術(shù)研究的3 個前沿方向為:

    (1)提高語義理解能力并實現(xiàn)情感分析的突破。如tf-idf 算法中idf 的簡單結(jié)構(gòu)并不能使提取的關(guān)鍵詞十分有效地反映單詞的重要程度和特征詞的分布情況,使其無法很好地完成對權(quán)值調(diào)整的功能。此外,此算法傾向于文本中頻率小的詞,這使得tf-idf 算法的精度不高。因此,后續(xù)關(guān)鍵詞提取算法應(yīng)當(dāng)從語義理解能力入手,突破文本的情感趨向會成為研究熱點。

    (2)基于多種方法的融合,提高了關(guān)鍵詞提取的準(zhǔn)確率。每種提取算法基于不同的因素。一種方法很難得到最佳的提取效果。因此,關(guān)鍵詞提取必須融合多種提取方法。目前最先進(jìn)的提取方法是多種方法的加權(quán)疊加,或者將一種方法的輸出作為另一種方法的輸入,得到相對準(zhǔn)確的提取結(jié)果[10]。

    (3)新型模型探索,比如云計算、BERT、知識圖譜的節(jié)點向量化聚類(如node2vec,Deepwalk 或者LINE 算法)等。從突現(xiàn)詞檢測中發(fā)現(xiàn),這類研究相對稀缺,因此關(guān)鍵詞提取技術(shù)在未來會在這方面進(jìn)行突破。

    5 結(jié)論

    關(guān)鍵詞提取領(lǐng)域的發(fā)展趨勢如下:

    (1)研究力量方面,全球關(guān)鍵詞抽取技術(shù)的主要由各國高校及科研所推進(jìn),其發(fā)文量及其突現(xiàn)值可得美國大學(xué),中國大學(xué)和加拿大大學(xué)在該領(lǐng)域有非常突出的貢獻(xiàn),未來關(guān)鍵詞抽取的發(fā)展依然依賴于高校和科研院所的研究力量。

    (2)研究熱點方面。關(guān)鍵詞提取技術(shù)中,“規(guī)律識別”,“聚類分析”,“信息提取”,“tf-idf”,“textrank”,“自然語言處理”,“深度學(xué)習(xí)”,“word2vec”,“推特”,“情感分析”,“搜索引擎”等是目前關(guān)鍵詞抽取技術(shù)研究領(lǐng)域的前沿與趨勢。

    (3)由于單種關(guān)鍵詞提取技術(shù)效果不佳,多種關(guān)鍵詞提取技術(shù)的融合有利于提高關(guān)鍵詞提取的準(zhǔn)確率和效率。

    (4)由于現(xiàn)階段算法的側(cè)重點較少涉獵于語義理解導(dǎo)致提取效率不佳,未來的關(guān)鍵詞提取技術(shù)會在語義理解上有所突破。

    然而,關(guān)鍵詞提取領(lǐng)域的研究仍存在一些局限性:

    (1)世界各國機(jī)構(gòu)和學(xué)者之間的交流和合作較少,導(dǎo)致研究成果明顯分散。建議科研機(jī)構(gòu)積極開展科研交流活動,各取對方長處,有助于該領(lǐng)域的突破性發(fā)展。

    (2)自然語言處理目前還停留在初級語義理解的階段,語義理解尚不成熟,導(dǎo)致提取出的關(guān)鍵詞準(zhǔn)確率不高,并具有大量學(xué)術(shù)停用詞。

    本文存在的不足為:因一些技術(shù)(如BERT)太過革新,利用該方法的論文量不多,無法從本文所述的研究方法統(tǒng)計出BERT 作為高頻關(guān)鍵詞,希望后續(xù)研究能有效解決此問題。

    猜你喜歡
    學(xué)者聚類領(lǐng)域
    學(xué)者介紹
    學(xué)者簡介
    學(xué)者介紹
    領(lǐng)域·對峙
    青年生活(2019年23期)2019-09-10 12:55:43
    基于DBSACN聚類算法的XML文檔聚類
    電子測試(2017年15期)2017-12-18 07:19:27
    學(xué)者介紹
    基于改進(jìn)的遺傳算法的模糊聚類算法
    新常態(tài)下推動多層次多領(lǐng)域依法治理初探
    一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
    自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
    新野县| 三原县| 台北县| 洛浦县| 错那县| 衡南县| 米林县| 紫云| 兴山县| 齐齐哈尔市| 商城县| 江门市| 册亨县| 普安县| 西和县| 甘谷县| 镇巴县| 榆中县| 阿图什市| 汉源县| 贺兰县| 疏勒县| 吴忠市| 施甸县| 九龙坡区| 资阳市| 沙坪坝区| 余江县| 梁山县| 象山县| 延吉市| 金秀| 潜江市| 海口市| 六盘水市| 怀宁县| 汤阴县| 井陉县| 弋阳县| 商水县| 阳城县|