• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于關(guān)鍵詞網(wǎng)絡(luò)的熱點(diǎn)關(guān)鍵詞及熱點(diǎn)項(xiàng)目挖掘

      2016-09-08 10:39:07陳澤亞
      關(guān)鍵詞:挖掘出詞頻個(gè)數(shù)

      郭 靜 陳澤亞 王 慶

      (中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 安徽 合肥 230027) (中國(guó)科學(xué)技術(shù)大學(xué)蘇州研究院 江蘇 蘇州 215123)

      ?

      基于關(guān)鍵詞網(wǎng)絡(luò)的熱點(diǎn)關(guān)鍵詞及熱點(diǎn)項(xiàng)目挖掘

      郭靜陳澤亞王慶

      (中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院安徽 合肥 230027) (中國(guó)科學(xué)技術(shù)大學(xué)蘇州研究院江蘇 蘇州 215123)

      針對(duì)傳統(tǒng)使用頻數(shù)挖掘熱點(diǎn)關(guān)鍵詞不能保證有效完整地挖掘出數(shù)據(jù)庫(kù)中的熱點(diǎn)關(guān)鍵詞,提出基于項(xiàng)目、專家對(duì)應(yīng)的關(guān)鍵詞數(shù)據(jù),分析不同項(xiàng)目關(guān)鍵詞之間的相關(guān)度,從而建立“項(xiàng)目與專家”網(wǎng)絡(luò)關(guān)系。其創(chuàng)新點(diǎn)在于用雙層結(jié)構(gòu)來(lái)連接專家、網(wǎng)絡(luò)、關(guān)鍵詞,計(jì)算關(guān)鍵詞的熱度值,挖掘出熱點(diǎn)關(guān)鍵詞及熱點(diǎn)項(xiàng)目。實(shí)驗(yàn)結(jié)果表明,該方法更能準(zhǔn)確地挖掘出項(xiàng)目中的熱點(diǎn)關(guān)鍵詞,避免了單純頻數(shù)計(jì)算熱點(diǎn)關(guān)鍵詞帶來(lái)的片面化問(wèn)題。

      熱點(diǎn)關(guān)鍵詞項(xiàng)目—專家網(wǎng)絡(luò)相關(guān)度熱點(diǎn)項(xiàng)目權(quán)重

      0 引 言

      在科技成果培育的全過(guò)程管理中,重大的科技成果往往呈現(xiàn)一定的規(guī)律和特征。這些可以看作是科研活動(dòng)的發(fā)展演化在時(shí)空歷史信息中表現(xiàn)出來(lái)的一致性和連續(xù)性,并可隨著時(shí)間或空間進(jìn)行發(fā)展變化。研究表明大多數(shù)網(wǎng)絡(luò)都是一個(gè)具有冪律分布的小世界網(wǎng)絡(luò)[1],科技論文的關(guān)鍵詞網(wǎng)絡(luò)也具有這樣的特性。

      國(guó)外對(duì)科技成果評(píng)價(jià)方法的研究時(shí)間已久,既有定性研究也有定量研究,因而評(píng)價(jià)結(jié)果具有嚴(yán)肅性,可信賴度較高。國(guó)內(nèi)雖然在該領(lǐng)域起步較晚,但也逐漸在政策法規(guī)制定、指標(biāo)體系建立和方法研究上取得了一定的進(jìn)展。另外,當(dāng)前國(guó)內(nèi)科技項(xiàng)目評(píng)價(jià)主要還是以同行專家評(píng)議為主,尚未見(jiàn)到涵蓋成果培育全過(guò)程、成體系的、目標(biāo)明確的評(píng)價(jià)方法,也沒(méi)有一套完整的評(píng)價(jià)機(jī)制實(shí)現(xiàn)對(duì)科技成果從遴選、診斷到產(chǎn)出階段的全過(guò)程綜合評(píng)價(jià)。

      專家項(xiàng)目的匹配一直是科研領(lǐng)域的重要問(wèn)題。現(xiàn)階段選擇專家一般都是采用計(jì)算機(jī)簡(jiǎn)單查詢輔助人工選擇的方式,計(jì)算機(jī)輔助程度比較低,只是針對(duì)數(shù)據(jù)庫(kù)查詢,沒(méi)有提供比較好的智能輔助。目前的匹配方法大多是基于關(guān)鍵字的方法,從數(shù)據(jù)庫(kù)中查詢相關(guān)的關(guān)鍵字進(jìn)行項(xiàng)目與專家的匹配,但這種方法匹配的準(zhǔn)確程度不高。文獻(xiàn)[14]提出將項(xiàng)目信息文檔和專家信息文檔轉(zhuǎn)換為兩棵本體概念樹(shù),通過(guò)計(jì)算兩棵樹(shù)之間的相似度來(lái)判斷項(xiàng)目和專家是否匹配。文獻(xiàn)[15]在文獻(xiàn)[14]的基礎(chǔ)上,計(jì)算樹(shù)型概念結(jié)構(gòu)中兩個(gè)概念節(jié)點(diǎn)以及兩個(gè)樹(shù)型概念結(jié)構(gòu)之間的語(yǔ)義相似度,進(jìn)行項(xiàng)目和專家的匹配。文獻(xiàn)[16]利用分詞工具ICTCLAS[17]和TF-IDF算法[18]對(duì)項(xiàng)目申請(qǐng)書(shū)和表示專家的文本信息進(jìn)行文本挖掘和分析,從而選出與項(xiàng)目研究?jī)?nèi)容最相符的評(píng)審專家,解決項(xiàng)目與評(píng)審專家的匹配。項(xiàng)目專家的匹配關(guān)鍵在于其關(guān)系網(wǎng)絡(luò)的建立。

      項(xiàng)目特征是用關(guān)鍵詞來(lái)表示的,那么項(xiàng)目中關(guān)鍵詞的挖掘就成為重中之重。最早期IBM用詞頻來(lái)提取關(guān)鍵詞[2],該方法存在很多弊端,后來(lái)又相繼出現(xiàn)各種改進(jìn)的方法。文獻(xiàn)[3]用n-grams、NP-chunks、關(guān)鍵詞模式三種方法和文檔內(nèi)頻率等特征來(lái)進(jìn)行關(guān)鍵詞的提取;文獻(xiàn)[4]則是基于k-means聚類(lèi)算法挖掘熱點(diǎn)關(guān)鍵詞;文獻(xiàn)[5]增加了信息的實(shí)效性,采用實(shí)時(shí)跟蹤系統(tǒng),挖掘項(xiàng)目或信息中的熱點(diǎn)關(guān)鍵詞。這些方法大多數(shù)是考慮了詞頻、詞性、詞長(zhǎng)度等屬性。科研項(xiàng)目中的關(guān)鍵詞也是采用這些方式,挖掘出關(guān)鍵詞后就可以依據(jù)其在項(xiàng)目中的共現(xiàn)關(guān)系建立關(guān)鍵詞網(wǎng)絡(luò)。同樣專家負(fù)責(zé)的項(xiàng)目的關(guān)鍵詞也可作為專家的標(biāo)簽,這樣就可以建立項(xiàng)目、關(guān)鍵詞、專家的網(wǎng)絡(luò)關(guān)系。

      項(xiàng)目—關(guān)鍵詞—專家網(wǎng)絡(luò)建立之后,利用該網(wǎng)絡(luò)就可挖掘出熱點(diǎn)的關(guān)鍵詞或者熱點(diǎn)項(xiàng)目,從而預(yù)測(cè)未來(lái)的科研趨勢(shì)或走向。熱點(diǎn)關(guān)鍵詞挖掘問(wèn)題在社交網(wǎng)絡(luò)中用到很多,也有較為成熟的理論和方法。文獻(xiàn)[10,11]根據(jù)朋友關(guān)系建立社交網(wǎng)絡(luò),分析評(píng)論轉(zhuǎn)發(fā)關(guān)系挖掘熱點(diǎn)關(guān)鍵詞;文獻(xiàn)[12]引入權(quán)重網(wǎng)絡(luò)的聚類(lèi)系數(shù)從而計(jì)算關(guān)鍵詞權(quán)重挖掘熱點(diǎn)關(guān)鍵詞;文獻(xiàn)[13]提出一種自動(dòng)話題監(jiān)測(cè)方法,該方法結(jié)合了聚類(lèi)算法迭代特征向量,以跟蹤監(jiān)測(cè)挖掘熱點(diǎn)關(guān)鍵詞;文獻(xiàn)[19]通過(guò)文本聚類(lèi)歸納話題,對(duì)話題影響力進(jìn)行計(jì)算和分析,從而挖掘出熱點(diǎn)話題。文獻(xiàn)[20]利用single-pass動(dòng)態(tài)聚類(lèi)算法對(duì)文本進(jìn)行處理,然后對(duì)大的類(lèi)別做挖掘,因?yàn)橹挥写箢?lèi)別才能反映一些熱點(diǎn)事件。微博的跟帖轉(zhuǎn)發(fā)蘊(yùn)含著話題的關(guān)聯(lián)性假設(shè),文獻(xiàn)[21]分別采用single-pass、K-means以及K-medoids聚類(lèi)算法進(jìn)行話題識(shí)別,在話題識(shí)別的基礎(chǔ)上,綜合話題的線索數(shù)、精華線索數(shù)、回復(fù)數(shù)、單位時(shí)間瀏覽數(shù)等信息來(lái)識(shí)別熱點(diǎn)話題。然而在科研項(xiàng)目中,熱點(diǎn)關(guān)鍵詞及熱點(diǎn)項(xiàng)目挖掘的研究少之又少。

      目前電力領(lǐng)域網(wǎng)絡(luò)建立以及熱點(diǎn)關(guān)鍵詞挖掘大多只考慮關(guān)鍵詞詞頻,沒(méi)有形成一個(gè)成熟完整的體系。本文針對(duì)這種現(xiàn)狀,對(duì)電網(wǎng)領(lǐng)域科研項(xiàng)目數(shù)據(jù)庫(kù)研究,提出一種雙層結(jié)構(gòu)的專家—項(xiàng)目網(wǎng)絡(luò)。利用該結(jié)構(gòu)挖掘出熱點(diǎn)關(guān)鍵詞及熱點(diǎn)項(xiàng)目的方法,并將該方法部署到實(shí)際的電力數(shù)據(jù)中,驗(yàn)證了該方法對(duì)于挖掘熱點(diǎn)關(guān)鍵詞及熱點(diǎn)項(xiàng)目的正確性。對(duì)比與社交網(wǎng)絡(luò)中建立關(guān)聯(lián)網(wǎng)絡(luò),并采用分類(lèi)聚類(lèi)等方法來(lái)挖掘熱點(diǎn)關(guān)鍵詞,本文綜合考慮關(guān)鍵詞出現(xiàn)的頻數(shù)、負(fù)責(zé)項(xiàng)目的專家的專業(yè)影響力來(lái)計(jì)算關(guān)鍵詞的熱點(diǎn)程度,從而挖掘熱點(diǎn)關(guān)鍵詞。最大的不同在于文中提出的雙層網(wǎng)絡(luò)結(jié)構(gòu)模型是從上下兩層網(wǎng)絡(luò)關(guān)系來(lái)計(jì)算熱點(diǎn)關(guān)鍵詞。

      本文的主要貢獻(xiàn)如下:

      1) 改進(jìn)了原有的只考慮詞頻的方法,綜合詞頻及專家專業(yè)影響力計(jì)算關(guān)鍵詞的熱度值。

      2) 建立專家—項(xiàng)目—關(guān)鍵詞雙層結(jié)構(gòu)網(wǎng)絡(luò),挖掘熱點(diǎn)關(guān)鍵詞。

      3) 根據(jù)與熱點(diǎn)關(guān)鍵詞存在共現(xiàn)關(guān)系,建立關(guān)鍵詞拓?fù)鋱D,查找拓?fù)鋱D中的強(qiáng)連通分量,從而挖掘熱點(diǎn)項(xiàng)目。

      1 相關(guān)工作

      1.1TF-IDF函數(shù)

      TF-IDF算法[6]是由McGill和Gerald Saltom針對(duì)向量空間信息檢索樣例提出的一種用來(lái)表示文本特征的方法。在該算法中出現(xiàn)在文檔中的詞語(yǔ)被稱為術(shù)語(yǔ),每個(gè)術(shù)語(yǔ)有自己相應(yīng)的特征權(quán)重,這個(gè)權(quán)重代表了在文檔識(shí)別時(shí)該術(shù)語(yǔ)所具有的重要程度。術(shù)語(yǔ)的權(quán)重與其在文檔中出現(xiàn)的頻率成正比,而與其在所有文檔中出現(xiàn)的頻率成反比。其中TF(Term Frequency)被稱為詞頻,代表術(shù)語(yǔ)在文本中出現(xiàn)的次數(shù),IDF (Inverse Document Frequency)被稱為逆向文件頻率,反映某個(gè)術(shù)語(yǔ)在一個(gè)文檔集中按文本統(tǒng)計(jì)出現(xiàn)的頻繁程度指標(biāo)。傳統(tǒng)TF-IDF函數(shù)可以用如下公式描述:

      (1)

      式中,wj代表某篇文本中第j個(gè)術(shù)語(yǔ)的特征權(quán)重,TFj代表術(shù)語(yǔ)詞j在本篇文本中出現(xiàn)的次數(shù),TFmax代表在一批文檔集合中某個(gè)術(shù)語(yǔ)j在單篇文本中出現(xiàn)的最大次數(shù),IDF代表倒文檔頻率,用式(2)表示:

      (2)

      其中N代表某批集合中包含的文本總數(shù),DFj則代表了在這批文本集合中出現(xiàn)過(guò)術(shù)語(yǔ)j的文本總數(shù)。

      傳統(tǒng)的TF-IDF函數(shù)所要傳達(dá)的思想是:如果某個(gè)特征詞出現(xiàn)在測(cè)試文檔集合的某篇文檔中的頻率TF越高,而該特征詞在背景語(yǔ)料文檔集合中出現(xiàn)的次數(shù)越少,則越認(rèn)為這個(gè)特征詞能夠代表此類(lèi)文本的特征。

      1.2關(guān)鍵詞網(wǎng)絡(luò)

      關(guān)鍵詞的提取[6]是根據(jù)關(guān)鍵詞在項(xiàng)目中的共現(xiàn)次數(shù)以及相關(guān)度來(lái)提取的。首先確定基類(lèi)關(guān)鍵詞。基類(lèi)關(guān)鍵詞包括領(lǐng)域的專業(yè)術(shù)語(yǔ)、常用詞語(yǔ)或者是文章、項(xiàng)目中的關(guān)鍵詞。然后對(duì)項(xiàng)目中的摘要、主要內(nèi)容做分詞劃分,對(duì)于劃分好的關(guān)鍵詞跟基類(lèi)關(guān)鍵詞計(jì)算其相關(guān)度。如果相關(guān)度在一定閾值內(nèi),那么將其加入關(guān)鍵詞庫(kù)中;如果超出閾值范圍內(nèi),就丟棄它。這樣迭代的提取就可以不斷完善關(guān)鍵詞庫(kù)。本文假定關(guān)鍵詞庫(kù)已有。

      2 關(guān)鍵詞—項(xiàng)目—專家雙層結(jié)構(gòu)網(wǎng)絡(luò)

      2.1關(guān)鍵詞向量

      (3)

      (4)

      2.2關(guān)鍵詞—項(xiàng)目網(wǎng)絡(luò)

      根據(jù)關(guān)鍵詞的共現(xiàn)關(guān)系(兩個(gè)關(guān)鍵詞在同一個(gè)項(xiàng)目中出現(xiàn))就可以將關(guān)鍵詞關(guān)聯(lián)起來(lái),形成一個(gè)關(guān)鍵詞共現(xiàn)關(guān)系網(wǎng)絡(luò)。由于關(guān)鍵詞有多重屬性,一個(gè)關(guān)鍵詞可能屬于不同的項(xiàng)目,一個(gè)項(xiàng)目包含多個(gè)關(guān)鍵詞,每個(gè)項(xiàng)目都有相應(yīng)的領(lǐng)域。為分析關(guān)鍵詞和其他屬性關(guān)系,可以將該屬性與共現(xiàn)關(guān)系結(jié)合形成一個(gè)多維異質(zhì)網(wǎng)絡(luò)。該網(wǎng)絡(luò)不僅保留了關(guān)鍵詞的共現(xiàn)關(guān)系,而且加入了新的節(jié)點(diǎn)屬性,即關(guān)鍵詞所屬的項(xiàng)目領(lǐng)域。圖1是一個(gè)部分項(xiàng)目—關(guān)鍵詞網(wǎng)絡(luò)。矩形圈住的節(jié)點(diǎn)表示項(xiàng)目領(lǐng)域,其他節(jié)點(diǎn)表示關(guān)鍵詞。關(guān)鍵詞之間的連線表示其出現(xiàn)在同一個(gè)項(xiàng)目中,關(guān)鍵詞與領(lǐng)域之間的連線表示關(guān)鍵詞所在項(xiàng)目屬于該領(lǐng)域,領(lǐng)域節(jié)點(diǎn)之間沒(méi)有邊相連。對(duì)于每一個(gè)關(guān)鍵詞,用式(3)計(jì)算權(quán)重。圖1是一個(gè)權(quán)重網(wǎng)絡(luò)圖,關(guān)鍵詞的權(quán)重大小表示其在網(wǎng)絡(luò)中的重要程度。

      圖1 關(guān)鍵詞—項(xiàng)目網(wǎng)絡(luò)結(jié)構(gòu)圖

      2.3專家社交網(wǎng)絡(luò)

      專家往往通過(guò)論文參考、科研合作、項(xiàng)目評(píng)審等多種方式建立合作網(wǎng)絡(luò)。分析這種社交網(wǎng)絡(luò),發(fā)現(xiàn)緊密合作的專家圈子,進(jìn)行項(xiàng)目和專家匹配分析(例如專家回避)的基礎(chǔ)。

      (5)

      其中s∈(0,1),s是一個(gè)傾銷(xiāo)因素,s值在這里代表圖G中一個(gè)點(diǎn)到另一個(gè)點(diǎn)的隨機(jī)游走概率。函數(shù)following(uj)返回的是專家uj引用的文章或者項(xiàng)目的作者集合,follower(uk)函數(shù)是指專家ui的引用者集合。H-Factor值的計(jì)算可以通過(guò)迭代算法來(lái)完成,初始化設(shè)置為:

      (6)其中,|U|是所有專家集合。接下來(lái)的每一步中,按照式(5)重復(fù)計(jì)算H-Factor值,當(dāng)滿足收斂條件時(shí),該過(guò)程停止。專家社交網(wǎng)絡(luò)的建立是為關(guān)鍵詞最終的熱度值做準(zhǔn)備,因?yàn)橛绊懥Υ蟮膶<邑?fù)責(zé)的項(xiàng)目成為熱點(diǎn)項(xiàng)目的可能性就大,因而熱點(diǎn)項(xiàng)目中包含的關(guān)鍵詞成為熱點(diǎn)關(guān)鍵詞的可能性就大。圖2為部分專家網(wǎng)絡(luò)圖。

      圖2 專家社交網(wǎng)絡(luò)結(jié)構(gòu)圖

      專家社交圖如圖2所示,圖中圈的大小表示用戶H-Factor值的大小。從圖中可以看出,文章或項(xiàng)目被引用次數(shù)多的專家的H-Factor值相對(duì)比較大;同樣,他的引用者H-Factor值大的專家的H-Factor值也相應(yīng)的會(huì)比較大。因?yàn)橐粋€(gè)專家的H-Factor值受兩個(gè)因素的影響,即引用者個(gè)數(shù)和引用者的H-Factor值的大小。

      2.4關(guān)鍵詞—項(xiàng)目—專家雙層網(wǎng)絡(luò)

      項(xiàng)目和關(guān)鍵詞、專家和專家之間的關(guān)系網(wǎng)絡(luò)已經(jīng)建好,那么關(guān)鍵詞—項(xiàng)目—專家之間的關(guān)系可以用一個(gè)雙層立體結(jié)構(gòu)圖表示。該結(jié)構(gòu)圖分兩個(gè)平面,上層平面表示關(guān)鍵詞—項(xiàng)目領(lǐng)域關(guān)系圖,下層平面表示專家社交關(guān)系圖。上層領(lǐng)域節(jié)點(diǎn)與下層專家節(jié)點(diǎn)之間的連線表示專家負(fù)責(zé)的項(xiàng)目屬于該領(lǐng)域,上層關(guān)鍵詞節(jié)點(diǎn)與專家的連線表示專家負(fù)責(zé)的項(xiàng)目包含該關(guān)鍵詞。所以專家跟領(lǐng)域、關(guān)鍵詞之間都存在關(guān)系。

      圖3是部分關(guān)鍵詞—專家網(wǎng)絡(luò)雙層結(jié)構(gòu)圖。由于關(guān)系網(wǎng)絡(luò)比較復(fù)雜,因而圖3中上層結(jié)構(gòu)和下層結(jié)構(gòu)之間的線條沒(méi)有完全畫(huà)出。上層結(jié)構(gòu)是2.2節(jié)中描述的項(xiàng)目—專家網(wǎng)絡(luò),下層結(jié)構(gòu)是2.3節(jié)中的專家社交網(wǎng)絡(luò),兩層結(jié)構(gòu)通過(guò)項(xiàng)目、關(guān)鍵詞、領(lǐng)域之間的關(guān)系連接。因而關(guān)鍵詞的權(quán)重不僅表現(xiàn)在它出現(xiàn)的次數(shù),同樣表現(xiàn)在項(xiàng)目是由哪個(gè)專家負(fù)責(zé),這個(gè)專家的專業(yè)影響力有多大,即H-Factor值的大小。

      圖3 關(guān)鍵詞—專家網(wǎng)絡(luò)圖結(jié)構(gòu)圖

      3 熱點(diǎn)關(guān)鍵詞挖掘

      3.1熱點(diǎn)關(guān)鍵詞挖掘

      上面提到關(guān)鍵詞的熱點(diǎn)程度不僅跟它在項(xiàng)目集中出現(xiàn)的次數(shù)相關(guān),還跟其所在項(xiàng)目的負(fù)責(zé)人相關(guān),換言之關(guān)鍵詞根據(jù)其權(quán)重和項(xiàng)目負(fù)責(zé)人的H-Factor值來(lái)決定其是否是熱點(diǎn)。這里引入一個(gè)熱度值的概念。定義關(guān)鍵詞的熱度為:

      nutrk=∑twj∈TWkwj,k×H(user(twj))

      (7)

      選擇熱點(diǎn)關(guān)鍵詞的方法依賴于用戶自定義的一個(gè)參數(shù),用該參數(shù)計(jì)算一個(gè)臨界閾值:

      (8)

      其中,δ≥1,這里考慮了平均nutr值來(lái)設(shè)置臨界閾值,因此定義熱點(diǎn)關(guān)鍵詞集合為:

      ?k∈Kk∈HK?nutrk>ε

      (9)

      由此可以選擇出熱點(diǎn)關(guān)鍵詞集合HK,關(guān)鍵詞集合個(gè)數(shù)大小跟δ的值成反比關(guān)系。

      3.2關(guān)鍵詞拓?fù)渚W(wǎng)絡(luò)

      項(xiàng)目是由若干關(guān)鍵詞表示的,熱點(diǎn)關(guān)鍵詞可能只是一個(gè)獨(dú)立的個(gè)體。那么從熱點(diǎn)關(guān)鍵詞延伸到熱點(diǎn)項(xiàng)目,我們需要分析那些和熱點(diǎn)關(guān)鍵詞共同出現(xiàn)的語(yǔ)義相關(guān)的關(guān)鍵詞對(duì),從而挖掘出熱點(diǎn)項(xiàng)目或者在未來(lái)一段時(shí)間會(huì)成為熱點(diǎn)的項(xiàng)目。

      (10)

      (11)其中,rk,z是項(xiàng)目領(lǐng)域同時(shí)包含關(guān)鍵詞k和z的個(gè)數(shù),nz是包含關(guān)鍵詞z的個(gè)數(shù),nk包含關(guān)鍵詞k的項(xiàng)目個(gè)數(shù),N是整個(gè)項(xiàng)目集總個(gè)數(shù)。

      (12)

      有向圖TG(K,E,ρ)通過(guò)一個(gè)局部自適應(yīng)邊集細(xì)化算法來(lái)處理。采用自適應(yīng)折中法這個(gè)過(guò)程確保了只有強(qiáng)連通的邊集才會(huì)被保留,也就是只有高度相關(guān)的關(guān)鍵詞才會(huì)出現(xiàn)在同一個(gè)項(xiàng)目領(lǐng)域的可能性會(huì)大。圖4為部分關(guān)鍵詞拓?fù)鋱D,圈代表關(guān)鍵詞,各個(gè)圈之間的箭頭表示關(guān)鍵詞之間的關(guān)系。

      圖4 關(guān)鍵詞拓?fù)鋱D

      3.3熱點(diǎn)項(xiàng)目挖掘

      所謂的熱點(diǎn)項(xiàng)目是指包含熱點(diǎn)關(guān)鍵詞的項(xiàng)目。本文中的項(xiàng)目熱度值是根據(jù)其包含的關(guān)鍵詞的熱點(diǎn)值來(lái)計(jì)算的。3.1節(jié)中挖掘出的熱點(diǎn)關(guān)鍵詞集合EK,要找與熱點(diǎn)關(guān)鍵詞相關(guān)的項(xiàng)目,就要尋找根在3.2節(jié)中TG中的強(qiáng)連通分量。因此給定一個(gè)關(guān)鍵詞代表圖中一個(gè)節(jié)點(diǎn),找到節(jié)點(diǎn)集合S(從k通過(guò)一條路徑到達(dá)的),找這些節(jié)點(diǎn)可以用深度優(yōu)先遍歷算法(DFS)。然后在相同的拓?fù)鋱D中用反向邊重復(fù)該過(guò)程找節(jié)點(diǎn)集合T(從這些節(jié)點(diǎn)出發(fā),通過(guò)一條路徑可以到達(dá)k)。強(qiáng)連通分量就是EK_k,它由T和S之間的點(diǎn)集構(gòu)成。該過(guò)程是線性的。 熱點(diǎn)關(guān)鍵詞z屬于Ek,定義熱點(diǎn)項(xiàng)目為子圖ET(Kz,Ez,ρz),代表與關(guān)鍵詞z語(yǔ)義相關(guān)的關(guān)鍵詞集合??紤]整個(gè)熱點(diǎn)關(guān)鍵詞集合EK,我們計(jì)算相應(yīng)的強(qiáng)連通分量,熱點(diǎn)項(xiàng)目ET={ET1,ET2,…,Etn,}(n≤|EK|),熱點(diǎn)項(xiàng)目個(gè)數(shù)少于關(guān)鍵詞個(gè)數(shù),因?yàn)榭赡軆蓚€(gè)關(guān)鍵詞同屬于一個(gè)項(xiàng)目。最后關(guān)鍵詞集合K-z是否屬于項(xiàng)目集合ET-z通過(guò)計(jì)算關(guān)鍵詞z為T(mén)G起點(diǎn),并且包含與z語(yǔ)義相關(guān)的。用該方法不僅能檢測(cè)直接出現(xiàn)的熱點(diǎn)關(guān)鍵詞,而且能檢測(cè)與熱點(diǎn)關(guān)鍵詞間接相關(guān)的關(guān)鍵詞。建立一個(gè)序列告訴用戶哪個(gè)話題更有熱點(diǎn)。例如從圖4中可看出{智能變電站、智能電網(wǎng)、電動(dòng)汽車(chē)}構(gòu)成了一個(gè)強(qiáng)連通分量,因而他們可以表示一個(gè)熱點(diǎn)項(xiàng)目集。用以上方法可以挖掘出熱點(diǎn)項(xiàng)目,我們需要給挖掘出的熱點(diǎn)項(xiàng)目建立一個(gè)熱點(diǎn)值順序,以供用戶來(lái)判斷哪個(gè)項(xiàng)目更具熱度,因而引入一個(gè)順序值的概念,如式(13)所示:

      (13)

      其中nutrk是式(7)中計(jì)算的關(guān)鍵詞k的熱度值,|ET|表示熱點(diǎn)項(xiàng)目中關(guān)鍵詞個(gè)數(shù)。

      4 實(shí)驗(yàn)仿真分析

      本文對(duì)熱點(diǎn)關(guān)鍵詞的挖掘考慮到項(xiàng)目中關(guān)鍵詞出現(xiàn)的次數(shù)以及關(guān)鍵詞對(duì)應(yīng)的項(xiàng)目負(fù)責(zé)人的專業(yè)影響力,從不同的方面考慮關(guān)鍵詞的重要程度。為了進(jìn)一步說(shuō)明該方法的有效性,我們用C++語(yǔ)言實(shí)現(xiàn)了該過(guò)程。我們選取的數(shù)據(jù)集是電力行業(yè)的項(xiàng)目數(shù)據(jù)庫(kù)來(lái)做實(shí)驗(yàn)驗(yàn)證。在基于該數(shù)據(jù)源的基礎(chǔ)上,建立關(guān)鍵詞—項(xiàng)目—專家的雙層網(wǎng)絡(luò),從而進(jìn)行熱點(diǎn)關(guān)鍵詞挖掘以及熱點(diǎn)項(xiàng)目挖掘。對(duì)于熱點(diǎn)關(guān)鍵詞的挖掘,用3.1節(jié)中提到方法在原有關(guān)鍵詞頻數(shù)的基礎(chǔ)上,考慮專家的影響力,從而挖掘出熱點(diǎn)關(guān)鍵詞。根據(jù)式(7)計(jì)算關(guān)鍵詞的值,當(dāng)其值大于某個(gè)臨界閾值(閾值計(jì)算用式(8))時(shí),認(rèn)為它是熱點(diǎn)關(guān)鍵詞。由于該臨界閾值是用戶自己設(shè)定的,那么不同的臨界閾值,挖掘出的熱點(diǎn)關(guān)鍵詞也會(huì)相應(yīng)的不同。由式(7)-式(9)可知,閾值設(shè)置的不同會(huì)影響挖掘出的熱點(diǎn)關(guān)鍵詞的個(gè)數(shù).圖5是針對(duì)不同δ值挖掘出的熱點(diǎn)關(guān)鍵詞的個(gè)數(shù),由圖中曲線可知,δ值越大,熱點(diǎn)關(guān)鍵詞的個(gè)數(shù)相應(yīng)越小,他們二者之間成反向變化趨勢(shì)。

      圖5 不同δ值對(duì)應(yīng)的不同熱點(diǎn)關(guān)鍵詞個(gè)數(shù)

      然而要想找到一個(gè)確切的δ值來(lái)更正確地挖掘出熱點(diǎn)關(guān)鍵詞需要不同的實(shí)驗(yàn)來(lái)實(shí)現(xiàn)。衡量不同閾值的準(zhǔn)確性,我們先采用人工標(biāo)注方法識(shí)別出熱點(diǎn)關(guān)鍵詞,然后用本文提到的方法挖掘出熱點(diǎn)關(guān)鍵詞,計(jì)算該方法挖掘熱點(diǎn)關(guān)鍵詞的正確率,從而確定一個(gè)合適的δ閾值。圖6是按照3.1節(jié)中提到的方法挖掘出的正確熱點(diǎn)關(guān)鍵詞的正確率,這里正確率的計(jì)算按照式(12)。從圖中可以看出,當(dāng)δ值為3時(shí),得到熱點(diǎn)關(guān)鍵詞的正確率是最高的,因此確定該δ為3。

      圖6 熱點(diǎn)關(guān)鍵詞正確率

      式(14)中N是人工標(biāo)記的熱點(diǎn)關(guān)鍵詞的個(gè)數(shù),n1是挖掘出的正確熱點(diǎn)關(guān)鍵詞個(gè)數(shù),n2是挖掘出的錯(cuò)誤熱點(diǎn)關(guān)鍵詞。之所以給一個(gè)系數(shù)0.2,是因?yàn)殄e(cuò)誤熱點(diǎn)關(guān)鍵詞比正確熱點(diǎn)關(guān)鍵詞的重要程度低。

      (14)

      詞頻方法挖掘熱點(diǎn)關(guān)鍵詞通常是通過(guò)關(guān)鍵詞在整個(gè)數(shù)據(jù)庫(kù)中出現(xiàn)的次數(shù)來(lái)衡量。網(wǎng)絡(luò)方法挖掘熱點(diǎn)關(guān)鍵詞是根據(jù)關(guān)鍵詞之間的關(guān)聯(lián)共現(xiàn)關(guān)系,采用聚類(lèi)方法,找出網(wǎng)絡(luò)中的中心關(guān)鍵詞,將其作為熱點(diǎn)關(guān)鍵詞;而本文中提出的方法改進(jìn)了傳統(tǒng)詞頻的方法,充分考慮了關(guān)鍵詞出現(xiàn)的次數(shù)以及該關(guān)鍵詞所屬項(xiàng)目領(lǐng)域?qū)<业挠绊懥Ω鞣矫娴囊蛩?,建立雙層網(wǎng)絡(luò)模型從而挖掘熱點(diǎn)關(guān)鍵詞。表1中所列的是部分領(lǐng)域(由于數(shù)據(jù)量比較大,就挑選了幾個(gè)代表性的領(lǐng)域數(shù)據(jù)來(lái)分析)的項(xiàng)目個(gè)數(shù)、人工標(biāo)注的熱點(diǎn)詞個(gè)數(shù),并按照3.2節(jié)中提到的方法挖掘出的熱點(diǎn)關(guān)鍵詞個(gè)數(shù)的正確率和詞頻方法以及網(wǎng)絡(luò)方法挖掘出的熱點(diǎn)關(guān)鍵詞的正確率數(shù)據(jù)比對(duì)。從表中數(shù)據(jù)可以看出,本文方法挖掘出熱點(diǎn)關(guān)鍵詞的正確率明顯高于詞頻方法和網(wǎng)絡(luò)方法,因此熱點(diǎn)關(guān)鍵詞由詞頻和關(guān)鍵詞所在項(xiàng)目的負(fù)責(zé)人的影響因子來(lái)共同決定更有說(shuō)服力。

      表1 各領(lǐng)域熱點(diǎn)關(guān)鍵詞個(gè)數(shù)及各個(gè)方法挖掘熱點(diǎn)關(guān)鍵詞的正確率

      挖掘出熱點(diǎn)關(guān)鍵詞后,根據(jù)3.2節(jié)方法建立關(guān)鍵詞拓?fù)渚W(wǎng)絡(luò),用DFS找出拓?fù)鋱D的強(qiáng)連通分量,那么強(qiáng)連通分量組合就代表熱點(diǎn)項(xiàng)目,或者在未來(lái)一段時(shí)間內(nèi)可能會(huì)多次出現(xiàn)在項(xiàng)目中的。這里用rank值表示強(qiáng)連通分量的相對(duì)順序值。根據(jù)該值的計(jì)算方式,我們知道rank值越大表示該組合熱點(diǎn)程度越高,因而越能代表科研的熱點(diǎn)趨勢(shì)。表2為rank值排序靠前的熱點(diǎn)關(guān)鍵詞拓?fù)渲械膹?qiáng)連通分量集合。這些關(guān)鍵詞的組合可能成為熱點(diǎn)項(xiàng)目或潛在熱點(diǎn)項(xiàng)目用到的關(guān)鍵詞組合。

      表2 熱點(diǎn)關(guān)鍵詞拓?fù)鋱D強(qiáng)連通分量

      5 結(jié) 語(yǔ)

      項(xiàng)目—專家網(wǎng)絡(luò)的建立需要考慮很多因素,本文從最基本的關(guān)鍵詞的詞頻和其所在項(xiàng)目的負(fù)責(zé)人的影響因子出發(fā)來(lái)衡量關(guān)鍵詞的權(quán)重,比單一詞頻算法更有說(shuō)服力。同屬于一個(gè)領(lǐng)域且在項(xiàng)目中共現(xiàn)的頻數(shù)大的關(guān)鍵詞,可能在未來(lái)一段時(shí)間成為熱點(diǎn)項(xiàng)目的關(guān)鍵詞,從而這些熱點(diǎn)關(guān)鍵詞的組合有可能成為潛在熱點(diǎn)項(xiàng)目。

      [1] Fan Y, Li M, Chen J, et al. Network of econophysicists: a weighted network to investigate the development of econophysics[J]. International Journal of Modern Physics B, 2004, 18(17n19):2505-2511.

      [2] Luhn H P. The automatic creation of literature abstracts[J].IBM Journal of research and development, 1958, 2(2):159-165.

      [3] Hulth A. Improved automatic keyword extraction given more linguistic knowledge[C]//Proceedings of the 2003 conference on Empirical methods in natural language processing. Association for Computational Linguistics, 2003:216-223.

      [4] Liu H, Li X. Internet public opinion hotspot detection research based on k-means algorithm[M]//Advances in Swarm Intelligence. Springer Berlin Heidelberg, 2010:594-602.

      [5] Zheng K, Shu X M, Yuan H Y. Hot Spot Information Auto-detection Method of Network Public Opinion[J]. Computer Engineering, 2010, 36(3):4-6.

      [6] Bun K K, Ishizuka M. Topic extraction from news archive using TF* PDF algorithm[C]//Web Information Systems Engineering, International Conference on. IEEE Computer Society,2002:73-73.

      [7] Chen J, Geyer W, Dugan C, et al. Make new friends, but keep the old: recommending people on social networking sites[C]//Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. ACM, 2009:201-210.

      [8] Griffiths T L, Steyvers M. Finding scientific topics[J].Proceedings of the National academy of Sciences of the United States of America, 2004, 101(S1):5228-5235.

      [9] Li M, Fan Y, Chen J, et al. Weighted networks of scientific communication: the measurement and topological role of weight[J]. Physica A: Statistical Mechanics and its Applications, 2005, 350(2):643-656.

      [10] Wu K J, Chen M C, Sun Y. Automatic topics discovery from hyperlinked documents[J]. Information processing & management, 2004, 40(2): 239-255.

      [11] 吳江寧, 楊光飛. 基于本體的項(xiàng)目和領(lǐng)域?qū)<移ヅ湓拖到y(tǒng)[J]. 計(jì)算機(jī)應(yīng)用研究, 2009, 26(10):3787-3790.

      [12] 陳莊, 荊于勤. 基于相似度計(jì)算的信息化項(xiàng)目與專家匹配方法[J]. 重慶理工大學(xué)學(xué)報(bào): 自然科學(xué)版, 2013,27(4):81-84.

      [13] 楊生舉, 蒙杰, 趙昕輝,等.基于文本挖掘的科研項(xiàng)目網(wǎng)上評(píng)審系統(tǒng)研究與實(shí)現(xiàn)[J].甘肅科技,2012,24(15):12-14.

      [14] 劉克強(qiáng). 2009 共享版 ICTCLAS 的分析與使用[J]. 科教文匯, 2009(22):271-271.

      [15] 施聰鶯, 徐朝軍, 楊曉江. TFIDF 算法研究綜述[J]. 計(jì)算機(jī)應(yīng)用, 2009,29(B06):167-170.

      [16] 何躍, 帥馬戀, 馮韻. 中文微博熱點(diǎn)話題挖掘研究[J]. 統(tǒng)計(jì)與信息論壇, 2014,29(6):86-90.

      [17] 劉金嶺, 王新功, 周泓. 基于短信文本信息流的多熱點(diǎn)事件挖掘[J]. 山東大學(xué)學(xué)報(bào):工學(xué)版,2013,43(3):7-12.

      [18] 姚曉娜. BBS 熱點(diǎn)話題挖掘與觀點(diǎn)分析[D].大連:大連海事大學(xué), 2008.

      MINING HOT KEYWORDS AND HOT PROJECTS BASED ON KEYWORD NETWORK

      Guo JingChen ZeyaWang Qing

      (SchoolofComputerScienceandTechnology,UniversityofScienceandTechnologyofChina,Hefei230027,Anhui,China) (SuzhouInstituteforAdvancedStudy,UniversityofScienceandTechnologyofChina,Suzhou215123,Jiangsu,China)

      Traditional method using frequency to mine hot keywords cannot guarantee the effectiveness and integrity of hot keywords mining from database, for this issue, we propose a method which is based on the keywords data corresponding to projects and experts and analyses the correlation between different project keywords so as to establish project-expert network relationship. Its innovation lies in using double-layer structure to connect the experts, the network and the keywords, calculating the hot degree of keywords, so that mines out the hot keywords and hot projects. Experimental results show that the method can more accurately mine the hot keywords in projects, and avoids the one-sided problem brought forth by only using frequency to calculate hot keywords.

      Hot keywordProject-expert networkRelevanceHot projectWeight

      2015-03-04。郭靜,碩士生,主研領(lǐng)域:無(wú)線傳感器網(wǎng)絡(luò),軟件工程與理論。陳澤亞,碩士生。王慶,碩士生。

      TP311

      A

      10.3969/j.issn.1000-386x.2016.08.016

      猜你喜歡
      挖掘出詞頻個(gè)數(shù)
      基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      怎樣數(shù)出小正方體的個(gè)數(shù)
      等腰三角形個(gè)數(shù)探索
      怎樣數(shù)出小木塊的個(gè)數(shù)
      從唱片里面挖掘出更多的細(xì)節(jié) Thorens多能士| TD 905黑膠唱盤(pán)
      怎樣數(shù)出小正方體的個(gè)數(shù)
      三次實(shí)地采訪,挖掘出暖新聞背后的超暖細(xì)節(jié)
      感悟生活,拓展思維空間
      詞頻,一部隱秘的歷史
      云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
      运城市| 沐川县| 晋江市| 浑源县| 炎陵县| 扬中市| 海丰县| 呼图壁县| 隆昌县| 界首市| 怀来县| 邳州市| 徐州市| 诏安县| 阜南县| 通山县| 六安市| 潼南县| 确山县| 抚顺县| 林芝县| 江安县| 正镶白旗| 西平县| 拉萨市| 静宁县| 沙雅县| 察雅县| 大兴区| 凉山| 莫力| 甘谷县| 万山特区| 大关县| 浦北县| 安多县| 洛浦县| 马山县| 崇阳县| 保定市| 隆子县|