• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于PageRank的領(lǐng)域知識(shí)圖譜核心概念識(shí)別方法研究

    2018-06-14 05:46:58王祎珺高俊平
    關(guān)鍵詞:三元組網(wǎng)頁(yè)圖譜

    王祎珺 高俊平

    (1.西南石油大學(xué)網(wǎng)絡(luò)與信息化中心,四川成都 610500;2.西南石油大學(xué)研究生院(一流學(xué)科建設(shè)辦公室),四川成都 610500)

    領(lǐng)域知識(shí)圖譜在學(xué)習(xí)中具有重要的作用,對(duì)學(xué)習(xí)者學(xué)習(xí)領(lǐng)域知識(shí)、了解知識(shí)發(fā)展脈絡(luò)與演進(jìn)關(guān)系具有重要的指導(dǎo)意義[1]。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,各行各業(yè)的數(shù)據(jù)信息量呈井噴式增長(zhǎng)。網(wǎng)絡(luò)信息數(shù)據(jù)具有數(shù)量龐大、內(nèi)容豐富、類(lèi)型多樣、流動(dòng)性強(qiáng)、無(wú)序性大的特點(diǎn),因此,需要挖掘出領(lǐng)域知識(shí)間所隱含的特殊的某種關(guān)系或聯(lián)系,而領(lǐng)域知識(shí)間的演化關(guān)系對(duì)于協(xié)助梳理領(lǐng)域知識(shí)的前序和后續(xù)邏輯關(guān)系具有重要意義。利用領(lǐng)域知識(shí)演化關(guān)系抽取的研究[2],所得到領(lǐng)域知識(shí)的演化關(guān)系三元組,可以構(gòu)建領(lǐng)域知識(shí)圖譜提供邏輯關(guān)系,為學(xué)習(xí)者了解知識(shí)的發(fā)展進(jìn)程提供了方便。但是,對(duì)于一個(gè)新興學(xué)科,并不能揭示該領(lǐng)域中對(duì)學(xué)習(xí)者具有重要指導(dǎo)意義的核心概念或知識(shí)。針對(duì)這一問(wèn)題,本文提出基于PageRank的領(lǐng)域知識(shí)圖譜核心概念識(shí)別方法,并驗(yàn)證了該方法的可行性。

    1 相關(guān)現(xiàn)狀

    知識(shí)圖譜作為一門(mén)新興研究,知識(shí)圖譜的構(gòu)建主要是以引文分析與共引、耦合網(wǎng)絡(luò)、詞頻分析與共詞網(wǎng)絡(luò)、社會(huì)分析與科研合作網(wǎng)絡(luò)理論為基礎(chǔ)。知識(shí)圖譜的應(yīng)用為科研、教育、社會(huì)問(wèn)題解決領(lǐng)域帶來(lái)了便利。

    但是對(duì)于新興的知識(shí)圖譜,需要從中識(shí)別蘊(yùn)含豐富的有價(jià)值的知識(shí)或概念,給學(xué)習(xí)者的學(xué)習(xí)提供指導(dǎo)。在情報(bào)科學(xué)中,有類(lèi)似識(shí)別具有情報(bào)價(jià)值主題的研究。殷沈琴等[3]根據(jù)時(shí)間序列進(jìn)行分析,揭示其研究的發(fā)展趨勢(shì)和方向。唐果媛等[4]以關(guān)鍵詞頻次和共現(xiàn)頻次量化計(jì)算為基礎(chǔ),通過(guò)計(jì)算主題相似度,來(lái)分析學(xué)科主題的演化軌跡。葉春雷等[5]利用LDA模型進(jìn)行優(yōu)化,實(shí)驗(yàn)證明能夠有效提升識(shí)別效率。Martin提出利用文本中抽取的術(shù)語(yǔ)來(lái)構(gòu)建概念圖,克服了向量空間模型中關(guān)鍵詞獨(dú)立的缺陷,較基于特征和基于結(jié)構(gòu)的知識(shí)發(fā)現(xiàn)更優(yōu)[6]?;陬l次、詞典的方法是最簡(jiǎn)單、使用最廣泛的主題識(shí)別方法,但僅根據(jù)主題詞的頻次和分布情況進(jìn)行識(shí)別,并未考慮主題詞間的關(guān)聯(lián),難以全面揭示文本中蘊(yùn)含的主題信息。

    表1 點(diǎn)度中心性前5數(shù)據(jù)結(jié)果

    2 基于PageRank的核心概念識(shí)別方法

    知識(shí)圖譜是一種重要的可視化分析工具,以圖結(jié)構(gòu)的模式,直觀、清晰地展示其中結(jié)點(diǎn)和邊對(duì)應(yīng)的對(duì)象及關(guān)系。隨著信息抽取技術(shù)的發(fā)展,如何準(zhǔn)確識(shí)別文本主題重要度一定的必要性。所以,根據(jù)中心度來(lái)區(qū)分主題的重要性,進(jìn)而識(shí)別出核心主題以及主題之間的結(jié)構(gòu)關(guān)系成為了可能。

    PageRank算法是通過(guò)分析網(wǎng)絡(luò)的鏈接結(jié)構(gòu)來(lái)獲得網(wǎng)絡(luò)中網(wǎng)頁(yè)的重要性排名,其借鑒了傳統(tǒng)引文分析思想[7]。詳細(xì)的,設(shè)網(wǎng)頁(yè) p的頁(yè)面重要度為 P R(p),Ti為指向網(wǎng)頁(yè) p的其他頁(yè)面,其中, i = 1 ,2,...,n ,設(shè)C(Ti)為網(wǎng)頁(yè) Ti向外指出的鏈接數(shù)目??梢缘贸鼍W(wǎng)頁(yè) p的 PR值是。改進(jìn)后的PageRank算法提出設(shè)定基尼系數(shù)α為0.85。所以,一個(gè)網(wǎng)頁(yè)p值可以由下式表示: P R(p ) = ( 1- α ) + α。

    本文先根據(jù)基于CRF的句子層面上關(guān)系抽取算法,抽取出句子中包含的演化關(guān)系三元組對(duì)象[2],再利用基于以PageRank的知識(shí)圖譜中核心概念識(shí)別算法,識(shí)別知識(shí)圖譜中的核心概念。

    知識(shí)圖譜核心概念識(shí)別主要有5個(gè)步驟:

    (1)參數(shù)構(gòu)建:利用句法分析函數(shù)對(duì)句子成份進(jìn)行處理,解析句法結(jié)構(gòu);(2)特征選取:利用特征選擇函數(shù)對(duì)句子進(jìn)行特征抽取;(3)序列標(biāo)注:利用CRF模型對(duì)句子成份進(jìn)行序列標(biāo)注,訓(xùn)練抽取模型;(4)關(guān)系抽取:利用關(guān)系抽取函數(shù)獲得演化關(guān)系三元組;(5)點(diǎn)度中心性計(jì)算:利用PageRank算法計(jì)算獲取到的演化關(guān)系三元組中概念的點(diǎn)度中心性,再根據(jù)點(diǎn)度中心性排序,將結(jié)果輸出。

    最后,通過(guò)計(jì)算點(diǎn)度中心性的結(jié)果,結(jié)合人工評(píng)價(jià)的方法判斷計(jì)算結(jié)果的準(zhǔn)確性與有效性,驗(yàn)證算法的可行性。

    3 實(shí)驗(yàn)結(jié)果

    實(shí)驗(yàn)數(shù)據(jù)來(lái)自于中文維基百科,選擇了與“機(jī)器學(xué)習(xí)”領(lǐng)域知識(shí)話題相關(guān)的1000個(gè)網(wǎng)頁(yè)進(jìn)行實(shí)驗(yàn)。利用獲取的演化關(guān)系三元組計(jì)算各概念的點(diǎn)度中心性,選取點(diǎn)度中心性排序前5的數(shù)據(jù)結(jié)果,如表1所示。

    從表1可知,點(diǎn)度中心性靠前的概念為“機(jī)器學(xué)習(xí)”、“信息論”、“概率論”、“統(tǒng)計(jì)學(xué)”等,表明其是重要的核心概念,這也表明數(shù)據(jù)來(lái)源的相關(guān)性與準(zhǔn)確性,為驗(yàn)證這些概念是知識(shí)圖譜中的核心概念,選取機(jī)器學(xué)習(xí)領(lǐng)域知識(shí)圖譜中包含這些概念的部分知識(shí)圖譜[2](如圖1所示),進(jìn)行人工評(píng)價(jià)。

    從圖1可以看出,“機(jī)器學(xué)習(xí)”、“概率論”、“統(tǒng)計(jì)學(xué)”等概念點(diǎn)度中心性較高,是連接各種概念的重要節(jié)點(diǎn),表明其是學(xué)習(xí)中需要重視的知識(shí),即核心概念。由于選擇的僅是局部的知識(shí)圖譜,而且只計(jì)算各概念的點(diǎn)度中心性,忽視了概念間的有序關(guān)系,因此圖譜中只出現(xiàn)了表1中的部分概念。但是根據(jù)人工評(píng)價(jià),點(diǎn)度中心性能夠反映概念的重要程度,鑒定其是否屬于核心概念,因此本文提出的方法具有一定的可行性。

    圖1 機(jī)器學(xué)習(xí)知識(shí)圖譜(局部)

    4 結(jié)論

    知識(shí)圖譜的應(yīng)用領(lǐng)域廣泛,能夠有效的給學(xué)習(xí)者了解知識(shí)間的邏輯關(guān)系具有重要意義,但是對(duì)于新興學(xué)科,無(wú)法揭示該領(lǐng)域中對(duì)學(xué)習(xí)者具有重要指導(dǎo)意義的核心概念或知識(shí)。針對(duì)這一問(wèn)題,本文提出一種基于PageRank的知識(shí)圖譜核心概念識(shí)別方法,利用已獲取的演化關(guān)系三元組,計(jì)算概念的點(diǎn)度中心性,再結(jié)合人工評(píng)價(jià),驗(yàn)證了本文方法的可行性。由于PageRank算法存在主題漂移、偏重舊網(wǎng)頁(yè)、忽視用戶個(gè)性化等缺陷[8],可能對(duì)算法的有效性存在一定影響,后續(xù)的研究中可以嘗試對(duì)該方法進(jìn)行改進(jìn),以提高核心概念識(shí)別的準(zhǔn)確性。在后續(xù)的研究中可以考慮中介中心性及接近中心性指標(biāo),從多角度檢驗(yàn)本文方法的有效性和普適性。

    [1]王萍.網(wǎng)絡(luò)環(huán)境下的領(lǐng)域知識(shí)挖掘[D].上海:華東師范大學(xué),2010.

    [2]高俊平,張暉,趙旭劍,楊春明,李波.面向維基百科的領(lǐng)域知識(shí)演化關(guān)系抽取[J].計(jì)算機(jī)學(xué),2016,39(10):2088-2101.

    [3]殷沈琴,張計(jì)龍,任磊.基于關(guān)鍵詞共現(xiàn)和社會(huì)網(wǎng)絡(luò)分析法的數(shù)字圖書(shū)館研究熱點(diǎn)分析[J].大學(xué)圖書(shū)館學(xué)報(bào),2011,29(4):25-30.

    [4]唐果媛,張薇.基于共詞分析法的學(xué)科主題演化研究進(jìn)展與分析[J].圖書(shū)情報(bào)工作,2015, 59(5):128-136.

    [5]Ye C, Feng L. The research of theme identification in scientific documents[C]// IEEE International Conference on Computer Science and Automation Engineering. IEEE, 2012:715-718.

    [6]Martin B, Eklund P. From Concepts to Concept Lattice: A Border Algorithm for Making Covers Explicit[C]// International Conference on Formal Concept Analysis. Springer-Verlag, 2008:78-89.

    [7]李稚楹,楊武,謝治軍.PageRank算法研究綜述[J].計(jì)算機(jī)科學(xué),2011(b10):185-188.

    [8]宋歌,葉繼元.基于SNA的圖書(shū)情報(bào)學(xué)期刊互引網(wǎng)絡(luò)結(jié)構(gòu)分析[J].中國(guó)圖書(shū)館學(xué)報(bào), 2009, 35(3):27-34.

    猜你喜歡
    三元組網(wǎng)頁(yè)圖譜
    基于語(yǔ)義增強(qiáng)雙編碼器的方面情感三元組提取
    軟件工程(2024年12期)2024-12-28 00:00:00
    基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
    繪一張成長(zhǎng)圖譜
    關(guān)于余撓三元組的periodic-模
    基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
    電子制作(2018年10期)2018-08-04 03:24:38
    補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
    中成藥(2017年3期)2017-05-17 06:09:01
    基于URL和網(wǎng)頁(yè)類(lèi)型的網(wǎng)頁(yè)信息采集研究
    電子制作(2017年2期)2017-05-17 03:54:56
    主動(dòng)對(duì)接你思維的知識(shí)圖譜
    網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
    10個(gè)必知的網(wǎng)頁(yè)設(shè)計(jì)術(shù)語(yǔ)
    张家港市| 镇沅| 禄劝| 缙云县| 秀山| 山西省| 安远县| 恩施市| 临邑县| 曲周县| 米泉市| 隆昌县| 双牌县| 沙洋县| 米林县| 三亚市| 巴马| 深州市| 紫云| 莆田市| 新民市| 邵阳市| 哈巴河县| 宁都县| 许昌市| 泰兴市| 益阳市| 汕头市| 东乡| 城固县| 介休市| 靖西县| 新巴尔虎左旗| 东至县| 宁陵县| 宣汉县| 永年县| 奈曼旗| 阳江市| 长寿区| 苏尼特右旗|