李華康, 孫國梓, 胥 備, 徐向陽, 夏春蓉
(1.南京郵電大學(xué) 計(jì)算機(jī)學(xué)院、軟件學(xué)院,江蘇 南京 210023)(2.南京大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,江蘇 南京 210093)
一種基于知識網(wǎng)絡(luò)血緣關(guān)系的網(wǎng)頁分類方法
李華康1, 孫國梓1, 胥 備1, 徐向陽2, 夏春蓉2
(1.南京郵電大學(xué) 計(jì)算機(jī)學(xué)院、軟件學(xué)院,江蘇 南京 210023)(2.南京大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,江蘇 南京 210093)
網(wǎng)頁內(nèi)容分析及分類方法作為用戶行為分析、興趣識別、輿情分析等上層應(yīng)用的底層核心技術(shù)逐漸成為學(xué)術(shù)界乃至工業(yè)界的熱點(diǎn).針對基于標(biāo)簽數(shù)據(jù)建立機(jī)器學(xué)習(xí)模型的傳統(tǒng)網(wǎng)頁分類算法已經(jīng)無法適應(yīng)移動互聯(lián)網(wǎng)時(shí)代海量數(shù)據(jù)的迭代更新需求的問題,文中提出一種基于知識網(wǎng)絡(luò)血緣關(guān)系的非監(jiān)督頁面分類方法.該方法以維基中文知識庫作為知識網(wǎng)絡(luò),標(biāo)定少量網(wǎng)絡(luò)上層基礎(chǔ)詞匯和網(wǎng)絡(luò)熱詞的類目體系,利用知識網(wǎng)絡(luò)的傳遞性來遍歷計(jì)算所有節(jié)點(diǎn)關(guān)鍵詞的類目屬性.文章根據(jù)中文知識網(wǎng)絡(luò)特有的文本相似度提出血緣關(guān)系算法和相似度提權(quán)函數(shù).實(shí)驗(yàn)表明這種方法能夠有效地提高基于知識網(wǎng)絡(luò)的中文分類效果.
網(wǎng)頁分類; 知識網(wǎng)絡(luò); 血緣關(guān)系; 提權(quán)函數(shù)
隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的用戶通過計(jì)算機(jī)和移動終端關(guān)注各類站點(diǎn)的信息.一些開源的站點(diǎn)如Yahoo和DMOZ ODP,通過提供結(jié)構(gòu)化、層次化的瀏覽方式方便用戶檢索信息.而網(wǎng)站結(jié)構(gòu)類目的定義以及所有網(wǎng)頁的分類工作主要依靠人工標(biāo)注來完成.根據(jù)網(wǎng)景(NetScape)在2008年的報(bào)道,有78940名編輯人員參與ODP網(wǎng)站的分類維護(hù)工作.分類的主要工作可以分為以下3類:
1)主題分類[1]: 主要對頁面內(nèi)容的主題進(jìn)行的分類,如新浪首頁的欄目信息,包括體育、文化、教育、科技等;
2)功能分類[2]: 功能分類更側(cè)重于區(qū)分頁面角色,例如判斷當(dāng)前頁面是信息發(fā)布頁面、討論板,還是個(gè)人博客;
3)情感分類[3]: 作為目前最為熱門的分類,用于對用戶評論中的正面評論和負(fù)面評論進(jìn)行區(qū)分.
在大數(shù)據(jù)時(shí)代,依靠完全人工或者半人工的頁面編輯分類方式不僅無法滿足快速膨脹的互聯(lián)網(wǎng)用戶需求,更可能面臨標(biāo)記人員本身素質(zhì)或怠工等因素帶來的標(biāo)簽錯(cuò)誤等問題.自動化或者半自動化的網(wǎng)頁分類技術(shù)不僅在學(xué)術(shù)界越來越受到重視,在工業(yè)界也有著巨大的市場需求.
網(wǎng)頁分類作為互聯(lián)網(wǎng)技術(shù)的一個(gè)基礎(chǔ)支撐,對于提高互聯(lián)網(wǎng)服務(wù)質(zhì)量意義重大.諸多互聯(lián)網(wǎng)上的關(guān)鍵應(yīng)用,包括站點(diǎn)目錄、搜索引擎、網(wǎng)頁爬蟲、推薦系統(tǒng)、用戶行為分析系統(tǒng)和廣告投放系統(tǒng)都需要高效、精準(zhǔn)的頁面分類結(jié)果.基于頁面內(nèi)容的分類方法是最原始也是最主要的網(wǎng)頁分類方法[4],主要依賴于正文長短以及關(guān)鍵詞的豐度和量.而隨著一些大規(guī)模詞典和類目體系的建立,基于第三方詞庫[5-6]的分類方法逐漸受到關(guān)注.第三方詞庫作為現(xiàn)成的語義類目不僅可以作為輔助信息增強(qiáng)語義,提高分類精度,而且不需要建立龐大的分類訓(xùn)練樣本集,還能適應(yīng)各種新詞匯、詞義漂移等現(xiàn)象.
文中主要針對大數(shù)據(jù)時(shí)代網(wǎng)頁量多、傳統(tǒng)分類方法無法有效進(jìn)行標(biāo)簽以獲得高精度分類結(jié)果等問題,提出一種基于知識網(wǎng)絡(luò)的海量中文分類方法.文中以中文維基類目網(wǎng)絡(luò)數(shù)據(jù)庫為基礎(chǔ),通過定義少量的基礎(chǔ)類目節(jié)點(diǎn),對維基類目網(wǎng)絡(luò)進(jìn)行初始化,然后建立關(guān)聯(lián)規(guī)則庫,遍歷整個(gè)維基類目網(wǎng)絡(luò)節(jié)點(diǎn),獲得所有節(jié)點(diǎn)關(guān)鍵字的類目權(quán)值.為了提高分類效果,文中提出了知識網(wǎng)絡(luò)血緣關(guān)系算法和類目分布提權(quán)函數(shù).將父節(jié)點(diǎn)的子節(jié)點(diǎn)和葉子節(jié)點(diǎn)分別定義為兒子和女兒,在計(jì)算父節(jié)點(diǎn)和子節(jié)點(diǎn)之間的文本相似度時(shí)綜合考慮了子節(jié)點(diǎn)和葉子節(jié)點(diǎn)之間的相似度問題.介于關(guān)鍵字在各類目中的分布不均問題,提出了雙曲線類目關(guān)鍵字提權(quán)函數(shù).實(shí)驗(yàn)數(shù)據(jù)顯示文中提出的方法能夠明顯地提高知識網(wǎng)絡(luò)分類算法的精度.最后通過一組橫向算法比較,總結(jié)基于知識網(wǎng)絡(luò)算法的優(yōu)劣點(diǎn).該方法還能應(yīng)對傳統(tǒng)網(wǎng)頁分類算法在頁面結(jié)構(gòu)復(fù)雜、噪聲多等環(huán)境下魯棒性不高的問題.
1.1 基于文本的網(wǎng)頁分類技術(shù)
傳統(tǒng)的網(wǎng)頁分類主要通過對頁面非結(jié)構(gòu)化、半結(jié)構(gòu)化[7]和結(jié)構(gòu)化信息進(jìn)行解析,提取特征值,輸入監(jiān)督、半監(jiān)督的機(jī)器學(xué)習(xí)系統(tǒng)[8]來實(shí)現(xiàn)的.文獻(xiàn)[9]中針對網(wǎng)頁的文本信息,在Yahoo數(shù)據(jù)庫上提出并實(shí)現(xiàn)了一種比Bag of Words更好的N-Gram算法.文獻(xiàn)[4]中利用HTML標(biāo)簽的title,headings,metadata以及main text 4個(gè)主要特征,提高了傳統(tǒng)頁面分類精度.而文獻(xiàn)[10]利用改進(jìn)的k-Nearest Neighbor算法分析上述4個(gè)權(quán)重,獲得了更好的效果.文獻(xiàn)[11]中提出了一種基于摘要的降低數(shù)據(jù)噪聲的網(wǎng)頁分類模型.
移動互聯(lián)網(wǎng)頁面由于文本長度不一,在用戶輸入關(guān)鍵字檢索時(shí)也會因?yàn)闊o法匹配而丟失關(guān)鍵頁面.文獻(xiàn)[12]中用文本相似度算法也并未取得理想的效果.文獻(xiàn)[13]中在檢索詞分類方面提出了用核函數(shù)的方法對短文本進(jìn)行語義擴(kuò)充,取得了一定進(jìn)展.另外一些短文本分類技術(shù)主要依靠第三方詞庫,如WordNet[5], OpenCyc[6], ThoughTreasure[14],但也存在各自的缺陷[15].
1.2 知識網(wǎng)絡(luò)
知識網(wǎng)絡(luò)又稱知識庫[16-18],是知識工程中結(jié)構(gòu)化、易操作、易利用、全面有組織的知識集群.知識網(wǎng)絡(luò)的概念主要來源于兩個(gè)領(lǐng)域,一個(gè)是傳統(tǒng)的數(shù)據(jù)庫領(lǐng)域,另一個(gè)是人工智能領(lǐng)域,這兩項(xiàng)計(jì)算技術(shù)結(jié)合在一起,就促成了知識網(wǎng)絡(luò)系統(tǒng)的產(chǎn)生和發(fā)展[19-20].在互聯(lián)網(wǎng)上,比較大的知識庫系統(tǒng)有Wikipedia,Wordnet,Baike等.Wordnet是普林斯頓大學(xué)的心理學(xué)家、語言學(xué)家和計(jì)算機(jī)工程師聯(lián)合設(shè)計(jì)的一種基于認(rèn)知語言學(xué)的英語詞典.文獻(xiàn)[21]中利用Wordnet的標(biāo)題和詞匯注釋來重新調(diào)整檢索詞的匹配權(quán)重的方法,提高了用戶檢索效果.維基百科(Wikipedia)是一個(gè)自由、免費(fèi)、內(nèi)容開放的網(wǎng)絡(luò)百科全書,也是世界上最大的多語種詞條知識庫.文獻(xiàn)[22]中利用英文Wikipedia詞庫提升了twitter的信息過濾效果;文獻(xiàn)[23]和文獻(xiàn)[24]中均提出了利用中文維基百科提高中文文本分類的方法.文獻(xiàn)[25]和文獻(xiàn)[26]中分別利用維基百科的詞條及拓?fù)浣Y(jié)構(gòu)對網(wǎng)頁分類進(jìn)行了優(yōu)化.
維基百科作為目前最為龐大的知識網(wǎng)絡(luò),提供了每個(gè)頁面的分類索引信息,每個(gè)類目對應(yīng)于百科中的一個(gè)“概念”,并且隸屬于一個(gè)或者多個(gè)父類目,包含一個(gè)或者多個(gè)子類目(圖1).
圖1 維基百科知識網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)示意Fig.1 Plot of Wikipedia knowledge network topology
2.1 維基類目網(wǎng)絡(luò)結(jié)構(gòu)
維基百科知識體系獨(dú)立于其他類目體系,無法直接運(yùn)用于類目主題分類.在此先給出幾個(gè)定義和規(guī)則來重構(gòu)維基知識庫為新的維基類目網(wǎng)絡(luò).首先根據(jù)維基類目網(wǎng)絡(luò)以及算法需要給出以下幾個(gè)名詞定義:
1)維基類目詞匯:維基知識體系中的每個(gè)節(jié)點(diǎn)所對應(yīng)的類目詞匯;
2)基礎(chǔ)類目:人工定義的基礎(chǔ)類目,例如文化、體育、財(cái)經(jīng)等;
3)基礎(chǔ)類目詞匯:每個(gè)基礎(chǔ)類目中都包含一個(gè)預(yù)先定義的詞表,基礎(chǔ)類目詞匯指的是詞表中的每個(gè)詞匯,如文化類目中包含“莫言”,體育類目中包含“籃球”,財(cái)經(jīng)類目中則有“股票”.
定義基礎(chǔ)類目向量C={c1,c2,…,cn},其中每個(gè)類目ci(1≤i≤n)對應(yīng)一個(gè)基礎(chǔ)詞典dicti,與此同時(shí)假定i基礎(chǔ)類目詞典中各包含詞匯量m,即dicti$定義為:{wordi1,wordi2,…,wordim}.
假設(shè)維基知識體系中包含k個(gè)互質(zhì)詞匯,維基類目詞向量Wiki={w1,w2,…,wk},其中第j個(gè)詞匯wj(1≤i≤n)的維基類目詞匯與基礎(chǔ)類目的關(guān)聯(lián)關(guān)系如下:
(1)
式中:pji(1≤i≤n)表示該維基類目詞匯wj屬于基礎(chǔ)類目ci的概率,即當(dāng)前維基類目詞匯wj(1≤j≤k)隸屬每個(gè)類目的可能性.具體關(guān)聯(lián)規(guī)則根據(jù)不同情況可以分為初始關(guān)聯(lián)、規(guī)則關(guān)聯(lián)和完備關(guān)聯(lián)3種.
2.2 初始關(guān)聯(lián)
假設(shè)維基類目詞匯與基礎(chǔ)類目詞匯存在一定交叉,即兩個(gè)詞匯完全相同或者存在高相似度sim(w1,w2).sim(w1,w2)表示由w1和w2中重合的非停止字段所占詞長度的比重,文中采用余弦相似度和編輯距離兩種算法來實(shí)現(xiàn).如類目詞匯“渦輪增壓”(w10)只出現(xiàn)在基礎(chǔ)類目“機(jī)械”(c1),那么關(guān)系函數(shù)為:{w10←c1:others:0}; 類目詞匯“芯片頻率”(w40)出現(xiàn)在基礎(chǔ)類目“計(jì)算機(jī)”(c2)和“手機(jī)”(c3)中時(shí),則類目的初始關(guān)聯(lián)關(guān)系為:{W40←c2:0.5,w40←c3:0.5,others:0}.
2.3 規(guī)則關(guān)聯(lián)
規(guī)則關(guān)聯(lián)主要實(shí)現(xiàn)初始關(guān)聯(lián)標(biāo)記向整個(gè)維基知識體系的擴(kuò)散,維基知識體系中越情迷的節(jié)點(diǎn)產(chǎn)生越高的類目關(guān)聯(lián)結(jié)果.圖2給出了類目節(jié)點(diǎn)類Node的數(shù)據(jù)結(jié)構(gòu),包括節(jié)點(diǎn)對象定義Node,類目詞向量下標(biāo)index,子節(jié)點(diǎn)數(shù)量children,父節(jié)點(diǎn)parents,類目概率category-weight和標(biāo)記標(biāo)簽mark.
圖2 維基知識網(wǎng)絡(luò)類目節(jié)點(diǎn)數(shù)據(jù)結(jié)構(gòu)定義示意Fig.2 Structure definition of category node inWikipedia knowledge
根據(jù)自上而下的遍歷過程,維基網(wǎng)絡(luò)的主要存在3種情況(圖3),分別為單一鏈路規(guī)則,單層次多父節(jié)點(diǎn)規(guī)則和多層次多父節(jié)點(diǎn)規(guī)則.
圖3 基于維基知識網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的類目節(jié)點(diǎn)關(guān)聯(lián)規(guī)則模型示意Fig.3 Association rules model of category nodes basedon the topology of Wikipedia network
1)單一鏈路:需要標(biāo)記的節(jié)點(diǎn)X與最上層已標(biāo)記節(jié)點(diǎn)A之間只有一條鏈路,則該鏈路的所經(jīng)過的詞匯必定是直接與上層節(jié)點(diǎn)類目相關(guān)聯(lián),節(jié)點(diǎn)X與上層標(biāo)記節(jié)點(diǎn)的類目權(quán)重一致,定義其關(guān)聯(lián)規(guī)則函數(shù)為:
MAPwX←wA:X.category.weight=f(A→X)-
A.category.weight
(2)
(3)
(4)
2.4 完備關(guān)聯(lián)
在整個(gè)標(biāo)記過程中,存在遍歷的中間節(jié)點(diǎn)仍未被標(biāo)記的情況,此時(shí)采用堆棧算法逐層向上回溯.在確保維基百科數(shù)據(jù)庫的根目錄均被標(biāo)記的情況下,一定能找到一個(gè)已經(jīng)標(biāo)記的節(jié)點(diǎn),然后再往下迭代,以至整個(gè)維基知識體系域,基礎(chǔ)類目關(guān)聯(lián)得以完善,最終建立完整的維基類目網(wǎng)絡(luò).
2.5 血緣關(guān)系函數(shù)
考慮到維基類目網(wǎng)絡(luò)存在上下兩層,類目屬性存在漂移的現(xiàn)象,如“游戲類型”的父節(jié)點(diǎn)有“類型”和“游戲”,但是顯然“游戲類型”和“游戲”貼切度更高.即隨著維基類目網(wǎng)絡(luò)深度的增加,子類目是否能夠繼承父類目的所有類目關(guān)系,需要計(jì)算子類目與父類目之間的血緣關(guān)系.為此引入兩個(gè)繼承函數(shù):
1)基準(zhǔn)繼承函數(shù):f(N1→N2)=1
2)血緣繼承函數(shù):在維基類目網(wǎng)絡(luò)中,祖先節(jié)點(diǎn)和子孫節(jié)點(diǎn)的權(quán)重關(guān)聯(lián)程度可以利用它們之間重合的葉子節(jié)點(diǎn)(頁面)或者子節(jié)點(diǎn)(子類目)來衡量,具體函數(shù)如下:f(N1→N2)=∑∑sim(n1,n2)(n1∈N1.children,n2∈N2.children)
2.6 文本分類
一般的網(wǎng)頁分類算法是將頁面抽取到的主要文本定義為D,然后通過分詞、去停用詞來得到關(guān)于D的詞袋,詞袋中包含一些短語以及短語在當(dāng)前文章中出現(xiàn)的詞頻.所以網(wǎng)頁文本D可以用短語向量T={t1,t2,…,tq}和相對應(yīng)的詞頻向量F={tf1,tf2,…,tfq}來表示,且網(wǎng)頁文本D隸屬于某個(gè)類目c1的權(quán)值可以計(jì)算為:
(5)
式中pki是通過關(guān)聯(lián)算法獲得的關(guān)于短語tk在維基百科中映射為基礎(chǔ)類目ci的概率.根據(jù)以往經(jīng)驗(yàn),長詞條含有更多的信息量,并且匹配難度更高,所以用len(tk)對pki進(jìn)行了加權(quán),同時(shí)給出一個(gè)提權(quán)函數(shù)φ(x)以弱化Score(D,ci)計(jì)算過程中ftk與pki的權(quán)重不均問題.
考慮到一個(gè)詞匯在血緣繼承上,如果多個(gè)父節(jié)點(diǎn)繼承得到的權(quán)重差距越大,則表現(xiàn)越好,反之亦然.為了更好表現(xiàn)這個(gè)特征,對φ(x)的線性增長進(jìn)一步調(diào)節(jié)成正弦雙曲線函數(shù),即:
無權(quán)重提權(quán):φ(x)=x;
正弦雙曲提權(quán):φ(x)=sinh(δ·x),式中δ為常數(shù);
在獲得D相對于所有類目的權(quán)重后,系統(tǒng)可以采取簡單的倒排序法篩選出D的最終類目歸屬:
D←c2,z=argmax(Scroe(D,ci))
(6)
3.1 實(shí)驗(yàn)數(shù)據(jù)集
實(shí)驗(yàn)數(shù)據(jù)來自阿里云計(jì)算有限公司提供的站長統(tǒng)計(jì)數(shù)據(jù),統(tǒng)計(jì)顯示5000個(gè)站點(diǎn)的瀏覽量在1億條以上,數(shù)據(jù)量達(dá)到了4 TB.本實(shí)驗(yàn)選取2013年新浪、鳳凰網(wǎng)、中國雅虎3個(gè)具有典型分類欄目的中文門戶網(wǎng)站,瀏覽量前10的共同主題欄目頁面(表1).
表1 實(shí)驗(yàn)網(wǎng)站及各欄目網(wǎng)頁數(shù)量表Table 1 Web pages number of experimental sitesin different channels
3.2 血緣關(guān)系函數(shù)實(shí)驗(yàn)
表2給出了新浪、鳳凰網(wǎng)和中國雅虎3個(gè)測試站點(diǎn)的知識網(wǎng)絡(luò)關(guān)聯(lián)規(guī)則分類實(shí)驗(yàn)結(jié)果.基礎(chǔ)繼承列出了一般關(guān)聯(lián)規(guī)則下各個(gè)類目的預(yù)測準(zhǔn)確率.顯而易見,使用血緣關(guān)系算法之后,總體預(yù)測準(zhǔn)確率有了3%左右的提升.在后面的實(shí)驗(yàn)中,如果不加說明,統(tǒng)一使用血緣關(guān)系函數(shù).
表2 基準(zhǔn)和血緣繼承函數(shù)對比實(shí)驗(yàn)結(jié)果Table 2 Experimental results comparing for benchmarks with basic inheritance and kinship-relationship %
3.3 提權(quán)函數(shù)評測
圖4a)給出了使用提權(quán)函數(shù)后新浪站點(diǎn)各類目的準(zhǔn)確率,可以看出提權(quán)函數(shù)對其中某些類目有改善.而圖4b)是3個(gè)站點(diǎn)所有類目準(zhǔn)確率平均值隨著提權(quán)函數(shù)百分比的增長變化曲線.顯然,隨著提權(quán)函數(shù)的增高,各站點(diǎn)的分類準(zhǔn)確率也有相應(yīng)提高,并且在25%的時(shí)候達(dá)到了最佳效果.
a) 新浪
b) 所有類目準(zhǔn)確度平均值
3.4 算法對比實(shí)驗(yàn)
為了體現(xiàn)基于知識網(wǎng)絡(luò)血緣關(guān)系算法相比傳統(tǒng)網(wǎng)頁內(nèi)容分類算法的優(yōu)勢,文中采用血緣繼承函數(shù)和提權(quán)函數(shù)的最佳效果與傳統(tǒng)的Bag of Words,TF-IDF算法進(jìn)行比較.傳統(tǒng)的BoW和TF-IDF方法根據(jù)各類樣本數(shù)據(jù)和測試數(shù)據(jù)集合的大小,各類精度呈現(xiàn)出70%~90%的不穩(wěn)定的分類結(jié)果.而采用維基知識網(wǎng)絡(luò)分類算法不僅確保各分類準(zhǔn)確度都在85%以上,而且各對比項(xiàng)的平均分類結(jié)果都有2%~4%的提升.
a) 新浪
b) 鳳凰網(wǎng)
c) 中國雅虎
總體的分類準(zhǔn)確率對比中,維基知識網(wǎng)絡(luò)分類算法在新浪和鳳凰網(wǎng)數(shù)據(jù)集中對比傳統(tǒng)方法優(yōu)勢明顯,而中國雅虎卻截然相反.經(jīng)過線下分析這3個(gè)站點(diǎn)頁面結(jié)構(gòu),發(fā)現(xiàn)中國雅虎的網(wǎng)頁長度遠(yuǎn)高于新浪和鳳凰網(wǎng),這也是傳統(tǒng)大規(guī)模網(wǎng)頁分類算法的局限所在.綜上所述,維基主題分類在分類準(zhǔn)確度和普適性上要優(yōu)于傳統(tǒng)分類方法,更適用于文本質(zhì)量參差不齊的互聯(lián)網(wǎng)環(huán)境.
文中主要針對全網(wǎng)環(huán)境數(shù)據(jù)結(jié)構(gòu)復(fù)雜、噪聲多、干擾強(qiáng)的特點(diǎn),提出了一種基于維基網(wǎng)絡(luò)的主題分類模型.首先,將維基網(wǎng)絡(luò)中的靠近根節(jié)點(diǎn)的類目詞以及網(wǎng)絡(luò)最新熱詞初始化為基礎(chǔ)類目詞匯,然后通過維基網(wǎng)絡(luò)的初始關(guān)聯(lián)、規(guī)則關(guān)聯(lián)和完備關(guān)聯(lián)3種傳遞特性進(jìn)行全網(wǎng)遍歷,獲得所有維基詞匯的類目屬性.在遍歷過程中考慮到子節(jié)點(diǎn)的多父節(jié)點(diǎn)繼承問題以及隨著步長深度增加產(chǎn)生的類目漂移問題,文中提出了血緣關(guān)聯(lián)函數(shù)和提權(quán)繼承函數(shù).實(shí)驗(yàn)表明這種基于知識網(wǎng)絡(luò)的血緣關(guān)系中文網(wǎng)頁分類算法能夠很好地對網(wǎng)頁進(jìn)行分類,并且能夠適應(yīng)不同環(huán)境下網(wǎng)頁質(zhì)量問題.
在實(shí)驗(yàn)過程中,發(fā)現(xiàn)維基百科對于中文的支持并不理想.其主要原因有:
1)維基百科英文詞匯量要比中文大得多,許多英文類目都沒有對應(yīng)的中文編輯;
2)維基百科上的中文詞庫有一部分是繁體編碼,這給數(shù)據(jù)處理過程帶來很多不便;
3)可以整合一些更復(fù)雜的模型諸如LDA等主題模型.為了更好體現(xiàn)方法的適用性,系統(tǒng)將導(dǎo)入基于互動百科(百度百科)等類目體系融合的新知識網(wǎng)絡(luò)體系.
References)
[1] He X F, Ding C H Q, Zha H Y, et al. Automatic topic identification using webpage clustering[C]∥IEEEInternationalConferenceonDataMining.San Jose CA USA:IEEE, 2001: 195-202.
[2] Zhang Xiaodan. A new algorithm for uncertain problem of web page classification[J].JournalofSoftware,2012, 7(3):526-531.
[3] Na J C, Thet T T.Effectiveness of web search results for genre and sentiment classification[J].JournalofInformationScience,2009, 35(6):709-726.
[4] Golub K, Ardo A. Importance of html structural elementsand metadata in automated subject classification[C]∥ResearchandAdvancedTechnologyforDigitalLibraries.[S.l.]:Springer, 2005:368-378.
[5] Miller G A. Wordnet: a lexical database for English[J].CommunicationsoftheACM,1995,38(11):39-41.
[6] Matuszek C, Cabral J, Witbrock M, et al.An introduction to the syntax and content of cyc[C]∥AAAISpringSymposiumonFormalizingandCompilingBackgroundKnowledgeanditsApplicationstoKnowledgeRepresentationandQuestionAnswering.[S.l.]: Citeseer, 2006.
[7] Haussler D. Convolution kernels on discrete structures[R].Santa Cruz:Department of Computer Science, University of California, 1999.
[8] Mitchell T. The role of unlabeled data in supervised learning[C]∥ProceedingsoftheSixthInternationalColloquiumonCognitiveScience. San Sebastian:[s.n.], 1999:2-11.
[9] Mladenic D. Turning yahoo into an automatic web-page classifier[C]∥EuropeanConferenceonArtificialIntelligence.[S.l.]:Citeseer,1998:473-474.
[10] Kwon O W, Lee J H. Text categorization based on k-nearest neighbor approach for web site classification[J].InformationProcessingandManagement,2003,39(1):25-44.
[11] Shen D, Chen Z, Yang Q, et al. Web-page classification through summarization[C]∥Proceedingsofthe27thAnnualInternationalConferenceonResearchandDevelopmentinInformationRetrieval.[S.l.]:ACM, 2004:242-249.
[12] Metzler D, Dumais S, Meek C. Similarity measures for short segments of text[J].AdvancesinInformationRetrieval,2007,4425:16-27.
[13] Sahami M, Heilman T D. A web-based kernel function for measuring the similarity of short text snippets[C]∥Proceedingsofthe15thInternationalConferenceonWorldWideWeb.[S.l.]:ACM, 2006:377-386.
[14] McCarthy J, Minsky M, Sloman A, et al. An architecture of diversity for commonsense reasoning[J].IBMSystemsJournal,2002, 41(3):530-539.
[15] Schonhofen P. Identifying document topics using the Wikipedia category network[C]∥InternationalConferenceonWebIntelligence, [S.l.]:IEEE,2006:456-462.
[16] 艾丹祥,張玉峰.利用主題圖建立概念知識庫[J]. 圖書情報(bào)知識, 2003(2): 48-50.
[17] Zhang L. Knowledge graph theory and structural parsing[M]. Twente University Press, 2002.
[18] Bollacker K, Evans C, Paritosh P, et al. Freebase: a collaboratively created graph database for structuring human knowledge[C]∥InternationalConferenceonManagementofData. [S.l.]: ACM, 2008: 1247-1250.
[19] 陳悅,劉則淵,陳勁,等.科學(xué)知識圖譜的發(fā)展歷程[J].科學(xué)學(xué)研究, 2008, 26(3): 449-460. Chen Yue,Liu Zeyuan,Chen Jin,et al.History and theory of mapping knowledge domain[J].StudiesinScienceofScience,2008, 26(3): 449-460.(in Chinese)
[20] 劉則淵,陳悅,侯海燕.科學(xué)知識圖譜:方法與應(yīng)用[M].北京:人民出版社,2008:294-295.
[21] Pal D, Mitra M, Datta K. Improving Query Expansion Using WordNet [EB/OL].2013.http:∥arxiv.org/abs/1309.4938
[22] Sriram B, Fuhry D, Demir E, et al. Short text classification in twitter to improve information filtering[C]∥Proceedingsofthe33rdInternationalConferenceonResearchandDevelopmentinInformationRetrieval. [S.l.]:ACM, 2010: 841-842.
[23] 范云杰,劉懷亮.基于維基百科的中文短文本分類研究[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2012(3):47-52. Fan Yunjie, Liu Huailiang.Research on Chinese short text classification based on Wikipedia[J].NewTechnologyofLibraryandInformationService,2012(3):47-52.(in Chinese)
[24] 陳俊波, 李華康, 曾鵬程,等. 一種基于樹形關(guān)聯(lián)關(guān)系的文本分類方法:中國,申請?zhí)?201310009087.4[P].2013.
[25] 李華康.面向Web知識挖掘技術(shù)的研究與應(yīng)用[R].上海:上海交通大學(xué)博士后報(bào)告,2013.
[26] 賴龍彬. 基于維基類目網(wǎng)絡(luò)和URL模式樹的網(wǎng)頁分類方法探究[D].上海:上海交通大學(xué), 2013.
(責(zé)任編輯:童天添)
Anapproachforwebpageclassificationbasedonkinship-relationshipknowledgenetwork
Li Huakang1, Sun Guozi1, Xu Bei1, Xu Xiangyang2, Xia Chunrong2
(1.School of Computer Science and Technology & School of Software, Nanjing University of Posts and Telecommunications,Nanjing Jiangsu 210023, China)(2.Department of Computer Science and Technology, Nanjing University,Nanjing Jiangsu 210093, China)
Analysis and classification approach of webpage content, which is a kernel technology for user behavior analysis, interest identification and opinion analysis, has become a hot topic not only in academia research but also in industry community. Webpage classification algorithm based on traditional labeled data to establish machine learning models has been unable to adapt to the requirement of iterative update of massive data in the era of mobile internet. An approach for webpage classification based on kinship-relationship knowledge network is proposed in this paper. The Wikipedia knowledge base is introduced as the base of knowledge network. After labeling the category of few basic vocabulary nodes and hot keywords in Wikipedia, we use the transmissibility of network to estimate the category attributes of all nodes. According to the specific characteristic of Chinese text, we proposed kinship-relationship and weights smoothing function during the traverse process. Experimental results show that this method is able to effectively improve Chinese webpage classification based on knowledge network.
webpage classification; knowledge network; kinship relationship; weights smoothing function
10.3969/j.issn.1673-4807.2014.04.015
2014-08-05
李華康(1982—),男,講師,博士,研究方向?yàn)榫W(wǎng)絡(luò)挖掘、用戶行為分析、大數(shù)據(jù)分析.E-mail:huakanglee@njupt.edu.cn
TP18; TP391
A
1673-4807(2014)04-0380-07