于汝意,劉秀磊,劉旭紅,張 良,王延飛
(1.北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實驗室 北京 100101;2.北京信息科技大學(xué)數(shù)據(jù)與科學(xué)情報分析實驗室 北京 100101;3.北京大學(xué) 信息管理系 北京 100871)
情報感知是情報專業(yè)人員在常規(guī)性信息采集、加工和分析處理過程中,綜合運(yùn)用各種知識工具完成對情報用戶需求、情報對象內(nèi)容和情報任務(wù)組織的認(rèn)知、解讀和表達(dá)[1]。在情報工作語境下,感知是主動而非被動的過程,是構(gòu)建而不是記錄“現(xiàn)實”的過程。在感知認(rèn)識問題上,所針對的主要是未知或知之不詳?shù)膶ο骩1]。對泛娛樂情報主題的感知研究中,通過潛在語義索引(latent semantic indexing,LSI)結(jié)合常識知識庫的技術(shù),以泛娛樂文本情報為感知認(rèn)識對象,主動構(gòu)建泛娛樂情報主題感知過程,對情報用戶感知文本情報主題的需求進(jìn)行認(rèn)知、解讀及表達(dá)。
近年來,LSI模型在信息檢索、文本分類、信息過濾、主題發(fā)現(xiàn)領(lǐng)域得到了廣泛的應(yīng)用。在信息檢索中,顧榕等[2]利用LSI結(jié)合WordNet等工具分析聚類中心詞項與不同類別檢索詞的語義關(guān)系,使得檢索結(jié)果的準(zhǔn)確性得到了有效提高。林鴻飛等[3]提出的多語言潛在語義空間使得由不同語言表達(dá)的相同內(nèi)容映射到潛在語義空間中的相同向量中,實現(xiàn)了同一檢索詞在不同語言之間的信息檢索。在文本分類中,曾雪強(qiáng)等[4]使分類模型具有文檔信息和類別信息雙重特征,經(jīng)過奇異值分解,將高維的詞項-文檔權(quán)重矩陣映射到低維語義空間中,分類的準(zhǔn)確率得到了有效的提高。在信息過濾中,Dumais[5]首次將潛在語義分析(latent semantic analysis,LSA)用于信息過濾中。牛偉霞等[6]在對大量中文科技文獻(xiàn)信息進(jìn)行過濾時,使用LSI方法構(gòu)建的用戶興趣主題模型,其平均準(zhǔn)確率相較于采用支持向量機(jī)的分類方法有了明顯提高。在主題發(fā)現(xiàn)中,劉勘等[7]對稀疏矩陣進(jìn)行降維,高效地發(fā)現(xiàn)科技文獻(xiàn)主題。阮光冊[8]利用LDA(latent dirichlet allocation)主題發(fā)現(xiàn)模型結(jié)合知識庫進(jìn)行信息分析,對網(wǎng)絡(luò)評論進(jìn)行主題發(fā)現(xiàn)的研究,取得了較好的效果。楊傳春等[9]基于LDA模型對網(wǎng)絡(luò)刊物進(jìn)行主題發(fā)現(xiàn)與聚類研究,提出的合并向量算法使得發(fā)現(xiàn)的主題比較集中和更為確定。李昌亞等[10]結(jié)合文本自身隱含的主題特征,提出了主題引導(dǎo)詞庫的方法,使得發(fā)現(xiàn)的主題更加符合社科文獻(xiàn)本身的主題分布。
針對泛娛樂文本情報繁雜、異構(gòu)、信息量較少等特點(diǎn),本文嘗試總結(jié)和分析現(xiàn)有LSI主題發(fā)現(xiàn)模型,并在此基礎(chǔ)上提出了基于潛在語義索引主題模型結(jié)合HowNet知識庫的泛娛樂情報主題感知方法,旨在提高泛娛樂情報主題感知的效果。
隱性語義索引[11]是一種通過奇異值分解構(gòu)造原坐標(biāo)間相似度矩陣的方法。LSI通過向量化的TF-IDF權(quán)重向量對文檔進(jìn)行變換,由原來的高維空間轉(zhuǎn)變到低維潛在語義空間。該潛在語義空間包含詞項與詞項、文檔與文檔的相似度矩陣,具有隱藏的語義信息。
互聯(lián)網(wǎng)中的泛娛樂文本情報具有內(nèi)容長、信息量少、噪音詞多、文本規(guī)范性低的特點(diǎn)。為了更好地獲得隱含在泛娛樂文本情報中有價值的信息,首先對泛娛樂文本情報語料庫中的語料進(jìn)行分詞、詞性標(biāo)注和語法分析。步驟如下:
1)對泛娛樂情報進(jìn)行正文提取,過濾掉HTML標(biāo)簽以及無用的噪音文本,僅保留正文內(nèi)容。
2)對由1)形成的原始語料庫中的語料進(jìn)行分詞處理、詞性標(biāo)注,形成初始語料庫。通過分詞處理,生成具備較合適語義粒度的詞項;通過詞性標(biāo)注,過濾掉對主題發(fā)現(xiàn)無用的詞項。語料庫中只保留名詞或名詞短語作為特征詞,例如(騰訊/n)、(視頻/n)等描述泛娛樂文本情報主題的詞項。
3)使用HowNet常識知識庫對初始語料庫中的詞項進(jìn)行語義相似度計算,通過相似度進(jìn)行詞項的刪除或保留。通過查詢詞項在常識知識庫的義原信息,進(jìn)行同義詞的合并,同時根據(jù)查詢結(jié)果刪除常識知識庫中未收錄的詞項,形成規(guī)范語料庫。
4)對語料進(jìn)行詞頻統(tǒng)計,形成詞典。
5)特征詞向量化。
6)將頻度矩陣進(jìn)行TF-IDF加權(quán)處理,形成TF-IDF權(quán)重矩陣。TF-IDF的特征值為
(1)
式中:t為候選詞;D為語料庫;TF為詞頻;d為待提取關(guān)鍵詞的文本;ft,d為t在d中出現(xiàn)的次數(shù);|d|為文本的總詞數(shù);IDF為d的反轉(zhuǎn)頻率;ft,D為D中出現(xiàn)t的文本數(shù);|D|為語料庫的文本數(shù)。
7)泛娛樂文本情報的語料庫形成向量化的矩陣,如式(2)和式(3)所示。
D={d1,d2,…,dm}
(2)
di={w1,w2,…,wn}
(3)
式中:D為泛娛樂文本情報集合;m為泛娛樂情報的數(shù)量;di為第i個文本情報,該情報由n個特征詞組成;w為特征詞的權(quán)重。
LSI通過奇異值分解[12]構(gòu)造一個新的隱性語義空間。構(gòu)造的隱性語義空間普遍比原始空間的維度低,對于文檔或者詞項可以變換到隱性語義空間,其一起到降維的作用,其二可以找到更簡單的描述。奇異值分解如式(4)所示。
(4)
式中:X為詞項文檔矩陣,通常為向量化的TF-IDF權(quán)重矩陣;d為文檔個數(shù);U,V為正交單位矩陣;Σ為對角矩陣且主對角線上的元素值降序排列;m是X的秩;U為XXT的特征向量集;V為XTX的特征向量集;XXT和XTX的特征值相同;XXT為詞項間相似度矩陣;XTX為文檔間的相似度矩陣;U為詞項空間到主題空間的轉(zhuǎn)換;V為文檔空間到主題空間的轉(zhuǎn)換。
互聯(lián)網(wǎng)中大部分泛娛樂文本情報文本規(guī)范性低,例如含有HTML標(biāo)簽等無用信息,并且情報中有大量對主題感知發(fā)現(xiàn)無用的詞。因此,泛娛樂文本情報主題感知的第一階段是對泛娛樂文本情報進(jìn)行正文提取、去停用詞、語義去重、合并;第二階段是將第一階段產(chǎn)生的規(guī)范化的語料作為LSI主題模型輸入,進(jìn)行主題感知。泛娛樂文本情報主題感知的流程如圖1所示。算法步驟如下:
1)爬取泛娛樂情報數(shù)據(jù)。從網(wǎng)絡(luò)中爬取泛娛樂情報數(shù)據(jù),保存到本地數(shù)據(jù)庫。
2)預(yù)處理階段:①從本地數(shù)據(jù)庫讀取原始數(shù)據(jù),抽取正文;②對正文進(jìn)行分詞處理,生成語義粒度較合適的詞項;③在生成的詞項中,去除停用詞;④查詢HowNet知識庫,進(jìn)行語義去重、同義詞合并、刪除未收錄的詞項;⑤生成詞典,轉(zhuǎn)化成詞袋模型,生成OneHot向量矩陣,進(jìn)行TF-IDF計算,形成權(quán)重矩陣。
3)LSI模型主題發(fā)現(xiàn)。以2)預(yù)處理階段的⑤產(chǎn)生的權(quán)重矩陣作為LSI模型的輸入,對泛娛樂情報進(jìn)行主題感知。
泛娛樂文本情報語料分別選自網(wǎng)易新聞、賽迪網(wǎng)、金融之家3個互聯(lián)網(wǎng)發(fā)布平臺,共10 809條,詳細(xì)數(shù)據(jù)如表1所示。
表1 泛娛樂情報信息匯總
由于泛娛樂文本情報存在大量無用的標(biāo)簽以及對于主題發(fā)現(xiàn)無用的文字,因此對初始獲取的泛娛樂文本情報需要進(jìn)行規(guī)范化處理,僅保留其正文部分,剔除如“免責(zé)聲明”等不作為分析內(nèi)容的無用信息。對處理好的文本,本文使用語知科技提供的分詞API對文本進(jìn)行分詞以及詞性標(biāo)注,處理后的部分結(jié)果如圖2所示。
分詞及詞性標(biāo)注之后通過訪問語義API接口,調(diào)用HowNet知識庫對詞項進(jìn)行語義去重、同義詞合并以及刪除未收錄的詞項,形成規(guī)范的語料庫。部分結(jié)果如表2所示。其中,F(xiàn)H為詞語的父節(jié)點(diǎn)序號,EXPRESSION為各個定型后的詞語,SON為詞語的子節(jié)點(diǎn)序號。
表2 HowNet語義分析部分結(jié)果
知網(wǎng)詞典中的義項信息如表3所示。知網(wǎng)中的詞語以網(wǎng)狀結(jié)構(gòu)進(jìn)行組織,借助義原和符號進(jìn)行概念的描述[13]。其中,記錄編號為義項在HowNet知識庫中的編號;中文詞語、英文詞語為查詢詞語的中英文;概念定義為對當(dāng)前義項的描述。
表3 HowNet知識庫中義項信息
由表3可知,詞語“父親”與“爸爸”在HowNet中同屬于記錄編號為000000014027的義項,其概念定義為{human|人:belong = {family|家庭},modifier={lineal|直系}{male|男}{senior|長輩}},通過結(jié)合HowNet知識庫,實現(xiàn)了語義去重,同義詞的合并以及刪除未收錄的詞項。
當(dāng)前互聯(lián)網(wǎng)中存在大量的泛娛樂文本情報,不同的IP(intellectual property)產(chǎn)生的泛娛樂情報隱含著不同的主題,這些隱含的主題正是該IP對應(yīng)的側(cè)重點(diǎn)。發(fā)現(xiàn)隱藏的側(cè)重點(diǎn),是情報人員分析數(shù)據(jù)時的一個重要目標(biāo),對情報工作有較大的益處?;诒疚姆椒ǚ謩e對來源于網(wǎng)易新聞、賽迪網(wǎng)、金融之家的情報數(shù)據(jù)進(jìn)行主題感知,實驗結(jié)果如表4所示。其中,類別欄為情報的來源;主題欄為經(jīng)排序后的感知主題??梢钥闯?個不同互聯(lián)網(wǎng)企業(yè)對泛娛樂新聞的不同側(cè)重點(diǎn)。
表4 LSI處理后的部分主題詞排序結(jié)果表
針對泛娛樂文本情報內(nèi)容結(jié)構(gòu)不規(guī)范、信息密度低等特點(diǎn),提出了一種基于潛在語義索引和常識知識庫相結(jié)合的泛娛樂情報主題感知方法。在預(yù)處理階段,利用常識知識庫對詞項進(jìn)行語義去重、同義詞合并,使得語料具有更好的語義代表性;在主題感知階段,潛在語義索引模型以預(yù)處理階段產(chǎn)生的特征向量為輸入進(jìn)行主題感知。實驗證明,本研究為泛娛樂領(lǐng)域情報主題感知提供了一種有效方法,有利于情報人員在大量泛娛樂文本情報中感知主題,進(jìn)而抓住情報的重點(diǎn)。然而,LSI模型主題值(k值)對結(jié)果影響較大的問題依然存在,如何選取最有效主題值,來提高感知文本隱藏主題的準(zhǔn)確性,將是下一步工作的重點(diǎn)和難點(diǎn)。