摘要: 針對同質(zhì)性關(guān)系分類器基于一階Markov假設(shè)簡化處理的局限性, 在類分布關(guān)系近鄰分類器構(gòu)建類向量和參考向量時, 引入局部圖排序激活擴散方法, 并結(jié)合松弛標注的協(xié)作推理方法, 通過適當(dāng)擴大分類時鄰居節(jié)點的范圍增加網(wǎng)絡(luò)數(shù)據(jù)中待分類節(jié)點的同質(zhì)性, 從而降低分類錯誤率. 對比實驗結(jié)果表明, 該方法擴大了待分類節(jié)點的鄰域, 在網(wǎng)絡(luò)數(shù)據(jù)上分類精度較好.
關(guān)鍵詞: 人工智能; 網(wǎng)絡(luò)數(shù)據(jù)分類; 激活擴散; 類分布關(guān)系近鄰分類器; 協(xié)作推理
中圖分類號: TP301" 文獻標志碼: A" 文章編號: 1671-5489(2024)04-0915-08
Introducing Class-Distribution Relational Neighbor Classifierwith Activation Spreading
DONG Sa1,2, OUYANG Ruochuan3, XU Haixiao1, LIU Jie1,2, LIU Dayou1,2, LI Tingting1,2, WANG Xinlu1,4
(1. College of Computer Science and Technology, Jilin University, Changchun 130012, China;2. Key Laboratory of Symbolic Computation and Knowledge Engineer
ing of Ministry of Education, Jilin University, Changchun 130012, China;3. Faculty Work Department of Party Committee, Jilin University, Changchun 13
0012, China;4. College of International Education, Jilin University, Changchun 130012, China)
Abstract: Aiming at the limitation of the simplifying the processing of homophily relational classifiers based on first-order Markov assumption,
when constructing the class vector and reference vector in the class-distribution relational neighbor classifier, we introduced the activation spreading algorithm of local graph ranking, combined
with the relaxation labeling collective inference method. By appropriately expanding the range of neighboring nodes during classification, we increased the homophily of nodes to be classified in network data,
thereby reducing the error rate of classification. The comparative experimental results show that this method expands the" neighborhood of nodes to be classified, and has good classification accuracy" on network data.
Keywords: artificial intelligence; network data classification; activation spreading; class-distribution relational neighbor classifier; collective inference
利用網(wǎng)絡(luò)數(shù)據(jù)中分類實例之間的關(guān)系, 關(guān)系分類器擴展了基于屬性的分類器, 并將數(shù)據(jù)集視為數(shù)學(xué)圖. 關(guān)系分類器適用于如下情況: 實例具有可變數(shù)量的屬性; 屬性值分布稀疏且與類別不充分相關(guān); 實例的屬性較少而關(guān)系較多.
大多數(shù)關(guān)系分類器的最終解析機制基于同質(zhì)性假設(shè)——相鄰實例比非相鄰實例更可能擁有相同的類別[1]. 這種現(xiàn)象在社會網(wǎng)絡(luò)的觀察和理論中普遍存在, 例如人們總是根據(jù)他們的種族或民族群聚[2]. 分類任務(wù)中的同質(zhì)性在若干工作中被引用, 使用同義詞“自相關(guān)”或“局部一致性”. 大量實驗表明, 關(guān)系分類器的分類質(zhì)量依賴于待分類網(wǎng)絡(luò)數(shù)據(jù)的同質(zhì)程度. 因此, 如果增加網(wǎng)絡(luò)數(shù)據(jù)的同質(zhì)度, 關(guān)系分類器將會降低分類的錯誤率. 但大部分基于同質(zhì)性假設(shè)的關(guān)系方法又都是基于一階Markov假設(shè)進行簡化處理的.
這種分類時只考慮實例直接鄰域的方法必然存在信息獲取的局限性.
傳統(tǒng)機器學(xué)習(xí)方法視分類實例為獨立的, 而網(wǎng)絡(luò)數(shù)據(jù)中, 一個實例的類別可能對相關(guān)實例的類別產(chǎn)生影響. 因此對實例的類別進行同時推理是有益的. 協(xié)作推理起源于模式識別和統(tǒng)計物理學(xué), 結(jié)合協(xié)作推理的單變量關(guān)系分類器[3]是網(wǎng)絡(luò)分類方法的分支, 其中分類實例僅通過它們之間的關(guān)系進行分類.為擴大分類時節(jié)點鄰域的范圍, 本文將局部圖排序激活擴散方法引入到類分布關(guān)系近鄰分類方法(CDRN)中, 以替代原方法中基于一階Markov假設(shè)的直接鄰域獲取方法, 并結(jié)合引入模擬退火的松弛標注協(xié)作推理方法, 改進方法增加了待分類節(jié)點的同質(zhì)性. 將改進方法與原類分布關(guān)系近鄰分類方法和加權(quán)投票關(guān)系近鄰分類方法(WVRN)在5個網(wǎng)絡(luò)數(shù)據(jù)集上進行實驗評估的結(jié)果表明, 引入激活擴散的改進方法在一定程度上提高了分類精度.
1 相關(guān)工作
Vojtek等[4]分析了簡單關(guān)系分類器與同質(zhì)性的依賴性. 簡單關(guān)系分類器更復(fù)雜的替代是迭代強化分類算法[5]和關(guān)系集成分類器[6], 它們都能處理更多類型的分類實例及圖中的多種關(guān)系. 由于頁面排序和網(wǎng)頁搜索點擊全局排序算法[7]的廣泛應(yīng)用, 如擴散激活的圖排序算法被很好地分析. 擴散激活類似于帶重啟的隨機行走局部排序方法[8].
Gallagher等[8]采用帶重啟的隨機行走方法提高弱連接節(jié)點圖的分類器性能, 但沒有對同質(zhì)現(xiàn)象進行更深層次的分析. Jensen等[9]的研究中包含了一種關(guān)于相鄰對象距離的鄰域方法, 但未提供其對分類器性能的影響. Macskassy等[10]提出的加權(quán)投票關(guān)系近鄰分類器WVRN和Perlich等[11-12]提出的類分布關(guān)系近鄰分類器CDRN都是利用與待分類節(jié)點直接連接的鄰居節(jié)點組成的鄰域進行分類. 許多關(guān)系分類方法[13-19]同樣是基于同質(zhì)性假設(shè)并利用一階Markov假設(shè), 目前很少有人提出其他鄰域獲取方法. 其中WVRN方法僅利用網(wǎng)絡(luò)數(shù)據(jù)的同質(zhì)性進行分類, 結(jié)合協(xié)作推理方法分類精度較高, 可視為網(wǎng)絡(luò)分類的基準方法[3]. Tobback等[20]為對直接網(wǎng)絡(luò)和隱含網(wǎng)絡(luò)進行預(yù)測, 使用Macskassy和Provost的加權(quán)投票關(guān)系鄰居分類器. Maystre等[21]在選擇啟發(fā)式階段在一定程度上還原了使用Macskassy和Provost的加權(quán)投票關(guān)系鄰居分類器中的協(xié)作推理過程. Zhang等[22]針對噪聲和稀疏數(shù)據(jù)提出了基于稀疏因子的堆疊去噪自動編碼器(SDAE)學(xué)習(xí)異構(gòu)網(wǎng)絡(luò)中節(jié)點的特征, 并采用松弛策略構(gòu)建基于高質(zhì)量的類層次結(jié)構(gòu), 最后對異構(gòu)信息網(wǎng)絡(luò)的節(jié)點進行分類. Li等[23]提出了一個監(jiān)督關(guān)系主題模型, 以在文獻網(wǎng)絡(luò)上進行自動分類, 該模型利用Bayes生成模型挖掘文檔網(wǎng)絡(luò)中單詞特征與鏈接特征之間的關(guān)系, 并利用文檔之間的鏈接學(xué)習(xí)文檔的潛在內(nèi)容. Zhang等[24]提出了一種基于加權(quán)元圖的異構(gòu)信息網(wǎng)絡(luò)分類框架(MCHIN)解決異構(gòu)信息網(wǎng)絡(luò)的分類問題. Yu等[25]提出了一種基于網(wǎng)絡(luò)的分類器決策網(wǎng)絡(luò)(DN), 將屬性值與類標號之間的對應(yīng)關(guān)系抽象為加權(quán)二部網(wǎng)絡(luò).
甘玲等提出了一種基于正則約束的分層仿射圖神經(jīng)網(wǎng)絡(luò)文本分類模型Text\|HARC, 用來解決基于圖結(jié)構(gòu)的文本分類方法存在邊噪聲和節(jié)點噪聲干擾、 缺乏文本層次信息和位置信息等問題.
賈晨曉等[27]實現(xiàn)了關(guān)系分類模型MSF\|RC, 通過多重語義的層級融合進一步提升關(guān)系分類模型的性能. 王進等[28]使用圖嵌入和區(qū)域注意力技術(shù)挖掘標簽之間以及標簽與文本之間的關(guān)系, 提出的編碼器優(yōu)于傳統(tǒng)多標簽文本分類模型.
本文采用擴散激活方法是因為它簡單的可理解性和運行的時效性.
2 激活擴散
2.1 激活擴散鄰域獲取
網(wǎng)絡(luò)數(shù)據(jù)可用由節(jié)點和邊組成的圖描述. 例如網(wǎng)站中, 網(wǎng)頁為節(jié)點, 主題是標簽, 網(wǎng)頁間的超鏈接是圖中的邊. 給定網(wǎng)絡(luò)G, vi是圖中的任一節(jié)點, vi∈V, V為G的節(jié)點集, 其中V由已標記節(jié)點集即標簽已知的節(jié)點集VK和未標記節(jié)點集VU組成, 即V=VK+VU, xi表示節(jié)點vi的某一(估計)標簽, 對于m個類別(標簽), 有xi∈{c1,c2,…,cm}.在原始的簡單關(guān)系分類器及其他關(guān)系分類器中, 節(jié)點鄰域獲取基于一階Markov假設(shè), 故節(jié)點的鄰域被設(shè)計為一組通過邊或鏈接直接連接的節(jié)點. 而本文方法引入的激活擴散[7]方法是一種更魯棒的局部圖排序方法, 該方法將鄰域擴展為更廣泛的帶有表示節(jié)點接近程度的權(quán)值的節(jié)點集合. 偽代碼如下:
Energy ActivateSpreading(Energy E, node vi) {
Energy(vi)=Energy(vi)+E
E′=E/Ni
if (E′gt;T) {
for each node vj∈Ni{
if (xj!=1)
ActivateSpreading(E′,vj)
}
}
}.
ActivateSpreading是輸出一組節(jié)點及其權(quán)重或稱能量(Energy)的遞歸算法, 能量用于表示節(jié)點vi和排序節(jié)點之間的密切程度. 最小能量閾值T提供了算法的快速收斂性, 鄰居節(jié)點集Ni包含所有通過邊直接連接分類節(jié)點vi的節(jié)點, Ni是與vi直接相鄰節(jié)點的個數(shù), 激活擴散將能量值賦予節(jié)點, 而不是邊.
圖1描述了兩種鄰域獲取方法的示例. 在圖1(A)所示的無向無權(quán)邊圖中, 如果分類v1則直接鄰域N1={v2,v3,v4}. 但如果采用激活擴散(圖1(B)), 則將得到鄰域EN1={v2,v3,v4,v5,v6}以及表示節(jié)點之間密切度的權(quán)值E.
2.2 度量同質(zhì)性
文獻[8]對同質(zhì)性度量方法進行了討論, 但同質(zhì)度是基于集合的(節(jié)點集中所選屬性的同質(zhì)性), 而本文關(guān)注單個節(jié)點的同質(zhì)性.
文獻[4]的實驗表明, 簡單的加權(quán)投票關(guān)系近鄰分類器的分類質(zhì)量取決于網(wǎng)絡(luò)數(shù)據(jù)的同質(zhì)度, 該方法假設(shè)相鄰節(jié)點的類標簽可能相同. 同質(zhì)性假設(shè)非正式定義為相關(guān)實例比非相關(guān)實例更可能擁有相同的類別[2]. 文獻[4]的信息熵同質(zhì)度定義為
h(vi)=1.0+∑ck∈CP(xi=ckNi)logbase P(xi=ckNi),(1)
其中P(xi=ckNi)表示根據(jù)節(jié)點vi的直接鄰居節(jié)點集得到的vi類別標簽的估計概率. 這種度量的設(shè)計是為處理類別個數(shù)無限的情形, 針對單個節(jié)點的同質(zhì)性, 并且同質(zhì)性的范圍在[0,1]內(nèi). 如果考慮類別C={c+,c-}的二元分類, base=2, 并且所有邊的權(quán)重設(shè)為1.0(例如無權(quán)重圖), 則可得如下邊界狀態(tài): 如果所有直接鄰居節(jié)點全部被指定為c-或c+(圖2(A)), 則此時最高同質(zhì)性h(vk)=1.0; 如果50%的直接鄰居節(jié)點被指定為c-, 其余屬于c+, 則此時有最低同質(zhì)性h(vk)=0(圖2(B)).
2.3 激活擴散提升節(jié)點同質(zhì)性示例
Vojtek等[4]實驗證明了擴散激活優(yōu)于基本的直接鄰域獲取方法, 并提供更平滑、 更魯棒的同質(zhì)性衰退, 且在斯洛伐克公司的社交網(wǎng)絡(luò)數(shù)據(jù)上計算得到的分類概率估計與式(1)的同質(zhì)度計算函數(shù)更擬合. 如圖3所示, 如果采用基本鄰域法, 則節(jié)點v1被節(jié)點集N1={v2,v3}包圍. 此時x2=c-且x3=c+, 應(yīng)用簡單關(guān)系分類器[10]有P(x1=c+N1)和P(x1=c-N1)相同均為0.5, 并且h(v1)=0. 但如果考慮利用激活擴散(從能量E=1.0和閾值T=0.15開始)計算鄰域, 則將得到如圖3所示的帶能量值的鄰域EN1={v2,v3,v4,v5}. 如果計算該鄰域的同質(zhì)性, 則可得P(x1=c-EN1)=0.625且h(v1)=0.045, 同質(zhì)度得到提升.
3 本文方法
網(wǎng)絡(luò)數(shù)據(jù)中節(jié)點之間的鏈接或邊提出了傳統(tǒng)分類中沒有出現(xiàn)的新問題. 鏈接包含高質(zhì)量的語義信息, 但由于噪聲的原因很難從中挖掘信息, 在網(wǎng)絡(luò)中通過鏈接探索未標記節(jié)點的所有鄰居節(jié)點幾乎不可能. 為增強易處理性, 大部分的關(guān)系分類器都基于一階Markov假設(shè)進行簡化處理. 但未標記節(jié)點直接鄰居的分類信息有限, 為獲取更多有用信息并避免過多噪聲或錯誤信號, 本文采用適當(dāng)擴展鄰域范圍的方法.
原始的類分布關(guān)系近鄰分類器[3]在網(wǎng)絡(luò)數(shù)據(jù)中使用基于一階Markov假設(shè)的單變量關(guān)系分類, 即只有待分類節(jié)點的直接鄰居節(jié)點的標簽對分類是必要的. 理論上學(xué)習(xí)鄰居節(jié)點類標簽分布的模型更靈活, 可能會比簡單關(guān)系分類器得到更好的辨別力. 故本文考慮將擴散激活引入到類分布關(guān)系近鄰分類器中, 以擴大待分類節(jié)點鄰域的范圍. 與基于一階Markov假設(shè)的方法類似, 不對圖中全部未標記節(jié)點進行聯(lián)合概率分布估計, 而是使用待分類節(jié)點vi激活擴散的鄰居集ENi對節(jié)點vi的標簽xi進行概率估計:
P(xiG)=P(xiENi).(2)
本文方法分類節(jié)點vi的步驟如下. 在訓(xùn)練過程中, 忽略未知節(jié)點, 定義已標記節(jié)點vi的激活擴散類別向量ASCV(vi)為對節(jié)點vi進行激活擴散后的鄰居集ENi中的已標記鄰居節(jié)點集ENKi中節(jié)點對應(yīng)的各類別的能量值平均值:
ASCV(vi)k=1Z∑vj∈ENKi, xj=ckE(vj),(3)
其中ASCV(vi)k表示激活擴散類別向量中的第k個位置, ck∈{c1,c2,…,cm}為第k個類別, Z=ENK
i為標準化因子. 基于激活擴散類別向量, 激活擴散參考向量ASRV(ck)定義為已知類別為ck的節(jié)點的激活擴散類別向量的平均值:
ASRV(ck)=1VKck∑vi∈VKckASCV(vi)k,(4)
其中VKck={vivi∈VK, xi=ck}.
預(yù)測時, 對未標記節(jié)點vi進行激活擴散后的鄰居集中的未標記鄰居節(jié)點使用當(dāng)前估計概率, 此時式(3)變?yōu)?/p>
ASCV(vi)k=1Z·∑vj∈ENiE(vj)·P(xj=ckENj),(5)
其中ENi,ENj分別為節(jié)點vi,vj激活擴散的鄰居集, Z=ENi.
最后, 給定未標記節(jié)點vi∈VU, 引入激活擴散的類分布關(guān)系近鄰分類器(ASCDRN)估計類別概率P(xi=ckENi)為節(jié)點vi的激活擴散類別向量ASCV(vi)和類ck的激活擴散參考向量ASRV(ck)之間的余弦相似度:
P(xi=ckENi)=Sim(ASCV(vi)k,ASRV(ck)),(6)
其中Sim(a,b)是任意向量相似度函數(shù)(例如L1, L2, 余弦cosine等), 歸一化值在[0,1]內(nèi). 本文使用cosine余弦相似度函數(shù). 至此得到了未標記節(jié)點vi的類別概率分布.
協(xié)作推理方法可以同時對一組未標記節(jié)點進行推理. 該技術(shù)已應(yīng)用到計算視覺和圖像處理[29]等領(lǐng)域. 松弛標注保留了節(jié)點的當(dāng)前不確定性, 而不像迭代分類給每個未標記的節(jié)點分配一個固定的標簽. 松弛標注方法中(t+1)步的類分布將基于t步的標簽估計進行更
新. 為保證收斂, 本文使用文獻[3]中改進帶有模擬退火的松弛標注協(xié)作推理方法進行同時推理:
P(xiENi)(t+1)=β(t+1)·P(xiENi)(t)+(1-β(t+1))·P(xiENi)(t+1),(7)
其中β0=k, β(t+1)=β(t)α, k為0~1內(nèi)常數(shù), 本文設(shè)為1, α為衰退常量, 設(shè)為0.99. 實驗證明, 當(dāng)0.9lt;αlt;1時本文方法性能是魯棒的. 如果α太小將導(dǎo)致來自鄰居的影響過快地衰退, 當(dāng)已標記節(jié)點非常少時會降低本文方法性能.
最后, 未標記節(jié)點vi由類分布中概率最大值對應(yīng)的標簽標記:
xi=argmaxck {P(xi=ckENi)}. (8)
4 實驗與結(jié)果
4.1 實驗設(shè)置與實驗數(shù)據(jù)
在網(wǎng)絡(luò)數(shù)據(jù)中進行針對傳統(tǒng)機器學(xué)習(xí)相互獨立數(shù)據(jù)的交叉驗證是不適用的, 本文希望已標記數(shù)據(jù)集VK和未標記數(shù)據(jù)集VU盡可能的不相交. 因此對數(shù)據(jù)集V進行類分層隨機抽樣得到VK作為訓(xùn)練集, 抽樣率從10%~90%變化. 測試集VU由V-VK得到, 并對VU中沒有邊連接到VK
中任何節(jié)點的節(jié)點進行剪枝. 對10次測試結(jié)果的精度取平均值, 遵循標準的類分層十折交叉驗證.
在訓(xùn)練階段, 不僅輸入節(jié)點集, 也輸入圖和已知節(jié)點的標簽, 標簽未知的節(jié)點被忽略. 分類器對每個類別進行建模. 測試階段分類一個新節(jié)點時, 已標記節(jié)點可作為背景信息.
本文使用來自機器學(xué)習(xí)研究領(lǐng)域中的5個基準數(shù)據(jù)集檢驗ASCDRN方法的分類性能, 其中有基于WebKB項目的來自4個計算機科學(xué)系的網(wǎng)頁數(shù)據(jù)集: cornell,texas,washington,wisconsin; 來自互聯(lián)網(wǎng)電影數(shù)據(jù)庫的網(wǎng)絡(luò)數(shù)據(jù)集imdb, 用于建模預(yù)測1996年—2001年在美國上映的電影的首映周末票房是否超過200萬美元. 實驗數(shù)據(jù)集信息列于表1.
表1中給出的同質(zhì)度是根據(jù)文獻[30]針對整個網(wǎng)絡(luò)數(shù)據(jù)集的同質(zhì)度: 網(wǎng)絡(luò)數(shù)據(jù)中, 與已標記節(jié)點標簽相同的直接鄰居節(jié)點占其所有直接鄰居的平均百分數(shù). 由表1可見, 數(shù)據(jù)集imdb是同質(zhì)性較高的網(wǎng)絡(luò)數(shù)據(jù), 其他4個數(shù)據(jù)集的同質(zhì)性較低, 是異質(zhì)性網(wǎng)絡(luò)數(shù)據(jù).
通過測試發(fā)現(xiàn), E和T的設(shè)置與網(wǎng)絡(luò)數(shù)據(jù)邊的平均度數(shù)及同質(zhì)度相關(guān). 同質(zhì)性數(shù)據(jù)集imdb的節(jié)點數(shù)和邊數(shù)都較多, 擴散激活初始能量E設(shè)為300, 并且閾值T=1; 另外4個網(wǎng)絡(luò)數(shù)據(jù)集將初始能量E設(shè)為1, 閾值T設(shè)為0.15. 使鄰域通常包含10~100個頂點, 排序很快收斂. 增加能量或降低閾值將提供更寬廣的節(jié)點鄰域, 但將增加計算時間. 相反, 降低激活能量也不是有益的, 因為能量只會擴散到直接鄰居(流量將在閾值限制下停止), 提供與基本直接鄰域獲取方法相同的節(jié)點鄰域信息.
4.2 實驗結(jié)果
為研究不同分類方法對不同網(wǎng)絡(luò)數(shù)據(jù)的分類性能, 本文將引入激活擴散的類分布關(guān)系近鄰分類器ASCDRN與原類分布關(guān)系近鄰分類器CDRN以及加權(quán)投票關(guān)系近鄰分類器WVRN在5個數(shù)據(jù)集上進行對比實驗. 其中CDRN和WVRN都是基于同質(zhì)性假設(shè)和一階Markov假設(shè), 采用節(jié)點的直接鄰居節(jié)點分類待分類節(jié)點. 因為Macskassy等[3]通過實驗驗證WVRN方法結(jié)合松弛標注的協(xié)作推理方法, 與結(jié)合迭代或Gibbs抽樣協(xié)作推理方法相比, 顯著提高了分類的準確性, 可作為網(wǎng)絡(luò)數(shù)據(jù)分類的基準方法. 實驗結(jié)果如圖4所示.
由圖4可見, ASCDRN方法在5個數(shù)據(jù)集上的分類精度相比于CDRN方法都有不同程度的提高, 特別是在數(shù)據(jù)集cornell,texas,wisconsin和imdb上. 當(dāng)抽樣比例大于0.5時, 在數(shù)據(jù)集washington上, ASCDRN方法也優(yōu)于CDRN方法; 當(dāng)抽樣比例超過0.1時, ASCDRN方法在數(shù)據(jù)集texas和wisconsin上分類精度明顯優(yōu)于WVRN方法; 當(dāng)抽樣比例大于0.4時, ASCDRN方法在數(shù)據(jù)集conrnell上優(yōu)于WVRN方法; 當(dāng)抽樣比例大于0.5時, ASCDRN方法在數(shù)據(jù)集washington上也優(yōu)于WVRN方法; 在數(shù)據(jù)集imdb上, ASCDRN方法的分類精度顯著優(yōu)于改進前的CDRN方法, 并且逼近WVRN方法, 特別是當(dāng)抽樣比例大于0.7時, 與WVRN方法接近. 實驗結(jié)果表明, 引入激活擴散后的ASCDRN方法相比于原CDRN方法, 同質(zhì)性有所提高, 從而提高了分類精度, 且由于網(wǎng)絡(luò)數(shù)據(jù)本身同質(zhì)程度的不同, 分類精度提高的程度有所不同.
綜上所述, 在類分布關(guān)系近鄰分類器的圖節(jié)點分類中, 本文提出了采用擴散激活作為傳統(tǒng)使用直接鄰域的替代方法, 并通過實驗確定了擴散激活對誤分類率的積極影響.
參考文獻
[1] JACKSON M O. Average Distance, Diameter, and Clustering in Social Networks with Homophily [C]//Proceedings of the 4th International Workshop on Internet and Network Economics. Berlin: Springer-Verlag, 2008: 4-11.
[2] MCPHERSON M, LOVIN L S, COOK J M. Birds of a Feather: Homophily in Social Networks [J]. Annual Review of Sociology, 2001, 27(1): 415-444.
[3] MACSKASSY S A, PROVOST F. Classification in Networked Data: A Toolkit and a Univariate Case Study [J]. Journal of Machine Learning Research, 2007, 8: 935-983.
[4] VOJTEK P, BIELIKOVA M. Homophily of Neighborhood in Graph Relational Classifier [C]//Proceedings of the 36th Conference on Current Trends in Theory and Practice of Computer Science. Berlin: Springer, 2010: 721-731.
[5] XUE G R, YU Y, SHEN D, et al. Reinforcing Web-Object Categorization through Interrelationships [J]. Data Mining and Knowledge Discovery, 2006, 12: 229-248.
[6] PREISACH C, SCHMIDT-THIEME L. Relational Ensemble Classification[C]//Proceedings of the Sixth International Conference on Data Mining. Washington, D.C.: IEEE Computer Society, 2006: 499-509.
[7] SUCHAL J. On Finding Power Method in Spreading Activation Search Activation Search [C]//34th Conference on Current Trends in Theory and Practice of Computer Science. \: DBLP, 2008: 124-130.
[8] GALLAGHER B, TONG H, ELIASSI-RAD T, et al. Using Ghost Edges for Classification in Sparsely Labeled Networks [C]//Proceeding of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York:" ACM, 2008: 256-264.
[9] JENSEN D, NEVILLE J, GALLAGHER B. Why Collective Inference Improves Relational Classification [C]//Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2004: 593-598.
[10] MACSKASSY S A, PROVOST F. A Simple Relational Classifier [C]//Proceedings of the Multi-relational Data Mining Workshop at 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2003: 64-76.
[11] PERLICH C, PROVOST F. Distribution-Based Aggregation for Relational Leaning with Identifier Attributes [J]. Machine Learning, 2006, 62(1/2): 65-105.
[12] PERLICH C, PROVOST F. Aggregation-Based Feature Invention and Relational Concept Classes [C]//Proceedings of 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2003: 167-176.
[13] CARVALHO V R, COHEN W W. On the Collective Classification of Email “Speech Acts” [C]//Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2005: 345-352.
[14] NEVILLE J, JENSEN D. Collective Classification with Relational Dependency Networks [C]//Proceedings ACM 2nd Workshop Multi-relational Data Mining KDD. New York: ACM, 2003: 77-91.
[15] LU Q, GETOOR L. Link-Based Classification [C]//Proceedings of the Twentieth International Conference on Machine Learning. New York: ACM," 2003: 496-503.
[16] LIN F, COHEN W W. Semi-supervised Classification of Network Data Using Very Few Lables [C]//2010 International Conference on Advances in Social Networks Analysis and Mining. Piscataway, NJ: IEEE," 2010: 192-199.
[17] ZHOU D Y, BOUSQUET O, LAL T N, et al. Learning with Local and Global Consistency [C]//Proceedings of the" 16th International Conference on Neural Internation Processing Systems. New York: ACM, 2004: 321-328.
[18] HE J R, CARBONELL J, LIU Y. Graph-Based Semi-supervised Learning as a Generative Model [C]//Proceedings of the 20th International Joint Conference on Artifical Intelligence. New York: ACM, 2007: 2492-2497.
[19] MILAD A, HOSSEIN R, DELARAM J, et al. DDREL: From Drug-Drug Relationships to Drug Repurposing [J]. Intelligent Data Analysis, 2022, 26(1): 221-237.
[20] TOBBACK E, MARTENS D. Retail Credit Scoring Using Fine-Grained Payment Data [J]. Journal of the Royal Statistical Society Series A: Statistics in Society, 2019, 182(4): 1227-1246.
[21] MAYSTRE L, KUMARAPPAN N, BUTEPAGE J, et al. Collaborative Classification from Noisy Labels [C]//Proceedings of the 24th International Conference on Artificial Intelligence and Statistics (AISTATS). San Diego: PMLR, 2021, 130: 1639-1647.
[22] ZHANG J L, JIANG Z L, DU Y P, et al. Hierarchy Construction and Classification of Heterogeneous Information Networks Based on RSDAEf [J]. Data amp; Knowledge Engineering, 2020, 127: 1-13.
[23] LI C S, ZHANG H, CHU D H, et al. SRTM: A Supervised Relation Topic Model for Multi-classification on Large-Scale Document Network [J]. Neural Computing and Applications, 2020, 32: 6383-6392.
[24] ZHANG J L, LI T, JIANG Z L, et al. A Noval Weighted Meta Graph Method for Classification in Heterogeneous Information Networks [J]. Applied Sciences-Basel, 2020, 10: 1-14.
[25] YU Y, JING M, LI J, et al. Decision Network: A New Network-Based Classifier [C]//Companion of the 2020 IEEE 20th International Conference on Software Quality, Reliability, and Security(QRS-C2020). Piscataway, NJ: IEEE, 2020: 390-397.
[26] 甘玲, 劉菊. 基于正則約束的分層仿射圖神經(jīng)網(wǎng)絡(luò)文本分類模型 \. 重慶郵電大學(xué)學(xué)報(自然科學(xué)版), 2023, 35(4): 715\|721. (GAN L, LIU J. Hierarchical Affine Graph Neural Network Text Classification Model Based on Regular Constraints \. Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition), 2023, 35(4): 715\|721.)
[27] 賈晨曉, 歐陽丹彤. 多重語義融合的關(guān)系分類模型 \. 吉林大學(xué)學(xué)報(信息科學(xué)版), 2023, 41(1): 50\|56. (JIA C X, OUYANG D T. Relation Classification Model Based on Multiple Semantic Fusion \. Journal of Jilin University (Information Science Edition), 2023, 41(1): 50\|56.)
[28] 王進, 徐巍, 丁一, 等. 基于圖嵌入和區(qū)域注意力的多標簽文本分類 \. 江蘇大學(xué)學(xué)報(自然科學(xué)版), 2022, 43(3): 310\|318." (WANG J, XU W, DING Y, et al. Multi\|label Text Classification Based on Graph Embedding and Region Attention \. Journal of Jiangsu University (Natural Science Edition), 2022, 43(3): 310\|318.)
[29] PELKOWITZ L. A Continuous Relaxation Labeling Algorithm for Markov Random Fields [J]. IEEE Transactions on Systems, Man and Cybernetics, 1990, 20(3): 709-715.
[30] SEN P, NAMATA G, BILGIC M, et al. Collective Classification in Network Data [J]. AI Magazine, 2008, 29(3): 93-106.
(責(zé)任編輯: 韓 嘯)