于詩睿 李愛花 林紫洛 唐小利
(中國醫(yī)學科學院/北京協(xié)和醫(yī)學院醫(yī)學信息研究所/圖書館 北京 100005)
現(xiàn)實世界中各種事物和關系相互交織,圖(又稱為“網(wǎng)絡”)作為連通數(shù)據(jù)結構的常用表現(xiàn)形式,能夠通過對象及其之間的鏈接對實體和關系進行建模,是用于模擬對象交互的一種普遍方式[1],成為當下信息基礎設施建設的重要組成部分。此外隨著信息技術的高速發(fā)展,產生了大量相互關聯(lián)的結構化和半結構化數(shù)據(jù)。將這類復雜的交互成分建模為包含不同類型對象和鏈接的異構圖,可實現(xiàn)對現(xiàn)實世界數(shù)據(jù)中豐富語義信息和結構信息的有效整合和全面反映。異構圖已成為研究異構、多模態(tài)、多關系、多類型數(shù)據(jù)的強大模型[2]?;诋悩媹D的分析也成為數(shù)據(jù)挖掘任務的新方向,并催生出推薦任務、節(jié)點分類和聚類、知識庫完善等新型任務[3]。因此如何深入理解異構圖中的數(shù)據(jù),從中提取出潛在信息,開發(fā)有效算法促進異構圖的應用,提升下游數(shù)據(jù)挖掘任務的效果,成為當下研究的熱點問題。
本文全面總結近年來有關異構圖數(shù)據(jù)挖掘的研究進展,并針對重點領域和研究前沿開展詳細討論。本文工作將有助于研究人員全面了解該領域,從而提升基于異構圖的數(shù)據(jù)挖掘效果,同時也有助于該模型更好適用于現(xiàn)實世界應用,從而解決實際問題。
近年來有關異構網(wǎng)絡的研究越來越受到關注,其中異構圖表示是一項非常重要的研究內容,為下游的網(wǎng)絡分析和數(shù)據(jù)挖掘任務提供有力支撐[4]。從技術角度總結,異構網(wǎng)絡表示學習常用算法可分為淺層模型和深層模型兩類,見圖1。
圖1 技術角度異構圖表示學習算法分類
異構圖表示學習的關鍵是保留圖中節(jié)點嵌入的結構和屬性,因此如何有效處理由多類型節(jié)點和關系融合導致的高階復雜結構、將異質性屬性表達的不同含義有效結合以及如何融入先進的領域知識促進異構圖在真實世界的應用等,成為該領域算法改進亟待解決的問題。根據(jù)異構圖表示學習使用的信息可將現(xiàn)有算法分為5類,見圖2。
圖2 基于不同特點的異構圖表示學習算法分類
異構網(wǎng)絡為數(shù)據(jù)挖掘任務提供了新的范式,是情報學領域進行大數(shù)據(jù)分析的有效工具。本文調研了Web of Science數(shù)據(jù)庫中相關文獻,發(fā)現(xiàn)目前數(shù)據(jù)挖掘任務主要可分為聚類、分類、鏈路預測、排序、推薦、信息融合、相似度測量7類,見圖3。本文選擇3種典型任務進行總結。
圖3 基于異構網(wǎng)絡的數(shù)據(jù)挖掘任務研究分布情況
聚類分析是將一組數(shù)據(jù)對象劃分為一組集群,并使每個集群中的對象彼此相似,但又與其他集群中的對象不同的過程。異構圖中集成的多類型對象和鏈接給聚類任務帶來巨大挑戰(zhàn)。根據(jù)集成信息或任務類型,異構圖聚類分析可分為以下4類:屬性信息集成的聚類分析,文本信息集成的聚類分析,用戶指南信息集成的聚類分析,與排序任務、社區(qū)檢測等其他數(shù)據(jù)挖掘任務集成的聚類分析等。近年來元路徑機制為異構圖聚類提供了新的方法,但還存在許多問題亟待解決:一是現(xiàn)有模型無法有效集成多路徑圖的聚類結果,聚類質量不高;二是現(xiàn)有的相似度聚類方法頂點分配和聚類目標的粒度過于粗糙,無法反映現(xiàn)實情況;三是僅考慮頂點同質性聚類,沒有考慮邊聚類,聚類結果不準確;四是缺乏將頂點聚類和邊聚類技術有效結合的模型[5]。其中較典型的研究內容,見表1。
表1 聚類任務中的代表性研究
分類任務是通過構建模型或分類器來預測類別標簽的數(shù)據(jù)分析任務。其中基于圖的分類任務需要考慮對象之間存在的鏈接及之間的相關性。異構圖分類問題的研究具有獨特特征。首先,異構圖中包含的對象類型不同,需要同時對多種類型的對象進行分類。其次,異構圖中對象的標簽是由不同類型對象和不同類型鏈接的共同影響所決定的。目前有許多工作將同構圖的方法擴展到異構圖中,如歸納分類方法、多標簽分類方法、同構圖標簽傳播方法等。元路徑作為異構圖的一種獨特特性也被廣泛用于異構圖的分類任務,常用于特征生成??紤]到元路徑的缺陷還提出基于元圖的方法。與聚類問題類似,分類任務也常與其他數(shù)據(jù)挖掘任務結合研究,見表2。
表2 分類任務中的代表性研究
鏈路預測的目標是利用網(wǎng)絡中的可用信息來檢測缺失的鏈路或預測未來可能形成的關系。異構網(wǎng)絡中鏈路預測的重點是捕捉不同類型鏈接間的復雜關系,并利用互補的預測信息,預測多種類型的鏈接[16]。異構網(wǎng)絡的鏈路預測方法通常分為以下3類:第1類是將異構網(wǎng)絡簡化為同構網(wǎng)絡,通過探索不同節(jié)點和關系的類型來提取目標節(jié)點對間的相似特征,但此類方法不能推廣到其他復雜的異構網(wǎng)絡中;第2類是使用兩種元結構,即網(wǎng)絡模式和元路徑,探索節(jié)點相似性;第3類使用概率模型進行鏈路預測。此外有監(jiān)督鏈路預測也是一種提取異質特征的有效方法,可以與元結構方法結合使用,可提升提取結構特征和語義特征的能力。上述方法主要集中在對單個異構網(wǎng)絡和靜態(tài)異構網(wǎng)絡鏈路預測的研究。還有一些對跨多個對齊異構網(wǎng)絡的鏈路預測問題和動態(tài)鏈路預測問題的研究方法也非常重要,見表3。
表3 鏈路預測任務中的代表性研究
異構網(wǎng)絡包含的數(shù)據(jù)規(guī)模巨大,能夠表達豐富的語義信息,廣泛應用于引文網(wǎng)絡、生物學網(wǎng)絡、商業(yè)網(wǎng)絡、媒體網(wǎng)絡、社會網(wǎng)絡等多種領域。其中生物學網(wǎng)絡和電商網(wǎng)絡最為典型。
生物學系統(tǒng)具有高度復雜的特點,構建異構網(wǎng)絡可以形成統(tǒng)一框架來有效處理這類復雜數(shù)據(jù),主要具有以下兩項優(yōu)勢:首先,異構網(wǎng)絡通過整合先驗知識提升預測的可信度并發(fā)現(xiàn)潛在知識,從而消除原始數(shù)據(jù)中的假陽性結果和噪音;其次,異構網(wǎng)絡可以通過內部間接關聯(lián)將不同生物學領域的數(shù)據(jù)鏈接起來。對生物學異構網(wǎng)絡進行分析的主要方法有基于網(wǎng)絡的鏈路預測,利用節(jié)點間的相似性搜索算法如Katz測度、隨機游走(random walk,RW)的轉移矩陣等來獲取局部或全局網(wǎng)絡的拓撲結構;還有一些方法基于元路徑來定義具有不同語義類型的路徑,然后計算路徑間的相似度,如基于元路徑的相似度算法(meta-path based similarity,PathSim)、異構網(wǎng)絡的相似性度量(heterogeneous network based similarity,HeteSim)等算法。其中異構生物學網(wǎng)絡的應用主要分為藥物重定位、基因-表型關系識別、非編碼RNA功能注釋、人類微生物-疾病關聯(lián)4個細分領域。分析過程中面臨的主要挑戰(zhàn)和未來研究熱點包括:對生物學數(shù)據(jù)中噪聲、缺失值的處理,面對組學數(shù)據(jù)不平衡時對關鍵數(shù)據(jù)的篩選,如何有效處理生物學數(shù)據(jù)中的多對多關系,開發(fā)能夠有效處理生物學數(shù)據(jù)噪聲多、數(shù)據(jù)稀疏等面向不同領域更為專指問題的相關模型算法,為適應精準醫(yī)學的發(fā)展趨勢開發(fā)新型高分辨率測量技術,有效利用異構網(wǎng)絡解決生物學領域單細胞組學和人類細胞圖譜的相關問題,開發(fā)更具普適性的標準框架實現(xiàn)社區(qū)驅動的知識共享。異構網(wǎng)絡自身具有的獨特特性能很好地處理具有噪聲多、稀疏和復雜等特點的生物學數(shù)據(jù),成為解決目前生物學領域棘手難題的強大工具[23]。
隨著互聯(lián)網(wǎng)的快速普及,一些大型電商平臺發(fā)展迅速。電商平臺中涉及大量異構對象和交互信息,數(shù)據(jù)量龐大且復雜,使異構網(wǎng)絡成為服務于用戶商品推薦、意向推薦、用戶畫像和欺詐檢測等各項任務的關鍵手段。其中推薦是電商平臺的一項重要服務,異構網(wǎng)絡可以用來對用戶、商品和輔助信息進行建模,實現(xiàn)對用戶的商品推薦。意圖推薦是根據(jù)用戶的歷史行為實現(xiàn)對用戶意愿的自動推薦,而無需任何輸入信息。如Fan S等[24]提出將用戶意圖表示為搜索框中的默認查詢,從而將意向推薦問題轉化為查詢推薦問題。用戶畫像任務在電商平臺的個性化服務提供中具有重要地位,通過將用戶豐富的交互信息建模為異構圖從而豐富用戶特征。隨著電商平臺的發(fā)展,系統(tǒng)中出現(xiàn)了許多欺詐者,以不正當手段從交易中牟利。由于欺詐者行為模式具有異質性,可以通過異構圖檢測這些惡意賬戶。
實際應用中的異構網(wǎng)絡非常復雜。首先,網(wǎng)絡中的對象可能與現(xiàn)實世界中的實體不完全對應,網(wǎng)絡中一個對象可指代多個實體或不同對象可指代同一實體。其次,對象間的關系可能沒有明確給出或不完整。最后,對象和鏈接可能不可靠。因此需要對網(wǎng)絡中的數(shù)據(jù)進行清洗和整合從而構建高質量的網(wǎng)絡。此外網(wǎng)絡中存在一些如文本數(shù)據(jù)、多媒體數(shù)據(jù)等非結構化數(shù)據(jù),使異構網(wǎng)絡的構建更具挑戰(zhàn)性。應考慮將信息抽取、自然語言處理和其他技術相結合,實現(xiàn)對高質量異構網(wǎng)絡的構建,為后續(xù)數(shù)據(jù)挖掘任務奠定基礎。
開發(fā)基于異構網(wǎng)絡的相關算法要充分考慮異構網(wǎng)絡的兩個重要特征,即結構復雜性和語義豐富性。目前開發(fā)出的算法存在一定局限性?,F(xiàn)實世界網(wǎng)絡中的數(shù)據(jù)通常更加復雜不規(guī)則,網(wǎng)絡的鏈接和對象上提供的屬性信息未被充分利用。還需要構建動態(tài)網(wǎng)絡考慮時間因素的影響;將不同網(wǎng)絡中的同一對象進行對齊,有效融合不同網(wǎng)絡的信息;設計更強大、更靈活的異構網(wǎng)絡算法。
元路徑和元圖是異構網(wǎng)絡的典型特征,在語義獲取和特征選擇方面表現(xiàn)出強大性能,但存在一定缺陷。一是無法捕獲更細微的語義信息;二是該類方法不考慮鏈接上的屬性值。此外該類方法在語義獲取方面還面臨兩點挑戰(zhàn)。一是考慮如何從復雜網(wǎng)絡中自動提取具有最佳解釋性的元路徑;二是元路徑權重的確定,能夠體現(xiàn)網(wǎng)絡中路徑的重要性,表達不同類別的語義信息。未來要擴展原有算法,或設計能夠獲取更詳細語義的工具,實現(xiàn)對更復雜網(wǎng)絡的分析。
近年來,基于異構圖的神經(jīng)網(wǎng)絡算法開始受到廣泛關注。但目前對異構圖的深度神經(jīng)網(wǎng)絡算法理論分析仍有不足。此外新技術開發(fā)也是研究方向。其中,一個重要方向是自我監(jiān)督學習,即利用預先標注任務訓練神經(jīng)網(wǎng)絡,減少對人工標簽的依賴,有效解決實際情況中標簽不足的問題,在異構圖中性能顯著,有待進一步探索;另一個方向是對異構圖神經(jīng)網(wǎng)絡的預訓練。目前針對異構圖的神經(jīng)網(wǎng)絡方法缺乏遷移能力,不僅耗時且需要大量標簽,因此考慮使用具有較強泛化能力的預訓練異構神經(jīng)網(wǎng)絡,實現(xiàn)使用少量標簽進行微調。
由于異構網(wǎng)絡能夠包含豐富的結構和語義信息,是情報學領域處理復雜大數(shù)據(jù)的一種有效工具。本文對基于異構網(wǎng)絡的相關數(shù)據(jù)挖掘任務進行系統(tǒng)梳理,介紹了有關方面的最新進展,并指出未來發(fā)展方向,為研究人員提供一些新的視角。