楊曉暉,孫瑩
(河北大學(xué) 網(wǎng)絡(luò)空間安全與計(jì)算機(jī)學(xué)院,河北 保定 071002)
隨著Web技術(shù)的不斷發(fā)展,人類先后經(jīng)歷了以文檔互聯(lián)為特征的“Web 1.0”時代與數(shù)據(jù)互聯(lián)為特征的“Web 2.0”時代,邁向基于知識互聯(lián)的嶄新“Web 3.0”時代.知識互聯(lián)將特定數(shù)據(jù)輸入到特定情境中,其中DBpedia項(xiàng)目[1],是目前最具有代表性的大規(guī)模開放域鏈接數(shù)據(jù).2012年,Google正式推出稱為知識圖譜的搜索引擎服務(wù),目的在于使用語義檢索從多種來源收集信息,提高Google搜索的質(zhì)量[2].知識圖譜描述各種實(shí)體及關(guān)系,構(gòu)成一張巨大的語義網(wǎng)絡(luò)圖,具有“圖”和“譜”雙重特點(diǎn),緊密的數(shù)據(jù)關(guān)聯(lián)性與強(qiáng)大的語義處理力是對語義網(wǎng)絡(luò)的全面總結(jié)與升華[3].
國內(nèi)提及“知識語義網(wǎng)絡(luò)”的文章于2005年發(fā)表,從數(shù)據(jù)格式及存取、數(shù)據(jù)分析算法、可視化和互動設(shè)計(jì)、科學(xué)計(jì)量學(xué)等方面闡述知識圖譜,將這個極其重要、擁有廣闊應(yīng)用前景的交叉領(lǐng)域稱作“Mapping Knowledge Domains”.劉則淵教授將知識圖譜引入國內(nèi)并創(chuàng)建WISE實(shí)驗(yàn)室,開拓了國內(nèi)知識計(jì)量學(xué)與科學(xué)知識圖譜研究的新方向[4].由于中文知識圖譜的構(gòu)建對中文信息處理和檢索具有重要的研究和應(yīng)用價值[5-6],近年國內(nèi)推出了大量以中文為主語言的知識圖譜,主要基于百度百科和維基百科的結(jié)構(gòu)化信息構(gòu)建.上海交通大學(xué)的zhishi.me,SPARQL終端用于用戶查詢操作,以HTML的形式給出返回結(jié)果[7];清華大學(xué)的Xlore,是第一個大規(guī)模中英文知識平衡的知識圖譜[8];復(fù)旦大學(xué)的CN-pedia,從純文本頁面中提取信息,由過濾、融合、推斷等操作,形成了高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)[9].官賽萍等[10]討論了知識圖譜上的推理方法與技術(shù).王鑫等[11]以數(shù)據(jù)模型的結(jié)構(gòu)和操作兩大要素為主線,研究知識圖譜多方面數(shù)據(jù).
社交網(wǎng)絡(luò)是知識圖譜應(yīng)用較廣的垂直領(lǐng)域之一,在用戶行為分析、信息智能化處理等方面知識圖譜有著很好的發(fā)展前景.朱世玲[12]采用網(wǎng)絡(luò)“基因”圖譜來唯一標(biāo)識實(shí)體及其身份屬性和行為屬性.目前,社交網(wǎng)絡(luò)中各式知識圖譜應(yīng)運(yùn)而生,社交圖譜思想源自 FOAF ( 即朋友的朋友)[13],用于維護(hù)并挖掘用戶社交關(guān)系,動態(tài)獲取用戶網(wǎng)絡(luò)行為信息,隨新出現(xiàn)的用戶、事物及關(guān)系動態(tài)更新的用戶真實(shí)社交關(guān)系圖譜.當(dāng)前網(wǎng)絡(luò)社交應(yīng)用眾多,社交用戶數(shù)據(jù)豐富但知識匱乏,而智能化社交關(guān)系網(wǎng)絡(luò)需要基于知識圖譜,可視化表示社交網(wǎng)絡(luò)中的用戶行為,以此分析社交用戶行為關(guān)系,實(shí)現(xiàn)用戶行為關(guān)系數(shù)據(jù)從“數(shù)據(jù)-信息-知識”的轉(zhuǎn)化,完善社交關(guān)系體系.
知識圖譜是運(yùn)用結(jié)構(gòu)化語言,描述現(xiàn)實(shí)世界中存在的實(shí)體或概念間關(guān)系的知識庫集合.基于三元組是知識圖譜的一種通用表示方式,以“實(shí)體-關(guān)系-實(shí)體”或“實(shí)體-屬性-屬性值”為基本形式呈現(xiàn)[14].知識圖譜可被看作一張具有知識結(jié)構(gòu)的網(wǎng)圖,圖中的節(jié)點(diǎn)表示實(shí)體或概念,邊表示關(guān)系或?qū)傩裕举|(zhì)上是一種語義網(wǎng)絡(luò),通過關(guān)鍵詞映射到語義知識庫的概念上,核心是利用知識庫進(jìn)行語義推演.
基于圖的數(shù)據(jù)結(jié)構(gòu),知識圖譜的存儲方式有2種:RDF存儲格式和圖數(shù)據(jù)庫(graph database)[15].實(shí)際研究中,所需實(shí)體及關(guān)系較為復(fù)雜,大多以圖數(shù)據(jù)庫為存儲介質(zhì),例如開源的Neo4j、Twitter的FlockDB等.知識圖譜的構(gòu)建以知識庫為主,存儲社交用戶的行為數(shù)據(jù)及關(guān)系數(shù)據(jù),知識庫是以事實(shí)為基本單位組成的知識集合,如表1所示.
表1 大規(guī)模知識圖譜庫匯總
續(xù)表1Continued Tab.2
社交網(wǎng)絡(luò)擁有龐大的用戶群,用戶的行為關(guān)系數(shù)據(jù)存在于非結(jié)構(gòu)化的文本數(shù)據(jù)、半結(jié)構(gòu)化的網(wǎng)頁及部分用戶信息系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)中.知識圖譜用來描述關(guān)系網(wǎng)絡(luò),直觀的表示方法能夠高效地分析復(fù)雜關(guān)系網(wǎng)絡(luò)中潛在的行為數(shù)據(jù).
面向社交網(wǎng)絡(luò),基于知識圖譜描述用戶行為關(guān)系信息,抽取大量計(jì)算機(jī)可讀的行為關(guān)系數(shù)據(jù)[16],根據(jù)社交行為形成網(wǎng)狀結(jié)構(gòu),結(jié)構(gòu)為有向有環(huán)圖,每個點(diǎn)代表每個用戶的數(shù)據(jù)信息,點(diǎn)與點(diǎn)間的路徑看作用戶間的行為關(guān)系.實(shí)際應(yīng)用中,根據(jù)真實(shí)需求挖掘用戶間行為聯(lián)系這一問題可描述為在有向有環(huán)圖中尋找相鄰節(jié)點(diǎn)問題,或路徑導(dǎo)航問題.
三元組是知識圖譜的通用表示方式,借助三元組描述社交用戶的行為關(guān)系信息,由2個具有關(guān)聯(lián)關(guān)系的用戶實(shí)體和實(shí)體間關(guān)系組成,直觀表示用戶行為,即G=(head,relation,tail),其中head為三元組中頭實(shí)體,tail為三元組中尾實(shí)體,relation={r1,r2,…,r|R|}是用戶知識庫中的關(guān)系集合,包含|R|種不同行為關(guān)系.三元組的基本形式包括實(shí)體1、關(guān)系、實(shí)體2和概念、屬性、屬性值等.實(shí)體是行為圖譜的最基本元素,如用戶、網(wǎng)絡(luò)平臺等;關(guān)系存在于不同實(shí)體間,如用戶自發(fā)行為、點(diǎn)贊轉(zhuǎn)發(fā)行為、評論文字、@提及等;概念主要指集合、對象類型、事物種類等,如大V用戶、活躍用戶、安全用戶等;屬性指對象可能具有的特征,如用戶基本信息、地理定位、在線時間等;屬性值指對象特定屬性的值,如用戶資料完整度、用戶安全指數(shù)、屬性相似度等.通過全局唯一的ID標(biāo)識用戶實(shí)體,實(shí)體間內(nèi)在特征通過用戶屬性-屬性值表示,外在關(guān)聯(lián)通過用戶關(guān)系表示,三元組描述已有事實(shí).
可視化表示社交用戶的行為關(guān)系為一個有向有環(huán)圖,建立以行為關(guān)系為核心,帶有語義性的用戶知識庫,旨在實(shí)現(xiàn)從語義理解社交用戶意圖,根據(jù)實(shí)際情況及用戶需求狀況反映用戶的行為關(guān)聯(lián),為數(shù)據(jù)分析的準(zhǔn)確性提供保障.
運(yùn)用知識圖譜技術(shù)可視化表示社交用戶的行為關(guān)系,構(gòu)建過程主要包括數(shù)據(jù)源選取、數(shù)據(jù)采集與處理、可視化表示等步驟,其中,可視化表示是重中之重,由行為知識抽取、行為知識表示、行為知識加工3部分組成.
2.2.1 行為知識抽取
行為知識抽取面向開放的社交網(wǎng)絡(luò)用戶,通過自動化技術(shù)從半結(jié)構(gòu)或無結(jié)構(gòu)數(shù)據(jù)中抽取可用的行為知識單元,包括用戶實(shí)體、行為關(guān)系及屬性等知識要素,形成本體化的高質(zhì)量知識表達(dá).涉及的關(guān)鍵技術(shù)包括實(shí)體抽取、關(guān)系抽取、屬性抽取.
實(shí)體抽取,從原始數(shù)據(jù)源中自動識別用戶實(shí)體.英文語境中,Wu等[18]提出WOE系統(tǒng),使用wikipedia中信息框的內(nèi)容標(biāo)記語義內(nèi)容.Surdeanu等[19]提出MIML模型,將同一用戶實(shí)體在不同網(wǎng)絡(luò)環(huán)境中呈現(xiàn)不同行為關(guān)系.Liu等[20]運(yùn)用K-近鄰算法和條件隨機(jī)場模型識別文本數(shù)據(jù).Ling等[21]借鑒Freebase的實(shí)體分類歸納112種實(shí)體類別,基于條件隨機(jī)場模型進(jìn)行用戶實(shí)體識別,采用自適應(yīng)感知機(jī)算法對用戶實(shí)體自動分類.漢語文本中王莉峰[22]提出領(lǐng)域自適應(yīng)的中文實(shí)體關(guān)系抽取,針對文本內(nèi)容提取用戶知識.王志超[23]面向知識圖譜設(shè)計(jì)了一種基于開放域抽取的實(shí)體行為抽取框架.秦兵等[24]提出面向大規(guī)模網(wǎng)絡(luò)文本無指導(dǎo)的中文開放式實(shí)體關(guān)系抽取模型UnCORE,采用全局排序和類型排序方法挖掘行為關(guān)系指示詞,運(yùn)用行為關(guān)系指示詞和句式規(guī)則過濾關(guān)系三元組,抽取用戶間行為關(guān)聯(lián).
關(guān)系抽取,以關(guān)系聯(lián)系用戶實(shí)體形成網(wǎng)狀知識結(jié)構(gòu),解決用戶的實(shí)體語義鏈接問題.Wu等[18]通過自監(jiān)督學(xué)習(xí)得到抽取器,較TextRunner系統(tǒng)[25]提高了準(zhǔn)確率.Schmitz等[26]提出了第3代OIE系統(tǒng)OLLIE,彌補(bǔ)并擴(kuò)展OIE的模型及相應(yīng)的系統(tǒng).Akbik等[27]提出可抽取任意語句中實(shí)體行為關(guān)系的方法KPAKEN,適用于小規(guī)模開放域語料.隨后,實(shí)體間關(guān)系模型替代了人工構(gòu)建的語義規(guī)則.Domingos等[28]提出簡易的馬爾可夫邏輯TML,分解用戶知識,利用社交網(wǎng)絡(luò)中豐富的用戶屬性數(shù)據(jù)、行為數(shù)據(jù)等推理用戶實(shí)體間關(guān)聯(lián),實(shí)驗(yàn)表明,TML能夠表示用戶實(shí)體間的行為關(guān)聯(lián),具有較強(qiáng)的行為表達(dá)能力.
屬性抽取,對用戶實(shí)體而言,如用戶基本信息、地理定位、在線時間等,通過屬性完整刻畫用戶實(shí)體.屬性抽取的目標(biāo)是從數(shù)據(jù)源中選取用戶實(shí)體的屬性信息,為每個本體構(gòu)造用戶屬性列表,屬性值為用戶實(shí)體的附加屬性值,以此形成完整用戶實(shí)體的行為圖譜維度[29].Suchanek等[30]提出基于規(guī)則與啟發(fā)式算法的屬性抽取方法可從半結(jié)構(gòu)化數(shù)據(jù)中抽取用戶屬性信息,擴(kuò)展為用戶知識庫.
2.2.2 行為知識表示
近年人工智能、機(jī)器學(xué)習(xí)等表示學(xué)習(xí)技術(shù)的發(fā)展,實(shí)體的語義信息可以表示為低維實(shí)數(shù)值的向量,對用戶知識庫的構(gòu)建有重要意義[31].
知識表示學(xué)習(xí),將對象投影到統(tǒng)一的低維空間,一方面通過分布式模型刻畫用戶行為關(guān)系的語義關(guān)聯(lián)程度,有效緩解數(shù)據(jù)稀疏性問題[32];另一方面建立統(tǒng)一表示空間,融合社交用戶信息.行為知識表示學(xué)習(xí)代表模型包括單層神經(jīng)網(wǎng)絡(luò)模型[33- 34]、雙線性模型[35-36]、神經(jīng)張量網(wǎng)絡(luò)模型[37]、矩陣分解模型[38]及翻譯模型[39]等,如表2所示.各模型的效率對比通過時間復(fù)雜度和空間復(fù)雜度說明,其中n和m分別表示用戶和行為關(guān)系的數(shù)量,d和k分別表示用戶的維數(shù)和行為關(guān)系嵌入空間的維數(shù),如表3所示.此外,Wang等[40]提出了一種將多模態(tài)自動編碼器與TransE模型相結(jié)合的新的表示學(xué)習(xí)方法TransAE,不僅將結(jié)構(gòu)知識編碼,而且還可以將多模態(tài)知識編碼為最終表示形式,在鏈接預(yù)測和三元組分類上可以顯著提高性能.明等[41]研究卷積神經(jīng)模型構(gòu)建細(xì)粒度關(guān)系描述的表示,提出關(guān)系文本的知識表示學(xué)習(xí)方法,采用關(guān)系描述作為表示學(xué)習(xí)的輔助信息,實(shí)驗(yàn)表明此方法具有較優(yōu)性能.Seo等[42]提出基于路徑的知識圖表示學(xué)習(xí)方法RKRL,將中間實(shí)體的表示形式和關(guān)系路徑上的關(guān)系進(jìn)行組合,以學(xué)習(xí)更多的知識表示形式.Sun等[43]利用關(guān)系路徑的語義信息,提高知識表示學(xué)習(xí)的辨別力,并在投影實(shí)體時添加了與關(guān)系類型相關(guān)的權(quán)重以區(qū)分關(guān)系類型.Zhang等[44]提出利用實(shí)體屬性信息,運(yùn)用深度卷積神經(jīng)網(wǎng)絡(luò)模型對屬性信息進(jìn)行編碼,并利用屬性信息和三元結(jié)構(gòu)信息學(xué)習(xí)知識表示,生成基于屬性的實(shí)體表示.
表2 知識表示學(xué)習(xí)代表模型
表3 模型在時空復(fù)雜度上的對比
2.2.3 行為知識加工
行為知識加工,融合、推理與更新用戶知識庫內(nèi)容,消除實(shí)體、屬性及關(guān)系之間的歧義,增強(qiáng)用戶知識庫內(nèi)部的邏輯性和表達(dá)力,并在已有知識基礎(chǔ)上推理用戶行為關(guān)聯(lián),更新用戶知識庫,不斷完善新產(chǎn)生的行為關(guān)系數(shù)據(jù)[45].Song等[46]將不同來源獲得的知識有效地組織和整合到知識庫中,并對知識加工涉及到的方法進(jìn)行研究.行為知識加工的關(guān)鍵技術(shù)包括實(shí)體對齊、本體構(gòu)建、知識推理和知識更新.
實(shí)體對齊,歸并具有不同標(biāo)識但表示同一用戶的實(shí)體,使其擁有全局唯一標(biāo)識,創(chuàng)建大規(guī)模的統(tǒng)一用戶知識庫.社交網(wǎng)絡(luò)中存在重復(fù)屬性數(shù)據(jù),相似行為數(shù)據(jù)及孤立數(shù)據(jù)等,用戶數(shù)據(jù)質(zhì)量不一,計(jì)算復(fù)雜度較大,用戶知識庫規(guī)模對實(shí)體對齊產(chǎn)生影響.從用戶知識庫體系差異角度出發(fā),Parundekar等[47]和Jain等[48]針對Linked Open Data取得高效的實(shí)體對齊效果.從知識庫的內(nèi)容差異角度出發(fā), Volz等[49]提出Silk采用索引的方式管理數(shù)據(jù)資源,降低計(jì)算條目間“SameAs”關(guān)系的時間復(fù)雜度.Chen等[50]利用屬性值對作為特征模板,運(yùn)用擴(kuò)展向量空間模型對文本內(nèi)容歧義識別;Niu等[51]提出Zhishi.me利用實(shí)體名稱歸一化進(jìn)行實(shí)體對齊.
本體構(gòu)建,對社交網(wǎng)絡(luò)中用戶及行為關(guān)系的形式化表達(dá),本體是包含用戶行為關(guān)系的集合,用來描述現(xiàn)實(shí)世界的用戶知識模型.社交網(wǎng)絡(luò)中常見的本體構(gòu)成要素包括
1)個體:基礎(chǔ)對象,即社交用戶.
2)類:集合、概念及對象類型等,即用戶類別,如大V用戶、活躍用戶、安全用戶等.
3)屬性:實(shí)體的屬性,即用戶資料、地理位置、在線時間等.
4)關(guān)系:類與個體間關(guān)聯(lián)或個體與個體間關(guān)聯(lián),即用戶行為間關(guān)聯(lián)關(guān)系.
5)函數(shù)術(shù)語:在聲明語句中,代替具體術(shù)語的特定關(guān)系構(gòu)成的復(fù)雜結(jié)構(gòu).
6)約束:采用形式化方式聲明,以用戶需求為輸入且合理的情況描述.
7)規(guī)則:用于描述依據(jù)特定形式,某種需求能夠得出的邏輯推論,如用戶個人資料等屬性信息用if-then式語句形式的聲明.
8)公理:采取特定邏輯形式構(gòu)成的本體.有別于形式邏輯中的“公理”.在行為圖譜的本體構(gòu)建過程中,公理僅包括確定為用戶先驗(yàn)知識的聲明.
9)事件:用戶屬性或行為關(guān)系的變化.
知識推理,在已有用戶知識庫基礎(chǔ)上進(jìn)一步挖掘知識,擴(kuò)展用戶知識庫,形成完善的用戶知識體系.統(tǒng)一管理用戶知識,將動態(tài)演化的行為關(guān)系擴(kuò)充到用戶知識庫,對提高用戶知識庫的覆蓋能力十分重要.知識推理能夠完成用戶數(shù)據(jù)收集、明確用戶行為安全性、行為關(guān)聯(lián)關(guān)系分析等.知識推理分為基于符號邏輯的推理和基于圖特征模型的推理.基于符號邏輯的推理,基于一階謂詞邏輯和描述邏輯等,利用規(guī)則推理出新的用戶間行為關(guān)系,還可進(jìn)行邏輯的沖突檢測.
知識更新,社交網(wǎng)絡(luò)用戶人數(shù)不斷增加,用戶屬性及行為關(guān)系信息不斷增長,行為知識需不斷更新完善.從邏輯層面講,包括數(shù)據(jù)層更新與模式層更新.數(shù)據(jù)層更新指用戶、行為關(guān)系及屬性的更新.模式層更新指本體中元素的更新,其中行為關(guān)系的更新影響到有直接或間接關(guān)系的子關(guān)系和用戶[52].
與高質(zhì)量的常識性行為知識相比,數(shù)據(jù)挖掘抽取的行為知識更能反映當(dāng)前用戶需求,及時發(fā)現(xiàn)最新的實(shí)體或事實(shí),但質(zhì)量相對較差,需要對候選行為知識進(jìn)行識別,評估知識的置信度,提高社交用戶的行為關(guān)系可視化表示的準(zhǔn)確性.
將得到的候選行為知識表示為知識圖,名為提取圖(extraction graph, EG),提取圖中節(jié)點(diǎn)表示用戶,與節(jié)點(diǎn)具有關(guān)聯(lián)的標(biāo)簽表示用戶屬性類別,節(jié)點(diǎn)間的有向邊用戶行為關(guān)系.由關(guān)聯(lián)數(shù)據(jù)和語義組成的提取圖中的概率推理具有重要意義.因此,運(yùn)用概率軟邏輯(probabilistic soft logic, PSL)這一識別技術(shù)修正提取圖[53],結(jié)合聚合分類和基于本體信息的規(guī)則等,完成對候選行為知識的識別.
概率軟邏輯是在關(guān)系域集體概率推理,將相似度與關(guān)系結(jié)構(gòu)的概率推理有機(jī)結(jié)合,具有關(guān)系結(jié)構(gòu)的概率模型.運(yùn)用PSL識別提取圖,引入概率建??蚣埽瑢B續(xù)值的隨機(jī)變量進(jìn)行概率推理,其中的推理是高度可擴(kuò)展的凸優(yōu)化問題,能夠在幾分鐘內(nèi)處理數(shù)以百萬計(jì)的事實(shí).該方法的強(qiáng)大之處在于,面向社交網(wǎng)絡(luò)的用戶關(guān)系和相似行為信息,高效地聲明各種行為集合標(biāo)準(zhǔn).PSL程序由具有連接體和單文字頭的一階邏輯規(guī)則組成,規(guī)則被標(biāo)記為非負(fù)權(quán)值,PSL使用規(guī)則來捕獲域的依賴結(jié)構(gòu),構(gòu)建聯(lián)合概率模型.每條規(guī)則都有相關(guān)的非負(fù)權(quán)值,捕獲規(guī)則的相對重要性.此外,PSL將一階邏輯規(guī)則作為圖模型的模板語言,使用區(qū)間[0;1]中的連續(xù)性真值而不是0或1布爾值.
知識圖譜將復(fù)雜數(shù)據(jù)信息表示為易于人類理解的形式.探索應(yīng)用場景時,應(yīng)充分考慮以下優(yōu)勢:1)對異構(gòu)、動態(tài)的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的有效組織與表達(dá)能力;2)依托于強(qiáng)大知識庫的深度知識推理能力;3)與深度學(xué)習(xí)等領(lǐng)域相結(jié)合,擴(kuò)展的認(rèn)知能力.在對知識圖譜技術(shù)有豐富積累的基礎(chǔ)上感知用戶需求,為大規(guī)模知識圖譜找到更廣泛的應(yīng)用之處.
面向社交網(wǎng)絡(luò)構(gòu)建的網(wǎng)狀結(jié)構(gòu)作為新型社交關(guān)系可視化方式,改變傳統(tǒng)用戶知識的表達(dá)與獲取方式,加速用戶數(shù)據(jù)、信息到知識的轉(zhuǎn)換,給出局部知識到全局知識的統(tǒng)一表現(xiàn)形式,以直觀的方式呈現(xiàn)社交網(wǎng)絡(luò)中的用戶及行為關(guān)系,旨在維護(hù)用戶社交關(guān)系,挖掘社交網(wǎng)絡(luò)深層的用戶價值,是解決社交用戶的行為關(guān)系問題的新一代用戶分析工具,為研究社交網(wǎng)絡(luò)的用戶行為信息提供新思路.
基于知識圖譜,可視化表示社交用戶行為關(guān)系,為海量、異構(gòu)、動態(tài)的用戶數(shù)據(jù)的表達(dá)與分析提供有效方式,將復(fù)雜的行為數(shù)據(jù)以直觀的方式表示為易于理解的形式,根據(jù)各種社交網(wǎng)絡(luò)中的用戶行為分析其中的潛在行為,對相關(guān)用戶主體(如親友、陌生人等)及關(guān)聯(lián)行為進(jìn)行挖掘,如圖3所示.目前主要可用于用戶信息檢索、用戶安全評測、行為關(guān)聯(lián)推理等方面.
圖3 知識圖譜數(shù)據(jù)處理過程Fig.3 Knowledge graph data processing
針對大量社交用戶數(shù)據(jù)檢索用戶信息是一項(xiàng)復(fù)雜的任務(wù).用戶信息檢索時,基于知識圖譜,可視化表示用戶各項(xiàng)信息,建立大規(guī)模用戶知識庫對用戶屬性及文本內(nèi)容進(jìn)行語義標(biāo)注,從中檢查相關(guān)用戶實(shí)體對、實(shí)體關(guān)系及屬性并進(jìn)行擴(kuò)展.可利用用戶名稱檢索用戶屬性,采用文本匹配、關(guān)鍵字匹配的檢索方法將文本內(nèi)容轉(zhuǎn)換為本體定義的用戶概念,提升用戶信息檢索精度,從而提高查詢、檢索用戶各項(xiàng)信息的準(zhǔn)確性及用戶信息檢索的效率.
社交用戶行為關(guān)系的可視化表示能夠輔助安全領(lǐng)域的用戶安全評測問題,根據(jù)用戶屬性、行為、關(guān)系等數(shù)據(jù)對用戶自身進(jìn)行智能化分析,依托巨大的用戶知識庫并使用自然語言和基于證據(jù)的學(xué)習(xí)能力為用戶安全評測提供支持,供安全人員參考.以用戶知識庫為基礎(chǔ),綜合多個用戶本體資源,包括社交平臺、自媒體等相關(guān)本體,通過專家知識規(guī)則,運(yùn)用正則表達(dá)式、隱馬爾可夫模型等人工智能技術(shù)解決社交網(wǎng)絡(luò)中用戶安全評測問題.
行為關(guān)聯(lián)推理是用戶行為研究的一種高級形式,可視化表示社交用戶的行為關(guān)系,將行為關(guān)聯(lián)問題分為若干個用戶知識問題,從用戶知識庫中抽取匹配信息,并檢測匹配信息在時間和空間上的吻合度,最后將用戶知識問題合并為用戶行為關(guān)聯(lián)問題.
知識圖譜是建立在多學(xué)科領(lǐng)域研究成果基礎(chǔ)上的一門實(shí)用技術(shù),是信息檢索、人工智能、自然語言處理等交叉領(lǐng)域的理論研究熱點(diǎn)和應(yīng)用技術(shù)的集合,不僅是一門實(shí)用技術(shù),更是一種戰(zhàn)略思想.就社交網(wǎng)絡(luò)而言,由于用戶和行為關(guān)系數(shù)據(jù)具有復(fù)雜性、多樣性等特點(diǎn),可視化表示用戶的行為關(guān)系,建立用戶知識庫便十分重要.運(yùn)用此技術(shù)挖掘用戶行為信息,推進(jìn)數(shù)據(jù)挖掘、網(wǎng)絡(luò)圖論等領(lǐng)域的研究,將其廣泛應(yīng)用到用戶信息檢索、用戶安全評測、行為關(guān)聯(lián)分析等方面.目前雖有很多進(jìn)行知識圖譜的研究,但基于知識圖譜,可視化表示社交網(wǎng)絡(luò)的行為關(guān)系仍面臨巨大挑戰(zhàn).
1)社交網(wǎng)絡(luò)用戶行為挖掘
真實(shí)社會中的同一個人在不同的社交網(wǎng)絡(luò)中所在位置和所起作用不同,異構(gòu)網(wǎng)絡(luò)無共同特征,網(wǎng)絡(luò)規(guī)模千差萬別.社交網(wǎng)絡(luò)中,聚合不同社交平臺中身份不同的同一現(xiàn)實(shí)用戶是社交網(wǎng)絡(luò)用戶行為挖掘的難點(diǎn),也是實(shí)現(xiàn)可視化表示社交用戶行為關(guān)系的關(guān)鍵.
2)文本抽取難度大
行為知識抽取時,面向社交網(wǎng)絡(luò)開放數(shù)據(jù)源的知識抽取方法研究處于起步階段,部分研究成果雖在特定數(shù)據(jù)集上有較好效果,但應(yīng)用于社交用戶行為關(guān)系的可視化時普遍存在準(zhǔn)確率低、限制條件多、擴(kuò)展性差等問題,尤其在抽取用戶發(fā)布博文內(nèi)容涉及的純文本抽取時面臨挑戰(zhàn).
3)實(shí)體對齊準(zhǔn)確率低
行為知識加工階段的主要挑戰(zhàn)是實(shí)現(xiàn)有較高準(zhǔn)確率的實(shí)體對齊.雖然相關(guān)研究已有很長歷史,但由于社交用戶的行為知識來源的異構(gòu)性、多樣性及復(fù)雜性導(dǎo)致用戶在不同數(shù)據(jù)源中存在多源指代問題,目前的研究對可視化表示社交用戶的行為關(guān)系的幫助較少.如何在跨語境,跨社交平臺的條件下準(zhǔn)確地將文本中抽取的社交用戶進(jìn)行同一現(xiàn)實(shí)用戶的實(shí)體歸并是當(dāng)前的重要問題.