賈金娜 JIA Jin-na
(西安工商學(xué)院,西安 710032)
當(dāng)前隨著信息化手段的普及和運(yùn)用,高校在教學(xué)過程中不斷產(chǎn)出海量的數(shù)據(jù)和信息,已經(jīng)形成規(guī)模化的知識(shí)網(wǎng)絡(luò)。網(wǎng)絡(luò)中擁有海量的傳統(tǒng)數(shù)據(jù)庫、報(bào)表、文檔、多媒體等資源,但普遍存在數(shù)據(jù)分散管理、知識(shí)挖掘不足等問題,教職員工和學(xué)生針對(duì)性檢索能力還比較弱。因此,需要一種針對(duì)個(gè)性化檢索需求的方法,解決當(dāng)前檢索效率低下問題。
在分析典型高校知識(shí)網(wǎng)絡(luò)現(xiàn)狀基礎(chǔ)上,系統(tǒng)分析各類知識(shí)資源節(jié)點(diǎn)屬性,將其主要關(guān)系歸納為組合、聚合、繼承、依賴、屬性關(guān)聯(lián)、類別關(guān)聯(lián)、推理關(guān)聯(lián)、關(guān)鍵詞關(guān)聯(lián)、目錄關(guān)聯(lián)、行為關(guān)聯(lián)、自關(guān)聯(lián)等,如圖1。例如,組合關(guān)系是指知識(shí)整體和部分之間的關(guān)系,整體和部分不可分割,如學(xué)生整體成績(jī)與其單科成績(jī)之間的關(guān)系;行為關(guān)聯(lián)關(guān)系是指用戶特定行為所涉及的知識(shí)資源之間的關(guān)聯(lián)關(guān)系,如學(xué)生搜索“Python 工具”時(shí),往往同時(shí)檢索“*.py”,這兩種知識(shí)之間存在行為關(guān)聯(lián)關(guān)系。這些關(guān)系是知識(shí)網(wǎng)絡(luò)中的邊集合(關(guān)系集合)ESet={e1,e2,…,em}的具體取值。同時(shí),使用XML Schema 作為中間層,可構(gòu)建出知識(shí)的層次化地圖模型(如圖2),在此模型中:
圖1 知識(shí)資源間的主要關(guān)系
圖2 層次化知識(shí)地圖模型
①資源層,即各種實(shí)體,例如各種DB 二維表,doc、mp4 等不同后綴的文件;
②表現(xiàn)層,即基于上述關(guān)系的可導(dǎo)航的地圖模型,其中資源即節(jié)點(diǎn),連接即關(guān)系;
③描述層,即實(shí)體為數(shù)據(jù)(Data)文件,以XML 描述形成業(yè)務(wù)(Business)文件。
將知識(shí)網(wǎng)絡(luò)形成的結(jié)構(gòu)樹以XML Schema 進(jìn)行規(guī)范,形成其描述文件KRP-t,后續(xù)檢索可以通過XML 文件中的各類Tag 進(jìn)行。相關(guān)Tag 之間構(gòu)成具體檢索路徑K-p:①K-p 為: KN1/KN2/…/KNi/KN(i+1)/…/KNn;②KN1、KN2、…、KN(n-1)∈KNSetE(節(jié)點(diǎn)集合),KNn∈KNSetE(邊集合)∪KNSetA(屬性集合),使得KNi 是KN(i+1)的父節(jié)點(diǎn),則稱KNn 是KN1 的上級(jí),KN1 是KNn 的下級(jí);③將這些點(diǎn)依次連接,即可構(gòu)成一條從KN1 到KNn 的路徑KR_Path(KN1, KNn)。若KRP-t 中存在一個(gè)節(jié)點(diǎn)序列{KR_TSeq:KRN1, KRN2,…, KRNi, KRN(i+1),…, KRNn},使得KRNi是KRN(i+1)的上級(jí),則稱該節(jié)點(diǎn)序列是從KRN1 到KRNn 的標(biāo)簽序列,記為KR_TS∈KRP-t?;谏鲜龆x,可基于Schema 對(duì)其進(jìn)行檢索,如圖3。
圖3 XML 描述文件解析算法
將知識(shí)檢索按照一般檢索、復(fù)雜檢索進(jìn)行分類。一般檢索類:
①對(duì)于簡(jiǎn)單檢索項(xiàng)集合SW(S1, S2, …,Sm),如“Title = *.py”、“Subject = python 代碼;管理系統(tǒng)”等,利用Boolean 運(yùn)算實(shí)現(xiàn)。
②對(duì)于復(fù)雜檢索項(xiàng),借鑒前期同類研究成果,形成知識(shí)網(wǎng)絡(luò)中基于知識(shí)地圖的層次化檢索模型如圖4 所示。檢索的主要流程包括:
圖4 知識(shí)地圖層次化檢索過程
1)對(duì)檢索項(xiàng)匯總形成想要集合SW,匯總相應(yīng)資源形成集合KR_Set;
2)查找到具體的實(shí)體資源文件所關(guān)聯(lián)的業(yè)務(wù)項(xiàng)的描述文件,即可找到其對(duì)應(yīng)的XML Meta-data 文檔,按照簡(jiǎn)單檢索模式查找其對(duì)應(yīng)的資源;
3)基于KRP_t_P&R 算法解析XML 文檔,通過遍歷各標(biāo)簽生成對(duì)應(yīng)XML 文件的標(biāo)簽樹KR_Tag_Tree,獲取Tage 對(duì)之內(nèi)的字符串,構(gòu)建生成待檢索的文本集合,按照文本匹配等簡(jiǎn)單檢索方式對(duì)其內(nèi)容進(jìn)行查找定位;
4)在檢索完所有XML 文件后,形成一個(gè)檢索的結(jié)構(gòu)矩陣;
5)對(duì)比所有檢索結(jié)果之間對(duì)應(yīng)的不同關(guān)聯(lián)關(guān)系,即可獲得一個(gè)按照特定關(guān)系形式組合的文件資源對(duì)之間的網(wǎng)絡(luò),最后以集合形式進(jìn)行存儲(chǔ)即完成所有工作。如圖5 所示。
圖5 XML 描述文件中關(guān)鍵詞搜索算法
用戶的直接需求(如以檢索詞、訂閱關(guān)鍵詞等形式)和間接需求(來源于知識(shí)節(jié)點(diǎn)的潛在關(guān)系)決定了知識(shí)推薦的表現(xiàn)形式。筆者所提出的知識(shí)推薦方法是“以檢索詞檢索+以規(guī)則關(guān)聯(lián)”。在不同的檢索需求下,可基于用戶個(gè)性化檢索詞進(jìn)行知識(shí)推薦形成知識(shí)資源集合,對(duì)比整個(gè)知識(shí)網(wǎng)絡(luò),篩選出相應(yīng)的知識(shí)子網(wǎng)絡(luò)?;緦?shí)現(xiàn)過程為“文件預(yù)處理→基于向量空間進(jìn)行表征→基于改進(jìn)N-Gram 進(jìn)行分詞→基于多屬性融合方法選取特征→基于改進(jìn)Apriori 算法分析關(guān)聯(lián)規(guī)則→進(jìn)行推薦給出結(jié)果”。這里重點(diǎn)對(duì)其中的文本分詞、特征選擇和關(guān)聯(lián)規(guī)則等關(guān)鍵步驟進(jìn)行分析和設(shè)計(jì):
①基于預(yù)切分改進(jìn)設(shè)計(jì)N-Gram 方法。針對(duì)Gram 方法中Gram 數(shù)量偏大、部分無實(shí)際意義等問題,使用預(yù)切分方式對(duì)其進(jìn)行改進(jìn),具體步驟是:
1)用StopWordsList 切分文本,形成由不同長(zhǎng)度的字串組成的集合U0,將每個(gè)詞的詞頻記入詞頻表集合W;
2)將U0按長(zhǎng)度2、3、…、k-1 進(jìn)行分類,形成集合U1、U2、…、U(k-1);
3)對(duì)U2中的每個(gè)字串直接切分為兩個(gè)長(zhǎng)度為2 的字串,并將結(jié)果合并到集合U1,同時(shí)更新相關(guān)字串的詞頻;
4)對(duì)U3、…、U(k-1)繼續(xù)切分,形成相應(yīng)的集合并將每個(gè)字串的詞頻記入W;
5)將U1、U2、…、U(k-1)取并集得到U,歸并U 中相同字串,更新W 中詞頻;
6)應(yīng)用“長(zhǎng)詞優(yōu)先”的原則對(duì)U 中的冗余字串進(jìn)行消減(即一個(gè)短詞含在一個(gè)長(zhǎng)詞之中,則將其減去),并更新W 中字串的詞頻。
7)輸出特征項(xiàng)集合U 和W。
②基于多屬性融合的文本特征選擇方法。按照相關(guān)文獻(xiàn)提出的文檔頻、特征項(xiàng)詞頻、特征項(xiàng)詞性、特征項(xiàng)在文本中位置等多種屬性,按照W(f)=a×Wdf+b×WF+c×WP進(jìn)行文本特征的選擇。其中:
1)W(f)表示特征項(xiàng)f 的綜合權(quán)重。a、b、c 分別表示三個(gè)屬性值的權(quán)重系數(shù),其取值范圍為(0,1),且滿足a+b+c=1。
2)Wdf為特征項(xiàng)文檔頻屬性值,其值是集合里具有某特征項(xiàng)的文本數(shù)量與總數(shù)n 之比,Wdf∈(0,1)。
3)WF為特征項(xiàng)詞頻屬性值,分詞過程中進(jìn)行特征項(xiàng)頻率統(tǒng)計(jì),可獲取到不同特征項(xiàng)詞頻,令其取值為Nd,具體特征項(xiàng)的WF=TotalNd/TotalNdmax。
4)WP為特征項(xiàng)詞性屬性值,對(duì)文檔中其關(guān)鍵作用的名詞、動(dòng)詞、形容詞、副詞外的其他進(jìn)行剔除,如某文檔集合中名詞所占比例數(shù)值為Pmax,且在四類詞中占比最高,設(shè)P 為某特征詞所屬詞性占比值,則WP=P/Pmax。
③基于改進(jìn)Apriori 算法的文本關(guān)聯(lián)規(guī)則提取方法。將上述集合存儲(chǔ)到關(guān)系數(shù)據(jù)庫(或表格文件)之后,對(duì)其進(jìn)行關(guān)聯(lián)規(guī)則分析和提取。關(guān)聯(lián)規(guī)則的提取主要步驟如下:
1)找出事務(wù)庫中所有大于等于最小支持度的頻繁項(xiàng)集。
2)利用頻繁項(xiàng)集生成所有的關(guān)聯(lián)規(guī)則,根據(jù)預(yù)先設(shè)定的最小置信度進(jìn)行關(guān)聯(lián)規(guī)則的取舍,最終得到強(qiáng)關(guān)聯(lián)規(guī)則。
④檢索結(jié)果推薦按照上述關(guān)聯(lián)關(guān)系,將指定范圍內(nèi)“item→item”形式的關(guān)聯(lián)規(guī)則所對(duì)應(yīng)的文檔進(jìn)行關(guān)聯(lián),自動(dòng)關(guān)聯(lián)到相應(yīng)類別中,并可由相關(guān)用戶需求修訂該類別,為形成知識(shí)網(wǎng)絡(luò)提供輸入。上述規(guī)則中,按照置信度和最小支持度進(jìn)行選取,截取長(zhǎng)度為N 的序列,形成Top-N 知識(shí)規(guī)則,即可直接訪問到這些規(guī)則中后項(xiàng)所對(duì)應(yīng)的知識(shí)資源。
本文通過對(duì)知識(shí)網(wǎng)絡(luò)中的節(jié)點(diǎn)關(guān)系進(jìn)行分析,構(gòu)建了包含資源層、表現(xiàn)層和描述層的層次化知識(shí)地圖模型,設(shè)計(jì)了基于XML Schema 的知識(shí)結(jié)構(gòu)樹模型及其檢索方法,基于關(guān)聯(lián)規(guī)則設(shè)計(jì)了一種個(gè)性化的知識(shí)資源網(wǎng)絡(luò)檢索方法,為知識(shí)網(wǎng)絡(luò)信息個(gè)性化檢索和推薦奠定了方法基礎(chǔ)。