郭 強(qiáng),趙 瑾(.鄭州大學(xué)信息管理學(xué)院;.中國(guó)人民解放軍陸軍軍官學(xué)院軍事運(yùn)籌教研室)
共引分析是指將文獻(xiàn)作為分析對(duì)象,根據(jù)文獻(xiàn)之間的關(guān)聯(lián)程度或距離對(duì)文獻(xiàn)之間的結(jié)構(gòu)關(guān)系進(jìn)行揭示,由此對(duì)某領(lǐng)域的研究?jī)?nèi)容進(jìn)行劃分,對(duì)研究前沿進(jìn)行探測(cè),對(duì)研究方向、研究熱點(diǎn)以及對(duì)結(jié)構(gòu)關(guān)系隨時(shí)間的變化情況進(jìn)行顯示。[1-4]共引分析可以拓展至不同類型的分析對(duì)象,如將主題詞作為考察對(duì)象,一般主題詞在文獻(xiàn)中共現(xiàn)的次數(shù)越多,主題詞之間的關(guān)聯(lián)程度越高,從而可以在共現(xiàn)次數(shù)的基礎(chǔ)上嘗試對(duì)主題詞之間的結(jié)構(gòu)關(guān)系進(jìn)行探討,也可以對(duì)研究?jī)?nèi)容進(jìn)行結(jié)構(gòu)化顯示。[5-6]
在共引分析中,文獻(xiàn)的共引次數(shù)越高,文獻(xiàn)之間的關(guān)聯(lián)程度可能越強(qiáng),因而能夠利用文獻(xiàn)的共引次數(shù)對(duì)文獻(xiàn)之間的關(guān)聯(lián)程度進(jìn)行近似的表示。在對(duì)關(guān)聯(lián)程度進(jìn)行表示的基礎(chǔ)上可以通過構(gòu)造相似性度量來探討文獻(xiàn)之間的相似程度以及文獻(xiàn)之間的距離,并進(jìn)一步地對(duì)相似程度或距離進(jìn)行處理,從而得到文獻(xiàn)或其他分析對(duì)象之間的結(jié)構(gòu)關(guān)系。此外,需要對(duì)得到的結(jié)構(gòu)關(guān)系進(jìn)行分析與解釋。
文獻(xiàn)或其他分析對(duì)象之間的關(guān)聯(lián)程度是結(jié)構(gòu)分析的基礎(chǔ)。在用共引次數(shù)對(duì)關(guān)聯(lián)程度進(jìn)行表示的過程中會(huì)有這樣的情形:文獻(xiàn)之間的共引次數(shù)不高,文獻(xiàn)之間的關(guān)聯(lián)程度可能也不高。但如果文獻(xiàn)中相同參考文獻(xiàn)的數(shù)量較多,那么這兩篇文獻(xiàn)也會(huì)具有一定的相關(guān)性,或者說文獻(xiàn)之間的關(guān)聯(lián)程度并沒有完全反映到文獻(xiàn)的共引次數(shù)上。此外,如果文獻(xiàn)的共引次數(shù)較低,同時(shí)具有的相同的參考文獻(xiàn)的數(shù)量也不多,那么當(dāng)只從共引次數(shù)與參考文獻(xiàn)來判斷時(shí),文獻(xiàn)之間的關(guān)聯(lián)程度可能也不會(huì)較高。但是,如果這時(shí)文獻(xiàn)具有相同的作者,那么這兩篇文獻(xiàn)在內(nèi)容上可能會(huì)具有更為深層次的關(guān)聯(lián),如在處理問題時(shí)所采用的方式與方法會(huì)具有一定的相似性,只不過這種關(guān)聯(lián)性可能沒有表現(xiàn)在文獻(xiàn)的共引次數(shù)以及參考文獻(xiàn)上,這種相同的作者的影響可能會(huì)是顯著的,或者說與用共引次數(shù)來衡量文獻(xiàn)的關(guān)聯(lián)程度相比,將該指標(biāo)納入時(shí)得到的關(guān)聯(lián)程度在總體上會(huì)有所差異。因此,需要對(duì)關(guān)聯(lián)程度表示的全面性進(jìn)行探討,如在共引次數(shù)的基礎(chǔ)上納入相同的參考文獻(xiàn)數(shù)量、相同的作者數(shù)量、相同的關(guān)鍵詞數(shù)量等,由此形成對(duì)文獻(xiàn)關(guān)聯(lián)程度的綜合表示。另外,當(dāng)共引次數(shù)相同時(shí),由于文獻(xiàn)的其余關(guān)聯(lián)指標(biāo)可能會(huì)有所不同,綜合關(guān)聯(lián)程度也會(huì)有差異,與只考慮單個(gè)指標(biāo)的情形相比,綜合關(guān)聯(lián)程度有助于結(jié)構(gòu)分析的區(qū)分度。
目前,已有研究比較了建立在不同關(guān)聯(lián)指標(biāo)上的文獻(xiàn)結(jié)構(gòu)以及探測(cè)結(jié)果,目的是探討不同探測(cè)方法的有效性,從而對(duì)結(jié)構(gòu)關(guān)系以及研究前沿進(jìn)行更為有效、更具有針對(duì)性的揭示。[3,4,7-10]通常,多指標(biāo)的納入會(huì)使關(guān)聯(lián)程度的描述更全面,可以考慮將分別建立在不同關(guān)聯(lián)指標(biāo)上的文獻(xiàn)結(jié)構(gòu)以及探測(cè)結(jié)果進(jìn)行綜合考量。還可以考慮將不同的關(guān)聯(lián)指標(biāo)進(jìn)行綜合,其中綜合的方式會(huì)有所不同,如將文獻(xiàn)標(biāo)題中的主題詞與參考文獻(xiàn)組合作為關(guān)聯(lián)指標(biāo),以及對(duì)文獻(xiàn)標(biāo)題與摘要中的主題詞和參考文獻(xiàn)一起進(jìn)行耦合分析。[3,11]本文擬對(duì)關(guān)聯(lián)指標(biāo)進(jìn)行綜合,綜合的方式是給出文獻(xiàn)關(guān)聯(lián)程度的多屬性描述以及相應(yīng)的綜合關(guān)聯(lián)程度,特別是利用邏輯回歸從樣本文獻(xiàn)中得到非樣本文獻(xiàn)之間的綜合關(guān)聯(lián)程度,并在此基礎(chǔ)上對(duì)結(jié)構(gòu)關(guān)系進(jìn)行探討。其中,對(duì)綜合關(guān)聯(lián)程度的考察包括指標(biāo)的選取、指標(biāo)合成方式的探討、綜合關(guān)聯(lián)程度的獲取流程以及對(duì)綜合關(guān)聯(lián)程度的合理性的衡量。
多指標(biāo)的納入,包括上述的對(duì)綜合關(guān)聯(lián)程度的考察,也會(huì)有助于對(duì)某一領(lǐng)域中各個(gè)專業(yè)方向的揭示。如在對(duì)文獻(xiàn)進(jìn)行共引分析后,分別考察引用每個(gè)聚類的文獻(xiàn)以及這些文獻(xiàn)的特征詞及其屬性。其中,對(duì)于某個(gè)聚類而言,可以考察引用該聚類的每篇文獻(xiàn)的詞特征集與引用該聚類的各篇文獻(xiàn)的詞特征集之間的相似度,由此建立對(duì)引用該聚類的各篇文獻(xiàn)的一致性的衡量,即類內(nèi)的一致性;對(duì)于不同的聚類而言,可以考察一個(gè)聚類的各篇文獻(xiàn)的詞特征集與另一個(gè)聚類的各篇文獻(xiàn)的詞特征集之間的相似度或差異,即類間的差異。進(jìn)一步根據(jù)各個(gè)聚類的類內(nèi)與類間的共引強(qiáng)度、每個(gè)聚類的類內(nèi)一致性、不同聚類的類間差異對(duì)某一領(lǐng)域中各個(gè)專業(yè)方向進(jìn)行更為有效的揭示。[12-14]按照上述過程,① 如果從文獻(xiàn)的綜合關(guān)聯(lián)程度出發(fā),那么從直觀上得到的聚類會(huì)更具有合理性。② 當(dāng)將某些聚類歸并為某個(gè)專業(yè)方向后,由于從直觀上所得的聚類會(huì)更為合理或者說得到的聚類與實(shí)際情況更為吻合,原有的某些在內(nèi)容上相似性相對(duì)較弱的文獻(xiàn)會(huì)被分離,這樣就會(huì)減少對(duì)專業(yè)方向進(jìn)行定性時(shí)的模糊性。此外,當(dāng)使用這些聚類文獻(xiàn)的詞特征集來表征專業(yè)方向的“當(dāng)前研究”時(shí),原有相似性相對(duì)較弱的文獻(xiàn)的分離會(huì)減少對(duì)“當(dāng)前研究”的擾動(dòng)。③ 由于類內(nèi)的一致性與類間的差異均是由引用各個(gè)聚類的文獻(xiàn)得到的,將各個(gè)聚類歸并為不同的專業(yè)方向時(shí),也能和實(shí)際情況更為吻合。納入多指標(biāo)之前,原有的聚類包含某些在內(nèi)容上相似性相對(duì)較弱的文獻(xiàn),這些文獻(xiàn)在所屬的聚類中可能并不合適,這樣對(duì)于原有的聚類以及在此基礎(chǔ)上類內(nèi)與類間的相似性,這兩種效應(yīng)的疊加會(huì)放大,導(dǎo)致專業(yè)方向與實(shí)際情況存在偏差。
在對(duì)指標(biāo)進(jìn)行選取時(shí),除了上述取值為絕對(duì)量的指標(biāo)之外,還需要將取值為相對(duì)量的指標(biāo)納入在內(nèi)。如,當(dāng)兩篇文獻(xiàn)的共引次數(shù)較低時(shí),如果只從共引次數(shù)來看,兩篇文獻(xiàn)的關(guān)聯(lián)程度可能并不高。但是,如果在一篇文獻(xiàn)被引用的同時(shí),另外一篇文獻(xiàn)也很有可能同時(shí)被引用,或者說兩篇文獻(xiàn)在被引用時(shí)往往同時(shí)被引用,那么此時(shí)盡管兩篇文獻(xiàn)的共引次數(shù)并不高,但這兩篇文獻(xiàn)的關(guān)聯(lián)程度卻有可能是較高的。因此,需要將兩篇文獻(xiàn)的共引次數(shù)與兩篇文獻(xiàn)的被引次數(shù)的比值考慮在內(nèi)。其中,被引次數(shù)是兩篇文獻(xiàn)的總被引次數(shù)與共引次數(shù)的差,該比值的分母是兩篇文獻(xiàn)的施引文獻(xiàn)的數(shù)量,分子是同時(shí)引用這兩篇文獻(xiàn)的施引文獻(xiàn)的數(shù)量,比值越高,說明這兩篇文獻(xiàn)被同時(shí)引用的可能越大,這兩篇文獻(xiàn)的關(guān)聯(lián)程度也會(huì)越高。該比值是被引次數(shù)的杰卡德指數(shù)。類似地,如果兩篇文獻(xiàn)共同引用的文獻(xiàn)占兩篇文獻(xiàn)所引用的全部文獻(xiàn)的比例較高,那么即使這兩篇文獻(xiàn)共同引用的文獻(xiàn)數(shù)量相對(duì)較少,也會(huì)由于這兩篇文獻(xiàn)所引用的文獻(xiàn)中相同文獻(xiàn)會(huì)具有較高的比例,或其中一篇文獻(xiàn)引用某篇文獻(xiàn)時(shí),另外一篇文獻(xiàn)也很有可能會(huì)引用該文獻(xiàn),這兩篇文獻(xiàn)也會(huì)具有一定的關(guān)聯(lián)性。因此,需要將兩篇文獻(xiàn)相同參考文獻(xiàn)的數(shù)量與兩篇文獻(xiàn)參考文獻(xiàn)的數(shù)量的比值考慮在內(nèi),其中,參考文獻(xiàn)的數(shù)量是兩篇文獻(xiàn)總參考文獻(xiàn)的數(shù)量與相同參考文獻(xiàn)的數(shù)量的差,或是兩篇文獻(xiàn)所引用的全部文獻(xiàn)的數(shù)量。該比值是關(guān)于參考文獻(xiàn)的杰卡德指數(shù)。
在得到綜合關(guān)聯(lián)程度的過程中,一種考慮是對(duì)各個(gè)關(guān)聯(lián)指標(biāo)直接進(jìn)行合成,這時(shí)需要對(duì)指標(biāo)之間的相關(guān)性進(jìn)行考察。如,選取上述的文獻(xiàn)關(guān)聯(lián)指標(biāo),在對(duì)指標(biāo)直接進(jìn)行綜合時(shí)要注意這些指標(biāo)并不完全獨(dú)立。當(dāng)文獻(xiàn)的共引次數(shù)相對(duì)較高時(shí),兩篇文獻(xiàn)在內(nèi)容上通常會(huì)有一定的關(guān)聯(lián)性,而這種關(guān)聯(lián)性在兩篇文獻(xiàn)的參考文獻(xiàn)中也會(huì)有所體現(xiàn),由此文獻(xiàn)的共引次數(shù)與相同的參考文獻(xiàn)的數(shù)量一般也會(huì)具有一定的相關(guān)性。這時(shí)在對(duì)指標(biāo)進(jìn)行合成時(shí)需要轉(zhuǎn)化為獨(dú)立變量,如對(duì)關(guān)聯(lián)指標(biāo)的主成分進(jìn)行考察,并由此嘗試對(duì)內(nèi)在的獨(dú)立變量進(jìn)行探討。由于每?jī)善墨I(xiàn)均有相應(yīng)的關(guān)聯(lián)指標(biāo)值與其相對(duì)應(yīng),在標(biāo)準(zhǔn)化后的指標(biāo)值的基礎(chǔ)上給出各個(gè)指標(biāo)之間的協(xié)方差,并進(jìn)一步地通過主成分分析,得到相應(yīng)的總方差解釋表以及成分矩陣,從而得到各個(gè)主成分與關(guān)聯(lián)指標(biāo)之間的關(guān)系式。當(dāng)各個(gè)主成分的含義從總體上判斷均具有正向性時(shí),每?jī)善墨I(xiàn)之間的關(guān)聯(lián)程度可以利用其各個(gè)主成分取值的直接求和來表示。
上述這種合成需要建立在對(duì)主成分的含義具有一定認(rèn)識(shí)的基礎(chǔ)上,盡管判斷主成分的含義可能具有一定的粗糙性,但是在有些情形中可以根據(jù)主成分的大致含義從總體上判斷該含義是否具有正向性。如果某個(gè)主成分的含義在總體上具有正向性,或者說當(dāng)與該含義對(duì)應(yīng)的變量取值增加并且與其余主成分含義對(duì)應(yīng)的變量的取值均保持不變時(shí),文獻(xiàn)之間的關(guān)聯(lián)程度的期望值會(huì)增加。由于各個(gè)主成分的含義具有獨(dú)立性,從線性回歸的角度來看,當(dāng)各個(gè)主成分的含義在總體上均具有正向性的情形下,與各個(gè)主成分含義對(duì)應(yīng)的變量均具有正的總體回歸系數(shù)。因此,可以通過與主成分含義對(duì)應(yīng)的變量的直接求和來近似回歸函數(shù)。當(dāng)各個(gè)主成分的取值給定時(shí),可以用此時(shí)的關(guān)聯(lián)程度的期望值對(duì)此時(shí)的總體中的個(gè)體關(guān)聯(lián)程度進(jìn)行近似,由此每?jī)善墨I(xiàn)之間的關(guān)聯(lián)程度可以利用其各個(gè)主成分取值的直接求和來進(jìn)行近似。需要指出的是,上述正向性是與主成分含義對(duì)應(yīng)的變量,或者所選取的關(guān)聯(lián)指標(biāo)對(duì)于關(guān)聯(lián)程度的描述并不全面,文獻(xiàn)之間的關(guān)聯(lián)程度也并不確定。
首先,選取樣本文獻(xiàn),由專家對(duì)文獻(xiàn)之間的關(guān)聯(lián)程度進(jìn)行判斷并給出相應(yīng)的關(guān)聯(lián)等級(jí)。關(guān)聯(lián)程度只由專家給出判斷的原因是精確給出兩篇文獻(xiàn)之間的關(guān)聯(lián)程度是較為困難的,而給出大致范圍反而有可能會(huì)使得文獻(xiàn)之間的相似性以及結(jié)構(gòu)關(guān)系的揭示更具有合理性,同時(shí)也更具有操作性。其次,分別獲取每?jī)善墨I(xiàn)之間的各個(gè)關(guān)聯(lián)指標(biāo)的取值。由于每?jī)善墨I(xiàn)均有關(guān)聯(lián)指標(biāo)值以及專家判斷的關(guān)聯(lián)等級(jí)與其相對(duì)應(yīng),并且兩者具有一定的相關(guān)性,由此在考慮關(guān)聯(lián)指標(biāo)值和專家判斷的關(guān)聯(lián)等級(jí)的基礎(chǔ)上,可通過兩者之間的邏輯回歸,即可給出給定文獻(xiàn)之間的關(guān)聯(lián)程度處于各個(gè)關(guān)聯(lián)等級(jí)上的可能性。這兩篇文獻(xiàn)可以是樣本文獻(xiàn),也可以是非樣本文獻(xiàn)。對(duì)于樣本文獻(xiàn)而言,可以通過考察兩篇文獻(xiàn)位于各個(gè)關(guān)聯(lián)等級(jí)上的可能性與專家判斷等級(jí)之間的一致性來檢驗(yàn)回歸結(jié)果的合理性以及有效性。由于通過人工判斷關(guān)聯(lián)程度的只是部分文獻(xiàn),可以利用由樣本文獻(xiàn)得到的回歸關(guān)系來估計(jì)兩篇非樣本文獻(xiàn)的關(guān)聯(lián)程度處于各個(gè)關(guān)聯(lián)等級(jí)上的概率,進(jìn)而通過對(duì)各個(gè)關(guān)聯(lián)等級(jí)賦予一定的關(guān)聯(lián)分值而得到兩篇非樣本文獻(xiàn)之間的關(guān)聯(lián)程度的期望分值,并由此對(duì)文獻(xiàn)之間的關(guān)聯(lián)程度進(jìn)行近似。在上述過程中,得到的回歸關(guān)系是對(duì)關(guān)聯(lián)指標(biāo)的合成。① 自變量的觀測(cè)值之間可能會(huì)具有近似的線性相關(guān)性,如果此時(shí)將回歸關(guān)系用于預(yù)報(bào),還需要盡可能消除這種共線性的影響。②在樣本資料中,樣本文獻(xiàn)之間的關(guān)聯(lián)等級(jí)是由判斷主體決定的,因而這些參數(shù)的估計(jì)值仍然會(huì)受到判斷主體的影響,但是其優(yōu)勢(shì)是不需要判斷主體直接參與到指標(biāo)的合成過程中,而是轉(zhuǎn)變?yōu)閷?duì)樣本文獻(xiàn)關(guān)聯(lián)程度的判斷,相比之下,在有些情形中對(duì)文獻(xiàn)之間的關(guān)聯(lián)程度進(jìn)行判斷可能會(huì)更具有可操作性。③盡管在確定關(guān)聯(lián)等級(jí)的關(guān)聯(lián)分值時(shí)會(huì)有主觀的因素,但是這與指標(biāo)的合成是沒有關(guān)系的。
選取樣本。① 樣本文獻(xiàn)的各個(gè)指標(biāo)的取值能夠涵蓋相應(yīng)指標(biāo)的實(shí)際取值范圍,這是由于當(dāng)非樣本文獻(xiàn)的關(guān)聯(lián)指標(biāo)值沒有落在樣本關(guān)聯(lián)指標(biāo)的取值范圍內(nèi)時(shí),對(duì)回歸方程進(jìn)行外推可能會(huì)具有較大的誤差。②選取的樣本文獻(xiàn)需要屬于同一學(xué)科領(lǐng)域,使得關(guān)聯(lián)指標(biāo)的取值具有可比性。③ 在選取樣本時(shí),不同的樣本會(huì)形成不同的檢驗(yàn)結(jié)果及估計(jì),當(dāng)樣本中的個(gè)別文獻(xiàn)具有某種特殊性時(shí),如文獻(xiàn)的關(guān)聯(lián)等級(jí)與其某些關(guān)聯(lián)指標(biāo)的相關(guān)性偏弱,這時(shí)在利用該樣本進(jìn)行回歸時(shí),可能會(huì)使解釋變量的影響并不顯著,由此需要在回歸模型中剔除這些自變量。但是這里認(rèn)為包含全部關(guān)聯(lián)指標(biāo)的回歸模型是正確的,當(dāng)利用剩余變量建立模型時(shí),得到的估計(jì)以及預(yù)報(bào)就可能是有偏差的,而對(duì)于該情形預(yù)報(bào)偏差的方差以及總的預(yù)報(bào)效果如何還需要做進(jìn)一步的探討。因此選取的樣本應(yīng)盡可能地具有一般性,如它能夠反映直觀認(rèn)識(shí)中的各個(gè)關(guān)聯(lián)指標(biāo)與關(guān)聯(lián)程度之間的相關(guān)性,當(dāng)利用全部關(guān)聯(lián)指標(biāo)建立回歸模型時(shí),使解釋變量的影響可能會(huì)具有顯著性。如果解釋變量均具有顯著性,此時(shí)的回歸模型可以考慮作為最終建立的模型;而當(dāng)模型的共線性偏弱或近似沒有共線性時(shí),也可以得到相應(yīng)的預(yù)報(bào)概率及其置信區(qū)間。[15]
從直觀上會(huì)有以下的認(rèn)識(shí):首先,對(duì)于各個(gè)關(guān)聯(lián)指標(biāo)而言,文獻(xiàn)之間關(guān)聯(lián)指標(biāo)取值相對(duì)較低的情況比例會(huì)相對(duì)較高,而關(guān)聯(lián)指標(biāo)取值相對(duì)較高的情況占比則會(huì)相對(duì)較低;其次,文獻(xiàn)之間的關(guān)聯(lián)程度也會(huì)有類似的情形,樣本的等級(jí)變量的分布偏重于其較低的取值區(qū)域,同時(shí)這種分布也需要與樣本關(guān)聯(lián)指標(biāo)取值的分布具有一致性,這里認(rèn)為選取的關(guān)聯(lián)指標(biāo)與關(guān)聯(lián)程度之間從直觀上會(huì)具有相關(guān)性;第三,當(dāng)共引次數(shù)減小時(shí),文獻(xiàn)之間的關(guān)聯(lián)程度會(huì)有減小的趨勢(shì),文獻(xiàn)之間相同參考文獻(xiàn)的數(shù)量也會(huì)減小,共引次數(shù)與相同的參考文獻(xiàn)數(shù)具有一定的一致性。選取的樣本文獻(xiàn)需要符合上述的直觀認(rèn)識(shí),目的是使得選取的樣本能夠具有一般性,樣本的性質(zhì)需要與對(duì)總體性質(zhì)的直觀認(rèn)識(shí)相一致,從而使得指標(biāo)的取值不會(huì)側(cè)重于某些方面。
在上述考慮的基礎(chǔ)上,可對(duì)指標(biāo)合成過程的合理性進(jìn)行初步的考察,如可以構(gòu)造各個(gè)關(guān)聯(lián)指標(biāo)的取值以及相應(yīng)的關(guān)聯(lián)等級(jí),使其滿足上述的選取要求。在圖1 中,橫軸是每?jī)善墨I(xiàn)的編號(hào),縱軸是每?jī)善墨I(xiàn)之間各個(gè)關(guān)聯(lián)指標(biāo)值以及這兩篇文獻(xiàn)的關(guān)聯(lián)等級(jí)。其中,每?jī)善墨I(xiàn)的關(guān)聯(lián)指標(biāo)從左至右分別為文獻(xiàn)的共引次數(shù)、相同的參考文獻(xiàn)數(shù)量、相同的作者數(shù)量以及相同的關(guān)鍵詞數(shù)量,最右方為兩篇文獻(xiàn)的關(guān)聯(lián)等級(jí)。這里將關(guān)聯(lián)程度分為五個(gè)等級(jí),等級(jí)越高表示兩篇文獻(xiàn)之間的關(guān)聯(lián)性越強(qiáng)。
圖1 構(gòu)造的樣本文獻(xiàn)
由于上述關(guān)聯(lián)指標(biāo)從直觀上會(huì)具有一定的相關(guān)性,在對(duì)樣本文獻(xiàn)進(jìn)行回歸時(shí)需要對(duì)自變量的共線性進(jìn)行考察。① 選取相應(yīng)的準(zhǔn)則來對(duì)模型以及自變量的共線性進(jìn)行判斷。② 如果存在中等或較強(qiáng)的共線性,那么可以考慮通過主成分回歸來消除共線性。其中主成分選取為相應(yīng)特征值的累計(jì)和達(dá)到特征值總和的85%時(shí)的各個(gè)主成分,由于很小的特征值在特征值總和中的占比很小,會(huì)被剔除,經(jīng)驗(yàn)回歸方程的信息損失也在可以接受的范圍內(nèi)。另外,選取主成分回歸的原因是希望在模型中保留所有的自變量。③ 如果共線性偏弱或者不存在共線性,那么可以考慮直接對(duì)原有自變量進(jìn)行回歸。
對(duì)圖1 中的樣本文獻(xiàn),XTX 的特征值分別為1.811、1.006、0.833、0.351,其中X 為樣本矩陣,最大特征值與最小特征值的比值僅為5.160,從條件數(shù)的角度來看,模型的共線性偏弱或者可以近似為沒有共線性。將圖1 中的自變量取值標(biāo)準(zhǔn)化后,通過Spss能夠得到每個(gè)自變量與其余自變量之間的復(fù)相關(guān)系數(shù),并可以得到相應(yīng)的方差擴(kuò)大因子分別為1.825、1.240、1.019、1.514,其中最大值沒有超過經(jīng)驗(yàn)標(biāo)準(zhǔn),從方差擴(kuò)大因子的角度來看,模型也不存在中等或較強(qiáng)的共線性,同時(shí)各個(gè)自變量也可近似為不包含在某些共線關(guān)系中,由此可直接對(duì)原有的自變量建立回歸模型。
利用Spss 對(duì)圖1 中的文獻(xiàn)關(guān)聯(lián)指標(biāo)與文獻(xiàn)之間的關(guān)聯(lián)等級(jí)進(jìn)行回歸,對(duì)參數(shù)向量的檢驗(yàn)結(jié)果顯示:在0.05 水平下所選取的關(guān)聯(lián)指標(biāo)在整體上的影響是顯著的。各個(gè)自變量相應(yīng)的p 值分別為0.0032、0.0652、0.0432、0.0741,盡管在0.05 水平下相同的參考文獻(xiàn)數(shù)量以及關(guān)鍵詞數(shù)量并不顯著,但是由于其p 值很小,故在模型中仍然保留這兩個(gè)變量。由樣本文獻(xiàn)能夠得到參數(shù)的估計(jì)以及相應(yīng)的經(jīng)驗(yàn)回歸方程,在經(jīng)驗(yàn)回歸方程的基礎(chǔ)上可以給出文獻(xiàn)之間的關(guān)聯(lián)程度處于各個(gè)等級(jí)上的預(yù)報(bào)概率,由此可以考察樣本關(guān)聯(lián)程度的預(yù)報(bào)結(jié)果與樣本實(shí)際關(guān)聯(lián)程度的一致性。對(duì)于構(gòu)造的樣本文獻(xiàn),預(yù)報(bào)與觀測(cè)的一致比能夠達(dá)到89.9%。進(jìn)一步地對(duì)關(guān)聯(lián)分值的合理性進(jìn)行檢驗(yàn)。
(1)構(gòu)造非樣本文獻(xiàn),使文獻(xiàn)的共引次數(shù)增加,并固定其余的關(guān)聯(lián)指標(biāo)的取值,這樣從直觀上文獻(xiàn)之間的關(guān)聯(lián)程度應(yīng)當(dāng)會(huì)有增加的趨勢(shì)。圖2 中的橫軸是文獻(xiàn)的共引次數(shù),縱軸是樣本文獻(xiàn)關(guān)聯(lián)程度的期望分值,將共引次數(shù)由2 調(diào)整至17,其余的關(guān)聯(lián)指標(biāo)均取為1。由經(jīng)驗(yàn)回歸方程得到非樣本文獻(xiàn)的關(guān)聯(lián)程度處于各個(gè)關(guān)聯(lián)等級(jí)上的預(yù)報(bào)概率以及相應(yīng)的關(guān)聯(lián)程度的期望分值,對(duì)各個(gè)關(guān)聯(lián)等級(jí)賦予的關(guān)聯(lián)分值分別為1 至5 分。類似地可以對(duì)相同的參考文獻(xiàn)數(shù)量、相同的作者數(shù)量以及相同的關(guān)鍵詞數(shù)量分別進(jìn)行調(diào)整,在調(diào)整的同時(shí)保持其余關(guān)聯(lián)指標(biāo)的取值不變,由于這些指標(biāo)都是關(guān)聯(lián)程度的正向指標(biāo),當(dāng)單獨(dú)增加某個(gè)指標(biāo)的取值時(shí),文獻(xiàn)之間的關(guān)聯(lián)程度均會(huì)有增加的趨勢(shì)。首先,在圖2 中將相同的參考文獻(xiàn)數(shù)量由2 調(diào)整至10,共引次數(shù)、相同的作者數(shù)量以及相同的關(guān)鍵詞數(shù)量分別取為3、1、2。其次,將相同的作者數(shù)量由0 調(diào)整至2,共引次數(shù)、相同的參考文獻(xiàn)數(shù)量、相同的關(guān)鍵詞數(shù)量分別取為4、5、2。最后,將相同的關(guān)鍵詞數(shù)量由1 調(diào)整至4,共引次數(shù)、相同的參考文獻(xiàn)數(shù)量、相同的作者數(shù)量分別取為3、5、1。圖2 的橫軸分別為需要調(diào)整的關(guān)聯(lián)指標(biāo)的取值,需要指出的是,上述其余指標(biāo)的取值具有隨意性。
由圖2 可知,當(dāng)單獨(dú)增加某個(gè)指標(biāo)的取值時(shí)得到的關(guān)聯(lián)分值均會(huì)有增加的趨勢(shì)。但可能會(huì)存在這樣的情形:在共引次數(shù)較高的區(qū)域,隨著共引次數(shù)的增加關(guān)聯(lián)分值的差異可能會(huì)具有減小的趨勢(shì),而這與實(shí)際情況并不相符。究其原因是關(guān)聯(lián)程度的期望分值等于各個(gè)關(guān)聯(lián)等級(jí)的關(guān)聯(lián)分值的加權(quán)求和,其中權(quán)重是文獻(xiàn)的關(guān)聯(lián)程度處于各個(gè)關(guān)聯(lián)等級(jí)上的概率,關(guān)聯(lián)程度處于各個(gè)等級(jí)上的概率之和等于1,所以期望分值的最大值等于各個(gè)關(guān)聯(lián)等級(jí)的關(guān)聯(lián)分值的最大值。當(dāng)共引次數(shù)增加時(shí),期望分值會(huì)有增加的趨勢(shì),只有當(dāng)共引次數(shù)增加時(shí)期望分值的增長(zhǎng)具有變緩的趨勢(shì),才能使得期望分值不會(huì)超過其最大值,或者說隨著共引次數(shù)的增加,關(guān)聯(lián)分值的差異會(huì)有減小的趨勢(shì)。對(duì)于該情形,改進(jìn)的方式是增加關(guān)聯(lián)等級(jí)的數(shù)量,其目的是使得專家在給出等級(jí)時(shí)能夠不受關(guān)聯(lián)等級(jí)數(shù)量的限制,畢竟從直觀上當(dāng)共引次數(shù)增加時(shí)關(guān)聯(lián)等級(jí)的差異也會(huì)有增加的趨勢(shì)。這樣在樣本文獻(xiàn)的基礎(chǔ)上利用回歸方程進(jìn)行預(yù)報(bào)時(shí),對(duì)于非樣本文獻(xiàn)最有可能處于的關(guān)聯(lián)等級(jí)而言,隨著共引次數(shù)的增加,該類等級(jí)的差異也可能會(huì)具有增加的趨勢(shì)。如果此時(shí)仍然賦予各個(gè)關(guān)聯(lián)等級(jí)的分值為等差增長(zhǎng),那么當(dāng)共引次數(shù)增加時(shí),非樣本文獻(xiàn)的期望分值就有可能會(huì)有被拉開的趨勢(shì)。同時(shí)對(duì)樣本文獻(xiàn)而言,由于關(guān)聯(lián)程度的預(yù)報(bào)結(jié)果與其實(shí)際關(guān)聯(lián)程度之間具有一致性,當(dāng)共引次數(shù)增加時(shí),樣本文獻(xiàn)所處的關(guān)聯(lián)等級(jí)也可能會(huì)有被拉開的趨勢(shì),從而樣本文獻(xiàn)期望分值的差異也可能會(huì)增加。
需要指出的是,上述這種改進(jìn)方式是建立在設(shè)定較多的關(guān)聯(lián)等級(jí)的基礎(chǔ)上,而如果關(guān)聯(lián)等級(jí)較多,在確定樣本文獻(xiàn)所處的關(guān)聯(lián)等級(jí)時(shí)會(huì)涉及到與其余樣本文獻(xiàn)關(guān)聯(lián)程度的相互比較,當(dāng)被比較的對(duì)象超過一定的數(shù)量時(shí),人工判斷會(huì)喪失一定的準(zhǔn)確性;[16]而當(dāng)關(guān)聯(lián)等級(jí)較少時(shí),等級(jí)劃分的粗糙性反而會(huì)使得很多原本需要相互比較的情形變得沒有必要。
(2)與相同的關(guān)鍵詞數(shù)相比,通常共引次數(shù)對(duì)文獻(xiàn)的關(guān)聯(lián)程度影響更為重要。當(dāng)其余指標(biāo)的取值相同時(shí),與共引次數(shù)偏高且相同的關(guān)鍵詞數(shù)量偏低的情形相比,共引次數(shù)偏低且相同關(guān)鍵詞數(shù)量偏高的情形在整體上可能會(huì)具有相對(duì)較低的文獻(xiàn)關(guān)聯(lián)程度。在圖3中,橫軸是每?jī)善墨I(xiàn)的編號(hào),縱軸是每?jī)善墨I(xiàn)的關(guān)聯(lián)程度的期望分值。圖的上方區(qū)域是將共引次數(shù)、相同的關(guān)鍵詞數(shù)量分別取為13、1 時(shí)的情形,此時(shí)期望分值的平均值為4.516;圖的下方區(qū)域是將相同的關(guān)鍵詞數(shù)量和共引次數(shù)分別取為4、3,此時(shí)的期望分值的平均值為3.516。在這兩種情形中相同的參考文獻(xiàn)數(shù)量、相同的作者數(shù)量分別取2 至10、0 至2,并且將關(guān)聯(lián)等級(jí)仍然設(shè)定為五個(gè)等級(jí)。
圖2 某關(guān)聯(lián)指標(biāo)增加且其余關(guān)聯(lián)指標(biāo)不變時(shí)的關(guān)聯(lián)分值的變化情況
圖3 共引次數(shù)與相同的關(guān)鍵詞數(shù)量不變且其余的關(guān)聯(lián)指標(biāo)增加時(shí)的關(guān)聯(lián)分值的變化情況
概率型綜合關(guān)聯(lián)程度的指標(biāo)合成方式有如下特點(diǎn)。① 回歸關(guān)系是對(duì)關(guān)聯(lián)指標(biāo)的合成,判斷主體沒有直接參與到指標(biāo)的合成過程中,而是轉(zhuǎn)化為對(duì)樣本文獻(xiàn)關(guān)聯(lián)程度進(jìn)行判斷,樣本的關(guān)聯(lián)等級(jí)取決于判斷主體。② 當(dāng)某一關(guān)聯(lián)指標(biāo)的取值為零時(shí),兩篇文獻(xiàn)關(guān)聯(lián)程度的期望分值可能并不會(huì)為零,因而這兩篇文獻(xiàn)仍然可以納入到后續(xù)的文獻(xiàn)結(jié)構(gòu)分析中,這也是多指標(biāo)情形下文獻(xiàn)關(guān)聯(lián)程度的特點(diǎn)。③ 由于通過人工對(duì)關(guān)聯(lián)程度進(jìn)行判斷需要一個(gè)過程,樣本中的文獻(xiàn)數(shù)量可以逐步增加,隨著樣本容量的增加其性質(zhì)也會(huì)趨向于總體的性質(zhì)。此外,可以對(duì)已建立的樣本資料中的文獻(xiàn)關(guān)聯(lián)等級(jí)進(jìn)行調(diào)整,因?yàn)殡S著某學(xué)科領(lǐng)域的發(fā)展,人們對(duì)文獻(xiàn)之間關(guān)聯(lián)程度的認(rèn)識(shí)也會(huì)發(fā)生變化。
圖4 中的樣本是按照上述的樣本選取要求。在圖4 中,橫軸為每?jī)善墨I(xiàn)的編號(hào),縱軸是每?jī)善墨I(xiàn)的各個(gè)關(guān)聯(lián)指標(biāo)值以及這兩篇文獻(xiàn)的關(guān)聯(lián)等級(jí)。其中,關(guān)聯(lián)指標(biāo)從左至右分別為兩篇文獻(xiàn)的共引次數(shù)、相同的參考文獻(xiàn)數(shù)量、相同的作者數(shù)量、相同的關(guān)鍵詞數(shù)量、被引次數(shù)的杰卡德指數(shù)、參考文獻(xiàn)的杰卡德指數(shù)以及兩篇文獻(xiàn)的關(guān)聯(lián)等級(jí)。關(guān)聯(lián)等級(jí)仍然取1 至5 五個(gè)等級(jí)。要使樣本文獻(xiàn)的關(guān)聯(lián)指標(biāo)值具有可比性,對(duì)于共引次數(shù)而言,由于不同的文獻(xiàn)具有不同的出版時(shí)間,為了消除該因素對(duì)文獻(xiàn)的被引次數(shù)以及對(duì)文獻(xiàn)之間共引次數(shù)的可比性的影響,可以選取足夠長(zhǎng)的考察時(shí)段,如取考察時(shí)段的長(zhǎng)度遠(yuǎn)大于被考察學(xué)科領(lǐng)域文獻(xiàn)的被引半衰期,以至于在該考察時(shí)段內(nèi)文獻(xiàn)的被引次數(shù)近似等于文獻(xiàn)的總被引次數(shù),而不同文獻(xiàn)的總被引次數(shù)之間會(huì)具有可比性,從而在該考察時(shí)段內(nèi)的文獻(xiàn)的被引次數(shù)以及文獻(xiàn)之間的共引次數(shù)也相應(yīng)地會(huì)具有一定的可比性。對(duì)于參考文獻(xiàn)的數(shù)量而言,隨著被考察學(xué)科領(lǐng)域的演變,該領(lǐng)域的文獻(xiàn)規(guī)模以及每篇文獻(xiàn)參考文獻(xiàn)的規(guī)模會(huì)發(fā)生變化,處于學(xué)科不同發(fā)展階段的文獻(xiàn),其參考文獻(xiàn)的數(shù)量也會(huì)因?yàn)閷W(xué)科演變階段的不同而有可能不能直接比較,或者說學(xué)科演變階段的不同可能會(huì)對(duì)其參考文獻(xiàn)數(shù)量的可比性帶來影響。對(duì)于該影響,如果兩篇文獻(xiàn)的出版時(shí)間間隔大于所屬學(xué)科領(lǐng)域文獻(xiàn)的引用半衰期,那么對(duì)于其中出版時(shí)間較晚的文獻(xiàn)而言,從其出版時(shí)間往前的時(shí)間長(zhǎng)度為引用半衰期,這個(gè)時(shí)間段內(nèi)的參考文獻(xiàn)的數(shù)量能夠近似等于這篇文獻(xiàn)總的參考文獻(xiàn)的數(shù)量,能夠近似認(rèn)為這兩篇文獻(xiàn)的參考文獻(xiàn)處于不同的出版時(shí)段。當(dāng)這兩個(gè)出版時(shí)段內(nèi)的文獻(xiàn)規(guī)模以及參考文獻(xiàn)的規(guī)模存在差異時(shí),就可能不能對(duì)這兩篇文獻(xiàn)的參考文獻(xiàn)的數(shù)量直接進(jìn)行比較。相反如果這兩篇文獻(xiàn)的出版時(shí)間的差異小于引用半衰期,那么這兩篇文獻(xiàn)的參考文獻(xiàn)的出版時(shí)段會(huì)有一定的重疊,而重疊時(shí)段內(nèi)的參考文獻(xiàn)的數(shù)量會(huì)具有可比性。如果使得重疊時(shí)段足夠長(zhǎng)或者可以接受,那么這兩篇文獻(xiàn)的參考文獻(xiàn)的數(shù)量也會(huì)具有一定的可比性,或者說能夠在一定程度上避免由學(xué)科演變所帶來的對(duì)參考文獻(xiàn)數(shù)量的可比性的影響。因此圖4中,對(duì)樣本文獻(xiàn)的選取還需要建立在文獻(xiàn)服從一般意義上的老化規(guī)律以及對(duì)文獻(xiàn)的引用具有半衰期性質(zhì)的基礎(chǔ)上,其中將學(xué)科領(lǐng)域選取為圖書情報(bào)領(lǐng)域,被引半衰期以及引用半衰期均近似取為5 年。[17]根據(jù)對(duì)共引次數(shù)以及對(duì)參考文獻(xiàn)的數(shù)量的可比性要求,樣本文獻(xiàn)的選取范圍為2009 年至2010 年出版的圖書情報(bào)類文獻(xiàn),統(tǒng)計(jì)時(shí)間為2018 年3 月,數(shù)據(jù)來源于中國(guó)知網(wǎng)。
圖4 選取的樣本文獻(xiàn)
因此,期望對(duì)不同指標(biāo)合成方式下的文獻(xiàn)結(jié)構(gòu)進(jìn)行比較。①由于在概率型綜合關(guān)聯(lián)程度的指標(biāo)合成方式中是通過樣本文獻(xiàn)的關(guān)聯(lián)程度對(duì)非樣本文獻(xiàn)的關(guān)聯(lián)程度進(jìn)行預(yù)報(bào),對(duì)結(jié)構(gòu)進(jìn)行比較時(shí),統(tǒng)一將非樣本文獻(xiàn)作為考察對(duì)象。② 在選取非樣本文獻(xiàn)時(shí),由于非樣本文獻(xiàn)的關(guān)聯(lián)指標(biāo)值要具有可比性,非樣本文獻(xiàn)不僅要屬于同一學(xué)科領(lǐng)域,而且要設(shè)定非樣本文獻(xiàn)的出版時(shí)間,才能使共引次數(shù)以及參考文獻(xiàn)的數(shù)量能夠進(jìn)行比較。同時(shí),當(dāng)通過文獻(xiàn)結(jié)構(gòu)的比較來對(duì)得到的關(guān)聯(lián)程度的合理性進(jìn)行考察時(shí),非樣本文獻(xiàn)的選取還要使得由不同關(guān)聯(lián)程度得到的文獻(xiàn)結(jié)構(gòu)能夠有所差異,這樣才能夠?qū)Φ玫降奈墨I(xiàn)結(jié)構(gòu)的合理性進(jìn)行比較。③ 對(duì)非樣本文獻(xiàn)進(jìn)行選取后,可以在此基礎(chǔ)上對(duì)文獻(xiàn)的結(jié)構(gòu)進(jìn)行考察,文獻(xiàn)關(guān)聯(lián)程度可以分別按照以下四種情形來確定,即對(duì)關(guān)聯(lián)指標(biāo)的直接合成、概率型綜合關(guān)聯(lián)程度、只考慮共引次數(shù)的情形以及由專家對(duì)非樣本文獻(xiàn)的關(guān)聯(lián)程度進(jìn)行判斷的情形。④ 這里將上述第四種情形作為標(biāo)準(zhǔn),對(duì)前兩種多指標(biāo)情形以及第三種單指標(biāo)情形下的文獻(xiàn)結(jié)構(gòu)關(guān)系的合理性分別進(jìn)行考察。