郭 強,趙 瑾(.鄭州大學信息管理學院;.中國人民解放軍陸軍軍官學院軍事運籌教研室)
文獻的共引次數(shù)與文獻之間的關聯(lián)程度具有較好的正相關性,因而可以利用共引次數(shù)對文獻的關聯(lián)程度進行表示,并在此基礎上對結構關系進行探討,從共引次數(shù)可以拓展至其他的文獻關聯(lián)指標,[1-4]由此會涉及到關聯(lián)程度的多指標情形,如對研究前沿的探測。已有的研究包括利用不同的關聯(lián)指標得到不同的探測方法,以及對不同探測方法的有效性的比較。[3-8]目的是使對結構關系以及研究前沿的揭示能夠更具有有效性和針對性。多指標的納入會使對關聯(lián)程度的描述更全面,可以考慮將分別建立在不同關聯(lián)指標上的文獻結構以及探測結果進行綜合考量,也可以考慮先對不同的關聯(lián)指標進行綜合,其中綜合的方式有所不同。[3,9]本研究先對關聯(lián)指標進行綜合,綜合的方式是給出關聯(lián)程度的多屬性描述以及相應的綜合關聯(lián)程度,并在綜合關聯(lián)程度的基礎上對結構關系進行探討。
此外,多指標的納入和對綜合關聯(lián)程度的考察,會有助于對某一領域的專業(yè)方向的揭示,包括聚類關系的合理性以及對專業(yè)方向的定性。
對綜合關聯(lián)程度的考察包括指標的選取、指標合成方式的探討、綜合關聯(lián)程度的獲取流程以及對綜合關聯(lián)程度的合理性的衡量。
在對關聯(lián)指標直接合成的情形下,對于選取的非樣本文獻而言,指標之間相關系數(shù)的絕對值的最大值僅為0.520,絕對值小于0.5 的情形具有相對較高的比例。盡管能夠通過巴特萊檢驗,但是KMO 值僅為0.513,說明對指標直接合成時沒有將原始指標轉化為相應的獨立變量。由于原始指標均具有正向性,對于此時的非樣本文獻,當某個原始指標增加且其余指標保持不變時,文獻的關聯(lián)程度會有增加的趨勢。又由于此時的原始指標之間具有較弱的樣本相關性,擬合方程可以近似為原始指標的直接求和,其中的擬合值可以作為非樣本文獻關聯(lián)程度的近似值。
當非樣本文獻調整時,確定關聯(lián)程度的過程也會有改變。對于選取的非樣本文獻而言,如果指標之間具有較強的相關性,那么在指標合成時需要將原始指標轉化為相應的獨立變量,此時可以考察指標的主成分。首先,當確定主成分的大致含義并且從總體上判斷各個主成分的含義均具有正向性時,得到的主成分及其含義反映的是非樣本文獻的性質。而在對主成分與關聯(lián)程度的關系進行考察時,通常需要借助得到的主成分的含義,并從總體上進行判斷,這樣在該過程中主成分的含義應該是樣本意義上的概念。而對主成分的含義從總體上進行判斷,由此得到的正向性則為總體上的概念。對于樣本或非樣本文獻而言,當某個主成分增加且其余主成分保持不變時,文獻的關聯(lián)程度會有增加的趨勢,又由于得到的主成分之間具有獨立性,此時的擬合方程可以近似為對主成分的直接求和,擬合值可以作為對非樣本文獻關聯(lián)程度的近似。其次,當確定了主成分的大致含義,但是主成分的含義從總體上與關聯(lián)程度之間的正向性或負向性并不顯著時,需要考慮兩者的非線性關系。如果能夠明確兩者的非線性關系,那么可以確定或近似相應的擬合方程,非樣本文獻的關聯(lián)程度可以用擬合值近似;如果不能完全確定兩者的非線性關系,由于非樣本文獻的實際關聯(lián)程度是未知的,需要判斷主成分的大致含義及其在總體上與關聯(lián)程度之間的關系,由此來近似非樣本文獻的主成分取值與非樣本文獻的關聯(lián)程度的關系。當對非樣本文獻建立擬合方程時,主成分含義在總體上與關聯(lián)程度之間非線性關系的不明確會對方程的確定或近似帶來影響。在該情形下可以考察非樣本文獻的概率型綜合關聯(lián)程度。第三,當主成分的大致含義尚無法確定時,可以通過正交旋轉使新生成的因子更具有可解釋性。在此基礎上如果能夠確定生成因子的大致含義,則根據因子含義從總體上判斷具有正向性并轉入上述第一步中,否則轉入第二步;如果生成因子的大致含義仍然無法確定,可以轉入非樣本文獻的概率型綜合關聯(lián)程度。
對于所選取的非樣本文獻而言,在旋轉后的成分矩陣中,不同的原始變量只與不同的因子具有較好的相關性,且每個原始變量在相應因子上的載荷均大于0.9,同時在其余因子上的載荷的最大值僅為0.278。由于采用的是正交旋轉,載荷可以反映原始變量與因子的相關性,此時原始變量相互之間呈現(xiàn)弱相關,這和上述對非樣本文獻的考察結果是一致的。另外,在對指標直接合成的情形下,同樣的兩篇文獻,如果屬于兩組不同的非樣本文獻,由于在上述過程中關聯(lián)程度的近似值是取決于所屬非樣本文獻的性質的,那么得到的關聯(lián)程度的近似值可能也會有所不同。
在概率型綜合關聯(lián)程度的情形下,需要考察自變量的共線性。對于文獻《基于多指標的文獻關聯(lián)程度研究:指標的合成》圖4 中的樣本文獻,XTX 的特征值分別為1.706、1.502、1.027、0.942、0.589、0.233,最大特征值與最小特征值的比值為7.322,從條件數(shù)的角度來看模型的共線性偏弱或可以近似為沒有共線性。此外,每個自變量與其余自變量的復相關系數(shù)以及相應的方差擴大因子分別為1.957、1.916、1.357、1.107、1.164、1.770,其中最大值也沒有超過經驗標準,從方差擴大因子的角度來看,模型不存在中等或較強的共線性,各個自變量近似為不包含在某些共線關系中,這樣可以對原有的自變量直接建立模型。利用Spss 對文獻《基于多指標的文獻關聯(lián)程度研究:指標的合成》 圖4 中的文獻關聯(lián)指標與文獻之間的關聯(lián)等級進行邏輯回歸,參數(shù)向量的檢驗結果顯示:在0.05 水平下所選取的關聯(lián)指標在整體上的影響是顯著的,并且各個自變量相應的p 值均小于0.05。由樣本文獻得到參數(shù)的估計以及相應的經驗回歸方程,其中截距的估計值分別為7.8206、11.2747、16.6736、23.0218,其余參數(shù)的估計值分別為-0.9539、-0.6533、-1.2947、-1.5590、-11.8506、-5.4366,這些參數(shù)的估計值均為負數(shù),這是由于選取的指標均具有正向性,當某個自變量增加且其余的自變量保持不變時,兩篇文獻的關聯(lián)程度處于某個關聯(lián)等級的概率與處于高于該關聯(lián)等級上的概率的比值會有減小的趨勢。
在經驗回歸方程的基礎上給出文獻之間的關聯(lián)程度處于各個關聯(lián)等級上的預報概率,由此可以考察樣本關聯(lián)程度的預報結果與樣本實際關聯(lián)程度的一致性。對于文獻《基于多指標的文獻關聯(lián)程度研究:指標的合成》圖4 中的樣本文獻,預報與觀測的一致比能夠達到94.2%,這是由于以下幾點。①圖4 中的樣本文獻是在滿足樣本文獻選取要求,并對初步選取后的文獻進行調整得到的,在調整時仍需要滿足樣本文獻的選取要求,其目的是使自變量的影響均是顯著的,并由此可以按照傳統(tǒng)的過程得到相應的預報概率及其置信區(qū)間。[10]否則將影響所形成的模型和估計,畢竟在這里認為關聯(lián)程度和所選取的自變量在總體上均具有關聯(lián)性,而這種有偏差的估計與預報以及預報的效果還需要做進一步的探討。② 當樣本容量較小時,選取滿足要求的樣本后,需要進行相應的顯著性檢驗,在此基礎上決定是否需要對得到的文獻進行調整。但是隨著樣本容量的增加,樣本的性質會趨于總體的性質,樣本可以對各個關聯(lián)指標與關聯(lián)程度之間的相關性進行反映,從而使解釋變量的影響具有顯著性,這樣就不需要對文獻進行調整了。
對于選取的非樣本文獻而言,由經驗回歸方程得到文獻關聯(lián)程度處于各個關聯(lián)等級上的預報概率和相應的關聯(lián)程度的期望分值,其中對各個關聯(lián)等級賦予的關聯(lián)分值為1-5 分。在關聯(lián)程度的期望分值的基礎上,得到由任意兩篇文獻分別與其余文獻的期望分值所形成的向量,利用向量的夾角余弦衡量兩個向量的相似度,兩個向量的相似度越高意味著兩篇文獻與其余文獻的期望分值會具有更好的相似性,從而這兩篇文獻也會具有更好的相似性。這里將向量的夾角余弦作為兩篇文獻的相似性度量,又因為關聯(lián)程度的期望分值均為正數(shù),夾角余弦的取值介于0-1,文獻之間的距離等于1 減去夾角的余弦。在文獻距離的基礎上可以對非樣本文獻的結構關系進行顯示并對其合理性進行考察,如通過Excel 由關聯(lián)程度的期望分值分別得到每兩篇文獻與其余文獻所形成的向量的夾角余弦,用1 減去向量的夾角余弦后,將得到的距離矩陣作為輸入,通過Spss 得到非樣本文獻的二維分布情況。
圖1 為對指標直接合成時的情形。對選取的非樣本文獻而言,其關聯(lián)程度可以近似為對原始指標的直接求和,文獻的相似性度量以及對文獻距離的表示與在概率型綜合關聯(lián)程度中所采取的方式相同,目的是使得到的結構關系具有可比性。另外,指標的取值為標準化后的取值。同時需要指出以下幾點。① 由于選取非樣本文獻時沒有對文獻關聯(lián)指標的取值范圍作要求,當某篇文獻與另一篇文獻的關聯(lián)程度不為零,且與其余文獻的關聯(lián)程度均為零時,這兩篇文獻的夾角余弦的分母等于零,由此需要剔除非樣本文獻中的部分文獻,從而使不同文獻關聯(lián)程度情形下的考察文獻不僅相同而且其中任意兩篇文獻的夾角余弦也均具有意義,由此夾角余弦的分母為零的情形不影響所得結構關系的可比性。而當文獻關聯(lián)程度為零的情形增多時,需要剔除的文獻數(shù)量也會有增加的趨勢。②當某兩篇文獻同與除這兩篇之外的少量單篇或是多篇文獻的關聯(lián)程度不為零,且與其余文獻的關聯(lián)程度均為零時,與這兩篇文獻相對應的向量有可能會具有很好的相似度,特別是當兩篇文獻只與除這兩篇文獻之外的某單篇文獻的關聯(lián)程度不為零時,這兩篇文獻的夾角余弦等于1。因此,當關聯(lián)程度為零的情形較多時,會出現(xiàn)文獻之間的距離很小以及為零的情況,這樣在非樣本文獻的二維分布中會表現(xiàn)為文獻位置的重合或近似重合。
圖1 指標直接合成時的情形
圖2 概率型綜合關聯(lián)程度的情形
圖3 只考慮共引次數(shù)的情形
圖2 為概率型綜合關聯(lián)程度的情形。關聯(lián)程度的期望分值是各個等級的關聯(lián)分值與文獻關聯(lián)程度處于相應等級上的預報概率的乘積的累計和。由于處于各個等級上的概率之和等于1,期望分值的最小值為各個等級的關聯(lián)分值的最小值,對于所考察的非樣本文獻而言,不同文獻之間的關聯(lián)程度均大于等于1,且均不會等于零,這也是與圖1 相比文獻位置重合的情形相對較少的原因。
圖4 專家對關聯(lián)程度進行判斷時的情形
圖3 只考慮共引次數(shù)的情形。圖4 為專家對非樣本文獻的關聯(lián)程度直接判斷的情形。其中,關聯(lián)程度是根據文獻的內容在0-10 分進行打分。圖1 至圖4文獻位置之間的距離的相對大小具有大體上的一致性。但是這種比較是建立在對非樣本文獻相互之間的相似性或是距離進行近似的基礎上,由此可以考慮從相似性或是距離衡量不同情形的合理性。如將專家判斷文獻關聯(lián)程度的情形作為標準,考察不同情形中文獻之間的距離關系與標準情形中文獻之間的距離關系的一致性。在每種關聯(lián)情形中均能得到每篇文獻與其余文獻之間的相似度,在某種關聯(lián)情形中,用某篇文獻與其余文獻之間的相似度和在標準情形中的同一篇文獻與其余文獻之間的相似度的等級相關系數(shù)來衡量兩種情形中某篇文獻與其余文獻的相似度的相對大小的一致性。這樣每篇文獻均有相應的等級相關系數(shù)與其相對應。在此基礎上用所有文獻的等級相關系數(shù)的平均值來衡量兩種情形中單篇文獻與其余文獻相似度的相對大小的一致性。
對于概率型綜合關聯(lián)程度與專家判斷關聯(lián)程度這兩種情形而言,得到相關系數(shù)的平均值為0.580。但是在對指標直接合成的情形中,如果文獻之間關聯(lián)程度為零的情形相對較多,那么文獻夾角余弦中分子為零的情形也會相對較多。在專家判斷關聯(lián)程度的情形中,某篇文獻與其余某兩篇文獻之間具有不同的相似度,在對指標直接合成的情形中可能會由于這篇文獻與其余兩篇文獻之間的相似度均為零而使得文獻之間會具有相同的相似度,由此與每篇文獻對應的等級相關系數(shù)會相對較低,甚至相關系數(shù)可能會為負數(shù)。而當某篇文獻的相關系數(shù)為負數(shù)時,可將兩種關聯(lián)情形中的該篇文獻與其余文獻的相似度的相對大小的一致性取為零,并在此基礎上得到一致性的平均值,如對指標直接合成與專家判斷關聯(lián)程度這兩種情形的相關系數(shù)的平均值為0.018。另外,在某種情形中可以設定某個閾值,對于大于等于該閾值的文獻相似度,考察這些相似度的相對大小能夠在多大程度上與專家判斷關聯(lián)程度的情形相吻合,并用此來判斷給定閾值時的某種關聯(lián)情形與專家判斷關聯(lián)程度情形的一致性。如,選取閾值為0.03,在某種情形中,對于某篇文獻而言,只考慮與該文獻的相似度大于等于0.03 的其他文獻,并考察某種情形中該文獻與這些文獻的相似度和在專家判斷關聯(lián)程度情形中的這篇文獻與這些文獻的相似度的等級相關系數(shù)。每篇文獻均有相應的等級相關系數(shù)與其對應。在某種情形中,如果某篇文獻與其他文獻的相似度均小于0.03,以及某篇文獻只與其余某一篇文獻之間的相似度大于等于0.03,那么這兩種情況中的文獻是不計入在內的。當給定閾值時,每篇文獻的等級相關系數(shù)體現(xiàn)某種關聯(lián)情形對專家判斷關聯(lián)程度情形中的該篇文獻與相應文獻之間的相似度的相對大小的保持程度,這里仍然是利用每篇文獻的等級相關系數(shù)的平均值近似衡量給定閾值時的某種關聯(lián)情形與專家判斷關聯(lián)程度情形的單篇文獻與其余文獻相似度的相對大小的一致性。
另外,考察文獻之間相似度的相對大小時,可以對每篇文獻進行考察,也可以對所有文獻相互之間的相似度的相對大小直接進行考察。當不設定閾值時,能夠得到某種關聯(lián)情形的所有文獻之間的相似度和標準情形中的相應文獻之間的相似度的等級相關系數(shù),如果一致性較高,那么建立在文獻距離相對大小基礎上的聚類結果也可能會具有較好的一致性;當設定閾值時,只考慮某種情形中的大于等于閾值的文獻相似度,并考察這些相似度的相對大小在多大程度上與標準情形相吻合。
圖5、圖6 為上述前三種情形分別與專家判斷關聯(lián)程度情形的相關情況,其中橫軸為閾值。圖5 是對每篇文獻分別考察的方式,圖6 是對所有文獻直接考察的方式。圖6 將所有的文獻均考慮在內,是對應閾值為零的情形。對于情形一而言,在對每篇文獻分別考察的方式中,當閾值由0.03 增加至0.1 時,相關情況會保持不變,這說明情形一中的相似度是分布在小于0.03 以及大于等于0.1 的范圍。在對所有的文獻直接考察的方式中,閾值取為0.03 是對應于相似度大于等于0.03 時文獻相似度的相對大小與實際情況的一致性。
此外,對于所選取的非樣本文獻,在對每篇文獻分別進行考察的方式中,情形一的相關情況會好于情形二和情形三。同時由于無論是單指標情形還是多指標情形,關聯(lián)指標對文獻關聯(lián)程度的反映均是基于兩者之間統(tǒng)計意義上的正相關性,因而會出現(xiàn)單指標描述好于多指標描述的情況,如圖5 中情形三的一致情況要好于情形二。在對所有文獻考察的方式中,當閾值大于零且小于等于0.5 時,與其余的區(qū)域相比,這三種情形的相關情況會相對較為接近,但是情形三的一致情況要好于情形一和情形二;而當閾值大于0.5 時,情形一和情形二的一致情況均會好于情形三。從整體上看,對于這里選取的非樣本文獻而言,多指標描述并不明顯地好于單指標描述,但是當各個閾值處對應的文獻數(shù)量均足夠多時,多指標描述在整體上好于單指標描述,這是建立在多指標描述對于關聯(lián)程度的反映會好于單指標描述的直觀認識基礎上,由此多指標描述中的關聯(lián)分值的相對大小與實際情況會具有更好的一致性。另外從整體上看,隨著閾值的變化,多指標描述與單指標描述會具有相似的變化趨勢。
圖5 對每篇文獻分別進行考察的方式
在概率型綜合關聯(lián)程度的情形下,由于從直觀上選取的文獻關聯(lián)指標并不獨立,選取樣本文獻的某些關聯(lián)指標有可能會具有很好的樣本相關性,使某些自變量包含在某些共線關系中。在這里構造以下樣本,使共引次數(shù)與相同的參考文獻數(shù)量具有很好的相關性,并且其余的指標取值與文獻《基于多指標的文獻關聯(lián)程度研究:指標的合成》圖4 中的原有指標取值相同。當調整相同的參考文獻數(shù)量時,如果參考文獻的杰卡德指數(shù)保持不變,那么兩篇文獻總的參考文獻數(shù)量需要作相應的改變,當杰卡德指數(shù)給定時,對其分子與分母的取值沒有限制,只不過不同的取值情形其發(fā)生的概率會有所不同。
圖6 對所有文獻直接進行考察的方式
圖7 構造的樣本文獻
如果取到了這樣的樣本(見圖7),其中僅列出了文獻的共引次數(shù)與相同的參考文獻數(shù)量,除了相同的參考文獻數(shù)量之外,其余變量的取值與文獻《基于多指標的文獻關聯(lián)程度研究:指標的合成》 圖4 中的相應變量的取值相同,在這里使得文獻的共引次數(shù)與相同的參考文獻數(shù)量的相關系數(shù)為0.974。對于該樣本可以得到XTX 的特征值分別為2.162、1.500、1.002、0.800、0.518、0.018,其中最大特征值與最小特征值的比值達120.111,這樣標準模型會存在中等程度的共線性。同時得到的方差擴大因子分別為28.571、27.027、1.377、1.109、1.085、1.852。從方差擴大因子的角度來看,模型也存在共線性,并且前兩個變量——共引次數(shù)與相同的參考文獻數(shù)量均包含在某些共線關系中。
通過主成分回歸消除共線性,得到XTX 的特征向量以及相應的主成分,其中主成分為Z6=0.713X1-0.692X2-0.051X3-0.014X4-0.016X5+0.097X6,由于XTX 的第六特征值僅為0.018 且等于Z6的方差,可以認為Z6中的變量組合具有較高的共線性,同時在該變量組合中X3、X4、X5、X6的系數(shù)和X1、X2的系數(shù)相比均相對較小,且X1、X2的系數(shù)的絕對值可以進行比擬,X1、X2具有很好的取值一致性,而這和X1、X2較高的相關系數(shù)是一致的。由于前四個主成分的特征值的累計和占特征值總和的91.1%,因而選取前四個主成分進行回歸,這樣剔除Z6,同時信息損失也在可以接受的范圍內。在相應的經驗回歸方程中,將主成分還原為原始變量后,可以得到以原始變量作為自變量的經驗回歸方程,這樣方程中的所有原始變量都得到了保留。
利用共引次數(shù)衡量文獻之間的關聯(lián)程度具有客觀性,但是這種客觀性是統(tǒng)計意義上的客觀性,對于共引次數(shù)這個單指標而言,從直觀上會存在不客觀的情形。如,當文獻的共引次數(shù)給定且較高時,文獻之間的關聯(lián)程度并不確定,會存在一定的變化范圍,文獻之間的關聯(lián)程度有可能是偏高的,但是此時的共引次數(shù)或此時的關聯(lián)分值卻是較高的,由此會出現(xiàn)關聯(lián)分值與文獻實際關聯(lián)程度不一致的情形。在共引次數(shù)的基礎上對文獻結構考察時,這兩篇文獻有可能會被歸于某一子類,而實際上這兩篇文獻是不應歸于一類的,由此帶來了不客觀的結構劃分。又如在一定的取值范圍內,共引次數(shù)較小的兩篇文獻之間的關聯(lián)程度未必會比共引次數(shù)較大的兩篇文獻的關聯(lián)程度低。由此利用共引次數(shù)來表征文獻之間的關聯(lián)程度時會有不客觀的情形出現(xiàn),相應地也會帶來后續(xù)結構劃分上的不客觀。假設考慮三篇文獻,文獻A 與文獻B 以及文獻A 與文獻C 的關聯(lián)分值均低于文獻B 與文獻C 的關聯(lián)分值,這樣在某細化程度下,文獻B 與文獻C 會被歸于一類,而文獻A 會單獨成類。但實際上將文獻A 與文獻B 歸于一類,且文獻C 單獨成類卻是符合實際情況的。盡管利用共引次數(shù)衡量關聯(lián)程度會具有一定的非客觀性,但是當樣本容量較大時,上述關聯(lián)分值不客觀情形的占比應當會相對較小,畢竟此時的關聯(lián)分值也就是共引次數(shù),與文獻之間的實際關聯(lián)程度會具有較好的正相關性,因而共引次數(shù)與文獻關聯(lián)程度大小關系相一致的情形會具有較大的比例,這也是這里的關聯(lián)分值具有客觀性,從而建立在該關聯(lián)分值基礎上的結構劃分也會在總體上具有客觀性。
利用多指標衡量文獻之間的關聯(lián)程度時會有類似的情形,得到的關聯(lián)分值在總體上可能會具有客觀性。如對多指標直接合成時,如果可以從主成分與各個指標的相關性大致判斷主成分的含義,并且根據主成分的含義可以判斷各個主成分均具有正向性,那么當兩篇文獻的各個主成分具有較高的取值時,得到的關聯(lián)分值也會較高。當各個主成分均具有正向性時,各個主成分的取值較高,意味著文獻之間的關聯(lián)程度的期望值也會較高,由此這兩篇文獻之間的關聯(lián)程度有可能只是偏高的,這樣就可能會有關聯(lián)分值與實際關聯(lián)程度不一致的情形出現(xiàn),而這種關聯(lián)分值與關聯(lián)程度的不一致有可能會帶來后續(xù)不客觀的結構劃分。
從樣本出發(fā)得到的關聯(lián)分值也會有類似情況。在樣本中,如果某兩篇文獻的關聯(lián)指標的取值較高,并且相應的關聯(lián)分值也較高,那么當兩篇非樣本文獻的關聯(lián)指標的取值與這兩篇樣本文獻的關聯(lián)指標的取值相近時,由于回歸方程的連續(xù)性,非樣本文獻的關聯(lián)程度處于各個關聯(lián)等級上的概率可能會與樣本文獻情形下的概率相接近,因為關聯(lián)分值是關聯(lián)程度處于各個關聯(lián)等級上的概率與各個關聯(lián)等級分值分別相乘后再進行求和,所以非樣本文獻的關聯(lián)分值也可能會較高。但實際上,當關聯(lián)指標的取值較高時,非樣本文獻的關聯(lián)程度有可能只是偏高的,這樣在關聯(lián)分值基礎上的結構劃分可能會出現(xiàn)與實際情況不相符合的情形。
與共引次數(shù)的情形相類似,多指標情形中關聯(lián)分值的不客觀占比有可能不高,究其原因是由于關聯(lián)分值與實際關聯(lián)程度可能會具有正相關性,而這實際上也是關聯(lián)分值及其獲取方法是否具有合理性以及有效性的一種基礎。對于指標直接合成這種情形而言,如果各個主成分均具有正向性,那么任意主成分增加且其他主成分保持不變時,關聯(lián)程度的期望值會增加,如此可以對各個主成分直接進行求和來對關聯(lián)程度的期望值進行近似,而各個主成分的和值也是這里的關聯(lián)分值,關聯(lián)分值實際上也是對關聯(lián)程度的期望值的近似。由于從直觀上關聯(lián)指標與關聯(lián)程度之間會具有較好的相關性,當關聯(lián)指標增加時,關聯(lián)程度會有增加的趨勢,關聯(lián)程度的期望值也會有增加的趨勢,關聯(lián)分值也可能會有增加的趨勢。由此關聯(lián)指標與關聯(lián)分值之間可能會具有正相關性。考慮到關聯(lián)指標與關聯(lián)程度會具有較好的正相關性,則關聯(lián)分值與關聯(lián)程度之間也可能會具有正相關性。
同樣地,對于從樣本出發(fā)得到的關聯(lián)分值而言,由于從直觀上關聯(lián)指標與關聯(lián)等級在總體上會具有較好的正相關性,當樣本容量足夠大時,如果關聯(lián)指標的取值增加,那么相應的關聯(lián)等級也會有提高的趨勢。因為在得到回歸方程時是使得由回歸方程得到的關聯(lián)程度處于各個關聯(lián)等級上的概率能夠盡可能地與樣本相接近,所以回歸方程是對樣本的近似,不嚴格地說,回歸方程可能也會具有和關聯(lián)指標與關聯(lián)等級之間的正相關性相類似的性質。對于回歸方程而言,由于給出的是關聯(lián)程度處于各個關聯(lián)等級上的概率,回歸方程可能會表現(xiàn)為具有當關聯(lián)指標較高時關聯(lián)程度處于較高關聯(lián)等級的概率會較高的趨勢,或回歸方程可能會具有這樣的性質。如果回歸方程通過顯著性檢驗,那么可以利用回歸方程對非樣本文獻之間的關聯(lián)程度進行預報,能夠給出關聯(lián)程度處于各個關聯(lián)等級上的概率。由于當非樣本文獻的關聯(lián)指標較高時,得到的關聯(lián)程度處于較高等級上的概率可能也會有較高的趨勢,相應的關聯(lián)分值可能也會有較高的趨勢,這樣對于非樣本文獻而言,關聯(lián)指標與關聯(lián)分值之間可能就會具有正相關性,而從直觀上關聯(lián)指標與實際關聯(lián)程度會具有較好的正相關性,關聯(lián)分值與實際關聯(lián)程度也可能會具有正相關性。需要指出的是,上述的討論并不嚴格,如關聯(lián)指標較高是指各個指標的取值在整體上較高。這與共引次數(shù)相類似,在總體上利用多指標得到的關聯(lián)分值可能會具有客觀性,不客觀情形的比例可能會較小,同時不客觀情形的占比應當和關聯(lián)指標與關聯(lián)程度之間的統(tǒng)計相關性以及對多指標的合成方式有關。