譚春輝,熊夢(mèng)媛
(華中師范大學(xué)信息管理學(xué)院,武漢 430079)
“滯后性”常被用于描述一個(gè)現(xiàn)象與另一密切相關(guān)現(xiàn)象相對(duì)而言的落后遲延狀態(tài)[1],并引發(fā)了相關(guān)學(xué)者對(duì)于滯后性測(cè)度的探索。Lee等[2]利用時(shí)間滯后模型,測(cè)度研發(fā)投入強(qiáng)度對(duì)制藥公司績(jī)效的滯后影響。Hwang等[3]利用余弦相似度算法,識(shí)別發(fā)明與專利間的滯后關(guān)系,以確定技術(shù)路徑識(shí)別中專利轉(zhuǎn)化、引用帶來的時(shí)滯問題。Zhang等[4]采用格蘭杰因果檢驗(yàn),構(gòu)建向量自回歸模型,算出了中國直接投資對(duì)“金磚國”經(jīng)濟(jì)增長(zhǎng)的影響平均滯后8年。Sato等[5]使用固定效應(yīng)模型證明,老人體育鍛煉參與度與醫(yī)療費(fèi)用的具有2~3年滯后期的負(fù)相關(guān)性。倪淵[6]利用阿爾蒙多項(xiàng)式,來測(cè)算高??蒲邢到y(tǒng)投入產(chǎn)出的滯后性。吳丹丹等[7]運(yùn)用相關(guān)性和回歸分析,發(fā)現(xiàn)研發(fā)投入對(duì)于企業(yè)價(jià)值的影響存在4年的滯后效應(yīng)。劉自強(qiáng)等[8]利用自回歸分布滯后模型(auto-regressive distributed lag model,ARDL模型),分析基金項(xiàng)目和學(xué)術(shù)論文主題的擴(kuò)散滯后效應(yīng),發(fā)現(xiàn)基金項(xiàng)目主題對(duì)論文主題顯著影響的滯后期為2年(滯后相關(guān)系數(shù)為2.027888)。董奮義等[9]利用復(fù)相關(guān)系數(shù)與顯著性檢驗(yàn),計(jì)算我國農(nóng)業(yè)科技投入與產(chǎn)出之間的滯后期,并利用BC2模型和熵權(quán)法計(jì)算出滯后影響系數(shù)。從上述研究結(jié)果可以看出,對(duì)于滯后性測(cè)度,通?;谙嚓P(guān)數(shù)據(jù),建立與所涉領(lǐng)域、數(shù)據(jù)類型相對(duì)應(yīng)的模型、算法或公式,測(cè)算出滯后期與滯后系數(shù),這為本文的研究提供了方法指導(dǎo)與支持。
雖然從研究人員數(shù)量、文章數(shù)量、論文被引率以及影響因子等核心科研評(píng)價(jià)指標(biāo)上來看,國內(nèi)學(xué)術(shù)界的發(fā)展欣欣向榮,但在有些學(xué)科領(lǐng)域內(nèi),相較于國外而言,國內(nèi)研究成果的內(nèi)容和數(shù)量方面均存在著一定的滯后性。對(duì)于國內(nèi)外共同學(xué)科領(lǐng)域的研究成果及進(jìn)展,已有大量學(xué)者以期刊論文為基礎(chǔ),或者從內(nèi)容分析的視角[10],或者從共詞分析的視角[11-13],或者從詞頻統(tǒng)計(jì)的視角[14-15],或者從主題識(shí)別的視角[16-17],或者從多維指標(biāo)的視角[18-20],做了較多的比較研究,并認(rèn)為國內(nèi)外在某些特定學(xué)科領(lǐng)域的研究存在一定的差異性,且主觀認(rèn)為國內(nèi)研究相較于國外研究而言也存在一定的落后性。事物發(fā)展的過程中常常存在著滯后性,同一學(xué)科領(lǐng)域由于在不同地區(qū)受到經(jīng)濟(jì)、政治、文化等諸多因素影響,其發(fā)展水平也呈現(xiàn)一定的滯后性現(xiàn)象。但是,如何從時(shí)間的維度來確定同一學(xué)科領(lǐng)域研究成果數(shù)量或研究成果內(nèi)容上的相對(duì)滯后性,目前現(xiàn)有研究并沒有給出解決方案。
針對(duì)這種現(xiàn)象,探究一種具有普遍適用性的國內(nèi)外同一學(xué)科領(lǐng)域研究間的滯后性測(cè)度方法,有助于揭示學(xué)科領(lǐng)域的發(fā)展現(xiàn)狀、實(shí)現(xiàn)橫向?qū)Ρ?、明確學(xué)科發(fā)展水平,為科研人員和科技政策制定者提供參考與指導(dǎo),切實(shí)把論文寫在祖國的大地上,把科研成果應(yīng)用在實(shí)現(xiàn)我國現(xiàn)代化的偉大事業(yè)中。
期刊論文是科學(xué)研究成果的主要表現(xiàn)形式和載體,論文的發(fā)表數(shù)量和主題在一定程度上反映出某學(xué)科領(lǐng)域的科學(xué)研究水平、研究熱點(diǎn)和研究?jī)?nèi)容。因此,本文選取國內(nèi)外核心期刊論文數(shù)據(jù)作為語料,分別代表國內(nèi)某學(xué)科領(lǐng)域的研究成果和國外某學(xué)科領(lǐng)域的研究成果,并從兩個(gè)維度對(duì)國內(nèi)外同一學(xué)科領(lǐng)域間研究的滯后性進(jìn)行分析:一是采用潛在狄利克雷分布(latent Dirichlet allocation,LDA)主題模型進(jìn)行主題抽取,并結(jié)合相似度,計(jì)算測(cè)度國內(nèi)外同一學(xué)科領(lǐng)域研究主題層面的滯后性,揭示該學(xué)科領(lǐng)域研究的滯后方向和滯后期;二是采用ARDL模型對(duì)國內(nèi)外核心期刊發(fā)文量構(gòu)成的時(shí)間序列進(jìn)行建模分析,測(cè)度國內(nèi)外同一學(xué)科領(lǐng)域間研究成果數(shù)量層面的滯后性,以得出顯著滯后方向和滯后期。以數(shù)據(jù)挖掘領(lǐng)域?yàn)槔?yàn)證本文所提出的國內(nèi)外同一學(xué)科領(lǐng)域間的研究滯后性測(cè)度方法與步驟。
2.1.1 測(cè)度假設(shè)
對(duì)于國內(nèi)外同一學(xué)科領(lǐng)域,相關(guān)的基礎(chǔ)理論技術(shù)主要源自國外,至今已形成一定的基礎(chǔ)框架和應(yīng)用場(chǎng)景。近年來,國內(nèi)對(duì)于國外理論和技術(shù)也有較多的借鑒與發(fā)展,在研究?jī)?nèi)容層面上,國內(nèi)外研究主題必然有一定的相似性。因此,本文假設(shè)該學(xué)科領(lǐng)域的國內(nèi)研究主題可能存在一定的滯后性,即該學(xué)科領(lǐng)域的國外研究主題作為影響方,該學(xué)科領(lǐng)域的國內(nèi)研究主題作為被影響方,那么影響方對(duì)被影響方施加影響,被影響方在一段時(shí)間后才接受這種影響,研究主題的出現(xiàn)存在時(shí)間上的先后關(guān)系,從而產(chǎn)生了滯后效應(yīng)。
為了測(cè)度國內(nèi)外同一學(xué)科領(lǐng)域間研究主題的滯后性,本文基于同一學(xué)科領(lǐng)域的國內(nèi)外核心期刊論文數(shù)據(jù),建立了LDA主題模型,分別得到國內(nèi)外的研究主題內(nèi)容,基于主題相似度得到兩者的內(nèi)容相似性,并利用?;鶊D對(duì)國內(nèi)外研究主題在不同時(shí)間片之間的相似度關(guān)聯(lián)與大小進(jìn)行可視化,從而直觀地判定滯后方向和滯后期。
2.1.2 文本預(yù)處理
測(cè)度研究主題滯后性,需要對(duì)國內(nèi)外期刊論文數(shù)據(jù)進(jìn)行主題抽取。為了保證主題抽取的合理性、完整性和規(guī)范性,在主題抽取之前需要進(jìn)行文本預(yù)處理,其具體方法和步驟如下:
(1)預(yù)先定義領(lǐng)域詞典,該詞典由學(xué)科領(lǐng)域關(guān)鍵詞和相關(guān)專業(yè)詞匯構(gòu)成,作為保留詞匯提高分詞效果。將虛詞與符號(hào)等設(shè)定為停用詞表,以去除停用詞;將具有相同語義的詞語(即同義詞)進(jìn)行合并,以改善后期相似度計(jì)算的效果。
(2)使用Python與Excel對(duì)文本進(jìn)行初步處理,將選取的國內(nèi)外文獻(xiàn)信息按時(shí)間片分別建立文檔。調(diào)用Jieba中文分詞組件,并默認(rèn)使用精確模式,對(duì)每條文摘進(jìn)行切分。其后每一條題注都形成一個(gè)由詞語元素組成的列表,從而得到初步處理后的語料庫。
(3)基于詞袋模型,采用構(gòu)建詞典的方法,匯總文檔的全部詞匯并去重;然后,為語料庫中的每一個(gè)詞賦予(序號(hào)、特征值)的索引,以便將其運(yùn)用到主題模型中。由于LDA模型是基于詞頻進(jìn)行統(tǒng)計(jì)的模型,此處特征值取詞頻。
(4)根據(jù)所構(gòu)建的詞典和語料,為每個(gè)時(shí)間片中每一條文獻(xiàn)信息的構(gòu)成詞在詞典中查找對(duì)應(yīng)索引,作為其特征進(jìn)行表示。一行代表一條文獻(xiàn)信息,每一行信息中的詞都以索引來進(jìn)行特征表示,即每一條文獻(xiàn)信息由若干個(gè)索引組成,則語料轉(zhuǎn)化為L(zhǎng)DA建??山邮艿妮斎敫袷健?/p>
2.1.3 主題抽取
為了有效揭示主題詞之間以及與原文本的潛在關(guān)系,本文采用LDA主題模型進(jìn)行主題提取,這是一類基于詞袋模型的無監(jiān)督機(jī)器學(xué)習(xí)的文本挖掘方法,也是一種生成聯(lián)合概率分布的生成式概率主題模型[21]。其區(qū)別于預(yù)估條件概率分布的判別式模型,不需要預(yù)先進(jìn)行人工標(biāo)記,就可從初始文檔中挖掘出潛在主題。LDA模型是以詞袋模型為前提的三層貝葉斯模型,相較于普通的共詞分析等詞頻統(tǒng)計(jì)方法,LDA模型能夠規(guī)避同詞異義、同義多詞等歧義性問題。LDA模型吸收了降維與文檔生成思想并進(jìn)行發(fā)展,其基本原理如圖1所示。
圖1 LDA模型原理圖[21]
LDA模型假設(shè)一篇文檔是由多個(gè)主題組成的,且每篇文檔的生成方式如下。首先,需要從全局的泊松分布中選取一個(gè)文檔長(zhǎng)度為N~Poission(β);其次,取樣生成該文檔在主題上的狄利克雷分布θ~Dir(α);再次,為該長(zhǎng)度為N的文檔中的每一個(gè)詞語生成一個(gè)主題zmn~Multinomial(θm),并取樣生成主題在詞語上的分布為φzmn~Dir(β);最后,從以z和φ共同為參數(shù)的多項(xiàng)式分布中確定一個(gè)詞wmn~Multinomial(φzmn)。整個(gè)模型的聯(lián)合分布為
本文主要采用Gibbs采樣算法求解,得到全局的主題Z的分布和詞語W的分布。
作為無監(jiān)督機(jī)器學(xué)習(xí),需要事先確定3個(gè)超參數(shù):α、β、k(最優(yōu)主題數(shù))。α、β選取一般默認(rèn)值[22],最優(yōu)主題數(shù)k則通過困惑度(perplexity)計(jì)算確定。困惑度是一種對(duì)語言概率模型的優(yōu)劣進(jìn)行評(píng)價(jià),并協(xié)助進(jìn)行參數(shù)改進(jìn)的有效方法,其以信息理論為基礎(chǔ),對(duì)概率分布或模型的不確定性(信息熵)進(jìn)行計(jì)算,將其運(yùn)用于LDA模型中,計(jì)算公式為
其意義表明文檔d從屬的主題的不確定性,因此,理論上困惑度越小,說明模型性能越優(yōu);困惑度最低,或是拐點(diǎn)處對(duì)應(yīng)的k就為最佳主題數(shù)。
2.1.4 構(gòu)建主題相似度矩陣
通過LDA模型抽取主題及其關(guān)鍵詞,不同時(shí)間片下的主題間的相似度也不盡相同。為了計(jì)量不同時(shí)間片下主題內(nèi)容的相似性,本文通過余弦相似度對(duì)不同時(shí)間片間主題的相似度進(jìn)行求解,并構(gòu)建主題相似度矩陣。
余弦相似度是以向量空間中兩個(gè)向量構(gòu)成的夾角的余弦值(cosine),作為兩個(gè)被向量化表示的個(gè)體差異度的衡量標(biāo)準(zhǔn)。在二維向量空間中,假設(shè)兩個(gè)二維 向量:a向量 為(x1,y1),b向量為(x2,y2),那么余弦定理可表示為
同理,將向量從二維空間拓展至n維空間,將上述的向量a、b假定為n維向量,則上述公式仍然成立:
余弦值越接近于1,則兩個(gè)向量越相似。將詞語集形式的主題和內(nèi)容轉(zhuǎn)換成可用于計(jì)算的向量,計(jì)算出國內(nèi)外各個(gè)時(shí)間片間研究主題內(nèi)容的余弦相似度,從而得到相似度矩陣。
2.1.5 主題滯后性判定
主題滯后性判定可從兩個(gè)方向來進(jìn)行分析:滯后方向和滯后期。
(1)利用?;鶊D利于展現(xiàn)對(duì)象間聯(lián)系以及信息量流動(dòng)的特征[23],本文將每個(gè)主題的時(shí)間片作為對(duì)象,構(gòu)建國內(nèi)外期刊論文主題間的聯(lián)系,再基于相似度矩陣信息,按滯后的正向與反向影響方向,分別繪制國外研究主題對(duì)國內(nèi)研究主題的滯后影響強(qiáng)度、國內(nèi)研究主題對(duì)國外研究主題的滯后影響強(qiáng)度兩個(gè)?;鶊D,相似度大小代表了滯后影響強(qiáng)度的大小,通過對(duì)比得出最顯著的滯后影響強(qiáng)度,可以確定最顯著滯后方向和滯后強(qiáng)度。
(2)為進(jìn)一步確定主題滯后期,本文分別統(tǒng)計(jì)不同固定時(shí)間片間隔的主題相似度,并將其算術(shù)平均值作為各個(gè)滯后期的滯后系數(shù),滯后系數(shù)最高的滯后期,則判定為顯著滯后期。
2.2.1 測(cè)度假設(shè)
一般而言,對(duì)于國內(nèi)外同一學(xué)科領(lǐng)域,國內(nèi)的研究論文數(shù)量在絕大多數(shù)學(xué)科領(lǐng)域可能都處于數(shù)量偏少的一方。那么兩者的數(shù)量變化在時(shí)間序列上有沒有一定的關(guān)聯(lián)呢?本文假設(shè)該學(xué)科領(lǐng)域的國內(nèi)研究論文數(shù)量可能存在一定的滯后性,即該學(xué)科領(lǐng)域的國外研究論文數(shù)量構(gòu)成的時(shí)間序列作為因變量序列,該學(xué)科領(lǐng)域的國內(nèi)研究論文數(shù)量構(gòu)成的時(shí)間序列作自變量序列,分析兩個(gè)變量之間的滯后關(guān)系,能夠發(fā)掘出潛在的滯后效應(yīng)。
為了測(cè)度國內(nèi)外同一學(xué)科領(lǐng)域研究論文數(shù)量的滯后性,本文將基于同一學(xué)科領(lǐng)域的國內(nèi)外核心期刊論文數(shù)量構(gòu)成兩個(gè)時(shí)間序列,利用ARDL模型實(shí)現(xiàn)論文數(shù)量滯后性的分析,判定數(shù)量層面的滯后方向、滯后期以及對(duì)應(yīng)的滯后系數(shù)。
2.2.2 測(cè)度模型選擇
ARDL模型是一種基于時(shí)間序列研究滯后效應(yīng)的數(shù)理統(tǒng)計(jì)模型。相關(guān)研究表明,ARDL模型能夠準(zhǔn)確地計(jì)量?jī)蓚€(gè)或多個(gè)序列間的滯后關(guān)系[24-25],且在小樣本中具備穩(wěn)健性;在變量樣本不大的情況下,ARDL模型的估計(jì)結(jié)果也具有足夠的穩(wěn)健性[26]。因此,ARDL模型適用于本文涉及的小樣本期刊發(fā)文量的情況。ARDL模型的主要思想是通過邊界檢驗(yàn)法確定變量之間是否存在協(xié)整關(guān)系,并在此基礎(chǔ)上估計(jì)變量之間的相關(guān)系數(shù)。該模型最初是由Charemza等[27]提出的,后經(jīng)Pesaran等[28]完善和推廣,作為檢驗(yàn)變量之間協(xié)整關(guān)系的方法而受到學(xué)者的歡迎。ARDL模型中的滯后變量(lagged variable)是指對(duì)于自變量的變化,因變量的變化需要一定的滯后時(shí)間段才可以顯現(xiàn)的變量,含有該變量的模型稱為滯后變量模型。如果一個(gè)回歸模型在此基礎(chǔ)上還包含內(nèi)生變量的滯后項(xiàng),則稱其為自回歸分布滯后模型。本文通過國內(nèi)外期刊發(fā)文量序列構(gòu)成的因變量序列及其滯后變量序列進(jìn)行ARDL模型建模,若能進(jìn)行有效建模,一方面,可驗(yàn)證上述假設(shè)中的國內(nèi)研究論文數(shù)量滯后性的存在;另一方面,可得到回歸模型中最顯著正相關(guān)系數(shù)及其所在的滯后變量序列,進(jìn)而確定最顯著滯后期。
2.2.3 數(shù)據(jù)預(yù)檢驗(yàn)
ARDL模型所需的數(shù)據(jù)應(yīng)為平穩(wěn)時(shí)間序列且同階單整的時(shí)間序列,因此需要對(duì)各個(gè)時(shí)間序列分別進(jìn)行平穩(wěn)性檢驗(yàn),可通過單位根檢驗(yàn)(unit root test)確定兩個(gè)變量是否平穩(wěn),排除偽回歸現(xiàn)象,若不平穩(wěn)則需要通過一階差分處理,再檢測(cè)其是否能達(dá)到平穩(wěn)狀態(tài)。只有兩列數(shù)據(jù)為同階單整且不超過1,才能夠進(jìn)行下一步的協(xié)整性檢驗(yàn)。本文采用ADF(augmented dickey-fuller test)進(jìn) 行 單 位 根 檢驗(yàn)[29]。ADF檢驗(yàn)的初始假設(shè)為:若序列存在單位根,則序列非平穩(wěn)。當(dāng)檢驗(yàn)結(jié)果接受零假設(shè)時(shí),則說明原序列存在單位根,為非平穩(wěn)序列;當(dāng)拒絕零假設(shè)時(shí),則說明原序列不存在單位根,為平穩(wěn)序列。
協(xié)整性檢驗(yàn)是為了防止時(shí)間序列間存在偽回歸關(guān)系,從而判定變量間是否具有長(zhǎng)期穩(wěn)定關(guān)系,只有排除偽回歸關(guān)系,才能通過ARDL模型探測(cè)滯后關(guān)系[30]。本文使用Johansen法檢驗(yàn)的自變量與因變量之間的協(xié)整關(guān)系,來驗(yàn)證各個(gè)變量之間的長(zhǎng)期穩(wěn)定關(guān)系,確定最優(yōu)的滯后階數(shù),以及各變量間的影響方向。
2.2.4 構(gòu)建ARDL模型
根據(jù)同一學(xué)科領(lǐng)域國內(nèi)論文數(shù)量滯后于國外論文數(shù)量的假設(shè),本文將國外論文數(shù)量和國內(nèi)論文數(shù)量構(gòu)成的時(shí)間序列數(shù)據(jù)分別作為因變量EN(影響方)與自變量CN(受影響方)。設(shè)定初始構(gòu)建模型形式為
其中,Yt為序列EN每年國外期刊發(fā)文量;Xt為序列CN每年國內(nèi)期刊發(fā)文量;a、b分別為Yt、Xt不同滯后階數(shù)的系數(shù);d為隨機(jī)誤差量(the stochastic error)。確定性部分是由關(guān)于自變量函數(shù)組成的部分,其參數(shù)項(xiàng)的確定取決于滯后項(xiàng)數(shù)確定。在此滯后項(xiàng)按AⅠC(Akaike information criterion)標(biāo)準(zhǔn)自動(dòng)選取。
建模后,首先,通過模型參數(shù)估計(jì)的實(shí)際值、擬合值和殘差初步判斷模型擬合效果。然后,采用Q檢驗(yàn)法繪制殘差自相關(guān)和偏自相關(guān)系圖,確定模型殘差序列是否為白噪聲序列,其中,白噪音序列的殘差需為零均值,且有穩(wěn)定的常方差。如果在模型評(píng)估中殘差序列為白噪音序列,那么說明模型提取了所有數(shù)據(jù)中的可預(yù)測(cè)部分,剩下的部分為不可估計(jì)的隨機(jī)誤差部分。若剩余部分為白噪音序列,則表明模型擬合效果好,不需要進(jìn)一步修改。
2.2.5 數(shù)量滯后性判定
如果構(gòu)建的ARDL模型可通過評(píng)估,且模型擬合效果良好,那么該模型可在AⅠC標(biāo)準(zhǔn)下,確定為最佳模型。根據(jù)最佳模型中的最顯著回歸系數(shù)以及其對(duì)應(yīng)的滯后項(xiàng)來確定滯后期,并確定滯后影響關(guān)系和滯后影響系數(shù)。
數(shù)據(jù)挖掘是典型的國內(nèi)外學(xué)者都在研究的同一學(xué)科領(lǐng)域。本文選取數(shù)據(jù)挖掘領(lǐng)域的國內(nèi)外期刊論文作為數(shù)據(jù)來源,按照上文所述的測(cè)度方法與過程,進(jìn)行主題滯后性和數(shù)量滯后性的實(shí)證分析。
為了保證文獻(xiàn)來源的權(quán)威性,數(shù)據(jù)來源于核心期刊文獻(xiàn),不包括學(xué)位論文、會(huì)議論文等,數(shù)據(jù)采集的時(shí)間段為1996—2019年(國內(nèi)數(shù)據(jù)挖掘領(lǐng)域的第一篇論文發(fā)表于1996年),2002年以前論文因數(shù)量較少匯總為同一時(shí)間片,其后的17年則按年劃分時(shí)間片,共18個(gè)時(shí)間片。數(shù)據(jù)采集時(shí)間為2020年1月18日—20日。
國內(nèi)文獻(xiàn)源為中國知網(wǎng)(China National KnowledgeⅠnfrastructure,CNKⅠ),為了保證文獻(xiàn)的權(quán)威性與代表性,載體類型設(shè)定為期刊,來源類別包括SCⅠ來源期刊、EⅠ來源期刊、核心期刊、CSSCⅠ(Chinese Social Sciences CitationⅠndex)和CSCD(Chinese Science Citation Database),使用專業(yè)檢索,設(shè)定檢索式為“SU=數(shù)據(jù)挖掘”,其中“SU”表示主題。在檢索結(jié)果中選擇“中文文獻(xiàn)”,然后下載全記錄文獻(xiàn)信息,并以Excel格式批量導(dǎo)出,篩去標(biāo)題標(biāo)注為“英文”的文獻(xiàn)、會(huì)議通知、簡(jiǎn)報(bào)、廣告、重復(fù)以及不完整的文獻(xiàn)記錄,收集總計(jì)11484條文獻(xiàn)全記錄。同時(shí),收集每一個(gè)時(shí)間片的文獻(xiàn)發(fā)表數(shù)量。
國外文獻(xiàn)來源于WoS(Web of Science),采用高級(jí)檢索,確定檢索式為TS=“data mining”,其中“TS”表示主題,文獻(xiàn)類型是“Article”,語種限定為“English”,索引包括SCⅠ-EXPANDED、SSCⅠ和A&HCⅠ。下載全記錄文獻(xiàn)信息,并以Excel格式批量導(dǎo)出,篩去會(huì)議通知、簡(jiǎn)報(bào)、廣告、重復(fù)以及不完整的文獻(xiàn)記錄,收集總計(jì)20733條文獻(xiàn)全記錄。同時(shí),收集每一個(gè)時(shí)間片的文獻(xiàn)發(fā)表數(shù)量。
本節(jié)將對(duì)所收集到的數(shù)據(jù)挖掘領(lǐng)域國內(nèi)外期刊論文主題進(jìn)行滯后性分析,通過LDA模型進(jìn)行主題抽取,計(jì)算不同時(shí)間片間主題內(nèi)容的相似度,確定滯后方向和顯著滯后期。
3.2.1 語料來源
為了避免直接采用關(guān)鍵詞帶來的顆粒度較粗、內(nèi)容過少、主題提取效果差強(qiáng)人意等問題,而文摘又可以拓展領(lǐng)域潛在研究主題的聯(lián)系,國內(nèi)期刊論文選取摘要配合關(guān)鍵詞作為模型的語料來源。國外期刊論文由于提供關(guān)鍵詞和擴(kuò)展關(guān)鍵詞,信息已經(jīng)較為完備,為避免分詞以及詞干提取導(dǎo)致的專業(yè)術(shù)語拆散以及語義缺失等問題,本文直接將上述兩者作為國外期刊的語料來源。
3.2.2 主題抽取
按文本預(yù)處理的步驟對(duì)語料進(jìn)行篩選、分詞、去停用詞、保留專業(yè)詞匯、同義詞替換以及特征選擇,生成符合LDA模型輸入格式的詞典與語料,然后按照LDA模型的抽取規(guī)范進(jìn)行主題抽取。
首先,采用開源的gensim包構(gòu)建主題模型估計(jì)參數(shù)。超參數(shù)確定為α=0.37、β=0.02。通過求解Gibbs采樣算法求解一個(gè)時(shí)間片內(nèi)所有文檔潛在概率θ,φ的分布。最優(yōu)主題數(shù)k的確定則是通過分別對(duì)國內(nèi)期刊(CN)和國外期刊(EN)18個(gè)時(shí)間片的困惑度按公式(2)進(jìn)行求解,分別取得均值并形成折線圖,如圖2所示。
圖2 困惑度計(jì)算結(jié)果
由圖2可知,隨著主題數(shù)設(shè)置的增加,模型困惑度前期有明顯下降,這說明模型性能較好,能夠有效地實(shí)現(xiàn)主題的判別,理論上應(yīng)取對(duì)應(yīng)困惑度較低的k值,但語料庫不大的情況下,主題數(shù)較多可能會(huì)導(dǎo)致過擬合現(xiàn)象,因此,取第一個(gè)拐點(diǎn)對(duì)應(yīng)的k值,國內(nèi)外平均取為25個(gè)。
國內(nèi)外期刊論文主題抽取結(jié)果舉例如表1和表2所示。
表1 國內(nèi)期刊數(shù)據(jù)挖掘領(lǐng)域2019主題舉例
LDA模型的參數(shù)確定后進(jìn)行主題提取,生成主題-詞分布文檔,命名為“topic_words.csv”。其中包括提取出的所有主題(由詞構(gòu)成)以及主題下的關(guān)鍵詞及其概率,每一主題的關(guān)鍵詞的數(shù)量顯示限定為Top-30(排名30位以后的詞概率過低,參考價(jià)值較低),將該類文檔用于主題內(nèi)容揭示。
3.2.3 主題相似度矩陣
基于相似度進(jìn)行對(duì)比分析,需要保證領(lǐng)域數(shù)據(jù)的全面性才能實(shí)現(xiàn)特征的完全揭示,因此,本文將全部抽取的國內(nèi)外期刊論文主題作為計(jì)算對(duì)象。同時(shí),國外主題信息通過谷歌翻譯和人工調(diào)整統(tǒng)一轉(zhuǎn)換為對(duì)應(yīng)的中文專業(yè)用語。
從18個(gè)時(shí)間片下的國內(nèi)外期刊論文中各抽取450個(gè)主題,每?jī)蓚€(gè)時(shí)間片對(duì)其主題內(nèi)容按照公式(4)進(jìn)行余弦相似度計(jì)算。作為不同時(shí)期之間相互影響程度的量化指標(biāo),相似度越高,則說明聯(lián)系越強(qiáng)。通過兩兩時(shí)間片的全組合計(jì)算,可得到相似度矩陣,如表3所示。
矩陣的整體分布特征為:從左上至右下的數(shù)值逐漸變大,說明隨時(shí)間的推移,國內(nèi)外期刊論文研究主題的相似度逐漸變大,研究?jī)?nèi)容的共性逐漸加強(qiáng)。由此可見,隨著數(shù)據(jù)挖掘領(lǐng)域的發(fā)展不斷完善以及國際交流的加深,該領(lǐng)域的主題更具有統(tǒng)一性。
表2 國外期刊數(shù)據(jù)挖掘領(lǐng)域2019年主題舉例
表3 相似度矩陣
3.2.4 主題滯后的方向與強(qiáng)度
基于JavaScript語言的前端技術(shù)D3,本文將相似度矩陣信息分別按滯后的正向影響與反向影響,繪制國外期刊論文主題對(duì)國內(nèi)期刊論文主題滯后影響強(qiáng)度?;鶊D、國內(nèi)期刊論文主題對(duì)國外期刊論文主題滯后影響強(qiáng)度?;鶊D(圖3)。在圖3中,將國內(nèi)外期刊論文研究主題的不同時(shí)間片用元素塊表示,灰線連接這些主題上具有相似度的時(shí)間片(元素塊),表示主題產(chǎn)生能量的流動(dòng)方向;元素塊后的標(biāo)簽值(“[]”內(nèi)的數(shù)值)表示所有與之有相似關(guān)系的相似度的總和(數(shù)據(jù)來源于表3,保留一位小數(shù)),且和元素塊大小呈正比,連線的寬度代表相似度的大??;“from”列表示為影響方,“to”列表示滯后方。
由圖3可知,主題滯后影響聯(lián)系強(qiáng)度分布基本符合主題演化規(guī)律,時(shí)期間隔越遠(yuǎn)的主題相似度越低,影響強(qiáng)度越小。隨著時(shí)間的推移,連線的寬度變大,這也體現(xiàn)了國內(nèi)外期刊論文研究主題相似度不斷加大,側(cè)面體現(xiàn)了該領(lǐng)域成熟度的加強(qiáng),國內(nèi)外研究路徑日趨同一和明晰。
綜合來看,圖3中的兩張圖分別代表兩個(gè)滯后方向,左圖為國外期刊論文主題對(duì)國內(nèi)期刊論文主題的影響,圖中所有元素塊值總和為62.66;右圖為國內(nèi)期刊論文主題對(duì)國外期刊論文主題的影響,圖中所有元素塊值總和為57.76。元素塊數(shù)值總和越大,說明該滯后方向越顯著。由總和可知,左圖所示滯后方向更顯著。
圖3 滯后影響強(qiáng)度桑基圖
由于每個(gè)元素塊對(duì)應(yīng)有聯(lián)結(jié)的時(shí)間片數(shù)不一致,比較單個(gè)元素塊值不能直觀地判斷影響度最大的時(shí)間片,因此,需要計(jì)算每個(gè)時(shí)間片影響方與滯后方的平均相似度(表4)。結(jié)果表明,從影響方視角來看,2007年國外期刊論文主題對(duì)國內(nèi)期刊論文主題相似的平均數(shù)最大,約為0.40,表明該年份的國外期刊論文主題與其后出現(xiàn)的國內(nèi)期刊論文主題相似度高,也就是說,該年份的國外期刊論文主題對(duì)國內(nèi)期刊論文主題的影響度較高。從滯后方視角來看,2008年國內(nèi)期刊論文主題對(duì)國外期刊論文主題相似度的平均數(shù)最大,為0.43,受影響的程度最大。從內(nèi)容分析角度來看,國內(nèi)數(shù)據(jù)挖掘領(lǐng)域的研究在2008年后更多的對(duì)國外相關(guān)理論技術(shù)進(jìn)行了引入與優(yōu)化的發(fā)展。
表4 2002—2019年影響方與滯后方的相似度平均數(shù)
綜上可知,數(shù)據(jù)挖掘領(lǐng)域的主題影響方向可基本確定為國外研究影響國內(nèi)研究,即國內(nèi)研究主題對(duì)應(yīng)國外研究主題的發(fā)展具有一定的滯后性。
3.2.5 主題滯后期判別
滯后效應(yīng)的分析需要計(jì)算兩個(gè)固定影響方向、間隔固定時(shí)期的主題信息之間的相似度,相似度最大的間隔時(shí)期就是該影響方向下的滯后期。為了直觀地對(duì)比不同方向滯后水平差異,并判別出最顯著滯后期,本文基于實(shí)際情況,設(shè)定最大可滯后9期。根據(jù)相似度矩陣的數(shù)據(jù)(見表3),計(jì)算出每個(gè)滯后期內(nèi)涉及的所有時(shí)期相似度的平均數(shù),作為該滯后期的滯后比例系數(shù)。以橫軸為劃分的滯后期,以縱軸為相似度平均水平,根據(jù)正、反向影響方向,做出滯后系數(shù)折線圖(考慮滯后情況僅展現(xiàn)滯后9期內(nèi)的結(jié)果),如圖4所示。
圖4 滯后系數(shù)圖
由圖4可知,國內(nèi)期刊論文研究主題內(nèi)容滯后于國外期刊論文研究主題,滯后3~5期的滯后比例系數(shù)較高,滯后3期的系數(shù)達(dá)到最大值(0.386),滯后效應(yīng)最為顯著,此后的滯后性加速減弱,滯后關(guān)系也逐漸淡化。因此,國外期刊論文研究主題對(duì)國內(nèi)期刊論文研究主題影響的最顯著滯后期為3年,即當(dāng)前國外期刊論文研究主題對(duì)3年后國內(nèi)期刊論文研究主題的影響強(qiáng)度最大,受到滯后影響的主題比例約為38.6%。
本節(jié)運(yùn)用ARDL模型,探究1996—2019年國內(nèi)外數(shù)據(jù)挖掘領(lǐng)域的論文發(fā)表量在時(shí)間維度上的分布情況以及兩者之間的滯后性關(guān)系,從數(shù)量層面印證并量化計(jì)算國內(nèi)外同一學(xué)科領(lǐng)域研究的滯后性。
3.3.1 構(gòu)建時(shí)間序列
時(shí)間序列,是指基于時(shí)間片的時(shí)序關(guān)系形成發(fā)文量數(shù)值的時(shí)間序列,數(shù)據(jù)挖掘領(lǐng)域國內(nèi)期刊發(fā)表量CN與國外期刊發(fā)表量EN為兩時(shí)間序列,兩者具體數(shù)據(jù)如表5所示。
表5 1996—2019年國內(nèi)外期刊發(fā)文數(shù)量(單位:篇)
將其繪制于x軸表示年份、y軸表示發(fā)表論文數(shù)量的坐標(biāo)軸上,構(gòu)成了國內(nèi)外期刊發(fā)文量趨勢(shì)對(duì)比折線圖(圖5)。
3.3.2 平穩(wěn)性檢驗(yàn)
本文運(yùn)用Eviews 9.0計(jì)量經(jīng)濟(jì)學(xué)軟件,采用ADF檢驗(yàn)方法,對(duì)CN序列進(jìn)行平穩(wěn)性檢驗(yàn),結(jié)果如圖6所示。
由圖6中的檢驗(yàn)結(jié)果可知,在原始時(shí)間序列下,無截距項(xiàng)(Ⅰntercept)與趨勢(shì)項(xiàng)(Trend)(存在趨勢(shì)項(xiàng)則非平穩(wěn)),CN的P值(Prob.)在1%、5%、10%的顯著性水平下均無法通過平穩(wěn)性檢驗(yàn),因此,均不能拒絕序列有單位根的假設(shè),存在單位根則為非平穩(wěn)序列。因此,需要將原始時(shí)間序列CN進(jìn)行一次差分,并添加截距項(xiàng),得到一階差分后的D(CN)序列,如圖7所示。
圖5 國內(nèi)外期刊發(fā)文量趨勢(shì)對(duì)比折線圖(單位:篇)
圖6 CN單位根檢驗(yàn)結(jié)果
圖7 D(CN)單位根檢驗(yàn)結(jié)果
D(CN)的ADF統(tǒng)計(jì)量在置信區(qū)間取10%時(shí),3種顯著性水平下P值均小于10%,說明在10%的置信區(qū)間內(nèi),一階差分后的時(shí)間序列數(shù)據(jù)CN拒絕了序列有單位根的假設(shè),序列平穩(wěn),則可以判斷D(CN)為平穩(wěn)時(shí)間序列,即一階單整時(shí)間序列,記為CN-Ⅰ(1)。
同樣地,運(yùn)用Eviews 9.0計(jì)量經(jīng)濟(jì)學(xué)軟件,采用ADF檢驗(yàn)方法,對(duì)EN序列進(jìn)行平穩(wěn)性檢驗(yàn),檢驗(yàn)結(jié)果如圖8所示。
圖8 EN單位根檢驗(yàn)結(jié)果
從圖8檢驗(yàn)結(jié)果可知,與時(shí)間序列CN類似,原始時(shí)間序列EN的ADF統(tǒng)計(jì)量絕對(duì)值均低于三個(gè)標(biāo)準(zhǔn)值,P值大于10%的顯著性水平,均不能拒絕序列有單位根的假設(shè),則為非平穩(wěn)序列。差分一次為一階序列D(EN)后,P值處于10%的置信區(qū)間內(nèi),需拒絕零假設(shè),不存在單位根,則序列平穩(wěn)(圖9)。因此,判斷D(EN)為平穩(wěn)時(shí)間序列,稱為一階單整時(shí)間序列,記為EN-Ⅰ(1)。
圖9 D(EN)單位根檢驗(yàn)結(jié)果
3.3.3 協(xié)整性檢驗(yàn)
經(jīng)過平穩(wěn)性檢驗(yàn)之后可知,CN-Ⅰ(1)、EN-Ⅰ(1)這兩個(gè)序列均是一階單整,符合建立協(xié)整檢驗(yàn)的前提條件,因此,可以繼續(xù)對(duì)一階差分后的D(CN)與D(EN)進(jìn)行協(xié)整性檢驗(yàn)。
由于協(xié)整關(guān)系對(duì)滯后階數(shù)的選擇非常敏感,因此,首先建立VAR模型(圖10),以確定最優(yōu)滯后階數(shù)。由圖10可以看出,符合最多滯后選取標(biāo)準(zhǔn)(criteria)的滯后階數(shù)為5(相關(guān)指標(biāo)含有3個(gè)*),因此,可以確定最優(yōu)滯后階數(shù)為5。
圖10 VAR模型
然后,進(jìn)行Johansen協(xié)整檢驗(yàn),包含時(shí)間趨勢(shì)項(xiàng),檢驗(yàn)結(jié)果如圖11所示。
圖11 D(CN)與D(EN)協(xié)整檢驗(yàn)結(jié)果
由圖11可以得出,在跡統(tǒng)計(jì)量(trace statistics)以及最大根統(tǒng)計(jì)量(max-eigen statistics)檢驗(yàn)中,判別顯著性水平為5%的情況下,第一個(gè)P值小于5%的顯著性水平,接受協(xié)整關(guān)系不存在的第一原假設(shè);第二個(gè)P值大于5%顯著性水平,拒絕至多一個(gè)協(xié)整方程的第二原假設(shè)。這可說明D(CN)與D(EN)之間存在一個(gè)協(xié)整關(guān)系。
綜上所述,數(shù)據(jù)挖掘領(lǐng)域國外期刊論文發(fā)表數(shù)與國內(nèi)期刊論文發(fā)表數(shù)的年度數(shù)據(jù)均具有時(shí)間序列平穩(wěn)性且一階單整,并且兩者之間存在唯一協(xié)整關(guān)系,即國外期刊發(fā)文量與國內(nèi)期刊發(fā)文量具有長(zhǎng)期穩(wěn)定的關(guān)系,符合構(gòu)建ARDL模型的數(shù)據(jù)要求。
3.3.4 ARDL建模
根據(jù)前面確定的EN與CN分別為因變量與自變量以及初始構(gòu)建模型形式,見公式(5),構(gòu)建ARDL模型,經(jīng)Eviews 9.0運(yùn)算后相關(guān)系數(shù)如圖12所示。
圖12 ARDL建模結(jié)果
從圖12可知,在AⅠC標(biāo)準(zhǔn)下,選擇的模型為ARDL(1,6)在滯后期為5時(shí),D(CN(-5))的系數(shù)(coefficient)的相比其他滯后系數(shù)有最大正向取值,且P值小于5%,說明滯后項(xiàng)D(CN(-5))對(duì)D(EN)具有最顯著的正向影響。因此,回歸模型可寫為
在此前或后滯后項(xiàng)的滯后系數(shù)均為負(fù)且不顯著,不予考慮。D(CN(-5))的滯后系數(shù)表明滯后影響系數(shù)為1.431913,實(shí)際意義為數(shù)據(jù)挖掘領(lǐng)域國外期刊發(fā)文量對(duì)于國內(nèi)發(fā)表量的顯著影響具有5年的滯后期。
構(gòu)建ARDL模型后,需對(duì)模型進(jìn)行評(píng)估來判斷模型的擬合效果。從圖12的參數(shù)估計(jì)結(jié)果,可以直觀判斷該模型R2數(shù)值與F統(tǒng)計(jì)量(F-statistic)均較高,表明模型顯著性較高。從圖13中參數(shù)估計(jì)的實(shí)際值(actual value)、擬合值(fitted value)、殘差(residual)的可視化結(jié)果來看,殘差分布圍繞零上下波動(dòng),基本不具備明顯趨勢(shì)與可預(yù)測(cè)性,且實(shí)際值與擬合值波動(dòng)差別小,初步說明殘差具有隨機(jī)性,且模型擬合效果好。
圖13 實(shí)際值、擬合值、殘差序列圖
采用Q值檢驗(yàn)法,得出殘差自相關(guān)和偏自相關(guān)系圖,如圖14所示。P值均大于5%的置信區(qū)間(若P值均較低,則殘差中可能還存在自相關(guān)關(guān)系),Q值增大趨勢(shì)明顯且數(shù)值大,AC(自相關(guān)系數(shù))與PAC(偏自相關(guān)系數(shù))分布差別顯著,可以確定模型殘差序列為白噪聲序列,說明已有模型擬合效果良好,可以停止建模。
圖14 殘差自相關(guān)和偏自相關(guān)圖
3.3.5 數(shù)量滯后性判定
本文得出的ARDL模型能夠可靠地探測(cè)數(shù)據(jù)挖掘領(lǐng)域國內(nèi)外期刊論文發(fā)表數(shù)量上的影響滯后關(guān)系,國外期刊發(fā)文量對(duì)國內(nèi)期刊發(fā)文量具有長(zhǎng)期的影響關(guān)系,且滯后期為5年,滯后影響系數(shù)為1.431913。
在同一學(xué)科領(lǐng)域內(nèi),國內(nèi)外學(xué)者們的研究水平與層次存在差異,并在某種程度上表現(xiàn)為一定的滯后性。本文基于國內(nèi)外核心期刊的學(xué)科領(lǐng)域研究論文主題和數(shù)量滯后性測(cè)度方法與步驟的基礎(chǔ)上,選取了1996—2019年間數(shù)據(jù)挖掘領(lǐng)域的國內(nèi)外核心期刊論文進(jìn)行了滯后性實(shí)證分析,研究結(jié)果表明,本文所設(shè)計(jì)的方法可有效揭示該領(lǐng)域在國內(nèi)外核心期刊論文的滯后方向、滯后期,并得出以下結(jié)論:
(1)在數(shù)據(jù)挖掘領(lǐng)域,本文通過論文主題滯后性的分析發(fā)現(xiàn),國內(nèi)外研究主題的共性逐漸增強(qiáng),滯后方向?yàn)閲鴥?nèi)期刊論文主題滯后于國外期刊論文主題,最顯著滯后期為3年,受到滯后影響的主題比重約為38.6%。在2007年,國外期刊論文主題對(duì)國內(nèi)期刊論文主題綜合影響程度較大;2008年,國內(nèi)期刊論文主題受國外期刊論文主題的影響最大。
(2)在數(shù)據(jù)挖掘領(lǐng)域,本文通過論文數(shù)量滯后性的分析發(fā)現(xiàn),滯后方向?yàn)閲鴥?nèi)期刊論文數(shù)量滯后于國外期刊論文數(shù)量,其滯后期為5年。同時(shí),國內(nèi)外期刊發(fā)文量之間存在相互影響的關(guān)系,滯后影響系數(shù)為1.431913。
研究結(jié)果表明,本文所提出的國內(nèi)外同一學(xué)科領(lǐng)域滯后性測(cè)度的方法與步驟,在一定程度上彌補(bǔ)了已有的對(duì)科研滯后性研究缺乏定量方法的不足,且對(duì)于其他科學(xué)研究領(lǐng)域的滯后性測(cè)度也具有普遍的適用性。然而,本文也存在一些不足,例如,在實(shí)證分析中,僅以“數(shù)據(jù)挖掘”作為主題來檢索期刊論文文獻(xiàn),沒有采用與數(shù)據(jù)挖掘相關(guān)的詞匯,從而導(dǎo)致檢索結(jié)果不全面;僅對(duì)國內(nèi)外期刊論文進(jìn)行實(shí)證分析,而沒有考慮學(xué)術(shù)會(huì)議論文,這在一定程度上代表不了學(xué)科領(lǐng)域真實(shí)的水平;從主題維度進(jìn)行的數(shù)據(jù)挖掘領(lǐng)域滯后性實(shí)證分析還可進(jìn)一步細(xì)化,如將數(shù)據(jù)挖掘領(lǐng)域劃分為理論與應(yīng)用維度來進(jìn)行滯后性對(duì)比,實(shí)現(xiàn)多維度分析。