張亞成 夏換 楊秀璋 于小民 朱滌塵 竇悅琪
摘要:針對(duì)目前紅學(xué)研究主題繁多且學(xué)術(shù)成果數(shù)量龐大,對(duì)核心作者及其文獻(xiàn)篩選工作困難的問(wèn)題,該文提出了一種基于綜合指數(shù)和可視化分析的紅學(xué)熱門主題及核心作者研究方法,篩選出九大熱門主題,并從多方面分析了評(píng)估紅學(xué)核心作者的因素,從多個(gè)角度分析了紅學(xué)研究文獻(xiàn)的特性,研究其特征和主旨。該文采用Python語(yǔ)言進(jìn)行了詳細(xì)的實(shí)驗(yàn),分析了紅學(xué)核心作者與其作品的聯(lián)系,挖掘出作品研究?jī)r(jià)值高且適用性廣的核心作者。實(shí)驗(yàn)結(jié)果表明該算法具有一定的理論意義和研究?jī)r(jià)值,可以應(yīng)用到作者推薦、文獻(xiàn)分析等領(lǐng)域,同時(shí)能優(yōu)化紅學(xué)研究方式,推動(dòng)紅學(xué)研究發(fā)展。
關(guān)鍵詞:紅學(xué);核心作者;綜合指數(shù);Python;普賴斯定律
中圖分類號(hào):1207.411 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)32-0023-04
1基于綜合指數(shù)分析紅學(xué)核心作者的必要性
《紅樓夢(mèng)》是中國(guó)歷代以來(lái)唯一以一本書的研究,而建立起一門專門學(xué)問(wèn)的作品,這就是大家所稱的“紅學(xué)”。進(jìn)入“紅學(xué)”圈子的人,上至高層官員、國(guó)學(xué)大家、著名作家,下至普通的研究者,人數(shù)之眾多,可與西方的“莎士比亞學(xué)”相媲美。
目前我國(guó)紅學(xué)研究主題繁多,每年有大量文獻(xiàn)被收錄,同時(shí)不乏大量商業(yè)炒作和虛假文獻(xiàn),為廣大紅學(xué)學(xué)者對(duì)核心作者和文獻(xiàn)的篩選和研究帶來(lái)的很大阻礙。針對(duì)以上問(wèn)題,本文提出了一種基于綜合指數(shù)的分析方法,通過(guò)該算法結(jié)合可視化分析,可以直觀反映出熱門主題的核心作者。本文旨在分析出熱門主題文獻(xiàn)和其核心作者之間的關(guān)系,從多個(gè)角度挖掘紅學(xué)主題,利用綜合指數(shù)分析方法對(duì)收集到的紅學(xué)文獻(xiàn)數(shù)據(jù),從而得出核心作者群體,并利用數(shù)據(jù)可視化技術(shù)進(jìn)行直觀展現(xiàn)。
本文實(shí)驗(yàn)數(shù)據(jù)集是CNKI收錄的19598篇紅學(xué)文獻(xiàn)的相關(guān)數(shù)據(jù)。主要步驟是利用Python技術(shù)自定義爬取CNKI的相關(guān)數(shù)據(jù),構(gòu)建詞云和綜合指數(shù)分析等模型分析文獻(xiàn)信息,從多個(gè)角度挖掘熱門主題和文獻(xiàn)的關(guān)系,根據(jù)提取的特征預(yù)測(cè)核心作者。實(shí)驗(yàn)結(jié)果表明,本文提出的算法可以有效挖掘出紅學(xué)熱門主題有價(jià)值的信息,包括核心文獻(xiàn)的下載量、被引量等;該方法可以給紅學(xué)研究者甄別文獻(xiàn)質(zhì)量,快速篩選熱門話題相關(guān)核心作者,從而為研究者學(xué)習(xí)、引用紅學(xué)核心文獻(xiàn)提供幫助,具有重要的理論意義和實(shí)際應(yīng)用價(jià)值,可廣泛應(yīng)用于紅學(xué)研究事業(yè),優(yōu)化紅學(xué)研究方式,推動(dòng)紅學(xué)研究發(fā)展。
2紅學(xué)文獻(xiàn)和核心作者的相關(guān)研究現(xiàn)狀
核心作者是對(duì)本學(xué)科研究的發(fā)展具有較大貢獻(xiàn)的科研人員,同時(shí)也是期刊學(xué)術(shù)影響力、競(jìng)爭(zhēng)力的重要貢獻(xiàn)者,他們影響著期刊的生存與發(fā)展,對(duì)核心作者進(jìn)行測(cè)評(píng)有助于學(xué)科研究和學(xué)術(shù)期刊的發(fā)展嘲。目前對(duì)文獻(xiàn)的研究主要分為文獻(xiàn)分析、核心作者算法分析兩方面。高淮生對(duì)紅學(xué)高端論壇的學(xué)術(shù)內(nèi)容進(jìn)行綜述。崔淼對(duì)近三十年作者的文獻(xiàn)、學(xué)術(shù)思想進(jìn)行了評(píng)述,分析具有代表性的觀點(diǎn),總結(jié)近三十年來(lái)《紅樓夢(mèng)》作者新說(shuō)的研究路徑、文化傳統(tǒng)、新變及局限,反思作者研究之于《紅樓夢(mèng)》這部傳統(tǒng)小說(shuō)經(jīng)典的價(jià)值所在,并引入基于“闡釋循環(huán)”理論的理想作者研究模式。高源對(duì)《紅樓夢(mèng)》的哲學(xué)性進(jìn)行了考辨,分析其能否進(jìn)入哲學(xué)的視閾并成為嚴(yán)格意義上中國(guó)哲學(xué)研究的一個(gè)領(lǐng)域。楊子倩等通過(guò)對(duì)《紅樓夢(mèng)》中家具相關(guān)文獻(xiàn)的互證,研究《紅樓夢(mèng)》中與桌案相關(guān)的物質(zhì)文化細(xì)節(jié)鑒古知今,以期為了解《紅樓夢(mèng)》的器物文化和研究家具文化與禮制提供參考意義。朱淡文對(duì)《紅樓夢(mèng)》文獻(xiàn)學(xué)提出了研究綜述,在??闭砑凹t學(xué)資料的搜集匯編等方面皆取得了重要收獲。
在核心作者算法分析方面,鐘文娟基于普賴斯定律和綜合指數(shù)法對(duì)《圖書館建設(shè)》的核心作者進(jìn)行分析測(cè)評(píng)。段和平等對(duì)核心作者群和期刊發(fā)文的意義做出了探討。張磊以《現(xiàn)代大學(xué)教育》為例,探究了如何建立積極互動(dòng)的“雜志與作者(讀者)關(guān)系”。李智毅等對(duì)公開(kāi)發(fā)表的學(xué)術(shù)文獻(xiàn)數(shù)據(jù)為基礎(chǔ),采用文獻(xiàn)計(jì)量學(xué)等方法和多種專業(yè)工具組合,對(duì)國(guó)內(nèi)軍民融合研究文獻(xiàn)的作者進(jìn)行了多方位的研究,以發(fā)掘相關(guān)領(lǐng)域的核心作者。杜宇等對(duì)我國(guó)醫(yī)學(xué)論文進(jìn)行綜合評(píng)測(cè)篩選,了解檢驗(yàn)醫(yī)學(xué)重要期刊和核心作者,為醫(yī)學(xué)人員的研究提供幫助。
這些文獻(xiàn)研究或核心作者算法研究通常是利用文獻(xiàn)計(jì)量學(xué)方法對(duì)某一小部分學(xué)科的核心作者進(jìn)行研究,或是僅僅從學(xué)術(shù)角度對(duì)紅學(xué)進(jìn)行分析,沒(méi)有將核心作者的算法研究和紅學(xué)文獻(xiàn)研究相結(jié)合,深層次對(duì)紅學(xué)核心作者及其文獻(xiàn)進(jìn)行挖掘。本文將引入綜合指數(shù)分析、WordCloud等方法,結(jié)合可視化技術(shù)從多個(gè)角度深層次挖掘紅學(xué)核心作者及其文獻(xiàn),更好地優(yōu)化紅學(xué)研究產(chǎn)業(yè),為紅學(xué)學(xué)者提供幫助。
3紅學(xué)文獻(xiàn)熱門主題核心作者分析及可視化研究過(guò)程
3.1系統(tǒng)架構(gòu)
本文旨在對(duì)CNKI收錄的19598篇紅學(xué)文獻(xiàn)進(jìn)行數(shù)據(jù)分析,其系統(tǒng)框架如圖1所示,主要包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析、實(shí)驗(yàn)分析及結(jié)果評(píng)估四個(gè)步驟,具體流程如下:
(1)首先采用Python自定義爬蟲(chóng)抓取文獻(xiàn)數(shù)據(jù)。
(2)對(duì)收集到的數(shù)據(jù)進(jìn)行預(yù)處理操作,包括異常值處理、數(shù)據(jù)清洗、缺失值補(bǔ)齊等操作。
(3)數(shù)據(jù)分析主要包括可視化分析和算法分析。通過(guò)echarts、熱點(diǎn)詞云等方式直觀展示影響紅學(xué)熱門主題及文獻(xiàn)的相關(guān)因素,利用綜合指數(shù)分析方法深層次挖掘熱門話題和核心作者的關(guān)系。
(4)最后評(píng)估實(shí)驗(yàn)結(jié)果,得出結(jié)論。
3.2數(shù)據(jù)采集
本文使用Pvthon自定義爬蟲(chóng)對(duì)CNKI紅學(xué)相關(guān)文獻(xiàn)進(jìn)行抓取,并將信息存儲(chǔ)到本地excel。圖2是CNKI文獻(xiàn)《“歷史回顧與未來(lái)展望——《紅樓夢(mèng)》文獻(xiàn)學(xué)研究高端論壇”學(xué)術(shù)綜述》對(duì)應(yīng)的頁(yè)面,包括題名、作者、來(lái)源、發(fā)表時(shí)間、數(shù)據(jù)庫(kù)、被引次數(shù)和下載量等信息。
3.3數(shù)據(jù)預(yù)處理
在進(jìn)行數(shù)據(jù)分析之前,需要對(duì)所爬取的文獻(xiàn)數(shù)據(jù)進(jìn)行預(yù)處理操作,包括缺失值填充、異常值處理、數(shù)據(jù)清洗等步驟,其目的是為了保證數(shù)據(jù)的質(zhì)量和標(biāo)準(zhǔn),從而保證分析的準(zhǔn)確性。本文的數(shù)據(jù)預(yù)處理操作過(guò)程包括:
(1)缺失值填充。在爬取文獻(xiàn)數(shù)據(jù)的過(guò)程中,存在缺失部分信息例如作者信息、下載量等情況,在標(biāo)記缺失項(xiàng)后,利用定向爬取補(bǔ)全數(shù)據(jù),部分?jǐn)?shù)據(jù)采用手動(dòng)填充。
(2)異常值處理。所爬取的小部分文獻(xiàn)數(shù)據(jù)不符合實(shí)際情況,如無(wú)作者、部分?jǐn)?shù)值為0等,此時(shí)采用excel排序后進(jìn)行定向校驗(yàn)。
(3)數(shù)據(jù)清洗。原始數(shù)據(jù)中存在重復(fù)發(fā)文和與紅學(xué)相關(guān)性較低的文獻(xiàn),比如學(xué)者逝世訃告等,需要?jiǎng)h除重復(fù)項(xiàng)、篩選無(wú)關(guān)項(xiàng)進(jìn)行處理。
最終得出從1954年到2019年5月的19589篇紅學(xué)相關(guān)學(xué)術(shù)成果如表1所示。
3.4詞云分析
“詞云”是對(duì)數(shù)據(jù)文本中出現(xiàn)頻率較高的熱點(diǎn)詞,予以視覺(jué)突出,使瀏覽者可以很快了解文本的主旨,主要利用文本挖掘和可視化技術(shù)。本文中使用的詞云是在Python中,通過(guò)安裝WordCloud詞云擴(kuò)展包以形成的詞云圖片。
本文主要對(duì)紅學(xué)熱門文獻(xiàn)的題材及標(biāo)簽進(jìn)行分析來(lái)生成詞云。其流程如圖3所示。
3.5綜合指數(shù)
綜合指數(shù)分析是從評(píng)價(jià)紅學(xué)中9大熱門主題的作者人手,先采用普賴斯定律得出核心作者候選人,接著選用發(fā)文量和被引量這兩項(xiàng)指標(biāo)得出該作者的質(zhì)量指標(biāo)值,也就是該作者在熱門主題學(xué)術(shù)成果中的平均指標(biāo)值,最后比較各作者間的指標(biāo)值大小,得出最終的核心作者群。
4實(shí)驗(yàn)分析及結(jié)果評(píng)估
4.1紅學(xué)近十五年發(fā)展綜述可視化分析
如表2所示,篩選出2004年至2018年的所有學(xué)術(shù)成果,包括發(fā)文量、第一引用量和第一下載量,如圖4所示。紅學(xué)的學(xué)術(shù)成果發(fā)文量在2011年達(dá)到頂峰,隨后呈現(xiàn)下降趨勢(shì),可見(jiàn)有關(guān)紅學(xué)的研究熱度有所減弱,第一引用量和下載量亦是如此。其中,引用量第一的是2005年童慶炳在北京大學(xué)學(xué)報(bào)發(fā)表的《文學(xué)經(jīng)典建構(gòu)諸因素及其關(guān)系》,被引用230次;下載量第一的是2009年湖南師范大學(xué)鄧娜發(fā)表的碩士論文《<簡(jiǎn)·愛(ài)>與<紅樓夢(mèng)>女主人公形象的比較研究——中西文化互觀中的簡(jiǎn)·愛(ài)與林黛玉》,被下載10473次。由此可見(jiàn),不少相關(guān)文獻(xiàn)是采用紅樓夢(mèng)本身或是其中人物事件作為案例或交叉比較研究,所以要在眾多文獻(xiàn)中準(zhǔn)確找出需要的研究點(diǎn),還是有一定難度。因此,篩選總結(jié)出熱門主題的核心作者是十分有必要的。
4.2主題詞詞云分析
利用python的wordeloud詞云技術(shù),對(duì)爬取的19598條紅學(xué)學(xué)術(shù)成果以主題詞為關(guān)鍵詞,形成熱門詞云,如圖5所示。其中,“紅樓夢(mèng)”出現(xiàn)次數(shù)最多共14602次,但由于紅樓夢(mèng)與紅學(xué)本是同源,所以該主題不納入計(jì)算核心作者群的候選熱門主題中。剩余主題選取總占比超過(guò)2%的9個(gè)主題,即“翻譯”“小說(shuō)”“人物形象”“曹雪芹”“清代”“林黛玉”“悲劇”“后四十回”和“賈寶玉”,出現(xiàn)頻次分別是3216次、789次、749次、693次、675次、526次、465次、417次和380次。
其中,score;表示第i位核心作者候選人的綜合指標(biāo)數(shù),xi表示其總發(fā)文量,Yi表示其總被引量。發(fā)文量和被引量的系數(shù)都為0.5。
運(yùn)用此公式對(duì)76位九大主題核心作者候選人進(jìn)行計(jì)算,得出如表4所示的前18位綜合指數(shù)超過(guò)1的核心作者。其中劉澤權(quán)發(fā)表相關(guān)文獻(xiàn)25篇,被引次數(shù)594次,綜合指數(shù)為5.758;洪濤發(fā)表相關(guān)文獻(xiàn)25篇,被引次數(shù)337次,綜合指數(shù)為3.865;江帆發(fā)表相關(guān)文獻(xiàn)11篇,被引次數(shù)421次,綜合指數(shù)為3.709。這種多方面指標(biāo)的方法計(jì)算核心作者的方法更加準(zhǔn)確客觀,具有很高的參考價(jià)值。
5結(jié)束語(yǔ)
傳統(tǒng)紅學(xué)分析方法普遍利用文獻(xiàn)計(jì)量學(xué)的方法對(duì)文獻(xiàn)進(jìn)行分析,步驟較為煩瑣,效率較低,工作量大,沒(méi)有結(jié)合可視化分析對(duì)現(xiàn)有文獻(xiàn)進(jìn)行深層次挖掘。針對(duì)這一情況,本文提出了基于綜合指數(shù)的核心作者研究,結(jié)合數(shù)據(jù)可視化,得出以下結(jié)論:
(1)紅學(xué)近十五年發(fā)展綜述可視化分析顯示紅學(xué)文獻(xiàn)引用量第一的是2005年童慶炳在北京大學(xué)學(xué)報(bào)發(fā)表的《文學(xué)經(jīng)典建構(gòu)諸因素及其關(guān)系》,下載量第一的是2009年湖南師范大學(xué)鄧娜發(fā)表的碩士論文《<簡(jiǎn)·愛(ài)>與<紅樓夢(mèng)>女主人公形象的比較研究——中西文化互觀中的簡(jiǎn)·愛(ài)與林黛玉》,可見(jiàn)紅學(xué)中人物案例和其他文學(xué)作品交叉比較這一方向是較為熱門的研究方向。
(2)主體詞云分析得出“紅樓夢(mèng)”是研究的核心內(nèi)容,“曹雪芹”“小說(shuō)”“翻譯”“人物形象”是比較熱門的研究題材。
(3)綜合指數(shù)算法對(duì)核心作者候選人進(jìn)行篩選,通過(guò)構(gòu)建綜合指數(shù)模型得出了發(fā)表文獻(xiàn)最具有參考和研究?jī)r(jià)值的18名核心作者,他們的綜合指數(shù)指標(biāo)最高。
綜上,本文提出的研究方法可以對(duì)紅學(xué)相關(guān)文獻(xiàn)進(jìn)行了有效挖掘和分析,這對(duì)于紅學(xué)相關(guān)研究者以及對(duì)紅學(xué)感興趣的學(xué)者都具有良好的參考價(jià)值,避免了文獻(xiàn)過(guò)多而無(wú)法精準(zhǔn)找到所需要的主題和作者的情況。實(shí)驗(yàn)證明用這樣的方法識(shí)別出核心作者是可行的,同樣對(duì)于其他學(xué)術(shù)領(lǐng)域的文獻(xiàn)檢索也可以同樣實(shí)現(xiàn),這樣大大減少了人工篩選的過(guò)程,提高了學(xué)習(xí)的效率和研究的準(zhǔn)確性。此外,本文對(duì)于傳播弘揚(yáng)紅學(xué)文化也具有一定的宣傳意義,有望再次激發(fā)起各學(xué)者對(duì)于紅學(xué)文化的研究興趣與熱情,推動(dòng)紅學(xué)研究的發(fā)展與進(jìn)步。