謝林蕾 向熠 章成志,2
1. 南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院信息管理系 南京 210094
2. 富媒體數(shù)字出版內(nèi)容組織與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室 北京 100038
近年來,隨著數(shù)字化技術(shù)的快速發(fā)展,傳統(tǒng)出版業(yè)愈發(fā)受到數(shù)字出版的沖擊,它們開始主動(dòng)尋求與數(shù)字出版的“融合”[1]。在此背景下,“融合出版”模式應(yīng)運(yùn)而生。作為一種新興的出版模式,融合出版可實(shí)現(xiàn)傳統(tǒng)出版與數(shù)字出版的共贏。借助互聯(lián)網(wǎng)等技術(shù)傳播快、成本低、影響力大的優(yōu)勢(shì)[2],融合出版可改善傳統(tǒng)出版內(nèi)容有限、發(fā)行渠道單一、出版周期較長(zhǎng)且更新較慢的缺點(diǎn)[3-4],更好地促進(jìn)知識(shí)傳播。自2014 年以來,融合出版開始引起學(xué)者的關(guān)注。之后,關(guān)于融合出版的相關(guān)研究文獻(xiàn)數(shù)量不斷增長(zhǎng)。根據(jù)關(guān)鍵詞知網(wǎng)節(jié)的統(tǒng)計(jì)結(jié)果顯示,知網(wǎng)文獻(xiàn)庫中每年發(fā)表的中文文獻(xiàn)數(shù)量從2017 年前的不足10 篇已增長(zhǎng)到現(xiàn)今的100 篇以上,2022 年相關(guān)文獻(xiàn)數(shù)量已達(dá)125 篇①檢索日期為2023 年8 月16 日。面對(duì)融合出版領(lǐng)域科技文獻(xiàn)數(shù)量爆炸式增長(zhǎng)的現(xiàn)象,前沿研究愈發(fā)表現(xiàn)出其必要性。然而,如何對(duì)研究前沿進(jìn)行更為精準(zhǔn)的定位是科研工作者在科研選題時(shí)經(jīng)常面臨的問題。未來研究能夠盡早捕捉研究領(lǐng)域未來的新興與熱點(diǎn)話題,幫助科研人員確定研究領(lǐng)域與對(duì)象,有針對(duì)性地開展研究。
學(xué)者通常在學(xué)術(shù)論文最后提出論文的未來研究工作展望,表明今后進(jìn)一步的研究工作方向。本文將論文中描述未來研究工作的句子稱為“未來工作句”。系統(tǒng)性梳理和歸納特定領(lǐng)域的未來工作句,可以輔助我們更好地預(yù)測(cè)該領(lǐng)域的未來發(fā)展趨勢(shì),為科研選題等提供有價(jià)值的參考。
本文以融合出版領(lǐng)域?yàn)檠芯繉?duì)象,從該領(lǐng)域的學(xué)術(shù)論文中抽取未來工作句并進(jìn)行分類,構(gòu)建未來工作句識(shí)別與分類語料庫,并在此基礎(chǔ)上訓(xùn)練機(jī)器學(xué)習(xí)模型從而實(shí)現(xiàn)未來工作句的自動(dòng)識(shí)別。另外,本文基于未來工作句分類語料庫對(duì)不同類別進(jìn)行分析,深入探究該領(lǐng)域的發(fā)展?fàn)顩r。該文研究可為融合出版領(lǐng)域未來發(fā)展提供一定的借鑒。
與本文相關(guān)的研究包括融合出版研究和未來工作句研究,本節(jié)從這兩個(gè)角度對(duì)相關(guān)工作進(jìn)行概述。
國(guó)內(nèi)對(duì)“融合出版”的針對(duì)性研究要追溯到2014 年[5]。曹繼東[5]提出,“融合出版”是在“媒介融合”學(xué)術(shù)語境下,順應(yīng)中國(guó)出版融合發(fā)展趨勢(shì),基于數(shù)字化技術(shù)和互聯(lián)網(wǎng)思維產(chǎn)生的新興出版現(xiàn)象,是解決傳統(tǒng)出版和數(shù)字出版融合發(fā)展問題的新興出版范式。
此前,國(guó)內(nèi)在數(shù)字技術(shù)融合與出版創(chuàng)新這一領(lǐng)域的研究對(duì)象主要是媒介融合與出版融合。媒介融合(Media Convergence) 的概念源于美國(guó),1983 年美國(guó)馬薩諸塞州理工大學(xué)的浦爾教授[6]在其《自由的科技》一書首次正式提出媒介融合的概念。2005 年,媒介融合的概念經(jīng)蔡雯教授引入到國(guó)內(nèi)。在她發(fā)表的有關(guān)“媒介融合”與“融合媒介”的文章中,引入了美國(guó)新聞學(xué)會(huì)媒介研究中心主任[7]對(duì)“融合媒介”的定義——印刷的、音頻的、視頻的、互動(dòng)性數(shù)字媒體組織之間的戰(zhàn)略的、操作的、文化的聯(lián)盟。然而,媒介融合與融合出版存在較大差異。媒介融合的研究主要側(cè)重在新聞傳媒業(yè)和電信業(yè)等的融合,較少涉及書刊出版業(yè)[8]。在該思想啟發(fā)下,從出版的視角出發(fā),出版業(yè)也被指出有探索和實(shí)踐融合發(fā)展的需要與必然[9]。
2010 年起,國(guó)內(nèi)逐漸興起關(guān)于數(shù)字出版與傳統(tǒng)出版融合的研究。2011 年,《新聞出版業(yè)“十二五”時(shí)期發(fā)展規(guī)劃》等都將數(shù)字出版納入重要扶持領(lǐng)域,加快傳統(tǒng)出版與數(shù)字出版的融合發(fā)展成為“十二五”時(shí)期產(chǎn)業(yè)發(fā)展的新目標(biāo)[10]。2012 年,開始有“出版融合”這一概念。在新聞出版體制改革和媒介融合背景下,出版融合成為新聞出版業(yè)的發(fā)展方向。但是同樣,其與“融合出版”仍是兩個(gè)不同的概念,前者側(cè)重于“融合”而后者則更側(cè)重于“出版”[11]。
融合出版作為一種建構(gòu)在數(shù)字化技術(shù)和互聯(lián)網(wǎng)平臺(tái)基礎(chǔ)上的新興出版范式[5],要求傳統(tǒng)出版與新興出版在內(nèi)容、渠道、平臺(tái)、經(jīng)營(yíng)、管理等方面進(jìn)行深度融合[12]。融合出版的目的在于實(shí)現(xiàn)出版內(nèi)容、技術(shù)應(yīng)用、平臺(tái)終端、人才隊(duì)伍的共享融通,從而構(gòu)建組織結(jié)構(gòu)、傳播體系和管理體系一體化發(fā)展路徑[8]。但這個(gè)新名詞提出之后的幾年間相關(guān)研究寥寥無幾。據(jù)知網(wǎng)文獻(xiàn)庫的中文文獻(xiàn)統(tǒng)計(jì)結(jié)果顯示,2019年后,國(guó)內(nèi)有關(guān)“融合出版”的研究數(shù)量才有了較大幅度的增長(zhǎng),2020 年發(fā)表的文獻(xiàn)數(shù)量已超百篇,且較2019 年幾乎翻了一番。至今,融合出版已成為較為熱門的研究話題。越來越多研究者關(guān)注融合出版背景下優(yōu)秀人才的培養(yǎng)[13-16],圖書編輯的素養(yǎng)提高[17-20]以及版權(quán)保護(hù)工作等[21]。然而,融合出版領(lǐng)域發(fā)展速度還是相對(duì)較慢,傳統(tǒng)出版業(yè)的數(shù)字化轉(zhuǎn)型正面臨比較大的技術(shù)困境[22],人才建設(shè)和機(jī)制創(chuàng)新上也有待突破。因此,我們需要更加精準(zhǔn)定位該領(lǐng)域的未來研究方向,從而促進(jìn)該領(lǐng)域更好更快發(fā)展。但目前國(guó)內(nèi)幾乎還沒有研究者關(guān)注融合出版的未來研究,為彌補(bǔ)這一缺失,本文將從此角度出發(fā),結(jié)合機(jī)器學(xué)習(xí)對(duì)融合出版領(lǐng)域進(jìn)行深入探索。
國(guó)內(nèi)外現(xiàn)如今針對(duì)未來工作方面的研究數(shù)量相對(duì)較少。Hu 等[23]在2015 年以信息檢索、文本挖掘和數(shù)字圖書館領(lǐng)域?yàn)槔?,開展未來工作挖掘問題。他們通過一種基于正則表達(dá)式的方法抽取學(xué)術(shù)文本中的未來工作句,并將其定義為問題、方法、評(píng)估和其他四個(gè)類別,通過對(duì)比不同特征與機(jī)器學(xué)習(xí)模型的組合,實(shí)現(xiàn)不同領(lǐng)域的未來工作句分類。這是對(duì)論文中的未來工作句展開的首次探索,其創(chuàng)新性研究成果極大地推動(dòng)了未來工作的開展。
隨后,Li 等[24]利用人工設(shè)定規(guī)則來識(shí)別未來工作句,從中提煉出關(guān)鍵詞并與標(biāo)題和摘要中關(guān)鍵詞進(jìn)行匹配,從而得到不同領(lǐng)域文獻(xiàn)與未來工作二者的概念上的聯(lián)系。Zhu 等[25]使用深度學(xué)習(xí)模型BERT 對(duì)2006—2016 年間JASIST 期刊論文上的1579 篇論文進(jìn)行未來工作句抽取,并用層次聚類方法確定了未來工作句的四種類別,即支持性的、方法性的、識(shí)別潛在影響因素的和提出未來目標(biāo)的。之后,也有一些研究人員開始使用規(guī)則匹配和BERT 相結(jié)合的方法來提取未來工作句[26]。近幾年Zhang等[27]使用機(jī)器學(xué)習(xí)模型對(duì)NLP 領(lǐng)域?qū)W術(shù)論文的未來工作句進(jìn)行研究,成功訓(xùn)練出具有較優(yōu)性能的自動(dòng)識(shí)別與分類模型[25,27-29]。但總體來看,針對(duì)未來工作句的研究數(shù)量較少,其大多是基于規(guī)則和統(tǒng)計(jì)的方法?;谝?guī)則的方法的優(yōu)勢(shì)在于分類精度高,操作也比較靈活方便,但規(guī)則必須具備足夠的代表性。而且,隨著類目的擴(kuò)大,需要設(shè)置的規(guī)則數(shù)量也會(huì)增加,從而使得規(guī)則的維護(hù)變得更加困難[30]。而基于機(jī)器學(xué)習(xí)的方法從一定程度上可以解決這些問題。本研究中也采用基于機(jī)器學(xué)習(xí)的方法進(jìn)行未來工作句挖掘研究。機(jī)器學(xué)習(xí)相較于以往傳統(tǒng)方法在文本分類任務(wù)上往往都能表現(xiàn)出較好的性能。但是,使用單一模型進(jìn)行分類難以全面地對(duì)文本進(jìn)行特征提取,而且易忽略上下文語義關(guān)系,從而導(dǎo)致模型的分類效果欠佳[31]。近幾年越來越多的研究者開始探索模型的改進(jìn)與融合,以提高分類效果[31]。
本研究通過對(duì)融合出版領(lǐng)域的學(xué)術(shù)論文未來工作句進(jìn)行挖掘研究來分析該領(lǐng)域的未來研究趨勢(shì),探測(cè)融合出版領(lǐng)域的前沿主題,發(fā)現(xiàn)該領(lǐng)域新興與熱點(diǎn)話題。研究以知網(wǎng)文獻(xiàn)庫中的融合出版領(lǐng)域中文論文全文本為數(shù)據(jù)來源,利用人工標(biāo)注得到未來工作句識(shí)別與分類語料庫;之后在識(shí)別語料庫上使用支持向量機(jī)、樸素貝葉斯和隨機(jī)森林三種機(jī)器學(xué)習(xí)模型與SelectKBest 特征選擇方法結(jié)合訓(xùn)練性能最優(yōu)的未來工作句自動(dòng)識(shí)別模型;最后在分類語料庫基礎(chǔ)上針對(duì)未來工作句類別進(jìn)行進(jìn)一步占比與統(tǒng)計(jì)分析。本文的研究框架如圖1 所示。
圖1 研究框架圖
2.1.1 用于未來工作句識(shí)別的分類語料標(biāo)注
由于本研究的研究對(duì)象是融合出版領(lǐng)域的論文,為了保證數(shù)據(jù)的準(zhǔn)確性與領(lǐng)域特性,本研究采用知網(wǎng)中通過查詢?cè)~為“融合出版”的篇名搜索得到的融合出版論文為研究對(duì)象,從人工篩選(篩選過程中過濾篇名中“融合出版”沒有作為整體出現(xiàn)的論文)后得到的447 篇文章中抽取研究數(shù)據(jù)構(gòu)建未來工作句語料庫。未來工作句的標(biāo)注主要分兩個(gè)階段,第一階段抽取期刊論文的未來工作相關(guān)章節(jié),第二階段從相關(guān)章節(jié)中抽取未來工作句。
第一階段是未來工作相關(guān)章節(jié)抽取。在抽取工作前,筆者觀察過大量該領(lǐng)域相關(guān)論文,發(fā)現(xiàn)未來工作句出現(xiàn)的位置幾乎都是文章末尾部分章節(jié)。這些章節(jié)主要分成兩種情況,一種是作者將未來工作單獨(dú)用一個(gè)章節(jié)來說明,章節(jié)名諸如“未來展望”“未來工作”等;另一類則是將未來工作放在文章總結(jié)性章節(jié)來論述,章節(jié)名諸如“小結(jié)”“總結(jié)”“結(jié)論”等。因此,本研究從論文的這些章節(jié)中抽取未來工作相關(guān)章節(jié)。之后筆者使用人工抽取的方式將每篇文章的篇名、發(fā)表年份以及未來工作相關(guān)章節(jié)抽出后用同一張工作表進(jìn)行存儲(chǔ),方便后續(xù)的研究與分析。
第二階段是未來工作句抽取,我們?cè)谥皹?gòu)建的工作表的基礎(chǔ)上進(jìn)行后續(xù)的未來工作句抽取工作。通過對(duì)語料進(jìn)行分析,總結(jié)出未來工作句總體特征,并且參考先前研究者在NLP領(lǐng)域的研究成果[27],總結(jié)出針對(duì)本研究語料庫內(nèi)未來工作句的判別標(biāo)準(zhǔn)。未來工作句的判別標(biāo)準(zhǔn)主要分成以下三種:
(1)對(duì)未來工作的直接提及,如“在未來工作中將進(jìn)一步探尋…” “未來還需…”。例句:“目前科技期刊傳統(tǒng)出版亟待數(shù)字化轉(zhuǎn)型,而信息產(chǎn)業(yè)的數(shù)字出版還不成熟,足以看出擁有全面數(shù)字化特征的科技期刊融合出版模式將成為未來的發(fā)展方向[32]。”
(2)包含引出未來工作的詞語,如“后續(xù)我們將…” “下一步我們將…”。例句:“因此,如何培養(yǎng)兼具專業(yè)知識(shí)和新媒體操作技能的“兩棲型”期刊編輯人才是后續(xù)研究的重要方向[33]?!?/p>
(3)承上啟下的連接句,如“本研究還需進(jìn)一步完善和深入” “未來的研究工作將具體包含以下幾個(gè)方面”。例句:“但是仍有不少可以開拓的空間[34]?!?/p>
本研究中,未來工作句抽取與標(biāo)注過程嚴(yán)格按照標(biāo)注規(guī)范進(jìn)行,此階段主要是人工識(shí)別與標(biāo)注,最終標(biāo)注出未來工作句共216 句。另外,我們也標(biāo)注出非未來工作句共388 句,最終形成標(biāo)注語料庫情況如表1 所示。
表1 標(biāo)注語料庫統(tǒng)計(jì)表
2.1.2 用于未來工作句類型分類的語料標(biāo)注
為了更加深入了解融合出版領(lǐng)域的研究現(xiàn)狀,從而更精準(zhǔn)定位其未來研究方向,本研究對(duì)于未來工作句集依據(jù)事先構(gòu)建好的分類體系人工判定類別,形成本研究的未來工作句類型分類語料庫。本研究首先對(duì)語料進(jìn)行閱讀與分析,發(fā)現(xiàn)此語料與先前研究者在對(duì)NLP 領(lǐng)域的未來工作句自動(dòng)識(shí)別與分類研究[27]中采取的分類體系較為契合。該分類體系基于扎根理論構(gòu)建,研究者將未來工作句分為方法、資源、評(píng)估、應(yīng)用、問題和其他六大類別。本研究選取融合出版領(lǐng)域部分未來工作句進(jìn)行預(yù)標(biāo)注后發(fā)現(xiàn),由于語料的領(lǐng)域特性,某些句子按照此分類體系歸類不是很恰當(dāng)。因此,我們?cè)诖朔诸惢A(chǔ)上增設(shè)“管理手段”和“工具”兩大類別,并在“管理手段”下設(shè)置了“人員”和“管理制度”兩個(gè)子類別,具體分類標(biāo)準(zhǔn)如表2 所示。
表2 未來工作句分類表
2.1.3 數(shù)據(jù)預(yù)處理
經(jīng)過預(yù)處理的數(shù)據(jù),可以獲得更加準(zhǔn)確的語言特征,從而更好地支持機(jī)器學(xué)習(xí)模型的訓(xùn)練,并且能更加快速地獲得更為準(zhǔn)確的訓(xùn)練結(jié)果。為此,我們必須先完成數(shù)據(jù)的清洗、分詞、去停用詞等工作,從而為機(jī)器學(xué)習(xí)的準(zhǔn)確性奠定堅(jiān)實(shí)基礎(chǔ)。
(1)數(shù)據(jù)清洗
本文首先需要對(duì)文本進(jìn)行一些去空去重操作,即處理一些無意義的空格、空行,其次,去除一些無用的標(biāo)點(diǎn)符號(hào),以方便后續(xù)進(jìn)一步數(shù)據(jù)處理。
(2)分詞
由于中文沒有明確的句子分割標(biāo)準(zhǔn),因此需要使用更復(fù)雜的分詞模型進(jìn)行分析。本研究使用jieba①https://pypi.org/project/jieba/進(jìn)行中文文本的分詞。為了提高分詞的準(zhǔn)確性,本文通過去停用詞來進(jìn)行分詞的優(yōu)化。
2.2.1 文本表示
通過使用文本表示,我們可以把數(shù)據(jù)轉(zhuǎn)換成計(jì)算機(jī)能處理的形態(tài),比如向量或矩陣。本文采用的離散式中的TF-IDF[35],它是最為常用的文本特征權(quán)重計(jì)算方法。TF-IDF 可以用以評(píng)估文檔集合中的某個(gè)字詞或是語料庫中的某份文檔中的某個(gè)字詞的重要程度。當(dāng)某個(gè)詞在一篇文章中出現(xiàn)的頻率TF 高,并且極少出現(xiàn)在其他文檔中,則我們可以判斷此詞具有出色的類別區(qū)分能力[36],其計(jì)算公式如下:
其中,Wi,j表示文檔j中第i項(xiàng)詞項(xiàng)的權(quán)重,N則表示集合中的文檔數(shù)量,此外,tfi,j表示文檔j中第i個(gè)詞的詞頻,dfi表示集合中出現(xiàn)當(dāng)前詞項(xiàng)wi的文檔數(shù)[37]。
2.2.2 文本特征選擇
特征選擇可以減少冗余特征,保留具有較強(qiáng)區(qū)分能力的特征從而提高分類器的表現(xiàn)并且防止分類器過擬合[38]。其方法可以歸納為三類:過濾式、包裹式和嵌入式[39]。
特征選擇方法種類很多,本研究中主要采用SelectKBest。原因在于其他常用算法如特征遞歸消除算法(Recursive Feature Elimination,RFE)和隨機(jī)森林(Random Forest, RF)等,分別存在穩(wěn)定性和選擇偏向的問題[40]。SelectKBest 是一種基于統(tǒng)計(jì)學(xué)原理的過濾式特征選擇方法[41],用于從n 堆數(shù)據(jù)中尋求價(jià)值最優(yōu)的k類數(shù)據(jù)[42]。它可以根據(jù)給定的評(píng)價(jià)函數(shù)和得分,來選擇和排名特征。在使用SelectKBest 時(shí),如果數(shù)據(jù)集中含有不止一個(gè)特征,可以采取評(píng)分函數(shù)進(jìn)行特征篩選[43]。在本研究中,采用卡方檢驗(yàn)(Chi-Squared Test)作為評(píng)分函數(shù)。此種特征選擇方法在分類任務(wù)上已有成功應(yīng)用[44-45]。
2.2.3 文本分類模型訓(xùn)練
未來工作句自動(dòng)識(shí)別任務(wù)本質(zhì)上屬于二分類問題。在本實(shí)驗(yàn)中,我們選擇采用支持向量機(jī)(Support Vector Machine,SVM)、樸素貝葉斯(Naive Bayesian,NB)和隨機(jī)森林訓(xùn)練未來工作句自動(dòng)識(shí)別模型,通過對(duì)比模型性能選擇最優(yōu)模型。
支持向量機(jī)是一類廣義線性分類器,它采用監(jiān)督學(xué)習(xí)的方式對(duì)數(shù)據(jù)進(jìn)行二元分類。SVM首先利用以內(nèi)積函數(shù)進(jìn)行定義的非線性變換將輸入空間變換到一個(gè)高維空間,之后在這個(gè)空間中來求解(廣義)最優(yōu)分類面[46]。在本實(shí)驗(yàn)中,采用核函數(shù)為linear 的LinearSVC 模型,最大迭代次數(shù)maxiter 設(shè)為5000,懲罰參數(shù)C 設(shè)為1.0。
樸素貝葉斯是一種基于概率統(tǒng)計(jì)的機(jī)器學(xué)習(xí)算法,其原理在于通過類別的先驗(yàn)概率以及特征分布相對(duì)于類別的條件概率來計(jì)算未知文檔屬于某一類別的概率[47]。本實(shí)驗(yàn)中選擇的是伯努利樸素貝葉斯(BernoulliNB),拉普拉斯平滑系數(shù)alpha 設(shè)為0.0001。
隨機(jī)森林是一種具有較高預(yù)測(cè)準(zhǔn)確率的抽樣方法,利用bootstrap 重抽樣方法從原始樣本中抽取多個(gè)樣本,對(duì)每個(gè)樣本進(jìn)行決策樹建模,然后組合多棵決策樹的預(yù)測(cè),通過投票得出最終預(yù)測(cè)結(jié)果。本實(shí)驗(yàn)中基評(píng)估器數(shù)量n_estimators 設(shè)為200。
本節(jié)中我們結(jié)合未來工作句自動(dòng)識(shí)別模型的訓(xùn)練結(jié)果和未來工作句類別進(jìn)行進(jìn)一步分析。
在研究過程中,需要對(duì)模型進(jìn)行評(píng)估。通過采用K 折交叉驗(yàn)證(K-Floder Cross Validation)[49],我們可以將大量的數(shù)據(jù)加入模型的訓(xùn)練和預(yù)測(cè),同時(shí)避免劃分訓(xùn)練集和測(cè)試集時(shí)的隨機(jī)性,從而大大減少模型的不準(zhǔn)確性,并且更好地體現(xiàn)出交叉驗(yàn)證的概念。
本研究將數(shù)據(jù)集按9:1 劃分為訓(xùn)練集和測(cè)試集,進(jìn)行十折交叉驗(yàn)證[50],并將結(jié)果進(jìn)行平均,來比較判別分類模型的優(yōu)劣。
在本研究中,我們將正確率(Accuracy)、精確度(Precision)、召回率(Recall)以及F1值作為評(píng)估指標(biāo)[51],以期獲得更準(zhǔn)確的結(jié)果。
以上指標(biāo)的詳細(xì)定義如下:
由于精確率和召回率是一對(duì)矛盾的度量,模型評(píng)估中又往往需要同時(shí)考慮這兩項(xiàng)指標(biāo),F(xiàn)1值即為人們?cè)O(shè)計(jì)的滿足這一需要的性能度量指標(biāo)[52]。故本實(shí)驗(yàn)中我們最終以F1值來選定最優(yōu)模型。
我們將LinearSVC、BernoulliNB 和RF 三種模型分別與SelectKBest 特征選擇方法進(jìn)行組合,使用網(wǎng)格搜索的方法調(diào)整超參數(shù)k。
以LinearSVC 模型的超參數(shù)k 的調(diào)整為例,我們首先將起點(diǎn)與終點(diǎn)分別設(shè)為100 和1500,步長(zhǎng)設(shè)為40,得到k 在(460,620)內(nèi)取值模型性能可能最優(yōu),如圖2(a)所示,之后我們?cè)冢?60,620)區(qū)間上將步長(zhǎng)設(shè)為10 繼續(xù)調(diào)參,得到k 的最優(yōu)取值區(qū)間為(510,550),如圖2(b)所示,本實(shí)驗(yàn)中我們?nèi)?30 作為k 值。
圖2 LinearSVC 模型k 值調(diào)整驗(yàn)證曲線
根據(jù)調(diào)整結(jié)果,最終得到k 值為530 時(shí),LinearSVC 性能最優(yōu),加權(quán)平均F1達(dá)到了92.08%;k 值為48 時(shí),BeroulliNB 性能最優(yōu),加權(quán)平均F1達(dá)到了91.77%;k 值為192 時(shí),RF性能最優(yōu),加權(quán)平均F1達(dá)到了88.91%。具體結(jié)果如表3 所示。
表3 未來工作句自動(dòng)識(shí)別模型訓(xùn)練結(jié)果評(píng)估
對(duì)比支持向量機(jī)、樸素貝葉斯和隨機(jī)森林三種模型的訓(xùn)練結(jié)果,我們得到LinearSVC 模型在未來工作句自動(dòng)識(shí)別任務(wù)中性能最佳,加權(quán)平均F1值達(dá)到92.08%。這表明此模型可以很有效地區(qū)分未來工作句和非未來工作句。今后我們可以使用此模型在更大規(guī)模語料庫中進(jìn)行未來工作句的自動(dòng)識(shí)別,比人工抽取能節(jié)省更多時(shí)間與精力。
在未來工作句類別標(biāo)注過程中,為了控制標(biāo)注質(zhì)量,我們采用雙人隔離標(biāo)注的方式,之后將結(jié)果進(jìn)行對(duì)比,出現(xiàn)分歧時(shí),通過小組討論或者專家評(píng)議確定最終結(jié)果,確保標(biāo)注的一致性;并且,標(biāo)注結(jié)果再經(jīng)由專家審核,從而保證標(biāo)注質(zhì)量。由于每個(gè)未來工作句都只能標(biāo)注唯一的類別標(biāo)簽,若一個(gè)句子中含有多于一種類別的未來工作句,則需要拆分后再進(jìn)行類別標(biāo)注。我們?cè)跇?biāo)注后得到的分類語料庫基礎(chǔ)上對(duì)未來工作句類別進(jìn)行進(jìn)一步探究,主要包括未來工作句類別占比分析和分布分析。
3.3.1 未來工作句類別占比分析
(1)一級(jí)類目類別占比分析
筆者針對(duì)未來工作句識(shí)別語料庫中的未來工作句類別占比進(jìn)行統(tǒng)計(jì),結(jié)果如圖3 所示。
圖3 未來工作句類別分布圖
從圖3 中可以看出,方法類未來工作句占比最大,這表明,融合出版領(lǐng)域的研究者對(duì)于方法的改進(jìn)與創(chuàng)新較為重視,關(guān)注新方法的探索,體系的建立與維護(hù)等。其次,問題類、管理手段和工具類未來工作句也占有一定比例,說明研究者也較關(guān)注該領(lǐng)域尚未解決的難題,并關(guān)心人員管理以及管理手段上的革新。同時(shí),希望利用軟件、平臺(tái)和工具來加速融合出版領(lǐng)域的發(fā)展。但是,我們不難發(fā)現(xiàn),評(píng)估類和資源類未來工作句占很小,僅有1%,這一方面表明研究者可能認(rèn)為這兩個(gè)方面研究意義不大,即便改進(jìn)和創(chuàng)新對(duì)該領(lǐng)域的發(fā)展也無法起到較大的推動(dòng)作用。但另一方面,正是融合出版領(lǐng)域發(fā)展至今這兩個(gè)方向的未來研究有所欠缺,導(dǎo)致可能有些好的想法被忽略,而這往往可能正是突破點(diǎn)所在。這也為研究者的未來研究提供了一個(gè)很好的思路。
通過分析結(jié)果,我們可以預(yù)測(cè)未來融合出版領(lǐng)域的研究方向應(yīng)該還是以方法、問題、管理手段和工具為主;而對(duì)于資源和評(píng)估類,未來可能需要在評(píng)估研究?jī)r(jià)值性后考慮是否要在這些方面投入更多精力,尋求突破。
(2)二級(jí)類目占比分析
為了更精準(zhǔn)定位融合出版領(lǐng)域研究者的未來研究?jī)A向,我們選取了占比最大的“方法”類別和我們比較感興趣的“管理手段”類別進(jìn)行子類別占比分析。由圖4(a)中可知,在方法類別的研究中,研究者多傾向于探索或引入更適宜的新方法,因?yàn)槿诤铣霭姹旧砭鸵蟪霭鏄I(yè)在傳統(tǒng)方法上結(jié)合數(shù)字技術(shù)進(jìn)行革新。此外,對(duì)相關(guān)體系建設(shè)與維護(hù)也是該領(lǐng)域一個(gè)較為重要的發(fā)展方向,研究者提議結(jié)合時(shí)代環(huán)境構(gòu)建一個(gè)良好的體系環(huán)境,從而保障融合出版更好更快發(fā)展。這一方面需要出版業(yè)做出努力,另一方面也需要政府和社會(huì)提供政策支持與保障。
圖4 未來工作句子類分布圖
我們?cè)诠芾硎侄蜗掠址譃槿藛T和管理制度兩個(gè)子類,從圖4(b)中我們可以看到,人員管理與人才培養(yǎng)非常有必要。不僅需要編輯人員提高素質(zhì),不斷學(xué)習(xí)來自我提升,管理決策者也需要把握好行業(yè)形勢(shì),重視優(yōu)秀人才的培養(yǎng),更好助力該領(lǐng)域發(fā)展。另外,在管理制度上也不能固守成規(guī),需要適時(shí)創(chuàng)新。
3.3.2 未來工作句類別分布分析
此外,我們分別統(tǒng)計(jì)了2014—2023 年各年份的不同類別的未來工作句數(shù)量,進(jìn)行分布分析,結(jié)果如圖5 所示。
圖5 未來工作句類別分布圖
從總體來看,方法類未來工作句的占比在近五年表現(xiàn)出明顯優(yōu)勢(shì),自2019 年后,該類別未來工作句數(shù)量大幅增長(zhǎng)。由于近幾年各種新技術(shù)飛速發(fā)展,互聯(lián)網(wǎng)、云計(jì)算與人工智能逐漸滲透到各個(gè)領(lǐng)域,傳統(tǒng)出版業(yè)試圖在傳統(tǒng)方式上利用數(shù)字技術(shù)尋求新的突破。我們也可以預(yù)測(cè)到融合出版領(lǐng)域的未來研究應(yīng)該還是以方法為主,在傳統(tǒng)方法基礎(chǔ)上加以改進(jìn)與創(chuàng)新,相關(guān)體系建設(shè)與政策支持也是未來研究的重點(diǎn)。
另外,從圖中我們也可以看到,近幾年問題類的未來工具句數(shù)量也在不斷增長(zhǎng)。隨著技術(shù)的飛快革新,研究者的創(chuàng)新想法愈來愈多。但數(shù)字技術(shù)的融入過程也會(huì)帶來很多問題。例如平臺(tái)建設(shè)方面資金投入不及時(shí),版權(quán)保護(hù)與個(gè)人信息保護(hù)仍存在不少漏洞等。這些問題都有待未來研究者深入探索,尋求最佳解決方案。
而對(duì)于某些類別,譬如資源類和評(píng)估類,從2014 年至今未來研究方面都有所欠缺,說明此領(lǐng)域?qū)?shù)據(jù)和評(píng)估的依賴可能不如其他領(lǐng)域顯著;還有一種可能是對(duì)該領(lǐng)域的研究開始得較晚,這兩個(gè)方面還未有大規(guī)模研究者對(duì)其進(jìn)行深入挖掘。未來可能需要該領(lǐng)域研究者評(píng)估價(jià)值性后考慮是否要加大投入。
為了更加深入了解融合出版領(lǐng)域未來工作的具體內(nèi)容,探析該領(lǐng)域的前沿主題及其變化規(guī)律,我們對(duì)2019 至2023 年的未來工作句具體內(nèi)容進(jìn)行深入分析。首先我們提取各年份未來工作句數(shù)據(jù)集計(jì)算逆文檔頻率并篩選后的Top20 的詞項(xiàng)進(jìn)行分析,總結(jié)近五年融合出版前沿主題以及演變趨勢(shì),為該領(lǐng)域后續(xù)發(fā)展提供借鑒。
在基于逆文檔頻率的未來工作句內(nèi)容分析時(shí),我們首先抽取了Top50 的詞項(xiàng),經(jīng)過觀察發(fā)現(xiàn),其中有些詞是“融合出版”和“未來工作”相關(guān)詞,以及一些無實(shí)際意義動(dòng)名詞和程度副詞。為了更好地分析前沿主題本身,我們?cè)谒性~項(xiàng)提取結(jié)果中均刪除了這些詞,并在篩選后的結(jié)果中取Top20 的詞項(xiàng)進(jìn)行分析,詞項(xiàng)內(nèi)容如表4 所示。
表4 未來工作句分類表
從各年份的Top20 詞項(xiàng)內(nèi)容中,我們可以很清晰探察到各年份融合出版領(lǐng)域的前沿主題的差異及變化趨勢(shì)。
2019 年,融合出版領(lǐng)域重點(diǎn)關(guān)注的前三位分別是“媒體”“科技期刊”與“傳播”。結(jié)合之前的背景研究,2019 年融合出版領(lǐng)域研究論文數(shù)量大幅增長(zhǎng),這一年發(fā)表的論文中,研究者大多還是從“媒介融合”視域出發(fā)去研究融合出版領(lǐng)域問題,并且重視領(lǐng)域相關(guān)概念、方法等的傳播。其次是對(duì)期刊和編輯等的要求,鼓勵(lì)期刊突破傳統(tǒng)出版方式,發(fā)揮“領(lǐng)頭羊”作用,積極利用數(shù)字出版優(yōu)勢(shì);鼓勵(lì)編輯努力提升素養(yǎng),轉(zhuǎn)變觀念,致力于融合出版領(lǐng)域的發(fā)展。另外,這一時(shí)期研究者也開始重視技術(shù)的利用,主要是基于互聯(lián)網(wǎng)信息和技術(shù)與傳統(tǒng)出版的融合來實(shí)現(xiàn)創(chuàng)新與突破。
2020 年,融合出版領(lǐng)域重點(diǎn)關(guān)注的前三位分別是“技術(shù)”“內(nèi)容”與“創(chuàng)新”。這一時(shí)期該領(lǐng)域在建立好領(lǐng)域根基后,開始尋求技術(shù)層面的突破。另外,我們看到“管理”“問題”與“平臺(tái)”的排名也較靠前,研究者也開始意識(shí)到管理與工具的重要性,融合出版不僅僅依靠出版社與編輯提升與轉(zhuǎn)型,相關(guān)企業(yè)也需要在營(yíng)銷管理、體系構(gòu)建與人才培養(yǎng)上傾注更多精力,另外,融合出版發(fā)展遇到的一些問題也不容忽視,需要多方共同深入探究并尋求解決方案。
2021 年,融合出版領(lǐng)域重點(diǎn)關(guān)注的前三位分別是“編輯”“技術(shù)”與“問題”。這一時(shí)期,融合出版領(lǐng)域?qū)Α叭恕碧岢隽烁叩囊?,更加注重人才培養(yǎng)與管理,“技術(shù)”與“問題”仍舊是該領(lǐng)域關(guān)注的焦點(diǎn)。另外,我們觀察到,該時(shí)期的Top20詞項(xiàng)中出現(xiàn)了“需求”“用戶”“產(chǎn)品”“服務(wù)”這類詞,該領(lǐng)域開始考慮到用戶需求與服務(wù),這說明融合出版領(lǐng)域開始重視應(yīng)用層面的問題。
2022 年,融合出版領(lǐng)域重點(diǎn)關(guān)注的前三位分別是“技術(shù)”“媒體”與“內(nèi)容”。在考慮到應(yīng)用層面后,研究者發(fā)現(xiàn)要著重解決的還是技術(shù)上的問題,并且主要是出版內(nèi)容的融合,這才是提升應(yīng)用性能的最佳途徑。這一時(shí)期融合出版的前沿問題主要是如何改進(jìn)與擴(kuò)展技術(shù)來解決應(yīng)用層面的問題。另外,我們發(fā)現(xiàn)“少兒”與“少兒科普”排名也較高,這也是融合出版領(lǐng)域服務(wù)視野拓展的表征。由于少兒是圖書閱讀的一類較大數(shù)量群體,所以也是傳統(tǒng)出版與數(shù)字出版融合浪潮中受影響較大的一類群體,要更加重視這類群體的服務(wù)層面的問題。
到了2023 年,融合出版領(lǐng)域重點(diǎn)關(guān)注的前三位與前一年相差無幾,分別是“技術(shù)”“內(nèi)容”與“創(chuàng)新”。說明融合出版領(lǐng)域聚焦點(diǎn)沒有發(fā)生太大變化。值得注意的是,這一時(shí)期,“教育”一經(jīng)出現(xiàn)便排到了第四的位置,說明這一時(shí)期融合出版領(lǐng)域從開始的“少兒科普”考慮到更為全面深入的問題,例如融合出版以何種方式融入教育中,如何在青少年培養(yǎng)中發(fā)揮最大作用等。另外,“高質(zhì)量”“高質(zhì)量?jī)?nèi)容”和“高質(zhì)量發(fā)展”的出現(xiàn)讓我們看到該領(lǐng)域發(fā)展到這一時(shí)期,基礎(chǔ)層面的構(gòu)建工作已基本完善,開始追求高質(zhì)量高水平發(fā)展,這也是一個(gè)領(lǐng)域發(fā)展趨于成熟的象征。
結(jié)合融合出版領(lǐng)域近五年的未來工作句中Top20 詞項(xiàng),我們可以看到該領(lǐng)域從起步走向成熟的演化過程,這五年中該領(lǐng)域發(fā)展側(cè)重點(diǎn)也經(jīng)歷了一個(gè)較為鮮明的變化。另外,每年都有新的前沿主題的出現(xiàn),這些前沿主題從開始受到關(guān)注到問題的發(fā)現(xiàn)與方法的探究再到應(yīng)用層面的完善恰恰也是該領(lǐng)域一步步發(fā)展與壯大的具象表示。
本文為探測(cè)融合出版領(lǐng)域前沿主題與未來有意義研究方向,通過采集知網(wǎng)文獻(xiàn)庫中的中文文獻(xiàn)數(shù)據(jù),結(jié)合機(jī)器學(xué)習(xí)進(jìn)行未來工作句挖掘研究。研究主要利用融合出版領(lǐng)域論文為數(shù)據(jù)構(gòu)建了未來工作句識(shí)別與分類語料庫,在此識(shí)別語料庫基礎(chǔ)上使用支持向量機(jī)、樸素貝葉斯和隨機(jī)森林三種機(jī)器學(xué)習(xí)模型與SelectKBest特征選擇方法進(jìn)行未來工作句自動(dòng)識(shí)別模型訓(xùn)練,對(duì)比模型訓(xùn)練結(jié)果選擇出性能最優(yōu)的LinearSVC 模型。該模型的F1值達(dá)到了92.08%,表明該模型可以很好地從文本中識(shí)別出未來工作句。另外,我們還基于未來工作句分類語料庫對(duì)未來工作句的八大類別進(jìn)行更進(jìn)一步的研究,主要包括占比分析與分布分析。結(jié)果表明,融合出版領(lǐng)域的研究者更傾向?qū)Ψ椒ê蛦栴}類未來工作的研究,他們更關(guān)注該領(lǐng)域方法的改進(jìn)與創(chuàng)新,并關(guān)心尚未解決的難題及有意義的新問題,對(duì)于資源和評(píng)估方面則關(guān)注較少。由此我們預(yù)測(cè)該領(lǐng)域未來的研究方向也是偏向方法與問題方面,而資源和評(píng)估方面可能需要研究者衡量研究?jī)r(jià)值后決定是否需要對(duì)其展開更加深入的研究。最后,本研究還通過對(duì)融合出版領(lǐng)域未來工作句本身內(nèi)容研究來分析并總結(jié)該領(lǐng)域近五年的前沿主題的演化趨勢(shì),從而更好探析該領(lǐng)域過往前沿問題研究重點(diǎn)及其變化,并為未來研究提供借鑒。
本文也存在一定的不足,例如語料庫規(guī)模較小且未采集英文論文數(shù)據(jù),訓(xùn)練的模型還有待在更大規(guī)模語料庫上測(cè)試抽取效果,另外,還未使用深度學(xué)習(xí)模型對(duì)比模型效果。后續(xù)我們將進(jìn)一步擴(kuò)大語料庫規(guī)模,擬加入英文論文數(shù)據(jù),且擬采集知網(wǎng)文獻(xiàn)庫之外的數(shù)據(jù),例如微信公眾號(hào)文章和新聞報(bào)道等;之后也將在更大規(guī)模語料庫上測(cè)試模型的自動(dòng)識(shí)別效果,也可進(jìn)一步測(cè)試模型在其他領(lǐng)域語料上的適應(yīng)性;此外,未來將使用深度學(xué)習(xí)模型與傳統(tǒng)機(jī)器學(xué)習(xí)模型作對(duì)比,從而訓(xùn)練性能更優(yōu)的未來工作句自動(dòng)識(shí)別模型,提高識(shí)別準(zhǔn)確率。