于 琦 馬彩珍 邰楊芳 吳勝男 賀培鳳
(山西醫(yī)科大學管理學院 太原 030001)
20世紀中期,國外生物醫(yī)學研究者利用計算機處理醫(yī)學數(shù)據(jù),加速計算機科學與生物醫(yī)學發(fā)展,20世紀70年代,“醫(yī)學信息學”概念在國際信息處理協(xié)會會議上正式提出[1-2]。醫(yī)學信息學是計算機科學技術、現(xiàn)代醫(yī)學、圖書情報學等多學科交叉的應用型新興學科,是典型的以數(shù)據(jù)驅動且高度依賴機器學習和深度學習算法的研究領域[1]。隨著網(wǎng)絡信息技術、計算機科學飛速發(fā)展,數(shù)據(jù)驅動的醫(yī)學信息學內涵不斷豐富,研究領域逐漸廣泛。同時文獻計量方法逐步應用于醫(yī)學領域定性熱點趨勢分析及影響力評估等[3]。算法是醫(yī)學信息學重要工具[4]。學術界對算法在科研領域的調查較少,現(xiàn)有算法影響力評估主要根據(jù)同一任務中不同算法的完成效果進行評價[5-6]。這種基于實驗效果的評價方法較直接、準確,但存在一定局限性,即實驗需要特定數(shù)據(jù)集、評估者需要較高專業(yè)知識水平。本研究基于內容分析對醫(yī)學信息學領域算法類別的使用情況及影響力進行分析,定量考察不同算法實際應用情況,為深化醫(yī)學信息學學科認識提供參考。
2018年美國科學情報研究所出版的網(wǎng)絡版《期刊引用報告》(Journal Citation Reports,JCR)共收錄26種醫(yī)學信息學期刊。本研究基于已有期刊評價研究[7-8],綜合考慮期刊影響因子和特征因子分值,對上述26種期刊進行排序,參考專家意見,選擇影響因子>2.70、特征因子分值≥0.006的期刊,最終選取5種期刊進行研究,見表1。
表1 醫(yī)學信息學領域5種高影響力期刊
在Web of Science數(shù)據(jù)庫中,以5種期刊名稱進行檢索,限定檢索年限為2009-2018年,文章類型選擇"Article",檢索結果為7 948篇。采用社會調查法中總樣本容量公式(1)進行樣本規(guī)模確定,其中t為置信度所對應的臨界值,e為抽樣誤差。允許抽樣誤差為2%、置信度為95%計算得到總樣本容量為2 401,采用分層抽樣方法確定每種期刊樣本量,見表2。
(1)
表2 2009-2018年5種期刊樣本量匯總(篇)
采用全文內容分析法對2 401篇論文算法使用情況進行深入分析。首先,根據(jù)已有研究中提出的算法句標注類目[9],建立本研究標注信息,見表3。其次,依據(jù)標注信息類目進行標注。共有705篇論文使用算法,共涉及170種算法,在此基礎上根據(jù)《數(shù)據(jù)挖掘10大算法》(TheTop10AlgorithmsinDataMining)一書標準[10]及專家咨詢進行算法名標準化及算法分類,在該書10大數(shù)據(jù)挖掘算法類別基礎上新增回歸算法、人工神經(jīng)網(wǎng)絡、文本分析、降維、模型、時頻分析、檢測等7種算法類別,最終得到16種算法類別(序列模式算法在本研究樣本未使用,故不做分析),見表4。最后基于算法分類詞典方法對標注結果進行統(tǒng)計。
表3 算法句標注信息
表4 算法分類詞典
2.3.1 提及次數(shù) 即算法在文章中出現(xiàn)的次數(shù),將提及次數(shù)分為3個指標。(1)提及論文數(shù)。借鑒學術論文影響力評價Count One方法[11],即某種算法類別屬下的某種算法無論在一篇文章中出現(xiàn)多少次只記為1次,對其提及次數(shù)進行累加。例如一篇文章中提及算法類別A中的算法a和算法b則該篇文章算法類別提及次數(shù)記為2。(2)提及總次數(shù)。借鑒 Ding 等提出的 Count X方法[11],考慮算法反復提及情況對算法類別影響力進行評估,即記錄一篇論文中某種算法類別屬下的所有算法出現(xiàn)次數(shù)。(3)平均提及次數(shù),即算法類別提及總次數(shù)與提及論文數(shù)比值。
2.3.2 提及位置 即算法類別所在章節(jié)類型。學術論文各章節(jié)重要性不同[12],因此不同章節(jié)提及算法的重要性不同,導致算法類別在不同章節(jié)類型中影響力不同。結合實證型研究論文IMRDC(Introduction-Material and methods-Results-Discussion-Conclusion)結構[13]將章節(jié)劃分為5種類型,見表5。因部分算法可能只出現(xiàn)在摘要中故將Abstract也作為一種章節(jié)類型進行研究。
表5 章節(jié)類型劃分
2.3.3 共現(xiàn)情況 即一篇論文同時涉及兩種或兩種以上算法,共現(xiàn)次數(shù)越多算法間關系越密切。共現(xiàn)情況次數(shù)經(jīng)計算提及論文數(shù)得到。
3.1.1 年代變化 705篇提及算法類別論文數(shù)量呈整體上升趨勢,其中2015年期刊刊載論文數(shù)量相對較少致使算法使用論文刊載量較少。分類算法、統(tǒng)計學習、人工神經(jīng)網(wǎng)絡算法使用論文數(shù)量較高且逐年遞增,尤其在2015年后增幅明顯,而圖形挖掘、檢測算法、粗糙集3種算法數(shù)量較少但呈逐年上升趨勢,見圖1。說明醫(yī)學信息學領域對分類算法等3類算法依賴程度較強;其他算法發(fā)揮越來越重要作用。
圖1 算法類別使用變化趨勢
3.1.2 算法類別使用的期刊變化趨勢 16個算法類別在5種期刊的使用各不相同,在《生物醫(yī)學信息學雜志》和《生物醫(yī)學中的計算機方法和程序》期刊論文中都有提及且提及論文數(shù)較多,在其他3種期刊使用較少,其中《醫(yī)學互聯(lián)網(wǎng)研究雜志》提及算法類別最少,僅為7類。說明生物醫(yī)學中的計算機方法與程序及生物醫(yī)學信息計量對算法依賴程度較高。分類算法、統(tǒng)計算法、人工神經(jīng)網(wǎng)絡算法在5種期刊中提及論文數(shù)較多,圖形挖掘、檢測算法、粗糙集算法提及論文數(shù)較少,見圖2。
圖2 算法類別期刊使用變化趨勢
3.2.1 提及次數(shù)(表6) 算法類別提及論文數(shù)越多,則該算法類別使用越多、影響力越大;當兩種算法類別提及論文數(shù)相同時,提及總次數(shù)高則影響力大;平均提及次數(shù)反映算法類別在單篇論文中的使用情況。其中分類算法提及論文數(shù)最高,約占65%,有研究者指出構建分類器系統(tǒng)是數(shù)據(jù)挖掘最常用工具之一[10],因此使用率較高。人工神經(jīng)網(wǎng)絡算法排名第2,第3為統(tǒng)計學習算法。隨著人工智能發(fā)展,人工神經(jīng)網(wǎng)絡在醫(yī)學信息學領域應用廣泛,如在預測與估計、模式識別、生物醫(yī)學等方面取得較大進展;統(tǒng)計學習是基于概率的算法,能更好地實現(xiàn)預測,從而提高科研效率[14-15]?;貧w、聚類、降維、遺傳算法提及論文數(shù)較多,原因在于:回歸算法原理簡單易實現(xiàn);聚類算法可從新視角把握數(shù)據(jù)資源價值;降維算法可去除數(shù)據(jù)噪聲和不重要特征,提高數(shù)據(jù)處理速度;遺傳算法為近年理論和應用研究熱點等。粗糙集算法類別僅有1篇論文提及,排名最低。算法類別提及論文數(shù)與總提及次數(shù)排名結果基本一致,而平均提及次數(shù)排名發(fā)生變化。這表明提及論文數(shù)、提及總次數(shù)和平均提及次數(shù)間不成正比。平均提及次數(shù)在2~17間浮動,遺傳、模型和文本分析算法分別從提及論文數(shù)結果中的第7、9、10位升至平均提及次數(shù)結果前3位,原因在于其作為新興算法在醫(yī)學信息學領域使用較少,在使用時需較多篇幅描述解釋原理而反復提及。在提及論文數(shù)中位列第1的分類算法跌至第9位,可能由于該算法類別原理較簡單而解釋較少。其他算法類別的3種排序結果差距較小。
表6 提及論文數(shù)、提及總次數(shù)、平均提及次數(shù)結果
3.2.2 提及位置(圖3)
圖3 算法類別各章節(jié)分布情況
算法類別在不同章節(jié)類型中的提及論文數(shù)不同,其中提及論文數(shù)最多的是“方法 ”部分,“結論” 部分最少?!罢辈糠质菍θ牡暮喴爬?,部分期刊要求其包含“目的”、“方法”、“結果”、“結論”4部分,導致此章節(jié)類型中算法提及論文數(shù)較低; “引言”部分需對文章所用算法做簡單背景介紹,因此會有一定頻次的算法提及; “方法”部分是全文描述方法核心部分,算法在該章節(jié)類型提及論文數(shù)顯著增加;“結果”部分對實驗所得結果進行分析,不需要對算法相關內容進行詳細闡述,因此算法提及論文數(shù)相對下降; “結論”部分對全文大致流程和結果做簡要總結但不會大量描述,此章節(jié)類型算法提及論文數(shù)較少。綜上,在不同章節(jié)類型提及算法其作用不同、影響力不同。本文重點針對“方法”和“結果”章節(jié),分析不同位置各算法類別共現(xiàn)情況,見表7。算法類別提及次數(shù)在“方法”與“結果”部分一般高于其他章節(jié)類型,其次是“引言”部分,在“摘要”和“結論”部分提及較少。說明醫(yī)學信息學研究領域算法主要作為具體實驗方法使用。根據(jù)“方法”和“結果”章節(jié)類型統(tǒng)計結果,排前3位的為分類、統(tǒng)計、人工神經(jīng)網(wǎng)絡算法,其提及論文數(shù)遠高于其他算法;回歸、聚類、降維、遺傳算法提及論文數(shù)較高;檢測和粗糙集算法提及較少。與前文研究結果一致。
表7 各個算法類別在各章節(jié)類型中分布情況
3.2.3 基于共現(xiàn)情況的算法類別影響力分析 利用VOSviewer軟件依據(jù)提及論文數(shù)分析170種算法共現(xiàn)情況,見圖4,其中節(jié)點越大表示算法被提及次數(shù)越多,即重要性越大、影響力越大;連線表示兩種算法在同一篇文中被共同提及次數(shù),次數(shù)越多連線越粗。在收集到的705篇文章中提及兩種或兩種以上算法的512篇,約占73%。統(tǒng)計學習算法類別中支持向量機(Support Vector Machine,SVM)算法節(jié)點最大且與其他71種算法均有連線,說明SVM算法是醫(yī)學信息學領域常用算法。研究發(fā)現(xiàn)SVM算法主要受統(tǒng)計學理論支持,是一種非線性機器學習算法,能夠對數(shù)據(jù)進行高精度處理[14],是最穩(wěn)定、最精確的算法之一[10]。分類算法類別中的Naive Bayes節(jié)點與其他60種算法均有連線,其中與人工神經(jīng)網(wǎng)絡算法中的近似最近鄰(Approximate Nearest Neighbors,ANN)算法、回歸算法中的邏輯回歸(Logistic Regression,LR)算法、分類算法中的決策樹(Decision Tree,DT)和隨機森林(Random Forest,RF)算法共現(xiàn)次數(shù)較高,超過40次。這可能由于其原理簡單,易應用于大量數(shù)據(jù)集。K-近鄰算法(K-Nearest Neighbor,KNN)排名第3,可能由于其精度高且適用數(shù)據(jù)范圍為數(shù)值型和標符型,處理數(shù)據(jù)較方便。同時分類算法中的RF、DT、C4.5算法及人工神經(jīng)網(wǎng)絡算法類別中的ANN、卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)等算法也具有較高共現(xiàn)次數(shù)。這可能由于RF算法能有效運行于大數(shù)據(jù)集,評估各特征在分類問題上的重要性,在預測疾病風險和患者診斷方面應用前景廣闊;ANN是一種類似于生物神經(jīng)網(wǎng)絡的非線性算法,可模擬人腦某些智能行為,為近年研究熱點[16]。LR算法、降維算法類別中的主成分分析(Principal Component Analysis,PCA)算法、遺傳算法等節(jié)點較大,聚類算法類別各算法節(jié)點較小且連線強度較低。說明分類、統(tǒng)計、人工神經(jīng)網(wǎng)絡算法共現(xiàn)使用較為頻繁,而聚類算法多為單獨使用。
圖4 算法共現(xiàn)情況網(wǎng)絡圖譜
除2015年外,期刊中使用算法類別的論文比例呈逐年上升趨勢;各期刊對算法類別依賴程度不同。醫(yī)學信息學領域算法使用類文章不足30%,與軟件使用類文章占比接近[16]。說明該領域研究對算法和軟件依賴性較低,但呈逐年上升趨勢;不同期刊對算法類別依賴程度不同,16種算法類別在《生物醫(yī)學中的計算機方法和程序》期刊均有涉及。
分類、統(tǒng)計、人工神經(jīng)網(wǎng)絡等算法類別提及次數(shù)較多、提及位置較集中、共現(xiàn)次數(shù)較多,具有較高影響力。首先,算法類別提及論文數(shù)和提及總次數(shù)指標對算法類別影響力評估幾乎沒有差別??梢约俣ㄋ惴悇e影響力范圍越廣、提及論文數(shù)越多,相應提及總次數(shù)越高。就提及次數(shù)來看,提及論文數(shù)和提及總次數(shù)可反映算法類別影響力廣度。而平均提及次數(shù)相較前兩項指標對算法類別影響力評估有一定變化,排在前3位的算法類別均排名下跌但仍居前列??梢哉J為算法類別對論文影響力程度越深平均提及次數(shù)越高。其次,提及位置影響力反映算法類別在論文不同位置的集中程度,提及位置影響力越高算法類別在“方法”和“結果”部分的占比越大。最后,共現(xiàn)情況影響力越高,算法影響范圍越大,集中程度越高。綜上,分類、統(tǒng)計、人工神經(jīng)網(wǎng)絡算法影響力廣度和深度均高于其他算法;回歸、聚類、降維、遺傳算法影響力廣度和深度次之;檢測和粗糙集算法類別影響力廣度和深度最低。此外,模型和文本分析算法影響力廣度不足,但有較強深度,說明其在少數(shù)論文中反復使用,在“方法” 和“結果”位置的集中程度、共現(xiàn)情況影響力均排在中后位置。
基于內容分析的量化評估可相對全面地統(tǒng)計算法類別在特定領域使用情況,有助于了解算法類別價值并根據(jù)科研任務類型選擇算法類別及決策算法。未來可考慮獲取多種期刊全部論文進行研究;在現(xiàn)有研究基礎上可基于年代、使用國家等更多方面進行影響力評估;可區(qū)分算法提及和算法使用概念,研究算法類別在文中不同使用身份的影響力差異。