欒珊,張凌云,邵翠華
(1 中國石油大學(華東)醫(yī)院內(nèi)科,山東 青島 266580; 2 青島大學附屬醫(yī)院嶗山院區(qū)內(nèi)鏡中心; 3 青島大學附屬醫(yī)院產(chǎn)科)
醫(yī)學統(tǒng)計學方法作為醫(yī)學科研工作的一種基本工具,在生物醫(yī)學領域逐步得到廣泛應用。但隨之而來的是在醫(yī)學論文中統(tǒng)計學的誤用現(xiàn)象也激增。胡良平等[1]認為,一篇醫(yī)學研究型論文的質(zhì)量主要取決于專業(yè)、文字和統(tǒng)計學3個方面。雖然目前越來越多的作者已充分認識到統(tǒng)計學在論文中的作用,但許多調(diào)查研究顯示,在醫(yī)學論文中仍存在不少統(tǒng)計方法使用錯誤及表達不當?shù)那闆r[2-5]。在醫(yī)學論文中,統(tǒng)計學表述的重要性幾乎與專業(yè)表述齊同,論文中統(tǒng)計學表述的質(zhì)量會直接影響整個論文的質(zhì)量,錯誤的統(tǒng)計學方法會導致錯誤的結(jié)論。碩士研究生學位論文不僅是其取得學位的憑證,也反映出研究生的科研能力與學術水平。為提高醫(yī)學研究生學位論文的統(tǒng)計學方法的應用水平和論文質(zhì)量、為實驗的統(tǒng)計學設計及論文評審提供理論依據(jù),并為改善醫(yī)學碩士研究生的統(tǒng)計學教學質(zhì)量提供一些參考,本文選取某大學醫(yī)學院2014年和2019年共177篇內(nèi)科學碩士研究生的學位論文,調(diào)查和分析其統(tǒng)計學方法的應用和誤用情況。
檢索萬方數(shù)據(jù)庫,文獻類型選擇“學位論文”,作者單位選擇“某某大學”,發(fā)表時間選擇2014年和2019年,初步篩選出7 200篇學位論文,其中2014年2 934篇,2019年4 266篇。然后,手工篩選出論文首頁“學科專業(yè)”為“內(nèi)科學”的碩士研究生學位論文177篇,其中2014年90篇,2019年87篇,涉及的具體專業(yè)包括消化系統(tǒng)疾病、血液系統(tǒng)疾病、腎臟系統(tǒng)疾病、風濕病、呼吸系統(tǒng)疾病、內(nèi)分泌與代謝性疾病和心血管系統(tǒng)疾病等。調(diào)查論文中統(tǒng)計學應用(是否應用統(tǒng)計推斷、統(tǒng)計推斷方法的種類及數(shù)量、是否應用統(tǒng)計圖表以及使用何種統(tǒng)計學軟件)和統(tǒng)計學誤用(統(tǒng)計表述不規(guī)范或不充分、統(tǒng)計推斷方法誤用或未用)情況。
按是否應用統(tǒng)計推斷將論文分為兩大類。若一篇文章中未應用任何統(tǒng)計推斷(包括參數(shù)估計和假設檢驗)或僅對數(shù)據(jù)進行描述,均歸類為無統(tǒng)計推斷。對于應用統(tǒng)計推斷的論文,著重考察其是否明確指出所用的統(tǒng)計方法并做相應記錄。若同一論文中應用多種統(tǒng)計分析方法則分別記錄, 一篇論文中重復應用一種統(tǒng)計分析方法的僅記錄1次。對于無統(tǒng)計推斷的論文,考察其是否漏用統(tǒng)計推斷。結(jié)果描述方面,主要考察統(tǒng)計圖表的應用比例和類型。在統(tǒng)計學誤用方面,分為統(tǒng)計描述有誤、統(tǒng)計推斷方法誤用、缺少必要統(tǒng)計推斷、僅給出P值而忽略推斷方法及統(tǒng)計量等4種情況。對文中所用統(tǒng)計軟件的種類和數(shù)量信息也進行了收集。
采用SPSS 18.0統(tǒng)計軟件對數(shù)據(jù)進行分析。計數(shù)資料比較采用χ2檢驗;當1 2.1.1統(tǒng)計學方法應用概述 本次研究共收錄177篇內(nèi)科學碩士學位論文,2014年的90篇論文中有98.9%使用了統(tǒng)計推斷,其中24.4%的論文中給出了具體的P值;2019年的87篇論文中有96.6%應用統(tǒng)計推斷,其中40.2%給出具體的P值。2019年的P值給出率明顯高于2014年,差異有統(tǒng)計學意義(χ2=5.049,P=0.025)。 2.1.2應用統(tǒng)計方法的種類 本研究中2014年和2019年某醫(yī)學院內(nèi)科學碩士學位論文中統(tǒng)計方法應用種類的比較見表1。2019年統(tǒng)計方法應用率的前5位順序為:t檢驗和方差分析(并列)、列聯(lián)表分析(包括卡方檢驗和Fisher確切概率法)、線性相關分析、非參數(shù)檢驗和Logistic回歸等;2014年為:t檢驗、方差分析、列聯(lián)表分析、線性相關分析和非參數(shù)檢驗等。其中2019年計算OR值并給出CI的使用率高于2014年(χ2=7.251,P<0.05)。 表1 2014年和2019年某醫(yī)學院內(nèi)科學碩士學位論文統(tǒng)計方法應用種類比較(篇(χ/%)) 使用方差分析、R×C列聯(lián)表卡方檢驗或多組比較秩和檢驗后,若結(jié)論為差異有統(tǒng)計學意義則需做組間的兩兩比較,以明確是哪兩組間的差異有統(tǒng)計學意義。2019年有45.5%(30/66)的論文中正確運用了兩兩比較方法,略高于2014年的40.98%(25/61),但差別沒有統(tǒng)計學意義(χ2=0.258,P>0.05)。在常用的幾種兩兩比較方法中,LSD檢驗的使用率在2019年高于2014年(χ2=17.527,P<0.001),而SNK-q檢驗的使用率2014年高于2019年(χ2=10.229,P=0.001)。見表2。 表2 2014年和2019年某醫(yī)學院內(nèi)科學碩士學位論文兩兩比較的使用情況(篇) 2.1.3統(tǒng)計學方法應用數(shù)量 在應用統(tǒng)計方法數(shù)量的頻率分布上,2014年與2019年的差異沒有統(tǒng)計學意義(χ2=8.356,P>0.05)。2019年有19.5%(17/87)的論文使用了4種及4種以上的統(tǒng)計學方法,略高于2014年的10.0%(9/90),但二者差異也沒有統(tǒng)計學意義(χ2=2.580,P>0.05)。見表3。 表3 2014年和2019年某醫(yī)學院內(nèi)科學碩士學位論文統(tǒng)計方法應用數(shù)量比較 2.1.4統(tǒng)計圖、統(tǒng)計表和統(tǒng)計軟件應用 2019年內(nèi)科學碩士研究生學位論文中統(tǒng)計表為94.3%(82/87)和統(tǒng)計圖為49.4%(43/87)的應用率均略低于2014年的95.6%(86/90)和56.7%(51/90),但二者間差異無統(tǒng)計學意義(χ2=0.003、0.931,P>0.05)。統(tǒng)計表的應用較之統(tǒng)計圖普遍,且應用率最高的分別為復合表、直條圖或誤差條圖、散點圖和線圖等。2019年內(nèi)科學碩士學位論文中有94.3%(82/87)使用SPSS統(tǒng)計軟件處理數(shù)據(jù),高于2014年的86.7%(78/90),但兩者差異沒有統(tǒng)計學意義(χ2=2.932,P>0.05)。SPSS是內(nèi)科學碩士研究生最常用的統(tǒng)計軟件。 2.2.1統(tǒng)計學表達不規(guī)范或不充分 本次研究的論文中若出現(xiàn)給出P值但統(tǒng)計方法交代不清、統(tǒng)計學表達不規(guī)范、統(tǒng)計推斷過程不完整就得出結(jié)論等情況均視為統(tǒng)計表達有誤,其中統(tǒng)計學表達有誤的在2019年占36.8%(32/87),高于2014年的20.0%(18/90)(χ2=6.147,P<0.05)。給出P值但統(tǒng)計方法交代不清的,2019年有8篇,2014年有9篇,二者比較差異沒有統(tǒng)計學意義(χ2=0.033,P>0.05)。2019年學位論文中統(tǒng)計推斷過程不完整的有9篇(10.3%),略低于2014年的11篇(12.2%),但二者比較差異無統(tǒng)計學意義(χ2=0.156,P>0.05)。 2.2.2統(tǒng)計推斷方法的誤用 統(tǒng)計推斷方法的誤用率2019年是58.6%(51/87),2014年是61.1%(55/90),二者差異沒有統(tǒng)計學意義(χ2=0.114,P>0.05),尚不能認為統(tǒng)計推斷方法的誤用狀況有所改善。2014年和2019年內(nèi)科學碩士學位論文中統(tǒng)計推斷方法誤用類型比較見表4。 表4 2014年和2019年某醫(yī)學院內(nèi)科學碩士學位論文統(tǒng)計方法誤用比較(篇(χ/%)) 本次調(diào)查顯示,2019年與2014年比較,該醫(yī)學院內(nèi)科學碩士研究生學位論文中統(tǒng)計分析的應用率均很高,統(tǒng)計描述誤用情況有所好轉(zhuǎn),但統(tǒng)計推斷誤用情況則無明顯的提高。2019年的統(tǒng)計分析方法應用率前3位為兩均數(shù)比較、方差分析和列聯(lián)表分析,與國內(nèi)研究基本相同[6-8],但相對于國外文獻(前5位為:方差分析、多重比較、非參數(shù)檢驗、t檢驗和相關與回歸)來說設計較簡單[9]。統(tǒng)計學應用方面主要有如下3點不足。①實驗設計類型較簡單,以單因素2水平和多水平為主,但假設檢驗方法誤用率高,遠高于張功員等[8]的結(jié)果。而且應用如隨機區(qū)組設計、重復測量設計、析因設計等可以提高實驗效率的設計類型的論文數(shù)量較少且統(tǒng)計誤用率很高。②統(tǒng)計方法應用種類偏少。多種統(tǒng)計學方法的應用可以更充分地利用數(shù)據(jù)信息,分析透徹,但同時也要注意統(tǒng)計方法濫用問題[10]。③統(tǒng)計軟件應用較單一,2019年SPSS的應用率高達94.3%(82/87),遠高于劉智勇等[6]的研究。SPSS雖是專業(yè)統(tǒng)計分析軟件,但因其操作簡便而被廣泛應用,同時因缺乏對不同統(tǒng)計方法適用性的認識、不能充分正確地解釋研究結(jié)果及軟件本身缺少復雜分析選項等而被誤用[11],因此,沒有專業(yè)的統(tǒng)計學知識或經(jīng)過嚴格培訓很難充分發(fā)揮其作用。非統(tǒng)計專業(yè)的醫(yī)學研究者更適于使用PPMS(Practical Package for Me-dical Statistics)這種運行穩(wěn)定、功能和應用也較為簡單便捷的統(tǒng)計軟件[12]。此外,如果研究中有統(tǒng)計學家的參與可以確保結(jié)果全面、科學、可靠。因此,在內(nèi)科學碩士研究生的統(tǒng)計學教學中不僅應當把實驗設計作為一個教學重點,并與實際的課題設計案例相結(jié)合來鞏固教學效果,還要特別注重較復雜類型(實驗效率亦較高)統(tǒng)計方法的講解及相應統(tǒng)計軟件正確合理的應用,使研究生切實提高科研能力和課題完成效率。 從上世紀60年代起,國外就對論文中統(tǒng)計方法應用狀況進行研究,發(fā)現(xiàn)存在統(tǒng)計學誤用問題的文章最高,占了60%以上[13]。而后國內(nèi)相繼也有研究表明,醫(yī)學論文中統(tǒng)計方法誤用現(xiàn)象普遍存在[14-16]。王倩等[14]針對5種中華系列雜志論著文章中的統(tǒng)計學方法應用狀況的研究結(jié)果顯示,存在統(tǒng)計學錯誤的文章在1985年占24%,而1995年占36%;胡良平等[15-16]認為在醫(yī)學期刊論文中,從研究的統(tǒng)計學設計、數(shù)據(jù)的描述和統(tǒng)計分析到解釋相應的統(tǒng)計分析結(jié)果等,在這幾個環(huán)節(jié)上出現(xiàn)錯誤的概率平均為80%。 本研究的統(tǒng)計學誤用大多是由于適用條件不滿足和研究設計類型與假設檢驗方法不相符,而且通過5年的對比分析表明,這兩種情況基本沒有改善。2019年仍有17.2%的文章因資料方差不齊而將秩和檢驗誤用為方差分析,雖然遠低于高曉鳳等[7]報道的58.8%,但仍然不能忽視。同一資料無論是忽視適用條件還是設計類型選擇不同的統(tǒng)計分析方法會得到截然不同的結(jié)論,對臨床實踐造成嚴重后果。本研究及相關文獻[6-8]顯示,以誤用t檢驗和單因素方差分析最普遍,這不僅會造成原始資料利用率低,增加假陽性錯誤,還會破壞原來的整體設計。然而,科研設計缺陷造成的后果是再高明的統(tǒng)計學家和統(tǒng)計軟件都彌補不了的,研究者應當重視科研設計尤其是復雜設計的理論及應用。本文2019年重復測量設計資料中有13.8%的文章誤用為單因素方差分析,略高于2014年的10.0%,但與高曉鳳等[7]的研究結(jié)果相近;沒有出現(xiàn)誤用為t檢驗的情況,提示統(tǒng)計誤用情況有好轉(zhuǎn)趨勢。在多因素設計的實驗中,析因設計是獲得信息量較多的設計類型之一,但其實施和數(shù)據(jù)分析都比較復雜。常出現(xiàn)以下統(tǒng)計學錯誤[17]:析因設計資料誤用t檢驗來處理、誤認為析因設計資料中的時間因素是重復測量因素、在處理數(shù)據(jù)時未區(qū)分因素和水平而一律表示為“組別”,造成統(tǒng)計描述混亂,繼而導致假設檢驗方法的誤用。本次調(diào)查中的7篇重復測量設計論文(其中2019年2篇,2014年5篇)均誤用為單因素方差分析。提示我們應用統(tǒng)計學方法時必須要了解這些方法所需的設計、適用的條件和結(jié)果的意義,合理選擇恰當統(tǒng)計學方法[10,18]。方差分析后的兩兩比較,如果事先已經(jīng)計劃好的,不論方差分析結(jié)果是否有統(tǒng)計學意義,可選用LSD或Bonferroni法;如果事先沒有計劃,方差分析結(jié)果有統(tǒng)計學意義后,可利用兩兩比較進行探索性分析,這時候可以選擇Dunnett、Tukey或Scheffe法。 綜上所述,醫(yī)學院內(nèi)科學碩士研究生學位論文中統(tǒng)計方法應用率很高,統(tǒng)計描述誤用情況有所好轉(zhuǎn),但統(tǒng)計推斷誤用情況無明顯改善,應引起學校、醫(yī)學統(tǒng)計學教師、研究生及其導師、審稿人、雜志編輯及期刊管理部門的高度重視。針對以上問題提出如下幾點建議。①全面開設統(tǒng)計學課程,增加授課數(shù)量、時間、深度和廣度,規(guī)范研究的統(tǒng)計學設計。②合理選擇統(tǒng)計學方法,培養(yǎng)統(tǒng)計思維,理論聯(lián)系實際。③加強編輯審稿及統(tǒng)計學審稿,規(guī)范論文中統(tǒng)計描述不規(guī)范的問題并發(fā)現(xiàn)深層次的統(tǒng)計問題。在統(tǒng)計審稿時提供原數(shù)據(jù)庫,以便對數(shù)據(jù)進行準確而綜合地審查。學校若能夠?qū)Ρ拘5难芯可鷮W位論文定期進行統(tǒng)計學評價,定性、定量地評價統(tǒng)計學誤用的嚴重程度,可有效提高論文的統(tǒng)計學報告質(zhì)量。④研究者提高統(tǒng)計修養(yǎng)。醫(yī)學碩士研究生應提高自身的統(tǒng)計應用水平,充分認識統(tǒng)計學錯誤所帶來的嚴重后果,把握住統(tǒng)計學的實踐性特點,結(jié)合統(tǒng)計理論與科研實踐,加強自身學習,提高統(tǒng)計修養(yǎng)。2 結(jié) 果
2.1 統(tǒng)計學方法應用情況
2.2 統(tǒng)計學方法誤用情況的比較
3 討 論