■相丹風(fēng) 高 永 周英智
1)《醫(yī)學(xué)綜述》雜志社,北京市通州區(qū)北苑通典銘居F座806室 1011002)濱州醫(yī)學(xué)院《中國醫(yī)院統(tǒng)計(jì)》編輯部,山東省煙臺(tái)市萊山區(qū)觀海路346號(hào) 2640033)山東大學(xué)科技期刊社,山東省濟(jì)南市山大南路27號(hào) 250100
P值是醫(yī)學(xué)論文重要的統(tǒng)計(jì)學(xué)內(nèi)容,是最終準(zhǔn)確推斷結(jié)論的重要依據(jù),如果P值出現(xiàn)錯(cuò)誤,就會(huì)嚴(yán)重影響對(duì)結(jié)果的正確判斷,甚至得出與事實(shí)相反的結(jié)論。美國統(tǒng)計(jì)學(xué)會(huì)理事會(huì)于2016年發(fā)表了P值聲明[1],引起了學(xué)者們對(duì)P值更高度的重視。t檢驗(yàn)是最常用的統(tǒng)計(jì)方法之一[2-3],編輯同仁對(duì)醫(yī)學(xué)論文中t檢驗(yàn)的應(yīng)用情況進(jìn)行了大量調(diào)查,發(fā)現(xiàn)其中存在很多問題,例如對(duì)不符合正態(tài)分布或方差不齊的2組資料進(jìn)行成組t檢驗(yàn)[4-5],使用t檢驗(yàn)處理多組間或重復(fù)測(cè)量設(shè)計(jì)的資料等[2,6-7]。高永等[8]研制了基于 Excel 的統(tǒng)計(jì)分析系統(tǒng),對(duì)于完全隨機(jī)設(shè)計(jì)的2個(gè)樣本均數(shù)的比較,可以輸入論文中樣本例數(shù)、均數(shù)、標(biāo)準(zhǔn)差,系統(tǒng)根據(jù)方差齊性檢驗(yàn)結(jié)果自動(dòng)選擇t或t′檢驗(yàn),并且給出具體的t(或t′)值和P值。筆者在工作中利用該系統(tǒng)檢驗(yàn)來稿的數(shù)據(jù)時(shí),發(fā)現(xiàn)t檢驗(yàn)中P值錯(cuò)誤較多。查閱相關(guān)文獻(xiàn),發(fā)現(xiàn)有關(guān)t檢驗(yàn)P值判斷錯(cuò)誤的系統(tǒng)調(diào)查報(bào)道較少。所以,本研究以成組t檢驗(yàn)(又稱獨(dú)立樣本t檢驗(yàn))為例,利用該系統(tǒng)調(diào)查公開發(fā)表的醫(yī)學(xué)論文中出現(xiàn)P值錯(cuò)誤的情況,并分析導(dǎo)致P值錯(cuò)誤的原因,以期引起編輯同仁對(duì)統(tǒng)計(jì)學(xué)結(jié)果錯(cuò)誤的高度重視,并采取有力措施來提高醫(yī)學(xué)論文的統(tǒng)計(jì)學(xué)質(zhì)量。
對(duì)中國知網(wǎng)數(shù)據(jù)庫收錄的296種綜合醫(yī)藥衛(wèi)生期刊(http://navi.cnki.net/KNavi/Journal.html#)按下列條件進(jìn)行檢索:全文出現(xiàn)“成組t檢驗(yàn)”“獨(dú)立樣本t檢驗(yàn)”或“t檢驗(yàn)”,發(fā)表時(shí)間為2014—2018年。按時(shí)間順序排序,每種期刊盡可能選用最新發(fā)表的1篇論文。每篇論文選擇1項(xiàng)成組t檢驗(yàn),錄入2組例數(shù)、均數(shù)、標(biāo)準(zhǔn)差及t值、P值。若原文中沒有明確說明成組t檢驗(yàn)或獨(dú)立樣本t檢驗(yàn),只說明使用t檢驗(yàn),筆者將對(duì)其進(jìn)行核實(shí),確保所用方法為成組t檢驗(yàn),排除配對(duì)t檢驗(yàn)、秩和檢驗(yàn)等。
具體方法見文獻(xiàn)[8]。因?yàn)楸狙芯克{入的成組t檢驗(yàn)均未提及單側(cè)檢驗(yàn),所以P值采用雙側(cè)檢驗(yàn)結(jié)果。如果測(cè)算的t(或t′)值和P值與論文中差別較大,則懷疑論文中的數(shù)據(jù)錯(cuò)誤??紤]到“四舍五入”的情況,利用均數(shù)、標(biāo)準(zhǔn)差計(jì)算的結(jié)果與利用原始數(shù)據(jù)計(jì)算的結(jié)果可能存在一定偏差,但是差別不應(yīng)太大。進(jìn)一步利用該系統(tǒng)測(cè)算t(或t′)值和P值因均數(shù)、標(biāo)準(zhǔn)差的“四舍五入”造成的波動(dòng)范圍,如果論文結(jié)果在這個(gè)范圍外,則確定原文結(jié)果錯(cuò)誤。例如某研究設(shè)觀察組、對(duì)照組各60例,觀察組麻醉時(shí)間為(66.5±2.7) min,對(duì)照組為(68.4±3.1) min,2組比較t=0.721,P>0.05[9]。利用軟件對(duì)上述結(jié)果進(jìn)行核驗(yàn),2組資料方差齊,t=3.580,P=0.0005(雙側(cè)),與論文結(jié)果差別較大。根據(jù)2個(gè)樣本均數(shù)比較t(t′)檢驗(yàn)計(jì)算公式,在樣本數(shù)量不變的情況下,2個(gè)均數(shù)差值越大、標(biāo)準(zhǔn)差越小,則t(或t′)越大、P值越小,反之亦然??紤]到“四舍五入”因素,均數(shù)66.5的精確值在66.45與66.55之間,同理可以給出其他均數(shù)、標(biāo)準(zhǔn)差的精確值所在范圍。據(jù)此,可以計(jì)算出因均數(shù)、標(biāo)準(zhǔn)差的“四舍五入”造成的P值波動(dòng)范圍為0.0002~0.0011,由此可以確定原文P>0.05錯(cuò)誤。
(1)是否為核心期刊[10]。有學(xué)者比較核心期刊與非核心期刊文獻(xiàn)數(shù)量增長速度[11]、篇尾空白處理[12]等方面的差別,受此啟發(fā),筆者嘗試比較核心期刊與非核心期刊成組t檢驗(yàn)P值錯(cuò)誤的比例。(2)樣本量大小。成組t檢驗(yàn)要求資料符合正態(tài)分布以及方差齊。樣本量較大時(shí),對(duì)非正態(tài)分布、方差不齊的2組資料比較采用成組t檢驗(yàn),可能對(duì)結(jié)果影響不大,但對(duì)于小樣本資料結(jié)果影響較大。(3)方差齊性。2組定量資料比較時(shí),如果方差不齊,不能采用成組t檢驗(yàn),而應(yīng)當(dāng)采用t′檢驗(yàn)或秩和檢驗(yàn),如果誤用成組t檢驗(yàn),則會(huì)影響P值。(4)t值及具體P值。醫(yī)學(xué)論文應(yīng)當(dāng)給出確切的統(tǒng)計(jì)量和P值,醫(yī)學(xué)論文中缺少具體統(tǒng)計(jì)量及P值的問題已經(jīng)引起了編輯同仁的重視[13-14]。本研究嘗試分析是否給出t值及具體P值與P值錯(cuò)誤是否有關(guān)。
采用SPSS 22.0軟件進(jìn)行數(shù)據(jù)處理,采用相對(duì)數(shù)對(duì)P值錯(cuò)誤進(jìn)行表述,應(yīng)用χ2檢驗(yàn)對(duì)2組間差異進(jìn)行單因素分析,利用Mantel-Haenszel法進(jìn)行分層分析,采用二項(xiàng)式logistic回歸進(jìn)行多因素分析,檢驗(yàn)水準(zhǔn)α=0.05(雙側(cè))。
296種期刊中,除去??⒔晡幢皇珍?、未檢索到合適論文等60種期刊,納入統(tǒng)計(jì)期刊共236種,每種期刊選擇1項(xiàng)成組t檢驗(yàn)。其中2014年1項(xiàng),2015年4項(xiàng),2016年14項(xiàng),2017年83項(xiàng),2018年134項(xiàng);50項(xiàng)存在P值錯(cuò)誤,占比21.19%。
2.2.1 是否為核心期刊
236項(xiàng)成組t檢驗(yàn)中,109項(xiàng)來自核心期刊,占比46.19%,127項(xiàng)來自非核心期刊,占比53.81%。核心期刊P值錯(cuò)誤共30項(xiàng),占比27.52%,非核心期刊P值錯(cuò)誤共20項(xiàng),占比15.75%,2組差異具有統(tǒng)計(jì)學(xué)意義。
2.2.2 樣本量大小
根據(jù)文獻(xiàn)[15]的方法,將2組中至少1組樣本量≤60定義為小樣本資料。236項(xiàng)成組t檢驗(yàn)中,43項(xiàng)為大樣本資料,占比18.22%,193項(xiàng)為小樣本資料,占比81.78%。大樣本組P值錯(cuò)誤9項(xiàng),占比20.93%,小樣本組P值錯(cuò)誤41項(xiàng),占比21.24%,2組差異無統(tǒng)計(jì)學(xué)意義。
2.2.3 方差齊性
236項(xiàng)成組t檢驗(yàn)中,方差齊171項(xiàng),占比72.46%,方差不齊65項(xiàng),占比27.54%。方差齊組的P值錯(cuò)誤31項(xiàng),占比18.13%,方差不齊組的P值錯(cuò)誤19項(xiàng),占比29.23%,2組差異無統(tǒng)計(jì)學(xué)意義。
2.2.4 是否給出t值
236項(xiàng)成組t檢驗(yàn)中,給出t值152項(xiàng),占比64.41%,未給出t值84項(xiàng),占比35.59%。給出t值組P值錯(cuò)誤34項(xiàng),占比22.37%,未給出t值組P值錯(cuò)誤16項(xiàng),占比19.05%,2組差異無統(tǒng)計(jì)學(xué)意義。
2.2.5 是否給出具體P值
總體分為給出和未給出具體P值,前者包括P值為0.00、0.000、0.0000和其他具體值。實(shí)際P值并不等于0,當(dāng)P值太小時(shí),統(tǒng)計(jì)軟件會(huì)四舍五入為P=0.0000,在論文中應(yīng)描述為P<0.001或P<0.0001[16-18]。因此,將二者也歸為給出具體P值。其他為未給出具體P值,包括P<0.01、P<0.05、P>0.05、P>0.1。236種期刊中,給出具體P值126項(xiàng),占比53.39%,未給出具體P值110項(xiàng),占比46.61%。給出具體P值組中P值錯(cuò)誤39項(xiàng),占比30.95%,未給出具體P值組中P值錯(cuò)誤11項(xiàng),占比10.00%,2組差異具有統(tǒng)計(jì)學(xué)意義。
以上單因素分析結(jié)果見表1。
表1 236項(xiàng)成組t檢驗(yàn)P值錯(cuò)誤單因素分析
將是否給出具體P值作為混雜因素,采用Mantel-Haenszel分層分析法比較核心期刊與非核心期刊P值錯(cuò)誤發(fā)生率,結(jié)果表明差異無統(tǒng)計(jì)學(xué)意義(χ2=2.703,P=0.100)。
各變量的賦值情況見表2。將上述因素均納入模型,得到236項(xiàng)成組t檢驗(yàn)P值錯(cuò)誤二項(xiàng)式logistic回歸分析結(jié)果(表3)。可以看出,是否方差齊(OR值為0.470,95%CI為0.230~0.961)、是否給出具體P值(OR值為5.459,95%CI為2.311~12.895)具有統(tǒng)計(jì)學(xué)意義。
表2 各變量的賦值情況
表3 236項(xiàng)成組t檢驗(yàn)P值錯(cuò)誤二項(xiàng)式logistic回歸分析
本研究發(fā)現(xiàn),醫(yī)學(xué)論文成組t檢驗(yàn)中P值錯(cuò)誤發(fā)生率高達(dá)21.19%,嚴(yán)重影響了論文的學(xué)術(shù)質(zhì)量,需要引起高度重視。其可能原因主要包括:統(tǒng)計(jì)分析軟件操作失誤;寫作過程中P值筆誤;寫作過程中樣本例數(shù)、均數(shù)、標(biāo)準(zhǔn)差數(shù)據(jù)筆誤,造成核驗(yàn)P值本身錯(cuò)誤而誤判;統(tǒng)計(jì)方法不當(dāng),例如符合正態(tài)分布但方差不齊時(shí)沒用t′檢驗(yàn);手工計(jì)算錯(cuò)誤;排版錯(cuò)誤;數(shù)據(jù)造假等。為避免成組t檢驗(yàn)P值錯(cuò)誤,提高醫(yī)學(xué)論文的統(tǒng)計(jì)學(xué)質(zhì)量,提出以下建議。
(1) 重視成組t檢驗(yàn)的應(yīng)用條件。進(jìn)行成組t檢驗(yàn),特別是樣本量較小時(shí),用于2組比較的資料必須符合正態(tài)分布。筆者在收集研究資料的過程中發(fā)現(xiàn),資料不符合正態(tài)分布的情況較為常見。例如某研究采用成組t檢驗(yàn)比較膽管癌和膽總管結(jié)石患者血清 CA199 水平,2組數(shù)值分別為(413.09±355.35) U/mL和(183.48±322.24) U/mL,標(biāo)準(zhǔn)差接近甚至超過均數(shù),初步可以判斷為非正態(tài)分布[19]。應(yīng)當(dāng)首先對(duì)數(shù)據(jù)進(jìn)行正態(tài)分布檢驗(yàn),若為非正態(tài)分布,改為中位數(shù)及四分位間距描述,采用 Wilcoxon 秩和檢驗(yàn)進(jìn)行2組比較[20-21]。
成組t檢驗(yàn)的另一個(gè)應(yīng)用條件是方差齊,如果符合正態(tài)分布但方差不齊應(yīng)該取t′檢驗(yàn)的P值。但本組資料方差不齊的比例高達(dá)27.54%,均未提及采用t′檢驗(yàn),由此推測(cè),許多方差不齊的2組比較很可能采用的是成組t檢驗(yàn)的P值,導(dǎo)致P值不精確甚至錯(cuò)誤。二項(xiàng)式logistic回歸分析結(jié)果也顯示,方差齊減少了P值錯(cuò)誤的可能性。如果統(tǒng)計(jì)學(xué)方法選擇錯(cuò)誤,統(tǒng)計(jì)學(xué)處理結(jié)果的正確性將無從談起,因此編輯審核稿件時(shí),一定要首先審核所用的統(tǒng)計(jì)學(xué)方法是否正確。
(2) 要求論文作者給出觀察指標(biāo)的描述分析。例如比較2組正態(tài)分布的資料時(shí),要求作者給出樣本量、均數(shù)、標(biāo)準(zhǔn)差等指標(biāo),這是論文寫作的基本要求,也便于利用這些數(shù)據(jù)核實(shí)統(tǒng)計(jì)推斷結(jié)果。如果覺得結(jié)果可疑,可以請(qǐng)作者提供原始數(shù)據(jù),通過統(tǒng)計(jì)學(xué)軟件進(jìn)行核查。
(3) 要求論文作者給出統(tǒng)計(jì)量和具體P值。醫(yī)學(xué)論文要給出確切的統(tǒng)計(jì)量和P值,包括中華醫(yī)學(xué)會(huì)系列雜志在內(nèi)的許多醫(yī)學(xué)期刊都對(duì)此做出了明確要求[22-23]。但本研究發(fā)現(xiàn),236項(xiàng)成組t檢驗(yàn)中,未給出t值和具體P值的比例分別高達(dá)35.59%和46.61%。不給出t值和具體P值,不利于判斷2組比較統(tǒng)計(jì)學(xué)差異的具體程度。另外,本研究結(jié)果顯示,給出具體P值的論文中P值錯(cuò)誤發(fā)生率較高,主要因?yàn)楸狙芯克玫呐袆e方法更容易發(fā)現(xiàn)具體P值的錯(cuò)誤。例如文獻(xiàn)[24]比較痛經(jīng)女性組與正常女性組經(jīng)期 SCL-90 各因素的均值,其中“強(qiáng)迫”一項(xiàng)的P值為0.003,筆者利用文中數(shù)據(jù)測(cè)算的結(jié)果是P值為0.0003,波動(dòng)范圍為0.0003~0.0004,因此判斷原文P值錯(cuò)誤。如果原文給出的不是具體值,而是P<0.01或P<0.05,則不會(huì)判為錯(cuò)誤。
統(tǒng)計(jì)學(xué)處理是醫(yī)學(xué)論文的重要內(nèi)容,統(tǒng)計(jì)學(xué)結(jié)果錯(cuò)誤將嚴(yán)重影響論文的學(xué)術(shù)質(zhì)量。利用基于Excel 的統(tǒng)計(jì)分析系統(tǒng)核驗(yàn)了中國知網(wǎng)收錄的綜合醫(yī)藥衛(wèi)生期刊中成組t檢驗(yàn)的P值,發(fā)現(xiàn)P值錯(cuò)誤較多,必須引起高度重視。期刊編輯應(yīng)當(dāng)重視對(duì)統(tǒng)計(jì)學(xué)方法應(yīng)用條件的審查;要求作者給出統(tǒng)計(jì)描述以及統(tǒng)計(jì)推斷的具體結(jié)果,必要時(shí)請(qǐng)作者提供原始數(shù)據(jù),通過統(tǒng)計(jì)學(xué)軟件進(jìn)行核查,嚴(yán)防統(tǒng)計(jì)數(shù)據(jù)造假等學(xué)術(shù)不端現(xiàn)象;可以利用簡(jiǎn)單易學(xué)的統(tǒng)計(jì)學(xué)軟件核實(shí)P值;做好校對(duì)工作,及時(shí)發(fā)現(xiàn)排版導(dǎo)致的錯(cuò)誤。由于本研究只調(diào)查了綜合醫(yī)藥衛(wèi)生期刊,結(jié)果可能與國內(nèi)醫(yī)學(xué)期刊的整體情況有一定出入,有待擴(kuò)大范圍做進(jìn)一步的深入研究。