王金輝 趙冬梅 王逍冬
(河北農(nóng)業(yè)大學(xué)植物保護學(xué)院,河北保定 071000)
R語言的起源可以追溯到20世紀90年代,其初衷是向統(tǒng)計學(xué)家提供一款強大且專業(yè)的數(shù)據(jù)處理和統(tǒng)計分析工具[1]。S 語言是貝爾實驗室的John Chambers 于1976 年開發(fā)的一種用于數(shù)據(jù)分析和圖形表示的編程語言[2]。R 語言借鑒了S 語言的一些思想和語法結(jié)構(gòu),但是以開源的方式進行開發(fā)和發(fā)布,這意味著任何人都可以查看、使用和修改R語言的源代碼,為R語言的快速發(fā)展奠定了堅實的基礎(chǔ),吸引了全球范圍內(nèi)的眾多開發(fā)者和忠實用戶。在20 余年的發(fā)展中,R 語言經(jīng)歷了多次重要的改進和版本更新,逐漸演化出了功能豐富且靈活的開源編程語言環(huán)境。目前,R 語言積累了強大的統(tǒng)計分析功能、出色的數(shù)據(jù)可視化工具和豐富的專業(yè)擴展包[3-7],已經(jīng)成為數(shù)據(jù)科學(xué)和研究領(lǐng)域不可或缺的工具之一,在專業(yè)統(tǒng)計、生物醫(yī)藥、農(nóng)林牧漁、環(huán)境生態(tài)、社會調(diào)查、金融服務(wù)和電商物流等諸多領(lǐng)域都有廣泛的應(yīng)用[8-11]。R 語言的成功主要得益于其強大的社區(qū)支持和不斷增長的用戶基礎(chǔ)。
在信息化快速發(fā)展的背景下,許多高等院校將R 語言整合至教育體系,特別是在生物信息學(xué)教學(xué)方面[12-15]。例如,歐洲分子生物學(xué)實驗室-歐洲生物信息研究所(EMBL-EBI)就提供了大量關(guān)于R 語言的標準化網(wǎng)絡(luò)公開課程[16-19]。由于其通俗易懂的編程語法、強大的可擴展性以及高水準的數(shù)據(jù)可視化功能,R語言已經(jīng)成為醫(yī)學(xué)類統(tǒng)計學(xué)、生命類生物信息學(xué)和生物統(tǒng)計學(xué)教學(xué)中首選的統(tǒng)計分析軟件[20-24]。農(nóng)林高等院校也逐漸在傳統(tǒng)農(nóng)林學(xué)科專業(yè)教學(xué)中嘗試引入R語言[25-30]。在植物病理學(xué)專業(yè)教學(xué)中,對R 語言的應(yīng)用相對較少。本文結(jié)合植物病理學(xué)專業(yè)教學(xué)的體系結(jié)構(gòu)和專業(yè)特點,梳理出了適合該專業(yè)與R 語言相結(jié)合的教學(xué)應(yīng)用場景,并且在近兩年的植物病理學(xué)專業(yè)課程中進行了融合嘗試,積累了一定的教學(xué)經(jīng)驗,為提升植物病理學(xué)專業(yè)信息化教學(xué)質(zhì)量,推動農(nóng)林專業(yè)的編程教學(xué)改革提供了思路和教學(xué)案例。
鑒于R 語言強大的數(shù)據(jù)統(tǒng)計分析內(nèi)核,比較直接的結(jié)合點是對專業(yè)實驗課上生成的各類型生物學(xué)數(shù)據(jù)進行統(tǒng)計分析。普通植物病理學(xué)實驗課通常包括植物病原菌物的形態(tài)學(xué)觀察、植物病理組織切片、植物病原的科赫氏法則驗證、植物病害三角關(guān)系和農(nóng)作物品種的抗病性鑒定等教學(xué)實驗。其中,有能夠產(chǎn)生觀測數(shù)據(jù)并且需要統(tǒng)計推斷的應(yīng)用場景,例如,病斑面積的測定和種子帶菌率的調(diào)查等。對于病斑面積、病斑直徑、病組織重量和病情指數(shù)這類正態(tài)分布數(shù)據(jù),以及田間發(fā)病率、種子帶菌率的百分比數(shù)據(jù),都是植物病理學(xué)專業(yè)中常見和典型的觀測數(shù)據(jù)。
R 語言不局限于傳統(tǒng)數(shù)據(jù)的統(tǒng)計分析,在處理字符串?dāng)?shù)據(jù),如核酸序列、蛋白質(zhì)序列方面也表現(xiàn)得游刃有余。在植物病理學(xué)實驗課中,通常會涉及植物病原菌分子鑒定的教學(xué)內(nèi)容,其中最重要的環(huán)節(jié)就是基于聚合酶鏈反應(yīng)(Polymerase Chain Reaction,PCR)產(chǎn)物測序獲得的保守基因序列構(gòu)建出系統(tǒng)發(fā)生樹,從而完成對植物病原菌的系統(tǒng)分類鑒定。在植物病理學(xué)專業(yè)的研究生培養(yǎng)課程中也有類似的教學(xué)內(nèi)容,例如“植物病原菌的分子鑒定”的課堂演示中,就講授如何利用核酸序列或蛋白序列信息來計算出不同植物病原菌群體之間親緣關(guān)系的遠近,在課后作業(yè)中也有類似的練習(xí)。此類教學(xué)場景完全可以利用R語言的擴展軟件包,如Ape[31]和Adegenet[32]等,處理生物分子數(shù)據(jù),包括多序列的比對、進化模型的擬合以及系統(tǒng)發(fā)生樹的可視化等整個分析流程。
在“植物病原細菌的人工接種方法”實驗中,設(shè)計了分別用兩種不同的病原細菌人工接種馬鈴薯的塊莖,對所造成的軟腐病組織進行稱重,進而比較出不同病原細菌在致病力上的差異。通過使用天平稱重測量,學(xué)生會獲得兩組不少于16個生物學(xué)重復(fù)的稱重數(shù)據(jù),單位為g。這種稱重數(shù)據(jù)非常適合在R語言中進行兩個樣本的學(xué)生t檢驗。具體的R代碼如下。
在課堂上,教師會演示將組織稱重數(shù)據(jù)按照R語言輸入格式整理成數(shù)據(jù)框(dataframe);進行探索性數(shù)據(jù)做圖,檢查組間數(shù)據(jù)離散程度以及是否存在潛在的離群值(outliers);檢驗數(shù)據(jù)是否滿足正態(tài)分布和組間方差齊性的前提假設(shè);使用學(xué)生氏t檢驗進行組間均值的比較。分析結(jié)束后,教師會要求學(xué)生將兩組數(shù)據(jù)的均值(mean)、方差(sd)、組間比較的t統(tǒng)計量以及t檢驗的P值寫入實驗報告。根據(jù)P值得出顯著水平結(jié)論,結(jié)合病菌種類做出關(guān)于致病力差異的討論分析。
在“植物病原真菌的人工接種方法”實驗中,還有用梨黑斑病菌人工接種梨果實,放置于不同溫度的培養(yǎng)箱內(nèi)讓果實發(fā)病,然后對所造成的病斑直徑進行測量,從而比較出不同環(huán)境條件下發(fā)病的速度快慢。通過使用直尺測量,學(xué)生會獲得3 組不少于12 個生物學(xué)重復(fù)的直徑數(shù)據(jù),單位為mm。這種多組的直徑測量數(shù)據(jù)非常適合在R語言中進行方差分析(Analysis of variance,ANOVA)。具體的R代碼如下。
在課堂上,教師會演示將梨果病斑的直徑數(shù)據(jù)按照R 語言輸入格式整理成數(shù)據(jù)框;進行探索性數(shù)據(jù)做圖,檢查組間數(shù)據(jù)離散程度以及是否有潛在離群值;檢驗組間數(shù)據(jù)是否符合方差齊性;使用方差分析和圖基檢驗進行組間的多重比較。分析結(jié)束后,教師會要求學(xué)生將F檢的F統(tǒng)計量和P值,以及圖基檢驗的矯正P值寫入實驗報告。根據(jù)組間比較的顯著水平得出結(jié)論,結(jié)合接種后的溫度差異做出關(guān)于環(huán)境條件影響發(fā)病快慢的討論分析。
“植物病原菌的分子鑒定”實驗中,設(shè)計了基于單個保守基因位點的系統(tǒng)發(fā)生樹構(gòu)建環(huán)節(jié)。在獲得植物病原菌保守位點的PCR 產(chǎn)物測序序列后,在美國國家生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)的nr 數(shù)據(jù)庫中檢索相似序列,下載可能的同源序列,進行多序列的比對。將多序列比對結(jié)果以fasta格式讀入R語言環(huán)境。利用Ape和Adegenet軟件包中的功能即可實現(xiàn)鄰接法構(gòu)建系統(tǒng)發(fā)生樹。具體的R代碼如下。
在課堂上,教師會演示如何選擇合適的核酸或蛋白質(zhì)替代矩陣計算遺傳距離。學(xué)習(xí)使用鄰接法來構(gòu)建系統(tǒng)發(fā)生樹,通常本科實驗課會使用單個基因位點進行系統(tǒng)發(fā)生樹的構(gòu)建(即基因樹),而研究生課程則會演示多位點的序列分析,即多位點串聯(lián)樹的構(gòu)建。教師會解釋如何計算系統(tǒng)發(fā)生樹的自展值,有助于評估樹的穩(wěn)定性和可信度。將構(gòu)建好的系統(tǒng)發(fā)生樹進行可視化作圖,以清晰的呈現(xiàn)某個特定植物病原菌的分類地位,并在分枝上標注出自展值。通過使用R 語言,學(xué)生能夠?qū)嶒炇耶a(chǎn)生的分子生物學(xué)數(shù)據(jù)轉(zhuǎn)化為可視化的系統(tǒng)發(fā)生樹,更深刻地理解和解釋植物病原菌的系統(tǒng)分類和群體間的親緣關(guān)系遠近。
R 語言作為一種通用性的數(shù)據(jù)分析工具,可以在不同學(xué)科領(lǐng)域之間建立橋梁。將植物病理學(xué)專業(yè)教學(xué)與R 語言相結(jié)合,是農(nóng)林類高校傳統(tǒng)專業(yè)迎來信息化改革的一次有益探索。不僅使學(xué)生獲得了實際數(shù)據(jù)處理和分析的關(guān)鍵技能,更重要的是,促使學(xué)生更深入地探索和理解植物病理學(xué)的專業(yè)理論知識。這種教學(xué)改革將在培養(yǎng)新一代植物病理學(xué)專業(yè)人才和推動跨學(xué)科合作的發(fā)展方面發(fā)揮關(guān)鍵作用,為農(nóng)林學(xué)科的信息化升級注入新活力。
綜上,本文聚焦探討了R 語言在農(nóng)林高等院校植物病理學(xué)專業(yè)教學(xué)中的應(yīng)用場景,并總結(jié)了R 語言應(yīng)用于植物病理學(xué)專業(yè)教學(xué)的典型教學(xué)案例。新的教學(xué)模式不僅有助于學(xué)生獲得實際的數(shù)據(jù)處理和分析技能,還能夠深化學(xué)生對植物病理學(xué)專業(yè)理論知識的理解。本研究為提升植物病理學(xué)專業(yè)教學(xué)的信息化水平,以及農(nóng)林類專業(yè)的編程教學(xué)改革提供了參考。