◇湖南農(nóng)業(yè)大學(xué)信息與智能科學(xué)技術(shù)學(xué)院 許健 何少芳
當(dāng)前,農(nóng)業(yè)信息化智能化正在逐步推進(jìn),農(nóng)業(yè)院校的才培養(yǎng)模式需緊跟產(chǎn)業(yè)需求的變化。本文首先分析了我校傳統(tǒng)多元統(tǒng)計(jì)分析課程教學(xué)中存在的問(wèn)題與不足,之后提出了要用好農(nóng)業(yè)院校優(yōu)勢(shì),引入農(nóng)業(yè)相關(guān)學(xué)科領(lǐng)域真實(shí)案例數(shù)據(jù)和問(wèn)題需求,以問(wèn)題驅(qū)動(dòng),從解決問(wèn)題的過(guò)程中學(xué)習(xí)相關(guān)概念和方法,建立問(wèn)題驅(qū)動(dòng)型教學(xué)模式。
“多元統(tǒng)計(jì)分析”是應(yīng)用性較強(qiáng)的一門(mén)統(tǒng)計(jì)學(xué)基礎(chǔ)課程,其中的很多經(jīng)典方法比如主成分分析、因子分析、聚類(lèi)分析、判別分析等,早已經(jīng)應(yīng)用到諸如物理、化學(xué)、生物、醫(yī)學(xué)、經(jīng)濟(jì)學(xué)等領(lǐng)域,目前也是是機(jī)器學(xué)習(xí)方法庫(kù)中的重要組成部分。本課程一般以“概率論與數(shù)理統(tǒng)計(jì)”和“線性代數(shù)”為先修課程,涉及的內(nèi)容豐富,除了經(jīng)典的多元分析方法,新出版的教材還會(huì)納入一些機(jī)器學(xué)習(xí)方法,比如決策樹(shù)、bagging 回歸、隨機(jī)森林等。這門(mén)課作為一門(mén)統(tǒng)計(jì)學(xué)應(yīng)用課程,其目的是提高學(xué)生對(duì)真實(shí)數(shù)據(jù)的分析能力。只有準(zhǔn)確理解方法背后的原理,才能在真實(shí)數(shù)據(jù)分析場(chǎng)景中嵌入合適的方法。為了在有限的學(xué)時(shí)中盡快引導(dǎo)學(xué)生入門(mén),在方法與編程實(shí)現(xiàn)方面都有所提高,筆者從課程教學(xué)內(nèi)容安排和教學(xué)模式方面進(jìn)行了一些探索。
該課程的理論部分對(duì)數(shù)學(xué)以及統(tǒng)計(jì)學(xué)理論有較高要求,編程實(shí)現(xiàn)方面需要學(xué)生學(xué)習(xí)R或者Python等編程語(yǔ)言。為了在授課中突出方法原理,強(qiáng)調(diào)編程實(shí)現(xiàn),培養(yǎng)學(xué)生的“問(wèn)題驅(qū)動(dòng)”思維意識(shí),同時(shí)結(jié)合農(nóng)業(yè)院校特色,在課程教學(xué)內(nèi)容上進(jìn)行了適當(dāng)調(diào)整。
當(dāng)前,大數(shù)據(jù)、人工智能、5G通信等現(xiàn)代信息技術(shù)逐漸融入農(nóng)業(yè)生產(chǎn)過(guò)程的各個(gè)環(huán)節(jié),智慧農(nóng)業(yè)已經(jīng)成為現(xiàn)代農(nóng)業(yè)發(fā)展的新業(yè)態(tài)和前進(jìn)方向。2020年,中央和地方各級(jí)政府尤其提出要加快大數(shù)據(jù)、人工智能、第五代移動(dòng)通信網(wǎng)絡(luò)等現(xiàn)代信息技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用[1-2]。智慧農(nóng)業(yè)涵蓋的內(nèi)容豐富,所需技術(shù)門(mén)類(lèi)多,存在明顯的學(xué)科交叉融合。未來(lái)智慧農(nóng)業(yè)領(lǐng)域的研發(fā)重點(diǎn)將聚焦在以下三個(gè)方面:①以農(nóng)業(yè)遙感為代表的作物識(shí)別與生長(zhǎng)監(jiān)測(cè)技術(shù);②以機(jī)器視覺(jué)為代表的影像分析與利用技術(shù);③以農(nóng)業(yè)物聯(lián)網(wǎng)為代表的信息感知、分析與調(diào)控技術(shù)[3]。
農(nóng)業(yè)遙感的有效應(yīng)用,首先要能“讀懂”高光譜等遙感數(shù)據(jù),機(jī)器視覺(jué)中大量的影像數(shù)據(jù)需要做模式識(shí)別,物聯(lián)網(wǎng)數(shù)據(jù)中蘊(yùn)含著寶貴的商業(yè)信息等待挖掘。這些都是農(nóng)業(yè)信息化中的真實(shí)問(wèn)題,并且相關(guān)或類(lèi)似的數(shù)據(jù)往往在本校也能夠獲取到。這些數(shù)據(jù)案例是天然的優(yōu)秀教學(xué)題材。比如,不同品種油菜籽的近紅外光譜之間的差異在主成分上的體現(xiàn)方式,可以用于理解主成分方法的原理;不同品種紅薯質(zhì)地口感專(zhuān)家打分情況與體現(xiàn)紅薯風(fēng)味的各項(xiàng)物化指標(biāo)間的關(guān)系,用于解釋因子模型如何探索變量之間的相關(guān)性結(jié)構(gòu);根據(jù)油菜籽的近紅外光譜判斷品種類(lèi)型,體現(xiàn)判別分析方法的功能;油菜冠層光譜與油菜氮素營(yíng)養(yǎng)的偏最小二乘回歸模型,展示當(dāng)變量個(gè)數(shù)大于樣本個(gè)數(shù)情況下的多元回歸建模。
經(jīng)典的多元統(tǒng)計(jì)分析教材通常都著重于數(shù)學(xué)理論和推導(dǎo),關(guān)于多元正態(tài)分布的性質(zhì)占據(jù)很大的篇幅,過(guò)度強(qiáng)調(diào)在理想的假設(shè)下能推得的諸多性質(zhì),而對(duì)于真實(shí)數(shù)據(jù)的分析強(qiáng)調(diào)得則不夠,同時(shí),在統(tǒng)計(jì)軟件的應(yīng)用方面可能會(huì)慢于軟件技術(shù)的進(jìn)步速度。根據(jù)我的經(jīng)驗(yàn),由于多元分析的理論推導(dǎo)過(guò)程通常相對(duì)“規(guī)模龐大”,講清楚一個(gè)理論細(xì)節(jié)要花費(fèi)大量的課堂時(shí)間,學(xué)生很容易產(chǎn)生排斥心理,影響教學(xué)效果,同時(shí)也造成方法的應(yīng)用部分匆匆?guī)н^(guò),花了大量精力,學(xué)生留下的可能只是理論的碎片,而對(duì)于方法有什么用、怎么用則不甚清楚。鑒于以上問(wèn)題,在我們的教學(xué)中,對(duì)于經(jīng)典多元分析方法,如判別和分類(lèi)分析、主成分分析、因子分析、聚類(lèi)分析、典型相關(guān)分析,我們強(qiáng)調(diào)它們的原理的直觀性解釋和在數(shù)據(jù)分析場(chǎng)景中的應(yīng)用,弱化理論的數(shù)學(xué)推導(dǎo),但是注重方法的幾何直觀解釋?zhuān)热缍涡团c置信橢圓[4],主成分與方差極大化方向,線性判別與最優(yōu)投影方向等,幾何直觀對(duì)理解方法的原理十分有益。在講解經(jīng)典方法的同時(shí),補(bǔ)充一些原理簡(jiǎn)單但有效果優(yōu)良的機(jī)器學(xué)習(xí)方法,比如決策樹(shù)、隨機(jī)森林等。具體的內(nèi)容安排見(jiàn)表1。多元正態(tài)分布有關(guān)的方法,比如針對(duì)均值和協(xié)方差矩陣的檢驗(yàn)等,由于實(shí)際問(wèn)題可能難以滿(mǎn)足多元正態(tài)的分布假設(shè),實(shí)際應(yīng)用場(chǎng)景不多,所以在課堂教學(xué)中去掉這一部分內(nèi)容,減輕學(xué)生負(fù)擔(dān)。
表1 理論課教學(xué)內(nèi)容
多元數(shù)據(jù)的分析處理幾乎離不開(kāi)計(jì)算機(jī)的輔助,因此學(xué)生必須掌握經(jīng)典多元方法的編程實(shí)現(xiàn)。試驗(yàn)課的內(nèi)容基本上與理論課相對(duì)應(yīng),R語(yǔ)言或者Python只在第一次實(shí)驗(yàn)課上做簡(jiǎn)要介紹,學(xué)生自學(xué),不在課堂上學(xué)習(xí)。通常,如果使用R語(yǔ)言,那么語(yǔ)言自帶了幾乎所有經(jīng)典多元分析方法的命令,了解命令的相關(guān)參數(shù)功能就能實(shí)現(xiàn)相關(guān)方法。但是這樣對(duì)初學(xué)者掌握方法的原理沒(méi)有幫助,因此在實(shí)驗(yàn)課中,對(duì)于合適的內(nèi)容,要求學(xué)生自己編程實(shí)現(xiàn),不直接套用現(xiàn)成命令。適合自己編程實(shí)現(xiàn)的方法有經(jīng)典的回歸方法、線性判別、Logistic判別、主成分的計(jì)算、因子模型的主成分方法、K均值聚類(lèi)、系統(tǒng)聚類(lèi)、對(duì)應(yīng)分析的模型計(jì)算。對(duì)于這些方法,編程過(guò)程實(shí)際上只需要將對(duì)應(yīng)的數(shù)學(xué)推導(dǎo)變?yōu)橛?jì)算機(jī)代碼即可,因此對(duì)學(xué)生來(lái)說(shuō)門(mén)檻不會(huì)太高,而同時(shí)這對(duì)于理解方法的理論細(xì)節(jié)又大有裨益。
在對(duì)實(shí)際問(wèn)題數(shù)據(jù)的建模分析過(guò)程中,多元方法的使用和效果評(píng)估存在一定的主觀性,這種主觀性也體現(xiàn)了統(tǒng)計(jì)學(xué)處理和分析問(wèn)題所特有的思維方式,它是在處理沒(méi)有“標(biāo)準(zhǔn)答案”的真實(shí)問(wèn)題時(shí)所不可避免的,而這也是在初學(xué)階段很難處理好的地方。真實(shí)問(wèn)題可能有很多不同的答案,每種答案都具備某種合理性,尋求“標(biāo)準(zhǔn)答案”會(huì)限制想象力,造成對(duì)問(wèn)題本身復(fù)雜性的回避。面對(duì)復(fù)雜的問(wèn)題,對(duì)問(wèn)題本身的意義以及對(duì)數(shù)據(jù)的理解是能力培養(yǎng)的關(guān)鍵,而這很難用套入一個(gè)固定的模式中[5]。因此,實(shí)踐教學(xué)環(huán)節(jié)我們主張讓學(xué)生開(kāi)放性的選題,找一個(gè)自己感興趣的問(wèn)題,準(zhǔn)確定位問(wèn)題的背景及意義,獲取數(shù)據(jù),做必要的探索性分析和統(tǒng)計(jì)建模分析,得到自己的研究結(jié)論。采用任務(wù)分解的方式,在問(wèn)題解決的各個(gè)環(huán)節(jié)對(duì)學(xué)生加以引導(dǎo)。圖一列出的是從選題到撰寫(xiě)分析報(bào)告整個(gè)過(guò)程的典型步驟,問(wèn)題是千變?nèi)f化的,但基本上都可以遵循這樣一個(gè)分析流程,將問(wèn)題的解決分解為一個(gè)個(gè)具體的任務(wù),各個(gè)擊破。完成好每一個(gè)子任務(wù),得到一份合格的分析報(bào)告就不會(huì)太難。
圖1中所示的流程中,選題策略和問(wèn)題背景及意義的重要性是學(xué)生最容易忽視的地方。如何從錯(cuò)綜復(fù)雜的行業(yè)現(xiàn)象,從面到點(diǎn)的聚焦到一個(gè)具體明確的研究問(wèn)題,是實(shí)踐環(huán)節(jié)的教學(xué)重點(diǎn)。很多學(xué)生受到教材中的例題影響,視野局限在多元分析在國(guó)民經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)上的應(yīng)用。對(duì)于此,最好的辦法是多讓學(xué)生多看一些教材上沒(méi)有的商業(yè)數(shù)據(jù)分析案例,現(xiàn)在的很多數(shù)據(jù)科學(xué)方面的公眾號(hào)上面不乏有這方面的好素材。像“狗熊會(huì)”、“數(shù)據(jù)幫”等公眾號(hào)給出了諸如從數(shù)據(jù)看足球運(yùn)動(dòng)員身價(jià),房屋租金影響因素,旅游產(chǎn)品銷(xiāo)售分析,電影票房,雙十一銷(xiāo)售分析等有趣而生動(dòng)的案例。這些案例具有很好的啟發(fā)性,能夠幫助學(xué)生在選題以及問(wèn)題聚焦上該如何思考。
圖1 實(shí)踐環(huán)節(jié)主線圖
多元統(tǒng)計(jì)分析方法眾多,牽涉到大量的統(tǒng)計(jì)理論基礎(chǔ)和優(yōu)化計(jì)算方法,有效的課堂教學(xué)需要學(xué)生做好充足的準(zhǔn)備。因此,調(diào)動(dòng)學(xué)生的學(xué)習(xí)積極性,加強(qiáng)自主學(xué)習(xí)是關(guān)鍵。這需要在學(xué)習(xí)時(shí)間和學(xué)習(xí)內(nèi)容兩個(gè)維度上下功夫。
(1)采用線上線下混合式教學(xué)模式。多元方法主要分為兩類(lèi),其中一類(lèi)是基于分布假設(shè)的方法,比如多元正態(tài)分布的相關(guān)內(nèi)容,這部分在整個(gè)課程中的比重不大,但是理論推導(dǎo)繁瑣。另一類(lèi)可以看成是基于優(yōu)化的方法,比如主成分分析、聚類(lèi)分析、判別分析等。這些方法到直觀性較強(qiáng),但是優(yōu)化計(jì)算求解也是一個(gè)數(shù)學(xué)性較強(qiáng)的內(nèi)容。零零后的大學(xué)生是互聯(lián)網(wǎng)中的原住民,他們更習(xí)慣在網(wǎng)絡(luò)上進(jìn)行隨時(shí)隨地的學(xué)習(xí),加之目前各大慕課學(xué)習(xí)平臺(tái)的成熟,建設(shè)一門(mén)線上課程較容易實(shí)現(xiàn)。線上課程的好處是,學(xué)生理解速度的不同不大會(huì)影響學(xué)習(xí)的效果,有充足的時(shí)間查閱相關(guān)的資料和做演算。這樣,線下課堂有更寬裕的時(shí)間來(lái)統(tǒng)籌講解方法的原理、技術(shù)特點(diǎn)以及應(yīng)用范圍。
(2)強(qiáng)調(diào)問(wèn)題驅(qū)動(dòng)思維方式。農(nóng)業(yè)生產(chǎn)領(lǐng)域的很多具體問(wèn)題曾經(jīng)推動(dòng)了統(tǒng)計(jì)學(xué)的發(fā)展,比如費(fèi)歇爾爵士1935年出版的《試驗(yàn)設(shè)計(jì)》一書(shū)就是對(duì)他以及合作者在洛桑農(nóng)業(yè)實(shí)驗(yàn)站工作期間所運(yùn)用的統(tǒng)計(jì)方法的總結(jié)。農(nóng)業(yè)院校的一個(gè)優(yōu)勢(shì)正是有著大量這一類(lèi)數(shù)據(jù)和對(duì)解決相關(guān)問(wèn)題的需求。比如,利用土壤近紅外光譜數(shù)據(jù)預(yù)報(bào)土壤有機(jī)物含量、利用油菜冠層光譜數(shù)據(jù)監(jiān)控油菜氮肥營(yíng)養(yǎng)素狀況、食品發(fā)酵過(guò)程中多種微生物繁殖數(shù)量變化規(guī)律、利用照片數(shù)據(jù)估算水稻葉面積、作物產(chǎn)量試驗(yàn)數(shù)據(jù)等,這一類(lèi)的數(shù)據(jù)首先維數(shù)都較高,并且伴隨著一個(gè)個(gè)真實(shí)的問(wèn)題,天然是多元統(tǒng)計(jì)分析教學(xué)的良好素材。在教學(xué)中采用這些數(shù)據(jù),給學(xué)生的感覺(jué)會(huì)是問(wèn)題和需求都很真實(shí),就是身邊的例子,讓學(xué)生更有興趣,從而更加主動(dòng)的去摸索方法的原理和使用上的注意事項(xiàng),這也為學(xué)生未來(lái)進(jìn)入智慧農(nóng)業(yè)相關(guān)產(chǎn)業(yè)做了有益的鋪墊。
(3)強(qiáng)調(diào)編程計(jì)算能力。學(xué)生基本上都明白編程能力的重要性,他們甚至經(jīng)常會(huì)問(wèn)R和Python到底學(xué)哪一個(gè)更好。在教學(xué)中,我們不會(huì)限制學(xué)生使用軟件的類(lèi)型,也不以精通某樣語(yǔ)言為編程練習(xí)的目的,而是以能夠用工具完成手中的任務(wù)為第一要?jiǎng)?wù)。軟件是工具,無(wú)論是R還是Python都在不停向上更新迭代,時(shí)刻都有新的功能特征添加進(jìn)來(lái),因此通過(guò)網(wǎng)絡(luò)尋求幫助以及根據(jù)自己的需求學(xué)習(xí)新的技能才是真正重要的能力。當(dāng)然,軟件入門(mén)的常規(guī)訓(xùn)練是需要的,像頭歌(EduCoder)這樣的實(shí)訓(xùn)平臺(tái)對(duì)軟件基礎(chǔ)知識(shí)的學(xué)習(xí)是很有幫助的。對(duì)軟件的熟練使用,最終還是在實(shí)際問(wèn)題的解決中逐漸得到的。
線上課程的先導(dǎo)作用明顯。學(xué)生可以一邊查閱參考書(shū),一邊跟隨線上課程的內(nèi)容,通過(guò)有網(wǎng)課輔導(dǎo)的自學(xué)能夠熟悉方法的原理、運(yùn)用和理論細(xì)節(jié),并及時(shí)使用計(jì)算機(jī)編程進(jìn)行方法驗(yàn)證,遇到問(wèn)題可以在討論區(qū)展開(kāi)討論。線下課堂的教學(xué)內(nèi)容能夠更靈活的安排,利于學(xué)生從宏觀上把握方法的應(yīng)用范圍與局限。通過(guò)線上和線下相結(jié)合的方式,學(xué)生對(duì)多元方法的理解與把握明顯變好。
為期兩周的課程設(shè)計(jì)中,學(xué)生的選題視野明顯拓寬。以前大多數(shù)學(xué)生都傾向于選擇國(guó)民經(jīng)濟(jì)數(shù)據(jù),做主成分分析或者因子分析,解釋經(jīng)濟(jì)現(xiàn)象。通過(guò)平時(shí)的引導(dǎo),現(xiàn)在學(xué)生在選題方向上更加大膽,敢于從自己感興趣的問(wèn)題入手,比如,一款綜藝節(jié)目為什么火爆?喜歡籃球的同學(xué)會(huì)選擇“NBA球員價(jià)值評(píng)估”這類(lèi)課題,還有研究二手車(chē)保值率影響因素,二手房?jī)r(jià)格影響因素等與生活息息相關(guān)的經(jīng)濟(jì)現(xiàn)象??偟膩?lái)說(shuō),因?yàn)檫x題本身符合學(xué)生的興趣,在后續(xù)的數(shù)據(jù)獲取,建模分析,撰寫(xiě)論文等環(huán)節(jié),研究小組的熱情高漲,在小組匯報(bào)中精彩的報(bào)告能強(qiáng)烈吸引觀眾的注意,獲得成就感。