李大舟 沈雪雁 高巍
摘要:從培養(yǎng)化學(xué)專業(yè)學(xué)生的大數(shù)據(jù)應(yīng)用實(shí)踐能力出發(fā),對擬開設(shè)的面向化學(xué)專業(yè)學(xué)生的大數(shù)據(jù)應(yīng)用實(shí)踐課程教學(xué)進(jìn)行初步探索,具體從化學(xué)大數(shù)據(jù)教學(xué)內(nèi)容、教學(xué)方法與師資培養(yǎng)方面進(jìn)行了闡述。
關(guān)鍵詞:大數(shù)據(jù)應(yīng)用實(shí)踐;教學(xué)內(nèi)容;化學(xué)大數(shù)據(jù);教學(xué)方法;師資培養(yǎng)
中圖分類號:G642 ? ? ? ?文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2020)34-0074-03
Abstract: Starting from the cultivation of big data application and practice ability of chemistry major students, this paper makes a preliminary exploration of the proposed big data application and practice course teaching for chemistry major students, and elaborates on the teaching contents, teaching methods and teacher training.
Key words: big data application and practice; the teaching content; chemical big data; the teaching method; teacher training
1 概述
化學(xué)專業(yè)旨在培養(yǎng)在科研機(jī)構(gòu)、高等院校和企事業(yè)單位從事科研、教學(xué)和管理工作的基本理論、基本化學(xué)知識和較強(qiáng)實(shí)驗(yàn)技能的高級專門人才。大數(shù)據(jù)時(shí)代推動應(yīng)用化學(xué)教學(xué),新的教學(xué)理念對應(yīng)用化學(xué)專業(yè)學(xué)生的人才培養(yǎng)有很大的啟迪。更加注重自主實(shí)驗(yàn)課的參與,更加注重個性化教學(xué)體系的精準(zhǔn)開發(fā)[1]。
隨著近期大數(shù)據(jù)熱潮的持續(xù)升溫,人們意識到 "大數(shù)據(jù)"并不是指 "海量數(shù)據(jù)",而是指規(guī)模更大、類型更多、范圍更廣、價(jià)值更高的數(shù)據(jù)。同時(shí),一種新的數(shù)據(jù)處理難度模式的出現(xiàn),在產(chǎn)業(yè)界、學(xué)術(shù)界和教育界產(chǎn)生了巨大的影響。隨著科學(xué)家對大數(shù)據(jù)的深入研究,人們意識到利用數(shù)據(jù)為其生產(chǎn)和生活帶來了極大的便利,但也帶來了不小的挑戰(zhàn)。
現(xiàn)階段大數(shù)據(jù)還處于應(yīng)用的初始階段。目前大數(shù)據(jù)的化學(xué)領(lǐng)域的應(yīng)用是數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)挖掘和數(shù)據(jù)可視化等比較簡單的應(yīng)用。大數(shù)據(jù)的管理和分析、基于云計(jì)算和網(wǎng)絡(luò)的數(shù)據(jù)傳輸和計(jì)算和分布式數(shù)據(jù)庫等核心技術(shù),在化學(xué)領(lǐng)域體現(xiàn)的還不夠。由此可見,大數(shù)據(jù)在化學(xué)領(lǐng)域的應(yīng)用存在更廣闊的應(yīng)用空間[2]。
未來,隨著大數(shù)據(jù)技術(shù)的發(fā)展和改進(jìn),傳統(tǒng)的分析儀器將在采集和處理的基礎(chǔ)上,被已經(jīng)小型化和便攜式的分析儀器所取代。分析儀器最終將淪為具有數(shù)據(jù)傳輸功能的檢測器,將采集到的數(shù)據(jù)直接傳輸?shù)酱髷?shù)據(jù)分析平臺,數(shù)據(jù)處理和分析的所有功能都在這個平臺上完成。同樣,傳統(tǒng)的計(jì)算機(jī)數(shù)據(jù)管理容量小、數(shù)據(jù)類型不統(tǒng)一的化學(xué)方法,也將逐漸被以云技術(shù)為代表的大數(shù)據(jù)管理和存儲所取代。在大型服務(wù)器的基礎(chǔ)上,可以輕松管理不同領(lǐng)域、不同類型的化學(xué)數(shù)據(jù)。在化學(xué)信息領(lǐng)域,進(jìn)一步研究和挖掘各類化工信息,可以設(shè)計(jì)和建設(shè)基于大數(shù)據(jù)的化學(xué)搜索引擎和化學(xué)信息數(shù)據(jù)庫,從而加深對研究內(nèi)容的理解。另外,在化學(xué)計(jì)量學(xué)領(lǐng)域,對化學(xué)數(shù)據(jù)進(jìn)行大數(shù)據(jù)分析模型的開發(fā)將幫助研究人員更輕松地處理大容量和復(fù)雜的數(shù)據(jù)源。大數(shù)據(jù)的可視化技術(shù)也可以直觀的幫助研究人員對結(jié)果進(jìn)行表達(dá)和解釋??梢姡瘜W(xué)大數(shù)據(jù)將對化工設(shè)備、化工數(shù)據(jù)管理與分析、化學(xué)信息與計(jì)量學(xué)產(chǎn)生深遠(yuǎn)而巨大的影響。
沈陽化工大學(xué)作為化工院校在2017年開始面向研究生和本科生開設(shè)了大數(shù)據(jù)應(yīng)用實(shí)踐課程。經(jīng)過四年的教學(xué)取得了良好的教學(xué)成果。在此期間,大數(shù)據(jù)應(yīng)用實(shí)踐課程作為計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)核心骨干實(shí)踐課程,在2019年工程認(rèn)證專家入??疾祀A段經(jīng)過了工程認(rèn)證專家的認(rèn)真考核,在工程認(rèn)證專家反饋會會議紀(jì)要中對該課程給予了很好的評價(jià),為該專業(yè)成功獲批工程認(rèn)證做出了較大的貢獻(xiàn)。
大數(shù)據(jù)應(yīng)用實(shí)踐課程面向化學(xué)專業(yè)學(xué)生開設(shè)還處于探索階段。首先,大數(shù)據(jù)應(yīng)用實(shí)踐課程作為我校計(jì)算機(jī)科學(xué)與技術(shù)和數(shù)據(jù)科學(xué)與大數(shù)據(jù)兩個專業(yè)的核心課程,雖然已經(jīng)有一定的教學(xué)經(jīng)驗(yàn),但是其教學(xué)目標(biāo)、教學(xué)方法、課程安排、教學(xué)內(nèi)容、實(shí)驗(yàn)設(shè)計(jì)以及課程考核方法等方面不能直接套用于化學(xué)專業(yè)教學(xué)。其次,化學(xué)專業(yè)也要依據(jù)其學(xué)科特色,在專業(yè)課設(shè)置部分留出一定比例的學(xué)時(shí)和學(xué)分,更新或者增加與大數(shù)據(jù)緊密相連的化學(xué)專業(yè)課程。最后,課程教學(xué)計(jì)劃的制定需要計(jì)算機(jī)專業(yè)和化學(xué)專業(yè)兩個專業(yè)教師進(jìn)行深入探討與溝通,才能解決跨學(xué)科教學(xué)內(nèi)容與教學(xué)培養(yǎng)目標(biāo)不一致的問題。作為化工院校的跨學(xué)科課程,不僅要實(shí)現(xiàn)傳統(tǒng)的教學(xué)目的,還要體現(xiàn)出化工院校的教學(xué)特色。因此,本文結(jié)合本校大數(shù)據(jù)發(fā)展的實(shí)際情況,針對化學(xué)專業(yè)開設(shè)大數(shù)據(jù)相關(guān)應(yīng)用與實(shí)踐課程進(jìn)行了思考與探索,為化工院校的跨學(xué)科教學(xué)改革提供支持和參考。
2 面向化學(xué)專業(yè)的大數(shù)據(jù)課程教學(xué)內(nèi)容的設(shè)計(jì)
2.1 國際公開的大型化學(xué)數(shù)據(jù)庫的使用
現(xiàn)階段化學(xué)研究離不開大型公開的化學(xué)數(shù)據(jù)庫的支持,這一點(diǎn)已經(jīng)是現(xiàn)階段化學(xué)教育的一個痛點(diǎn)。學(xué)生不會使用大型公開的化學(xué)數(shù)據(jù)庫,等于無法進(jìn)入到世界化學(xué)研究的前沿領(lǐng)域。公開的數(shù)據(jù)庫如PubChem、BindingDB和ChEMBL代表了大型公共領(lǐng)域化合物活性數(shù)據(jù)庫。ChEMBL和BindingDB包含從數(shù)萬篇文章中手工提取的數(shù)據(jù)。PubChem最初是作為美國國家衛(wèi)生研究院分子圖書館計(jì)劃的高通量篩選實(shí)驗(yàn)的中央數(shù)據(jù)庫而開始的,但也包含了其他數(shù)據(jù)庫(如ChEMBL和BindingDB)的數(shù)據(jù)。商業(yè)數(shù)據(jù)庫,如SciFinder、GOSTAR和Reaxys積累了大量從出版物和專利數(shù)據(jù)中收集的數(shù)據(jù)。與公共和商業(yè)數(shù)據(jù)庫類似,工業(yè)界也產(chǎn)生了大量的數(shù)據(jù)庫。例如,作為阿斯利康國際生物科學(xué)信息系統(tǒng)的一部分,僅2008年以前進(jìn)行的實(shí)驗(yàn)就有超過150M個數(shù)據(jù)點(diǎn)。積累的化學(xué)專利是另一種豐富的化學(xué)信息資源。IBM在PubChem中貢獻(xiàn)了2000年前專利的化學(xué)結(jié)構(gòu)。2014年推出的SureChEMBL數(shù)據(jù)庫提供了隱藏在專利文獻(xiàn)中的豐富知識,目前包含從1400萬份專利文獻(xiàn)中提取的1700萬個化合物。這些努力使得每個組織內(nèi)部的數(shù)據(jù)共享成為可能,并導(dǎo)致 "大數(shù)據(jù)"的規(guī)模進(jìn)一步擴(kuò)大。該方面作為教學(xué)內(nèi)容,可以考慮和借鑒現(xiàn)階段大數(shù)據(jù)應(yīng)用實(shí)踐課程中的互聯(lián)網(wǎng)爬蟲技術(shù),或者學(xué)習(xí)Python語言和R語言通過公開的數(shù)據(jù)庫提供的訪問接口,快速地訪問、查找和下載數(shù)據(jù)庫中的感興趣的化學(xué)內(nèi)容,對數(shù)據(jù)庫中化學(xué)數(shù)據(jù)進(jìn)行充分的挖掘,實(shí)現(xiàn)對前沿化學(xué)信息的掌握和利用[3]。
2.2 化學(xué)空間的數(shù)據(jù)可視化和分析
化學(xué)數(shù)據(jù)分析的第一步通常是數(shù)百萬化合物的可視化和緊湊表示,這也是大數(shù)據(jù)分析的重大挑戰(zhàn)。解決方法通常是通過將大型化合物集合投射到一個低維空間中,便于人腦進(jìn)行視覺檢查和直觀分析來完成。它可以幫助檢測具有新的化學(xué)支架和物理化學(xué)特性的化學(xué)實(shí)體,比較不同的庫或識別具有特定藥理特征的化學(xué)空間區(qū)域。典型的方法如原理成分分析、生成式地形圖、科霍寧網(wǎng)絡(luò)、擴(kuò)散圖、以及通過投影高維描述符空間獲得的交互式地圖。上述可視化方法也可以用來解釋結(jié)構(gòu)-活性關(guān)系。除了已知的和現(xiàn)有的化學(xué)結(jié)構(gòu)所代表的空間外,由虛擬化合物構(gòu)成的化學(xué)空間要大得多。理論上可以列舉的潛在分子結(jié)構(gòu)的數(shù)量是巨大的。例如,數(shù)據(jù)庫GDB-17中包含了1664億個分子,這些分子是按照化學(xué)穩(wěn)定性和合成可行性的簡單規(guī)則,最多可以有17個C、N、O、S和鹵素原子的可能組合。雖然GDB-17已經(jīng)非常大,但如果擴(kuò)展到20-30個重原子,也就是類藥物分子的平均尺寸,那么它將會大很多個數(shù)量級。即使是每分鐘能夠處理10萬個分子的快速算法,也需要再進(jìn)行3年的計(jì)算,才能注釋完整的GDB-17。這些數(shù)據(jù)集甚至對傳統(tǒng)的化學(xué)化合物集合的剖析提出了新的挑戰(zhàn)。該方面作為教學(xué)內(nèi)容,可以考慮和借鑒現(xiàn)階段大數(shù)據(jù)應(yīng)用實(shí)踐中的分布式計(jì)算技術(shù),學(xué)習(xí)Hadoop和Spark等大數(shù)據(jù)并行計(jì)算結(jié)構(gòu),利用云計(jì)算平臺打破化學(xué)分析中現(xiàn)有的單機(jī)本地計(jì)算資源有限的瓶頸,實(shí)現(xiàn)計(jì)算的并行化和云端化。這樣才能將過去無法實(shí)現(xiàn)的化學(xué)分析變成現(xiàn)今可以完成的計(jì)算任務(wù)[4-5]。
2.3 全新的藥物設(shè)計(jì)方法
全新的藥物設(shè)計(jì)的目的是以定向的方式產(chǎn)生具有類似藥物特性和所需生物活性的新化學(xué)實(shí)體。與一般的虛擬篩選或高通量分析相比,全新的藥物設(shè)計(jì)試圖在硅片中生成假設(shè)的候選化合物。全新的藥物設(shè)計(jì)分子設(shè)計(jì)主要有兩類方法,一類是基于與已知活性化合物的相似性進(jìn)行設(shè)計(jì),即基于配體的全新藥物設(shè)計(jì);另一類是基于蛋白質(zhì)三維結(jié)構(gòu)生成新的化合物,即基于結(jié)構(gòu)的全新藥物設(shè)計(jì)。全新的藥物設(shè)計(jì)需要搜索大型虛擬化合物數(shù)據(jù)庫,如GDB。為了搜索龐大的虛擬化學(xué)空間,需要結(jié)合高效搜索和多參數(shù)優(yōu)化策略,以盡早過濾掉具有次優(yōu)特征的分子。例如,物理化學(xué)和合成可行性過濾器可以被前置以削減化合物的數(shù)量。另一種策略是反應(yīng)驅(qū)動基于片段的重新設(shè)計(jì)?;谝阎幕瘜W(xué)反應(yīng)和市售的構(gòu)件,通過通常的多步驟和多參數(shù)優(yōu)化過程,尋找滿足特定性質(zhì)的候選化合物,生成化學(xué)上多樣和合成上可行的化合物。這些基于反應(yīng)的方法已經(jīng)被成功地應(yīng)用于設(shè)計(jì)新的生物活性化合物。第三種策略是提供一個智能搜索新化合物的方法,即生成足夠新的結(jié)構(gòu),但仍然在模型所覆蓋的化學(xué)空間內(nèi)。因此,這些方法在提出新的化學(xué)結(jié)構(gòu)的同時(shí)仍然保持在模型的化學(xué)空間內(nèi)。該方面作為教學(xué)內(nèi)容,可以考慮和借鑒現(xiàn)階段大數(shù)據(jù)應(yīng)用實(shí)踐中的海量搜索和超大規(guī)模分布式數(shù)據(jù)庫技術(shù),學(xué)習(xí)Hive和Hbase等大數(shù)據(jù)存儲數(shù)據(jù)庫,利用云計(jì)算平臺打破化學(xué)分析中現(xiàn)有的單機(jī)本地?cái)?shù)據(jù)存儲平臺搜索效率低的障礙,借鑒Google、百度和其他大數(shù)據(jù)檢索引擎的基本原理實(shí)現(xiàn)大數(shù)據(jù)的檢索,完成快速的設(shè)計(jì)方法的檢索[6-7]。
3 面向化學(xué)專業(yè)的大數(shù)據(jù)課程教學(xué)方法
教學(xué)方法與教學(xué)內(nèi)容是密不可分的,教學(xué)方法是教學(xué)內(nèi)容的載體,不能完全拋開教學(xué)內(nèi)容空談方法。在面向化學(xué)專業(yè)大數(shù)據(jù)應(yīng)用實(shí)踐教學(xué)中,教師需要掌握更加多樣化的教學(xué)方法為教學(xué)服務(wù),這不僅可以提高學(xué)生的課堂參與度,還有助于提升學(xué)生的創(chuàng)新能力。教學(xué)方法上本質(zhì)上是師生交流合作,通過多途徑開展交流為面向化學(xué)專業(yè)大數(shù)據(jù)應(yīng)用實(shí)踐教學(xué)提供服務(wù)。除了提問法、操作法等傳統(tǒng)的交流形式,在面向化學(xué)專業(yè)大數(shù)據(jù)應(yīng)用實(shí)踐教學(xué)中還可以通過網(wǎng)絡(luò)課堂、協(xié)作法和小組會議等方式進(jìn)行交流。課堂教學(xué)需要教師充分利用網(wǎng)絡(luò)技術(shù),通過跨行業(yè)的整合,充分發(fā)揮其優(yōu)勢,為課堂教學(xué)服務(wù)。在課堂上根據(jù)化學(xué)內(nèi)容,可以采用多學(xué)科的教學(xué)方法,以豐富課堂教學(xué)內(nèi)容,提高學(xué)生在課堂上的注意力。
在面向化學(xué)專業(yè)大數(shù)據(jù)應(yīng)用實(shí)踐教學(xué)中,課堂教學(xué)可以組織學(xué)生建立學(xué)習(xí)小組,將學(xué)生學(xué)習(xí)知識共享平臺納入慕課[8]。慕課具有使用方便、成本低、覆蓋面廣、有利于自主學(xué)習(xí)、學(xué)習(xí)資源豐富的優(yōu)勢。教師引導(dǎo)學(xué)生使用慕課平臺,指定部分學(xué)習(xí)內(nèi)容,學(xué)生進(jìn)行個性化學(xué)習(xí),可以學(xué)習(xí)所有內(nèi)容,也可以只學(xué)習(xí)指定小組的內(nèi)容。每個小組在課程中制作PPT匯報(bào)學(xué)習(xí),在準(zhǔn)備的過程中如果有什么疑問可以通過微信和QQ網(wǎng)絡(luò)向教師提問匯報(bào),由課程決定由現(xiàn)場匯報(bào)完成后,全組學(xué)生回答教師和其他組學(xué)生的問題,教師可以糾正學(xué)生講解,也可以幫助學(xué)生答疑。慕課的教學(xué)設(shè)計(jì)與翻轉(zhuǎn)課堂相結(jié)合,如果部分小組成績較差,教師可以圍繞重點(diǎn)進(jìn)行必要的微課型講解,但在實(shí)際教學(xué)過程中,總的來說一節(jié)課教師講解時(shí)間不應(yīng)超過15分鐘[9]。除了傳統(tǒng)的教師問學(xué)生答題,學(xué)生、教師要形成并提出答題形式,學(xué)生與學(xué)生之間也可以在課堂上互相提問,甚至辯論,只有這樣才能豐富師生互動的教學(xué)方法。面向化學(xué)專業(yè)大數(shù)據(jù)應(yīng)用實(shí)踐教學(xué)中的化學(xué)學(xué)科學(xué)生也要轉(zhuǎn)變角色,以前學(xué)生的重點(diǎn)是理解和記憶,而面向化學(xué)專業(yè)大數(shù)據(jù)應(yīng)用實(shí)踐教學(xué)中的重點(diǎn)應(yīng)該是數(shù)據(jù)的推理和提問。
4 面向化學(xué)專業(yè)的大數(shù)據(jù)課程師資培養(yǎng)
"大數(shù)據(jù)"的挑戰(zhàn)需要經(jīng)過專業(yè)訓(xùn)練的專家,即 "化學(xué)領(lǐng)域的數(shù)據(jù)科學(xué)家"來解決。他們能夠應(yīng)對這一科學(xué)發(fā)現(xiàn)領(lǐng)域復(fù)雜多樣的問題。來自計(jì)算機(jī)科學(xué)領(lǐng)域的教師,以及對計(jì)算機(jī)科學(xué)知之甚少的化學(xué)教師,不太可能有足夠的知識和專業(yè)技能來解決化學(xué)信息學(xué)的問題,因此需要額外的培訓(xùn)。這方面的主要問題有以下幾個:應(yīng)如何平衡化學(xué)和計(jì)算機(jī)科學(xué)培訓(xùn)?如何在保證高水平的科學(xué)專業(yè)知識的同時(shí),又能保證以實(shí)踐為導(dǎo)向的思維方式?應(yīng)該考慮哪些新的和快速發(fā)展的方法?如何培養(yǎng)學(xué)生在計(jì)算機(jī)、化學(xué)和藥物研究之間的工作?這些問題只有在兩個專業(yè)的教師之間密切互動中,以及行業(yè)企業(yè)緊密參與有針對性的研究培訓(xùn)中才能得到解答。在相關(guān)方面,我校設(shè)立沈陽化工大學(xué)教育教學(xué)培育工程項(xiàng)目實(shí)現(xiàn)政策導(dǎo)向和資金支持,以促進(jìn)和推動跨學(xué)科研究和互動。