李敏,宣晶,趙明月,魏澤,謝淦
中國科學(xué)院植物研究所 系統(tǒng)與進(jìn)化植物學(xué)國家重點實驗室,北京 100093
國家植物標(biāo)本館 (PE) 隸屬于中國科學(xué)院植物研究所系統(tǒng)與進(jìn)化植物學(xué)國家重點實驗室,是我國重要的生物戰(zhàn)略資源保藏基地[1]。截至 2018年,館藏的植物標(biāo)本數(shù)達(dá) 280 萬份,居亞洲第一、世界第三。這些標(biāo)本,及其采集、鑒定等相關(guān)記錄和資料中包含著重要的數(shù)據(jù)和信息,是植物分類學(xué)[2-3]及其他相關(guān)學(xué)科重要的基礎(chǔ)資料[4]。
為了更好地整理、保存這些標(biāo)本,自 2004年起,我們啟動了標(biāo)本的數(shù)字化工作[5]。目前,已完成了近 200 萬份標(biāo)本的數(shù)字化工作,并采集 150 余萬幅標(biāo)本數(shù)字化影像。以此為基礎(chǔ)建立的中國數(shù)字標(biāo)本館項目 (Chinese Virtual Herbarium, CVH)[6],作為科技部“國家標(biāo)本資源共享平臺”的植物子平臺,參加單位已達(dá) 101 家,共享標(biāo)本數(shù)字化數(shù)據(jù) 670 萬條,涵蓋了我國絕大部分重要的植物標(biāo)本館,并積累了大量的臘葉標(biāo)本數(shù)字化影像數(shù)據(jù)。
在實際的標(biāo)本數(shù)字化過程和標(biāo)本館日常工作中,我們遇到了一些問題,如在采集標(biāo)本時,不同采集人記錄的采集信息的種類可能不盡一致,部分標(biāo)本存在采集信息不完整的情況;在對標(biāo)本進(jìn)行粗分類以送交不同專家精確鑒定時,工作人員對植物類群的熟悉程度會影響到標(biāo)本能否盡快入庫。
對這些問題解決方案的思考和近年來人工智能深度學(xué)習(xí)技術(shù)的發(fā)展,讓我們萌生了創(chuàng)作“標(biāo)本館伴侶” (iHerbarium) 的想法。
早在 2006年,Hinton 等人就已經(jīng)提出了深度學(xué)習(xí)的概念[7-8]。但是直到最近幾年,深度學(xué)習(xí)才被逐漸運用到物種識別上來,并在植物物種識別上表現(xiàn)出較好的發(fā)展前景[9]。目前,包括植物葉片[10-11]、花[12]、果[13,14]、花粉[15]、病蟲害[16]等各個方面的識別都有了很好的探索和嘗試。
我們在這方面也做了一些嘗試?;谥袊参飯D像庫 (PPBC) 近十年來收集的海量植物分類圖像數(shù)據(jù),中國科學(xué)院植物研究所與魯朗軟件合作于 2016年底推出了“花伴侶”植物圖像識別應(yīng)用。目前專業(yè)版識別引擎已實現(xiàn)了對 1 萬余種植物的識別覆蓋,對常見植物的識別率達(dá) 9 成以上,在國內(nèi)外應(yīng)用市場上同類應(yīng)用中處于領(lǐng)先地位。
“花伴侶”的算法和識別體系似乎同樣可應(yīng)用于臘葉標(biāo)本影像的自動識別。
為了規(guī)范標(biāo)本采集記錄,便于不同學(xué)科專家進(jìn)行數(shù)據(jù)檢索,我們設(shè)計了標(biāo)本查詢及采集模塊。
標(biāo)本數(shù)據(jù)查詢模塊基于“中國數(shù)字植物標(biāo)本館” (CVH) 的標(biāo)本數(shù)據(jù),以物種中文名、拉丁名、采集人、采集號、館代碼、條碼號等數(shù)據(jù)條目,構(gòu)建標(biāo)本數(shù)據(jù)查詢模塊 (圖 1)。
標(biāo)本野外采集模塊基于常規(guī)采集記錄項目設(shè)計采集記錄項目樣式,同時保留自定義條目項,可根據(jù)項目需求定制。集成“花伴侶”專業(yè)版識別引擎,提供野外植物拍照識別功能。通過讀取手機(jī) GPS 信息及地名庫解析,實現(xiàn)行政區(qū)劃、經(jīng)緯度、海拔、采集日期等條目的自動填寫。
基于中國數(shù)字植物標(biāo)本館 (CVH) 的數(shù)據(jù)平臺,以其中的國家植物標(biāo)本館 (PE) 的數(shù)字化標(biāo)本影像為基礎(chǔ),我們篩選了標(biāo)本圖片數(shù)量大于 80 幅的 10000 個物種用于構(gòu)建標(biāo)本圖像識別訓(xùn)練集。這些物種涵蓋 286 科 2092 屬,覆蓋我國野生植物90%以上的科,60% 以上的屬。以這套標(biāo)本圖像識別訓(xùn)練集為基礎(chǔ),通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行深度監(jiān)督機(jī)器學(xué)習(xí),我們構(gòu)建了臘葉標(biāo)本識別模型。
我們選取了國家植物標(biāo)本館 (PE) 2018年數(shù)字化、圖像長邊像素在 1440 px 以上的 9991 份植物標(biāo)本作為測試數(shù)據(jù)集。該測試數(shù)據(jù)集涵蓋植物 271 科,2091 屬。
圖1 標(biāo)本查詢模塊Fig.1 Specimen inquiry
以上述測試集中的有效數(shù)據(jù)作為測試對象,對臘葉標(biāo)本識別模型進(jìn)行評測。將識別模型給出的置信度最高的結(jié)果即為正確結(jié)果的情況記作 TOP1 識別率,置信度最高的前五個結(jié)果中出現(xiàn)了正確結(jié)果的情況記作 TOP5 識別率。結(jié)果顯示定屬準(zhǔn)確率 TOP1 可達(dá) 57%,TOP5 達(dá)到 71%;定科準(zhǔn)確率 TOP1 可達(dá) 78%,TOP5 達(dá)到 97% (圖 2)。
圖2 標(biāo)本識別結(jié)果Fig.2 Image identification of specimens
測試的結(jié)果表明,“標(biāo)本館伴侶”在科級的識別準(zhǔn)確率已滿足我們的要求。因此,我們將“標(biāo)本館伴侶” (iHerbarium) 放在 http://www.cvh.ac.cn/app.html,供大家下載使用、測試。后期我們將使用更大像素尺寸的植物圖像作為訓(xùn)練集,以進(jìn)一步提高模型的識別準(zhǔn)確度。
目前的標(biāo)本館伴侶 iHerbarium 包括三大功能。
其野外采集模塊集合了“花伴侶”專業(yè)版識別引擎,可實現(xiàn) 10000 種野生植物的拍照識別,基本覆蓋我國常見的野生植物,并可基于多張圖片進(jìn)行加權(quán),以提高鑒定結(jié)果可信度。識別結(jié)果作為參考信息,可用于后期標(biāo)本整理、歸檔,減少重復(fù)工作。其采集記錄功能提供了常規(guī)標(biāo)本采集記錄的條目,并可根據(jù)采集項目的具體要求進(jìn)行個性化定制。通過讀取移動端時間及 GPS 信息,可實現(xiàn)采集日期、經(jīng)緯度信息、海拔信息等條目的自動填寫,并可根據(jù)經(jīng)緯度信息自動匹配地名數(shù)據(jù)庫,從而極大地提高野外采集記錄的填寫效率。根據(jù)采集項目的要求,還可在網(wǎng)絡(luò)條件下實現(xiàn)多人協(xié)作、采集號自動填寫等功能,以滿足大規(guī)模采集活動的需要。采集信息可在線同步并導(dǎo)出至本地,利用網(wǎng)站提供的工具還可自動生成規(guī)范化的采集簽及鑒定簽,實現(xiàn)標(biāo)本館的數(shù)字化管理 (圖 3)。
圖3 標(biāo)本館伴侶的野外采集記錄模塊Fig.3 Intelligent field collection
其標(biāo)本圖像識別模塊的科級識別準(zhǔn)確率高達(dá) 97%,可一定程度上取代人工,用于滿足標(biāo)本館日常分科工作的要求,這將大大節(jié)約了相關(guān)工作人員進(jìn)行標(biāo)本粗步分類的時間和工作量,以將標(biāo)本盡快送交相關(guān)專家,進(jìn)行進(jìn)一步精確鑒定所需。對優(yōu)化標(biāo)本館工作流程、提高工作效率以及改進(jìn)標(biāo)本館日常管理、實現(xiàn)標(biāo)本館數(shù)字化、智能化、自動化、現(xiàn)代化建設(shè)具有重要的意義。
基于中國數(shù)字植物標(biāo)本館 (CVH) 的數(shù)字化臘葉標(biāo)本信息,“標(biāo)本館伴侶” (iHerbarium) 還可在移動端方便地通過物種中文名、拉丁名、采集人、采集號、館代碼、條碼號等方式,查詢各個標(biāo)本館的臘葉標(biāo)本信息,包括不同科、屬、種植物的標(biāo)本狀況、分布地、分布海拔、經(jīng)緯度、花期、果期等信息。各學(xué)科專家都可以根據(jù)各自具體需求,在標(biāo)本館伴侶上對這些信息進(jìn)行查詢、檢索,以減少工作量、節(jié)約時間。
以數(shù)字化工作為基礎(chǔ),利用“標(biāo)本館伴侶” (iHerbarium) 可以實現(xiàn)“標(biāo)本采集—移動端記錄、在線同步—規(guī)范化采集簽生成—標(biāo)本裝訂—標(biāo)本進(jìn)館、標(biāo)本圖像數(shù)字化—根據(jù)采集號同步采集信息—自動識別、分科—按館藏順序歸檔入庫—在線查詢、管理”的一整套數(shù)字化、標(biāo)準(zhǔn)化的標(biāo)本館管理流程。
對于標(biāo)本館而言,“標(biāo)本館伴侶” (iHerbarium) 將徹底改變以往先裝訂、入庫后數(shù)字化、錄入采集信息的流程,減少工作中的重復(fù)勞動、提高效率;并有望將管理人員從繁重的分科鑒定工作中解放出來,顯著降低標(biāo)本館分科工作的人員成本。對于專家而言,“標(biāo)本館伴侶” (iHerbarium) 可以輔助其進(jìn)行鑒定,并節(jié)約其查詢、匯總各標(biāo)本信息的時間,將更多的精力放在思考科學(xué)問題上。
如果未來能夠進(jìn)一步提高“標(biāo)本館伴侶”在屬級乃至種級鑒定的精度,就有可能逐步實現(xiàn)標(biāo)本的收錄、分科、歸檔自動化,最終完全實現(xiàn)植物標(biāo)本館的智能化管理。