郭春麗,吳國(guó)華,顧若濤,林嘉穎,陳鵬程
(1.廣東財(cái)貿(mào)職業(yè)學(xué)院 信息技術(shù)學(xué)院,廣東 廣州 510445;2.廣東財(cái)貿(mào)職業(yè)學(xué)院 現(xiàn)代教育技術(shù)與實(shí)訓(xùn)中心,廣東 廣州 510445;3.廣東財(cái)貿(mào)職業(yè)學(xué)院 總務(wù)處,廣東 廣州 510445)
中醫(yī)藥作為我國(guó)獨(dú)特的醫(yī)療資源、潛力巨大的經(jīng)濟(jì)資源、具有原創(chuàng)優(yōu)勢(shì)的科技資源、優(yōu)秀的文化資源和重要的生態(tài)資源,對(duì)社會(huì)經(jīng)濟(jì)的發(fā)展有重要的作用[1]。在抗擊新型冠狀病毒肺炎疫情中,中醫(yī)藥再一次向世人證實(shí)了其顯著的療效。而中藥材作為中醫(yī)藥事業(yè)傳承和發(fā)展的重要物質(zhì)基礎(chǔ)[2],它的規(guī)范存儲(chǔ)、養(yǎng)護(hù)、運(yùn)輸是促進(jìn)中藥材產(chǎn)業(yè)健康發(fā)展的重要保障。
2015年1月,商務(wù)部印發(fā)了《關(guān)于加快推進(jìn)中藥材現(xiàn)代物流體系建設(shè)指導(dǎo)意見》,指出到2020年基本建成中藥材主要產(chǎn)銷區(qū)為流通節(jié)點(diǎn)的物流基礎(chǔ)設(shè)施和流通網(wǎng)絡(luò),配套建設(shè)規(guī)?;瘋}庫設(shè)施,實(shí)現(xiàn)中藥材物流的跨區(qū)域、規(guī)模化、集約化經(jīng)營(yíng)[3]。截至2019年底,11家中藥材物流實(shí)驗(yàn)基地完成現(xiàn)場(chǎng)認(rèn)證,67個(gè)基地正在建設(shè)中,規(guī)劃中的藥材倉儲(chǔ)量272萬噸[4]。物流示范基地主要是實(shí)現(xiàn)產(chǎn)區(qū)藥材的收儲(chǔ)[5],很少考慮到從產(chǎn)區(qū)到銷區(qū)的成本。而中藥材的下游企業(yè)中藥廠,作為中藥材的主要銷區(qū),它們所處的位置影響著中藥材資源配置的高效。因此,如何結(jié)合中藥材的主要產(chǎn)銷區(qū),優(yōu)化資源的配置是具有現(xiàn)實(shí)意義的難題。
本文通過梳理“藥廠-中成藥-中藥材”三者的關(guān)系,運(yùn)用大數(shù)據(jù)技術(shù)從大量中藥配方入手,挖掘出現(xiàn)次數(shù)最多的單個(gè)或組合中藥材,再通過以核心藥材為原材料的藥品,統(tǒng)計(jì)出藥廠,從而計(jì)算出使用頻率高的中藥材在全國(guó)的主銷區(qū),最后結(jié)合主要產(chǎn)銷區(qū),為優(yōu)化資源的配置提供一種精準(zhǔn)的方法。
大數(shù)據(jù)技術(shù)是指對(duì)海量、異構(gòu)、復(fù)雜的數(shù)據(jù)通過采集、存儲(chǔ)、清洗、分析與挖掘、展現(xiàn)等方式進(jìn)行加工和支撐,從而發(fā)現(xiàn)有用的或有意思的規(guī)律和 結(jié)論,實(shí)現(xiàn)數(shù)據(jù)的增值。
一般處理流程有五個(gè)環(huán)節(jié),主要介紹如下:①數(shù)據(jù)采集:常見的采集方式有網(wǎng)絡(luò)爬蟲、傳感器、日志記錄等;②數(shù)據(jù)存儲(chǔ):一般有關(guān)系型數(shù)據(jù)庫、Excel、分布式數(shù)據(jù)庫,可根據(jù)數(shù)據(jù)量的大小進(jìn)行選擇,方便數(shù)據(jù)的讀寫;③數(shù)據(jù)清洗:對(duì)缺失、錯(cuò)誤、重復(fù)、異常等 “臟”數(shù)據(jù)進(jìn)行處理,提高數(shù)據(jù)集的質(zhì)量;④數(shù)據(jù)分析:常用的分析方法有聚類、分類、關(guān)聯(lián)規(guī)則等,運(yùn)用算法對(duì)數(shù)據(jù)進(jìn)行挖掘和分析;⑤數(shù)據(jù)展現(xiàn):對(duì)分析的結(jié)果用圖表的形式進(jìn)行展現(xiàn),更清楚地呈現(xiàn)分析的結(jié)論。
目前,中藥材流通節(jié)點(diǎn)通過收集當(dāng)?shù)貐^(qū)域內(nèi)分散農(nóng)戶手中的中藥材,進(jìn)行集中儲(chǔ)存規(guī)范入庫、按需配送以及配套安全監(jiān)控,實(shí)現(xiàn)中藥材資源的配置。
本文以中藥廠作為中藥材的主要銷區(qū),整體配置業(yè)務(wù)如圖1所示。
圖1 中藥材資源配置業(yè)務(wù)邏輯
可以看出,流通節(jié)點(diǎn)作為基礎(chǔ)倉儲(chǔ)場(chǎng)所,既可以存儲(chǔ),也可以根據(jù)賣方需求進(jìn)行發(fā)貨。這樣極大程度保證資源的合理配置和中藥材的質(zhì)量安全。中藥廠在國(guó)家藥監(jiān)局公開備案,具備GMP生產(chǎn)資質(zhì)后,從中藥材種植者或中間商采購中藥材,進(jìn)一步加工生產(chǎn)中成藥,再以渠道或代理的方式進(jìn)行銷售?,F(xiàn)在信息發(fā)達(dá),網(wǎng)上都可以檢索每家中藥廠生產(chǎn)的中成藥種類,每種中成藥的成分信息,即以哪些中藥材作為原材料。
根據(jù)配置業(yè)務(wù)邏輯,采用大數(shù)據(jù)技術(shù)進(jìn)行優(yōu)化,技術(shù)框架如圖2所示。
圖2 技術(shù)框架
2.2.1 數(shù)據(jù)采集 數(shù)據(jù)采集是基礎(chǔ),中藥材、中成藥、中藥廠信息在網(wǎng)上都能檢索,通過技術(shù)手段可以收集起來。
2.2.2 數(shù)據(jù)存儲(chǔ) 主要看數(shù)據(jù)量的大小,這里由于數(shù)據(jù)量最多上百萬條,選擇關(guān)系型數(shù)據(jù)Mysql存儲(chǔ)。
2.2.3 數(shù)據(jù)清洗 處理“臟”數(shù)據(jù),包括重復(fù)值、缺失值、錯(cuò)誤值、異常值,比如數(shù)據(jù)中混雜的有西藥,屬于異常值,需要對(duì)其進(jìn)行刪除操作。
2.2.4 數(shù)據(jù)分析 通過分析中成藥的成分信息,統(tǒng)計(jì)出現(xiàn)頻數(shù)多的中藥材,再計(jì)算使用核心藥材的中成藥,然后檢索生產(chǎn)這些中成藥的藥廠,從而根據(jù)藥廠所在的區(qū)域得出主銷區(qū)。最后結(jié)合主要產(chǎn)銷區(qū),給出資源配置優(yōu)化的方案。
2.2.5 數(shù)據(jù)呈現(xiàn) 對(duì)分析的結(jié)果進(jìn)行呈現(xiàn),再分析其結(jié)果的正確性。
3.1.1 數(shù)據(jù)采集 采集中藥材、中成藥、藥廠的信息,分別見表1、表2、表3。其中藥廠包括生產(chǎn)中藥和西藥的藥廠,藥廠生產(chǎn)的藥品見表4。
表1 中藥材主要信息
表2 藥廠主要信息
表3 藥品主要信息
表4 藥廠生產(chǎn)的藥品
最終,共收集了1 759條中藥材標(biāo)準(zhǔn)信息、10 679條藥品信息(含少量西藥)以及8 289家藥廠信息,存儲(chǔ)到Mysql數(shù)據(jù)庫中。
3.1.2 數(shù)據(jù)清洗 由于中藥材名稱是有限且統(tǒng)一的,藥品的成分是0個(gè)或多個(gè)中藥材的配伍,這是一個(gè)典型的多模式串識(shí)別問題,本文采用Aho-Corasick算法進(jìn)行數(shù)據(jù)清洗,具體步驟如圖3所示。
圖3 清洗步驟
需要注意的是,中藥材名稱有一些是包含關(guān)系,比如茯苓、土茯苓,但它們屬于不同的中藥材,清洗時(shí)要避免將土茯苓識(shí)別成為土茯苓和茯苓兩味藥材以造成數(shù)據(jù)的二次“污染”。
對(duì)重復(fù)、缺失的數(shù)據(jù),以及不含中藥材的藥品數(shù)據(jù)進(jìn)行刪除處理后,共有7 038條中成藥數(shù)據(jù),成分信息里中藥材之間用逗號(hào)進(jìn)行分隔。表5列出部分清洗前后的數(shù)據(jù)。
表5 清洗前后的數(shù)據(jù)(部分)
3.1.3 數(shù)據(jù)挖掘 選用關(guān)聯(lián)規(guī)則的模式增長(zhǎng)算法即FP-growth算法來計(jì)算核心藥材,并發(fā)現(xiàn)核心藥材之間的隱含關(guān)系與規(guī)律。
首先,計(jì)算藥品中每味中藥材出現(xiàn)的頻次,即頻繁項(xiàng)集為1的藥材,結(jié)果見表6。這里支持度取0.07,大于支持度的單項(xiàng)集時(shí)核心藥材。
表6 單項(xiàng)集(部分)
可以看出甘草、當(dāng)歸、茯苓、川芎、黃芪、黃芩等是使用頻數(shù)高的中藥材。甘草作為“中藥之王”,具有補(bǔ)氣功效等作用[6],當(dāng)歸具有補(bǔ)血活血等作用[7],茯苓具有利水滲濕、健脾寧心的作用[8],黃芪素有“東北小人參”之稱,是補(bǔ)中益氣要藥[9]。核心藥材與在感冒類、脾胃類清熱類、肺炎類、增強(qiáng)免疫等細(xì)分領(lǐng)域的研究結(jié)果是一致的[10-13]。
其次,查詢使用核心藥材的中成藥,也就是檢索出成分含有核心藥材的中成藥,藥名是唯一的。
然后,統(tǒng)計(jì)生產(chǎn)這些中成藥的藥廠,再根據(jù)藥廠位置歸屬到所在省份/自治區(qū)/直轄市。由于本文采集的中藥廠分布在全國(guó)31個(gè)省/自治區(qū)/直轄市,每個(gè)區(qū)域?qū)χ兴幉姆N類使用數(shù)量的情況如圖4。
注:顏色越深代表使用的中藥材類型數(shù)量越多,圖中可明顯看出內(nèi)蒙古、吉林、河北、黑龍江、江西四個(gè)省/自治區(qū)的藥廠是中藥材的主要銷區(qū)。圖4 使用的核心藥材類型數(shù)量、分布地圖
最后,挖掘核心藥材之間的關(guān)聯(lián)關(guān)系。中成藥一般都是多味中藥材配伍,挖掘出關(guān)聯(lián)關(guān)系強(qiáng)的潛在中藥材組合。頻繁項(xiàng)集為2,最小支持度和置信度分別為0.05、31%,結(jié)果見表7,頻繁項(xiàng)集為3時(shí),最小支持度和置信度分別為0.025、45%,結(jié)果見表8。
表7 最大頻繁項(xiàng)集為2時(shí)的關(guān)聯(lián)關(guān)系
表8 最大頻繁項(xiàng)集為3時(shí)的關(guān)聯(lián)關(guān)系
從表7結(jié)果可知,核心藥材間的關(guān)聯(lián)關(guān)系能夠同時(shí)滿足最小支持度和置信度的要求,表明核心藥材間存在強(qiáng)關(guān)聯(lián)規(guī)則。藥品成分中有川芎、白芍、當(dāng)歸三味中藥材,則以上藥材同時(shí)出現(xiàn)的頻率為2.83%;另外,挖掘結(jié)果顯示含有川芎、白芍的所有中成藥中有90.05%的概率會(huì)出現(xiàn)當(dāng)歸,出現(xiàn)桔梗的藥品中有62.8%的概率出現(xiàn)甘草,陳皮的藥品中有45.92%的概率出現(xiàn)甘草,白芍的藥品中有41.89%的概率出現(xiàn)甘草。這種強(qiáng)關(guān)聯(lián)關(guān)系既表明藥材間存在配伍的規(guī)律,也為流通節(jié)點(diǎn)對(duì)中藥材的資源配置提供了一種優(yōu)化方法,即在配置桔梗、陳皮、白芍、茯苓的區(qū)域,可同時(shí)配置甘草,同理,在配置川芎、白術(shù)、黃芪的區(qū)域,可考慮同時(shí)配置當(dāng)歸。
另外,從圖4可以看出,使用的核心藥材類型數(shù)量多的地區(qū)集中在華北、華東、華中、西南和西北地區(qū),而青藏、新疆、江蘇、海南等地區(qū)相對(duì)少一些。這與中藥材的道地產(chǎn)區(qū)氣候、土壤等自然環(huán)境有很大關(guān)系??祩髦镜萚14]研究得出不同區(qū)域分布的道地藥材,如表9。
表9 不同區(qū)域分布的常見中藥材
將上表中藥材的道地產(chǎn)區(qū)與本文分析的核心藥材主要銷區(qū)結(jié)合起來,江西屬于白芍、白術(shù)、茯苓、丹參等核心藥材的中心產(chǎn)區(qū),也是藥材使用類型最多的一個(gè)區(qū)域,所以在選擇大規(guī)模倉儲(chǔ)、物流中心節(jié)點(diǎn)時(shí),可考慮在江西地區(qū)作為中藥材的綜合地區(qū)。而內(nèi)蒙古中部地區(qū)是生產(chǎn)甘草的道地產(chǎn)區(qū),也是甘草的主要使用地區(qū),則此區(qū)域的流程節(jié)點(diǎn)以甘草為主,同樣,河北地區(qū)可以以黃芪、黃芩為主。
主產(chǎn)地與主銷區(qū)的結(jié)合,既可以發(fā)揮道地產(chǎn)區(qū)的優(yōu)勢(shì),保證中藥材的質(zhì)量,也可以科學(xué)地將道地產(chǎn)區(qū)藥材倉儲(chǔ)到離銷售區(qū)域最近的位置,縮短銷售的時(shí)間、物流、經(jīng)濟(jì)等成本,為中藥材資源的優(yōu)化配置提供高效的途徑。
本文運(yùn)用大數(shù)據(jù)技術(shù),采集中成藥、中藥材、藥廠等信息,利用Aho-Corasick算法對(duì)中成藥的成分信息進(jìn)行清洗,再用FP-growth算法挖掘核心藥材之間的關(guān)聯(lián)關(guān)系,統(tǒng)計(jì)出核心藥材的主銷區(qū)。結(jié)合核心藥材的道地產(chǎn)區(qū)和主銷區(qū),為中藥材的資源配置提供了一種優(yōu)化的方法。
在研究過程中,核心藥材的類型數(shù)量是主要考慮因素,下一步工作可以加入藥廠對(duì)中藥材的使用量這一因素。因?yàn)樗帍S有自己的主打藥品,成分中的前幾個(gè)中藥材一般是藥品的主要原材料,這樣預(yù)估使用量可以為優(yōu)化方案提供更全面的依據(jù)。