劉艷華秦士忠韓玥閆嵩馬奔徐吉
(1.北京出入境檢驗檢疫局 北京 100026;2.中云智慧(北京)科技有限公司)
大數(shù)據(jù)實驗室質(zhì)量控制的研究方向
劉艷華1秦士忠1韓玥1閆嵩2馬奔2徐吉2
(1.北京出入境檢驗檢疫局 北京 100026;2.中云智慧(北京)科技有限公司)
實驗室的管理者和質(zhì)量保證人員通過觀察質(zhì)量控制測試的數(shù)據(jù)變化趨勢,可以發(fā)現(xiàn)某些檢測項目存在的變化趨勢和可能的風(fēng)險。利用大數(shù)據(jù)分析技術(shù),對實驗室數(shù)據(jù)進行質(zhì)量控制,把大數(shù)據(jù)分析誤差控制在允許限度內(nèi)。在數(shù)據(jù)收集與統(tǒng)計分析的基礎(chǔ)上,可以進行商業(yè)智能與趨勢預(yù)測方面的應(yīng)用,可以進行實驗數(shù)據(jù)異常點校驗與關(guān)聯(lián)分析等方面的數(shù)據(jù)挖掘工作等。
大數(shù)據(jù);云計算;實驗室;質(zhì)量控制
隨著人類的進步和科技的發(fā)展,計算機已經(jīng)成為人們生活和工作中必用的工具。計算機應(yīng)用的增多帶動了數(shù)據(jù)量的增長,并且?guī)恿嘶ヂ?lián)網(wǎng)產(chǎn)業(yè)的發(fā)展,這次發(fā)展又帶來了一次數(shù)據(jù)增長的高潮。在互聯(lián)網(wǎng)時代下,每個人都是數(shù)據(jù)的制造者。近年來,物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)的進一步應(yīng)用,使數(shù)據(jù)呈指數(shù)級增長。正是因為數(shù)據(jù)瘋狂式增長,“大數(shù)據(jù)”才慢慢地被各界所研究。
大數(shù)據(jù)是指在不可承受的時間范圍內(nèi)用常規(guī)軟件工具進行獲取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。從技術(shù)上看,大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分,大數(shù)據(jù)無法用單臺的計算機進行處理,必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘,但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)。
2.1 國外發(fā)展?fàn)顩r
2.1.1 國家啟動大數(shù)據(jù)布局
2012年3月,奧巴馬政府投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”;2012年7月,日本發(fā)布“新ICT計劃”,重點關(guān)注大數(shù)據(jù)研究和應(yīng)用。
2.1.2 跨國 IT企業(yè)進入大數(shù)據(jù)領(lǐng)域
谷歌、Facebook等大數(shù)據(jù)資源企業(yè)優(yōu)勢顯現(xiàn);甲骨文、IBM、 微軟、SYBASE、 EMC、Intel等企業(yè)陸續(xù)推出大數(shù)據(jù)產(chǎn)品和方案,如甲骨文公司的Oracle NoSQL數(shù)據(jù)庫、IBM公司的InfoSphereBigInsights數(shù)據(jù)分析平臺、微軟公司W(wǎng)indows Azure上的HDInsight大數(shù)據(jù)解決方案、EMC公司的Greenplum UAP大數(shù)據(jù)引擎等。
2.1.3 大數(shù)據(jù)技術(shù)發(fā)展迅猛
以 HDFS、GFS、MapReduce、Hadoop、Storm、HBase、MongoDB為代表的一批大數(shù)據(jù)通用技術(shù)和開源項目迅猛發(fā)展。
2.1.4 數(shù)據(jù)科學(xué)研究不斷壯大
美國哥倫比亞大學(xué)和紐約大學(xué)、澳大利亞悉尼科技大學(xué)、日本名古屋大學(xué)、韓國釜山國立大學(xué)等紛紛成立數(shù)據(jù)科學(xué)研究機構(gòu);美國加州大學(xué)伯克利分校和伊利諾伊大學(xué)香檳分校、英國鄧迪大學(xué)、中國香港中文大學(xué)等一大批高校開設(shè)了數(shù)據(jù)科學(xué)課程。
2.2 國內(nèi)發(fā)展?fàn)顩r我國國內(nèi)發(fā)展的狀況見表1。
表1 國內(nèi)發(fā)展?fàn)顩r
當(dāng)前對大數(shù)據(jù)的研究大致可以分為專注于研究大數(shù)據(jù)的復(fù)雜性和計算模型的基礎(chǔ)理論,以及著眼于大數(shù)據(jù)的感知與表示、內(nèi)容建模與語義理解,和大數(shù)據(jù)計算架構(gòu)體系的關(guān)鍵技術(shù)這樣兩個層面。下面簡要介紹相應(yīng)的研究現(xiàn)狀。
3.1 基礎(chǔ)理論方面
針對大數(shù)據(jù)的復(fù)雜性,前期的研究主要是對網(wǎng)絡(luò)上多種來源的數(shù)據(jù)進行性質(zhì)分析和規(guī)律探索,很多學(xué)者嘗試運用圖論和統(tǒng)計分析等方法對數(shù)據(jù)進行定量分析。特別值得注意的是,人們已經(jīng)發(fā)現(xiàn)了復(fù)雜的網(wǎng)絡(luò)大數(shù)據(jù)之中存在一些統(tǒng)計規(guī)律性。面對大數(shù)據(jù)的復(fù)雜性,還有一些學(xué)者嘗試使用統(tǒng)計方法和復(fù)雜網(wǎng)絡(luò)方法來研究如何對大數(shù)據(jù)進行按需約簡。但這類基于統(tǒng)計的方法在處理大數(shù)據(jù)時其時效性難以保證。
針對大數(shù)據(jù)的計算理論和算法的研究目前主要集中在大數(shù)據(jù)機器學(xué)習(xí)的基礎(chǔ)理論、參數(shù)估計方法、優(yōu)化算法等方面,形成的一系列成果為大數(shù)據(jù)高效計算提供了理論支持。
3.2 關(guān)鍵技術(shù)方面
爬蟲是當(dāng)前大數(shù)據(jù)感知和獲取的基本技術(shù),已得到迅速發(fā)展和廣泛應(yīng)用,但仍不能有效應(yīng)對被稱為Web2.0的新一代互聯(lián)網(wǎng)數(shù)據(jù)[1]。為了有效利用網(wǎng)絡(luò)大數(shù)據(jù),需要將異構(gòu)、低質(zhì)量的網(wǎng)絡(luò)數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)統(tǒng)一的高質(zhì)量數(shù)據(jù),因此業(yè)界提出了一系列數(shù)據(jù)抽取算法。但總的來說,將這些技術(shù)直接用于大數(shù)據(jù)處理,在數(shù)據(jù)處理的規(guī)模和得到的數(shù)據(jù)質(zhì)量方面還不能令人滿意。另一方面,人們很早就認(rèn)識到了動態(tài)性和時效性是大數(shù)據(jù)的重要特性[2],數(shù)據(jù)流(data stream)[3,4]和時間序列(time series)[5]是表示和處理數(shù)據(jù)動態(tài)性和時效性的主要技術(shù)。同樣,從數(shù)據(jù)的可處理規(guī)模和功能上,傳統(tǒng)數(shù)據(jù)流和時間序列技術(shù)還無法滿足大數(shù)據(jù)處理的需求。
大數(shù)據(jù)的架構(gòu)體系研究首先需要關(guān)注的問題就是大數(shù)據(jù)如何存儲,大數(shù)據(jù)存儲的形式包括分布式的文件系統(tǒng)、分布式的鍵值對存儲以及分布式數(shù)據(jù)庫存儲。當(dāng)前的研究也集中在這3個方面,并依據(jù)應(yīng)用的需求進行相關(guān)優(yōu)化。在分布式文件系統(tǒng)研究方面,傳統(tǒng)的分布式文件系統(tǒng)NFS應(yīng)用最為廣泛[6]。
近年來,數(shù)據(jù)管理系統(tǒng)以及大數(shù)據(jù)在實驗室管理研究中的應(yīng)用日益增高。
2012年,韓深等[7]將科學(xué)數(shù)據(jù)管理系統(tǒng)應(yīng)用在出入境檢驗檢疫中,以實驗室數(shù)據(jù)管理過程中的重要結(jié)點為研究對象,比較了傳統(tǒng)數(shù)據(jù)管理方式和實驗室科學(xué)數(shù)據(jù)管理系統(tǒng)各自的特點及優(yōu)勢,并通過研究和引進對接,建立了適用于檢驗檢疫實驗室的數(shù)據(jù)管理系統(tǒng)。該系統(tǒng)將實驗室分析儀器與數(shù)據(jù)庫對接,使儀器生成的原始數(shù)據(jù)能夠在線上傳到服務(wù)器中并保存,避免了原始數(shù)據(jù)的丟失和被修改。同時,通過數(shù)據(jù)管理系統(tǒng)可以方便地對檢測報告進行調(diào)閱,大大提高了各級審核的效率。利用實驗室科學(xué)數(shù)據(jù)管理系統(tǒng)與實驗室LIMS系統(tǒng)、財務(wù)預(yù)算管理系統(tǒng)、試劑耗材管理系統(tǒng)、CIQ2000等系統(tǒng)進行對接,搭建了實驗室數(shù)據(jù)交互平臺,實現(xiàn)了現(xiàn)代實驗室數(shù)據(jù)科學(xué)、高效、安全。
2014年,吳梅[8]以貴州地質(zhì)礦產(chǎn)中心實驗室為例,闡述了大數(shù)據(jù)及其對地礦分析測試工作的啟示。在介紹大數(shù)據(jù)的內(nèi)涵基礎(chǔ)上,分析大數(shù)據(jù)的特征和時代價值,探討其帶給社會經(jīng)濟發(fā)展的意義,結(jié)果顯示大數(shù)據(jù)時代對地質(zhì)礦產(chǎn)實驗室的分析測試數(shù)據(jù)庫建設(shè)和管理工作帶來了新的機遇。
2014年,梁祥炎等[9]在大數(shù)據(jù)下的實驗室研究中闡明,大數(shù)據(jù)近年來引起各領(lǐng)域的廣泛關(guān)注,大數(shù)據(jù)毋庸置疑將對各方面產(chǎn)生重大影響。實驗室作為科學(xué)研究的陣地現(xiàn)有諸多不足,必定會受大數(shù)據(jù)沖擊。大數(shù)據(jù)是實驗室研究工具的創(chuàng)新,能有效反映實驗室研究動態(tài),尋找內(nèi)部深層次規(guī)律,對實驗室研究進行有效感知。大數(shù)據(jù)打破人認(rèn)識及思維局限,實現(xiàn)實驗室研究的協(xié)同創(chuàng)新及社會化,使實驗室研究減少不必要的實驗,實現(xiàn)實驗的可預(yù)測。鑒于大數(shù)據(jù)對實驗室研究的重要性,應(yīng)提高實驗研究人員對信息數(shù)據(jù)的主動性和敏感性,創(chuàng)新實驗室研究方式和方法,培養(yǎng)實驗室大數(shù)據(jù)人才,增強實驗室研究的合作,加強實驗室大數(shù)據(jù)的硬件設(shè)施建設(shè),完善相關(guān)制度。
2014年,梁祥炎[10]在基于現(xiàn)象學(xué)方法的大數(shù)據(jù)實驗室研究中表示,在大數(shù)據(jù)背景下,實驗室研究的思維方法和方式都會產(chǎn)生重大變革。用現(xiàn)象學(xué)方法中的先驗、解釋以及體驗等研究方法看待大數(shù)據(jù)下的實驗室研究,以及探明實驗室研究在大數(shù)據(jù)背景下的具體作用機理。
2015年,吳明念[11]開展了基于應(yīng)用型本科院校的大數(shù)據(jù)實驗室建設(shè)探究,從闡釋大數(shù)據(jù)的內(nèi)涵出發(fā),探討大數(shù)據(jù)應(yīng)用型技術(shù)人才的需求、組建大數(shù)據(jù)實驗室的意義和目標(biāo)、大數(shù)據(jù)實驗室建設(shè)方案及內(nèi)容。
2015年,王定珠等[12]詳細(xì)介紹了電子病歷、手持移動終端、大數(shù)據(jù)采集與分析、數(shù)據(jù)安全在醫(yī)療質(zhì)控中的應(yīng)用。
5.1 大數(shù)據(jù)實驗室質(zhì)量控制的作用
實驗室的質(zhì)量管理架構(gòu)中,檢測結(jié)果的質(zhì)量保證是關(guān)鍵的一環(huán)。實驗室通過內(nèi)部和外部質(zhì)量控制了解分析檢測結(jié)果偏差情況,采集和分析質(zhì)量控制數(shù)據(jù),然后采取糾正和糾正措施,從而保證檢測結(jié)果的可靠性和準(zhǔn)確性,并在具備條件的檢測設(shè)備上將質(zhì)量控制數(shù)據(jù)實時上傳,形成動態(tài)的質(zhì)量控制圖,以便更有針對性地改進檢測工作。
為保證檢測質(zhì)量的可靠性,實驗室需要采用統(tǒng)計技術(shù)對實驗室進行實驗室內(nèi)部和外部質(zhì)量控制。在實驗室制訂質(zhì)量控制計劃的時候需要考慮的數(shù)據(jù)來源有:特定時間內(nèi)的檢測項目數(shù)、不同檢測項目匹配的基質(zhì)數(shù)、檢測方法覆蓋的領(lǐng)域范圍、歷年質(zhì)量控制計劃的結(jié)果、可重復(fù)性檢測結(jié)果的數(shù)量、客戶投訴的檢測項目、內(nèi)審中發(fā)現(xiàn)問題的檢測項目以及實驗室管理機構(gòu)規(guī)范性要求等。實驗室的管理者和質(zhì)量保證人員通過觀察質(zhì)量控制測試的數(shù)據(jù)變化趨勢,可以發(fā)現(xiàn)某些檢測項目存在的變化趨勢和可能的風(fēng)險。
質(zhì)量控制的方式包括定期使用有證標(biāo)準(zhǔn)物質(zhì)進行監(jiān)控或使用次級標(biāo)準(zhǔn)物質(zhì)開展內(nèi)部質(zhì)量控制;參加實驗室間比對或能力驗證計劃;使用方法比對;留樣再測;一個物品不同特性結(jié)果的相關(guān)性分析。實驗室將上述質(zhì)控方式產(chǎn)生的結(jié)果,與實驗室的自我質(zhì)量要求納入大數(shù)據(jù)分析,篩查出有必要進行質(zhì)量控制的項目數(shù)據(jù),避免人為確定質(zhì)量控制項目的盲目性,使得實驗室質(zhì)量控制更加科學(xué)合理,降低實驗室質(zhì)量控制運行成本。
當(dāng)實驗室數(shù)據(jù)采用大數(shù)據(jù)分析技術(shù),具有較完善基礎(chǔ)及分析工作者具有一定素質(zhì)之后,實驗室使用內(nèi)部和外部質(zhì)量控制是科學(xué)管理實驗室的主要方式和組成部分。
5.2 大數(shù)據(jù)實驗室質(zhì)量控制應(yīng)與技術(shù)發(fā)展對接
(1)大數(shù)據(jù)與互聯(lián)網(wǎng)的發(fā)明一樣,絕不僅僅是信息技術(shù)領(lǐng)域的革命,更是在全球范圍加速企業(yè)創(chuàng)新、引領(lǐng)社會變革的利器。
現(xiàn)代關(guān)系學(xué)之父德魯克有言,預(yù)測未來最好的方法,就是去創(chuàng)造未來。而大數(shù)據(jù)戰(zhàn)略,則是當(dāng)下領(lǐng)航全球的先機。各類實驗室作為創(chuàng)新基點,應(yīng)該充分吸納大數(shù)據(jù)技術(shù)帶來的便利,更好地與技術(shù)發(fā)展對接。
(2)及時判斷、分析實驗結(jié)果發(fā)展和應(yīng)用趨勢。
大數(shù)據(jù)需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力,成為海量、高增長率和多樣化的信息資產(chǎn)。從數(shù)據(jù)的類別上看,大數(shù)據(jù)指的是無法使用傳統(tǒng)流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統(tǒng)處理方法的數(shù)據(jù)集。而實驗室數(shù)據(jù)龐大且冗雜,雖有一定規(guī)律性,但很容易產(chǎn)生數(shù)據(jù)變異。實驗室數(shù)據(jù)分析與大數(shù)據(jù)技術(shù)相結(jié)合,利用并行運算和開源的大數(shù)據(jù)分析工具(如Hadoop),通過大量實驗大數(shù)據(jù)應(yīng)用狀況,可以分析、預(yù)測實驗最終結(jié)果的趨勢,便于研究人員解決他們的難題,靈活、快速、高效地響應(yīng)。
(3)可對實驗室進行有效考核。
利用大數(shù)據(jù)分析技術(shù),對實驗室數(shù)據(jù)進行質(zhì)量控制,把大數(shù)據(jù)分析誤差控制在允許限度內(nèi),從而保證分析結(jié)果具有一定精密度和準(zhǔn)確度,使分析數(shù)據(jù)在規(guī)定的置信水平內(nèi),達(dá)到所要求的質(zhì)量。同時,也是對新方法、新技術(shù)可靠性有效考核的一種方式。
5.3 商業(yè)智能與趨勢預(yù)測方面的應(yīng)用
(1)在數(shù)據(jù)收集與統(tǒng)計分析的基礎(chǔ)上,進行商業(yè)智能與趨勢預(yù)測方面的應(yīng)用。
實驗數(shù)據(jù)經(jīng)過處理之后進行入庫處理,建立歷史數(shù)據(jù)庫,然后進行統(tǒng)計分析與商業(yè)智能分析。商業(yè)智能又稱商業(yè)智慧或商務(wù)智能,指用現(xiàn)代數(shù)據(jù)倉庫技術(shù)、線上分析處理技術(shù)、數(shù)據(jù)挖掘和數(shù)據(jù)展現(xiàn)技術(shù)進行數(shù)據(jù)分析以實現(xiàn)商業(yè)價值,在有歷史數(shù)據(jù)的支持下,可以使用商業(yè)智能技術(shù)做出豐富的報表統(tǒng)計,同時使用arima模型進行趨勢分析和預(yù)測,得出未來可能的實驗數(shù)據(jù)。
(2)在數(shù)據(jù)收集與統(tǒng)計分析的基礎(chǔ)上,進行實驗數(shù)據(jù)異常點校驗與關(guān)聯(lián)分析等方面的數(shù)據(jù)挖掘工作。
實驗數(shù)據(jù)檢測結(jié)果可以使用樸素貝葉斯模型進行異常點校驗,將不符合常見歷史數(shù)據(jù)的異常點篩選出來,再進行人工比對確定該實驗數(shù)據(jù)的正確性;同時可以使用fptree等算法進行關(guān)聯(lián)挖掘,分析歷史數(shù)據(jù)間的關(guān)聯(lián)關(guān)系。
借助大數(shù)據(jù)的統(tǒng)計結(jié)果可以幫助實驗室質(zhì)量保證工作擺脫滯后和被動的角色,避免人為確定質(zhì)量控制項目的盲目性,成為預(yù)判和主動改進的工具?;诖髷?shù)據(jù)分析的實驗室質(zhì)量控制應(yīng)與技術(shù)發(fā)展緊密對接,當(dāng)采用大數(shù)據(jù)分析技術(shù)具有較完善基礎(chǔ)及分析工作者具有一定素質(zhì)之后,實驗室的內(nèi)部和外部質(zhì)量控制應(yīng)是科學(xué)管理實驗室的主要方式和組成部分。在數(shù)據(jù)收集與統(tǒng)計分析的基礎(chǔ)上,實驗數(shù)據(jù)在商業(yè)智能與趨勢預(yù)測方面有著廣泛應(yīng)用前景。
[1]Cho J,Garcia-Molina Hector,Page Lawrence.Efficientcrawling through url ordering[C].WWW 1998,April14-18,Brisbane,Australia.
[2]Fetterly Dennis,Manasse Mark,Najork Marc,et al.Alarge-scale study of the evolution of Web pages[J].Software:Practice and Experience,Special Issue:Web Technologies,2004,34(2):213-237.
[3]Motwani R,Widom J,Arasu A,et al.Query Processing,Resource Management,and Approximationin a Data Stream Management System[R].CIDR 2003.
[4]Chen Yixin,Dong Guozhu,Han Jiawei,et al.Multidimensionalregression analysis of time-series datastreams[C]//VLDB 2002:323-334.
[5]James D Hamilton.Time Series Analysis[M].Princeton University Press,1994.
[6]Shepler S,Callaghan B,Robinson D,et al.NFSv4.Request for Comments,2003,3530.
[7]韓深,劉巖,馮騫,等.科學(xué)數(shù)據(jù)管理系統(tǒng)在進出境檢驗檢疫中的應(yīng)用[J].檢驗檢疫學(xué)刊,2012,22(2):51-53,57.
[8]吳梅.大數(shù)據(jù)及其對地礦分析測試工作的啟示——以貴州地質(zhì)礦產(chǎn)中心實驗室為例[J].價值工程,2014,(17):234-235.
[9]梁祥炎,莫曉靜.大數(shù)據(jù)下的實驗室研究 [J].技術(shù)與市場,2014,21(7):7-10.
[10]梁祥炎.基于現(xiàn)象學(xué)方法的大數(shù)據(jù)實驗室研究 [J].科技廣場,2014,(5):6-11.
[11]吳明念.基于應(yīng)用型本科院校的大數(shù)據(jù)實驗室建設(shè)探究[J].電腦知識與技術(shù),2015,11(16):6-7.
[12]王定珠,周凡漪.電子病歷、手持移動終端、大數(shù)據(jù)采集與分析、數(shù)據(jù)安全在醫(yī)療質(zhì)控中的應(yīng)用 [J].中華醫(yī)學(xué)圖書情報雜志,2015,24(12):56-58.
The Research Orientation of Quality Control in Big Data Labs
LIU Yanhua1, QIN Shizhong1, HAN Yue1, YAN Song2,MA Ben2, XU Ji2
(1.Beijing Entry-Exit Inspection and Quarantine Bureau, Beijing, 100026;2.Sinocloud Wisdom(Beijing)Technology Co.,Ltd)
Laboratory management and quality assurance technician can identify the variation trend and possible risk of some test items by observing the data variation tendency of quality control test.The big data analysis technology can be used to the quality control on laboratory data,which ensures the big data analysis error control within the allowable limit.Based on the data collection and statistical analysis,big data technology can be used not only for the application of business intelligence and trend forecast,but also for the abnormal point calibration of experiment data and the correlation analysis of datamining,etc.
Big Data;Cloud Computing;Laboratory;Quality Control
G482
E-mail:liuyh@bjciq.gov.cn
國家認(rèn)監(jiān)委認(rèn)證認(rèn)可科技支撐計劃(2016RJWKJ015)
2017-02-24