李駿 張鴿 紀海婷 于翔
摘? 要:檢驗檢測機構(gòu)傳統(tǒng)手工標準查新的方法,工作量大,效率低,且查新周期長,為提高工作效率,文章提出了一種基于Python的標準查新方法,并以實例描述其工作過程,實現(xiàn)了一種高效的標準查新方式。
關(guān)鍵詞:標準查新;大數(shù)據(jù);Python;網(wǎng)絡(luò)爬蟲
Abstract: In order to improve work efficiency, a new method of standard search based on Python is proposed in this paper, and its working process is described by an example. An efficient method of standard search is realized.
標準是檢驗檢測機構(gòu)開展工作的主要依據(jù)之一,檢驗檢測工作需要標準的支持。執(zhí)行現(xiàn)行有效的標準才能保證檢驗檢測工作的準確性、有效性和公正性,而對標準的查新則有效保障了使用標準的現(xiàn)行有效性,降低了檢驗檢測過程中的風(fēng)險。檢驗檢測機構(gòu)查新員傳統(tǒng)的手工查新方法對查新人員的經(jīng)驗及技術(shù)有著較高要求,且查新時間周期長,工作量大。隨著大數(shù)據(jù)時代的發(fā)展,為減輕檢驗檢測機構(gòu)標準查新的工作成本及負擔(dān),本文運用Python程序?qū)崿F(xiàn)互聯(lián)網(wǎng)自動匹配搜索查詢,從而實現(xiàn)標準的自動查新,縮短標準查新周期,極大提高檢驗檢測機構(gòu)標準查新的效率。
1 實施標準查新的必要性及常用方法
1.1 實施標準查新的必要性
1.1.1 資質(zhì)認定的要求
《檢驗檢測機構(gòu)資質(zhì)認定能力評價? 檢驗檢測機構(gòu)通用要求》(RB/T 214-2017)4.5.3款規(guī)定:“檢驗檢測機構(gòu)應(yīng)建立和保持控制其管理體系的內(nèi)部和外部文件的程序,明確文件的標識、批準、發(fā)布、變更和廢止,防止使用無效、作廢的文件?!盵1]
《檢驗檢測機構(gòu)資質(zhì)認定評審準則》4.5.4款規(guī)定:“檢驗檢測機構(gòu)應(yīng)建立和保持控制其管理體系的內(nèi)部和外部文件的程序,包括法律法規(guī)、標準、規(guī)范性文件、檢驗檢測方法,以及通知、計劃、圖紙、圖表、軟件、規(guī)范、手冊、指導(dǎo)書。這些文件可承載在各種載體上,可是硬拷貝或是電子媒體,也可是數(shù)字的、模擬的、攝影的或書面的形式。應(yīng)明確文件的批準、發(fā)布、變更,防止使用無效、作廢的文件。”[2]
1.1.2 標準化體系建設(shè)推動發(fā)展的要求
2015年12月,國務(wù)院辦公廳發(fā)布了《國家標準化體系建設(shè)發(fā)展規(guī)劃(2016-2020年)》,明確指出 :“完善標準制定程序。優(yōu)化標準審批流程,落實標準復(fù)審要求,縮短標準制定周期,加快標準更新速度?!盵3]在這個大背景下,老標準的修訂和新標準的制定工作步伐大大加快,檢驗檢測機構(gòu)使用標準更新周期明顯加快,為保證檢驗檢測機構(gòu)工作的準確性、有效性和公正性,實施標準查新工作作用更為突出。
1.2 實施標準查新的常用方法
檢驗檢測機構(gòu)標準查新的方法主要有委托專業(yè)機構(gòu)查詢和自行手工網(wǎng)絡(luò)查詢兩種。
(1)委托專業(yè)機構(gòu)查詢:檢驗檢測機構(gòu)委托具有查新資質(zhì)的標準信息研究機構(gòu),對其使用的標準內(nèi)容的有效性進行審驗和確認,并最終出具標準查新報告。
(2)自行手工網(wǎng)絡(luò)查詢:檢驗檢測機構(gòu)查新員手工以網(wǎng)絡(luò)查證的方式對其使用的標準內(nèi)容有效性進行查證,并根據(jù)查詢結(jié)果形成書面記錄。目前,標準查新的網(wǎng)絡(luò)資源主要有:國家標準化管理委員會網(wǎng)站(http://www.sac.gov.cn/)、中國標準化研究院網(wǎng)站(http://www.cnis.ac.cn/)、中國標準服務(wù)網(wǎng)(http://www.cssn.net.cn/)、國家標準全文公開系統(tǒng)(http://openstd.samr.gov.cn/)、中華人民共和國生態(tài)環(huán)境部-科技標準(http://bz.mee.gov.cn/)、水利部國際合作與科技司-標準查詢(http://gjkj.mwr.gov.cn/jsjd1/bzcx/)、中華人民共和國農(nóng)業(yè)部-農(nóng)業(yè)標準(http://jiuban.moa.gov.cn/zwllm/nybz/)、工標網(wǎng)(http://www.csres.com/)、標準認證與檢驗檢測公共服務(wù)平臺(https://www.scidcn.com/)、之江標準信息平臺(http://www.zjsis.com/)等等。
2 基于Python的標準查新方法
隨著信息產(chǎn)業(yè)的飛速發(fā)展,網(wǎng)絡(luò)信息規(guī)模急劇膨脹,大數(shù)據(jù)時代已然來臨,網(wǎng)絡(luò)已成為人們獲取信息的重要來源,檢驗檢測機構(gòu)標準信息的來源也絕大部分來自于網(wǎng)絡(luò)。
網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機器人),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。[4]它可以通過網(wǎng)頁鏈接地址抓取網(wǎng)頁內(nèi)容,并根據(jù)用戶需求返回所需信息數(shù)據(jù),而不需要人工登錄瀏覽器查詢獲取信息。Python中的urllib、requests、urllib3、scrapy、lxml和BeautifulSoup4 等第三方庫被廣泛應(yīng)用于爬蟲開發(fā)[5],因此,在大數(shù)據(jù)時代應(yīng)用Python程序完全可實現(xiàn)對檢驗檢測機構(gòu)標準的互聯(lián)網(wǎng)自動匹配查詢工作,實現(xiàn)標準查新工作的自動化,快捷更高效。
下面以之江標準信息平臺(http://www.zjsis.com/)為例,介紹Python程序標準查新實現(xiàn)的過程。
2.1 查新標準整理
工欲善其事,必先利其器。標準查新前,必須對正在使用的標準進行系統(tǒng)梳理,將需要查詢的標準進行整理,填入相應(yīng)的excel模板,以備Python程序標準查新使用。相應(yīng)的excel模板見圖1。
圖1中,第一列為關(guān)鍵字查詢,可以填入需查詢的相應(yīng)標準名稱,如總磷的測定方法,可填入“鉬酸銨分光光度法”或者“總磷”;第二列為標準號查詢,如總磷的鉬酸銨分光光度法標準號為“GB/T 118393-1989”,可填入相應(yīng)的標準號即可。兩列填寫一列即可。
2.2 查詢網(wǎng)頁分析、抓取
(1)打開之江標準信息平臺網(wǎng)頁,分析其API接口數(shù)據(jù),得到請求頭部信息,包括目標地址(GET)、主機域名(Host)、用戶代理(User-Agent)、Cookie信息(Cookie)等信息。(如圖2)
根據(jù)API接口分析結(jié)果,網(wǎng)頁內(nèi)容抓取的請求頭代碼如下(部分):
(2)導(dǎo)入上述已整理好的需標準查新的excel模板文件,實現(xiàn)相關(guān)標準網(wǎng)頁信息檢索及相關(guān)網(wǎng)頁內(nèi)容的抓取,網(wǎng)頁抓取過程界面見圖3。實現(xiàn)代碼如下(部分):
2.3 標準信息整理保存
對上述抓取到的網(wǎng)頁數(shù)據(jù),通過正則表達式,提取有用的信息,主要包括標準號、標準狀態(tài)(現(xiàn)行或作廢)、標準中文名稱、標準英文名稱、標準中標分類、標準ICS分類、標準分類標號、標準語種、標準頁數(shù)、標準發(fā)布日期、標準實施日期、標準作廢日期、被替代標注號、代替標準號、采用標準、引用標準、起草單位、歸口單位、標準范圍、標準查詢的網(wǎng)址等25項內(nèi)容。取得相應(yīng)的查詢信息后,數(shù)據(jù)以excel文件類型進行保存。實現(xiàn)代碼如下(部分):
保存的excel文件可直接作為檢測檢測機構(gòu)的標準查新報告。同時為方便檢驗檢測機構(gòu)人員,查詢作廢的標準進行了標記處理,并提供了相應(yīng)的替換標準號,提醒檢驗檢測機構(gòu)人員及時對相應(yīng)標準進行替換更新。標準信息查詢成果見圖4。
應(yīng)用Python程序進行標準查新,可完全實現(xiàn)計算機自動查詢,檢驗檢測機構(gòu)工作人員僅需整理好需查新的標準方法名稱或者標準號,且該方法查詢速度快,50條標準信息僅需3-5分鐘就能查詢完成,大大提高了標準查新的工作效率。
3 結(jié)束語
本文針對傳統(tǒng)人工標準查新工作,工作量大,查詢周期長等問題,利用Python的第三方爬蟲庫實現(xiàn)檢驗檢測機構(gòu)標準查新,并通過實例描述了其工作流程及應(yīng)用效果。通過實際應(yīng)用,基于Python的標準查新方法,具有自動化、快捷、高效的特點,在檢驗檢測機構(gòu)標準查新工作中能大大提高其工作效率。
參考文獻:
[1]中國國家認證認可監(jiān)督管理委員會. 檢驗檢測機構(gòu)資質(zhì)認定能力評價 檢驗檢測機構(gòu)通用要求:RB/T 214-2017[S].2018:5.
[2]中國國家認證認可監(jiān)督管理委員會. 國認實[2016]33號 關(guān)于印發(fā)《檢驗檢測機構(gòu)資質(zhì)認定評審準則》及釋義和《檢驗檢測機構(gòu)資質(zhì)認定評審員管理要求》的通知[S].2016.
[3]國務(wù)院辦公廳. 國辦發(fā)〔2015〕89號 關(guān)于印發(fā)國家標準化體系建設(shè)發(fā)展規(guī)劃(2016-2020年)的通知[S].2015.
[4]謝克武.大數(shù)據(jù)環(huán)境下基于Python的網(wǎng)絡(luò)爬蟲技術(shù)[J].電子制作,2017(9):44-45.
[5]胡松濤.Python 網(wǎng)絡(luò)爬蟲實戰(zhàn)[M].北京:清華大學(xué)出版社,2017.