關(guān)利海 董俊龍
摘 要:監(jiān)控和提高車聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量,是實(shí)現(xiàn)車聯(lián)網(wǎng)大數(shù)據(jù)分析的基礎(chǔ)。本文首先解讀和總結(jié)目前國(guó)家對(duì)數(shù)據(jù)質(zhì)量治理的相關(guān)標(biāo)準(zhǔn),并結(jié)合車聯(lián)網(wǎng)數(shù)據(jù)實(shí)時(shí)性、多維度等特點(diǎn),對(duì)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)、約束規(guī)則以及計(jì)算方法進(jìn)行歸納。最后對(duì)車聯(lián)網(wǎng)數(shù)據(jù)評(píng)價(jià)系統(tǒng)進(jìn)行了概要設(shè)計(jì)。
關(guān)鍵詞:數(shù)據(jù)質(zhì)量;車聯(lián)網(wǎng);系統(tǒng)設(shè)計(jì)
1 前言
目前車聯(lián)網(wǎng)領(lǐng)域隨著行業(yè)發(fā)展和運(yùn)營(yíng),積累大量的車輛數(shù)據(jù)、駕駛數(shù)據(jù),這些數(shù)據(jù)對(duì)于后續(xù)分析來(lái)說(shuō)是至關(guān)重要的。然而, 數(shù)據(jù)庫(kù)中往往存在很多數(shù)據(jù)是臟的、不完整的、不一致的、不準(zhǔn)確的,這些數(shù)據(jù)可能導(dǎo)致操作代價(jià)、存儲(chǔ)代價(jià)昂貴、數(shù)據(jù)分析失敗甚至錯(cuò)誤。可以說(shuō)保證數(shù)據(jù)質(zhì)量是一切車聯(lián)網(wǎng)數(shù)據(jù)增值服務(wù)的前提。本文旨在面向車聯(lián)網(wǎng)領(lǐng)域,對(duì)數(shù)據(jù)質(zhì)量評(píng)價(jià)方法、流程進(jìn)行解釋說(shuō)明,并對(duì)車聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量評(píng)價(jià)系統(tǒng)進(jìn)行整體概要設(shè)計(jì)。
2 數(shù)據(jù)質(zhì)量治理法規(guī)要求
GB/T 36073中定義了數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)治理、數(shù)據(jù)架構(gòu)、數(shù)據(jù)應(yīng)用、數(shù)據(jù)安全、數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)生存周期等8個(gè)能力域,其中,對(duì)數(shù)據(jù)質(zhì)量提出如下四大過(guò)程能力要求[1]:1)明確數(shù)據(jù)質(zhì)量目標(biāo)、范圍,設(shè)計(jì)數(shù)據(jù)質(zhì)量指標(biāo)、規(guī)則。2)實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)質(zhì)量,發(fā)現(xiàn)數(shù)據(jù)問(wèn)題。3)分析影響數(shù)據(jù)質(zhì)量的原因。4)制定數(shù)據(jù)質(zhì)量改進(jìn)方案,糾正數(shù)據(jù)問(wèn)題。
GB/T 36344定義的數(shù)據(jù)質(zhì)量評(píng)價(jià)流程[2]包括構(gòu)建質(zhì)量管理組織、建立數(shù)據(jù)規(guī)范、確定評(píng)價(jià)指標(biāo)、實(shí)時(shí)評(píng)價(jià)、數(shù)據(jù)質(zhì)量提升、數(shù)據(jù)交付使用。法規(guī)中對(duì)如何確定評(píng)價(jià)指標(biāo)和實(shí)施評(píng)價(jià)給出了對(duì)應(yīng)參考準(zhǔn)則。其核心目的是通過(guò)數(shù)據(jù)評(píng)價(jià)指標(biāo)統(tǒng)計(jì)并發(fā)發(fā)現(xiàn)數(shù)據(jù)問(wèn)題,從而針對(duì)性的提升數(shù)據(jù)質(zhì)量,達(dá)到數(shù)據(jù)應(yīng)用的標(biāo)準(zhǔn)。
3 車聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量評(píng)價(jià)方法
車聯(lián)網(wǎng)作為物聯(lián)網(wǎng)的重要分支,除了具備大數(shù)據(jù)一般特點(diǎn)以外,也具備自身的一些特征。車聯(lián)網(wǎng)數(shù)據(jù)源豐富,從采集設(shè)備上劃分,包括T-BOX、ADAS、行車記錄儀、車載信息娛樂(lè)系統(tǒng)以及其他車身傳感器等;從數(shù)據(jù)分類上劃分,包括操作數(shù)據(jù)、環(huán)境數(shù)據(jù)、道路交通數(shù)據(jù)等,從數(shù)據(jù)屬性上劃分,包括非結(jié)構(gòu)數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)以及半結(jié)構(gòu)化數(shù)據(jù);從分析方法上劃分,數(shù)據(jù)分析處理既要求離線批量處理,也要求實(shí)時(shí)流處理。
3.1 數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)
本文在GB/T 36344 數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)的基礎(chǔ)上,結(jié)合車聯(lián)網(wǎng)數(shù)據(jù)領(lǐng)域,總結(jié)如下評(píng)價(jià)指標(biāo):
3.2 數(shù)據(jù)質(zhì)量評(píng)價(jià)約束規(guī)則
結(jié)合車聯(lián)網(wǎng)采集數(shù)據(jù)特點(diǎn),舉例說(shuō)明如下約束規(guī)則:
3.3 數(shù)據(jù)質(zhì)量評(píng)價(jià)算法
根據(jù)業(yè)務(wù)需求,對(duì)數(shù)據(jù)集制定數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)以及約束規(guī)則,根據(jù)表3計(jì)算方法分別計(jì)算評(píng)價(jià)指標(biāo)得分,最終評(píng)價(jià)結(jié)果可以通過(guò)各個(gè)指標(biāo)得分的加權(quán)平均來(lái)計(jì)算。
4 數(shù)據(jù)質(zhì)量評(píng)價(jià)系統(tǒng)設(shè)計(jì)
4.1 功能模塊設(shè)計(jì)
數(shù)據(jù)質(zhì)量評(píng)價(jià)系統(tǒng)功能設(shè)計(jì)如圖1所示:
4.2 數(shù)據(jù)流設(shè)計(jì)
如圖2所示,定義功能之間數(shù)據(jù)流圖:
5 小結(jié)
本文針對(duì)目前國(guó)家法規(guī)在數(shù)據(jù)質(zhì)量治理領(lǐng)域提出的標(biāo)準(zhǔn)做了解讀和總結(jié),并在此基礎(chǔ)上結(jié)合車聯(lián)網(wǎng)數(shù)據(jù)特點(diǎn),總結(jié)了數(shù)據(jù)質(zhì)量評(píng)價(jià)的通用指標(biāo)和約束規(guī)則,并對(duì)車聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量評(píng)價(jià)系統(tǒng)進(jìn)行概要設(shè)計(jì),旨在對(duì)汽車生產(chǎn)及運(yùn)營(yíng)企業(yè)在實(shí)現(xiàn)企業(yè)數(shù)據(jù)治理以及車聯(lián)網(wǎng)大數(shù)據(jù)分析系統(tǒng)時(shí)起到一定借鑒作用。
參考文件:
[1]GBT 36073-2018,數(shù)據(jù)管理能力成熟度評(píng)估模型[S].北京:中國(guó)國(guó)家標(biāo)準(zhǔn)化管理委員會(huì),2018.
[2]GB/T 36344-2018,信息技術(shù) 數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)[S].北京:中國(guó)國(guó)家標(biāo)準(zhǔn)化管理委員會(huì),2018.
[3]袁滿,張雪.一種基于規(guī)則的數(shù)據(jù)質(zhì)量評(píng)價(jià)模型[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013.
[4]楊青云,趙培英,楊冬青等.數(shù)據(jù)質(zhì)量評(píng)估方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2004.
作者簡(jiǎn)介:關(guān)利海(1985-),男,錫伯族,遼寧沈陽(yáng)人,碩士,中級(jí)工程師,研究方向:ADAS及智能網(wǎng)聯(lián)。