謝俊杰 謝穎 梁照文
摘要:數(shù)據(jù)是數(shù)字時代“信息石油”,足以說明數(shù)據(jù)對于生活在互聯(lián)網(wǎng)時代人們的重要性。數(shù)據(jù),就是人們在日常生活、社會發(fā)展等過程中計算、觀察到的信息。數(shù)據(jù)思維則是利用數(shù)學(xué)作為工具,對具體的問題開展數(shù)據(jù)分析的思考過程。在計算機高速發(fā)展的現(xiàn)代,利用海量的數(shù)據(jù)來模擬多元化場景下的實際問題,從而選擇最佳的解決方案,可以運用到各行各業(yè),本文的應(yīng)用場景則是對進口產(chǎn)品質(zhì)量做趨勢預(yù)測。
關(guān)鍵詞:數(shù)據(jù) ?思維 ?趨勢預(yù)測
1.什么是數(shù)據(jù)思維
我們古人有云:“早晨下雨當(dāng)日晴,晚上下雨到天明”、“蜻蜓千百繞,不日雨來到”,這些都是古代勞動人民在日常生活中觀察自然氣象并加以總結(jié)得出的樸素結(jié)論,而本文所談的數(shù)據(jù)思維就是人們基于數(shù)學(xué)思想解決實際問題的一種思路。
在上文例舉的自然現(xiàn)象,需要人們用眼睛觀察后記錄總結(jié)。在信息化高度發(fā)達的現(xiàn)代,這些數(shù)據(jù)可以交由計算機來完成。但其實無論是人類還是電腦,都是通過觀察、分析數(shù)據(jù)從而得到某種規(guī)律,區(qū)別在于后者在前者的基礎(chǔ)上使用固式化的數(shù)學(xué)模式和算法來進行分析。例如圍棋自古有之,經(jīng)過人們不斷總結(jié)完善,世代傳承下已經(jīng)積累很多的“棋譜”。但人的大腦思維和記憶能力畢竟有限,雖然可以計算出非常多場景下對手的“套路”,但對于應(yīng)對極限數(shù)量等場景,計算機計算能力就被放大,甚至可以擊敗世界上最頂尖的棋手。
2.數(shù)據(jù)思維的應(yīng)用場景
得益于計算機對海量數(shù)據(jù)的處理能力,人們在社會發(fā)展和工業(yè)生產(chǎn)過程中也有可能實現(xiàn)精準(zhǔn)預(yù)測和有效管理。例如市場流通產(chǎn)品質(zhì)量風(fēng)險檢查布控管理。在最原始的風(fēng)險布控階段,由于缺乏真實數(shù)據(jù),管理者只能按照產(chǎn)品本身屬性特點來進行安全環(huán)保衛(wèi)生等要素來檢驗布控。隨著后續(xù)監(jiān)管中發(fā)現(xiàn)的問題數(shù)據(jù)源源不斷地充盈數(shù)據(jù)庫,管理層注意到不同的產(chǎn)品在檢查列表中體現(xiàn)的質(zhì)量趨勢也不盡相同,于是就將不同產(chǎn)品的檢查行為分成了不同的表單(檢查頻次、檢查內(nèi)容等)給到了一線執(zhí)法人員。進而,管理成會將表單劃分后的產(chǎn)品質(zhì)量數(shù)據(jù)信息收集起來,利用計算機的分析能力來預(yù)測產(chǎn)品質(zhì)量趨勢從而可以做到有針對性地對市場流通產(chǎn)品質(zhì)量風(fēng)險布控,這就是最基本的各管理部門使用的風(fēng)險布控系統(tǒng)的原型框架
3.如何使用數(shù)據(jù)思維對產(chǎn)品質(zhì)量趨勢進行預(yù)測
同樣的,在學(xué)科管理領(lǐng)域也可以使用數(shù)據(jù)思維來解決各類問題。比如,地級市的某類進口產(chǎn)品的質(zhì)量趨勢一般是無法直接應(yīng)用到整個此類進口產(chǎn)品上的,這個質(zhì)量趨勢僅適用于某個地域、某個時間段的情形,這是由于數(shù)據(jù)豐度的局限。但從數(shù)據(jù)思維的角度來考慮,可能預(yù)測者的數(shù)學(xué)模型和算法并非有問題,而只是缺乏其他地區(qū)產(chǎn)品的數(shù)據(jù)而已。由于海關(guān)總署本身的統(tǒng)計職責(zé),可以通過系統(tǒng)收集進口產(chǎn)品使用前的質(zhì)量數(shù)據(jù)。但對于產(chǎn)品其他生命周期中的質(zhì)量反饋,就需要依靠其他渠道。監(jiān)管部門可以通過線上反饋、爬蟲等手段收集和分析大量的產(chǎn)品使用中、多次返修使用、產(chǎn)品失效等階段的產(chǎn)品質(zhì)量數(shù)據(jù)。首先,這些海量數(shù)據(jù)會被全部保留在數(shù)據(jù)庫;然后,我們可以根據(jù)不同的質(zhì)量問題類別進行劃分;最后,即使采集的數(shù)據(jù)中存在不同級別的誤差,但也可以利用數(shù)據(jù)庫中大量數(shù)據(jù)的“投票”功能來選擇一個誤差較小的“質(zhì)量趨勢”1。在當(dāng)前階段,計算機理論上是可以基于數(shù)據(jù)來預(yù)測產(chǎn)品質(zhì)量問題的趨勢。
特別需要注意的是,我們在這里強調(diào)的是抓住產(chǎn)品質(zhì)量問題的相關(guān)性就能做出預(yù)測,并不意味著可以用相關(guān)性來推導(dǎo)因果關(guān)系,因為相關(guān)性和因果性之間并沒有必然關(guān)系。假設(shè)原因A和原因B都是問題C的結(jié)果,當(dāng)問題C出現(xiàn)時,原因A和B都會發(fā)生,所以看起來原因A和B是具有相關(guān)性的,但是這并不能說明原因A和B具有因果聯(lián)系。例如,某產(chǎn)品A進口數(shù)量越多,則某進口產(chǎn)品B標(biāo)簽不全的問題越多,從數(shù)據(jù)上看,這兩者是相關(guān)的,但是從常識來看,兩者之間的因果關(guān)系結(jié)論是極其不符合邏輯的。實際上,產(chǎn)品A進口數(shù)量增多是因為國家降低了入境稅率,而進口關(guān)稅降低同樣也使得產(chǎn)品B的數(shù)量增加而導(dǎo)致標(biāo)簽問題增多。但是,這個質(zhì)疑是否成立其實取決于我們的應(yīng)用。如果我們的應(yīng)用只是做預(yù)測,而不是探尋因果關(guān)系,那么可能不會有太大的問題:即我們不會為了對外通過發(fā)布警示通報、加大查驗率同時要求企業(yè)提高產(chǎn)品B的質(zhì)量,而去限制A的進口。我們只是通過觀察得到,今年A的進口數(shù)量比往年有所增加,那么如果其他因素沒有改變的話,那么可以預(yù)測出今年B的標(biāo)簽質(zhì)量會比往年要高。把上述兩個問題N次方化,如果用
xi=(i=0,1,2…,n)表示問題i出現(xiàn)的次數(shù),用y來表示等式的值,假設(shè)
y=k0*x0+k1*x1+…+kn*xn,(1)
其中,k0,k1,k2…kn是待定系數(shù),需要通過已知等式來確定。當(dāng)ki=(i=0,1,2…,n)得到之后,對于任意給出的n個數(shù),代入方程(1)即可求出其值。
值得注意的是,人的判斷和計算機的唯一的區(qū)別在于,人可以得到i并且分析“ki”這種質(zhì)量趨勢產(chǎn)生的原因,但是計算機雖然也能得到i值卻無法解釋ki這條“趨勢線”和外部因素之間的因果關(guān)系。
4.提高數(shù)據(jù)思維場景應(yīng)用的成功率
人們是根據(jù)一些相對少量的數(shù)據(jù)和參數(shù)較少的模式識別來記憶和搜索,而計算機則是通過大規(guī)模的數(shù)據(jù)、儲存和計算來處理的。計算機的優(yōu)勢之處在于有更強大的儲存和計算能力。所以在某些領(lǐng)域中,計算機能夠做得和人類差不多甚至超過人類的前提條件是,使用更加大量的數(shù)據(jù)和更高維的參數(shù)空間(式子1中的ki),來彌補計算機“智商”上的不足。因此,為了更好地利用計算機進行數(shù)據(jù)分析和預(yù)測,有兩個特別重要的因素:盡可能使用多的數(shù)據(jù),而不是抽樣數(shù)據(jù),同時使用更高維的參數(shù)空間。為什么要盡可能多的使用數(shù)據(jù)?雖然利用抽樣可以通過較少的數(shù)據(jù)和計算資源去獲取更多的信息,但采取隨機抽樣必然會存在信息損失,尤其是一些小概率事件在抽樣的過程中會被遺漏。隨著計算機計數(shù)的迅猛發(fā)展,計算處理能力已經(jīng)不是制約人們的瓶頸時,就可以使用全量數(shù)據(jù),這樣不僅可以很好的預(yù)測大概率事件,還能精確地預(yù)測小概率事件,從整體上提高決策的精準(zhǔn)度。
參考文獻:
[1]張平文.大數(shù)據(jù)建模方法[M].北京:高等教育出版社,2019,1:33