王建民
制造業(yè)變了,信息技帶來(lái)了產(chǎn)品的革命,產(chǎn)品升級(jí)是全球制造業(yè)發(fā)展的必由之路。制造不僅僅看一個(gè)產(chǎn)品,更要看整個(gè)產(chǎn)品的運(yùn)營(yíng)生態(tài),并且是跨界的,開始就是一個(gè)拖拉機(jī),后來(lái)帶上天線,最后要和天氣的數(shù)據(jù)、種子的數(shù)據(jù)、農(nóng)業(yè)灌溉的數(shù)據(jù)聯(lián)系起來(lái),這才是現(xiàn)代農(nóng)業(yè),也是現(xiàn)代的工業(yè)、現(xiàn)代的服務(wù)業(yè),現(xiàn)代工業(yè)革命已經(jīng)模糊了第一、二、三產(chǎn)業(yè)。
工業(yè)數(shù)字化轉(zhuǎn)型
這個(gè)時(shí)候制造業(yè)出現(xiàn)一個(gè)剪刀的曲線,物質(zhì)產(chǎn)品的市場(chǎng)容量一定是有限的。出路在哪里?創(chuàng)新,并把老的產(chǎn)品用好,做服務(wù),并在做服務(wù)的過(guò)程當(dāng)中再去創(chuàng)新,就是這樣的一個(gè)過(guò)程。建設(shè)工業(yè)互聯(lián)網(wǎng),重要的方面是升級(jí),5G、AloT都是要把產(chǎn)品進(jìn)行升級(jí),另外需要更多的產(chǎn)業(yè)形態(tài),做知識(shí)的傳播與分享,這也是在助力制造業(yè),也是在做制造業(yè)服務(wù)。
工業(yè)數(shù)字化轉(zhuǎn)型核心目標(biāo)是人和機(jī)器之間的有效融合,是人和社會(huì)、人和機(jī)器和諧的共存。人有時(shí)要被客體化,是一個(gè)很悲慘的事。一方面裝備要擬人化,另一方面人會(huì)被客體化為裝備,都在工業(yè)生產(chǎn)發(fā)展的進(jìn)程中。這是好還是壞呢?我認(rèn)為這一趨勢(shì)不可阻擋,沒(méi)有選擇。這個(gè)過(guò)程當(dāng)中最高境界還是人機(jī)融合,操作機(jī)器的時(shí)候讓機(jī)器懂人,被機(jī)器服務(wù)的時(shí)候也希望機(jī)器懂人,真正的AloT里有機(jī)器AI,還有“人的AI”在里面。
工業(yè)大數(shù)據(jù)和別的大數(shù)據(jù)有什么區(qū)別?有觀點(diǎn)指出,工業(yè)大數(shù)據(jù)一定要和物理的對(duì)象結(jié)合,這是工業(yè)里最核心的要素。工業(yè)里有巨大的學(xué)問(wèn),這種學(xué)問(wèn)有很多是領(lǐng)域知識(shí),所以近200年工業(yè)文明發(fā)展造就了現(xiàn)代社會(huì),如果離開了這個(gè),“互聯(lián)網(wǎng)的上半場(chǎng),產(chǎn)業(yè)物聯(lián)網(wǎng)的下半場(chǎng)”,就沒(méi)有太大的區(qū)別了。
大數(shù)據(jù)軟件技術(shù)
大數(shù)據(jù)的一個(gè)含義是大數(shù)據(jù)集,這是采集下來(lái)的,物化出來(lái)的0和1的資產(chǎn)。另外一個(gè)含義是用大數(shù)據(jù)解決問(wèn)題,就是大數(shù)據(jù)應(yīng)用,數(shù)據(jù)解決各行各業(yè)的問(wèn)題并創(chuàng)造價(jià)值。再看大數(shù)據(jù)軟件,大數(shù)據(jù)開源軟件供給側(cè)很豐富。問(wèn)題是這么多的東西無(wú)非解決的都是簡(jiǎn)單的問(wèn)題,采集;然后抽取清洗、標(biāo)注;再集成聚合;關(guān)鍵是分析建模,最后把結(jié)果解釋應(yīng)用。這五個(gè)步驟里面挑戰(zhàn)是什么,有異構(gòu)的挑戰(zhàn)、規(guī)模的挑戰(zhàn)、處理時(shí)效性的挑戰(zhàn)、隱私方面的挑戰(zhàn),還有人機(jī)互動(dòng)協(xié)同的挑戰(zhàn)。如果經(jīng)過(guò)這五步就把問(wèn)題解決了就太幸運(yùn)了,大數(shù)據(jù)就變得太簡(jiǎn)單了。
實(shí)際情況不是這樣的,而是循環(huán)的,有時(shí)很難走出這個(gè)循環(huán),要解決問(wèn)題要去找現(xiàn)有數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行理解。在這個(gè)時(shí)候可能就是好多個(gè)循環(huán),常常是能夠用來(lái)解決業(yè)務(wù)問(wèn)題的數(shù)據(jù)非常匱乏,企業(yè)有很多數(shù)據(jù),但是缺乏能夠用來(lái)解決問(wèn)題的數(shù)據(jù)集。其實(shí)在企業(yè)做大數(shù)據(jù)項(xiàng)目的時(shí)候,特別是工業(yè)企業(yè)選題就是個(gè)難題,好的選題是成功的一半,往往找不到好的選題。當(dāng)然好多人可能沒(méi)有做業(yè)務(wù)理解和數(shù)據(jù)理解這個(gè)循環(huán)就直接下去了,結(jié)果風(fēng)險(xiǎn)就很大。
選題大概差不多靠譜后,就做數(shù)據(jù)的建模?,F(xiàn)在所謂的機(jī)器學(xué)習(xí)有一個(gè)很強(qiáng)的假設(shè)是,訓(xùn)練集和應(yīng)用場(chǎng)景是匹配的,也就是獨(dú)立同分布的,但如果這個(gè)假設(shè)不成立,那模型預(yù)測(cè)就是不可信的。因?yàn)榇髷?shù)據(jù)面對(duì)未來(lái)的事情做預(yù)測(cè),未來(lái)的數(shù)據(jù)是不是符合獨(dú)立同分布的要求?所以要做模型的評(píng)估,如果運(yùn)氣很好,分析模型很幸運(yùn)地上線了,那是最好的方案,恭喜你就走出這個(gè)泥潭了。往往學(xué)習(xí)出來(lái)的結(jié)果和工業(yè)現(xiàn)場(chǎng)要求不相符,比如想看看計(jì)算機(jī)主板焊點(diǎn)的質(zhì)量,人工檢測(cè)都已經(jīng)達(dá)到99.99%了,如果你的AI方案達(dá)到99.98%,雖然已經(jīng)到小數(shù)點(diǎn)后的第三位了,但是不行,工業(yè)應(yīng)用場(chǎng)景要求遠(yuǎn)遠(yuǎn)大于互聯(lián)網(wǎng)的精度要求。為什么谷歌推薦能夠賺那么多的錢,PV轉(zhuǎn)化率只有千分之二十,但是這在行業(yè)里就很厲害了。如果在工業(yè)應(yīng)用中準(zhǔn)確率只有千分之二十,老板不會(huì)買賬。因?yàn)楣I(yè)場(chǎng)景對(duì)數(shù)據(jù)分析的結(jié)果要求高。
怎樣構(gòu)建數(shù)據(jù)系統(tǒng)
大數(shù)據(jù)的應(yīng)用系統(tǒng)本質(zhì)特征是個(gè)性化,打個(gè)比方就是每個(gè)大數(shù)據(jù)應(yīng)用都是在不斷裝修改造的別墅。在你們家用的別墅給別人家用就不適合了,個(gè)性化是核心,怎么樣個(gè)性化,這是在方法論層面討論的問(wèn)題。NIST有一個(gè)標(biāo)準(zhǔn),認(rèn)為大數(shù)據(jù)系統(tǒng)應(yīng)該下面是一個(gè)技術(shù)棧,上面是數(shù)據(jù)的生命周期,重要的在上面有一個(gè)System Orchestrator,Orchestrator太普通了,但是他在大數(shù)據(jù)里面有新的含義。大數(shù)據(jù)系統(tǒng)軟件國(guó)家工程實(shí)驗(yàn)室聚焦以下問(wèn)題:有沒(méi)有一個(gè)大數(shù)據(jù)軟件科學(xué)理論,有沒(méi)有一個(gè)大數(shù)據(jù)系統(tǒng)開發(fā)的軟件工程方法,是否有開發(fā)運(yùn)行平臺(tái)與工具支撐,核心是提高大數(shù)據(jù)軟件構(gòu)造的生產(chǎn)效率。
今天的制造業(yè)發(fā)生著工藝與工具的革命,將來(lái)的軟件生產(chǎn)一定不是今天的“碼農(nóng)”,一部分用java、C或其他的開發(fā)語(yǔ)言,另一方面低代碼開發(fā)等未來(lái)的軟件生成邏輯,將改變大數(shù)據(jù)系統(tǒng)構(gòu)造方式。所以我們?cè)O(shè)計(jì)了一個(gè)清華數(shù)為的可自由組裝的大數(shù)據(jù)軟件棧。這里面有自己核心的功能,核心的構(gòu)件,IoTDB、XLearn、DQuality等都是我們自己研發(fā)的。再一個(gè)清華數(shù)為框架(DWF)非常重要,就是一個(gè)大數(shù)據(jù)系統(tǒng)構(gòu)造軟件框架,一方面它是低代碼信息化開發(fā)環(huán)境,另一方面它是大數(shù)據(jù)軟構(gòu)件集成的交互總線、控制總線和數(shù)據(jù)總線。如果大數(shù)據(jù)軟件生態(tài)里頭就是老虎、獅子、大象,需要一個(gè)訓(xùn)獸師,每一個(gè)節(jié)目需要有一個(gè)人去協(xié)調(diào)它,這就是清華數(shù)為框架。
工業(yè)大數(shù)據(jù)其實(shí)要處理好三個(gè)關(guān)系,一個(gè)是數(shù)據(jù)的泉,一個(gè)是數(shù)據(jù)的庫(kù),再加上數(shù)據(jù)的湖。要把“泉”這件事情搞清楚了,數(shù)據(jù)泉就是AloT,或者把A去掉就是IoT,物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)是一個(gè)數(shù)據(jù)泉,一個(gè)爆發(fā)的產(chǎn)生數(shù)據(jù)的水龍頭,如果接不住水就跑了。所以今天講IoT得把他連進(jìn)來(lái),然后還得留下來(lái),所以數(shù)據(jù)的泉是一個(gè)重要的鮮活的數(shù)據(jù)來(lái)源,是一個(gè)實(shí)時(shí)的、在線的東西。數(shù)據(jù)的庫(kù)是信息化重要技術(shù),把人產(chǎn)生的數(shù)據(jù)放在庫(kù)里,把結(jié)構(gòu)化的數(shù)據(jù)放在庫(kù)里。好多企業(yè)說(shuō)現(xiàn)在在建數(shù)據(jù)湖,我認(rèn)為錯(cuò)了,數(shù)據(jù)湖不是你建的,是自然形成的。這些泉、庫(kù)都在你的企業(yè)里了,然后形成了數(shù)據(jù)的湖,數(shù)據(jù)的湖是需要治理的,才能夠把有用的數(shù)據(jù)“釣”出來(lái)?!叭?、庫(kù)、湖”,中間有一個(gè)數(shù)據(jù)中臺(tái)。
這個(gè)過(guò)程當(dāng)中DWF清華數(shù)為框架,一個(gè)作為大數(shù)據(jù)系統(tǒng)的協(xié)調(diào)器,把各個(gè)組件協(xié)調(diào)起來(lái),支持信息化應(yīng)用的低號(hào)碼量開發(fā),讓更多的業(yè)務(wù)人員可以用他來(lái)做數(shù)據(jù)的處理。還有一個(gè)解決數(shù)據(jù)泉的問(wèn)題,要把物聯(lián)網(wǎng)的應(yīng)用變成一個(gè)組態(tài)的軟件,把這些采集的數(shù)據(jù)收回來(lái)。低代碼做的就是軟件定制部署,特別是大數(shù)據(jù)的軟件不是一成不變的,總有新的需求,能不能有一個(gè)低代碼量的軟件開發(fā)的一種形式,能不能讓非軟件專業(yè)的人也能用,以適應(yīng)企業(yè)業(yè)務(wù)的頻繁變化。
數(shù)據(jù)的湖不是我們期望的,它是指根本沒(méi)有組織或者沒(méi)有被良好組織起來(lái)的一組數(shù)據(jù)集,是一種缺少秩序的東西,在這里面人只能像釣魚一樣“釣”出有用的數(shù)據(jù),這些里面有些地方是營(yíng)養(yǎng)不良的,甚至有些地方的數(shù)據(jù)是有毒的,怎么鑒別?怎么治理?看數(shù)據(jù)中臺(tái),中臺(tái)和后臺(tái)的關(guān)系不厘清,數(shù)據(jù)治理就是亂的。首先要把數(shù)據(jù)后臺(tái)能夠發(fā)揮出來(lái)的能力發(fā)揮到極致,實(shí)在不能滿足需要的時(shí)候,按需建數(shù)據(jù)中臺(tái),今天千萬(wàn)別上來(lái)就建一個(gè)很厚、很重的中臺(tái),將來(lái)可能需要去交學(xué)費(fèi)的。有一個(gè)案例,有一個(gè)頭盔,就是要把人集成在互聯(lián)網(wǎng)里面。一個(gè)維修工,戴著這個(gè)頭盔之后老板就知道他在怎么樣做維修,透過(guò)這個(gè)就知道在工業(yè)大數(shù)據(jù)里,要把傳統(tǒng)的信息化的數(shù)據(jù)拿進(jìn)來(lái),要把現(xiàn)在的物聯(lián)網(wǎng)的數(shù)據(jù)拿進(jìn)來(lái),還要把很多跨界的數(shù)據(jù)拿進(jìn)來(lái),然后用人工智能的辦法去理解它,這個(gè)頭盔上面就有行為識(shí)別。