文_蘇 萌
數(shù)據(jù)智能是綜合的數(shù)字體系,靠單點(diǎn)的技術(shù)和單款產(chǎn)品很難實(shí)現(xiàn)目的,所以數(shù)據(jù)智能包括綜合技術(shù)體系以及智能應(yīng)用體系兩個方面。其中,綜合技術(shù)體系融合了大數(shù)據(jù)、人工智能、云計(jì)算、物聯(lián)網(wǎng)等多種技術(shù),應(yīng)用于數(shù)據(jù)處理、分析、決策;智能應(yīng)用體系連接物理世界與數(shù)字世界,核心包括人機(jī)智能交互、自動化知識構(gòu)建和服務(wù),以及機(jī)器輔助決策等應(yīng)用。
數(shù)據(jù)智能未來的演進(jìn)趨勢有以下三點(diǎn):一是技術(shù)融合,包括新一代的信息技術(shù)和未來的信息技術(shù)的融合;二是數(shù)據(jù)融合,包括第三方合作伙伴的數(shù)據(jù)以及更多的物聯(lián)網(wǎng)數(shù)據(jù),目前很多業(yè)務(wù)里面開始有傳感器數(shù)據(jù)、地下數(shù)據(jù)、地上數(shù)據(jù),我們正在做的生態(tài)數(shù)據(jù)里還包含衛(wèi)星數(shù)據(jù);三是場景融合,單個場景很難解決問題,我們用流程、分析、洞察、決策來深入數(shù)據(jù)智能體系。技術(shù)融合、數(shù)據(jù)融合和場景融合,形成數(shù)據(jù)智能的三個特點(diǎn)。一是實(shí)時性,越來越多的實(shí)時數(shù)據(jù)流入進(jìn)來;二是交互性,包括可視化、可操作、可探索、自然交互,讓機(jī)器識別我們?nèi)祟惖恼Z言,再翻譯成自然語言;三是自主性,可形成感知、認(rèn)知和決策。數(shù)據(jù)智能最終可服務(wù)于社會治理、企業(yè)提效和便民惠民服務(wù)。
基于數(shù)據(jù)智能的發(fā)展和演化特點(diǎn),形成了百分點(diǎn)的數(shù)據(jù)智能中臺架構(gòu)。數(shù)據(jù)智能中臺的核心理念包括四個方向,快速響應(yīng)前臺業(yè)務(wù)需求、沉淀數(shù)據(jù)資產(chǎn)、聚合服務(wù)能力、跨領(lǐng)域快速創(chuàng)新。其中最核心的是連接前臺后臺、快速響應(yīng)前臺需求,從而滿足不同業(yè)態(tài)、不同業(yè)務(wù)模式場景下的個性化需求,滿足業(yè)務(wù)快速變化的迭代需求。
數(shù)據(jù)中臺是一站式的智能數(shù)據(jù)管理體系,核心是為了幫助企業(yè)做到業(yè)務(wù)數(shù)據(jù)化,把數(shù)據(jù)做到資產(chǎn)化,然后資產(chǎn)再運(yùn)營化。包括大數(shù)據(jù)底層平臺、數(shù)據(jù)資產(chǎn)管理平臺、統(tǒng)一標(biāo)準(zhǔn)體系。我們把所有技術(shù)組建化、產(chǎn)品化,再用標(biāo)準(zhǔn)化的產(chǎn)品來滿足我們所服務(wù)的一萬家客戶的碎片需求,從而形成我們的競爭積累和規(guī)?;膬?yōu)勢。
我們做了一套自己的方法論體系,包括五大體系和20道工序,數(shù)據(jù)匯聚、數(shù)據(jù)治理、數(shù)據(jù)處理、數(shù)據(jù)服務(wù)、數(shù)據(jù)分析,通過精細(xì)化分工和流程化的管理,形成非常高的效率?,F(xiàn)在部署一套海外國家級的平臺,可能幾個人大概一到兩周時間就可以部署完,而之前需要幾個月,甚至半年的時間才能做到。
數(shù)據(jù)中臺和AI中臺是整個數(shù)據(jù)智能的一體兩翼。從AI中臺來說,目前百分點(diǎn)構(gòu)建了AI能力引擎,包括人臉識別、機(jī)器翻譯、語音識別。我們也建立了AI開發(fā)平臺,以大數(shù)據(jù)為主要生產(chǎn)要素,構(gòu)建AI能力,同時基于行業(yè)知識庫,構(gòu)建智能標(biāo)簽和行業(yè)知識圖譜。
AI能力最核心的一個技術(shù)是NLP(自然語言處理),在自然語言處理領(lǐng)域,核心是讓機(jī)器讀懂人類。我們現(xiàn)在用深度學(xué)習(xí)的算法來提高自然語言處理的效率。第二個核心技術(shù)是動態(tài)知識圖譜技術(shù),讓機(jī)器做知識的提取、知識的融合,同時形成知識圖譜,最后通過人機(jī)交互,把知識通過機(jī)器傳承出來。一個老師把知識傳承給學(xué)生需要幾年的時間,而機(jī)器非??臁Mㄟ^構(gòu)建專有領(lǐng)域的知識圖譜,把技術(shù)化的數(shù)據(jù)轉(zhuǎn)變成業(yè)務(wù)知識,再形成業(yè)務(wù)知識的對外服務(wù)和支持。
通過這些技術(shù)的綜合應(yīng)用,實(shí)現(xiàn)多維度、交互式、可視化分析挖掘,讓技術(shù)人人可用,不需要黑盒子編程就可以海量處理不同時間空間的大數(shù)據(jù)。我們在濱江開發(fā)區(qū)的研發(fā)團(tuán)隊(duì)研發(fā)了智能分析引擎,國內(nèi)很多頂尖企業(yè)都在使用我們的產(chǎn)品。其中包括智能圖表一鍵式推薦、智能問答、智能建議、智能挖掘,深度融合了BI,又結(jié)合了AI交互式的引擎。
另一個應(yīng)用成果是智能校對,用AI來實(shí)現(xiàn)政治實(shí)體識別、敏感實(shí)體識別,讓傳統(tǒng)的校對分工更加高效,輔助內(nèi)容創(chuàng)作者更有效地發(fā)現(xiàn)問題,提升校對質(zhì)量和審稿效率。
最后分享兩個案例。今年兩會期間,我們分別用了一個月時間幫助新華社構(gòu)建了兩會專題庫和習(xí)總書記出訪專題庫,實(shí)現(xiàn)了媒體智能采編發(fā)效率的大幅度提高,形成快速構(gòu)建知識分發(fā)的體系。另外一個案例是南方報業(yè)集團(tuán),通過AI的能力以及機(jī)器翻譯、智能識別、自然語言處理賦能,從而形成快速構(gòu)建工具的能力。
(摘自蘇萌在2020中國[杭州]傳媒技術(shù)生態(tài)高峰論壇上的主題演講)