本刊記者/朱琨
動態(tài)知識圖譜是串聯(lián)現(xiàn)實世界和數(shù)據(jù)世界的核心,在發(fā)展動態(tài)知識圖譜的過程中,百分點提出機器智能+人腦智慧這一概念,并利用這一概念來解決動態(tài)知識圖譜中海量的數(shù)據(jù)挖掘和復雜業(yè)務的識別等問題。
信息技術(shù)發(fā)展的腳步已逐漸加快,單一的技術(shù)及靜態(tài)的數(shù)據(jù)已無法滿足業(yè)務的發(fā)展需求,所以人們更加注重融合技術(shù)和動態(tài)數(shù)據(jù)的處理和運用。因此,需要在動態(tài)數(shù)據(jù)中進行信息的挖掘和分析,將碎片化的數(shù)據(jù)進行串聯(lián),從中獲取并轉(zhuǎn)化為對企業(yè)有價值的知識,最終來提升企業(yè)的商業(yè)決策能力和業(yè)務效率。這一需求就促使了知識圖譜這一融合技術(shù)向各領(lǐng)域的應用場景進行延伸。
北京百分點信息科技有限公司(以下簡稱百分點),作為國內(nèi)領(lǐng)先的大數(shù)據(jù)和人工智能技術(shù)和產(chǎn)品提供商,自2009年成立至今,一直專注于大數(shù)據(jù)操作系統(tǒng)和智能認知產(chǎn)品以及智能決策應用場景的搭建,走在行業(yè)的前沿。為了滿足企業(yè)客戶數(shù)字化轉(zhuǎn)型的核心需求,在2014年,百分點推出了知識圖譜產(chǎn)品,緊接著在2015年推出知識圖譜引擎,成為國內(nèi)最早將知識圖譜應用于行業(yè)業(yè)務的企業(yè)之一,目前在媒體出版、公共安全、金融、電商等行業(yè)都構(gòu)建了對應的知識圖譜,構(gòu)建出了行業(yè)最大的行業(yè)知識圖譜庫,實體數(shù)達到數(shù)千萬的量級,關(guān)系數(shù)達到幾十億的量級。
據(jù)百分點高級研發(fā)總監(jiān)黃偉介紹,在2015年開始百分點便深耕公共安全領(lǐng)域,并在落地實際業(yè)務場景中發(fā)現(xiàn),對單一人物的刻畫無法形成完善的公共安全解決方案,而更加注重人與人之間的關(guān)系。因此,百分點將人物標簽系統(tǒng)進行了升級,增加了事件、關(guān)系等維度,從而形成行業(yè)知識圖譜庫。以此為基礎,百分點研發(fā)創(chuàng)新了一項領(lǐng)先的知識抽取和知識融合技術(shù),通過“機器智能+人腦智慧”,將現(xiàn)實世界中的“人、物、組織、時空、虛擬標識”映射到數(shù)字世界中,自動構(gòu)建他們之間的關(guān)聯(lián)關(guān)系,支撐用戶展開分析和智能決策,這就是百分點的動態(tài)知識圖譜技術(shù)。
“百分點動態(tài)知識圖譜技術(shù)中很重要一點,就是當新的數(shù)據(jù)源進來,可以動態(tài)調(diào)整本體模型,使得知識圖譜引擎保持正常、穩(wěn)定的運轉(zhuǎn)?!秉S偉指出。
百分點自成立之初就著力發(fā)展人工智能技術(shù),采用了大量的機器學習技術(shù)來優(yōu)化個性化推薦效果。黃偉認為:“打造個性化服務,重要的是通過分析個體行為從而理解并預測個體的需求。比如在電商領(lǐng)域,對商品信息及個體對商品的行為信息進行分析,以達到更好的推薦效果?!?/p>
同時,黃偉提出,若要采用機器學習技術(shù)對數(shù)據(jù)進行分析,應當滿足兩個先決條件。第一,企業(yè)有明確的業(yè)務優(yōu)化目標;第二,企業(yè)有支持優(yōu)化的數(shù)據(jù)基礎,這個數(shù)據(jù)基礎除了高價值密度的結(jié)構(gòu)化數(shù)據(jù)外,低價值密度但體量巨大的非結(jié)構(gòu)化數(shù)據(jù)同樣重要,包括文本、語音、圖像、視頻等。而傳統(tǒng)的技術(shù)無法對非結(jié)構(gòu)化數(shù)據(jù)進行有效的處理,所以百分點使用機器學習技術(shù)來訓練模型,讓機器自動對海量非結(jié)構(gòu)化數(shù)據(jù)進行處理,最終使機器學習能夠?qū)⒎墙Y(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),而這一做法也使百分點逐漸擴寬了人工智能的應用范圍。
黃偉補充道:“在百分點的發(fā)展初期,就率先嘗試利用機器學習以及NLP技術(shù),提高推薦效果,隨著業(yè)務技術(shù)的發(fā)展,NLP逐漸向知識圖譜技術(shù)延伸,有了目前的動態(tài)知識圖譜技術(shù),使得百分點可以快速構(gòu)建行業(yè)知識圖譜,輔助行業(yè)智能決策?!?/p>
動態(tài)知識圖譜是串聯(lián)現(xiàn)實世界和數(shù)據(jù)世界的核心,在發(fā)展動態(tài)知識圖譜的過程中,百分點提出機器智能+人腦智慧這一概念,并利用這一概念來解決動態(tài)知識圖譜中海量的數(shù)據(jù)挖掘和復雜業(yè)務的識別等問題。但是百分點是如何解決機器智能+人腦智慧所涉及的機器與人腦互相協(xié)調(diào)問題的呢?
在公共安全領(lǐng)域,動態(tài)知識圖譜的應用十分廣泛。黃偉認為,雖然人工智能技術(shù)日漸強大和成熟,但是目前在人工智能水平還遠沒有到能夠替代人工的狀況下,我們提出機器智能+人工智慧相結(jié)合的方式,以機器+人腦提效為目標,更好地解決公共安全行業(yè)的業(yè)務問題。
目前,動態(tài)知識圖譜的模型大致分為兩類:預知模型和場景模型。那么,如何將這兩類模型更好地融入到動態(tài)知識圖譜的技術(shù)中,也成為了百分點所要考慮的問題。
黃偉介紹:“對于預知模型而言,它需要依靠行業(yè)業(yè)務的發(fā)展方向,并吸納新型業(yè)務與技術(shù)進行搭建,所以預知模型需要在行業(yè)中不斷進行積累才可以逐步完善。針對預知模型的這一特性,百分點將動態(tài)知識譜圖所涉及的所有數(shù)據(jù)進行整合,通過不同的應用場景建立不同的模型,逐一添加到預知模型所涉及的應用場景中,同時將預知模型作用到BI平臺上?!?/p>
百分點歷經(jīng)十年的發(fā)展,儼然是中國大數(shù)據(jù)和人工智能企業(yè)的縮影。在近些年中,百分點依靠自身獨特的技術(shù)及人工智能場景應用能力,成為了大數(shù)據(jù)和人工智能領(lǐng)域的獨角獸。百分點將2B作為自身商業(yè)模式的主戰(zhàn)場,但是無論是國內(nèi)或是海外的業(yè)務拓展,百分點更多的體現(xiàn)了一個“蹚”字。百分點認為,若要打造2B市場,就要非常重視場景落地的技術(shù)和經(jīng)驗。
“所以,百分點在服務于任何一家傳統(tǒng)企業(yè)時,都將客戶的事當做自己的事來做,而不是一錘子買賣?!痹谶@一點上,黃偉的體會尤其深刻,百分點一直致力于利用技術(shù)和產(chǎn)品來解決客戶的實際問題。在近些年中,百分點在國內(nèi)外市場雙輪驅(qū)動下,大量擁抱商業(yè)化和場景化的落地模式,并依靠全棧的大數(shù)據(jù)+AI技術(shù)產(chǎn)品和場景化應用能力,服務了眾多行業(yè)的上萬家客戶。
訪談實錄
Q:中國大數(shù)據(jù)產(chǎn)業(yè)生態(tài)聯(lián)盟、《軟件和集成電路》雜志社
A:北京百分點信息科技有限公司高級研發(fā)總監(jiān)黃偉
Q:動態(tài)知識圖譜的價值體現(xiàn)在哪些方面?
A:動態(tài)知識圖譜是一個偏底層的技術(shù),我們在開發(fā)動態(tài)知識圖譜時,經(jīng)歷了非常漫長的迭代過程。所以我們在開發(fā)動態(tài)知識圖譜的過程當中,對該項技術(shù)進行了權(quán)衡,我們要考慮的是,我們開發(fā)的動態(tài)知識圖譜技術(shù)能為客戶帶來哪些價值?
第一,我們所提倡的是靈活性,客戶積累的任何數(shù)據(jù),都能進行對接??蓜討B(tài)修改數(shù)據(jù)拉通規(guī)則和融合配置,整個過程是實時的,無需重啟系統(tǒng),無需重新導入數(shù)據(jù)。
第二,實現(xiàn)對任意不同領(lǐng)域進行建模,對同一領(lǐng)域可應用多種不同的建模方式,數(shù)據(jù)模型可動態(tài)擴展和調(diào)整,最終保證該項技術(shù)可以快速部署到任何場景中,可到現(xiàn)場幫助客戶直接安裝。
第三,基于動態(tài)知識圖譜和行業(yè)業(yè)務模型,具備自優(yōu)化和自適應能力,實現(xiàn)知識進化,優(yōu)化更新知識表示,支持復雜業(yè)務問題的自動識別。構(gòu)建面向任何問題域的知識圖譜,幫助企業(yè)實現(xiàn)智能決策。
Q:百分點動態(tài)知識圖譜的核心是什么?
A:動態(tài)知識圖譜的核心是:知識圖譜+動態(tài)本體。知識圖譜實現(xiàn)數(shù)據(jù)到知識的升華。運用知識圖譜將數(shù)據(jù)聚合到一起,大幅提升單數(shù)據(jù)源能夠發(fā)揮的價值。動態(tài)本體實現(xiàn)新增數(shù)據(jù)源的問題。接入新的數(shù)據(jù)源不影響已有圖譜的線上使用,更改融合規(guī)則數(shù)據(jù)上實時體現(xiàn)。
Q:動態(tài)數(shù)據(jù)融合的規(guī)則有哪些?如何將規(guī)則變成現(xiàn)實?
A:數(shù)據(jù)融合的規(guī)則都是業(yè)務人員在產(chǎn)品中設置的規(guī)則,當不同源的信息發(fā)生沖突時,需要規(guī)則中指定信息權(quán)重來動態(tài)改變?nèi)诤辖Y(jié)果。融合規(guī)則的改變對數(shù)據(jù)融合結(jié)果是實時體現(xiàn)的。
Q:百分點的動態(tài)知識圖譜可以自動構(gòu)建實體與時空映射的關(guān)系,如何做到“動態(tài)”?
A:動態(tài)知識圖譜的“動態(tài)”有兩層含義。第一,動態(tài)本體。通俗來說,數(shù)據(jù)的語言其實就是方案,我們在打造本體方案的過程中,必須更加了解人認識現(xiàn)實世界的方式,這是邏輯概念。第二,動態(tài)實例,真實的世界是時刻變化的,反映真實世界的圖譜亦是動態(tài)變化的,所有對象具有很強時間屬性。
Q:如何解決海量數(shù)據(jù)的存儲與分析的難題?
A:處理海量數(shù)據(jù),需要運用大數(shù)據(jù)分布式存儲和計算框架來做底層支撐。從對內(nèi)容分析的角度上看有兩大類難題。
這就是沂蒙兒女。他們雖然沒有部隊編號,沒有軍功章,手中的“武器”只是擔架、獨輪車、紡車、鏊子……但他們卻為新中國的成立做出了不可磨滅的貢獻。
第一部分:對結(jié)構(gòu)化數(shù)據(jù)的處理。在安全行業(yè)中結(jié)構(gòu)化數(shù)據(jù)有很多種,這些結(jié)構(gòu)化數(shù)據(jù)一般是高價值、高密度的數(shù)據(jù)。
如何快速地把不同種類的結(jié)構(gòu)化數(shù)據(jù)進行融合,并且能支持未來新增融合數(shù)據(jù)源,這確實給我們帶來了很多挑戰(zhàn),在找尋到解決方法后,也整合到了動態(tài)知識圖譜的底層技術(shù)中去。
第二部分:對非結(jié)構(gòu)化數(shù)據(jù)的處理?;ヂ?lián)網(wǎng)上存在著大量的信息,絕大部分都是非結(jié)構(gòu)化數(shù)據(jù)。如何把非結(jié)構(gòu)化數(shù)據(jù)進行整理,最終使非結(jié)構(gòu)化數(shù)據(jù)產(chǎn)生更多的知識, 并找到細微的知識聚合在一起作用到業(yè)務中,這也是我們一直在重點解決的問題。
行業(yè)應用案例
案例名稱:AI技術(shù)助力山東某市構(gòu)建新型治安防控網(wǎng)絡
核心特點:百分點DeepFi nder高效整合集成了當?shù)亟兕悢?shù)據(jù)資源、幾十億條數(shù)據(jù),并依托“動態(tài)知識圖譜”技術(shù),對每天新增千萬條數(shù)據(jù)進行動態(tài)融合,實現(xiàn)對公安全要素數(shù)據(jù)高效整合和治理,通過對實時數(shù)據(jù)流計算,主動發(fā)現(xiàn)、識別個人和群體行為的異常,并根據(jù)風險預警模型分級預警,指導轄區(qū)警務部門及時調(diào)整警力資源部署,將風險隱患消除化解在萌芽狀態(tài),有效降低警力人工支出,解放警力資源,提升公安工作大數(shù)據(jù)應用與分析研判能力,實現(xiàn)智能決策。
圖 “數(shù)據(jù)雙胞胎”的核心:動態(tài)知識圖譜
隨著基礎設施建設不斷完善和各類數(shù)據(jù)不斷增長,從海量多源異構(gòu)的數(shù)據(jù)中進行價值信息的獲取,還停留在利用經(jīng)驗積累進行人工分析的階段,龐大的數(shù)據(jù)量對公安機關(guān)案件破獲帶來困難。對各類風險隱患的敏銳感知、精確預警,可有效遏制犯罪行為的發(fā)生,提升人民群眾安全感。
上合峰會期間,百分點為峰會重點樞紐區(qū)域的警務部門,提供大數(shù)據(jù)挖掘分析技術(shù)和智能安全分析平臺。實現(xiàn)對可疑人員、可疑車輛、風險隱患的智能識別、動態(tài)軌跡追蹤和精確預警。構(gòu)建新型社會治安防控網(wǎng)絡,全面感知公共安全態(tài)勢,實現(xiàn)對各類潛在風險隱患的主動預測預警預防,防患于未然。
應用價值:
1.AI技術(shù)構(gòu)建新型社會治安防控網(wǎng)絡
幫助公安機關(guān)運用大數(shù)據(jù)技術(shù)對潛在風險隱患智能識別、動態(tài)軌跡追蹤和準確預警,構(gòu)建新型社會治安防控網(wǎng)絡,全面感知公共安全態(tài)勢,實現(xiàn)對各類風險隱患的敏銳感知、精確預警。幫助公安機關(guān)實現(xiàn)以數(shù)據(jù)為關(guān)鍵要素的數(shù)字偵查。
2.推進國家治理體系和治理能力現(xiàn)代化
通過對公安全要素數(shù)據(jù)高效整合和深度治理,不斷增強對各類治安要素的掌控度,運用數(shù)據(jù)分析模型,關(guān)聯(lián)發(fā)掘重大熱點難點問題,提高對各類社會矛盾的發(fā)現(xiàn)預警能力,及時排除、預警各類矛盾風險,推動從依靠直覺與經(jīng)驗決策向依靠大數(shù)據(jù)決策轉(zhuǎn)變,從而維護群眾的生命財產(chǎn)和公共安全,形成有效的社會治理、良好的社會秩序,幫助提升社會治理和管理水平,推進國家治理體系和治理能力