胡忠海 楊楠
(1.天津市西青區(qū)中等專業(yè)學(xué)校 天津市 300387 2.天津師范大學(xué)計算機(jī)與信息工程學(xué)院 天津市 300382)
隨著計算機(jī)技術(shù)的不斷進(jìn)步,全球的企業(yè)都在加速進(jìn)行數(shù)字化轉(zhuǎn)型,不僅僅是為了更加高效運(yùn)營,更主要是為了應(yīng)對市場需求,快速調(diào)整戰(zhàn)略部署,做出抉擇。特別是在針對網(wǎng)絡(luò)風(fēng)險治理與防控中,人工智能、數(shù)據(jù)挖掘等技術(shù)將作為最鋒利的武器來面對挑戰(zhàn)。
在這個互聯(lián)網(wǎng)自媒體的時代,存在形形色色的信息和價值觀念,互聯(lián)網(wǎng)一方面賦予了公眾參與社會管理、發(fā)揮輿論監(jiān)督的權(quán)利,另一方面也存在一些虛假的、有害的信息和錯誤的觀點(diǎn)也混淆其中,擾亂了網(wǎng)絡(luò)輿論的正常秩序,尤其對金融行業(yè)而言,有害的信息將會影響聲譽(yù),加大金融風(fēng)險。所以,必須加強(qiáng)對互聯(lián)網(wǎng)信息的有效管控,保證網(wǎng)絡(luò)環(huán)境的健康和諧。在國務(wù)院新聞辦公室5 月8 日舉行的新聞發(fā)布會指出,國家網(wǎng)信辦部署開展2021 年“清朗”系列專項(xiàng)行動,出“重拳”治理網(wǎng)絡(luò)亂象滋生蔓延,包括整治網(wǎng)上歷史虛無主義,治理算法濫用行為,打擊網(wǎng)絡(luò)水軍、流量造假、黑公關(guān),整治未成年人網(wǎng)絡(luò)環(huán)境,整治PUSH 彈窗新聞信息突出問題,規(guī)范網(wǎng)站賬號運(yùn)營,整治網(wǎng)上文娛及熱點(diǎn)排行亂象等[1]。
目前,大多數(shù)的風(fēng)險防控平臺都是針對特定的業(yè)務(wù)需求進(jìn)行邏輯處理的,沒有建立實(shí)時的、動態(tài)的、可更新的、可擴(kuò)展的智能化風(fēng)險防控體系。本文主要是通過渤海證券在網(wǎng)絡(luò)平臺上對相關(guān)新聞進(jìn)行分析,利用知識圖譜、復(fù)雜網(wǎng)絡(luò)、情感計算等技術(shù)處理,并就如何做好風(fēng)險防控展開研究。
知識圖譜官方詞條是指:Google 用于增強(qiáng)其搜索引擎功能的知識庫。本質(zhì)上, 知識圖譜旨在描述真實(shí)世界中存在的各種實(shí)體或概念及其關(guān)系,其構(gòu)成一張巨大的語義網(wǎng)絡(luò)圖,節(jié)點(diǎn)表示實(shí)體或概念,邊則由屬性或關(guān)系構(gòu)成。
知識圖譜普遍存在于各種行業(yè),包括醫(yī)療保健、金融和電子商務(wù)。在各自的領(lǐng)域中,它們被用于建模不同的生態(tài)系統(tǒng),例如患者及其醫(yī)療狀況、帳戶之間的金融交易以及客戶購買或返回的產(chǎn)品。它們表示微妙關(guān)系的能力提供了一個豐富的結(jié)構(gòu)來推理傳統(tǒng)使用的表或關(guān)系數(shù)據(jù)庫之外的數(shù)據(jù)。作為一種數(shù)據(jù)結(jié)構(gòu),知識圖譜可以很好地管理數(shù)據(jù)湖、數(shù)據(jù)倉庫和知識庫。一個著名的例子是WikiData,它作為維基百科的底層數(shù)據(jù)結(jié)構(gòu)。
知識圖譜經(jīng)常用于自然語言處理(NLP)應(yīng)用程序,目前,已經(jīng)有很多項(xiàng)目引入了知識圖譜的技術(shù),在搜索引擎方面,以谷歌的Google Search、微軟的Bing Search最為典型;在問答系統(tǒng)方面,國內(nèi)百度公司研發(fā)的小度機(jī)器人,天津聚問網(wǎng)絡(luò)技術(shù)服務(wù)中心開發(fā)的大型在線問答系統(tǒng)OASK 都采用了較多知識圖譜方面的知識,其旨在使用歷史數(shù)據(jù),為用戶提供良好的交互式體驗(yàn)。社交平臺facebook 也通過知識圖譜將人、地點(diǎn)、事情等聯(lián)系在一起,并以直觀的方式支持精確的自然語言查詢,知識圖譜會幫助用戶在龐大的社交網(wǎng)絡(luò)中,找到與自己最具相關(guān)性的人、照片、地點(diǎn)和興趣等。
由于知識圖譜的固有圖結(jié)構(gòu),即節(jié)點(diǎn)和鏈接,我們可以應(yīng)用常見的圖分析算法,例如節(jié)點(diǎn)/邊緣中心性,來學(xué)習(xí)和預(yù)測數(shù)據(jù)。因此,知識圖可以用于節(jié)點(diǎn)和邊緣分類或回歸。例如,使用KG 新聞文章來幫助建模和預(yù)測股票價格的變化。目前也在進(jìn)行知識圖譜上訓(xùn)練gnn的工作,例如知識圖譜補(bǔ)全和鏈路預(yù)測。
在知識圖譜的構(gòu)建中MediaWiki 是基于PHP+MySQL 環(huán)境的開源Wiki 系統(tǒng),作用于對知識的歸檔,構(gòu)建企業(yè)/個人知識庫。Semantic MediaWiki (SMW) 是一個免費(fèi)開源的 MediaWiki 擴(kuò)展,可以存儲和查詢 Wiki頁面的數(shù)據(jù),同時SMW 也是一個完全成熟的框架,結(jié)合了很多其他擴(kuò)展可以讓 Wiki 變成一個強(qiáng)大而且靈活的協(xié)作數(shù)據(jù)庫,所有在 SMW 中創(chuàng)建的數(shù)據(jù)可輕松通過語義網(wǎng)絡(luò)發(fā)布,允許其他系統(tǒng)無縫的訪問這些數(shù)據(jù)。
在風(fēng)險治理的研究中,采用海量的歷史數(shù)據(jù),根據(jù)不同用戶的使用習(xí)慣,自動進(jìn)行知識學(xué)習(xí),提升風(fēng)險感知能力和預(yù)警能力,也可以使用不同的社交平臺數(shù)據(jù),針對用戶構(gòu)建畫像,分析行為習(xí)慣,實(shí)現(xiàn)對網(wǎng)絡(luò)謠言的實(shí)時監(jiān)控。行業(yè)知識圖譜如圖1 所示。
圖1: 行業(yè)知識圖譜
復(fù)雜網(wǎng)絡(luò)的經(jīng)典定義, 是將具有自組織、自相似、吸引子、小世界、無標(biāo)度中部分或全部性質(zhì)的網(wǎng)絡(luò)稱為復(fù)雜網(wǎng)絡(luò)??茖W(xué)的發(fā)展與互聯(lián)網(wǎng)技術(shù)的發(fā)展,讓人類生活的世界中存在的各種系統(tǒng)網(wǎng)絡(luò)和信息網(wǎng)絡(luò)蘊(yùn)含的信息越來越多越來越復(fù)雜,如包括資金流動、價值信息的金融網(wǎng)絡(luò),包含著道路信息、交通設(shè)施的交通網(wǎng)絡(luò)等等。那么了解復(fù)雜網(wǎng)絡(luò),合理的運(yùn)用復(fù)雜網(wǎng)絡(luò),對獲取其中的有效信息以及其背后隱藏的更多的未知信息有著重大的意義。
復(fù)雜網(wǎng)絡(luò)是一種新型的用來研究大型復(fù)雜系統(tǒng)的理論工具,在自然界中存在的大量復(fù)雜系統(tǒng)都可以通過形形色色的網(wǎng)絡(luò)加以描述。一個典型的網(wǎng)絡(luò)是由許多節(jié)點(diǎn)與節(jié)點(diǎn)之間的邊組成,其中節(jié)點(diǎn)用來表示真實(shí)系統(tǒng)中不同的個體,而邊則用來表示個體間的關(guān)系,通常是兩個節(jié)點(diǎn)之間具有某種特定的關(guān)系則連一條邊,反之則不連邊,有邊相連的兩個節(jié)點(diǎn)在網(wǎng)絡(luò)中被看作是相鄰的[3]。例如,神經(jīng)系統(tǒng)可以看作大量神經(jīng)細(xì)胞通過神經(jīng)纖維相互連接形成的網(wǎng)絡(luò);計算機(jī)網(wǎng)絡(luò)可以看作是自主工作的計算機(jī)通過通信介質(zhì)如光纜、雙絞線、同軸電纜等相互連接形成的網(wǎng)絡(luò)。類似的還有電力網(wǎng)絡(luò)、社會關(guān)系網(wǎng)絡(luò)、交通網(wǎng)絡(luò)、調(diào)度網(wǎng)絡(luò)等等。
許多系統(tǒng)可以是抽象的,并由復(fù)雜網(wǎng)絡(luò)表示,包括自然系統(tǒng)(如蛋白質(zhì)分子網(wǎng)絡(luò))和人工系統(tǒng)(如互聯(lián)網(wǎng)、引文網(wǎng)絡(luò)等)。在對復(fù)雜網(wǎng)絡(luò)建模時,通常使用圖論知識來描述網(wǎng)絡(luò),由一組邊和一組節(jié)點(diǎn)組成的網(wǎng)絡(luò)(或圖),在計算機(jī)中我們可以使用鄰接矩陣、三元組、鄰接表來進(jìn)行存儲。現(xiàn)實(shí)中的真實(shí)網(wǎng)絡(luò)大多都是結(jié)點(diǎn)數(shù)巨大但邊數(shù)較小的稀疏圖,對無權(quán)圖使用鄰接表進(jìn)行存儲,對有權(quán)圖使用三元組進(jìn)行存儲,可以有效節(jié)約存儲空間。
從大規(guī)模的網(wǎng)絡(luò)到萬維網(wǎng),生態(tài)系統(tǒng)和動物種群之間的社會關(guān)系,人類社會和自然中有許多復(fù)雜的系統(tǒng)可以用各種復(fù)雜網(wǎng)絡(luò)來描述。我們可以通過研究復(fù)雜網(wǎng)絡(luò),分析動態(tài)時間中節(jié)點(diǎn)和當(dāng)事人之間發(fā)生的變化,然后分析我們發(fā)現(xiàn)的隱藏內(nèi)部信息來探索節(jié)點(diǎn)和社區(qū)之間的關(guān)系。
在圖結(jié)構(gòu)數(shù)據(jù)之上,可以運(yùn)用圖神經(jīng)算法如VGAE(變分圖自編碼器)算法進(jìn)行信息預(yù)測工作。VGAE 一種無監(jiān)督學(xué)習(xí)框架,其運(yùn)用變分自編碼器在圖上,利用神經(jīng)網(wǎng)絡(luò)研究驗(yàn)證后分布來實(shí)現(xiàn)編碼過程,優(yōu)化具有重構(gòu)誤差和KL 散度的參數(shù),獲得隱藏的節(jié)點(diǎn)變量作為節(jié)點(diǎn)積分。兩個編碼器用于計算平均值和方差,然后解碼器用于重構(gòu)真實(shí)樣品,主要運(yùn)用VGAE 算法解決邊預(yù)測問題[4]。
在針對風(fēng)險治理的研究中,我們可以通過復(fù)雜網(wǎng)絡(luò)中社區(qū)的變化發(fā)現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)發(fā)生變化的時刻,準(zhǔn)確找到關(guān)鍵節(jié)點(diǎn)或者關(guān)鍵時刻,及時找到應(yīng)對的方法,做出反應(yīng)。
情感計算最早起源于美國MIT 實(shí)驗(yàn)室,指出“情感計算就是針對人類的外在表現(xiàn),能夠進(jìn)行測量和分析并能對情感施加影響的計算”,開辟了計算機(jī)科學(xué)的新領(lǐng)域,其思想是創(chuàng)建一種能感知、識別和理解人的情感,并能針對人的情感做出智能、靈敏、友好反應(yīng)的計算系統(tǒng),即賦予計算機(jī)像人一樣的觀察、理解和生成各種情感特征的能力,從而使人機(jī)交互更自然[5]。
社交媒體為人們提供了一個有效的情感觀察窗,我們每天都會通過社交媒體進(jìn)行各種各樣的活動,從購物到聊天,從社區(qū)到信息,從信息到生活,這一切無不透露著人類某些層面上的情感資源。個人用戶常常在社交媒體中發(fā)布含有喜怒哀樂情緒的信息,點(diǎn)評類軟件中國對商品、服務(wù)進(jìn)行評估,其中蘊(yùn)藏著豐富而富有感情的文本資源。社交媒體文本情感計算是與社會媒體除文本相結(jié)合,也有關(guān)于用戶與群體的資料,接著分析文本情感、加工與歸納使情感分析更有針對性與精準(zhǔn)性。
情感計算研究將會不斷深化人們對情感狀態(tài)及情感機(jī)制的認(rèn)識,并且改善了人和計算機(jī)之間的和諧,也就是增強(qiáng)計算機(jī)對情境的感知能力,領(lǐng)悟人類情感意圖,作出適當(dāng)回應(yīng)。
基于深度學(xué)習(xí)的情感分析方法是使用神經(jīng)網(wǎng)絡(luò)來進(jìn)行的,從輸入層獲現(xiàn)數(shù)據(jù)特征,然后經(jīng)過層層的神經(jīng)網(wǎng)絡(luò)隱藏層的加權(quán)計算,最終得到輸出層結(jié)果。BERT(Bidirectional Encoder Representation from Transformers)是Transformer block 的雙向連接。該模型的目的是大量使用無標(biāo)記庫來生成和獲取包含豐富語義信息的文本表示,即文本的語義表示,然后在特定的NLP 任務(wù)中改進(jìn)文本的語義表達(dá),最后將其應(yīng)用于NLP 任務(wù)[6]。其中BERT_Base 預(yù)訓(xùn)練模型由12 層Transformer 構(gòu)成,完成中文文本情感分析,在文本多分類的任務(wù)中,能在極小的數(shù)據(jù)下帶來顯著的分類準(zhǔn)確率提升。
對于情感的分類,通常有一個近似的情感分類,主要用于確定文本的整體情感傾向,并表示對特定主題或?qū)ο蟮目傮w評估。選擇更適合大數(shù)據(jù)風(fēng)險治理的偏好類別,即正面、負(fù)面和中性。我們通過對用戶行為的情感分析,找到正面、負(fù)面、中性的消息,在負(fù)面信息出現(xiàn)的時候,通過源頭進(jìn)行風(fēng)險治理,避免產(chǎn)生導(dǎo)致社會或企業(yè)發(fā)生負(fù)面影響的出現(xiàn)。
我們處在一個數(shù)據(jù)爆炸的時代,海量的信息會導(dǎo)致風(fēng)險發(fā)生的概率倍增,特別是對金融行業(yè)而言。隨著我國金融業(yè)的創(chuàng)新和發(fā)展,國內(nèi)新業(yè)務(wù)、新產(chǎn)品不斷涌現(xiàn),對我國金融監(jiān)管帶來了實(shí)質(zhì)性的挑戰(zhàn)。預(yù)計在未來的若干年間,我國的金融開放程度會進(jìn)一步提高,金融開放與創(chuàng)新伴隨的金融風(fēng)險積累會加劇。首都經(jīng)濟(jì)貿(mào)易大學(xué)黨委書記馮培教授表示,金融風(fēng)險管理是金融機(jī)構(gòu)所從事的業(yè)務(wù)活動中最核心的內(nèi)容。
其中,金融行業(yè)內(nèi)的聲譽(yù)風(fēng)險尤為重要,銀保監(jiān)會近日印發(fā)了《銀行保險機(jī)構(gòu)聲譽(yù)風(fēng)險管理辦法(試行)》[7],維護(hù)銀行保險等金融機(jī)構(gòu)的經(jīng)營聲譽(yù),及時澄清謠言,向公眾公開相關(guān)信息,是金融業(yè)防風(fēng)險的重要方面,也事關(guān)千家萬戶利益。當(dāng)然,聲譽(yù)風(fēng)險管理不僅是負(fù)面輿情應(yīng)對,更需要建立“全流程”“常態(tài)化”機(jī)制。
現(xiàn)如今,金融行業(yè)內(nèi)關(guān)于聲譽(yù)平臺的建設(shè)還特別弱,大多數(shù)還僅僅停留在原始的輿情監(jiān)控,風(fēng)險感知能力差,安全管理成本也比較高,智能化程度不足,無法實(shí)現(xiàn)預(yù)測預(yù)警,應(yīng)對風(fēng)險的能力嚴(yán)重不足。所以建設(shè)一個更加智能的風(fēng)險防控系統(tǒng)非常有必要。
我們可以在平臺上設(shè)立重點(diǎn)人員檢測預(yù)警,通過知識圖譜、復(fù)雜網(wǎng)絡(luò)的技術(shù)找到重點(diǎn)人群,或者自動識別危險言論,將有傾向、經(jīng)常參與話題的用戶重點(diǎn)檢測,并及時對重點(diǎn)人員進(jìn)行管理,實(shí)時監(jiān)控用戶對象,實(shí)時進(jìn)行預(yù)測預(yù)警。
針對不同行業(yè)內(nèi)置不同的聲譽(yù)防控風(fēng)險體系,實(shí)現(xiàn)分級預(yù)警,通過總體態(tài)勢和不同事態(tài)的可視化分析,實(shí)現(xiàn)圖像、圖表、語音等多種形式的動態(tài)分析。通過情感分析找到負(fù)面消息,進(jìn)行風(fēng)險判斷,通過繪制詞云圖,找到熱點(diǎn)內(nèi)容。金云聲譽(yù)如圖2 所示。
圖2: 金云聲譽(yù)
數(shù)據(jù)源采用各個平臺的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行收集,利用大數(shù)據(jù)分析技術(shù),進(jìn)行預(yù)測分析,通過各個平臺的信息匯總,將負(fù)面輿情進(jìn)行處理,保證企業(yè)聲譽(yù),提高企業(yè)價值。
要根據(jù)企業(yè)性質(zhì),設(shè)置個性化防控體系,負(fù)面輿情自動判斷,及時上報,多途徑傳遞信息,確保金融聲譽(yù)不受網(wǎng)絡(luò)信息影響,保證風(fēng)險防控安全高效。
風(fēng)險防控是一項(xiàng)任重而道遠(yuǎn)的任務(wù),最終目標(biāo)要達(dá)到以最小的風(fēng)險管理成本獲得最大的安全保障,要求在任何時刻都要在保證安全管理的前提下達(dá)到經(jīng)濟(jì)效益最大化。我們要利用科技,有效改善風(fēng)險管理,建立更加科學(xué)合理的風(fēng)險管理模式。
在剛剛結(jié)束的上交會上,再一次指出,要實(shí)現(xiàn)現(xiàn)代化企業(yè)管理,必須實(shí)現(xiàn)數(shù)字化驅(qū)動發(fā)展,建設(shè)科技監(jiān)管一體化平臺,構(gòu)建一站式辦理服務(wù)模式,做好風(fēng)險防控工作,確保企業(yè)安全發(fā)展。