張 韌, 李 明
(1.國防科技大學(xué) 氣象海洋學(xué)院,江蘇 南京 211101;2.南京信息工程大學(xué) 氣象災(zāi)害預(yù)報預(yù)警與評估協(xié)同創(chuàng)新中心,江蘇 南京 210044;3.內(nèi)蒙古師范大學(xué) 應(yīng)用數(shù)學(xué)中心,內(nèi)蒙古 呼和浩特 010022)
大數(shù)據(jù)和人工智能是當(dāng)今的前沿?zé)狳c領(lǐng)域,大數(shù)據(jù)技術(shù)使許多隱藏于數(shù)據(jù)中的規(guī)律得以挖掘,使常規(guī)方法難以揭示的事件特征得以呈現(xiàn),一些看似毫不相干的現(xiàn)象,通過大數(shù)據(jù)方法可以建立起他們之間的關(guān)聯(lián)模型?;诤A繑?shù)據(jù)的機器學(xué)習(xí)、深度學(xué)習(xí)等人工智能技術(shù),為挖掘數(shù)據(jù)信息、提取知識規(guī)律提供了先進的技術(shù)手段。
海洋環(huán)境涉及地理、氣象、水文、空間、電磁等自然因素以及政治、經(jīng)濟、軍事、人文等地緣因素,尤其是深海、極地等航運通道、資源富集和軍事敏感區(qū),數(shù)據(jù)信息往往難以獲取,許多情況下海洋環(huán)境保障面臨的不是大數(shù)據(jù)問題,而是環(huán)境數(shù)據(jù)樣本欠缺和評估決策知識匱乏的情景,即信息不完備問題。這里的信息不完備包含了三層含義: 一是遠洋航運、海上作業(yè)和海洋工程中的自然環(huán)境歷史資料和數(shù)據(jù)信息匱乏; 二是航道控制區(qū)、利益攸關(guān)區(qū)和軍事敏感區(qū)實時環(huán)境要素資料獲取困難; 三是缺少構(gòu)建海洋環(huán)境評估決策模型所需要的航行、工程、試驗案例樣本。如何針對現(xiàn)實海洋環(huán)境中客觀存在的信息不完備問題,基于有限的、不充分的數(shù)據(jù)信息和樣本案例,擬合逼近真實海洋環(huán)境,構(gòu)建客觀、定量的評估模型,具有重要科學(xué)意義和應(yīng)用前景。
信息擴散是為了彌補信息不足而考慮優(yōu)化利用樣本模糊信息的一種集值化的數(shù)學(xué)處理方法。黃崇福[1]提出信息擴散思想及其相應(yīng)的數(shù)學(xué)模型。該方法可將單值樣本變成集值樣本,進而對非完備樣本信息進行有效處理。由于樣本只是符合某種規(guī)律的取樣實例,它是規(guī)律的外在表現(xiàn)形式,一般情況下,數(shù)量有限的樣本難以直接反映出事物發(fā)展演變的內(nèi)在規(guī)律性。樣本信息不完備是指從該樣本中提取出來的信息很少,難以完全反映原始抽樣總體的分布規(guī)律。對于連續(xù)概率分布,任何一個樣本容量n都是不充分的。即,若總體有一個連續(xù)分布函數(shù),那么從總體中抽取的任何一個有限樣本一定是不完備的。在某種意義上,科學(xué)探索的目標(biāo)即是運用觀察、實驗、學(xué)習(xí)和推論得出不完備信息和知識,來逼近真實世界的客觀規(guī)律。
小樣本案例信息擴散評估建模是指通過引入“信息擴散”思想,將有限的、離散的案例樣本所包含的目標(biāo)信息,合理拓展和映射擴散到對應(yīng)維連續(xù)空間,進而實現(xiàn)對不充分信息的“插補”。該方法可基于稀少的案例樣本和匱乏的數(shù)據(jù)信息,建立量化評估模型,是信息不完備情景下解決量化分析“有無”問題的一種逼近方案。目前,信息擴散方法在地震、泥石流、臺風(fēng)等重大自然災(zāi)害和環(huán)境污染,暴恐襲擊等社會安全事件的風(fēng)險評估中得到了有效應(yīng)用。信息擴散方法包含信息矩陣構(gòu)建、信息分配方案和信息擴散模型等基本環(huán)節(jié)和計算步驟。其中,信息擴散模型構(gòu)建或信息擴散函數(shù)擬合是其核心,旨在尋求一個最為合理、有效的擴散函數(shù),進而實現(xiàn)非完備的小樣本數(shù)據(jù)信息的合理映射和最優(yōu)擴散。黃崇福[2]借鑒分子擴散模型,推導(dǎo)出正態(tài)信息擴散函數(shù)/模型,該模型也是當(dāng)前應(yīng)用最為廣泛的信息擴散算法模型。正態(tài)信息擴散函數(shù)表現(xiàn)的是一種各向同性的均勻擴散過程。但在實際應(yīng)用中,遇到的不完備樣本中各要素之間可能存在某些非均勻、非對稱的結(jié)構(gòu),如變量間的“不規(guī)則正比”關(guān)系,即隨著自變量增加,因變量以一種非線性關(guān)系變化。對要素間存在的這類特性的不完備樣本,在進行信息擴散評估時需要考慮:沿某些方向應(yīng)擴散得快些,而沿另一些方向可能擴散得慢些,即擴散過程應(yīng)是非均勻、非對稱?;谶@種考慮,張韌、徐志升、白成祖等分別提出了“橢圓式”和“概率式”以及“弦振動”三類自適應(yīng)非對稱信息擴散函數(shù)模型[3-5],進行了相應(yīng)理論推導(dǎo)和算法實現(xiàn),并開展了北極航道安全風(fēng)險評估[6]和南海-印度洋海盜襲擊風(fēng)險評估研究[7]。
鑒于海洋環(huán)境和地緣環(huán)境的復(fù)雜性、動態(tài)性和影響機理的不確定性,對航海裝備和海上活動影響的保障要求和決策規(guī)范,主要表現(xiàn)為評估目標(biāo)的環(huán)境適應(yīng)條件和臨界閾值指標(biāo)等形式。它們多表現(xiàn)為一些定性的語言描述和寬泛性的閾值范圍。如何有效挖掘和充分利用保障規(guī)范和臨界閾值蘊含的決策信息,建立客觀、定量的影響評估和風(fēng)險管理模型,既有科學(xué)意義,也有應(yīng)用前景。
目前,基于保障規(guī)范和臨界條件閾值的評估決策,主要依靠人的主觀判斷和經(jīng)驗知識,其缺點一是缺乏量化的評估決策表述,二是不同程度地夾雜個人的主觀傾向。對于復(fù)雜的自然環(huán)境和地緣人文評估以及重大災(zāi)害和突發(fā)事件的應(yīng)急響應(yīng),往往涉及多要素、多部門、多環(huán)節(jié)的協(xié)同,情況更復(fù)雜。因此,常規(guī)的閾值條件評估方法和決策手段已難以適應(yīng)海洋環(huán)境,尤其是深海和極地等復(fù)雜環(huán)境和航道安全風(fēng)險等復(fù)雜條件下的評估決策需求。
僅用保障規(guī)范知識和臨界閾值進行海上活動的大氣、海洋環(huán)境的影響效應(yīng)和風(fēng)險評估,信息不足更加凸顯,且信息極度虧缺(甚至可稱之為零樣本問題)。為此,筆者提出了基于臨界條件閾值的“點-集映射”思想和評估建模技術(shù)[8]。該方法基于保障規(guī)范和任務(wù)實施保障的決策規(guī)范或臨界條件閾值(可視為臨界特征要素的高維知識點或行為紅線),借鑒信息擴散思想,通過“點-集映射”思想來構(gòu)建點-集映射函數(shù),對單值保障規(guī)范進行兩次模糊集值化處理,將臨界閾值中行為規(guī)范高維知識點映射為含隸屬度約束的臨界閾值知識集合,實現(xiàn)點-集映射中的專家經(jīng)驗融合和客觀定權(quán),進而提供了基于決策規(guī)范“紅線”或臨界閾值信息的影響評估和風(fēng)險研判的客觀、定量解決方案。由于保障規(guī)范中最低環(huán)境條件是分別針對單個要素給出的,為此相應(yīng)地在評估模型中建立起一個層次結(jié)構(gòu),首先對單一環(huán)境要素下航海裝備和海上活動影響進行評估,然后再對各環(huán)境要素的影響評估結(jié)果進行綜合集成,進而得到海洋環(huán)境影響航海裝備和海上活動的風(fēng)險評估結(jié)果。
該研究思想和評估方法能從現(xiàn)有保障規(guī)范出發(fā),利用模糊集值化優(yōu)勢,充分挖掘和拓展有限決策信息,得到較為客觀、合理、定量的評估結(jié)果,進而為決策信息不完備條件(當(dāng)前普遍存在而短期之內(nèi)又無法解決的困難)下的海上活動和海洋環(huán)境影響評估提供了可資借鑒的技術(shù)途徑[9-10]。
海洋環(huán)境地緣安全評估決策的非結(jié)構(gòu)數(shù)據(jù)和非數(shù)字化信息中,存在大量缺損、冗余、噪聲、異值、誤差等不確定性問題。如何針對客觀存在的信息不完備問題,運用有限、不充分的非結(jié)構(gòu)信息和不確定性知識,擬合逼近復(fù)雜的自然和社會環(huán)境,構(gòu)建客觀、定量的評估模型,需引入不確定性思想和不確定性人工智能技術(shù)。
自Judea Pearl于2012年獲得計算機領(lǐng)域最高獎“圖靈獎”之后,不確定性人工智能就成為國際學(xué)術(shù)界最熱門的話題之一。Judea Pearl的主要貢獻在于他基于概率論,將不確定性引入人工智能領(lǐng)域,并作為主要貢獻者之一,提出了貝葉斯網(wǎng)絡(luò)(Bayesian network)理論,使得人工智能領(lǐng)域在存在不確定性的情況下,第一次有了一個在數(shù)學(xué)上嚴(yán)謹(jǐn)而系統(tǒng)的理論[11]。
貝葉斯網(wǎng)絡(luò)又稱信念網(wǎng)絡(luò)(belief network)或稱有向無環(huán)圖模型(directed acyclic graphical model),是貝葉斯方法的擴展,是目前不確定知識表達和推理領(lǐng)域中最有效的理論模型之一。貝葉斯網(wǎng)絡(luò)是基于概率的不確定性推理網(wǎng)絡(luò)和因果關(guān)聯(lián)模型,是概率論與圖論結(jié)合的一種新的數(shù)學(xué)分析方法,具有強大的不確定性問題處理能力,能有效進行多源信息表達與融合。目前貝葉斯網(wǎng)絡(luò)已成功應(yīng)用于醫(yī)療診斷、統(tǒng)計決策、專家系統(tǒng)、學(xué)習(xí)預(yù)測等領(lǐng)域。
因果關(guān)系是科學(xué)界乃至哲學(xué)界長期關(guān)注和爭論的經(jīng)典問題。大數(shù)據(jù)時代人們更加關(guān)注數(shù)據(jù)之間的關(guān)聯(lián)問題,而有意無意忽略或淡化事件間的因果關(guān)聯(lián)。然而科學(xué)研究的目的不僅是要揭示事物的表象特征,更要弄清事件的內(nèi)在原因和發(fā)生機理,這就涉及因果關(guān)系。因果關(guān)系真正重要的應(yīng)用體現(xiàn)在人工智能領(lǐng)域,即要讓機器學(xué)會因果推理、舉一反三。2019年Judea Pearl的新作TheBookofWhy中文版《為什么》出版,作者在書中提出并力求回答的核心問題是:如何讓智能機器像人一樣思考?換言之,“強人工智能”可以實現(xiàn)嗎?作者借助于因果關(guān)系之梯的三個層級逐步深入揭示因果推理的本質(zhì),并據(jù)此構(gòu)建出相應(yīng)的自動化處理工具和數(shù)學(xué)分析范式。要實現(xiàn)強人工智能,乃至將智能機器轉(zhuǎn)變?yōu)橛械赖乱庾R的有機體,必須讓機器學(xué)會問“為什么”,也就是讓機器學(xué)會因果推理,理解因果關(guān)系[12]。
近年來,人工智能和大數(shù)據(jù)技術(shù)得到了迅速發(fā)展。1997年,IBM公司研制的深藍(DEEP BLUE)計算機戰(zhàn)勝了國際象棋大師卡斯帕洛夫(KASPAROV); 隨后,基于大數(shù)據(jù)和深度學(xué)習(xí),Alpha Go從數(shù)千經(jīng)典棋局中訓(xùn)練3000萬盤,擊敗圍棋九段高手李世石; 而Alpha Go Zero則僅用了3天時間,左右互搏、無師自通,以100∶0完勝Alpha Go。在人機博弈中,Alpha Go通過學(xué)習(xí),能優(yōu)化搜索和研判數(shù)百步、上千步棋局走勢,并給出最佳應(yīng)對策略,超越人的思維能力和信息容量,充分展示了人工智能的深厚應(yīng)用潛力和廣闊發(fā)展前景。
然而,Alpha Go圍棋對抗畢竟是理想狀況的博弈: (1) 規(guī)則明確; (2) 信息對稱; (3) 動作透明。而現(xiàn)實中可能面臨相當(dāng)多的問題是: (1) 規(guī)則模糊、曖昧甚至是潛規(guī)則; (2) 博弈信息不透明、不對稱、不完備; (3) 專家的知識經(jīng)驗主觀定性、不確定。這些問題可能正是當(dāng)今自然災(zāi)害、社會安全和危機事件風(fēng)險評估和態(tài)勢研判中面臨的現(xiàn)實難題。如何在信息不完備、知識不確定情況下科學(xué)認(rèn)知、客觀評判和合理推演復(fù)雜局勢和危機事件,是當(dāng)前人工智能科學(xué)的前沿性、創(chuàng)新性、探索性課題。2013年中國人工智能學(xué)會成立了不確定性人工智能專業(yè)委員會,針對航天、核電等重大工程和投資、金融等經(jīng)濟問題開展探索研究[11]; 科技部在最新發(fā)布的科技創(chuàng)新2030-“新一代人工智能”重大項目2018年申報指南中,將不確定性人工智能(1.4專題-非完全信息條件下的博弈決策)列入重要資助方向。
圍繞海洋環(huán)境保障、風(fēng)險評估和決策支持等問題,相關(guān)學(xué)者系統(tǒng)分析和闡述了風(fēng)險的不確定性內(nèi)涵,并將風(fēng)險的不確定性特征歸納為自身不確定性、信息不確定性和認(rèn)知不確定性[13]。針對海洋環(huán)境保障的風(fēng)險不確定性特征,李明等[14]提出了不確定條件下基于貝葉斯網(wǎng)絡(luò)評估思想和建模技術(shù)途徑: 針對數(shù)據(jù)驅(qū)動貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)中,結(jié)構(gòu)弧的確定存在誤差大、效率低等問題,基于信息流的全局因果分析思想和0/1優(yōu)化原理,提出了一種結(jié)構(gòu)學(xué)習(xí)算法—改進型貪婪搜索算法(AGS)。該算法首先基于信息流理論,引入全局因果度量構(gòu)造0/1優(yōu)化問題,得到最優(yōu)的初始網(wǎng)絡(luò)結(jié)構(gòu); 隨后,以此結(jié)構(gòu)為基礎(chǔ)產(chǎn)生結(jié)構(gòu)搜索空間,通過貪婪算法搜索結(jié)構(gòu)弧,同時根據(jù)信息流確定弧方向,進而實現(xiàn)結(jié)構(gòu)一體化學(xué)習(xí),得到最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)。之后,他們針對貝葉斯網(wǎng)絡(luò)的參數(shù)學(xué)習(xí),在實際評估中訓(xùn)練樣本信息不定量和不完備等問題,以及既有算法對于數(shù)據(jù)缺失條件下的參數(shù)學(xué)習(xí)存在易收斂到局部最優(yōu)和學(xué)習(xí)速度較慢的缺陷,提出了數(shù)據(jù)非定量和信息不完備條件下的網(wǎng)絡(luò)參數(shù)學(xué)習(xí)反演算法[15]。該算法基于遺傳算法,構(gòu)建誤差函數(shù)以實現(xiàn)觀測信息與推理信息的誤差反饋,采用遺傳算法反向搜索節(jié)點的最優(yōu)概率分布,將網(wǎng)絡(luò)參數(shù)訓(xùn)練轉(zhuǎn)化為多元函數(shù)的最優(yōu)化問題,數(shù)值模擬和實驗仿真結(jié)果驗證了該反演技術(shù)的有效性、可行性和實用性。
先驗概率、條件概率和聯(lián)合概率估計是貝葉斯網(wǎng)絡(luò)核心環(huán)節(jié)。其中先驗概率分布函數(shù)/模型的準(zhǔn)確與否,直接制約著貝葉斯網(wǎng)絡(luò)最終評估推理結(jié)果的優(yōu)劣。目前,先驗概率函數(shù)的確定一是經(jīng)驗估計、二是大數(shù)據(jù)擬合。前者主觀人為因素較大、后者數(shù)據(jù)量門檻較高。如何從有限的經(jīng)典案例中抽取事件概率分布特征,客觀合理、自適應(yīng)擬合先驗概率,是貝葉斯網(wǎng)絡(luò)評估建模的關(guān)鍵問題和技術(shù)難點。為此,筆者引入了小樣本案例自適應(yīng)擬合思想,提出了案例驅(qū)動的貝葉斯網(wǎng)絡(luò)先驗概率自適應(yīng)擬合和估計方法,構(gòu)建了先驗概率廣義綜合基函數(shù),并將參數(shù)降維優(yōu)化,探索了先驗概率自適應(yīng)優(yōu)化計算方案,提高了先驗概率的擬合精度和計算效率,且有效保留先驗知識所蘊含的信息內(nèi)涵,為信息匱乏情景下,貝葉斯網(wǎng)絡(luò)風(fēng)險推理評估先驗概率估計探索了技術(shù)途徑和解決方案[16]。
貝葉斯網(wǎng)絡(luò)是解決自然和社會現(xiàn)實中廣泛存在的知識不確定和信息不完備問題的有效手段,也是復(fù)雜性、動態(tài)性、瞬變性事件風(fēng)險評估和態(tài)勢推理的適宜途徑。貝葉斯網(wǎng)絡(luò)建模時,網(wǎng)絡(luò)結(jié)構(gòu)大多直接由評估體系映射而成,但評估體系多是人為構(gòu)建的,主觀性較強,因而不可避免地存在著不同程度的經(jīng)驗性、主觀性和非精確性。對于評估問題,指標(biāo)層對準(zhǔn)則層的歸屬實際上就是貝葉斯分類,該過程具有不確定性,人工劃分有較大經(jīng)驗性和主觀性。為此,李明,張韌等[17-18]通過將結(jié)構(gòu)弧權(quán)重概念(用以刻畫網(wǎng)絡(luò)節(jié)點依賴關(guān)系強弱和結(jié)構(gòu)弧方向)和信息流思想引入貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí),通過指標(biāo)層與準(zhǔn)則層之間的信息流估算和關(guān)聯(lián)信息挖掘,將弧權(quán)重融入條件概率表再作加權(quán)貝葉斯網(wǎng)絡(luò)推理計算,解決了初始結(jié)構(gòu)的優(yōu)化搜索空間和弧與弧方向同步確定等關(guān)鍵問題,提出了貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)全局最優(yōu)逼近的一種解決方案。
貝葉斯網(wǎng)絡(luò)節(jié)點概率參數(shù)一般需從充分的定量數(shù)據(jù)中學(xué)習(xí),但是在現(xiàn)實世界和復(fù)雜環(huán)境中,風(fēng)險評估和應(yīng)急響應(yīng)往往涉及自然、人文等多要素和多個層面,許多要素是定性描述的,定量信息匱乏,一些網(wǎng)絡(luò)節(jié)點的CPT(條件概率)很難通過數(shù)據(jù)學(xué)習(xí)來客觀確定。對這類情況的參數(shù)學(xué)習(xí),傳統(tǒng)方法多是通過德爾菲法(專家打分法)將定性信息定量化,但該方法主觀性強、工作量大、不易操作,且科學(xué)性、合理性也有所欠缺。事實上,在某些情況(如重大事件總結(jié)和防災(zāi)減災(zāi)通報)中,可以凝練一些經(jīng)典事件過程發(fā)展演變和分析評價的完整流程步驟和輸入-輸出信息。如何從已知事件的因果關(guān)聯(lián)結(jié)構(gòu)和部分網(wǎng)絡(luò)節(jié)點信息(主要是可獲取數(shù)據(jù)信息的自然因素)中,客觀反算和優(yōu)化擬合出貝葉斯網(wǎng)絡(luò)中某些信息缺失環(huán)節(jié)(主要是難以客觀量化的人文社會要素)的條件概率表,進而提供事件回溯與風(fēng)險追責(zé)的途徑和方案,既是重要的科學(xué)問題和難點技術(shù),也有廣闊的應(yīng)用前景。為此,筆者基于函數(shù)最優(yōu)化思想,開展了貝葉斯網(wǎng)絡(luò)條件概率表或條件概率分布函數(shù)推理誤差反饋和貝葉斯網(wǎng)絡(luò)節(jié)點缺損概率的逆算與參數(shù)反演研究[15],發(fā)展了網(wǎng)絡(luò)節(jié)點條件概率的遺傳優(yōu)化反算等關(guān)鍵技術(shù)(CPT-GAOR),提出了復(fù)雜事件評估中貝葉斯網(wǎng)絡(luò)推演的節(jié)點概率逆算與因果關(guān)聯(lián)回溯的分析解決思想,并在我國沿海六個省份熱帶氣旋災(zāi)害防災(zāi)減災(zāi)體系、機制、能力評估和責(zé)任回溯中進行了實驗仿真。
針對在海洋科學(xué)研究和海洋工程實踐中現(xiàn)實存在的自然環(huán)境歷史資料和數(shù)據(jù)信息匱乏、實時環(huán)境要素資料獲取困難以及航行、工程、試驗案例樣本稀少等信息不完備問題,提出了小樣本案例信息擴散思想與評估建模技術(shù)以及臨界條件閾值點-集映射思想與評估建模技術(shù),介紹了相應(yīng)的算法原理、適用對象和應(yīng)用場景。
針對海洋地緣安全評估決策中涉及的政治經(jīng)濟、社會文化、法律外交等人文信息和專家經(jīng)驗、定性知識、行為規(guī)范等非結(jié)構(gòu)數(shù)據(jù)和非數(shù)字化信息問題,以及信息中存在缺損、冗余、噪聲、異值、誤差等不確定性問題。闡述了運用有限、不充分的非結(jié)構(gòu)信息和不確定性知識,擬合逼近復(fù)雜的自然現(xiàn)象和社會問題,構(gòu)建客觀、定量的評估模型的基本思想和方法途徑,介紹了以貝葉斯網(wǎng)絡(luò)為代表的不確定性人工智能技術(shù),特別是筆者團隊近年來創(chuàng)新發(fā)展的事件驅(qū)動的貝葉斯網(wǎng)絡(luò)參數(shù)估算方法和建模技術(shù),以及貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化與逆算回溯算法,闡述了其應(yīng)用場景和案例實驗。