化柏林 李廣建
摘 要:人工智能發(fā)展的浪潮影響著每一個(gè)領(lǐng)域。情報(bào)作為與智能在字面上密切相關(guān)的領(lǐng)域,對(duì)人工智能的發(fā)展格外關(guān)注。如何把智能滲透到情報(bào)領(lǐng)域,實(shí)現(xiàn)智能情報(bào)分析系統(tǒng)是新時(shí)代值得深入探討的問(wèn)題。文章在對(duì)智能與情報(bào)關(guān)系的梳理以及對(duì)現(xiàn)有情報(bào)分析系統(tǒng)述評(píng)的基礎(chǔ)上,提出一個(gè)智能情報(bào)分析系統(tǒng)的框架。智能情報(bào)分析系統(tǒng)在資源方面具有數(shù)據(jù)集與知識(shí)庫(kù)、模型庫(kù)與方法庫(kù),借助知識(shí)獲取、知識(shí)表示與組織、自然語(yǔ)言處理、人機(jī)交互、新型計(jì)算與深度學(xué)習(xí)等,實(shí)現(xiàn)情報(bào)需求智能感知,海量信息智能獲取,多源信息動(dòng)態(tài)融合、多維關(guān)聯(lián)綜合分析、分析結(jié)果智能解讀、情報(bào)報(bào)告自動(dòng)生成、面向場(chǎng)景適時(shí)服務(wù)。通過(guò)智能分析引擎實(shí)現(xiàn)資源、技術(shù)與功能之間的對(duì)接,這是智能情報(bào)分析系統(tǒng)的核心。
關(guān)鍵詞:智能情報(bào)分析系統(tǒng);情報(bào)分析;人工智能
中圖分類號(hào):TP18;G250 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.11968/tsyqb.1003-6938.2017117
Abstract The wave of artificial intelligence development affects every area. Intelligence, as a field that is closely related to intelligence by literacy, pays special attention to the development of artificial intelligence. How to infiltrate the intelligence into the intelligence analysis field and realize the intelligence analysis system is a question deserved to be discussed in depth in the new era. On the basis of reviewing the existing intelligence analysis system, this paper proposes a framework of intelligence analysis system based on AI. The intelligence analysis system has the dataset, knowledge base, model base and method base. With intelligent knowledge acquisition, knowledge representation and organization, natural language processing, human-computer interaction, new computing and deep learning, Intelligent acquisition of massive information, dynamic fusion of multi-source information, comprehensive analysis of multidimensional correlations, intelligent interpretation of analysis results, automatic generation of intelligence reports and timely service oriented to scenes.Resources, technologies and functions could be joined through the intelligent analysis engine, which is the core of intelligence analysis system.
Key words intelligence analysis system; intelligence analysis; artificial intelligence
革命性的智能技術(shù),一邊撕裂舊世界,一邊創(chuàng)造對(duì)未來(lái)的無(wú)限渴望。大數(shù)據(jù)在理念與技術(shù)方法上已觸及到各行各業(yè),而人工智能正在洗刷著傳統(tǒng)的思維與產(chǎn)業(yè)形態(tài)。數(shù)據(jù)、計(jì)算能力和算法疊加后產(chǎn)生的能力差異,正快速形成組織機(jī)構(gòu)之間不可逆且不可逾越的智能鴻溝。過(guò)去的兩年人類見證了AlphaGo系列的成功,深度學(xué)習(xí)在圖像識(shí)別、智能語(yǔ)音、機(jī)器翻譯、智能控制等領(lǐng)域取得了長(zhǎng)足進(jìn)步,越來(lái)越多的領(lǐng)域開始涉及并運(yùn)用深度學(xué)習(xí)等人工智能技術(shù)。未來(lái),AI將不斷擴(kuò)大滲透領(lǐng)域,技術(shù)應(yīng)用也將逐步走向成熟,全球經(jīng)濟(jì)將迎來(lái)“AI-first”突破,可解釋性和透明度將逐步得到改善。
在海量數(shù)據(jù)急劇增長(zhǎng)、軟件工具日益豐富、競(jìng)爭(zhēng)環(huán)境日趨激烈的今天,科學(xué)研究、國(guó)家發(fā)展與企業(yè)運(yùn)營(yíng)越來(lái)越強(qiáng)調(diào)數(shù)據(jù)與智能在分析過(guò)程中的作用。業(yè)務(wù)問(wèn)題呈現(xiàn)出復(fù)雜化、多維化、關(guān)聯(lián)化、實(shí)時(shí)化的特點(diǎn),企業(yè)組織過(guò)去所依賴的基于局部數(shù)據(jù)、傳統(tǒng)工具而進(jìn)行的業(yè)務(wù)決策方式必將跌落鴻溝。如何在情報(bào)系統(tǒng)中更多地引入智能技術(shù),提高情報(bào)分析的水平與質(zhì)量,成為新時(shí)代情報(bào)發(fā)展的關(guān)鍵[1]。為了更好地實(shí)現(xiàn)情報(bào)信息的支持,需要借助于大數(shù)據(jù)產(chǎn)業(yè)情報(bào)平臺(tái)或智能情報(bào)分析系統(tǒng),通過(guò)系統(tǒng)快速準(zhǔn)確地獲取所需要的基礎(chǔ)數(shù)據(jù)、動(dòng)態(tài)信息以及最新情報(bào),跟蹤科技前沿,梳理發(fā)展脈絡(luò),把握問(wèn)題關(guān)鍵,分析競(jìng)爭(zhēng)格局與發(fā)展態(tài)勢(shì),仿真模擬以及未來(lái)分析,發(fā)現(xiàn)新穎點(diǎn)與新機(jī)會(huì),從而發(fā)現(xiàn)其中的市場(chǎng)機(jī)會(huì)和風(fēng)險(xiǎn)預(yù)警,占據(jù)市場(chǎng)競(jìng)爭(zhēng)中的優(yōu)勢(shì)或主導(dǎo)地位。
1 智能與情報(bào)的關(guān)系
智能包括人類智能與人工智能。在現(xiàn)代情報(bào)分析中,既要有人類智能,如專家智慧、專業(yè)背景、師傅帶徒弟與長(zhǎng)期“工匠”的積累,又要有人工智能,利用神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)等智能算法對(duì)大規(guī)模的數(shù)據(jù)進(jìn)行信息與知識(shí)的融合并使其轉(zhuǎn)化為情報(bào),加強(qiáng)情報(bào)分析的智能性,是智能情報(bào)的難點(diǎn)與重點(diǎn)。endprint
所謂“智能”,通常是指人們?cè)谡J(rèn)識(shí)與改造客觀世界的活動(dòng)中, 由思維過(guò)程和腦力勞動(dòng)所體現(xiàn)的能力,包括感知能力、思維能力和行為能力[2]。人類智能的核心在于知識(shí),智能表現(xiàn)為知識(shí)獲取能力、知識(shí)處理能力和知識(shí)運(yùn)用能力。人們對(duì)人工智能有許多不同的觀點(diǎn)和實(shí)現(xiàn)方法, 包括符號(hào)主義、連接主義和行為主義等, 或者叫做邏輯學(xué)派、仿生學(xué)派和生理學(xué)派。所謂“情報(bào)”,在《辭?!分袑⑵溽屃x為:軍中集種種報(bào)告,并預(yù)見之機(jī)兆,定敵情如何,而報(bào)于上官者。目前,國(guó)內(nèi)外學(xué)者關(guān)于情報(bào)概念的探討主要有以下三種觀點(diǎn):(1)情報(bào)的信息論,認(rèn)為情報(bào)是一種特定的信息[3],主要指可行動(dòng)的信息;(2)情報(bào)的知識(shí)論,即情報(bào)是一種知識(shí)。英國(guó)情報(bào)學(xué)家布魯克斯認(rèn)為:情報(bào)是使人原有的知識(shí)結(jié)構(gòu)發(fā)生變化的那一小部分知識(shí)[4]。錢學(xué)森[5]院士認(rèn)為:情報(bào)是為了解決一個(gè)特定的問(wèn)題所需要的、具有及時(shí)性和針對(duì)性的知識(shí),是激活了、活化了的知識(shí);(3)情報(bào)的認(rèn)知論,即情報(bào)是一種認(rèn)知。池建文[6]研究員認(rèn)為:情報(bào)是關(guān)于他方事實(shí)的本來(lái)面貌和深層次原因的判斷,是新信息與舊知識(shí)融合所形成的新認(rèn)知。
新的時(shí)代特點(diǎn)與技術(shù)環(huán)境給情報(bào)工作帶來(lái)了很大的變化,數(shù)據(jù)對(duì)象與規(guī)模不斷擴(kuò)大,技術(shù)方法持續(xù)更新,但是不管對(duì)象與技術(shù)方法如何變化,情報(bào)工作的宗旨從未有過(guò)根本性改變,情報(bào)工作的目的就是要保障決策、解決決策過(guò)程中信息不完備的問(wèn)題[7]。從任務(wù)的類型來(lái)看,情報(bào)分為情報(bào)識(shí)別、情報(bào)跟蹤、情報(bào)比較、情報(bào)評(píng)價(jià)與情報(bào)預(yù)測(cè)[8]。從各類信息源中快速識(shí)別有用的信息,及時(shí)準(zhǔn)確地捕捉最新、最快的情報(bào)動(dòng)態(tài),持續(xù)地對(duì)關(guān)鍵技術(shù)問(wèn)題、重要國(guó)家與機(jī)構(gòu)進(jìn)行定期或長(zhǎng)期跟蹤,把握最新進(jìn)展與動(dòng)向,梳理技術(shù)路線與演化規(guī)律,分析競(jìng)爭(zhēng)關(guān)系與態(tài)勢(shì),預(yù)測(cè)事情、格局、科學(xué)技術(shù)發(fā)展的趨勢(shì)與走向,以便提前布局、未雨綢繆。
2 情報(bào)分析系統(tǒng)發(fā)展現(xiàn)狀
情報(bào)分析系統(tǒng)是面向任務(wù)的,通過(guò)集成實(shí)現(xiàn)情報(bào)分析理論方法的技術(shù)完成特定的情報(bào)任務(wù),技術(shù)實(shí)現(xiàn)方法種類和數(shù)量的選擇與面向任務(wù)的研究對(duì)象、目的有關(guān)。情報(bào)分析系統(tǒng)發(fā)展至今,其智能水平早已不能滿足應(yīng)用需求。分析人員更傾向于系統(tǒng)能幫助發(fā)現(xiàn)未知的潛在模式,能從分析活動(dòng)的各個(gè)環(huán)節(jié)上加以支持,提供一體化的解決方案,而非僅僅是零散的對(duì)若干分析功能的支持。這些需求也促進(jìn)情報(bào)分析系統(tǒng)向著更智能的方向發(fā)展,主要包括對(duì)數(shù)據(jù)的深層發(fā)現(xiàn)、挖掘和對(duì)分析過(guò)程的智能支持等方面。情報(bào)分析系統(tǒng)呈現(xiàn)出計(jì)算性、融合性、工程化以及快速響應(yīng)等特點(diǎn)。從行業(yè)實(shí)踐來(lái)看,情報(bào)分析系統(tǒng)包括科技情報(bào)分析系統(tǒng)、企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)、公安情報(bào)分析系統(tǒng)等。
2.1 情報(bào)分析系統(tǒng)理論研究
李廣建等[9]認(rèn)為大數(shù)據(jù)時(shí)代下的情報(bào)研究應(yīng)從單一領(lǐng)域情報(bào)研究轉(zhuǎn)向全領(lǐng)域情報(bào)研究、綜合利用多種數(shù)據(jù)源、注重新型信息資源的分析、強(qiáng)調(diào)情報(bào)研究的嚴(yán)謹(jǐn)性和情報(bào)研究的智能化五個(gè)方面;張志強(qiáng)[10]認(rèn)為科技文獻(xiàn)情報(bào)機(jī)構(gòu)需要構(gòu)建適應(yīng)數(shù)據(jù)密集型科學(xué)范式需求的新型范式,著力開展專業(yè)型、計(jì)算型、戰(zhàn)略型、政策型和方法型等“五型融合”的科技情報(bào)研究新范式;賀德方[11]通過(guò)分析大數(shù)據(jù)興起、科研范式變革、方法工具演進(jìn)、用戶需求變化的時(shí)代特點(diǎn),提出利用工程化思維開展科技情報(bào)研究的新范式。喬曉東等[12]認(rèn)為,大數(shù)據(jù)時(shí)代,情報(bào)處理和分析工作應(yīng)以工程化和系統(tǒng)化的思路開展,提出了技術(shù)情報(bào)工程的理念和以技術(shù)基礎(chǔ)設(shè)施為支撐的情報(bào)分析體系;蘇新寧等[13]指出面向突發(fā)事件應(yīng)急決策的快速響應(yīng)的情報(bào)體系是一個(gè)以大數(shù)據(jù)環(huán)境為基、情報(bào)技術(shù)為力、情報(bào)流控制為策、應(yīng)急決策為標(biāo)的新型情報(bào)體系,并從組織結(jié)構(gòu)、功能組成、組織功能關(guān)系三個(gè)方面構(gòu)建了新型情報(bào)體系;李綱等[14-15]認(rèn)為突發(fā)事件的監(jiān)測(cè)與識(shí)別是應(yīng)急決策情報(bào)體系的一個(gè)重要環(huán)節(jié),一個(gè)以情報(bào)為核心的突發(fā)事件監(jiān)測(cè)與識(shí)別的理論架構(gòu)應(yīng)該以情報(bào)收集、情報(bào)分析、情報(bào)評(píng)估與利用為過(guò)程,實(shí)現(xiàn)全源情報(bào)、實(shí)時(shí)情報(bào)、精準(zhǔn)情報(bào)。情報(bào)分析呈現(xiàn)出工程體系化、海量數(shù)據(jù)高度依賴化、多源融合、集成計(jì)算、快速響應(yīng)等特點(diǎn),這些特點(diǎn)都是實(shí)現(xiàn)智能的基礎(chǔ)與前提。
2.2 現(xiàn)有情報(bào)分析系統(tǒng)的主要類型
(1)科技情報(bào)分析系統(tǒng)?,F(xiàn)代科技情報(bào)工作的態(tài)勢(shì)解析與決策服務(wù)應(yīng)借鑒大數(shù)據(jù)研究的最新進(jìn)展,加快變革科技信息的采集、獲取、挖掘、分析及影響方式,及時(shí)和變革性地提升科技知識(shí)的產(chǎn)生,使其更為直接地輔助科技決策。由中科院文獻(xiàn)情報(bào)中心開發(fā)的“研究所一線科技信息監(jiān)測(cè)服務(wù)平臺(tái)”(http://stis.las.ac.cn)從海量的網(wǎng)絡(luò)科技信息資源中發(fā)現(xiàn)最新最重要的科技資源,自動(dòng)計(jì)算分析科技資源的情報(bào)價(jià)值、識(shí)別科技資源中包含的重要科技對(duì)象、重要科技術(shù)語(yǔ),快速發(fā)現(xiàn)研究領(lǐng)域的研究熱點(diǎn)等。北京市科技情報(bào)研究所開發(fā)的大數(shù)據(jù)科技情報(bào)服務(wù)平臺(tái),通過(guò)詞庫(kù)生成器、科技情報(bào)分析系統(tǒng)、大矩陣和創(chuàng)新點(diǎn)自動(dòng)發(fā)現(xiàn)系統(tǒng),在城市交通情報(bào)服務(wù)、突發(fā)事件應(yīng)急決策、網(wǎng)絡(luò)輿情監(jiān)測(cè)管理、戰(zhàn)略性新興產(chǎn)業(yè)和文化創(chuàng)意產(chǎn)業(yè)等領(lǐng)域進(jìn)行了應(yīng)用實(shí)踐。中國(guó)科學(xué)技術(shù)信息研究所與萬(wàn)方數(shù)據(jù)聯(lián)合開發(fā)的科技創(chuàng)新輔助決策支持系統(tǒng)STADS(后演化為科技創(chuàng)新小助手),可以根據(jù)用戶的輸入快速生成包含有各種復(fù)雜圖表的PDF報(bào)告。
中科院自動(dòng)化研究所王飛躍團(tuán)隊(duì)融合社會(huì)科學(xué)、情報(bào)科學(xué)、信息科學(xué)等學(xué)科理論提出基于ACP方法的開源情報(bào)解析理論框架,并以天網(wǎng)(科情信息監(jiān)測(cè))、天眼(科情信息分析與挖掘)、天鷹(科情信息管理與決策支持)為指導(dǎo)流程,構(gòu)建面向大數(shù)據(jù)和開源信息的科情監(jiān)測(cè)與協(xié)作創(chuàng)新平臺(tái)。在異構(gòu)、多模態(tài)的科技情報(bào)資源之上,生成科情獲取傳感網(wǎng)絡(luò)、科情語(yǔ)義網(wǎng)絡(luò)、科研協(xié)作社會(huì)網(wǎng)絡(luò)3個(gè)核心網(wǎng)絡(luò),實(shí)現(xiàn)智能采集、處理、分析與挖掘科技情報(bào)等功能[16]。由清華大學(xué)和北京搜狗公司合作開展的科技情報(bào)大數(shù)據(jù)挖掘及服務(wù)平臺(tái),以新一代科技情報(bào)分析與挖掘平臺(tái)AMiner為基礎(chǔ),運(yùn)用動(dòng)態(tài)策略選擇的語(yǔ)義集成方法和多維依賴關(guān)系的語(yǔ)義標(biāo)注方法,建立了億級(jí)節(jié)點(diǎn)規(guī)模的科技知識(shí)圖譜。運(yùn)用基于話題的影響力模型對(duì)異構(gòu)科技情報(bào)網(wǎng)絡(luò)進(jìn)行深度挖掘,對(duì)科技信息網(wǎng)絡(luò)中學(xué)者、學(xué)術(shù)活動(dòng)和知識(shí)概念進(jìn)行隱含語(yǔ)義建模,建立了超過(guò)2.3億學(xué)術(shù)論文/專利和1.36億學(xué)者的科技智庫(kù),提供面向科技文獻(xiàn)、專利和科技新聞的語(yǔ)義搜索、語(yǔ)義分析、成果評(píng)價(jià)等知識(shí)服務(wù)[17]。endprint
(2)面向企業(yè)的競(jìng)爭(zhēng)情報(bào)系統(tǒng)。競(jìng)爭(zhēng)情報(bào)系統(tǒng)(Competitive Intelligence System,CIS)是基于信息采集、全文檢索、文本挖掘等核心技術(shù),對(duì)企業(yè)自身、競(jìng)爭(zhēng)對(duì)手和企業(yè)外部環(huán)境的情報(bào)信息進(jìn)行收集、存儲(chǔ)、處理、分析的應(yīng)用管理系統(tǒng),為企業(yè)提供戰(zhàn)略決策支持,從而提高企業(yè)的核心競(jìng)爭(zhēng)力。企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)是以人的智能為主導(dǎo)、以有形智能軟件為技術(shù)載體,將實(shí)時(shí)資訊、經(jīng)營(yíng)數(shù)據(jù)監(jiān)測(cè)、市場(chǎng)動(dòng)態(tài)監(jiān)測(cè)、競(jìng)爭(zhēng)對(duì)手調(diào)研、行業(yè)分析研究等競(jìng)爭(zhēng)情報(bào)內(nèi)容服務(wù),系統(tǒng)地集成為一個(gè)企業(yè)競(jìng)爭(zhēng)情報(bào)整體解決方案,以人機(jī)協(xié)作工作體系和競(jìng)爭(zhēng)情報(bào)管理體系,實(shí)現(xiàn)對(duì)企業(yè)所處整體競(jìng)爭(zhēng)環(huán)境的全面監(jiān)測(cè)、分析與掌控,以增強(qiáng)企業(yè)競(jìng)爭(zhēng)力為目標(biāo)的人機(jī)結(jié)合的企業(yè)競(jìng)爭(zhēng)戰(zhàn)略決策支持與咨詢系統(tǒng)。典型的競(jìng)爭(zhēng)情報(bào)系統(tǒng)有 Knowledge Works、TextAnalyst,百度的eCIS、北京拓爾思公司的CIS系統(tǒng)、谷尼企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)、才思競(jìng)爭(zhēng)情報(bào)系統(tǒng)等。
(3)基于大數(shù)據(jù)的公安情報(bào)系統(tǒng)。公安情報(bào)分析系統(tǒng)以公安情報(bào)分析業(yè)務(wù)為指導(dǎo),實(shí)時(shí)匯總各類社會(huì)信息、公安信息、互聯(lián)網(wǎng)信息等,通過(guò)分析模型、人群碰撞與分析精靈等工具,通過(guò)關(guān)聯(lián)分析、可視化分析等方法,使社會(huì)各類基本信息產(chǎn)生有價(jià)值的情報(bào)信息,并智能化的產(chǎn)生研判結(jié)果。大數(shù)據(jù)公安情報(bào)分析系統(tǒng)一般具有可視化智能軌跡分析查詢、異?;顒?dòng)人員研判分析、智能統(tǒng)計(jì)分析、警情動(dòng)態(tài)監(jiān)測(cè)及分析預(yù)警、智能情報(bào)檢索、關(guān)聯(lián)查詢、碰撞比對(duì),實(shí)現(xiàn)人、事、物、組織和地點(diǎn)等五要素的信息數(shù)據(jù)分析和研判,并在這些信息數(shù)據(jù)之間建立起內(nèi)在關(guān)聯(lián),可幫助公安干警梳理各類分散的、獨(dú)立的情報(bào)線索。典型的大數(shù)據(jù)公安情報(bào)系統(tǒng)有與美國(guó)CIA、FBI合作的大數(shù)據(jù)平臺(tái)Palantir、浪潮大數(shù)據(jù)警務(wù)云平臺(tái)、江蘇中科惠軟公司開發(fā)的智慧公安全網(wǎng)情報(bào)信息化作戰(zhàn)平臺(tái)等,北京拓爾思公司開發(fā)的大數(shù)據(jù)輿情分析平臺(tái)TRS SMAS也有些類似功能。
2.3 相關(guān)述評(píng)
從上述概述可以看出,情報(bào)分析更多地借助于系統(tǒng)支撐,不斷地融入大數(shù)據(jù)與智能技術(shù)已經(jīng)成為一個(gè)趨勢(shì)。情報(bào)分析系統(tǒng)智能化既有情報(bào)行業(yè)本身發(fā)展的內(nèi)在需求,也具備社會(huì)發(fā)展應(yīng)用的外在動(dòng)力,計(jì)算機(jī)領(lǐng)域與大數(shù)據(jù)領(lǐng)域開始有一些團(tuán)隊(duì)構(gòu)建智能情報(bào)分析系統(tǒng)成為一個(gè)新的特點(diǎn),這個(gè)現(xiàn)象值得關(guān)注與深思。
情報(bào)分析系統(tǒng)的研究大部分是模型構(gòu)建或系統(tǒng)設(shè)計(jì),而實(shí)際構(gòu)建并有良好運(yùn)行結(jié)果的系統(tǒng)還比較少,也缺乏對(duì)系統(tǒng)運(yùn)行效果的評(píng)估與評(píng)價(jià)。在模型構(gòu)建或系統(tǒng)設(shè)計(jì)時(shí)多以系統(tǒng)論為指導(dǎo)。競(jìng)爭(zhēng)情報(bào)系統(tǒng)的探討比較充分,實(shí)際開發(fā)或應(yīng)用的單位也更多一些,其次是以公安情報(bào)或反恐情報(bào)分析系統(tǒng)。
智能分析首先會(huì)在信息加工處理與分析階段實(shí)現(xiàn)高度自動(dòng)化與智能,如何在情報(bào)分析系統(tǒng)的輸入端與輸出端更多地引入自動(dòng)化與智能化會(huì)是下一步發(fā)展的重點(diǎn)。智能情報(bào)分析系統(tǒng)應(yīng)從情報(bào)需求特點(diǎn)出發(fā),以科學(xué)技術(shù)與市場(chǎng)應(yīng)用情報(bào)服務(wù)為導(dǎo)向,以技術(shù)跟蹤、情報(bào)分析與智能預(yù)警技術(shù)為支撐,設(shè)計(jì)一套具有較強(qiáng)針對(duì)性和實(shí)用性,結(jié)合行為過(guò)程和技術(shù)過(guò)程,融合網(wǎng)絡(luò)搜索、數(shù)據(jù)挖掘、信息分析、人工智能等多學(xué)科領(lǐng)域知識(shí)和方法,能夠?qū)崟r(shí)、長(zhǎng)期、準(zhǔn)確地對(duì)科技前沿、政策法規(guī)、社會(huì)網(wǎng)絡(luò)活動(dòng)、最新動(dòng)態(tài)以及發(fā)展趨勢(shì)進(jìn)行跟蹤、監(jiān)測(cè)、采集、統(tǒng)計(jì)、分析和預(yù)警評(píng)價(jià)的科技情報(bào)服務(wù)體系。
3 智能情報(bào)分析系統(tǒng)的功能結(jié)構(gòu)
智能情報(bào)分析系統(tǒng)在資源方面具有數(shù)據(jù)集與知識(shí)庫(kù)、模型庫(kù)與方法庫(kù),在技術(shù)維度需要知識(shí)獲取技術(shù)、知識(shí)表示與組織技術(shù)、自然語(yǔ)言處理技術(shù)、人機(jī)交互技術(shù)、新型計(jì)算機(jī)術(shù)與深度學(xué)習(xí)技術(shù),在資源的基礎(chǔ)上通過(guò)這一系列技術(shù)實(shí)現(xiàn)以下功能:情報(bào)需求智能感知,海量信息智能獲取,多源信息動(dòng)態(tài)融合、多維關(guān)聯(lián)綜合分析、分析結(jié)果智能解讀、情報(bào)報(bào)告自動(dòng)生成、面向場(chǎng)景適時(shí)服務(wù)。在資源、技術(shù)與功能之間通過(guò)智能分析引擎實(shí)現(xiàn)連接與驅(qū)動(dòng),智能分析引擎包括認(rèn)知模型、業(yè)務(wù)邏輯規(guī)則系統(tǒng)、算法調(diào)度引擎、驗(yàn)證與評(píng)估器四個(gè)構(gòu)件,是整個(gè)系統(tǒng)的核心與動(dòng)力(見圖1)。
3.1 問(wèn)題情境快速建模
在大數(shù)據(jù)環(huán)境下,越來(lái)越重視用戶場(chǎng)景,只有分析出用戶的場(chǎng)景,并針對(duì)場(chǎng)景的變化實(shí)時(shí)更新服務(wù)的內(nèi)容與方式,才能更好地理解并合理地滿足用戶需求,用戶對(duì)產(chǎn)品與服務(wù)的接受程度、滿意程度從而會(huì)有大幅度地提高。情報(bào)問(wèn)題與任務(wù)往往具有很強(qiáng)的動(dòng)態(tài)性與個(gè)性化,這個(gè)特點(diǎn)導(dǎo)致很難生產(chǎn)出一套通用的情報(bào)分析系統(tǒng)。大數(shù)據(jù)環(huán)境下,可以通過(guò)多種渠道收集用戶的數(shù)據(jù),基于用戶數(shù)據(jù)為用戶(包括機(jī)構(gòu)用戶與個(gè)人用戶)所處的情報(bào)問(wèn)題與任務(wù)進(jìn)行快速建模。針對(duì)不同的環(huán)境與時(shí)間節(jié)點(diǎn),在用戶基本屬性的基礎(chǔ)上,可迅速構(gòu)建情報(bào)問(wèn)題動(dòng)態(tài)要素及指標(biāo),梳理并計(jì)算要素之間的相關(guān)關(guān)系與制約關(guān)系,確定要素之間的權(quán)重、時(shí)間先后關(guān)系等,形成情報(bào)問(wèn)題任務(wù)與情境的模型。從注重分析過(guò)程向問(wèn)題與情景方面轉(zhuǎn)化,是智能情報(bào)分析系統(tǒng)發(fā)展的一個(gè)趨勢(shì)。在情報(bào)系統(tǒng)中會(huì)有很多關(guān)于情景問(wèn)題與應(yīng)用場(chǎng)景的研究、相關(guān)數(shù)據(jù)的支撐、模型的建立、決策影響因素的制約關(guān)系計(jì)算。
3.2 智能采集信息
情報(bào)分析系統(tǒng)需要實(shí)時(shí)關(guān)注最新信息,需要廣泛地從網(wǎng)絡(luò)上采集各類信息。智能信息采集是情報(bào)分析系統(tǒng)的基礎(chǔ)與關(guān)鍵,智能信息采集需要確定信息源與信息類型,自動(dòng)探測(cè)信息分布,評(píng)估任務(wù)所需信息量,然后進(jìn)行自動(dòng)采集,對(duì)采集下來(lái)的信息進(jìn)行過(guò)濾、篩選與甄別。自動(dòng)采集雖然技術(shù)上比較成熟,但由于網(wǎng)絡(luò)采集信息需要依賴于網(wǎng)頁(yè)特點(diǎn),網(wǎng)站存在改版更新、網(wǎng)頁(yè)設(shè)計(jì)布局時(shí)常變化等特點(diǎn),所以如何識(shí)別網(wǎng)頁(yè)特征、自適應(yīng)配置采集規(guī)則、動(dòng)態(tài)調(diào)整模板與參數(shù)需要體現(xiàn)出很強(qiáng)的智能性。
3.3 多源異構(gòu)動(dòng)態(tài)融合
在智能情報(bào)分析系統(tǒng)中,采集網(wǎng)絡(luò)信息只是一個(gè)方面,很多情報(bào)任務(wù)還需要從某些專業(yè)數(shù)據(jù)庫(kù)中加載數(shù)據(jù)以及從自有的信息資源中識(shí)別出關(guān)聯(lián)信息。要描述當(dāng)前的競(jìng)爭(zhēng)環(huán)境、技術(shù)前沿,傳統(tǒng)的單一的數(shù)據(jù)是不完備的,需要綜合論文、專利、政策、標(biāo)準(zhǔn)、產(chǎn)品、市場(chǎng)、網(wǎng)絡(luò)挖掘、新聞?shì)浨榈炔煌瑏?lái)源、不同結(jié)構(gòu)、不同內(nèi)容揭示的數(shù)據(jù)進(jìn)行集成融合,形成多源、異構(gòu)、跨域的大數(shù)據(jù),通過(guò)匯集這些多源的數(shù)據(jù),實(shí)現(xiàn)對(duì)各類數(shù)據(jù)的即時(shí)交叉比對(duì)生成準(zhǔn)確及時(shí)的各類信息,為問(wèn)題診斷、態(tài)勢(shì)評(píng)估與形勢(shì)分析提供全面的數(shù)據(jù)支撐與情報(bào)參考。把多源異構(gòu)的信息進(jìn)行動(dòng)態(tài)融合,用數(shù)據(jù)的多源性減少信息的不確定性、保證情報(bào)產(chǎn)品的客觀性,從而提高決策分析的科學(xué)性。endprint
3.4 多維關(guān)聯(lián)與可視化智能分析
智能情報(bào)分析系統(tǒng)可以從多源異構(gòu)大數(shù)據(jù)中發(fā)現(xiàn)一些清晰的線索,弄清行業(yè)或?qū)W科發(fā)展的來(lái)龍去脈,利用論文、專利等數(shù)據(jù)快速繪制技術(shù)路線圖、產(chǎn)品生命周期圖、學(xué)科發(fā)展脈絡(luò)圖。把不同的數(shù)據(jù)組合起來(lái),進(jìn)行關(guān)聯(lián)映射與分析,既可以形成一些群組,也可以發(fā)現(xiàn)一些有用的關(guān)系與模式,確定關(guān)鍵人物、事件、聯(lián)系和模式,計(jì)算數(shù)據(jù)之間的共性與關(guān)聯(lián)關(guān)系,運(yùn)用關(guān)聯(lián)規(guī)則、聚類分析、社會(huì)網(wǎng)絡(luò)分析、向量空間模型等一系列分析方法,對(duì)于整個(gè)行業(yè)或問(wèn)題所涉及到的整體全貌進(jìn)行呈現(xiàn)。智能情報(bào)分析系統(tǒng)可以實(shí)現(xiàn)資源之間的相互鏈接與揭示、概念之間的關(guān)系發(fā)現(xiàn),支持各種主題分析、聚類分析。
可視化智能分析將各類數(shù)據(jù)以圖形的方式展現(xiàn)出來(lái),通過(guò)社會(huì)網(wǎng)絡(luò)圖、云圖、雷達(dá)圖、熱力圖等圖形的方式對(duì)數(shù)據(jù)和數(shù)據(jù)間的關(guān)聯(lián)進(jìn)行描述和展現(xiàn),運(yùn)用眾多圖形分析的方法(如關(guān)聯(lián)分析、網(wǎng)絡(luò)分析、路徑分析、時(shí)間序列分析、空間分析等)來(lái)發(fā)現(xiàn)和揭示數(shù)據(jù)中隱含的公共要素和關(guān)聯(lián)。實(shí)現(xiàn)重要與關(guān)鍵信息的標(biāo)注、時(shí)間演化與發(fā)展路線圖,支持演化分析、技術(shù)發(fā)展路徑分析;支持發(fā)展趨勢(shì)預(yù)測(cè)分析,決策場(chǎng)景要素分析,對(duì)決策所涉及的影響要素與要素之間的關(guān)系進(jìn)行直觀的可視化展示。
3.5 分析結(jié)果智能解讀
在結(jié)果解讀方面,傳統(tǒng)的信息分析是從空間上發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系,包括關(guān)聯(lián)規(guī)則挖掘、聚類分析等,或者從時(shí)間上發(fā)現(xiàn)數(shù)據(jù)的變化以及變化的規(guī)律,包括時(shí)間序列分析、預(yù)測(cè)分析等。能夠進(jìn)行復(fù)雜的可視化展示,但是對(duì)結(jié)果如何解讀,數(shù)據(jù)所呈現(xiàn)出的規(guī)律、數(shù)據(jù)所折射出的現(xiàn)象以及數(shù)據(jù)背后的原因都需要專家結(jié)合數(shù)據(jù)分析經(jīng)驗(yàn)以及行業(yè)知識(shí)進(jìn)行解讀判斷。智能情報(bào)分析系統(tǒng)可以從某種程度上代替人做一些智能分析的工作。如數(shù)據(jù)年度增長(zhǎng)圖或產(chǎn)品生命周期圖,傳統(tǒng)的做法是專家根據(jù)數(shù)據(jù)特點(diǎn)劃分為幾個(gè)階段,整個(gè)發(fā)展或增長(zhǎng)過(guò)程符合哪一種增長(zhǎng)曲線。智能情報(bào)分析可以利用機(jī)器學(xué)習(xí)的方式發(fā)現(xiàn)數(shù)據(jù)的規(guī)律,探尋相關(guān)因素分析數(shù)據(jù)現(xiàn)象及現(xiàn)象背后的原因,用自然語(yǔ)言的方式給出可供選擇的方案。不斷地累積行業(yè)規(guī)則、分析模式,形成一套流程化的情報(bào)分析方案,輔助生成情報(bào)報(bào)告。
3.6 情報(bào)報(bào)告輔助生成
不管專家撰寫的情報(bào)報(bào)告還是智能情報(bào)分析系統(tǒng)生成的情報(bào)報(bào)告,其報(bào)告的內(nèi)容一定是體現(xiàn)了智能成分(專家智慧或人工智能),其報(bào)告的核心與關(guān)鍵內(nèi)容是一般人員或情報(bào)用戶不能從其他方式或渠道直接獲取的,這樣的情報(bào)報(bào)告才會(huì)讓情報(bào)用戶眼前一亮,才會(huì)更好地吸引情報(bào)用戶。要想產(chǎn)出有獨(dú)特視角、獨(dú)特觀點(diǎn)和高質(zhì)量的研究報(bào)告,必須依賴專家的特色理論以及專家對(duì)本專業(yè)領(lǐng)域情報(bào)信息敏銳的洞察力和分析力,不同的機(jī)構(gòu)、不同的研究人員對(duì)同一數(shù)據(jù)資源可能會(huì)得出不同的分析結(jié)論[18],這種不同的結(jié)論對(duì)于多角度透視事物的本質(zhì),以及增加理性思考與判斷都有很重要的作用。在用戶建模、數(shù)據(jù)搜集與加載、多維分析與可視化展示、報(bào)告模板生成方面等有規(guī)律的地方可以快速生成,情報(bào)分析人員只需要適當(dāng)?shù)膮⑴c即可。
3.7 面向場(chǎng)景適時(shí)服務(wù)
不同的時(shí)段與不同的場(chǎng)景會(huì)有不同的需求,有時(shí)需要及時(shí)跟蹤最新動(dòng)態(tài),有時(shí)需要對(duì)最新態(tài)勢(shì)進(jìn)行評(píng)估分析,有時(shí)需要情報(bào)人員梳理出技術(shù)發(fā)展路線,有時(shí)需要梳理出某一類人員的名單。因此作為情報(bào)研究人員,需要借助情報(bào)系統(tǒng)收集整合各類數(shù)據(jù)信息,對(duì)數(shù)據(jù)信息進(jìn)行多分類、多特征的標(biāo)簽,便于根據(jù)不同任務(wù)從不同的視角數(shù)據(jù)信息進(jìn)行切片、下鉆、分類匯總。如找出某一問(wèn)題的所有技術(shù)路線,按照時(shí)間繪出演化路線,展示各角色與角色之間的關(guān)系。這三種需求分別需要從主題內(nèi)容、時(shí)間軸以及角色分布三個(gè)維度進(jìn)行分析與匯總。情報(bào)問(wèn)題是動(dòng)態(tài)演化的,情報(bào)分析系統(tǒng)要針對(duì)時(shí)代特點(diǎn)、政策環(huán)境變化、領(lǐng)導(dǎo)活動(dòng)動(dòng)態(tài)適時(shí)調(diào)整情報(bào)描述的視角與內(nèi)容,只有針對(duì)問(wèn)題、數(shù)據(jù)基礎(chǔ)隨時(shí)變化、面向場(chǎng)景適時(shí)服務(wù)才能吸引情報(bào)分析人員持續(xù)地使用。
4 智能情報(bào)分析系統(tǒng)的核心組件
智能情報(bào)分析系統(tǒng)需要以大量的數(shù)據(jù)為基礎(chǔ),融合大數(shù)據(jù)與人工智能技術(shù),基于動(dòng)態(tài)知識(shí)圖譜和具體的業(yè)務(wù)場(chǎng)景模型,支持復(fù)雜業(yè)務(wù)問(wèn)題的自動(dòng)識(shí)別、判斷并做出前瞻或?qū)崟r(shí)決策的智能化產(chǎn)品系統(tǒng)。要實(shí)現(xiàn)情報(bào)系統(tǒng)的智能化,需要具備以下條件:海量的數(shù)據(jù)集與全領(lǐng)域知識(shí)庫(kù)支撐,豐富的模型庫(kù)與方法庫(kù)、機(jī)器學(xué)習(xí)算法、高效的分析引擎與推理機(jī)。
4.1 數(shù)據(jù)集與知識(shí)庫(kù)
智能情報(bào)分析系統(tǒng)需要將門類龐雜、種類繁多的海量數(shù)據(jù)進(jìn)行整合,建立統(tǒng)一的大數(shù)據(jù)語(yǔ)義知識(shí)網(wǎng)搜索平臺(tái),全面而深入挖掘信息之間的關(guān)聯(lián)關(guān)系,將分散的孤立的信息集中到一起,對(duì)不同來(lái)源的數(shù)據(jù)進(jìn)行交叉驗(yàn)證,互補(bǔ)融合。對(duì)數(shù)據(jù)進(jìn)行規(guī)范化以及內(nèi)容的揭示、語(yǔ)義的計(jì)算。為情報(bào)分析系統(tǒng)及時(shí)方便地根據(jù)任務(wù)加載數(shù)據(jù),需要建立完整的元數(shù)據(jù)目錄、數(shù)據(jù)接口以及數(shù)據(jù)使用日志。
在智能情報(bào)分析系統(tǒng)中,不管是機(jī)器學(xué)習(xí)的方式分析數(shù)據(jù)之間關(guān)系獲取知識(shí),還是人工構(gòu)建行業(yè)知識(shí),都是為了讓系統(tǒng)具有更好的知識(shí)支撐。情報(bào)分析的過(guò)程主要是基于數(shù)據(jù)的規(guī)律,對(duì)數(shù)據(jù)進(jìn)行加工處理、分析挖掘,而這些規(guī)律就是知識(shí),包括有效數(shù)據(jù)的判別與篩選知識(shí)、數(shù)據(jù)結(jié)構(gòu)的相關(guān)知識(shí)、多源數(shù)據(jù)的融合知識(shí),信息甄別知識(shí)、相關(guān)性判斷知識(shí)、計(jì)量分析知識(shí),以及自然科學(xué)和社會(huì)科學(xué)等專業(yè)領(lǐng)域知識(shí)。梳理情報(bào)任務(wù)所面向行業(yè)的知識(shí)體系,將各類數(shù)據(jù)庫(kù)整合為統(tǒng)一的知識(shí)圖譜,以國(guó)際統(tǒng)一的本體網(wǎng)絡(luò)語(yǔ)言O(shè)WL表示知識(shí),并利用知識(shí)圖譜技術(shù)實(shí)現(xiàn)行業(yè)情報(bào)的推理與應(yīng)用。
4.2 模型庫(kù)與方法庫(kù)
在智能情報(bào)分析系統(tǒng)中不可缺少模型。模型是對(duì)現(xiàn)實(shí)世界與復(fù)雜問(wèn)題的抽象,從抽象層次上描述系統(tǒng)的靜態(tài)特征、動(dòng)態(tài)行為和約束條件,主要包括業(yè)務(wù)模型、數(shù)據(jù)模型、算法模型與系統(tǒng)模型等。基于多維度的數(shù)據(jù)挖掘、統(tǒng)計(jì)分析,進(jìn)行算法模型的建立和調(diào)優(yōu)。要?jiǎng)?chuàng)建足夠透明的深度學(xué)習(xí)模型以解釋它們的預(yù)測(cè),特別是當(dāng)這些模型的結(jié)果被用來(lái)影響或告知人類決策時(shí)。
方法庫(kù)有著對(duì)方法的詳細(xì)的描述,包括方法的定義、分類、輸入與輸出、處理流程、應(yīng)用范圍、主要功能、優(yōu)缺點(diǎn)等。基于流程的情報(bào)方法體系包括情報(bào)收集方法、信息融合方法、數(shù)據(jù)清洗方法、信息分析方法、情報(bào)研究方法以及情報(bào)傳遞方法等。其中信息分析方法包括計(jì)量分析方法、模式分析方法、關(guān)聯(lián)分析方法、聚類分析方法、網(wǎng)絡(luò)分析方法、演化分析方法、共現(xiàn)分析方法、異常分析方法等,從數(shù)據(jù)挖掘的角度又包括關(guān)聯(lián)規(guī)則挖掘、分類與聚類、回歸分析、連接分析、決策樹、粗糙集、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。endprint
4.3 機(jī)器學(xué)習(xí)算法
當(dāng)前人工智能之所以如此火,與前幾年對(duì)大數(shù)據(jù)的研究與重視分不開的,有了海量的數(shù)據(jù)基礎(chǔ),還需要一個(gè)好的學(xué)習(xí)機(jī)制與算法,能從大量的數(shù)據(jù)中進(jìn)行學(xué)習(xí),總結(jié)出規(guī)律與特征,通過(guò)不斷地優(yōu)化與迭代,逐步逼近目標(biāo),這就是機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)按照學(xué)習(xí)方法分為機(jī)械式學(xué)習(xí)、指導(dǎo)式學(xué)習(xí)、示例學(xué)習(xí)、類比學(xué)習(xí)與解釋學(xué)習(xí)。根據(jù)學(xué)習(xí)能力分為有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí),以及介于兩者之間的強(qiáng)化學(xué)習(xí)。其中,監(jiān)督學(xué)習(xí)方法利用一組已知類別的樣本調(diào)整分類器的參數(shù)不斷優(yōu)化并提高性能,主要包括卷積神經(jīng)網(wǎng)絡(luò)、Hopfield網(wǎng)絡(luò)、徑向基函數(shù)網(wǎng)絡(luò)、貝葉斯學(xué)習(xí)、決策樹、線性分類;無(wú)監(jiān)督學(xué)習(xí)根據(jù)未標(biāo)記過(guò)的訓(xùn)練樣本解決模式識(shí)別中的各種問(wèn)題,包括對(duì)抗生成網(wǎng)絡(luò)、前饋神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則學(xué)習(xí)、分層聚類、聚類分析、k-最近鄰算法;半監(jiān)督學(xué)習(xí)包括生成模型、低密度分離、基于圖形的方法、聯(lián)合訓(xùn)練等方法。
AlphaGo結(jié)合了深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和蒙特卡洛樹搜索這三種算法,深度強(qiáng)化學(xué)習(xí)(DQN)是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合,就是用深度學(xué)習(xí)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)動(dòng)態(tài)場(chǎng)景的特征,然后通過(guò)強(qiáng)化學(xué)習(xí)對(duì)應(yīng)場(chǎng)景特征的決策動(dòng)作序列。深度學(xué)習(xí)主要包括深度信念網(wǎng)絡(luò)、深度卷積神經(jīng)網(wǎng)絡(luò)、深度遞歸神經(jīng)網(wǎng)絡(luò)、分層時(shí)間記憶、深度玻爾茲曼機(jī)等等。在深度學(xué)習(xí)的基礎(chǔ)上又進(jìn)行了擴(kuò)展,包括增強(qiáng)學(xué)習(xí)、增量學(xué)習(xí)、遷移學(xué)習(xí)等[19]。這些好的學(xué)習(xí)算法能夠起作用,主要依賴于豐富的數(shù)據(jù)集作為訓(xùn)練語(yǔ)料。圖像識(shí)別依賴于已經(jīng)標(biāo)注好的豐富的圖片庫(kù),AlphaGo也是依賴于大量的訓(xùn)練,即使Alpha zero不和對(duì)方博弈,通過(guò)自己博弈,也是訓(xùn)練了500萬(wàn)盤棋,從中不斷地學(xué)習(xí)特征與優(yōu)化算法。
4.4 智能分析引擎
智能情報(bào)分析系統(tǒng)具有豐富的數(shù)據(jù)集與知識(shí)庫(kù),通過(guò)模型庫(kù)與方法庫(kù)進(jìn)行分析,但調(diào)用何種模型與方法,執(zhí)行效果如何等,需要有一個(gè)智能分析引擎進(jìn)行調(diào)動(dòng)與驅(qū)動(dòng)。智能分析引擎是情報(bào)分析系統(tǒng)的關(guān)鍵與核心,由認(rèn)知模型、業(yè)務(wù)邏輯規(guī)則系統(tǒng)、算法調(diào)度引擎、驗(yàn)證與評(píng)估器組成。
認(rèn)知模型包括用戶畫像與場(chǎng)景分析引擎,通過(guò)分析情報(bào)用戶的類型、調(diào)取情報(bào)用戶靜態(tài)屬性以及監(jiān)測(cè)情報(bào)用戶動(dòng)態(tài)信息,整合用戶需求興趣偏好信息,從不同維度為用戶賦予合適的標(biāo)簽,提取用戶的共性群體特征,并揭示情報(bào)用戶的個(gè)體特征與偏好,準(zhǔn)確地刻畫出“千人千面”,以便準(zhǔn)確地提供個(gè)性化服務(wù)與精準(zhǔn)推薦。情報(bào)需求由情報(bào)需求類型、情報(bào)需求主題以及情報(bào)需求情境三個(gè)維度構(gòu)成。
通過(guò)認(rèn)知模型確定用戶需求與場(chǎng)景之后,利用業(yè)務(wù)邏輯系統(tǒng)調(diào)取相關(guān)資源。情報(bào)需求是動(dòng)態(tài)監(jiān)測(cè)還是領(lǐng)域分析?是技術(shù)分析還是政策分析?通過(guò)業(yè)務(wù)邏輯規(guī)則系統(tǒng)進(jìn)行確定。根據(jù)業(yè)務(wù)領(lǐng)域搜索相關(guān)的知識(shí),對(duì)多源異構(gòu)知識(shí)進(jìn)行融合,針對(duì)不同行業(yè),按照行業(yè)特點(diǎn),制定精細(xì)的行業(yè)推薦規(guī)則。搜索的任務(wù)包括根據(jù)任務(wù)描述搜索相應(yīng)的數(shù)據(jù)信息,根據(jù)分析工作的需要搜索相應(yīng)的支撐知識(shí)。搜索算法包括深度搜索、廣度搜索、啟發(fā)式搜索:A*搜索 state-space representation, pruning strategy, beam search, game tree search, alhpa-beta搜索。
算法調(diào)度引擎就是要建立數(shù)據(jù)、問(wèn)題方法之間的關(guān)系。情報(bào)分析方法眾多,如何選擇方法有時(shí)會(huì)成為一個(gè)問(wèn)題,而使用智能agent,根據(jù)應(yīng)用場(chǎng)景與問(wèn)題的變化動(dòng)態(tài)選擇合適的研究方法,就是體現(xiàn)情報(bào)智能性的一個(gè)標(biāo)志。驗(yàn)證與評(píng)估器主要負(fù)責(zé)對(duì)監(jiān)控分析過(guò)程,對(duì)相應(yīng)的執(zhí)行階段進(jìn)行評(píng)估,根據(jù)評(píng)估結(jié)果給出下一步的動(dòng)作,是繼續(xù)分析還是回溯反饋等。
5 智能情報(bào)分析系統(tǒng)的關(guān)鍵技術(shù)
智能情報(bào)分析系統(tǒng)除了分布式云計(jì)算技術(shù)、大規(guī)模并行計(jì)算技術(shù)、高維數(shù)據(jù)關(guān)聯(lián)分析技術(shù)、數(shù)據(jù)可視化展示技術(shù)、用戶畫像與個(gè)性化推薦技術(shù)等通用大數(shù)據(jù)技術(shù)外,要使情報(bào)系統(tǒng)更好地運(yùn)轉(zhuǎn),還需要知識(shí)獲取技術(shù)、知識(shí)表示與組織技術(shù)、自然語(yǔ)言處理技術(shù)、人機(jī)交互技術(shù)以及新型計(jì)算技術(shù)。
5.1 知識(shí)獲取技術(shù)
知識(shí)庫(kù)構(gòu)建有四種方法:(1)知識(shí)工程師方法。由知識(shí)工程師編寫領(lǐng)域知識(shí)規(guī)則錄入知識(shí)庫(kù)或者人工構(gòu)建本體,是傳統(tǒng)的知識(shí)獲取方法;(2)資料轉(zhuǎn)化方法。把主題詞表、本體等轉(zhuǎn)化為知識(shí)圖譜,形成機(jī)器可讀的知識(shí)。知識(shí)圖譜本質(zhì)上是一種語(yǔ)義網(wǎng)絡(luò),圖中的結(jié)點(diǎn)代表實(shí)體(entity)或者概念(concept),邊代表實(shí)體/概念之間的各種語(yǔ)義關(guān)系;(3)知識(shí)抽取方法。知識(shí)抽取是指從各種類型的數(shù)據(jù)和信息資源中獲取各種知識(shí)的過(guò)程,從多種媒體資源(如文本、圖像、視頻、音頻等)中抽取出知識(shí),從數(shù)據(jù)集中發(fā)現(xiàn)重要模式的過(guò)程等[20]。通過(guò)知識(shí)抽取從多種數(shù)據(jù)源獲得采用某種知識(shí)表示形式的,完整、正確、無(wú)歧義的知識(shí)元及其語(yǔ)義關(guān)系,進(jìn)而作為后續(xù)知識(shí)融合的輸入,這種知識(shí)抽取和組織完全依賴于對(duì)知識(shí)間的各種關(guān)系的認(rèn)識(shí)、挖掘和組織;(4)知識(shí)發(fā)現(xiàn)方法。從大量的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則,并把知識(shí)表示成計(jì)算機(jī)可以理解、可以推理的本體,與深度學(xué)習(xí)等智能算法結(jié)合起來(lái)。知識(shí)抽取重在把人們已經(jīng)顯性表達(dá)出來(lái)的知識(shí)結(jié)構(gòu)化、計(jì)算機(jī)化。知識(shí)發(fā)現(xiàn)重在發(fā)現(xiàn)對(duì)人們新穎的、事先未知的知識(shí)。
5.2 知識(shí)表示與組織技術(shù)
如何表示并組織好知識(shí),讓計(jì)算機(jī)可以很好地識(shí)別與利用知識(shí)是智能情報(bào)分析系統(tǒng)的關(guān)鍵。知識(shí)圖譜就是當(dāng)代最通用的語(yǔ)義知識(shí)表示形式化框架。知識(shí)圖譜的節(jié)點(diǎn)就是語(yǔ)義學(xué)里面說(shuō)的 “符號(hào)根基(symbol grounding)”,即語(yǔ)言符號(hào)與真實(shí)或想象空間中的對(duì)象的對(duì)接,在計(jì)算機(jī)中體現(xiàn)為語(yǔ)言符號(hào)與數(shù)字化對(duì)象的對(duì)接。邊則是語(yǔ)義學(xué)里面說(shuō)的“角色指派(role assignment)”,在計(jì)算機(jī)中體現(xiàn)為每個(gè)數(shù)字化對(duì)象與其他數(shù)字化對(duì)象之間的語(yǔ)義關(guān)系標(biāo)簽。
語(yǔ)義結(jié)構(gòu)表示框架中,現(xiàn)有的知識(shí)圖譜可以描述實(shí)體、關(guān)系、屬性(狀態(tài))及其值這三類要素,但是對(duì)于情感、程度變化、因果條件、邏輯模態(tài)等,現(xiàn)有的知識(shí)圖譜結(jié)構(gòu)并不能很好地表達(dá),需要進(jìn)行改造建立事理圖譜才能適應(yīng)這些語(yǔ)義要素的表示。知識(shí)圖譜研究對(duì)象為名詞性實(shí)體及其關(guān)系,事理圖譜研究對(duì)象是謂詞性事件及其關(guān)系。知識(shí)圖譜的主要形式是實(shí)體屬性和關(guān)系,事理圖譜則是事理邏輯關(guān)系以及概率轉(zhuǎn)移信息。事件間的演化關(guān)系多數(shù)是不確定的,而實(shí)體之間的關(guān)系基本是穩(wěn)定的。endprint
5.3 人機(jī)交互技術(shù)
運(yùn)用自然語(yǔ)言問(wèn)答、大數(shù)據(jù)可視化、知識(shí)圖譜化、地圖GIS化等手段,提供大量方便的人機(jī)交互接口,實(shí)現(xiàn)人與機(jī)器的完美融合以及人與人之間的協(xié)同工作。智能情報(bào)分析系統(tǒng)對(duì)情報(bào)分析人員提供全文位的精準(zhǔn)檢索與面向問(wèn)題的智能問(wèn)答,支持面向文檔的主題檢索、屬性特征檢索以及面向問(wèn)題的語(yǔ)義檢索,支持面向技術(shù)方案、產(chǎn)品市場(chǎng)、機(jī)構(gòu)人員的精準(zhǔn)檢索。輔助情報(bào)分析人員快速準(zhǔn)確地找到問(wèn)題的關(guān)鍵,問(wèn)題的支撐數(shù)據(jù)、基本面數(shù)據(jù)、核心情報(bào)數(shù)據(jù)。通過(guò)檢索引擎,為情報(bào)人員提供從海量數(shù)據(jù)中尋找蛛絲馬跡的服務(wù)。通過(guò)人機(jī)接口,提供語(yǔ)音輸入,基本實(shí)現(xiàn)面向領(lǐng)域問(wèn)題的人機(jī)對(duì)話等。通過(guò)可視化技術(shù)實(shí)時(shí)展示各種信息分析結(jié)果,包括知識(shí)圖譜、社會(huì)網(wǎng)絡(luò)關(guān)系、大數(shù)據(jù)分析結(jié)果等。通過(guò)集成研討廳支持多面板同時(shí)展示,支持研討廳大屏、辦公電腦中屏以及移動(dòng)端小屏多級(jí)展示,可以同時(shí)展示情報(bào)分析各要素及要素之間的關(guān)系,可以展示歷史演進(jìn)過(guò)程,可以對(duì)未來(lái)的場(chǎng)景以及場(chǎng)景變化進(jìn)行仿真模擬。
5.4 自然語(yǔ)言處理技術(shù)
智能情報(bào)分析系統(tǒng)所處理的數(shù)據(jù)對(duì)象很多是文本格式的,如論文、專利、新聞、政策等。智能情報(bào)分析系統(tǒng)的有些支撐資源也是文本格式的,如知識(shí)庫(kù);情報(bào)分析系統(tǒng)的自然語(yǔ)言檢索接口、人機(jī)對(duì)話接口也是以自然語(yǔ)言為媒介的,而這些問(wèn)題的解決都需要自然語(yǔ)言處理技術(shù)的支撐。自然語(yǔ)言處理已經(jīng)成為一種應(yīng)用賦能技術(shù),隨著實(shí)體知識(shí)庫(kù)的構(gòu)建、知識(shí)抽取和自動(dòng)寫作在特定領(lǐng)域的實(shí)用化和對(duì)話機(jī)器人從對(duì)接語(yǔ)料到對(duì)接知識(shí)圖譜的換代,通過(guò)新一代人工智能創(chuàng)新創(chuàng)業(yè)團(tuán)隊(duì),全面滲透到人工智能應(yīng)用的各個(gè)角落。自然語(yǔ)言處理從淺層到深層面臨范式轉(zhuǎn)換,還處在對(duì)接情感計(jì)算與常識(shí)計(jì)算的戰(zhàn)略性要地的關(guān)鍵位置。
自然語(yǔ)言處理技術(shù)的應(yīng)用場(chǎng)景甚廣,大致可分為分析型、生成型和交互型三類。輿情監(jiān)控系統(tǒng)是典型的分析型系統(tǒng);報(bào)告撰寫系統(tǒng)是典型的生成型系統(tǒng);各類聊天機(jī)器人是典型的交互型系統(tǒng)。從計(jì)算的角度,文本的向量化是跨越統(tǒng)計(jì)和聯(lián)結(jié)兩大陣營(yíng)的?;诮y(tǒng)計(jì)的向量化方法是潛在語(yǔ)義索引(LSI)模型,基于聯(lián)結(jié)的向量化方法是詞嵌入(Word embedding)模型,前者具有保距離特性,后者具有保運(yùn)算特性而且可與任務(wù)派生的優(yōu)化目標(biāo)深度耦合。目前,嵌入技術(shù)已經(jīng)不局限于詞,也可以整結(jié)構(gòu)、整句嵌入了。但是總體上,當(dāng)前技術(shù)能夠大規(guī)模處理的,仍然只是具有 “淺層句法” 或者 “簡(jiǎn)單標(biāo)記” 的 NLP 任務(wù)。更復(fù)雜語(yǔ)言現(xiàn)象的理解、更復(fù)雜語(yǔ)義關(guān)系的抽取,仍然任重道遠(yuǎn)[21]。
5.5 新型計(jì)算技術(shù)
新型計(jì)算技術(shù)包括語(yǔ)義計(jì)算、屬性計(jì)算、情景計(jì)算、差異計(jì)算以及信號(hào)計(jì)算。由主題計(jì)算轉(zhuǎn)向?qū)傩詾橹鞯姆置嬗?jì)算以及面向任務(wù)的場(chǎng)景計(jì)算為主。信息檢索、知識(shí)主題圖、熱點(diǎn)分析、文本聚類、信息抽取、潛在語(yǔ)義索引、神經(jīng)網(wǎng)絡(luò)、LDA模型,雖然帶有一定的語(yǔ)義計(jì)算,但本質(zhì)上還是以關(guān)鍵詞為核心要素的計(jì)算,是通過(guò)詞語(yǔ)為特征構(gòu)建相應(yīng)的向量實(shí)現(xiàn)語(yǔ)義計(jì)算。目前的神經(jīng)網(wǎng)絡(luò)主要對(duì)特征起反應(yīng),尚不能對(duì)語(yǔ)義起反應(yīng),也就是說(shuō),即使機(jī)器做出了正確的選擇,但可能并不理解業(yè)務(wù)本身。在計(jì)算機(jī)圖像識(shí)別中,可以通過(guò)大量的訓(xùn)練樣本及學(xué)習(xí),感覺(jué)到數(shù)據(jù)的特征并接近目標(biāo),識(shí)別出新圖片中的貓,但計(jì)算機(jī)并不能很好地理解究竟什么是貓,這一點(diǎn)與人的認(rèn)知還是有一定區(qū)別的。在谷歌的機(jī)器翻譯中,采用Seq2Seq與注意力機(jī)制,雖然大多數(shù)情況下翻譯的也很好,但這種端到端的學(xué)習(xí)難以解決語(yǔ)義的問(wèn)題。深度學(xué)習(xí)需要大量的訓(xùn)練數(shù)據(jù),其機(jī)制與結(jié)果的解釋性并不強(qiáng),神經(jīng)網(wǎng)絡(luò)的隱含層就像黑箱一樣,內(nèi)容不為人所知。在計(jì)算的粒度上,主題計(jì)算更多地關(guān)注名詞或動(dòng)詞等反映內(nèi)容的實(shí)體詞,而涉及到情感、趨勢(shì)、傾向、個(gè)性化等分析往往需要更多地關(guān)注特征計(jì)算或?qū)傩杂?jì)算,需要更多地關(guān)注形容詞或副詞等修飾詞。如何面向問(wèn)題與用戶場(chǎng)景去加載數(shù)據(jù)、構(gòu)建模型,這些情景計(jì)算技術(shù)也是智能情報(bào)分析系統(tǒng)的關(guān)鍵技術(shù)之一。
傳統(tǒng)的計(jì)算更多地計(jì)算數(shù)據(jù)之間的共性與關(guān)聯(lián)關(guān)系,如關(guān)聯(lián)規(guī)則、聚類分析、社會(huì)網(wǎng)絡(luò)分析、向量空間模型等都是計(jì)算數(shù)據(jù)對(duì)象之間的共性特點(diǎn)。這些計(jì)算得到了很好地發(fā)展與應(yīng)用,技術(shù)進(jìn)步與方法研究已相對(duì)比較成熟。在信息量巨大的情況下,找出一些共性與關(guān)聯(lián)并不總是很有效,由文檔間的共性關(guān)聯(lián)計(jì)算轉(zhuǎn)向差異性對(duì)比計(jì)算將成為一個(gè)新的嘗試。通過(guò)差異性對(duì)比,識(shí)別出新需求、新產(chǎn)品、新理論、新方法、新技術(shù)、新方案會(huì)助力現(xiàn)代科技情報(bào)工作[22]。在未來(lái)趨勢(shì)分析以及場(chǎng)景分析時(shí),有些弱的信號(hào)也能逐步變強(qiáng),成為事情的主導(dǎo)力量或因素,這要求對(duì)信號(hào)分析也要有深入研究與持續(xù)跟蹤。語(yǔ)義計(jì)算、屬性計(jì)算、情景計(jì)算、差異計(jì)算以及信號(hào)計(jì)算這些新型計(jì)算技術(shù)也將成為智能情報(bào)分析系統(tǒng)能否切合需求、發(fā)揮作用的關(guān)鍵技術(shù)。
6 結(jié)語(yǔ)
隨著數(shù)據(jù)累積量的不斷加大與數(shù)據(jù)結(jié)構(gòu)類型的復(fù)雜多樣,新興信息技術(shù)包括深度學(xué)習(xí)(如云計(jì)算機(jī)技術(shù)、深度學(xué)習(xí)算法、各類數(shù)據(jù)挖掘算法以及自然語(yǔ)言技術(shù)的提高)以及用戶對(duì)情報(bào)需求的要求不斷提高,情報(bào)系統(tǒng)必然會(huì)朝著智能方向發(fā)展,這既是時(shí)代特點(diǎn)的展現(xiàn),也是行業(yè)發(fā)展的必然要求。按照?qǐng)D靈所提出的標(biāo)準(zhǔn),情報(bào)用戶對(duì)收到的情報(bào)報(bào)告難以判斷出報(bào)告的撰寫是由人還是由機(jī)器完成的,這份報(bào)告就成功地欺騙了人,實(shí)現(xiàn)了真正的智能。
但是,必須清楚地認(rèn)識(shí)到,在情報(bào)系統(tǒng)方面實(shí)現(xiàn)人工智能還有很長(zhǎng)的路要走。智能取代部分工作是發(fā)展的趨勢(shì),但不會(huì)是全部。與棋譜游戲、圖像識(shí)別等當(dāng)前流行的人工智能領(lǐng)域相比,情報(bào)分析領(lǐng)域的目標(biāo)更加復(fù)雜,在機(jī)器學(xué)習(xí)運(yùn)用方面也缺乏足夠的情報(bào)案例訓(xùn)練數(shù)據(jù),還有情報(bào)分析需要語(yǔ)義空間而不是特征空間,由于這些困難的存在,使得人工智能在情報(bào)領(lǐng)域的廣泛應(yīng)用充滿了挑戰(zhàn)。
情報(bào)行業(yè)必須認(rèn)清情報(bào)分析系統(tǒng)智能化的趨勢(shì),需要勇于接受這個(gè)挑戰(zhàn),把握住歷史發(fā)展的機(jī)遇,及時(shí)跟蹤并運(yùn)用大數(shù)據(jù)與智能技術(shù),面向社會(huì)發(fā)展與應(yīng)用需求,認(rèn)真研究情報(bào)行業(yè)特點(diǎn)與規(guī)律,運(yùn)用新的技術(shù)去解決行業(yè)共性與關(guān)鍵問(wèn)題,扎實(shí)推進(jìn)情報(bào)分析水平與服務(wù)。endprint
參考文獻(xiàn):
[1] 徐宏宇.新智能時(shí)代顛覆情報(bào)的未來(lái)——訪中科院自動(dòng)化研究所復(fù)雜系統(tǒng)管理與控制國(guó)家重點(diǎn)實(shí)驗(yàn)室主任王飛躍[J].競(jìng)爭(zhēng)情報(bào),2017,13(4):4-7.
[2] 林崇德,楊治良,黃希庭.心理學(xué)大辭典.上海:上海出版社,2003:1704.
[3] 王崇德.關(guān)于情報(bào)學(xué)[J].情報(bào)理論與實(shí)踐,1996(5):1-2.
[4] Brookes B C.The foundations of information science:Part I. Philosophical aspects[J].Journal of Information Science and Engineering,1980(2):125-133.
[5] 錢學(xué)森.科技情報(bào)工作的科學(xué)技術(shù)[J].情報(bào)理論與實(shí)踐,1983,6(6):3-10.
[6] 池建文.論情報(bào)的兩個(gè)基本問(wèn)題[J].情報(bào)學(xué)報(bào),2006,25( S1):290-293.
[7] 王忠軍,于偉,楊晴.科技情報(bào)機(jī)構(gòu)實(shí)踐創(chuàng)新發(fā)展專家訪談[J].情報(bào)理論與實(shí)踐,2017,40(12):145.
[8] 王延飛,趙柯然,陳美華.情報(bào)研究中的治學(xué)思考[J].圖書情報(bào)工作,2017,61(16):55-59.
[9] 李廣建,楊林.大數(shù)據(jù)視角下的情報(bào)研究與情報(bào)研究技術(shù)[J]. 圖書與情報(bào),2012(6):1-8.
[10] 張志強(qiáng).論科技情報(bào)研究新范式[J].情報(bào)學(xué)報(bào),2012,31(8):788-797.
[11] 賀德方.工程化思維下的科技情報(bào)研究范式——情報(bào)工程學(xué)探析[J].情報(bào)學(xué)報(bào),2014,33(12):1-13.
[12] 喬曉東,朱禮軍,李穎,等.大數(shù)據(jù)時(shí)代的技術(shù)情報(bào)工程[J].情報(bào)學(xué)報(bào),2014,33(12):38-53.
[13] 蘇新寧,朱曉峰.面向突發(fā)事件應(yīng)急決策的快速響應(yīng)情報(bào)體系構(gòu)建[J].情報(bào)學(xué)報(bào),2014,33(12):53-77.
[14] 李綱,葉光輝.網(wǎng)絡(luò)視角下的應(yīng)急情報(bào)體系“智慧”建設(shè)主題探討[J].情報(bào)理論與實(shí)踐,2014,37(8):51-55.
[15] 李綱,李陽(yáng).情報(bào)視角下的突發(fā)事件監(jiān)測(cè)與識(shí)別研究[J].圖書情報(bào)工作,2014,58(24):66-72.
[16] 王飛躍.知識(shí)產(chǎn)生方式和科技決策支撐的重大變革——面向大數(shù)據(jù)和開源信息的科技態(tài)勢(shì)解析與決策服務(wù)[J].中國(guó)科學(xué)院院刊,2012,27(5):527-537.
[17] 北京市科學(xué)技術(shù)委員會(huì)[EB/OL].[2018-01-13].http://www.bjkw.gov.cn/wzwj/2017chushen/src/I01-2017-030.html.
[18] 化柏林.論情報(bào)的本質(zhì)[J].情報(bào)理論與實(shí)踐,2012,35(7):1-5.
[19] 增強(qiáng)學(xué)習(xí)、增量學(xué)習(xí)、遷移學(xué)習(xí)——概念性認(rèn)知[EB/OL].[2017-12-23].http://blog.csdn.net/zyazky/article/details/51942135.
[20] 張智雄,吳振新,劉建華,等.當(dāng)前知識(shí)抽取的主要技術(shù)方法解析[J].現(xiàn)代圖書情報(bào)技術(shù),2008(8):2-11.
[21] 白碩:人工智能的詩(shī)與遠(yuǎn)方,一文讀懂NLP起源、流派和技術(shù)[EB/OL].[2018-01-11].http://www.sohu.com/a/215995721
_473283.
[22] 化柏林.科技信息大數(shù)據(jù)在情報(bào)研究服務(wù)中的應(yīng)用[J].圖書情報(bào)工作,2017,61(16):150-156.
作者簡(jiǎn)介:化柏林,男,北京大學(xué)信息管理系助理教授,博士;李廣建,男,北京大學(xué)信息管理系教授,博士生導(dǎo)師。endprint