摘 要:在智能信息系統(tǒng)整體架構(gòu)下,智能信息處理和智能信息分析的應(yīng)用前景包括智能分析、機(jī)器翻譯和自動(dòng)簡(jiǎn)報(bào)。DIKW概念鏈可以提供智能信息處理和智能信息分析的理論基礎(chǔ),自動(dòng)簡(jiǎn)報(bào)可作為智能信息處理和智能信息分析的標(biāo)志性應(yīng)用,自然語(yǔ)言理解是智能信息處理和智能信息分析的關(guān)鍵技術(shù)。
關(guān)鍵詞:智能信息處理;智能信息分析;自然語(yǔ)言理解;DIKW概念鏈
中圖分類號(hào):TP18;G250.252 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.11968/tsyqb.1003-6938.2017116
Abstract Under the framework of intelligent information system, the prospect applications of intelligent information processing (IIP) and intelligent information analysis (IIA) include intelligent analysis, machine translation and automatic summary report. It is pointed out that DIKW chain provided a theoretical foundation of IIP and IIA, and it is proposed that automatic summary report can be significant application of IIP and IIA. Natural language understanding (NLU) as key technology is strengthened.
Key words intelligent information processing; intelligent information analysis; natural language understanding; DIKW chain
在部署智能制造等國(guó)家重點(diǎn)研發(fā)計(jì)劃和實(shí)施“互聯(lián)網(wǎng)+”行動(dòng)方案基礎(chǔ)上,國(guó)務(wù)院于2017年7月發(fā)布了《新一代人工智能發(fā)展規(guī)劃》[1],把發(fā)展人工智能提升到了國(guó)策高度。這一發(fā)展規(guī)劃以“科技引領(lǐng)、系統(tǒng)布局、市場(chǎng)主導(dǎo)、開(kāi)源開(kāi)放”為基本原則,計(jì)劃分三步實(shí)現(xiàn)戰(zhàn)略目標(biāo):
第一步,到2020年人工智能總體技術(shù)和應(yīng)用與世界先進(jìn)水平同步,人工智能產(chǎn)業(yè)成為新的重要經(jīng)濟(jì)增長(zhǎng)點(diǎn),實(shí)現(xiàn)人工智能核心產(chǎn)業(yè)規(guī)模超過(guò)1500億元,帶動(dòng)相關(guān)產(chǎn)業(yè)規(guī)模超過(guò)1萬(wàn)億元。
第二步,到2025年人工智能基礎(chǔ)理論實(shí)現(xiàn)重大突破,部分技術(shù)與應(yīng)用達(dá)到世界領(lǐng)先水平,實(shí)現(xiàn)人工智能核心產(chǎn)業(yè)規(guī)模超過(guò)4000億元,帶動(dòng)相關(guān)產(chǎn)業(yè)規(guī)模超過(guò)5萬(wàn)億元。
第三步,到2030年人工智能理論、技術(shù)與應(yīng)用總體達(dá)到世界領(lǐng)先水平,成為世界主要人工智能創(chuàng)新中心,實(shí)現(xiàn)人工智能核心產(chǎn)業(yè)規(guī)模超過(guò)1萬(wàn)億元,帶動(dòng)相關(guān)產(chǎn)業(yè)規(guī)模超過(guò)10萬(wàn)億元。
在這一發(fā)展規(guī)劃中,與信息科技和情報(bào)學(xué)密切相關(guān)的既有大數(shù)據(jù)智能理論、類腦智能計(jì)算理論等新一代人工智能基礎(chǔ)理論,也有自然語(yǔ)言處理技術(shù)、跨媒體分析推理技術(shù)等新一代人工智能關(guān)鍵共性技術(shù),以及知識(shí)服務(wù)體系。本文沿襲作者對(duì)智能信息處理(Intelligent Information Processing,IIP)和智能信息分析(Intelligent Information Analysis,IIA)的前期探討[2-3],概略前瞻融入當(dāng)今人工智能的信息處理和信息分析,以期為情報(bào)界參與智能前沿領(lǐng)域和智能綜合應(yīng)用的創(chuàng)新提供微薄參考。
1 智能信息處理和智能信息分析的理論架構(gòu)
人工智能研究無(wú)疑有計(jì)算機(jī)學(xué)界一馬當(dāng)先,純粹技術(shù)不是情報(bào)學(xué)界所長(zhǎng),而信息處理與信息分析才體現(xiàn)情報(bào)學(xué)優(yōu)勢(shì),因而人工智能與情報(bào)學(xué)的最佳結(jié)合非智能信息處理和智能信息分析莫屬。
智能信息處理既包括海量多媒體信息檢索與處理、大數(shù)據(jù)挖掘與集成、機(jī)器翻譯、乃至生物信息處理與量子計(jì)算等,也包括電子政務(wù)、電子商務(wù)、電子金融等領(lǐng)域中的智能化數(shù)據(jù)處理,總之以處理復(fù)雜信息和海量信息為己任。智能信息分析則以從處理過(guò)的信息中發(fā)現(xiàn)情報(bào)和知識(shí)為目標(biāo)。盡管現(xiàn)有智能信息處理迷失在大數(shù)據(jù)里或淹沒(méi)在各種算法中[4-5],新一代人工智能的曙光正讓智能信息處理和智能信息分析在理論與技術(shù)的黎明中復(fù)蘇。
一個(gè)完整的智能信息系統(tǒng)架構(gòu)是一個(gè)有機(jī)體。其中智能信息處理作為前端,智能信息分析作為后端,以智能機(jī)把兩者耦合為一體(見(jiàn)圖1)。
這樣,信息由智能信息系統(tǒng)前端輸入,經(jīng)智能信息處理并提交智能信息分析后,從系統(tǒng)后端輸出情報(bào)。智能信息處理多為客觀成分,適用強(qiáng)人工智能技術(shù)支撐;智能信息分析則需主觀介入,適用弱人工智能技術(shù)支持。
依照DIKW概念鏈量化模型[6],客觀數(shù)據(jù)D經(jīng)輸入傳遞系統(tǒng)成為物理信息i;物理信息i經(jīng)社會(huì)傳遞,轉(zhuǎn)化為可接收的客觀信息I;可接收的客觀信息I經(jīng)主體吸收,轉(zhuǎn)化為帶有主體價(jià)值判斷的主觀信息J即情報(bào);情報(bào)J經(jīng)結(jié)構(gòu)化體系化而成為知識(shí)K;矩陣化個(gè)性化知識(shí)則構(gòu)成智慧W。
從客觀信息I到情報(bào)J間的轉(zhuǎn)化是一關(guān)鍵環(huán)節(jié)。根據(jù)對(duì)數(shù)透視原理[6],從客觀到主觀需經(jīng)對(duì)數(shù)轉(zhuǎn)換,同時(shí),為描述主體價(jià)值判斷,引進(jìn)價(jià)值系數(shù)v∈[0,1](匹配Rescher模型),可得如下關(guān)系式:
J=log I v=v log I (1)
式(1)確定了信息I和情報(bào)J的關(guān)系,即情報(bào)是信息的對(duì)數(shù)與價(jià)值系數(shù)的乘積。
在情報(bào)J進(jìn)一步轉(zhuǎn)化為知識(shí)K的過(guò)程中,采用分析信息學(xué)的合理假說(shuō)[7-8]:有價(jià)值的信息才會(huì)使知識(shí)增加,單位信息增量產(chǎn)生的單位知識(shí)增量應(yīng)與有價(jià)值信息量(情報(bào)量)成正比,即:
=kJ=k ln Iv (2)endprint
其中k是信息的知識(shí)轉(zhuǎn)化系數(shù)。于是,知識(shí)K是情報(bào)J對(duì)信息I的積分:
K=k∫JdI=k∫vlnIdI=kvI(lnI-1)+K0=K0+△K (3)
其中K0是積分常數(shù),代表原有的知識(shí);而ΔK代表了新增加的知識(shí)。這正是著名的布魯克斯基本方程,該推導(dǎo)過(guò)程的優(yōu)勢(shì)是給出了機(jī)理解釋[9]。
以上內(nèi)容可作為智能信息處理和智能信息分析的理論基礎(chǔ)。
2 智能信息處理和智能信息分析的應(yīng)用
作為智能信息處理的先驅(qū),Luhn和Salton等已對(duì)智能分類、智能標(biāo)引、智能文摘等進(jìn)行過(guò)開(kāi)拓性研究[10-13],智能檢索也在計(jì)算機(jī)科技的推動(dòng)下走向成熟,這些領(lǐng)域的智能化技術(shù)皆漸趨完善。未來(lái)的發(fā)展預(yù)期將是智能分析、機(jī)器翻譯和自動(dòng)簡(jiǎn)報(bào)。
2.1 智能分析
智能分析面臨的很多問(wèn)題需要自然語(yǔ)言理解支撐,尤其是中文信息的智能分析至少涉及:(1)詞切分和詞性標(biāo)注;(2)概念標(biāo)注與分析;(3)語(yǔ)義知識(shí)表示;(4)詞典與知識(shí)庫(kù);(5)句法及語(yǔ)義分析等。因此,智能分析的前景是在自然語(yǔ)言理解基礎(chǔ)上,融合已有的智能分類、智能標(biāo)引等技術(shù),發(fā)展出結(jié)合算法分析與計(jì)算智能的綜合應(yīng)用。
2.2 機(jī)器翻譯
機(jī)器翻譯的基本方法可分為基于規(guī)則(Rule-based)的方法和基于語(yǔ)料庫(kù)(Corpus-based)的方法兩大類。基于規(guī)則的機(jī)器翻譯又可以分為基于轉(zhuǎn)換的方法(Transform-based)和基于中間語(yǔ)言(Interlingua-based)的方法;而基于語(yǔ)料庫(kù)的方法又可以分為基于統(tǒng)計(jì)(Statistic-based)和基于實(shí)例(Example-based)的方法。從實(shí)用效果看,混合(Hybrid)方法是最有前途的方法。當(dāng)前,Google翻譯器已顯現(xiàn)出強(qiáng)大的人工智能特性,尤其是能實(shí)現(xiàn)多語(yǔ)種之間自由組合的智能化句級(jí)翻譯和段落翻譯,為今后的多語(yǔ)種機(jī)器翻譯提供了現(xiàn)實(shí)前景。
2.3 自動(dòng)簡(jiǎn)報(bào)
自動(dòng)簡(jiǎn)報(bào)是自動(dòng)文摘的升級(jí),當(dāng)年由Luhn首先提出[11]、后來(lái)由Salton[12-13]等不斷推進(jìn)改良的智能摘要已趨完善,如今一般通過(guò)原文文本分析、全文-文摘轉(zhuǎn)換、重組生成文摘即可實(shí)現(xiàn)自動(dòng)文摘。采用的方法既有基于符號(hào)、規(guī)則的方法,也有基于詞頻等文本表層特征的統(tǒng)計(jì)學(xué)方法。以后的自動(dòng)簡(jiǎn)報(bào)將期望對(duì)文本、多媒體信息等進(jìn)行智能化分析后提供類似摘要性質(zhì)并加以特征分析的報(bào)告,報(bào)告長(zhǎng)短可調(diào)控,真正實(shí)現(xiàn)輸入信息后自動(dòng)生成簡(jiǎn)報(bào)輸出。
以上應(yīng)用中自動(dòng)簡(jiǎn)報(bào)可作為標(biāo)志性應(yīng)用。由于這些應(yīng)用均涉及自然語(yǔ)言理解,因而自然語(yǔ)言理解技術(shù)作為關(guān)鍵技術(shù)若有突破就能帶動(dòng)智能信息處理和智能信息分析快速進(jìn)步。
3 自然語(yǔ)言理解是智能信息處理和智能信息分析的關(guān)鍵
要進(jìn)行完善的智能信息處理和智能信息分析,關(guān)鍵技術(shù)在于自然語(yǔ)言理解(Natural Language Understanding,NLU)[14]。由于人類智能在很大程度上需要通過(guò)自然語(yǔ)言表達(dá),因此對(duì)自然語(yǔ)言的理解是智能信息處理和智能信息分析的關(guān)鍵。計(jì)算機(jī)能否實(shí)現(xiàn)智能信息處理和智能信息分析,關(guān)鍵就在于能否理解自然語(yǔ)言。因此,《新一代人工智能發(fā)展規(guī)劃》把自然語(yǔ)言理解列入核心技術(shù)非常合理,自然語(yǔ)言理解的確是智能信息處理和智能信息分析的關(guān)鍵技術(shù)。
就目前國(guó)內(nèi)外較有代表性影響也較大的自然語(yǔ)言理解理論而言,有主要作用于英語(yǔ)理解的Chomsky轉(zhuǎn)換生成語(yǔ)法[15-16]、Schank概念依存理論[17-18]和主要作用于漢語(yǔ)理解的魯川句模理論[19-20]、黃曾陽(yáng)概念層次網(wǎng)絡(luò)(Hierarchical Network of Concept: HNC)[21-22]以及具有可比性的WordNet[23]和HowNet[24]等。如今真正能用于支撐技術(shù)研發(fā)的是WordNet和HowNet。
3.1 WordNet
WordNet最初由普林斯頓大學(xué)認(rèn)知科學(xué)實(shí)驗(yàn)室的心理學(xué)教授 George A. Miller創(chuàng)建于1985年,后由Christiane Fellbaum領(lǐng)導(dǎo)建設(shè)。該項(xiàng)目得到美國(guó)自然科學(xué)基金等的資助,其成就讓創(chuàng)始人George A. Miller和 Christiane Fellbaum 于2006年獲得Antonio Zampolli獎(jiǎng)。
WordNet的發(fā)展受益于語(yǔ)義網(wǎng)絡(luò)和概念依存思想的綜合,作為一個(gè)在線的英語(yǔ)詞匯數(shù)據(jù)庫(kù)(語(yǔ)義關(guān)系系統(tǒng)),WordNet的一個(gè)重要理論基礎(chǔ)是“可分離性假設(shè)”(Separability Hypothesis),即認(rèn)為語(yǔ)言的詞匯成分可以被離析出來(lái)并有專門針對(duì)性地加以研究。
在設(shè)計(jì)原理與方法上,WordNet以同義詞集合作為基本構(gòu)建單位進(jìn)行語(yǔ)義組織的,其基本設(shè)計(jì)原理是用“詞匯矩陣模型”,而一個(gè)詞匯矩陣從理論上可以用單詞及其同義詞集合之間的映射來(lái)表示。當(dāng)某個(gè)詞有多個(gè)同義詞時(shí),通常同義詞集合足以滿足差異性的要求。雖然同義詞只是詞形之間的一種詞匯關(guān)系,但由于這種關(guān)系在WordNet中被賦予了中心角色,因此同義關(guān)系的詞被放在{ }中,與其他被放進(jìn)[ ]中的詞匯關(guān)系的詞區(qū)別開(kāi)來(lái)。
這樣,用同義詞集Synsets(在一定語(yǔ)境中可以互換的同義詞的列表)來(lái)表示詞義,詞匯關(guān)系存在于詞形間,語(yǔ)義關(guān)系存在于詞義間。WordNet 2.0就把包括152059個(gè)詞(words)、115424同義詞集(synsets) 、203145個(gè)詞義對(duì)(word-sense pairs)等聯(lián)系成為一個(gè)包括了上下位、同義、反義、部分、整體等詞匯的語(yǔ)義關(guān)系網(wǎng)。至2012年11月發(fā)布WordNet3.1時(shí),該聯(lián)機(jī)數(shù)據(jù)庫(kù)已包含155287個(gè)詞、117659個(gè)同義詞集、206941個(gè)詞義對(duì),可壓縮成約12 MB數(shù)據(jù)集。
WordNet中只對(duì)自然語(yǔ)言理解分析過(guò)程中較為重要的名詞、動(dòng)詞、形容詞、副詞四類詞進(jìn)行處理,尤其注重名詞和動(dòng)詞。WordNet采用層次體系結(jié)構(gòu)來(lái)表示名詞,所有三種語(yǔ)義關(guān)系(下位義、部分義和反義)均被包含在內(nèi),結(jié)果組成一個(gè)互相連通的名詞概念網(wǎng)絡(luò)。WordNet原初目標(biāo)是要建立一個(gè)詞典瀏覽器,如今已發(fā)展成自足的詞匯數(shù)據(jù)庫(kù)和語(yǔ)義機(jī)讀詞典。endprint
3.2 HowNet
董振東、董強(qiáng)父子在WordNet啟發(fā)下從1988年開(kāi)始建立HowNet(知網(wǎng)),這是一個(gè)結(jié)合中英文語(yǔ)料、以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象、以揭示概念與概念之間以及概念所具有的語(yǔ)義關(guān)系和語(yǔ)義網(wǎng)絡(luò)為基本內(nèi)容的語(yǔ)義知識(shí)庫(kù)。
HowNet與WordNet的最重要差異在于其哲學(xué)思想,即認(rèn)為世界上一切事物(物質(zhì)的和精神的)都在特定的時(shí)間和空間內(nèi)不停地運(yùn)動(dòng)和變化,一個(gè)事物可以被視為是整體,也可以被認(rèn)為是部件;每一事物都包含有多種屬性;事物之間的異同是由屬性決定的。
在設(shè)計(jì)理論與方法上,HowNet采用與WordNet類似的自上而下的建設(shè)方法。其基本設(shè)計(jì)原理是把概念與概念之間的關(guān)系以及概念的屬性與屬性之間的關(guān)系組成一個(gè)網(wǎng)狀知識(shí)系統(tǒng),采用自上而下的歸納方法,通過(guò)對(duì)全部基本義原進(jìn)行觀察分析并形成義原標(biāo)注集,然后再用更多的概念對(duì)標(biāo)注集進(jìn)行核實(shí)并據(jù)此建立完善的標(biāo)注集。因此,提取義原作為基本構(gòu)建單位進(jìn)行語(yǔ)義組織是HowNet的關(guān)鍵。
在語(yǔ)義關(guān)系的描述上,HowNet中的上下位關(guān)系由概念的主要特征體現(xiàn),也具有繼承關(guān)系,而WordNet只是詞義之間的上下位關(guān)系;HowNet對(duì)于同義的定義與WordNet相似,但WordNet的同義關(guān)系是顯性的,而HowNet的同義關(guān)系是隱性的;HowNet中的反義關(guān)系則比WordNet定義的要寬泛些。
至2007年,HowNet形成了圍繞800多個(gè)事件義原構(gòu)成的標(biāo)注集及其標(biāo)注出的事件概念為網(wǎng)絡(luò)的知識(shí)庫(kù)。而HowNet的目標(biāo)是要建立一個(gè)面向計(jì)算機(jī)的多重語(yǔ)義關(guān)系及知識(shí)網(wǎng)絡(luò),為建立自然語(yǔ)言處理系統(tǒng)提供所需知識(shí)庫(kù)。
總的來(lái)看,WordNet擁有豐富的詞語(yǔ)概念,由于許多國(guó)家都在WordNet基礎(chǔ)上建立了詞匯數(shù)據(jù)庫(kù),所以WordNet已有多國(guó)語(yǔ)言處理的詞匯轉(zhuǎn)換接口,且一直在持續(xù)發(fā)展更新中,這是其顯著優(yōu)勢(shì)。HowNet則在語(yǔ)義知識(shí)構(gòu)建和推理設(shè)計(jì)方面有優(yōu)勢(shì),只可惜2007年后似已停滯。
從智能信息處理和智能信息分析的理論需要看,自然語(yǔ)言理解及其技術(shù)可以提供指導(dǎo)思想和操作技術(shù),因此具有作為基礎(chǔ)理論和關(guān)鍵技術(shù)的潛質(zhì)。但僅僅依靠自然語(yǔ)言理解在技術(shù)上也是不夠的,智能信息處理和智能信息分析不僅需要NLU,也需要計(jì)算智能與算法技術(shù)的集成,并與語(yǔ)義網(wǎng)(Semantic web)、 關(guān)聯(lián)數(shù)據(jù)(Linked data)等研究[25-26]整合發(fā)展。
4 結(jié)語(yǔ)
展望未來(lái),智能信息處理和智能信息分析的基礎(chǔ)理論可望形成,以自動(dòng)簡(jiǎn)報(bào)為前瞻標(biāo)志的智能信息處理和智能信息分析應(yīng)用可望實(shí)現(xiàn),而作為智能信息處理和智能信息分析關(guān)鍵技術(shù)的自然語(yǔ)言理解問(wèn)題依舊。借力國(guó)家新一代人工智能發(fā)展規(guī)劃,自然語(yǔ)言理解理論與技術(shù)可能持續(xù)進(jìn)步,進(jìn)而推動(dòng)智能信息處理和智能信息分析獲得突破。
參考文獻(xiàn):
[1] 國(guó)務(wù)院.國(guó)務(wù)院關(guān)于印發(fā)新一代人工智能發(fā)展規(guī)劃的通知[EB/OL].[2017-09-10].http://www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm.
[2] 葉鷹.智能信息處理的基礎(chǔ)理論探討[J].情報(bào)科學(xué),2008(9):1281-1285,1291.
[3] 葉鷹.智能信息分析的理論基礎(chǔ)與技術(shù)模型[J].情報(bào)學(xué)報(bào),2005,24(2):233-236.
[4] 王耀南.智能信息處理技術(shù)[M].北京:高等教育出版社,2005.
[5] 鄭家恒.智能信息處理[M].北京:科學(xué)出版社,2010.
[6] 葉鷹,馬費(fèi)成.數(shù)據(jù)科學(xué)興起及其與信息科學(xué)的關(guān)聯(lián)[J].情報(bào)學(xué)報(bào),2015,34(6):575-580.
[7] 葉鷹.信息科技基礎(chǔ)理論的分析建構(gòu)[J].情報(bào)學(xué)報(bào),1999,18(2):160-166.
[8] 葉鷹.分析信息學(xué)的理論基礎(chǔ)[J].情報(bào)學(xué)報(bào),2000,19(4):380-384.
[9] Ye F Y.Measuring Knowledge:A Quantitative Approach to Knowledge Theory[J].International Journal of Data Science and Analysis,2016,2(2):32-35.
[10] Luhn H P.A Statistical Approach to Mechanized Encoding and Searching of Literary Information[J].IBM Journal of Research and Development,1957,1(4):309-317.
[11] Luhn H P.The Automatic Creation of Literature Abstract[J].IBM Journal of Research and Development,1958,2(2):159-165.
[12] Salton G.Automatic Text Processing:The Transformation,Analysis,and Retrieval of Information by Computer[M].Reading,MA:Addison—Wesley,1989.
[13] Salton G,Allan J,Singhal A.Automatic Text Decomposition and Structuring[J].Information Processing & Management,1996,32(2):127-138.
[14] Allen J.Natural Language Understanding(2nd ed.)[M].Redwood City,CA:The Benjamin/Cummings Publishing Co.,1995.endprint
[15] Chomsky N.Aspects of the Theory of Syntax[M].Cambridge.MA:MIT Press,1965.
[16] Chomsky N.The Logical Structure of Linguistics Theory[M].New York:Plenum Press,1975.
[17] Schank R C,K M Colby.Computer Models of Thought and Language[M].San Francisco,CA:W.H.Freeman and company,1973.
[18] Schank R C.The Concept Analysis of Natural Language.Natural Language Processing(Edited by R.Rustin)[M].New York:Algorithm Press,1973.
[19] 魯川,緱瑞隆,董麗萍.現(xiàn)代漢語(yǔ)基本句模[J].世界漢語(yǔ)教學(xué),2000(4):11-24.
[20] 魯川.漢語(yǔ)語(yǔ)法的意合網(wǎng)絡(luò)[M].北京:商務(wù)印書(shū)館,2001.
[21] 黃曾陽(yáng).HNC理論概要[J].中文信息學(xué)報(bào),1997,11(4):11-20.
[22] 黃曾陽(yáng).HNC(概念層次網(wǎng)絡(luò))理論:計(jì)算機(jī)理解語(yǔ)言研究的新思路[M].北京:清華大學(xué)出版社,1998.
[23] What is WordNet?[EB/OL].[2017-08-10].https://wordnet.princeton.edu/.
[24] HowNet Knowledge Database[EB/OL].[2017-08-11].http://www.keenage.com/.
[25] Berners-Lee T,Hendler J,Lassila,O.The Semantic Web[J].Scientific American,2001,284(5):34-43.
[26] Bizer C,Heath T,Berners-Lee T.Linked Data—The Story So Far[J].International Journal on Semantic Web and Information Systems,2009,5(3):1-22.
作者簡(jiǎn)介:葉鷹(1962-),男,南京大學(xué)信息管理學(xué)院教授,博士生導(dǎo)師,研究方向:定量信息分析、智能信息處理。endprint