宋文賓 錢興華 劉 鵬
(中國艦船研究院 北京 100192)
?
智能信息檢索應(yīng)用技術(shù)研究
宋文賓 錢興華 劉 鵬
(中國艦船研究院 北京 100192)
智能信息檢索是在傳統(tǒng)信息檢索技術(shù)的基礎(chǔ)上發(fā)展起來的一種信息檢索技術(shù),是人工智能與信息檢索等多個(gè)領(lǐng)域的結(jié)合。論文首先介紹智能信息檢索技術(shù)和應(yīng)用,然后以基于本體的智能信息檢索系統(tǒng)進(jìn)行體系結(jié)構(gòu)設(shè)計(jì),并描述其關(guān)鍵技術(shù)和檢索流程。
智能信息檢索; 本體; 語義網(wǎng)
Class Number TP393
在網(wǎng)絡(luò)和電子等技術(shù)的發(fā)展影響下,每天網(wǎng)絡(luò)中產(chǎn)生大量的數(shù)據(jù),圖靈獎(jiǎng)獲得者Jim Gray提出了一個(gè)關(guān)于網(wǎng)絡(luò)環(huán)境下數(shù)據(jù)量的定律:網(wǎng)絡(luò)環(huán)境下每18個(gè)月產(chǎn)生的數(shù)據(jù)量等于有史以來數(shù)據(jù)量之和[1]。如此海量的數(shù)據(jù)中蘊(yùn)含著大量有用的信息[2],檢索正是實(shí)現(xiàn)信息發(fā)現(xiàn)的有效方法。信息檢索是指將信息按照一定的方式組織存儲起來,并根據(jù)用戶的需求檢索出有關(guān)信息的過程[3]。信息檢索經(jīng)歷了手工檢索、計(jì)算機(jī)檢索到網(wǎng)絡(luò)化、智能化檢索等多個(gè)發(fā)展階段,檢索的內(nèi)容也從最初的獨(dú)立的、穩(wěn)定的、相對封閉的內(nèi)容變?yōu)樾问蕉鄻?、?dòng)態(tài)、更新快、分布廣泛、管理松散的數(shù)據(jù)信息。隨著信息多樣化和信息檢索能力的要求,基于關(guān)鍵詞匹配算法的傳統(tǒng)檢索檢索方法雖然快捷、簡單,但檢準(zhǔn)率低,已無法有效實(shí)現(xiàn)檢索,不能滿足檢索要求和結(jié)果的個(gè)性化呈現(xiàn)[3]。適應(yīng)網(wǎng)絡(luò)化、智能化以及個(gè)性化的需要是信息檢索技術(shù)發(fā)展的必然趨勢[4],由此智能檢索技術(shù)應(yīng)運(yùn)而生。
2.1 智能信息檢索技術(shù)
智能信息檢索是在傳統(tǒng)信息檢索方法的基礎(chǔ)上,運(yùn)用人工智能技術(shù),對所檢索的內(nèi)容分析、理解、推理、決策等,并以良好的形式展現(xiàn)給用戶。它除了提供傳統(tǒng)的快速檢索,相關(guān)度排序等功能,還提供用戶角色登記、用戶興趣自動(dòng)識別、內(nèi)容的語義理解、智能化信息過濾和推送等功能。智能信息檢索將信息檢索從基于關(guān)鍵詞層面提高到基于知識(或概念)層面。理想的智能信息檢索系統(tǒng)應(yīng)具有的主要功能:提供多種樣式的檢索能力;語義推理能力;基于自然語言或其他語言;信息的及時(shí)更新;能力擴(kuò)充;個(gè)性化結(jié)果呈現(xiàn)等。
根據(jù)信息檢索技術(shù)的不同,智能信息檢索系統(tǒng)的特點(diǎn)和應(yīng)用領(lǐng)域存在較大差異。其中典型的智能信息檢索技術(shù)有:基于垂直搜索的信息檢索技術(shù)、基于語料庫的信息檢索技術(shù)和基于語義網(wǎng)的信息檢索技術(shù)等。
2.2 基于垂直搜索的信息檢索技術(shù)及應(yīng)用
垂直搜索是專業(yè)領(lǐng)域檢索的典型技術(shù),通過針對某一特定領(lǐng)域、某一特定人群或某一特定需求提供的有一定價(jià)值的信息和相關(guān)服務(wù),其具專、精、深的特點(diǎn),且具有行業(yè)色彩。
文獻(xiàn)[5]以12580餐飲垂直檢索為例,提出針對垂直檢索的策略,對垂直檢索的查詢效率、查準(zhǔn)率、信息抽取等方面進(jìn)行改進(jìn)。垂直檢索相比一般的檢索,其檢索內(nèi)容的范圍具體,更容易獲取需要的信息。例如搜狗購物、360團(tuán)購等都是典型購物檢索引擎。
2.3 基于語料庫的信息檢索技術(shù)及應(yīng)用
基于語料庫的信息檢索是以語料庫為基礎(chǔ),通過在語料庫中對查詢信息的語義匹配分析,查找相關(guān)語義的信息內(nèi)容?;谡Z料庫的信息檢索技術(shù)廣泛應(yīng)用于不同形式的自然語言之間的信息檢索,例如中英文平行檢索、文言文檢索等。
文獻(xiàn)[6]提出一種基于語料庫的跨語言信息檢索方法。通過語料庫將一種語言形式的檢索語句轉(zhuǎn)變?yōu)槠渌Z言形式,實(shí)現(xiàn)跨語言的信息檢索。
2.4 基于語義網(wǎng)的信息檢索技術(shù)及應(yīng)用
基于語義網(wǎng)的信息檢索技術(shù)是在對信息進(jìn)行由下而上組織表示的基礎(chǔ)上,對信息和信息之間關(guān)系的發(fā)現(xiàn)和檢索?;谡Z義網(wǎng)的信息檢索技術(shù)已經(jīng)廣泛應(yīng)用于數(shù)字圖書館、電子商務(wù)、電子政務(wù)等多個(gè)領(lǐng)域。
在數(shù)字圖書信息檢索領(lǐng)域,文獻(xiàn)[7]提出基于智能引擎的智能信息檢索方法,采用語義網(wǎng)技術(shù)體系中的本體方法,在知識層面對數(shù)字圖書館中的信息進(jìn)行表示,從檢索意圖的分析與判斷能力、知識庫動(dòng)態(tài)監(jiān)視和更新反應(yīng)功能、各種形式的信息廣泛整合支持、靈活檢索機(jī)制、專業(yè)層面的強(qiáng)大索引功能等方面改進(jìn)數(shù)據(jù)圖書館的檢索效率。
在電子商務(wù)領(lǐng)域,文獻(xiàn)[8]智能信息檢索為解決網(wǎng)絡(luò)時(shí)代企業(yè)信息膨脹而提出面向電子商務(wù)領(lǐng)域,專門設(shè)計(jì)改進(jìn)搜索引擎,提出使用基于語義Web的電子商務(wù)核心語言,實(shí)現(xiàn)在電子商務(wù)領(lǐng)域智能信息檢索的高效檢索和高檢準(zhǔn)率?;诖砗蜋C(jī)器學(xué)習(xí)的智能信息檢索技術(shù)在電子商務(wù)領(lǐng)域中的應(yīng)用為系統(tǒng)使用者提供更加個(gè)性化的信息推送和檢索結(jié)果排序,根據(jù)對使用者購買記錄、關(guān)注點(diǎn)、操作習(xí)慣等方面的分析,電子商務(wù)中的智能信息檢索為每個(gè)使用者提供了“量身定制”的個(gè)性化檢索引擎。例如淘寶網(wǎng),京東商城等電子商務(wù)網(wǎng)站都開始將這種個(gè)性化的服務(wù)提供給用戶。
以上三種典型的智能信息檢索技術(shù)在技術(shù)、適用范圍、應(yīng)用情況、各自優(yōu)缺點(diǎn)等方面的對比如表1所示。基于語義網(wǎng)的信息檢索技術(shù)實(shí)現(xiàn)了知識層面的信息檢索,尤其在查全率、個(gè)性化、隱含知識發(fā)現(xiàn)等方面優(yōu)勢突出,成為智能信息檢索技術(shù)中的主流技術(shù)之一。本文以基于語義網(wǎng)的智能信息檢索技術(shù)為例,對采用該技術(shù)系統(tǒng)的體系架構(gòu)進(jìn)行設(shè)計(jì)、對關(guān)鍵技術(shù)進(jìn)行介紹。
表1 三種檢索技術(shù)的比較
基于語義網(wǎng)的智能信息檢索技術(shù)是數(shù)據(jù)資源采用語義網(wǎng)技術(shù)體系統(tǒng)一描述的基礎(chǔ)上,引入自然語言識別,采用自然語言對數(shù)據(jù)進(jìn)行檢索。它是語義網(wǎng)技術(shù),檢索技術(shù),人機(jī)交互技術(shù),自然語言識別技術(shù)等多種技術(shù)的綜合,本文構(gòu)建的體系結(jié)構(gòu)由數(shù)據(jù)獲取、數(shù)據(jù)語義處理、語言轉(zhuǎn)換和應(yīng)用共四層組成,為在應(yīng)用層面保障交互環(huán)境的可信,在四層結(jié)構(gòu)中引入安全和可信技術(shù),其體系結(jié)構(gòu)如圖1所示。
圖1 基于語義網(wǎng)的智能信息檢索體系結(jié)構(gòu)
數(shù)據(jù)獲取層主要實(shí)現(xiàn)對獲取的數(shù)據(jù)進(jìn)行處理,為上一層的語義處理提供該領(lǐng)域內(nèi)數(shù)據(jù)的來源。根據(jù)數(shù)據(jù)的組織形式,領(lǐng)域中的數(shù)據(jù)主要分為兩類:結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)采用標(biāo)準(zhǔn)的、統(tǒng)一的格式,對數(shù)據(jù)進(jìn)行組織。非結(jié)構(gòu)化數(shù)據(jù)是指結(jié)構(gòu)未經(jīng)標(biāo)準(zhǔn)化的文檔、語音資料、視頻資料等。非結(jié)構(gòu)化數(shù)據(jù)經(jīng)過識別、提取和轉(zhuǎn)換等手段對其中的有用信息進(jìn)行抽取,采用結(jié)構(gòu)化形式進(jìn)行數(shù)據(jù)描述。其他領(lǐng)域相關(guān)數(shù)據(jù)和抽取后的結(jié)構(gòu)化數(shù)據(jù)匯集起來成為領(lǐng)域數(shù)據(jù)。
數(shù)據(jù)語義處理層的實(shí)現(xiàn)是在對領(lǐng)域內(nèi)數(shù)據(jù)采用統(tǒng)一編碼描述的基礎(chǔ)上,運(yùn)用資源描述框架、本體、邏輯、證明和數(shù)字證書等技術(shù),形成領(lǐng)域內(nèi)本體數(shù)據(jù)庫,在語義層實(shí)現(xiàn)對數(shù)據(jù)和數(shù)據(jù)關(guān)系的檢索。索引的建立有利于對領(lǐng)域內(nèi)整體情況的理解,也有利于對知識進(jìn)行針對性檢索。
語言轉(zhuǎn)換層主要實(shí)現(xiàn)非規(guī)范檢索語言到規(guī)范檢索語言的映射轉(zhuǎn)換。若輸入為自然語言,系統(tǒng)通過自然語言識別,對自然語言進(jìn)行詞法分析、語法分析,并按照規(guī)范語法,對自然語言中的元素進(jìn)行重新組織,形成規(guī)范化的查詢語句,例如SPARQL查詢語句等。
應(yīng)用層是系統(tǒng)對用戶所提供的應(yīng)用接口。用戶既可以是人也可以是其他系統(tǒng)。安全和可信技術(shù)在各層中的具體功能不同,在數(shù)據(jù)獲取層,安全和可信技術(shù)主要確保獲取數(shù)據(jù)的可信和數(shù)據(jù)存儲的安全等;在數(shù)據(jù)語義處理層,它主要控制對數(shù)據(jù)的非法訪問;在語言轉(zhuǎn)換層,可信技術(shù)要確保轉(zhuǎn)換規(guī)則的正確,保證語言轉(zhuǎn)換前后語義的正確;在應(yīng)用層采用的安全和可信技術(shù)更為豐富,從應(yīng)用的角度確保系統(tǒng)整體數(shù)據(jù)環(huán)境和對外接口等方面的安全和可信。
4.1 領(lǐng)域本體建立
智能信息檢索系統(tǒng)的構(gòu)建是由智能信息檢索所面對的信息、使用者、系統(tǒng)的功能性要求、非功能性要求、系統(tǒng)的軟硬件環(huán)境、安全環(huán)境等共同影響的。這些共同的影響因素共同形成了領(lǐng)域特點(diǎn),針對不同的領(lǐng)域,需要進(jìn)行領(lǐng)域信息的表示。由于本體具有對信息組織表示和描述信息之間的內(nèi)在聯(lián)系的能力。所以本體論成為知識獲取和表示、規(guī)劃、進(jìn)程管理、數(shù)據(jù)庫框架集成、自然語言處理和企業(yè)模擬等研究領(lǐng)域的核心。基于本體論的知識庫的建立將提供一個(gè)內(nèi)容豐富和現(xiàn)代的框架以實(shí)現(xiàn)術(shù)語的規(guī)范、服務(wù)和管理[9]。
為實(shí)現(xiàn)對數(shù)據(jù)的語義檢索,采用本體技術(shù)對結(jié)構(gòu)化數(shù)據(jù)或從非結(jié)構(gòu)化數(shù)據(jù)中提取的結(jié)構(gòu)化信息進(jìn)行描述,描述的基礎(chǔ)是領(lǐng)域本體庫的建立。領(lǐng)域本體庫建立的步驟[10]通常為
1) 明確業(yè)務(wù)領(lǐng)域。一般從領(lǐng)域的具體業(yè)務(wù)流程出發(fā),重點(diǎn)關(guān)注領(lǐng)域所涉及的業(yè)務(wù)對象、關(guān)系、規(guī)則、限制、與其他領(lǐng)域關(guān)系等;
2) 屬性建立。根據(jù)對業(yè)務(wù)領(lǐng)域的理解,抽象出領(lǐng)域內(nèi)的實(shí)體成為本體,并對其屬性進(jìn)行描述;
3) 明確屬性約束;
4) 明確本體關(guān)系;
5) 明確函數(shù)、限制、規(guī)則和公理等。
4.2 實(shí)例抽取技術(shù)
實(shí)例抽取采用自動(dòng)方式,主要實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變和結(jié)構(gòu)化數(shù)據(jù)抽取為實(shí)例兩個(gè)過程。
非結(jié)構(gòu)數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換常采用基于特征提取的方法。非結(jié)構(gòu)化數(shù)據(jù)雖然形式多樣,種類很多,但是擁有兩個(gè)特點(diǎn)是: 1) 存在大量的冗余的信息; 2) 信息通過各種特征表現(xiàn)出來。通過對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行合理的分類,對每類數(shù)據(jù)進(jìn)行特征抽取,這些特征來源于特征庫中定義的特征類型。通過對提取的特征進(jìn)行值域分析,進(jìn)行信息轉(zhuǎn)換和去除無用信息[11]。通過特征提取,將非結(jié)構(gòu)化數(shù)據(jù)中信息轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù),如圖2所示。
圖2 非結(jié)構(gòu)數(shù)據(jù)特征提取
格式化數(shù)據(jù)由于采用固定的格式,所以可以直接通過程序自動(dòng)抽取為信息的本體描述。
針對結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化提取后的結(jié)構(gòu)化數(shù)據(jù),按照領(lǐng)域本體庫中建立的本體框架,對結(jié)構(gòu)數(shù)據(jù)中的信息進(jìn)行抽取,形成實(shí)例,并存儲到數(shù)據(jù)庫中。
例如非結(jié)構(gòu)化數(shù)據(jù)的輸入為“2014年9月1日11:00,衛(wèi)星拍攝到某艦船的畫面(附照片),并通過定位確定其經(jīng)緯度為120.20-29.51,高度為0”。圖片信息中通過圖像處理算法獲取到該艦船為航空母艦,數(shù)量為1。通過該數(shù)據(jù)信息中文字信息和圖片信息的特征提取,獲得信息見表2。
表2 某艦船 特征值信息
對獲取的特征信息中的部分信息抽取,獲得信息實(shí)例的描述,用RDF描述如下。
〈目標(biāo)〉
〈時(shí)間〉2014-09-01 11:00.000〈/時(shí)間〉
WK〈類型〉水面〈/類型〉
〈型號〉航空母艦〈/型號〉
〈數(shù)量〉1〈/數(shù)量〉〈高深度〉0〈/高深度〉
〈經(jīng)度〉120.20〈/經(jīng)度〉
〈緯度〉29.51〈/緯度〉
〈/目標(biāo)〉
非結(jié)構(gòu)化數(shù)據(jù)具有數(shù)據(jù)量大、信息組織松散等特點(diǎn),計(jì)算機(jī)難以直接處理。將非結(jié)構(gòu)化數(shù)據(jù)的特征進(jìn)行提取形成結(jié)構(gòu)化數(shù)據(jù),使得非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成為計(jì)算機(jī)可理解的本體實(shí)例。實(shí)例抽取技術(shù)為智能信息檢索提供了數(shù)據(jù)基礎(chǔ)。
4.3 語言轉(zhuǎn)換技術(shù)
語言轉(zhuǎn)換實(shí)現(xiàn)非規(guī)范檢索語言與語義網(wǎng)檢索語言之間的轉(zhuǎn)換。非規(guī)范檢索語言可以是自然語言、其他系統(tǒng)檢索語言等。自然語言的處理方法主要有基于關(guān)鍵詞匹配的方法、基于模式匹配的方法、以句法-語義分析為主的方法、基于大規(guī)模語料庫的自然語言處理等。
本文所介紹的體系結(jié)構(gòu)中,使用以句法-語義分析為主的方法作為自然語言處理技術(shù),借助對查詢語句的語義理解,按照語義網(wǎng)檢索語言的格式和規(guī)則,進(jìn)行轉(zhuǎn)換。例如要將以漢語形式表述的查詢語句“我想查找關(guān)于智能檢索領(lǐng)域的最新論文”轉(zhuǎn)換為語義網(wǎng)查詢語言SPARQL。首先對查詢語句采用分詞技術(shù)(通常采用最大匹配度算法)對查詢語句分詞,得到的結(jié)果是“我、想、查找、關(guān)于、智能檢索、領(lǐng)域、的、最新、論文”。通過對分詞以后的查詢語句進(jìn)行語義分析,分析得出檢索的結(jié)果為論文,屬性中類別為智能檢索領(lǐng)域,并且按照時(shí)間倒序排列,最終返回結(jié)果為下載地址。轉(zhuǎn)化為SPARQL語言如下。
PREFIX foaf:〈http://xmlns.com/foaf/1.0〉
SELECT ?題目 ?摘要 ?時(shí)間 ?網(wǎng)址
WHERE {?論文 foaf:class “智能檢索”.
?論文 foaf:title ?題目.
?論文 foaf:abstract ?摘要.
?論文 foaf:time ?時(shí)間.
?論文 foaf:url ?網(wǎng)址.
}ORDER BY DESC[?時(shí)間]
由于自然語言在使用中具有語義上下文相關(guān)、模糊、語法不準(zhǔn)確等特點(diǎn),這導(dǎo)致計(jì)算機(jī)對自然語言理解困難。但強(qiáng)制使用者學(xué)習(xí)使用語義檢索語言(例如SPARQL等)進(jìn)行檢索,會很大程度降低系統(tǒng)的易用性。在具體領(lǐng)域應(yīng)用中,一方面通過培訓(xùn)和鍛煉可以提高使用者的表達(dá)能力,另一方面使用自然語言識別技術(shù)提高計(jì)算機(jī)對自然語言的理解能力。
4.4 基于自然語言的智能信息檢索流程
本文設(shè)計(jì)基于語義網(wǎng)的智能信息檢索系統(tǒng)的流程,如圖3所示。由于自然語言識別技術(shù)不能做到100%的準(zhǔn)確識別,為防止自然語言理解的歧義,將檢索語句轉(zhuǎn)換為SPARQL語句后,再次逆向生成自然語言,并與查詢結(jié)果一起返回給用戶作為參考。
4.5 檢索應(yīng)用技術(shù)
智能信息檢索系統(tǒng)為上層的應(yīng)用提供信息的組織、表示和檢索功能,為應(yīng)用提供信息保障。本文體系結(jié)構(gòu)中的應(yīng)用層為基本應(yīng)用,為更高層的應(yīng)用提供基本的接口模塊。其中典型的應(yīng)用為搜索引擎、訂閱、信息呈現(xiàn)等。
圖3 基于自然語言的語義檢索流程
搜索引擎是使用自然語言進(jìn)行信息檢索的接口。根據(jù)搜索引擎的檢索方式和范圍可以分為全文檢索引擎和目錄式搜索引擎。全文檢索引擎通過對整個(gè)知識庫的檢索來實(shí)現(xiàn)知識發(fā)現(xiàn)。目錄式搜索引擎是針對專門的領(lǐng)域或主題,采用樹狀結(jié)構(gòu)建立索引,檢索時(shí)實(shí)際是對已建立好的索引的分層式瀏覽。兩種檢索方式都是基于知識庫中已形成的信息,相比目錄式搜索引擎,全文檢索引擎的檢索范圍廣,信息更新快,但是檢索效率和準(zhǔn)確度低。
訂閱主要是針對領(lǐng)域內(nèi)一些基于訂制或者主動(dòng)推動(dòng)的業(yè)務(wù)。互聯(lián)網(wǎng)中的訂閱應(yīng)用往往基于SOAP協(xié)議實(shí)現(xiàn)。典型的應(yīng)用有RSS訂閱,信息實(shí)時(shí)訂閱反饋等。基于語義網(wǎng)的智能體系結(jié)構(gòu)為支持模糊訂閱和基于用戶特性的訂閱提供支撐,通過機(jī)器學(xué)習(xí)和智能代理等技術(shù)的引入,實(shí)現(xiàn)訂閱內(nèi)容的智能化組織、訂閱條件自動(dòng)生成、信息及時(shí)更新等。訂閱服務(wù)為用戶查看信息提供了個(gè)性化的選擇。
根據(jù)體系結(jié)構(gòu)的不同,信息呈現(xiàn)主要分為B/S結(jié)構(gòu)和C/S結(jié)構(gòu)。特別是Web 2.0等技術(shù)的引入,使得B/S結(jié)構(gòu)的展現(xiàn)形式更豐富多樣化,文檔、多媒體等多種信息的顯示都提供了很好的支持。B/S雖然廣泛支持信息的呈現(xiàn),但對于具體應(yīng)用的信息呈現(xiàn)缺少針對性,具體業(yè)務(wù)領(lǐng)域的理解無法深入。C/S結(jié)構(gòu)解決了B/S的這個(gè)問題,它面向具體的業(yè)務(wù)應(yīng)用,信息呈現(xiàn)的專業(yè)化程度更高,更符合用戶使用習(xí)慣等。
基于語義網(wǎng)的智能信息檢索技術(shù)為解決信息的表示、組織和檢索提供了一種解決方案。在未來應(yīng)用中,智能信息檢索技術(shù)將結(jié)合其他智能技術(shù)共同在智能判斷、輔助決策、綜合分析等多個(gè)應(yīng)用領(lǐng)域發(fā)揮重要作用。智能信息檢索系統(tǒng)將推動(dòng)數(shù)據(jù)中心向知識中心的轉(zhuǎn)變。
[1] 曹強(qiáng),黃建忠,萬繼光,等.海量網(wǎng)絡(luò)存儲系統(tǒng)原理與設(shè)計(jì)[M].武漢:華中科技大學(xué)出版社,2014:1-5.
[2] W3C. Linked Open Data[EB/OL]. [2014-6-20]. http://www.w3c.it/events/2014/lod2014/.
[3] 陳沈焰,吳軍華.基于本體的智能信息檢索系統(tǒng)研究[J].微處理機(jī),2009,5:89-91.
[4] 陳曉金,王兵.信息檢索技術(shù)研究與實(shí)踐[J].情報(bào)資料工作,2008,3:33-35.
[5] 許鑫,黃仲清.垂直搜索引擎應(yīng)用中的若干策略探討——以12580餐飲垂直搜索為例[J].知識組織與知識管理,2009,175(2):62-70.
[6] 張玥杰,連理,吳立德.一種新型的跨語言信息檢索技術(shù)[J].計(jì)算機(jī)科學(xué),2002,29(8):66-72.
[7] 賈宏.基于搜索引擎的數(shù)字圖書館智能信息檢索[J].圖書館學(xué)研究,2006,3:28-31.
[8] 謝圣獻(xiàn),謝光.語義檢索在電子商務(wù)中的應(yīng)用研究[J].微計(jì)算機(jī)信息,2008,12:135-136.
[9] 韓嬌紅.我國智能化信息檢索發(fā)展及研究現(xiàn)狀[J].圖書館學(xué)刊,2012,1:49-51.
[10] Grigoris Antonios, Frankvan Harmelen: A Sematic Web Primer(Cooperative Information Systems)[M]. Cambridge: The MIT Press,2008:204-218.
[11] 田萬鵬,王建民.一種基于特征的非結(jié)構(gòu)數(shù)據(jù)演變管理建??蚣躘J].計(jì)算機(jī)研究與發(fā)展,2010,47(suppl):394-399.
A Study of Intelligent Information Retrieval Technology
SONG Wenbin QIAN Xinghua LIU Peng
(China Ship Research and Development Academy, Beijing 100192)
Intelligent information retrieval is a composite retrieval technology which is an advance stage of information retrieval technology. Firstly, the technology and the application are introduced. Secondly, the architecture of intelligent information retrieval based on ontology is designed. Finally, the key technologies and the flow are given.
intelligent information retrieval, ontology, semantic web
2015年1月4日,
2015年2月28日 作者簡介:宋文賓,男,碩士研究生,研究方向:艦船電子工程技術(shù)。錢興華,女,博士生導(dǎo)師,研究方向:系統(tǒng)總體設(shè)計(jì)。劉鵬,男,高級工程師,研究方向:系統(tǒng)體系結(jié)構(gòu)。
TP393
10.3969/j.issn1672-9730.2015.07.036