尚曉麗宋廣軍包向輝
(1.綏化學(xué)院 黑龍江綏化 152061;2.齊齊哈爾大學(xué) 黑龍江齊齊哈爾 161006)
空間數(shù)據(jù)庫反向最近鄰數(shù)據(jù)模型查詢優(yōu)化研究
尚曉麗1,2宋廣軍2包向輝1
(1.綏化學(xué)院 黑龍江綏化 152061;2.齊齊哈爾大學(xué) 黑龍江齊齊哈爾 161006)
反向最近鄰數(shù)據(jù)查詢優(yōu)化簡言之就是從特定文本中取出所需的事實(shí)反向最近鄰數(shù)據(jù)。它的具體應(yīng)用可表現(xiàn)多個(gè)方面。比如從新聞里查詢優(yōu)化報(bào)道、從公司網(wǎng)站查詢優(yōu)化產(chǎn)品情況、從漫畫網(wǎng)站里查詢優(yōu)化漫畫圖片等。通過反向最近鄰數(shù)據(jù)信息優(yōu)化,提高數(shù)據(jù)信息提取與查詢能力。
空間數(shù)據(jù)庫;反向最近鄰;數(shù)據(jù)模型
當(dāng)我們享受空間數(shù)據(jù)庫帶來的方便、快捷、高效、豐富的反向最近鄰數(shù)據(jù)同時(shí),一個(gè)問題也不容我們忽視。那就是隨著人們的需求量的上升,空間數(shù)據(jù)庫上的反向最近鄰數(shù)據(jù)也成指數(shù)級增長,以至于浩如煙海的反向最近鄰數(shù)據(jù)與個(gè)人需求之間矛盾也隨之誕生。為了獲得自己需要的反向最近鄰數(shù)據(jù),有時(shí)候用戶不得不花費(fèi)大量的時(shí)間甚至以天計(jì)算來上網(wǎng)瀏覽各種網(wǎng)頁。雖然搜索引擎隨著空間數(shù)據(jù)庫的飛速發(fā)展也迅速發(fā)展起來,但是你通過搜索獲得的反向最近鄰數(shù)據(jù)仍然是個(gè)龐大的結(jié)果集。這個(gè)結(jié)果集給我們的反向最近鄰數(shù)據(jù)只是一個(gè)相關(guān)的大致概要。有時(shí)候甚至于用戶需要的反向最近鄰數(shù)據(jù)相差甚遠(yuǎn),為了獲得需要的反向最近鄰數(shù)據(jù),用戶仍需查找相關(guān)的頁面。這個(gè)過程難免浪費(fèi)大量的人力和物力,即使獲得自己需要的反向最近鄰數(shù)據(jù),如何有效的保存也是一個(gè)不容忽視的問題。
上述問題的關(guān)鍵在于空間數(shù)據(jù)庫反向最近鄰數(shù)據(jù)的發(fā)布和瀏覽都是基于html或者xml語法的頁面來實(shí)現(xiàn)的。而大家都知道,html或者xml都是非結(jié)構(gòu)化、半結(jié)構(gòu)化的語言,計(jì)算機(jī)所識別的只是二進(jìn)制碼,因此它們像傳統(tǒng)數(shù)據(jù)庫那樣,提供高效、結(jié)構(gòu)化、強(qiáng)大的查詢語句也變得不太可能。我們所要解決的問題正是如何從計(jì)算機(jī)中獲取所需的反向最近鄰數(shù)據(jù),這也是反向最近鄰數(shù)據(jù)查詢優(yōu)化的任務(wù)所在。
反向最近鄰數(shù)據(jù)查詢優(yōu)化是反向最近鄰數(shù)據(jù)檢索的一種,它的目標(biāo)是把非結(jié)構(gòu)化、半結(jié)構(gòu)化的機(jī)器可讀文本抽取出來并轉(zhuǎn)化成結(jié)構(gòu)化的存儲格式。在大部分情況下,處理人類語言文本的形式跟自然語言處理過程相似。近年來像自動標(biāo)注和通過處理查詢優(yōu)化出圖像、音頻、視頻的多媒體文檔,也被看作是反向最近鄰數(shù)據(jù)查詢優(yōu)化的一種方式。反向最近鄰數(shù)據(jù)查詢優(yōu)化的一種形式化描述如下:假定某一組web頁固定(用符號s表示),然后我們再定義一個(gè)映射(用符號w表示),w將s映射到一個(gè)結(jié)構(gòu)化的,語義清晰明確的數(shù)據(jù)結(jié)構(gòu)中(用符號d表示),同時(shí)與s結(jié)構(gòu)和語義都相關(guān)的web集合(用符號s表示)都可以認(rèn)為具有相同的功能。反向最近鄰數(shù)據(jù)查詢優(yōu)化的研究歷史可以追溯到二十世紀(jì)七十年代晚期(也就是自然語言處理的早期)。當(dāng)時(shí)相關(guān)查詢優(yōu)化系統(tǒng)的建立最早是在八十年代中期,也就是jasper系統(tǒng)。系統(tǒng)建立的目的是為了提供實(shí)時(shí)的金融反向最近鄰數(shù)據(jù)給相關(guān)客戶。開發(fā)實(shí)用的反向最近鄰數(shù)據(jù)抽取系統(tǒng)這正是反向最近鄰數(shù)據(jù)查詢優(yōu)化的目的,從自由文本中分析需要的反向最近鄰數(shù)據(jù)并將之抽取出來從而得到真正有用反向最近鄰數(shù)據(jù)和用戶感興趣的反向最近鄰數(shù)據(jù)。反向最近鄰數(shù)據(jù)抽取技術(shù)在軍事、經(jīng)濟(jì)、醫(yī)學(xué)、科學(xué)研究等領(lǐng)域都有著廣泛的應(yīng)用,它提供了一條從海量的反向最近鄰數(shù)據(jù)堆中抽取出與用戶相關(guān)的反向最近鄰數(shù)據(jù)的思路。
1.反向最近鄰數(shù)據(jù)查詢優(yōu)化與反向最近鄰數(shù)據(jù)檢索
反向最近鄰數(shù)據(jù)查詢優(yōu)化與反向最近鄰數(shù)據(jù)檢索關(guān)系密切,但也有不同之處。它們的主要不同之處在以下三個(gè)方面體現(xiàn):
(1)目的不同
反向最近鄰數(shù)據(jù)檢索的目的雖說是找出用戶需要的文檔,但帶有盲目性;而反向最近鄰數(shù)據(jù)查詢優(yōu)化于基于抽取性質(zhì)的,它是直接從文本中抽取獲得用戶感興趣的反向最近鄰數(shù)據(jù)。
統(tǒng)計(jì)詞頻和匹配關(guān)鍵字符是反向最近鄰數(shù)據(jù)檢索經(jīng)常使用的技術(shù),在檢索的過程中,文本是被看成是一個(gè)大量詞的集合,不需要對文本的深入分析和理解;而反向最近鄰數(shù)據(jù)抽取是建立在自然語言的基礎(chǔ)上,是通過對文本進(jìn)行分析處理后完成的。
(3)適用的范圍不同
反向最近鄰數(shù)據(jù)檢索往往是跟領(lǐng)域無關(guān)的,而反向最近鄰數(shù)據(jù)抽取相關(guān)性比較強(qiáng),只能抽取預(yù)先設(shè)定好的某些領(lǐng)域的反向最近鄰數(shù)據(jù)。
2.反向最近鄰數(shù)據(jù)查詢優(yōu)化的基本模式
反向最近鄰數(shù)據(jù)查詢優(yōu)化的類型方式多種多樣,根據(jù)原理的不同可以大致分為以下五類:
(1)基于自然語言的原理處理方式反向最近鄰數(shù)據(jù)的查詢優(yōu)化
這類的反向最近鄰數(shù)據(jù)查詢優(yōu)化主要是針對大量文本的情況,通過對自然語言處理技術(shù)的借鑒形成了一系列基于語法和語義的規(guī)則。目前papier、srv、whisk采取這種原理。這種方式查詢優(yōu)化來的文本需要大量的文本練習(xí),利用形成的規(guī)則來進(jìn)行處理的。
將君子教育理念滲透到智慧課堂模式是指在師生之間、生生之間的交流互動中注重文明禮儀、弘揚(yáng)君子德操,行于禮、止于禮、互相尊重,團(tuán)結(jié)協(xié)作,共同探究,這可從智慧課堂模式的各個(gè)環(huán)節(jié)中體現(xiàn)。
(2)基于包裝器歸納方式的反向最近鄰數(shù)據(jù)查詢優(yōu)化
采用這種方式的反向最近鄰數(shù)據(jù)查詢優(yōu)化是根據(jù)事先標(biāo)注的樣本,使用機(jī)器學(xué)習(xí)方式的歸納算法,生成查詢優(yōu)化規(guī)則,這種查詢優(yōu)化規(guī)則是基于上下文語境的,即根據(jù)語義項(xiàng)的左右邊界來定位語義項(xiàng)。目前stalke、softmealy和wien采取這種原理。這種包裝器歸納方式的反向最近鄰數(shù)據(jù)查詢優(yōu)化的主要特點(diǎn)是定位反向最近鄰數(shù)據(jù)時(shí)是以上下文語義為參考標(biāo)準(zhǔn)的,語義約束也沒有被使用。
(3)基于ontology方式的反向最近鄰數(shù)據(jù)查詢優(yōu)化
這種方式的反向最近鄰數(shù)據(jù)查詢優(yōu)化主要是依據(jù)自己的數(shù)據(jù)量反向最近鄰數(shù)據(jù)來實(shí)現(xiàn)對反向最近鄰數(shù)據(jù)的查詢優(yōu)化,這種方式對網(wǎng)頁等外在因素依賴較少。目前BYU、quixote采取這種方式處理。
(4)基于html網(wǎng)頁結(jié)構(gòu)的反向最近鄰數(shù)據(jù)查詢優(yōu)化
基于html網(wǎng)頁結(jié)構(gòu)的反向最近鄰數(shù)據(jù)查詢優(yōu)化是根據(jù)網(wǎng)頁的結(jié)構(gòu)來進(jìn)行反向最近鄰數(shù)據(jù)的鎖定,先把相關(guān)文檔解析成為語法樹,之后進(jìn)行反向最近鄰數(shù)據(jù)的查詢優(yōu)化,隨之在自動或半自動化方式的基礎(chǔ)上產(chǎn)生相對應(yīng)的語法規(guī)則,從而通過實(shí)現(xiàn)對語法樹的操作來完成反向最近鄰數(shù)據(jù)查詢優(yōu)化。目前來看lixto、xwrap、roadrunner、w4f采用這種方式實(shí)現(xiàn)查詢優(yōu)化。
(5)基于web查詢的反向最近鄰數(shù)據(jù)查詢優(yōu)化
基于web查詢的反向最近鄰數(shù)據(jù)查詢優(yōu)化的主要特點(diǎn)是將轉(zhuǎn)變web反向最近鄰數(shù)據(jù)查詢優(yōu)化使之成為能使用標(biāo)準(zhǔn)查詢語言的查詢優(yōu)化來實(shí)現(xiàn)對相關(guān)文檔的查詢。此種類型的查詢方式具有通用性。目前web-oql系統(tǒng)和pqagen系統(tǒng)采用這種方式實(shí)現(xiàn)查詢優(yōu)化。以上五種反向最近鄰數(shù)據(jù)查詢優(yōu)化方式各有優(yōu)缺點(diǎn),對不同的網(wǎng)頁有著不同的查詢優(yōu)化效率。因此需要根據(jù)實(shí)際情況來進(jìn)行選擇。
空間數(shù)據(jù)庫設(shè)計(jì)中斷句在文本中出現(xiàn)次數(shù)較多,很少有完整的句子出現(xiàn)。基于文檔的這兩個(gè)顯著特點(diǎn),那些采用傳統(tǒng)方式的自然語言處理技術(shù)已經(jīng)不適用了。但是,經(jīng)過分析,網(wǎng)頁還是有一定的規(guī)律可循的。例如:web頁面可分為標(biāo)題、正文、超文本、網(wǎng)頁間的鏈接四個(gè)部分。
1.標(biāo)題
在網(wǎng)頁中〈Title〉〈/Title〉之間的文字部分。值得注意的是,標(biāo)題中的內(nèi)容往往是概括性質(zhì)的內(nèi)容。
2.正文
很多情況下,我們都用自然語言的方式來書寫網(wǎng)站的正文。統(tǒng)計(jì)關(guān)鍵詞一般也是對其在正文中出現(xiàn)的次數(shù)來進(jìn)行統(tǒng)計(jì)分析的。
3.超文本性質(zhì)標(biāo)簽
在標(biāo)簽中反向最近鄰數(shù)據(jù)的作用主要體現(xiàn)在:在文中同一位置的關(guān)鍵重要性不同,標(biāo)簽表示的性質(zhì)也不同。當(dāng)在網(wǎng)頁中出現(xiàn)我們所需的重要詞時(shí),我們可以利用標(biāo)簽對其出現(xiàn)的次數(shù)進(jìn)行簡單加權(quán)統(tǒng)計(jì),從而能夠有效利用標(biāo)簽里的重要反向最近鄰數(shù)據(jù)。
4.網(wǎng)頁之間的鏈接
是否存在鏈接,這是網(wǎng)頁和普通文檔的一個(gè)重要區(qū)別。在網(wǎng)頁中,鏈接是呈網(wǎng)狀結(jié)構(gòu)的,它們之間有相關(guān)性。研究人員曾在web文本特征、相關(guān)查詢優(yōu)化知識、相關(guān)算法等方面做了大量的工作。
[1]覃開賢,胡寶清,謝黎黎,田濤.區(qū)域土地利用與優(yōu)化調(diào)控決策支持系統(tǒng)[J].安徽農(nóng)業(yè)科學(xué),2011(29):12-13.
[2]謝黎黎,胡寶清,田毅清.縣域РRЕD信息系統(tǒng)數(shù)據(jù)庫設(shè)計(jì)及實(shí)現(xiàn)[J].地理空間信息,2010(04):18-19.
[3]林巧鶯.基于GIS的校園房產(chǎn)信息管理系統(tǒng)的構(gòu)建[J].高師理科學(xué)刊,2011(06):21-22.
[4]耿澤飛,胡飛虎,陳慧敏.基于GIS的災(zāi)害應(yīng)急管理系統(tǒng)的數(shù)據(jù)集成研究[J].計(jì)算機(jī)應(yīng)用與軟件,2012(01):27-28.
[5]陳慧敏,胡飛虎,耿澤飛,張智.基于GIS的災(zāi)害應(yīng)急管理系統(tǒng)業(yè)務(wù)數(shù)據(jù)和空間數(shù)據(jù)的集成[J].自然災(zāi)害學(xué)報(bào),2011(01):31-32.
The optimization of spatial database reverse nearest neighbor data model
Shang Xiao-li1,2, Song Guang-jun2, Bao Xiang-hui1
(1.Suihua University, Suihua Heilongjiang, 152061, China; 2.Qiqihar University, Qigihar Heilongjiang, 161006, China)
The reverse nearest neighbor query optimization in a nutshell is required to remove the fact reverse nearest neighbor data from a specific text. Its application can be expressed in many aspects. For example, in the news reports from the company's website query optimization, query optimization product pictures from comic website etc.. The reverse nearest neighbor optimization of data information, improve information extraction and query capabilities.
spatial database; reverse nearest neighbor; data model
G250.74
A
1000-9795(2014)03-0303-02
[責(zé)任編輯:劉麗杰]
2014-01-15
尚曉麗(1980-),女,黑龍江齊齊哈爾人,講師,從事計(jì)算機(jī)應(yīng)用技術(shù)和特殊教育研究。
宋廣軍,黑龍江齊齊哈爾人,教授,從事空間數(shù)據(jù)庫方向的研究。
包向輝,黑龍江訥河人,講師,從事計(jì)算機(jī)應(yīng)用技術(shù)方向的研究。