• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于本體的信息關聯(lián)搜索

      2017-07-16 20:31:57李春楊明顧婷婷
      中國新通信 2017年11期
      關鍵詞:搜索引擎本體

      李春+楊明+顧婷婷

      【摘要】 互聯(lián)網(wǎng)的資源具備復雜性,資料的數(shù)量非常巨大,使用這些雜亂的數(shù)據(jù)需要進行數(shù)據(jù)分揀,選出具有應用價值的信息,搜索引擎能夠完成這一功能。搜索引擎指的是用戶用來搜索關聯(lián)信息的工具,搜索引擎能夠利用搜索關聯(lián)策略搜集整理信息,需求的信息在經(jīng)過重新的匯總、整理后,提供給用戶的檢索服務可以達成信息導航功能。搜索引擎的成功運作可以提供極大的便利,幫助人們高效的獲取網(wǎng)絡資源信息。當前針對用戶或其他本體的新型搜索引擎能夠帶來的更高效的檢索服務已經(jīng)成為了信息檢索領域的研究重點?;诒倔w建立搜索引擎模型,并就這一模型進行分析研究,總結(jié)出搜索引擎的語義非常重要,這種搜索引擎具備的內(nèi)涵,可以在用戶的操作歷史記錄上推理得來,這種推理出的數(shù)據(jù)對于提供更友好的用戶體驗非常重要,也能夠進一步的改善用戶查詢準確性。目前的搜索引擎尚不能夠提供成熟的服務,基于本體的搜索引擎也存在很多問題,仍需要加以探索,提供更專業(yè)、準確的搜索服務將會是搜索引擎的發(fā)展方向。

      【關鍵詞】 本體 信息關聯(lián) 搜索引擎

      前言

      互聯(lián)網(wǎng)技術隨著時代與科技的發(fā)展已經(jīng)日益成熟,并且逐漸的融入了我們的日常生活,成為了重要工具?;ヂ?lián)網(wǎng)的資源非常豐富,網(wǎng)絡上的信息摻雜在一起,在使用時需要甄選出具有應用價值的信息,為滿足這一需求,各大編程工程人員研發(fā)設計出了多種搜索引擎。

      搜索引擎指的是用戶用來搜索關聯(lián)信息的工具,搜索引擎能夠利用搜索關聯(lián)策略搜集整理信息,需求的信息在經(jīng)過重新的匯總、整理后,提供給用戶的檢索服務可以達成信息導航功能。搜索引擎的成功運作可以提供極大的便利,幫助人們高效的獲取網(wǎng)絡資源信息。

      目前網(wǎng)絡信息發(fā)展速度極快,信息的膨脹化發(fā)展具備多元化的新特性。傳統(tǒng)的搜索引擎愈發(fā)的難以滿足目前信息的搜索需求,使用者常常會需求多條類似的信息,這種批量的信息需求讓操作者只能在大量重復繁瑣的信息庫中逐個查找。當前的搜索引擎不僅需要提供用戶需求的準確、有用信息,能夠快速整理出分類細致、準確、全面、具備時效性的搜索列表就顯得非常重要,這就需要基于本體的信息關聯(lián)搜索,這種基于本體的搜索強化了針對某一主體信息的相關收錄及更新,減少了搜索中涉及的大量無用信息,查詢搜索的效率極高。這樣就改善優(yōu)化了相似的其他檢索工具在信息檢索上的功能,具有先進的優(yōu)勢。

      目前的搜索引擎多采用的語法層級搜索,搜索匹配大多是機械性的檢索。而本體相關的信息關聯(lián)搜索,可以針對使用者搜索的關鍵詞展開語義分析并加以處理,這樣進行的搜索操作就具有了一定的智能性,運行得出的結(jié)果不管是查準率還是覆蓋面都非常優(yōu)秀。

      搜索引擎究其功能仍是作為網(wǎng)絡信息的檢索查詢工具,具備策略性,并就策略在互聯(lián)網(wǎng)中檢索、搜集信息,整理組織信息,為用戶提供所需的信息資源。隨著互聯(lián)網(wǎng)的發(fā)展,搜索引擎也不斷的進化著。

      一、搜索引擎的發(fā)展

      1.1 Archie——原始搜索引擎

      在1990年,加拿大蒙特利爾McGill University的學生AlanEmtage等人發(fā)明了這一搜索引擎,在那時,萬維網(wǎng)仍未出現(xiàn),Archie仍舊是基于互聯(lián)網(wǎng)的FTP網(wǎng)站文件自動索引程序,嚴格來講還不是真正意義的搜索引擎,十一個可以提供搜索功能的文件名列表,操作者在這一流標中錄入精準的文件全程才能夠搜索出結(jié)果,結(jié)果通常是FTP下載地址。

      1.2 World Wide Web Wanderer——首個網(wǎng)絡機器人

      這是世界上第一個Spider程序,之所以被稱為Spider程序的起因在于專用信息檢索的Robot程序在運作時,會像Spider(蜘蛛)一樣在字節(jié)網(wǎng)絡之間爬動,所以對于搜索引擎所使用的Robot程序,往往都被稱之為Spider程序。World Wide Web Wanderer是1993年MIT的Matthew Gary編寫的,能夠在互聯(lián)網(wǎng)中追蹤發(fā)展規(guī)模,起初這一程序是用來整理匯總互聯(lián)網(wǎng)中的服務器數(shù)量的,慢慢的衍生出了捕獲網(wǎng)址的功能(url)。

      1.3 Yahoo——目錄型搜索引擎

      隨著互聯(lián)網(wǎng)的發(fā)展逐漸成熟,時至1994年,斯坦福大學的兩名博士生:楊致遠(美籍華人)與David Filo聯(lián)合創(chuàng)立了Yahoo。并且在Yahoo投入使用后訪問量及收錄鏈接量飛速上漲,Yahoo的不斷成長,進化出了目錄基礎上的簡單數(shù)據(jù)檢索功能。介于手工輸入的數(shù)據(jù),Yahoo仍舊不能夠作為成熟的搜索引擎,僅僅是基于網(wǎng)絡的可搜索目錄,但在當時Yahoo已經(jīng)能夠展現(xiàn)出優(yōu)異、高效的搜索效率,在之后的發(fā)展中,Yahoo使用了AltaVista、Inktomi、Google等搜索引擎服務。

      1.4 Metacrawler——第一個元搜索引擎

      元搜索引擎一般都不具備自身的數(shù)據(jù),這種搜索引擎是借助多個搜索引擎運作的,能夠?qū)⒂脩翡浫氲乃阉髡埱筮f交到其他搜索引擎上,其他搜索引擎回復結(jié)果再經(jīng)過元搜索引擎的二次處理后能夠?qū)⒆陨硖峁┑慕Y(jié)果返到用戶受眾,這種搜索引擎能夠聯(lián)合多引擎的搜索數(shù)據(jù),并進行重組排序過濾掉無用的信息,搜索結(jié)果具備更好的客戶滿意度。

      二、搜索引擎的分類

      搜索引擎主要的劃分一局基于信息搜集方式與提供的服務形式。

      2.1目錄式搜索引擎

      目錄式的搜索引擎是最為原始的一種搜索引擎,主要的代表當屬Yahoo,目前我國的Sohu也是相同類型的搜索引擎。這種目錄式搜索引擎運作的原理在于對網(wǎng)絡信息進行主題分類,將整體劃分為主要的幾個大類,然后再將大類進行細分,最后就生成了具備瀏覽功能的多等級主題檢索形式的搜索引擎,常規(guī)情況下的的搜索引擎大多是五至六層結(jié)構,多的可以達到十幾層。

      目錄式的搜索引擎檢索信息主要是人工操作的,編目員來甄別挑選并進行分類處理。因為目錄式的搜索引擎在對信息進行分類及匯總信息時,主要是依靠人來進行的。這種搜索準確度比較高,但運作效率很慢,這就難以做到實時高效的監(jiān)控網(wǎng)絡信息,所能夠提供的查詢?nèi)嫘砸矘O低,大多是作為網(wǎng)站層級搜索用引擎。

      2.2機器人搜索引擎

      這種搜索引擎多是基于某策略基礎上,能夠智能的自動搜索網(wǎng)絡中的有用信息,索引器能夠匯總所有檢索出的信息并對此建立索引,檢索器可以利用用戶的錄入信息生成索引項,檢索器在此基礎上基于用戶的查詢,進入檢索索引庫中搜索,然后生成直接的查詢結(jié)果并將信息返還用戶,為實現(xiàn)這種操作就不得不建立復雜的搜索引擎,但是這種信息檢索具備全面的覆蓋性,信息的更新效率也很高,這一搜索引擎的代表主要是Google與Baidu等,此類機器人搜索引擎的開發(fā)并投入運行代表了搜索引擎的時代性變革,也是信息檢索挖掘技術的革新。

      2.3元搜索引擎

      元搜索引擎一般都不具備自身的數(shù)據(jù),這種搜索引擎是借助多個搜索引擎運作的,能夠?qū)⒂脩翡浫氲乃阉髡埱筮f交到其他搜索引擎上,其他搜索引擎回復結(jié)果再經(jīng)過元搜索引擎的二次處理后能夠?qū)⒆陨硖峁┑慕Y(jié)果返到用戶受眾,這種搜索引擎能夠聯(lián)合多引擎的搜索數(shù)據(jù),并進行重組排序過濾掉無用的信息,搜索結(jié)果具備更好的客戶滿意度,比較成功的搜索引擎代表主要是萬維搜索引擎與Vivisino等。

      2.4客戶端搜索引擎

      聯(lián)通Web網(wǎng)絡的客戶機中的搜索引擎能夠提供客戶端搜索引擎的運作平臺,建立在已知文檔之上檢索萬維網(wǎng)上的文檔資料,并且將有用資料發(fā)送出,文檔中存有的多條超文本連接能夠連接到更多的相關文檔中,最終達成文本要求,這種以客戶端為基礎的搜索引擎能夠省去第三方檢索,這就一定程度的優(yōu)化了用戶截面。因為這種搜索是針對用戶設計的,搜索具備時效性,搜索出的資料都是最新的,但搜索速度很滿,網(wǎng)絡承擔的負載以及服務器負載較大。

      2.5分布式搜索引擎

      分布式搜索引擎主要是在區(qū)域及主體等標準之上進行索引的服務器,各服務器會互相交流信息,查詢過程存在往復的功能。一但某構成元素檢索服務器不能夠達成查詢檢索需求,便會轉(zhuǎn)發(fā)搜索請求到具備對應數(shù)據(jù)的檢索服務器中,多個分布數(shù)據(jù)庫在通過分布式的搜索引擎之下,能夠一定程度的所見數(shù)據(jù)庫,搜索引擎能夠涉及的內(nèi)容并未隨著減小,反而更全面且減少了信息的重復率,這也是分布式搜索引擎的優(yōu)點之一,但多個數(shù)據(jù)庫的協(xié)作運行在實現(xiàn)過程中存在難度,當前仍沒有真正意義上的分布式搜索引擎。

      三、搜索引擎的本體論

      3.1概念

      隨著互聯(lián)網(wǎng)技術的發(fā)展,對于計算機功能的需求也在豐富著。各具特色的計算機技術也演變的非??欤@種飛速的發(fā)展效率讓相關研發(fā)機構面對著諸多的困難。信息知識的表達以及組織、軟件復用等困難非常顯著。因為互聯(lián)網(wǎng)的發(fā)展非???,大量的信息數(shù)據(jù)在組織管理及后期維護方面變得日益迫切。本體論最早起源于西方哲學史,最早是追問萬物本愿的學問,最早是一種哲學術語。

      3.2搜索引擎本體論的構成

      Ontology在計算機科學領域的發(fā)展在朝著智能化的方向發(fā)展著,本體逐漸成為了針對某領域的描述,這一描述是基于繼承關系組織成的知識庫框架。Ontology能夠在計算機上進行操作處理,能夠體現(xiàn)共同認可的相關知識,針對的對象主要是整體,Ontology所捕獲的領域具有相關性。在構件搜索引擎本體的時候需要借助多重工具,選取最適工具能夠方便本體的構建。Apollo、LinkFactory、Ontoligua、WebODE等工具有具有不同的特性。

      四、基于本體的搜索引擎系統(tǒng)

      基于本體的搜索引擎系統(tǒng)需要將針對專題的網(wǎng)頁文件進行甄選,選擇恰當?shù)膬Υ娴綄木W(wǎng)頁文件哭,然后利用網(wǎng)頁文件庫中存儲的文件,進行倒排索引操作生成索引文件。最后使用者能夠在查詢接口上提交查詢請求,搜索引擎系統(tǒng)在用戶的錄入數(shù)據(jù)上在此進行分詞,對本體的資料庫中概念進行匹配處理,索引文件庫中搜索出的相關結(jié)論回復到使用者手中。系統(tǒng)需要達成以下要求:

      (1)保證滿足需求的查全率;

      (2)保證滿足需求的查準率;

      (3)保證性能(主要保證查詢速度與內(nèi)存之間的要求);

      (4)保證系統(tǒng)的功能性;

      (5)具備可移植性;

      (6)功能的分類模塊化;

      (7)保證參數(shù)配置;

      (8)友好、個性化的查詢界面(針對用戶體驗)。

      互聯(lián)網(wǎng)的數(shù)據(jù)信息在迅猛增長的背后存在著海量的信息資源,為了解決多關鍵詞的重復及其他錯誤產(chǎn)生服務上的偏差,并將檢索質(zhì)量進一步提高。需要借助本體技術來改善這一問題,本體技術的應用能夠形成概念層次結(jié)構,幫助推理。借助推理展開檢索條件,將用戶的需求利用智能程序解決,最終檢索出用戶需求的信息資料。對比在關聯(lián)數(shù)據(jù)基礎上得出的信息檢索,本體表達的語義關系更強,信息檢索系統(tǒng)能夠借助本體系統(tǒng)具備更高的智能程度,其結(jié)構上也更準確,能夠適應用戶的切實需求。

      采用本體技術加以應用則需要創(chuàng)建用戶模型,這就用到了元數(shù)據(jù)。元數(shù)據(jù)能夠抽象的表達用戶知識背景、興趣、情感、社會關系等方方面面。這些將實際情況總結(jié)出的用戶信息,在展開語義標注的時候強化了用戶本體。所有相關的用戶本體都是整體模型的獨立實例,體現(xiàn)的知識結(jié)構也存在特異性。用戶的歷史訪問資源能夠提供用戶的知識結(jié)構等數(shù)據(jù),用戶本體能夠動態(tài)的更新。領域知識本體的相關概念、實例也需要投入用戶本體的使用中,在進行檢索操作的時候用戶特征可以用來匹配搜索結(jié)論,最終提供給用戶符合其自身情況的學習資源。

      而用戶本體具有更新行為,用戶的興趣及情感都會隨著多重影響因素產(chǎn)生變化,這就需要系統(tǒng)能夠適時的做出改變,這樣才能夠迎合用戶需求。及時的利用歷史記錄來查詢出搜索引擎用戶本體產(chǎn)生的變化,能夠幫助搜索引擎改善用戶體驗,所以用戶本體的更新需要及時進行,并且不能夠忽略細節(jié)。用戶的實際操作記錄一般都會歲用戶的使用時長產(chǎn)生波動,理想上的與用戶使用系統(tǒng)進行同步更新是不能夠?qū)崿F(xiàn)的,而用戶在使用時會產(chǎn)生大量的操作數(shù)據(jù),對這大量的操作數(shù)據(jù)進行操作產(chǎn)生的工作量十分大,短時間內(nèi)是不能夠達成的。為求實現(xiàn)這一目標,通過離線更新、在線更新兩種形式的結(jié)合作用,可以通過在線更新解決實時影響較小且數(shù)據(jù)量較少的操作;面對其他整理計算工作量更大的的更新操作,則需要通過離線更新來解決。

      這種在用戶本體元基礎上建立的數(shù)據(jù)模型,可以詳細的表達出用戶的背景知識以及算法等多個方面。用戶的社交各級關系上的算法,以及用戶在情感取向相關的判定也具有知道效果,通過對用戶的興趣展開識別處理能夠適時的動態(tài)更新用戶模型,這就從根本強化了這一用戶模型的準確性、全面性,為建立基于本體的信息關聯(lián)搜索引擎建立穩(wěn)固基礎。

      五、總結(jié)

      互聯(lián)網(wǎng)的發(fā)展速度非常快,身為相關行業(yè)的研究人員、工作人員應當緊隨技術與需求的演變。常規(guī)的搜索引擎難以適應整體大環(huán)境的需求,當前針對用戶或其他本體的新型搜索引擎能夠帶來的更高效的檢索服務已經(jīng)成為了信息檢索領域的研究重點?;诒倔w建立搜索引擎模型,并就這一模型進行分析研究,總結(jié)出搜索引擎的語義非常重要,這種搜索引擎具備的內(nèi)涵,可以在用戶的操作歷史記錄上推理得來,這種推理出的數(shù)據(jù)對于提供更友好的用戶體驗非常重要,也能夠進一步的改善用戶查詢準確性。當前基于本體的搜索引擎尚未成熟,仍需要加以探索,力求提供更專業(yè)、準確的搜索服務。

      參 考 文 獻

      [1]陸幸福. 論搜索引擎服務商在提供鏈接過程中的權利與義務——基于霍菲爾德權利理論的一種分析[J]. 法學評論,2013,04:3-11.

      [2]黎邦群. 基于搜索引擎與用戶體驗優(yōu)化的OPAC研究[J]. 中國圖書館學報,2013,04:120-129.

      [3]李憶,袁志會,袁梓翔. 搜索引擎優(yōu)化技術對網(wǎng)站友好性影響的實證研究[J]. 情報雜志,2014,09:173-180.

      [4]朝樂門,張勇,邢春曉. 面向跨領域海量信息資源的元搜索引擎研究[J]. 中國圖書館學報,2011,02:19-29.

      [5]馬少平,劉奕群,劉健,張敏,祝建華,茹立云. 中文搜索引擎用戶行為的演化分析[J]. 中文信息學報,2011,06:90-97.

      [6]王知津,潘穎. 中文搜索引擎商業(yè)模式比較:以百度和谷歌為例[J]. 圖書館工作與研究,2012,11:4-11.

      [7]馬費成,望俊成,吳克文,邱璇. 國外搜索引擎檢索效能研究述評[J]. 中國圖書館學報,2009,04:72-79.

      [8]陳遠,成全,鐘曉星. 基于搜索引擎的關鍵詞廣告及策略[J]. 情報理論與實踐,2005,02:169-172.

      [9]黃知義,周寧. 幾類搜索引擎的原理剖析、比較研究及發(fā)展趨勢探討[J]. 圖書館學研究,2005,03:61-64+67.

      [10]趙金海,趙西安. 國外網(wǎng)絡搜索引擎優(yōu)秀資源現(xiàn)狀述評——搜索引擎網(wǎng)站、論壇、新聞和學術會議資源[J]. 現(xiàn)代情報,2008,01:218-220+223.

      [11]倪德強. 基于本體的軟件構件描述與檢索[J].指揮信息系統(tǒng)與技術,2010,04:24—28

      猜你喜歡
      搜索引擎本體
      Abstracts and Key Words
      哲學分析(2023年4期)2023-12-21 05:30:27
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      中國音樂學(2020年4期)2020-12-25 02:58:06
      《我應該感到自豪才對》的本體性教學內(nèi)容及啟示
      文學教育(2016年27期)2016-02-28 02:35:15
      網(wǎng)絡搜索引擎亟待規(guī)范
      Nutch搜索引擎在網(wǎng)絡輿情管控中的應用
      警察技術(2015年3期)2015-02-27 15:37:09
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      廣告主與搜索引擎的雙向博弈分析
      專題
      圖書與情報(2013年1期)2013-11-16 22:24:00
      Care about the virtue moral education
      卷宗(2013年6期)2013-10-21 21:07:52
      知識漫畫
      百科知識(2012年11期)2012-04-29 08:30:15
      南靖县| 西华县| 青田县| 抚宁县| 云浮市| 五峰| 深州市| 永济市| 彰化县| 龙口市| 阳谷县| 顺义区| 南溪县| 建瓯市| 井陉县| 龙江县| 息烽县| 阿克陶县| 蒙山县| 巩义市| 罗定市| 滨州市| 河北区| 平利县| 遂平县| 云南省| 大足县| 景东| 兖州市| 华安县| 介休市| 磴口县| 琼中| 衡阳县| 仁怀市| 长沙县| 莒南县| 土默特左旗| 开阳县| 宁陕县| 景德镇市|