• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      垂直和通用搜索引擎的差異和案例分析

      2009-07-15 09:54:02劉俊熙
      現(xiàn)代情報 2009年3期
      關(guān)鍵詞:案例分析數(shù)據(jù)處理

      劉俊熙 盛 宇

      〔摘 要〕垂直搜索被普遍認(rèn)為將是下個潛力市場,是搜索引擎的細(xì)分和延伸,是對某類網(wǎng)頁資源和結(jié)構(gòu)化資源的深度整合。本文綜合分析了垂直搜索的特性,并從信息采集、信息索引和信息處理方面分析其同通用搜索引擎的差異,然后通過垂直搜索在電子政務(wù)上的強勢進入的案例來分析其應(yīng)用發(fā)站的特性。

      〔關(guān)鍵詞〕垂直搜索;數(shù)據(jù)處理;案例分析

      〔中圖分類號〕TP391 〔文獻標(biāo)識碼〕B 〔文章編號〕1008-0821(2009)03-0143-03

      1 垂直搜索產(chǎn)生的背景和現(xiàn)狀

      1.1 產(chǎn)生背景

      搜索引擎重組和整合了互聯(lián)網(wǎng)內(nèi)眾多網(wǎng)站的無序信息,起到了信息導(dǎo)航的作用。它將所有網(wǎng)站上的信息整理在一個平臺上供用戶使用,互聯(lián)網(wǎng)的意義才得以充分體現(xiàn)和發(fā)揮。據(jù)調(diào)查,84.6%的中國網(wǎng)民,通過搜索獲取信息,為此其迅速成為互聯(lián)網(wǎng)中最有價值的領(lǐng)域。

      但是搜索引擎的查詢的海量結(jié)果存在信息量大、查詢不準(zhǔn)確、深度不夠等缺陷,用戶感覺到很難在短時間內(nèi)準(zhǔn)確的篩選出需要的內(nèi)容找到符合的信息。而在另一方面,正如微軟研究院負(fù)責(zé)搜索的一名技術(shù)專家說:75%的內(nèi)容通用搜索引擎搜索不出來。這里面包含2層含義:(1)網(wǎng)站結(jié)構(gòu)不合理,網(wǎng)頁對搜索引擎不友好;(2)由于信息在互聯(lián)網(wǎng)是海量的,非結(jié)構(gòu)化的信息需要經(jīng)過結(jié)構(gòu)化的梳理后才能更好的展現(xiàn)。同時,市場需求的多元化也導(dǎo)致了搜索引擎的發(fā)展格局必然是行業(yè)化和細(xì)分化,垂直搜索被普遍認(rèn)為將是下個潛力市場。從Yahoo推出旅游搜索、Goolge的本地搜索、Baidu的地圖搜索,可以看出這些通用搜索巨頭所面臨的競爭和搜索引擎的發(fā)展趨勢。通過關(guān)鍵字:“垂直搜索引擎”在Google查一下,在返回結(jié)果中可以看到不少的投資公司很看好這一領(lǐng)域,即使百度的發(fā)言人也在演講中提到垂直搜索引擎,而一些國外軟件巨頭例如Google和Microsoft也在這一領(lǐng)域有所動作,據(jù)說微軟最近就推出了一個購物垂直搜索引擎。因此垂直搜索成為了搜索引擎發(fā)展的另一種選擇。

      1.2 發(fā)展現(xiàn)狀

      在國外,looksmart曾一下子推出19款內(nèi)容涉及各個細(xì)分市場的垂直搜索引擎;Answers.com、Indeed.com等垂直搜索引擎也備受青睞;連Google、Yahoo!等也紛紛搶灘細(xì)分市場。

      國際趨勢如此,國內(nèi)垂直搜索引擎的先行者也悄然搶占了某些細(xì)分市場,比如酷訊、Accoona中國等,都集中精力做好某一細(xì)分行業(yè),盡可能的作精、作細(xì)、作到最好。以酷訊(www.kooxoo.com)為例,作為國內(nèi)第一家生活信息搜索引擎,盡管初創(chuàng)不久,卻依靠其專業(yè)化服務(wù)而異軍突起,迄今已發(fā)展成為集住房、招聘、票務(wù)、旅游、汽車、購物、餐飲等為一體的行業(yè)領(lǐng)袖,業(yè)務(wù)量逐漸穩(wěn)居國內(nèi)垂直搜索三強。據(jù)統(tǒng)計,酷訊現(xiàn)在每日訪問的獨立用戶數(shù)已接近百萬人,總體訪問量遙遙領(lǐng)先于競爭對手。

      垂直搜索如此的蓬勃發(fā)展的最主要原因就是滿足了用戶對某一特定信息準(zhǔn)確搜索的需要。

      2 垂直和通用搜索在信息檢索上的差異

      垂直搜索引擎是針對某一特定領(lǐng)域、某一特定人群或某一特定需求提供的有一定價值的信息和相關(guān)服務(wù)的搜索工具,它不僅僅是普通的網(wǎng)頁索引,而且包括信息的加工,結(jié)構(gòu)化的信息,尤其是針對特定的行業(yè)的內(nèi)容做了專業(yè)和深入的分析挖掘,精細(xì)分類,過濾篩選等,信息定位更精準(zhǔn)。它是搜索引擎的細(xì)分和延伸,是對某類網(wǎng)頁資源和結(jié)構(gòu)化資源的深度整合的產(chǎn)物。我們可以聯(lián)想起商業(yè)中的利基市場戰(zhàn)略。利基市場指市場中通常為大企業(yè)忽略的某些細(xì)分市場;而利基市場戰(zhàn)略則指企業(yè)通過專業(yè)化經(jīng)營來占領(lǐng)這些市場,從而最大限度的獲取收益所采取的策略。

      垂直和通用搜索在信息檢索上的差異主要體現(xiàn)在:

      (1)從計算技術(shù)來講,還是遵循馮?諾依曼的體系,也即是說還是依靠圖靈未實現(xiàn)的人工智能之下的計算機邏輯來處理信息,在搜索收錄的分析過程中,如果不加上行業(yè)特點和特性進行分析,很難說會更準(zhǔn)確分析到網(wǎng)頁的重要性和分析的準(zhǔn)確。這個也是垂直的意義所在。當(dāng)然,并非你垂直了,你的搜索收錄和搜索結(jié)果就一定比通用搜索更準(zhǔn)確。

      (2)從信息搜索的實踐來分析,用戶輸入某個關(guān)鍵字而不結(jié)合其他補充信息,搜索引擎很難準(zhǔn)確分析和判斷其真正的信息需求,造成了大量的無用的搜索結(jié)果,而這類信息垃圾會影響用戶的感受,以及繼續(xù)試用搜索的興趣。

      (3)從信息搜索及時性來分析,垂直搜索引擎需要獲取的信息來自于某一特定領(lǐng)域的,這比起通用搜索引擎漫無邊際的信息抓取,具有實時性優(yōu)勢。由于互聯(lián)網(wǎng)上的信息量非常巨大,通用搜索引擎的數(shù)據(jù)更新周期短則十幾天,長則幾個月,而垂直搜索引擎的數(shù)據(jù)更新完全可以以秒為單位。酷訊(kooxoo.com)的火車票搜索就是典型的實時性垂直搜索。

      (4)從信息搜索結(jié)果來分析,通用搜索引擎由于自身巨大,他做不到更深入分析后給出更符合行業(yè)、用戶需求的搜索結(jié)果。例如,用戶輸入“三星數(shù)碼相機”,通用搜索一般會給出大量的結(jié)果,但是都是有關(guān)的新聞、網(wǎng)頁等相關(guān)線索,而此時用戶關(guān)心的是關(guān)于該產(chǎn)品的型號,配置、功能、價格、外觀甚至相關(guān)比較信息。

      (5)從信息搜索用戶來分析,垂直搜索引擎還可以通過物以類聚形成搜索社區(qū),在個性化服務(wù)上做得更完善,使用戶逐漸形成某類信息到某個網(wǎng)站上去的概念。就如現(xiàn)在越來越多的用戶搜索生活信息正逐漸從Google和Baidu轉(zhuǎn)到“酷訊”上去搜索。

      3 垂直和通用搜索在信息處理上的差異

      3.1 在信息采集方面

      通用搜索引擎主要是利用一個spider程序到網(wǎng)絡(luò)上爬行,一般是某個特定的周期派出一次將網(wǎng)頁更新,垂直搜索引擎同樣應(yīng)有一個spider程序,但該程序只在一些特定的網(wǎng)絡(luò)上爬行,并不會對每一個鏈接都感興趣,相對來說,垂直搜索引擎的收錄范圍大大縮小了,但并不意味著內(nèi)容的縮小,通用搜索引擎對一些動態(tài)腳本是不敏感的,例如唱唱砤sp?id=唱唱持類的網(wǎng)頁一般不被收錄,而恰恰是這類動態(tài)網(wǎng)頁包含了豐富的內(nèi)容,垂直搜索引擎是必須收錄這些動態(tài)腳本的,這就需要在技術(shù)上做一些特殊處理,另外由于目前網(wǎng)頁中的鏈接形式非常多,不但有動態(tài)腳本也有flash做的鏈接,這些鏈接方式通過傳統(tǒng)的spider程序是很難解析出來的,在垂直搜索引擎中也應(yīng)該解決。

      3.2 在信息索引方面

      在這一方面最大區(qū)別是對網(wǎng)頁信息進行了結(jié)構(gòu)化信息抽取,也就是將網(wǎng)頁的非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化信息數(shù)據(jù),好比網(wǎng)頁搜索是以網(wǎng)頁為最小單位,基于視覺的網(wǎng)頁塊分析是以網(wǎng)頁塊為最小單位,而垂直搜索是以結(jié)構(gòu)化數(shù)據(jù)為最小單位。然后將這些數(shù)據(jù)存儲到數(shù)據(jù)庫,進行進一步的加工處理,如:去重、分類等,最后分詞、索引再以搜索的方式滿足用戶的需求。

      舉個例子來說明會更容易理解,比如購物搜索引擎,整體流程大致如下:抓取網(wǎng)頁后,對網(wǎng)頁商品信息進行抽取,抽取出商品名稱、價格、簡介……甚至可以進一步將筆記本簡介細(xì)分成“品牌、型號、CPU、內(nèi)存、硬盤、顯示屏、……”然后對信息進行清洗、去重、分類、分析比較、數(shù)據(jù)挖掘,最后通過分詞索引提供用戶搜索、通過分析挖掘提供市場行情報告。整個過程中,數(shù)據(jù)由非結(jié)構(gòu)化數(shù)據(jù)抽取成結(jié)構(gòu)化數(shù)據(jù),經(jīng)過深度加工處理后以非結(jié)構(gòu)化的方式和結(jié)構(gòu)化的方式返回給用戶。

      3.3 在數(shù)據(jù)處理方面

      垂直搜索引擎的數(shù)據(jù)來源于所處行業(yè)的相關(guān)站點和自身平臺。通過對這些數(shù)據(jù)的重組和整合后使數(shù)據(jù)有了結(jié)構(gòu)化和格式化的特性。比如在某個購物類的垂直搜索引擎上輸入“三星數(shù)碼相機”出現(xiàn)的不再是大量的關(guān)于“三星數(shù)碼相機”的新聞、評論和網(wǎng)站,而是關(guān)于該產(chǎn)品的相關(guān)屬性如:內(nèi)存,尺寸、大小、電池型號、價格、生產(chǎn)廠家等相關(guān)技術(shù)屬性,有的還提供比價服務(wù),這就把搜索服務(wù)專業(yè)化、細(xì)致化、個性化了。

      為了能夠達(dá)到這個搜索效果,垂直搜索引擎在數(shù)據(jù)處理上所做的就深度挖掘,數(shù)據(jù)再整合,這種數(shù)據(jù)再整合的特點就是元數(shù)據(jù)模型再組織、再整合、深度數(shù)據(jù)挖掘、互動性。通過對元數(shù)據(jù)信息進入深度加工,該類垂直搜索引擎為用戶提供網(wǎng)頁搜索引擎無法做到的專業(yè)性、功能性、關(guān)聯(lián)性、有的加入了用戶信息管理以及信息發(fā)布互動功能,能很好地滿足了用戶對專業(yè)性、準(zhǔn)確性、功能性、個性化的需求。

      以althline為例,進入healthline的網(wǎng)站,你會發(fā)現(xiàn)他簡直就是一個無所不知的醫(yī)生。Healthline的醫(yī)療垂直搜索平臺使用組合語義查尋技術(shù)和全面消費健康分類學(xué),分類數(shù)據(jù)由超過850 000項醫(yī)療相關(guān)元數(shù)據(jù),和50 000條相互關(guān)連的醫(yī)療概念組成。這些獨特地資源使Healthline翻譯每天用戶使用語言以便精確地匹配醫(yī)療術(shù)語,使得消費者能迅速從結(jié)果中判斷確切的需要信息。比如,當(dāng)你點擊疾病分類“高血壓”進入搜索結(jié)果頁面后,他把高血壓的定義、文章、圖片,高血壓評估、治療方法、高血壓相關(guān)疾病、醫(yī)生反饋信息等有高血壓的所有信息都全部專業(yè)的分類列出來了。如果你你得了高血壓,通過這些信息加上互動完全可以知道你目前的狀況,以及怎樣治療,怎樣調(diào)整生活、飲食習(xí)慣,預(yù)約附近的醫(yī)生,各種藥物的特點,最終你完全解決了你所有的問題。

      healthline專業(yè)的元數(shù)據(jù)屬性構(gòu)造背后有著一個強大的醫(yī)療領(lǐng)域?qū)I(yè)人物組成的團隊。這些醫(yī)療領(lǐng)域的專業(yè)人物對該領(lǐng)域的元數(shù)據(jù)模型進行專業(yè)的分析、關(guān)聯(lián)整合、再通過搜索技術(shù)按這些元數(shù)據(jù)模型把這些信息組織呈現(xiàn)給用戶。公司的HealthMaps(健康關(guān)系導(dǎo)圖),是由超過1 100位主要的醫(yī)師和醫(yī)療信息學(xué)專家共同開發(fā)的,用戶直接在healthmap上點擊相關(guān)圖標(biāo)就能搜索所有與該的疾病所有相關(guān)的信息。

      再如用戶進入ChinaEC.com,輸入關(guān)鍵詞進行搜索或從目錄、主題購物中進入時,就可以瀏覽到上萬電子商務(wù)網(wǎng)站經(jīng)營的相關(guān)產(chǎn)品,除了可以看到產(chǎn)品的圖像、價格和詳細(xì)介紹外,同時提供給用戶的還有價格比較、區(qū)域選擇、品牌識別和產(chǎn)品排序等一系列全方位的服務(wù)。在搜索過程中,中商網(wǎng)獨具特色的動態(tài)定向歸類搜索技術(shù)會對其搜索結(jié)果進行分門別類,不斷提供更細(xì)化、更進一步的提示選擇,這種歸類性的搜索結(jié)果一目了然,既不遺漏也不淹沒,讓用戶更能準(zhǔn)確的找到自己要的商品,具有“精確制導(dǎo)”的效果。要能夠達(dá)到這樣的檢索效果,系統(tǒng)必須有一個區(qū)別于傳統(tǒng)搜索引擎思路的一個新的體系結(jié)構(gòu)。

      4 案例分析:垂直搜索引擎在電子政務(wù)的應(yīng)用

      垂直搜索在電子政務(wù)上的應(yīng)用特別的強勢,我們可以通過剖析國內(nèi)外兩個典型案例來闡述。

      4.1 國外案例分析(1)——美國聯(lián)邦政府網(wǎng)站FirstGov

      美國聯(lián)邦政府網(wǎng)站FirstGov提供公眾、企業(yè)、國家和地方機構(gòu)了解美國政府所有動態(tài)的搜索入口。firstgov.作為聯(lián)邦政府惟一的政府服務(wù)網(wǎng)站,整合了聯(lián)邦政府、州與市縣三級的所有服務(wù)項目,并與許多政府部門如立法、司法和行政部門建立了鏈接,同時也與各州政府和市縣政府網(wǎng)站都有鏈接。用戶通過該網(wǎng)站可以鏈接向任何政府網(wǎng)站,包括州和地方政府,允許用戶同時搜索全部2 700萬網(wǎng)頁,它的強大的搜索引擎系統(tǒng)由Vivisimo為主的4家搜索引擎開發(fā)企業(yè)、微軟和聯(lián)邦政府一起開發(fā)的高性能搜索引擎,個人通過關(guān)鍵詞、主題分類或機構(gòu)分類進行搜索,可以在不到1/4秒的時間內(nèi)搜索到半兆的文件。從這個意義上講,它與聯(lián)邦各職能部門、州及市縣級政府網(wǎng)站實際上就構(gòu)成了一種前臺與后臺的關(guān)系,任何企業(yè)和公民,通過前臺網(wǎng)站,可以搜索到所有美國政府部門提供的所有服務(wù)。很多人把FirstGov看成是“政府門戶”,可事實上在它的首頁,你看不到任何一條新聞,也根本沒有任何有關(guān)新聞的欄目,有的僅僅是分類除了分類還是分類。從這點上講,公眾更愿意將它看成是一個提供政務(wù)報務(wù)的專業(yè)搜索引擎。

      4.2 國內(nèi)案例分析(2)——央網(wǎng)搜索

      中央人民政府門戶(簡稱央網(wǎng))是各部委及各地方政府信息資源的匯聚點,是政務(wù)信息發(fā)布和提供在線支持的綜合服務(wù)平臺。其搜索主頁包含了國網(wǎng)網(wǎng)站搜索、國務(wù)院公報搜索、政府網(wǎng)站搜索、圖片搜索、文檔搜索、服務(wù)搜索等搜索分類。國網(wǎng)網(wǎng)站搜索是指對國家門戶網(wǎng)站http:∥www.gov.cn自身發(fā)布內(nèi)容的搜索功能;國務(wù)院公報搜索是指對國務(wù)院公報內(nèi)容進行搜索;政府網(wǎng)站搜索是指對各級政府網(wǎng)站的網(wǎng)頁內(nèi)容搜索;每一種分類搜索,系統(tǒng)都提供“高級搜索”功能。

      同時央網(wǎng)搜索制定了政府網(wǎng)站內(nèi)容格式規(guī)范,把搜索引擎建設(shè)和各級政府網(wǎng)站的標(biāo)準(zhǔn)化建設(shè)緊密結(jié)合在一起,能夠按照標(biāo)準(zhǔn)進行內(nèi)容分析,提高了網(wǎng)頁分析的準(zhǔn)確性,實現(xiàn)了更好的搜索效果。目前各級網(wǎng)站發(fā)布的新網(wǎng)頁一般在30分鐘之內(nèi)就可在央網(wǎng)門戶搜索引擎中搜索到。

      央網(wǎng)搜索引擎是對各級政府網(wǎng)站的全部網(wǎng)頁內(nèi)容進行采集和索引,提供完整的搜索結(jié)果集,搜索到的所有網(wǎng)頁都是可瀏覽的,采用的是精確檢索技術(shù)。

      我們可以看到該系統(tǒng)整合了部委和各省市的政務(wù)服務(wù),以及相關(guān)的政策資源。用戶通過輸入關(guān)鍵詞,就可以在頁面上一并獲得網(wǎng)上辦事的鏈接入口和相關(guān)政策信息,大大方便了用戶的同時,提高了政府的辦事效率和服務(wù)水平,凸顯電子政務(wù)價值。

      5 結(jié)束語

      人們對互聯(lián)網(wǎng)的信息需求正逐步從最初的娛樂、聊天轉(zhuǎn)為更加實際的衣、食、住、行、求醫(yī)、求職等。人們獲取信息的渠道從習(xí)慣使用Google、Baidu、Yahoo這些通用的搜索引擎逐級轉(zhuǎn)向能提供更專業(yè)、更直接、個性化的垂直搜索。所以,垂直搜索引擎還是有空間,問題是垂直搜索引擎需要搜索技術(shù)以及互聯(lián)網(wǎng)理解能力,還要掌握行業(yè)特點,這兩方面是目前垂直搜索引擎的生存的關(guān)鍵。

      參考文獻

      [1]http:∥www.fullsearcher.com/n20071112144420735.asp[EB].

      [2]吳曉,等.個性化搜索引擎中用戶興趣模型的研究[A].第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C].2007.

      [3]吳麗輝.個性化的Web信息采集技術(shù)研究[J].情報雜志,2007,(3).

      猜你喜歡
      案例分析數(shù)據(jù)處理
      認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
      ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
      “互聯(lián)網(wǎng)+”下的商業(yè)模式創(chuàng)新案例分析
      微信公眾號的運營模式研究
      父親缺失案例分析
      冷庫建筑火災(zāi)特點及調(diào)查方法研究
      科技資訊(2016年18期)2016-11-15 20:46:09
      高校圖書館閱讀推廣案例分析
      科技視界(2016年21期)2016-10-17 19:32:37
      讓語文課堂評價語綻放異彩
      MATLAB在化學(xué)工程與工藝實驗數(shù)據(jù)處理中的應(yīng)用
      Matlab在密立根油滴實驗數(shù)據(jù)處理中的應(yīng)用
      印江| 泗水县| 定襄县| 禹州市| 华亭县| 营口市| 谷城县| 牟定县| 吉木萨尔县| 定南县| 桃江县| 夏河县| 育儿| 新宾| 张北县| 衢州市| 商河县| 桑植县| 瑞昌市| 长泰县| 平顶山市| 马山县| 兴业县| 麟游县| 亚东县| 安顺市| 西昌市| 崇州市| 宁陵县| 五大连池市| 乌拉特前旗| 芮城县| 浮梁县| 托里县| 瑞丽市| 会昌县| 柯坪县| 宁陵县| 华宁县| 海门市| 镇安县|