• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于結(jié)構(gòu)化數(shù)據(jù)的搜索引擎

      2019-03-18 02:14:32姜恩波覃琳
      現(xiàn)代情報(bào) 2019年2期
      關(guān)鍵詞:搜索引擎互聯(lián)網(wǎng)

      姜恩波 覃琳

      摘要:[目的/意義]搜索引擎作為互聯(lián)網(wǎng)的核心技術(shù)與應(yīng)用之一,代表了互聯(lián)網(wǎng)發(fā)展的水平。了解當(dāng)前搜索引擎的發(fā)展情況,有利于更好地把握技術(shù)前沿動(dòng)態(tài)。[方法/過(guò)程]文章首先闡述搜索引擎的發(fā)展歷史,然后重點(diǎn)介紹基于結(jié)構(gòu)化數(shù)據(jù)的搜索引擎的原理、應(yīng)用場(chǎng)景,揭示這一類搜索引擎的特征。[結(jié)果/結(jié)論]基于數(shù)據(jù)的搜索引擎是互聯(lián)網(wǎng)發(fā)展過(guò)程中的必然結(jié)果,也是互聯(lián)網(wǎng)發(fā)展的一個(gè)亮點(diǎn)。搜索引擎會(huì)繼續(xù)將互聯(lián)網(wǎng)的精英技術(shù)和理念收攬其中,在人們的學(xué)習(xí)、生活中發(fā)揮更加突出的作用。

      關(guān)鍵詞:搜索引擎;結(jié)構(gòu)化數(shù)據(jù);知識(shí)實(shí)體;互聯(lián)網(wǎng)

      DOI:10.3969/j.issn.1008-0821.2019.02.008

      〔中圖分類號(hào)〕G254.9〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2019)02-0066-07

      數(shù)據(jù)是一個(gè)變化的概念。之前的數(shù)據(jù)主要是指在自然科學(xué)、社會(huì)科學(xué)研究上從自然界采集、在實(shí)驗(yàn)室產(chǎn)生的一手?jǐn)?shù)據(jù)以及基于一手?jǐn)?shù)據(jù)分析、統(tǒng)計(jì)產(chǎn)生的二手?jǐn)?shù)據(jù),也就是我們所說(shuō)的科學(xué)數(shù)據(jù)。這可以算是數(shù)據(jù)的狹義概念。大數(shù)據(jù)時(shí)代,數(shù)據(jù)所包括的范圍更加廣泛,除了科學(xué)數(shù)據(jù)之外,還包括但不限于文本、音頻、視頻、圖片、表格等。數(shù)據(jù)無(wú)處不在,萬(wàn)物皆是數(shù)據(jù)。而本文提到的基于數(shù)據(jù)的搜索引擎是指以結(jié)構(gòu)化、細(xì)粒度的信息單元為基礎(chǔ),進(jìn)行知識(shí)組織和語(yǔ)義搜索的搜索引擎。

      1搜索引擎發(fā)展簡(jiǎn)史

      搜索引擎作為第一代互聯(lián)網(wǎng)的核心技術(shù)和成功應(yīng)用,已經(jīng)和我們的學(xué)習(xí)和研究密不可分。人們幾乎已經(jīng)把谷歌、百度、必應(yīng)這些搜索引擎作為查找東西的代名詞,論文、天氣、股票、疾病、專家、旅游等等,都可以從搜索引擎里信手拈來(lái)。然而,就是這普通得再也不能普通的“你提問(wèn)——我回答”的行為背后卻蘊(yùn)含著搜索引擎領(lǐng)域不斷發(fā)展、不斷演變,從分類導(dǎo)航到基于知識(shí)庫(kù)服務(wù)的歷史軌跡。當(dāng)前,搜索引擎領(lǐng)域已經(jīng)形成了一個(gè)極為龐大的產(chǎn)業(yè),搜索引擎優(yōu)化(SEO)成為人們推廣成果的重要途徑。大型的商業(yè)企業(yè)、學(xué)術(shù)出版商、信息服務(wù)、人工智能等領(lǐng)域都在為有一個(gè)功能強(qiáng)大,且方便易用的“搜索核”而努力探索和研究。而搜索引擎其自身也在不斷地和最新的技術(shù)相結(jié)合,滿足著大數(shù)據(jù)時(shí)代,用戶不斷攀升的需求。搜索引擎的發(fā)展就是互聯(lián)網(wǎng)進(jìn)步的標(biāo)志。

      第一代搜索引擎是以雅虎、DMOZ為代表的分類導(dǎo)航搜索引擎。在那個(gè)階段,互聯(lián)網(wǎng)信息的數(shù)量和類型都遠(yuǎn)不能和現(xiàn)在相比。雅虎還能通過(guò)人工來(lái)篩選網(wǎng)頁(yè),建立元數(shù)據(jù)信息,也就是給網(wǎng)頁(yè)“編目”,再放到合適的類別之下。而Open Directory Project(又稱Directory of Mozilla,簡(jiǎn)稱DMOZ)是互聯(lián)網(wǎng)上最大的目錄社區(qū)。嚴(yán)格來(lái)說(shuō),第一代搜索引擎的核心服務(wù)是“組織”而不是“搜索”。

      隨著互聯(lián)網(wǎng)快速發(fā)展,信息量也迅猛增長(zhǎng)。更多、更快地匯聚信息,并提供準(zhǔn)確的檢索結(jié)果,是第二代搜索引擎的目標(biāo)。第二代搜索引擎的核心技術(shù)是“采集”和“關(guān)聯(lián)”。每個(gè)搜索引擎都會(huì)有采集組件。這個(gè)組件周期性地遍歷互聯(lián)網(wǎng)。人們形象地把它們稱作網(wǎng)絡(luò)蜘蛛(Spider)、網(wǎng)絡(luò)爬蟲(chóng)(Crawler)等。評(píng)價(jià)第二代搜索引擎的一個(gè)重要指標(biāo)就是采集和索引網(wǎng)頁(yè)的速度和數(shù)量。比如谷歌一般是28天。而網(wǎng)絡(luò)爬蟲(chóng)的性能、并發(fā)性、智能性都是研究的熱點(diǎn)。

      采集回了眾多的網(wǎng)頁(yè),如何才能把內(nèi)容更加準(zhǔn)確地反饋給用戶呢?也就是說(shuō)在搜索引擎內(nèi)部,如何更好地組織這些頁(yè)面。谷歌是NSF資助的眾多搜索引擎項(xiàng)目之一。其PageRank算法的主要核心就是不僅計(jì)算文本相似度,還計(jì)算網(wǎng)頁(yè)之間的關(guān)聯(lián)度。兩個(gè)維度的疊加讓用戶不再需要頻繁翻頁(yè)就能找到自己真正的目標(biāo)。這一段時(shí)間里出現(xiàn)了很多具有實(shí)際意義的搜索引擎:Alta Vista、Lycos、Infoseek、Yahoo等,谷歌成為第二代搜索引擎中的翹楚,并且不斷推出新的功能,影響著整個(gè)互聯(lián)網(wǎng)。搜索引擎也從單一的信息組織服務(wù)發(fā)展到電子商務(wù)、新聞信息服務(wù)、個(gè)人免費(fèi)電子信箱服務(wù)等多種網(wǎng)絡(luò)服務(wù)的綜合體。

      2搜索引擎向精準(zhǔn)服務(wù)的發(fā)展

      二代Internet飛速發(fā)展應(yīng)該歸功于Internet的商業(yè)化。商業(yè)機(jī)構(gòu)踏入Internet這一陌生世界后,很快發(fā)現(xiàn)了它在通信、資料檢索、客戶服務(wù)等方面的巨大潛力[1]。商業(yè)機(jī)構(gòu)的加入,從各個(gè)方面推動(dòng)了互聯(lián)網(wǎng)的普及以及人們對(duì)互聯(lián)網(wǎng)的更進(jìn)一步的依賴。對(duì)于搜索引擎,人們不再滿足于僅僅提供一大堆摘要和鏈接,希望能夠得到更為精準(zhǔn)的服務(wù)。而這正是二代搜索引擎的不足。

      20世紀(jì)90年代,Tim Berners Lee等人提出了“語(yǔ)義WEB”的概念,認(rèn)為互聯(lián)網(wǎng)發(fā)展的方向是由“文檔網(wǎng)絡(luò)(Web of Document)”向“數(shù)據(jù)網(wǎng)絡(luò)(Web of Data)”進(jìn)化。在“Web of Document”環(huán)境下,Html頁(yè)面是搜索引擎采集、處理和服務(wù)于用戶的基本單元。我們知道,Html頁(yè)面是一種半結(jié)構(gòu)化的組織方式,內(nèi)容和顯示模式放在一起。其次,URL兩端所關(guān)聯(lián)的是網(wǎng)頁(yè),而頁(yè)面包含的內(nèi)容很多,不易準(zhǔn)確指向。另外,每一個(gè)頁(yè)面都可能和很多其他的頁(yè)面建立關(guān)聯(lián)。而這些頁(yè)面之間具體的關(guān)聯(lián)關(guān)系在URL里也是無(wú)法直接體現(xiàn)的。而“Web of Data”則是要在互聯(lián)網(wǎng)現(xiàn)有的內(nèi)容層面上進(jìn)行改造、優(yōu)化和重構(gòu)。改造和優(yōu)化是指對(duì)Html頁(yè)面內(nèi)容增加描述、標(biāo)注信息,形成結(jié)構(gòu)化的元數(shù)據(jù)及摘要內(nèi)容。重構(gòu),則是指以結(jié)構(gòu)化的形式發(fā)布海量的信息,并且逐漸成為互聯(lián)網(wǎng)的基礎(chǔ)。至此,互聯(lián)網(wǎng)進(jìn)入了第3個(gè)發(fā)展階段。在這個(gè)階段,語(yǔ)義標(biāo)注、知識(shí)庫(kù)、知識(shí)組織、關(guān)聯(lián)數(shù)據(jù)和自然語(yǔ)言處理成為其突出特征。

      對(duì)于搜索引擎,它以互聯(lián)網(wǎng)內(nèi)容作為處理和服務(wù)的基礎(chǔ)。前者發(fā)生了變化,自然會(huì)導(dǎo)致后者的跟隨。“Web of Data”的思想讓“搜索”的概念發(fā)生了翻天覆地的變化,由“搜索信息”向“理解搜索”轉(zhuǎn)變[2]。人們開(kāi)始基于結(jié)構(gòu)化數(shù)據(jù)的信息來(lái)改造搜索引擎。

      2.1語(yǔ)義標(biāo)注(Semantic Annotation)與Schema.org

      語(yǔ)義標(biāo)注是采用類RDF形式,對(duì)HTML頁(yè)面內(nèi)容進(jìn)行描述,并以“鍵值對(duì)”的方式嵌套到HTML標(biāo)簽中的一種技術(shù)手段。語(yǔ)義標(biāo)注實(shí)質(zhì)是一種隱形的內(nèi)容片段,旨在為搜索引擎的語(yǔ)義檢索和富文本摘要的顯示提供支持。搜索引擎在處理特定網(wǎng)頁(yè)的時(shí)候,除了對(duì)正文進(jìn)行例行處理外,重點(diǎn)是要對(duì)這些語(yǔ)義信息進(jìn)行識(shí)別。實(shí)現(xiàn)語(yǔ)義標(biāo)注的技術(shù)有微數(shù)據(jù)(谷歌推薦使用)、微格式、RDFa。它們的區(qū)別在于所使用的標(biāo)簽不一樣或者所嵌入的地點(diǎn)不一致,并且三者不能彼此兼容。

      Schema.org是由谷歌、雅虎、必應(yīng)(Bing)和Yandex聯(lián)合推出的可用來(lái)描述互聯(lián)網(wǎng)上結(jié)構(gòu)化數(shù)據(jù)的語(yǔ)義標(biāo)注體系。簡(jiǎn)而言之,它提供了描述紛繁事物的統(tǒng)一框架。Schema.org的目標(biāo)是“改善搜索引擎的有效性,讓人們更容易地找到需要的網(wǎng)頁(yè)”[3]。Schema.org以Thing作為根節(jié)點(diǎn),子標(biāo)簽分為4級(jí)。第一級(jí)8大類,分別是Creative Works、Intangible、MedicalEntity、Event、Organization、Person、Place、Product。第2、3、4級(jí)都是對(duì)其父級(jí)別的內(nèi)容進(jìn)行細(xì)化。每一類事物有若干屬性以及對(duì)應(yīng)的數(shù)據(jù)類型,隨著標(biāo)簽級(jí)別的加深,事物的屬性也在繼承的基礎(chǔ)上,增加本級(jí)特有的屬性。在技術(shù)上,Schema.org采用微數(shù)據(jù)作為唯一的技術(shù)實(shí)現(xiàn)方案,希望統(tǒng)一HTML標(biāo)注技術(shù)。

      下面的例子來(lái)自于Schema.org中文網(wǎng)站[4]。通過(guò)對(duì)標(biāo)簽的分析,搜索引擎可以準(zhǔn)確地了解網(wǎng)頁(yè)主要是對(duì)一部電影(http://schema.org/Movie)進(jìn)行描述。電影有兩個(gè)屬性:電影名字(Name)和導(dǎo)演(Director)。

      <div itemscope itemtype="http://schema.org/Movie">

      <h1 itemprop="name">阿凡達(dá)</h1>

      <span>Director:<span itemprop="director">詹姆斯·卡梅隆</span> (出生于1954年8月16日)</span>

      </div>

      語(yǔ)義標(biāo)注是互聯(lián)網(wǎng)發(fā)展的一個(gè)方向,它為搜索引擎精準(zhǔn)服務(wù)提供基礎(chǔ)素材。從目前的應(yīng)用情況來(lái)看,語(yǔ)義標(biāo)注在國(guó)外宣傳和應(yīng)用的情況較好。國(guó)內(nèi)總體來(lái)說(shuō)還處于理論研究和小范圍使用階段。一些機(jī)構(gòu)制定了語(yǔ)義標(biāo)注體系,例如cnSchema.org。cnSchema.org是一個(gè)基于社區(qū)維護(hù)的開(kāi)放的知識(shí)圖譜Schema標(biāo)準(zhǔn),由來(lái)自北大、清華等若干高校和研究機(jī)構(gòu)共同制定與維護(hù)。

      2.2RDF搜索引擎

      基于Tim Berners-Lee的“Web of Data”理念,眾多的機(jī)構(gòu)開(kāi)始以關(guān)聯(lián)開(kāi)放數(shù)據(jù)(Linked Open Data,LOD)作為一種最佳實(shí)踐來(lái)發(fā)布信息。這包括維基百科、大英圖書(shū)館書(shū)目信息、紐約時(shí)報(bào)等等。關(guān)聯(lián)數(shù)據(jù)的特征之一就是采用RDF來(lái)對(duì)信息進(jìn)行描述和組織,通過(guò)多個(gè)RDF實(shí)例來(lái)形成一個(gè)概念的數(shù)據(jù)模型。而每一個(gè)RDF實(shí)例則是由資源、屬性類型、屬性值構(gòu)成的結(jié)構(gòu)化的三元組(Triple)。三元組的架構(gòu)準(zhǔn)確地展現(xiàn)了主、賓之間的關(guān)系(謂語(yǔ)),為搜索引擎“理解”用戶意圖,提供精準(zhǔn)服務(wù)打下了基礎(chǔ)。

      基于此,互聯(lián)網(wǎng)上出現(xiàn)了眾多RDF知識(shí)庫(kù),如Yago、Freebase、DBpedia、musicBrainz等,也出現(xiàn)了基于RDF的搜索引擎。與傳統(tǒng)搜索引擎不一樣,這些搜索引擎的采集對(duì)象不是網(wǎng)頁(yè),而是RDF三元組,如Swoogle、Falcons和Sindice等。

      然而,RDF搜索引擎存儲(chǔ)的是結(jié)構(gòu)化的三元組信息,是用非常簡(jiǎn)潔的形式表達(dá)對(duì)象之間的關(guān)系。因此,這種搜索引擎的用戶主要不是面向普通用戶,而是機(jī)器。機(jī)器通過(guò)SPARQL語(yǔ)句發(fā)出請(qǐng)求,搜索引擎執(zhí)行查詢語(yǔ)句,并將結(jié)果以JSON-LD、RDF/XML、Turtle等格式返回。SPARQL是一種功能強(qiáng)大的查詢語(yǔ)言,允許應(yīng)用程序?qū)DF數(shù)

      據(jù)庫(kù)進(jìn)行復(fù)雜的查詢。但是它畢竟是一種面向底層的查詢語(yǔ)言,普通用戶掌握起來(lái)有很大的困難。因此,最開(kāi)始的RDF搜索引擎存在搜索界面不友好、結(jié)果顯示界面信息不豐富和欠美觀的情況,并未走入尋常百姓家。

      隨著語(yǔ)義網(wǎng)的發(fā)展,RDF數(shù)據(jù)庫(kù)越來(lái)越多,人們希望能夠充分發(fā)揮RDF三元組精準(zhǔn)描述的特性,因此,逐漸出現(xiàn)了一些能夠提供基于半自然語(yǔ)言提問(wèn)的問(wèn)答型搜索引擎(Question and Answer Search Engine)。

      2.3知識(shí)圖譜(Knowledge Graph)與谷歌、必應(yīng)

      作為互聯(lián)網(wǎng)搜索引擎巨頭,谷歌不斷推出新的理念、標(biāo)準(zhǔn)和產(chǎn)品。2012年5月,谷歌發(fā)布“知識(shí)圖譜(Knowledge Graph,KG)”,并且將知識(shí)圖譜加入到谷歌搜索中。知識(shí)圖譜的概念來(lái)自于上世紀(jì)60年代,知識(shí)圖譜的本質(zhì)是描述真實(shí)世界中存在的各種實(shí)體或概念及其關(guān)系的網(wǎng)絡(luò)圖。它能夠極大改進(jìn)搜索引擎的效率和效果,為智能應(yīng)用奠定基礎(chǔ)。知識(shí)實(shí)體的建設(shè)是基于數(shù)據(jù)搜索引擎的基石。實(shí)體又被稱作概念(Concept)、事物(Thing)或知識(shí)元。知識(shí)實(shí)體的數(shù)量、準(zhǔn)確性以及詳細(xì)程度決定搜索引器服務(wù)質(zhì)量的基礎(chǔ)。

      谷歌知識(shí)圖譜的實(shí)體信息內(nèi)容豐富,包括且不限于CIA的世界概況,F(xiàn)reebase和維基百科[6]等。2012年谷歌知識(shí)圖譜已經(jīng)包含了超過(guò)5.70億個(gè)經(jīng)常被搜索的人、地名和事物[7]。它服務(wù)的方式類似于維基百科(Wikipedia)的InfoBox,在搜索結(jié)果頁(yè)面的右邊欄,加上了針對(duì)關(guān)鍵詞的一些結(jié)構(gòu)化描述內(nèi)容。

      與谷歌進(jìn)行競(jìng)爭(zhēng)的是微軟的必應(yīng)(Bing)搜索引擎。必應(yīng)同樣也是基于細(xì)粒度知識(shí)單元的搜索來(lái)提供服務(wù)。微軟稱之為“實(shí)體搜索”(Entity Engine),其知識(shí)庫(kù)叫做Satori。與谷歌不同的是,微軟知識(shí)庫(kù)建設(shè)的方式是靠微軟自身以及眾多第三方加入[3]。2014年,必應(yīng)在其Satori中加入了關(guān)于出租車(chē)[8]、歷史名人時(shí)間履歷(Timelines)[9]和關(guān)于醫(yī)生、律師、牙醫(yī)以及房地產(chǎn)的約1.5億個(gè)實(shí)體和關(guān)系的內(nèi)容[10]。后續(xù),必應(yīng)又陸續(xù)加入了TED演講、大學(xué)排名、歷史事件、大學(xué)開(kāi)放課程以及地名與人名的關(guān)聯(lián)等等[11]。而通過(guò)加入第三方的實(shí)體,必應(yīng)希望在為用戶提供檢索結(jié)果的同時(shí),幫助觸發(fā)第三方的應(yīng)用,從而讓搜索引擎給用戶的服務(wù)能夠更加深入一步,因此,必應(yīng)也叫做執(zhí)行搜索引擎(Do Engine)[12]。

      谷歌知識(shí)圖譜和必應(yīng)實(shí)體搜索的發(fā)展,是知識(shí)圖譜技術(shù)經(jīng)過(guò)多年的積累在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用。這也引發(fā)了國(guó)內(nèi)外各個(gè)領(lǐng)域?qū)χR(shí)圖譜、知識(shí)庫(kù)技術(shù)與應(yīng)用的研究,例如大規(guī)模知識(shí)圖譜的命名實(shí)體識(shí)別與關(guān)聯(lián)構(gòu)建、知識(shí)表示與知識(shí)融合、海量知識(shí)庫(kù)的數(shù)據(jù)存儲(chǔ)等等。國(guó)內(nèi)也出現(xiàn)了一些基于知識(shí)圖譜的典型應(yīng)用,如搜狗知立方、百度知心等。

      2.4問(wèn)答型搜索引擎

      問(wèn)答型搜索引擎是一種特殊的搜索引擎。谷歌、必應(yīng)、百度等搜索引擎給用戶提供的還是以提供相關(guān)網(wǎng)頁(yè)概要及鏈接為主。其背后的原理是根據(jù)關(guān)鍵詞,幫助用戶篩選出可靠的答案可能在的網(wǎng)頁(yè)。而問(wèn)答型搜索引擎則以為用戶提供精準(zhǔn)答案為目標(biāo)。需要說(shuō)明的是,問(wèn)答型搜索引擎與問(wèn)答型網(wǎng)站是兩種不同的產(chǎn)品。前者如Wolfram Research、Ask Jeeves、QUERIX,是理解問(wèn)題,自動(dòng)計(jì)算并回答。而后者則是由產(chǎn)品管理人員或者用戶回答,屬于UGC模式的一種產(chǎn)品類型,如Yahoo Answers、百度知道、知乎、AnswerBag等。

      問(wèn)答型搜索引擎底層在搜索界面上屏蔽了之前RDF搜索引擎的技術(shù)細(xì)節(jié),讓使用過(guò)程更加人性化。另外,問(wèn)答型搜索引擎集成了自然語(yǔ)言(NLP)的研究成果,讓用戶的檢索過(guò)程更加方便。一些問(wèn)答型搜索引擎為了更為準(zhǔn)確地理解用戶輸入的內(nèi)容,設(shè)置了一些句式模板。以圖3 QUERIX為例,它在用戶的提問(wèn)方式上進(jìn)行了一些限制,要求用戶要以特定的詞匯開(kāi)始提問(wèn),例如What、Which、How Many、Give Me等等。接收到用戶的輸入后,搜索引擎首先會(huì)對(duì)語(yǔ)句進(jìn)行結(jié)構(gòu)分析、語(yǔ)詞依賴性分析、實(shí)體識(shí)別,力圖“理解”用戶的真實(shí)意圖,再轉(zhuǎn)換為內(nèi)部檢索指令。以DBpedia的SPARQL Endpoint服務(wù)為例,如果我們要從維基百科中查詢“有哪些人出生在柏林”,轉(zhuǎn)換成SPARQL語(yǔ)句就是:“select ?p where{?p dbpprop:birthPlace"Berlin"@en.}”。

      筆者認(rèn)為,當(dāng)前最為杰出的問(wèn)答型搜索引擎是由沃爾夫勒姆研究公司(Wolfram Research)開(kāi)發(fā)的WolframAlpha搜索引擎。有人認(rèn)為,WolframAlpha其實(shí)是一個(gè)計(jì)算知識(shí)引擎,而不是搜索引擎。例如,如果想了解美國(guó)主要農(nóng)產(chǎn)品的信息,只需要輸入:What Are the Main Agricultural Products of U.S.,WolframAlpha給出的答案由以下幾部分組成:美國(guó)12種主要農(nóng)產(chǎn)品的名稱、美國(guó)農(nóng)業(yè)基本信息片段,包括2015年的農(nóng)產(chǎn)品附加值;主要農(nóng)產(chǎn)品類型、年度耕地面積以及氣候類型、主要肉類產(chǎn)品2006年的產(chǎn)量、主要畜牧種群特定年份的數(shù)量。圖4是其中的2個(gè)部分:

      通過(guò)對(duì)搜索結(jié)果分析,我們不難發(fā)現(xiàn)這么幾個(gè)特征:1)WolframAlpha能夠比較好地理解用戶問(wèn)題,并且可做自動(dòng)聯(lián)想,實(shí)現(xiàn)了“模糊語(yǔ)義識(shí)別”;2)返回給用戶的搜索結(jié)果不再是一堆網(wǎng)頁(yè)鏈接,而是一些很“干凈”的、經(jīng)過(guò)計(jì)算的數(shù)據(jù);3)圍繞問(wèn)題的核心答案之外,還給出了與問(wèn)題相關(guān)的答案,互相補(bǔ)充;4)每一部分答案,WolframAlpha都給出了信息的來(lái)源“Source”,方便用戶進(jìn)一步閱讀與核對(duì)。

      WolframAlpha之所以能夠提供這么直接和準(zhǔn)確的服務(wù),其核心組成部分是龐大的知識(shí)庫(kù)和基于知識(shí)的編程Wolfram語(yǔ)言。與其他搜索引擎一樣的是,WolframAlpha也擁有一個(gè)積累了30年的、從公眾的和獲得授權(quán)的資源中,發(fā)掘、建立起一個(gè)異常龐大的經(jīng)過(guò)組織,高度結(jié)構(gòu)化、關(guān)聯(lián)化的數(shù)據(jù)庫(kù)[14]。目前已經(jīng)有上千個(gè)領(lǐng)域的數(shù)據(jù)。在這個(gè)知識(shí)庫(kù)中,資源被抽取、處理成“符號(hào)”。符號(hào)表達(dá)表示所有數(shù)據(jù)、公式、代碼、圖形、文檔、界面等,都可以被計(jì)算[15]。圖5是Wolfram知識(shí)庫(kù)的領(lǐng)域與數(shù)據(jù)類型。

      而Wolfram語(yǔ)言則是操作這些知識(shí)和符號(hào)的強(qiáng)大工具。Wolfram語(yǔ)言是一種基于知識(shí)、符號(hào)編程、自然語(yǔ)言風(fēng)格的編程語(yǔ)言,其結(jié)果則表現(xiàn)為一系列函數(shù)[17]。每個(gè)函數(shù)從不同的角度來(lái)處理信息,形成不同的效果。例如獲取西歐各個(gè)國(guó)家的首都函數(shù)是:

      在WolframAlpha系統(tǒng)中,“世界是可表示的,世界是可計(jì)算的”[18]。據(jù)統(tǒng)計(jì),在其產(chǎn)品Mathematica中就有約5 000個(gè)函數(shù)。不僅如此,Wolfram面向互聯(lián)網(wǎng)開(kāi)放其編程語(yǔ)言,提供培訓(xùn)課程和知識(shí)庫(kù)接口。用戶通過(guò)Wolfram語(yǔ)言獲取知識(shí)庫(kù)反饋的相應(yīng)結(jié)果,并嵌到自己的頁(yè)面中來(lái),“使得對(duì)任何信息的計(jì)算在任何地方都變成可能”[19]。

      3結(jié)論

      從分類目錄導(dǎo)航到海量網(wǎng)頁(yè)關(guān)聯(lián)再到細(xì)粒度的知識(shí)實(shí)體抽取,伴隨著互聯(lián)網(wǎng)的發(fā)展,搜索引擎也從第一代進(jìn)化到了第三代。在這個(gè)過(guò)程中,搜索引擎變得越來(lái)越龐大,需要囊括的輔助性內(nèi)容也越來(lái)越多:知識(shí)實(shí)體抽取與攝入、結(jié)構(gòu)化知識(shí)的組織、自然語(yǔ)言理解、海量?jī)?nèi)容的存儲(chǔ)等等。簡(jiǎn)簡(jiǎn)單單的檢索框后面蘊(yùn)含了極其復(fù)雜的機(jī)制?!八阉鳌币辉~似乎已經(jīng)不能很好地概括搜索引擎的核心特征了。搜索引擎的服務(wù)也從互聯(lián)網(wǎng)初創(chuàng)時(shí)候的“求全”發(fā)展到大數(shù)據(jù)時(shí)代的“求準(zhǔn)”。我們無(wú)法判斷在下一個(gè)十年里,搜索引擎會(huì)以什么方式出現(xiàn),但是我們可以知道的是搜索引擎的發(fā)展不會(huì)停歇,而是會(huì)以更加“鯨吞”的態(tài)勢(shì)將互聯(lián)網(wǎng)的精英技術(shù)和理念收攬其中,如人工智能、語(yǔ)音識(shí)別、知識(shí)計(jì)算等。搜索引擎將在人們的學(xué)習(xí)、生活中發(fā)揮更加突出的作用,融合地也更加緊密。

      參考文獻(xiàn)

      [1]百度知道.互聯(lián)網(wǎng)的發(fā)展歷程是怎樣的?[EB/OL].https://zhidao.baidu.com/question/43968610.html,2018-06-12.

      [2]外電精選.Bing推實(shí)體搜索:理解+執(zhí)行[EB/OL].http://it.sohu.com/20140331/n397476194.shtml,2018-06-12.

      [3]ReadWriteWeb.com.Google、微軟和雅虎宣布合作推出Schema.org[EB/OL].https://www.csdn.net/article/2011-06-08/299399,2018-06-12.

      [4]Schema.org中文.Schema.org 開(kāi)始指南[EB/OL].https://schema.org.cn/docs/getstarted.html#microdata_why,2018-06-12.

      [5]Swoogle網(wǎng)站.Swoogle 檢索結(jié)果[EB/OL].http://swoogle.umbc.edu/2006/index.php?option=com_frontpage&service=search&queryType=search_swd_ontology&searchString=nano&searchStart=1,2018-06-12.

      [6]維基百科.Google知識(shí)圖譜[EB/OL].https://zh.wikipedia.org/wiki/Google知識(shí)圖譜,2018-06-12.

      [7]果殼包果核.知識(shí)圖譜:讓搜索通往答案本身[EB/OL].https://www.guokr.com/article/436628/,2018-06-12.

      [8]Barry Schwartz.Bing Improves Tax Related Search Results Before April 15th[EB/OL].https://searchengineland.com/bing-improves-tax-related-search-results-april-15th-185155,2018-06-12.

      [9]Matt McGee.Bings Satori Adds Timeline Data For About 500k Famous People[EB/OL].https://searchengineland.com/bings-satori-adds-timeline-data-500k-famous-people-184969,2018-06-12.

      [10]Barry Schwartz.Bing Snapshot Adds 150 Million New Entities & Relationships To Search Engine[EB/OL].https://searchengineland.com/bing-snapshot-adds-150-million-new-entities-relationships-search-engine-188076,2018-06-12.

      [11]Barry Schwartz.Bings Knowledge Repository,Satori,Adds More Interactive Content[EB/OL].https://searchengineland.com/bings-knowledge-repository-satori-just-got-a-lot-smarter-179800,2018-06-12.

      [12]Frederic Lardinois.Microsoft Has Big Plans For Bings Entity Engine[EB/OL].https://techcrunch.com/2014/03/30/microsoft-has-big-plans-for-bings-entity-engine,2018-06-12.

      [13]Wolframalpha.com.WolframAlpha 檢索結(jié)果[EB/OL].https://www.wolframalpha.com/input/?i=what+are+the+main+agricultural+products+of+U.S,2018-06-12.

      [14]百度百科.WolframAlpha百度百科詞條[EB/OL].https://baike.baidu.com/item/WolframAlpha/5286902,2018-06-12.

      [15]Wolframalpha.com.WolframAlpha原理和概念[EB/OL].http://www.wolfram.com/language/principles/,2018-06-12.

      [16]Wolframalpha.com.Wolfram Data Repository[EB/OL].https://datarepository.wolframcloud.com/,2018-06-12.

      [17]36kr網(wǎng)站.革命性的基于知識(shí)編程語(yǔ)言Wolfram發(fā)布第一個(gè)演示[EB/OL].http://36kr.com/p/209963.html,2018-06-12.

      [18]360百科.Wolfram語(yǔ)言[EB/OL].https://baike.so.com/doc/7879585-8153680.html,2018-06-12.

      [19]Wolframalpha.com.關(guān)于Wolfram Research[EB/OL].http://www.wolfram.com/company/background.html,2018-06-12.

      (責(zé)任編輯:陳媛)

      猜你喜歡
      搜索引擎互聯(lián)網(wǎng)
      “互聯(lián)網(wǎng)+”環(huán)境之下的著作權(quán)保護(hù)
      今傳媒(2016年9期)2016-10-15 22:15:57
      “互聯(lián)網(wǎng)+”對(duì)傳統(tǒng)圖書(shū)出版的影響和推動(dòng)作用
      今傳媒(2016年9期)2016-10-15 22:09:11
      從“數(shù)據(jù)新聞”看當(dāng)前互聯(lián)網(wǎng)新聞信息傳播生態(tài)
      今傳媒(2016年9期)2016-10-15 22:06:04
      互聯(lián)網(wǎng)背景下大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練項(xiàng)目的實(shí)施
      考試周刊(2016年79期)2016-10-13 23:23:28
      以高品質(zhì)對(duì)農(nóng)節(jié)目助力打贏脫貧攻堅(jiān)戰(zhàn)
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
      基于Nutch的醫(yī)療搜索引擎的研究與開(kāi)發(fā)
      廣告主與搜索引擎的雙向博弈分析
      知識(shí)漫畫(huà)
      德安县| 恩施市| 丰都县| 祁连县| 尚义县| 辽中县| 双流县| 苗栗市| 七台河市| 长寿区| 陕西省| 磐石市| 百色市| 平定县| 宿州市| 临沭县| 从江县| 五台县| 包头市| 康平县| 且末县| 稻城县| 普兰县| 麟游县| 嵊州市| 瑞丽市| 阳朔县| 林芝县| 铜山县| 兴宁市| 昭通市| 靖安县| 方山县| 论坛| 潮州市| 黎平县| 昌图县| 都匀市| 鄂托克前旗| 高雄县| 宜黄县|