基于結(jié)構(gòu)化數(shù)據(jù)的搜索引擎

2019-03-18 02:14:32姜恩波覃琳

現(xiàn)代情報(bào) 2019年2期

姜恩波覃琳

摘要：[目的/意義]搜索引擎作為互聯(lián)網(wǎng)的核心技術(shù)與應(yīng)用之一，代表了互聯(lián)網(wǎng)發(fā)展的水平。了解當(dāng)前搜索引擎的發(fā)展情況，有利于更好地把握技術(shù)前沿動(dòng)態(tài)。[方法/過(guò)程]文章首先闡述搜索引擎的發(fā)展歷史，然后重點(diǎn)介紹基于結(jié)構(gòu)化數(shù)據(jù)的搜索引擎的原理、應(yīng)用場(chǎng)景，揭示這一類搜索引擎的特征。[結(jié)果/結(jié)論]基于數(shù)據(jù)的搜索引擎是互聯(lián)網(wǎng)發(fā)展過(guò)程中的必然結(jié)果，也是互聯(lián)網(wǎng)發(fā)展的一個(gè)亮點(diǎn)。搜索引擎會(huì)繼續(xù)將互聯(lián)網(wǎng)的精英技術(shù)和理念收攬其中，在人們的學(xué)習(xí)、生活中發(fā)揮更加突出的作用。

關(guān)鍵詞：搜索引擎;結(jié)構(gòu)化數(shù)據(jù);知識(shí)實(shí)體;互聯(lián)網(wǎng)

DOI：10.3969/j.issn.1008-0821.2019.02.008

〔中圖分類號(hào)〕G254.9〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821（2019）02-0066-07

數(shù)據(jù)是一個(gè)變化的概念。之前的數(shù)據(jù)主要是指在自然科學(xué)、社會(huì)科學(xué)研究上從自然界采集、在實(shí)驗(yàn)室產(chǎn)生的一手?jǐn)?shù)據(jù)以及基于一手?jǐn)?shù)據(jù)分析、統(tǒng)計(jì)產(chǎn)生的二手?jǐn)?shù)據(jù)，也就是我們所說(shuō)的科學(xué)數(shù)據(jù)。這可以算是數(shù)據(jù)的狹義概念。大數(shù)據(jù)時(shí)代，數(shù)據(jù)所包括的范圍更加廣泛，除了科學(xué)數(shù)據(jù)之外，還包括但不限于文本、音頻、視頻、圖片、表格等。數(shù)據(jù)無(wú)處不在，萬(wàn)物皆是數(shù)據(jù)。而本文提到的基于數(shù)據(jù)的搜索引擎是指以結(jié)構(gòu)化、細(xì)粒度的信息單元為基礎(chǔ)，進(jìn)行知識(shí)組織和語(yǔ)義搜索的搜索引擎。

1搜索引擎發(fā)展簡(jiǎn)史

搜索引擎作為第一代互聯(lián)網(wǎng)的核心技術(shù)和成功應(yīng)用，已經(jīng)和我們的學(xué)習(xí)和研究密不可分。人們幾乎已經(jīng)把谷歌、百度、必應(yīng)這些搜索引擎作為查找東西的代名詞，論文、天氣、股票、疾病、專家、旅游等等，都可以從搜索引擎里信手拈來(lái)。然而，就是這普通得再也不能普通的“你提問(wèn)——我回答”的行為背后卻蘊(yùn)含著搜索引擎領(lǐng)域不斷發(fā)展、不斷演變，從分類導(dǎo)航到基于知識(shí)庫(kù)服務(wù)的歷史軌跡。當(dāng)前，搜索引擎領(lǐng)域已經(jīng)形成了一個(gè)極為龐大的產(chǎn)業(yè)，搜索引擎優(yōu)化（SEO）成為人們推廣成果的重要途徑。大型的商業(yè)企業(yè)、學(xué)術(shù)出版商、信息服務(wù)、人工智能等領(lǐng)域都在為有一個(gè)功能強(qiáng)大，且方便易用的“搜索核”而努力探索和研究。而搜索引擎其自身也在不斷地和最新的技術(shù)相結(jié)合，滿足著大數(shù)據(jù)時(shí)代，用戶不斷攀升的需求。搜索引擎的發(fā)展就是互聯(lián)網(wǎng)進(jìn)步的標(biāo)志。

第一代搜索引擎是以雅虎、DMOZ為代表的分類導(dǎo)航搜索引擎。在那個(gè)階段，互聯(lián)網(wǎng)信息的數(shù)量和類型都遠(yuǎn)不能和現(xiàn)在相比。雅虎還能通過(guò)人工來(lái)篩選網(wǎng)頁(yè)，建立元數(shù)據(jù)信息，也就是給網(wǎng)頁(yè)“編目”，再放到合適的類別之下。而Open Directory Project（又稱Directory of Mozilla，簡(jiǎn)稱DMOZ）是互聯(lián)網(wǎng)上最大的目錄社區(qū)。嚴(yán)格來(lái)說(shuō)，第一代搜索引擎的核心服務(wù)是“組織”而不是“搜索”。

隨著互聯(lián)網(wǎng)快速發(fā)展，信息量也迅猛增長(zhǎng)。更多、更快地匯聚信息，并提供準(zhǔn)確的檢索結(jié)果，是第二代搜索引擎的目標(biāo)。第二代搜索引擎的核心技術(shù)是“采集”和“關(guān)聯(lián)”。每個(gè)搜索引擎都會(huì)有采集組件。這個(gè)組件周期性地遍歷互聯(lián)網(wǎng)。人們形象地把它們稱作網(wǎng)絡(luò)蜘蛛（Spider）、網(wǎng)絡(luò)爬蟲(chóng)（Crawler）等。評(píng)價(jià)第二代搜索引擎的一個(gè)重要指標(biāo)就是采集和索引網(wǎng)頁(yè)的速度和數(shù)量。比如谷歌一般是28天。而網(wǎng)絡(luò)爬蟲(chóng)的性能、并發(fā)性、智能性都是研究的熱點(diǎn)。

采集回了眾多的網(wǎng)頁(yè)，如何才能把內(nèi)容更加準(zhǔn)確地反饋給用戶呢？也就是說(shuō)在搜索引擎內(nèi)部，如何更好地組織這些頁(yè)面。谷歌是NSF資助的眾多搜索引擎項(xiàng)目之一。其PageRank算法的主要核心就是不僅計(jì)算文本相似度，還計(jì)算網(wǎng)頁(yè)之間的關(guān)聯(lián)度。兩個(gè)維度的疊加讓用戶不再需要頻繁翻頁(yè)就能找到自己真正的目標(biāo)。這一段時(shí)間里出現(xiàn)了很多具有實(shí)際意義的搜索引擎：Alta Vista、Lycos、Infoseek、Yahoo等，谷歌成為第二代搜索引擎中的翹楚，并且不斷推出新的功能，影響著整個(gè)互聯(lián)網(wǎng)。搜索引擎也從單一的信息組織服務(wù)發(fā)展到電子商務(wù)、新聞信息服務(wù)、個(gè)人免費(fèi)電子信箱服務(wù)等多種網(wǎng)絡(luò)服務(wù)的綜合體。

2搜索引擎向精準(zhǔn)服務(wù)的發(fā)展

二代Internet飛速發(fā)展應(yīng)該歸功于Internet的商業(yè)化。商業(yè)機(jī)構(gòu)踏入Internet這一陌生世界后，很快發(fā)現(xiàn)了它在通信、資料檢索、客戶服務(wù)等方面的巨大潛力[1]。商業(yè)機(jī)構(gòu)的加入，從各個(gè)方面推動(dòng)了互聯(lián)網(wǎng)的普及以及人們對(duì)互聯(lián)網(wǎng)的更進(jìn)一步的依賴。對(duì)于搜索引擎，人們不再滿足于僅僅提供一大堆摘要和鏈接，希望能夠得到更為精準(zhǔn)的服務(wù)。而這正是二代搜索引擎的不足。

20世紀(jì)90年代，Tim Berners Lee等人提出了“語(yǔ)義WEB”的概念，認(rèn)為互聯(lián)網(wǎng)發(fā)展的方向是由“文檔網(wǎng)絡(luò)（Web of Document）”向“數(shù)據(jù)網(wǎng)絡(luò)（Web of Data）”進(jìn)化。在“Web of Document”環(huán)境下，Html頁(yè)面是搜索引擎采集、處理和服務(wù)于用戶的基本單元。我們知道，Html頁(yè)面是一種半結(jié)構(gòu)化的組織方式，內(nèi)容和顯示模式放在一起。其次，URL兩端所關(guān)聯(lián)的是網(wǎng)頁(yè)，而頁(yè)面包含的內(nèi)容很多，不易準(zhǔn)確指向。另外，每一個(gè)頁(yè)面都可能和很多其他的頁(yè)面建立關(guān)聯(lián)。而這些頁(yè)面之間具體的關(guān)聯(lián)關(guān)系在URL里也是無(wú)法直接體現(xiàn)的。而“Web of Data”則是要在互聯(lián)網(wǎng)現(xiàn)有的內(nèi)容層面上進(jìn)行改造、優(yōu)化和重構(gòu)。改造和優(yōu)化是指對(duì)Html頁(yè)面內(nèi)容增加描述、標(biāo)注信息，形成結(jié)構(gòu)化的元數(shù)據(jù)及摘要內(nèi)容。重構(gòu)，則是指以結(jié)構(gòu)化的形式發(fā)布海量的信息，并且逐漸成為互聯(lián)網(wǎng)的基礎(chǔ)。至此，互聯(lián)網(wǎng)進(jìn)入了第3個(gè)發(fā)展階段。在這個(gè)階段，語(yǔ)義標(biāo)注、知識(shí)庫(kù)、知識(shí)組織、關(guān)聯(lián)數(shù)據(jù)和自然語(yǔ)言處理成為其突出特征。

對(duì)于搜索引擎，它以互聯(lián)網(wǎng)內(nèi)容作為處理和服務(wù)的基礎(chǔ)。前者發(fā)生了變化，自然會(huì)導(dǎo)致后者的跟隨。“Web of Data”的思想讓“搜索”的概念發(fā)生了翻天覆地的變化，由“搜索信息”向“理解搜索”轉(zhuǎn)變[2]。人們開(kāi)始基于結(jié)構(gòu)化數(shù)據(jù)的信息來(lái)改造搜索引擎。

2.1語(yǔ)義標(biāo)注（Semantic Annotation）與Schema.org

語(yǔ)義標(biāo)注是采用類RDF形式，對(duì)HTML頁(yè)面內(nèi)容進(jìn)行描述，并以“鍵值對(duì)”的方式嵌套到HTML標(biāo)簽中的一種技術(shù)手段。語(yǔ)義標(biāo)注實(shí)質(zhì)是一種隱形的內(nèi)容片段，旨在為搜索引擎的語(yǔ)義檢索和富文本摘要的顯示提供支持。搜索引擎在處理特定網(wǎng)頁(yè)的時(shí)候，除了對(duì)正文進(jìn)行例行處理外，重點(diǎn)是要對(duì)這些語(yǔ)義信息進(jìn)行識(shí)別。實(shí)現(xiàn)語(yǔ)義標(biāo)注的技術(shù)有微數(shù)據(jù)（谷歌推薦使用）、微格式、RDFa。它們的區(qū)別在于所使用的標(biāo)簽不一樣或者所嵌入的地點(diǎn)不一致，并且三者不能彼此兼容。

Schema.org是由谷歌、雅虎、必應(yīng)（Bing）和Yandex聯(lián)合推出的可用來(lái)描述互聯(lián)網(wǎng)上結(jié)構(gòu)化數(shù)據(jù)的語(yǔ)義標(biāo)注體系。簡(jiǎn)而言之，它提供了描述紛繁事物的統(tǒng)一框架。Schema.org的目標(biāo)是“改善搜索引擎的有效性，讓人們更容易地找到需要的網(wǎng)頁(yè)”[3]。Schema.org以Thing作為根節(jié)點(diǎn)，子標(biāo)簽分為4級(jí)。第一級(jí)8大類，分別是Creative Works、Intangible、MedicalEntity、Event、Organization、Person、Place、Product。第2、3、4級(jí)都是對(duì)其父級(jí)別的內(nèi)容進(jìn)行細(xì)化。每一類事物有若干屬性以及對(duì)應(yīng)的數(shù)據(jù)類型，隨著標(biāo)簽級(jí)別的加深，事物的屬性也在繼承的基礎(chǔ)上，增加本級(jí)特有的屬性。在技術(shù)上，Schema.org采用微數(shù)據(jù)作為唯一的技術(shù)實(shí)現(xiàn)方案，希望統(tǒng)一HTML標(biāo)注技術(shù)。

下面的例子來(lái)自于Schema.org中文網(wǎng)站[4]。通過(guò)對(duì)標(biāo)簽的分析，搜索引擎可以準(zhǔn)確地了解網(wǎng)頁(yè)主要是對(duì)一部電影（http：//schema.org/Movie）進(jìn)行描述。電影有兩個(gè)屬性：電影名字（Name）和導(dǎo)演（Director）。

<span>Director：<span itemprop="director">詹姆斯·卡梅隆</span> （出生于1954年8月16日）</span>

</div>

語(yǔ)義標(biāo)注是互聯(lián)網(wǎng)發(fā)展的一個(gè)方向，它為搜索引擎精準(zhǔn)服務(wù)提供基礎(chǔ)素材。從目前的應(yīng)用情況來(lái)看，語(yǔ)義標(biāo)注在國(guó)外宣傳和應(yīng)用的情況較好。國(guó)內(nèi)總體來(lái)說(shuō)還處于理論研究和小范圍使用階段。一些機(jī)構(gòu)制定了語(yǔ)義標(biāo)注體系，例如cnSchema.org。cnSchema.org是一個(gè)基于社區(qū)維護(hù)的開(kāi)放的知識(shí)圖譜Schema標(biāo)準(zhǔn)，由來(lái)自北大、清華等若干高校和研究機(jī)構(gòu)共同制定與維護(hù)。

2.2RDF搜索引擎

基于Tim Berners-Lee的“Web of Data”理念，眾多的機(jī)構(gòu)開(kāi)始以關(guān)聯(lián)開(kāi)放數(shù)據(jù)（Linked Open Data，LOD）作為一種最佳實(shí)踐來(lái)發(fā)布信息。這包括維基百科、大英圖書(shū)館書(shū)目信息、紐約時(shí)報(bào)等等。關(guān)聯(lián)數(shù)據(jù)的特征之一就是采用RDF來(lái)對(duì)信息進(jìn)行描述和組織，通過(guò)多個(gè)RDF實(shí)例來(lái)形成一個(gè)概念的數(shù)據(jù)模型。而每一個(gè)RDF實(shí)例則是由資源、屬性類型、屬性值構(gòu)成的結(jié)構(gòu)化的三元組（Triple）。三元組的架構(gòu)準(zhǔn)確地展現(xiàn)了主、賓之間的關(guān)系（謂語(yǔ)），為搜索引擎“理解”用戶意圖，提供精準(zhǔn)服務(wù)打下了基礎(chǔ)。

基于此，互聯(lián)網(wǎng)上出現(xiàn)了眾多RDF知識(shí)庫(kù)，如Yago、Freebase、DBpedia、musicBrainz等，也出現(xiàn)了基于RDF的搜索引擎。與傳統(tǒng)搜索引擎不一樣，這些搜索引擎的采集對(duì)象不是網(wǎng)頁(yè)，而是RDF三元組，如Swoogle、Falcons和Sindice等。

然而，RDF搜索引擎存儲(chǔ)的是結(jié)構(gòu)化的三元組信息，是用非常簡(jiǎn)潔的形式表達(dá)對(duì)象之間的關(guān)系。因此，這種搜索引擎的用戶主要不是面向普通用戶，而是機(jī)器。機(jī)器通過(guò)SPARQL語(yǔ)句發(fā)出請(qǐng)求，搜索引擎執(zhí)行查詢語(yǔ)句，并將結(jié)果以JSON-LD、RDF/XML、Turtle等格式返回。SPARQL是一種功能強(qiáng)大的查詢語(yǔ)言，允許應(yīng)用程序?qū)DF數(shù)

據(jù)庫(kù)進(jìn)行復(fù)雜的查詢。但是它畢竟是一種面向底層的查詢語(yǔ)言，普通用戶掌握起來(lái)有很大的困難。因此，最開(kāi)始的RDF搜索引擎存在搜索界面不友好、結(jié)果顯示界面信息不豐富和欠美觀的情況，并未走入尋常百姓家。

隨著語(yǔ)義網(wǎng)的發(fā)展，RDF數(shù)據(jù)庫(kù)越來(lái)越多，人們希望能夠充分發(fā)揮RDF三元組精準(zhǔn)描述的特性，因此，逐漸出現(xiàn)了一些能夠提供基于半自然語(yǔ)言提問(wèn)的問(wèn)答型搜索引擎（Question and Answer Search Engine）。

2.3知識(shí)圖譜（Knowledge Graph）與谷歌、必應(yīng)

作為互聯(lián)網(wǎng)搜索引擎巨頭，谷歌不斷推出新的理念、標(biāo)準(zhǔn)和產(chǎn)品。2012年5月，谷歌發(fā)布“知識(shí)圖譜（Knowledge Graph，KG）”，并且將知識(shí)圖譜加入到谷歌搜索中。知識(shí)圖譜的概念來(lái)自于上世紀(jì)60年代，知識(shí)圖譜的本質(zhì)是描述真實(shí)世界中存在的各種實(shí)體或概念及其關(guān)系的網(wǎng)絡(luò)圖。它能夠極大改進(jìn)搜索引擎的效率和效果，為智能應(yīng)用奠定基礎(chǔ)。知識(shí)實(shí)體的建設(shè)是基于數(shù)據(jù)搜索引擎的基石。實(shí)體又被稱作概念（Concept）、事物（Thing）或知識(shí)元。知識(shí)實(shí)體的數(shù)量、準(zhǔn)確性以及詳細(xì)程度決定搜索引器服務(wù)質(zhì)量的基礎(chǔ)。

谷歌知識(shí)圖譜的實(shí)體信息內(nèi)容豐富，包括且不限于CIA的世界概況，F(xiàn)reebase和維基百科[6]等。2012年谷歌知識(shí)圖譜已經(jīng)包含了超過(guò)5.70億個(gè)經(jīng)常被搜索的人、地名和事物[7]。它服務(wù)的方式類似于維基百科（Wikipedia）的InfoBox，在搜索結(jié)果頁(yè)面的右邊欄，加上了針對(duì)關(guān)鍵詞的一些結(jié)構(gòu)化描述內(nèi)容。

與谷歌進(jìn)行競(jìng)爭(zhēng)的是微軟的必應(yīng)（Bing）搜索引擎。必應(yīng)同樣也是基于細(xì)粒度知識(shí)單元的搜索來(lái)提供服務(wù)。微軟稱之為“實(shí)體搜索”（Entity Engine），其知識(shí)庫(kù)叫做Satori。與谷歌不同的是，微軟知識(shí)庫(kù)建設(shè)的方式是靠微軟自身以及眾多第三方加入[3]。2014年，必應(yīng)在其Satori中加入了關(guān)于出租車(chē)[8]、歷史名人時(shí)間履歷（Timelines）[9]和關(guān)于醫(yī)生、律師、牙醫(yī)以及房地產(chǎn)的約1.5億個(gè)實(shí)體和關(guān)系的內(nèi)容[10]。后續(xù)，必應(yīng)又陸續(xù)加入了TED演講、大學(xué)排名、歷史事件、大學(xué)開(kāi)放課程以及地名與人名的關(guān)聯(lián)等等[11]。而通過(guò)加入第三方的實(shí)體，必應(yīng)希望在為用戶提供檢索結(jié)果的同時(shí)，幫助觸發(fā)第三方的應(yīng)用，從而讓搜索引擎給用戶的服務(wù)能夠更加深入一步，因此，必應(yīng)也叫做執(zhí)行搜索引擎（Do Engine）[12]。

谷歌知識(shí)圖譜和必應(yīng)實(shí)體搜索的發(fā)展，是知識(shí)圖譜技術(shù)經(jīng)過(guò)多年的積累在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用。這也引發(fā)了國(guó)內(nèi)外各個(gè)領(lǐng)域?qū)χR(shí)圖譜、知識(shí)庫(kù)技術(shù)與應(yīng)用的研究，例如大規(guī)模知識(shí)圖譜的命名實(shí)體識(shí)別與關(guān)聯(lián)構(gòu)建、知識(shí)表示與知識(shí)融合、海量知識(shí)庫(kù)的數(shù)據(jù)存儲(chǔ)等等。國(guó)內(nèi)也出現(xiàn)了一些基于知識(shí)圖譜的典型應(yīng)用，如搜狗知立方、百度知心等。

2.4問(wèn)答型搜索引擎

問(wèn)答型搜索引擎是一種特殊的搜索引擎。谷歌、必應(yīng)、百度等搜索引擎給用戶提供的還是以提供相關(guān)網(wǎng)頁(yè)概要及鏈接為主。其背后的原理是根據(jù)關(guān)鍵詞，幫助用戶篩選出可靠的答案可能在的網(wǎng)頁(yè)。而問(wèn)答型搜索引擎則以為用戶提供精準(zhǔn)答案為目標(biāo)。需要說(shuō)明的是，問(wèn)答型搜索引擎與問(wèn)答型網(wǎng)站是兩種不同的產(chǎn)品。前者如Wolfram Research、Ask Jeeves、QUERIX，是理解問(wèn)題，自動(dòng)計(jì)算并回答。而后者則是由產(chǎn)品管理人員或者用戶回答，屬于UGC模式的一種產(chǎn)品類型，如Yahoo Answers、百度知道、知乎、AnswerBag等。

問(wèn)答型搜索引擎底層在搜索界面上屏蔽了之前RDF搜索引擎的技術(shù)細(xì)節(jié)，讓使用過(guò)程更加人性化。另外，問(wèn)答型搜索引擎集成了自然語(yǔ)言（NLP）的研究成果，讓用戶的檢索過(guò)程更加方便。一些問(wèn)答型搜索引擎為了更為準(zhǔn)確地理解用戶輸入的內(nèi)容，設(shè)置了一些句式模板。以圖3 QUERIX為例，它在用戶的提問(wèn)方式上進(jìn)行了一些限制，要求用戶要以特定的詞匯開(kāi)始提問(wèn)，例如What、Which、How Many、Give Me等等。接收到用戶的輸入后，搜索引擎首先會(huì)對(duì)語(yǔ)句進(jìn)行結(jié)構(gòu)分析、語(yǔ)詞依賴性分析、實(shí)體識(shí)別，力圖“理解”用戶的真實(shí)意圖，再轉(zhuǎn)換為內(nèi)部檢索指令。以DBpedia的SPARQL Endpoint服務(wù)為例，如果我們要從維基百科中查詢“有哪些人出生在柏林”，轉(zhuǎn)換成SPARQL語(yǔ)句就是：“select ？p where{？p dbpprop：birthPlace"Berlin"@en.}”。

筆者認(rèn)為，當(dāng)前最為杰出的問(wèn)答型搜索引擎是由沃爾夫勒姆研究公司（Wolfram Research）開(kāi)發(fā)的WolframAlpha搜索引擎。有人認(rèn)為，WolframAlpha其實(shí)是一個(gè)計(jì)算知識(shí)引擎，而不是搜索引擎。例如，如果想了解美國(guó)主要農(nóng)產(chǎn)品的信息，只需要輸入：What Are the Main Agricultural Products of U.S.，WolframAlpha給出的答案由以下幾部分組成：美國(guó)12種主要農(nóng)產(chǎn)品的名稱、美國(guó)農(nóng)業(yè)基本信息片段，包括2015年的農(nóng)產(chǎn)品附加值;主要農(nóng)產(chǎn)品類型、年度耕地面積以及氣候類型、主要肉類產(chǎn)品2006年的產(chǎn)量、主要畜牧種群特定年份的數(shù)量。圖4是其中的2個(gè)部分：

通過(guò)對(duì)搜索結(jié)果分析，我們不難發(fā)現(xiàn)這么幾個(gè)特征：1）WolframAlpha能夠比較好地理解用戶問(wèn)題，并且可做自動(dòng)聯(lián)想，實(shí)現(xiàn)了“模糊語(yǔ)義識(shí)別”;2）返回給用戶的搜索結(jié)果不再是一堆網(wǎng)頁(yè)鏈接，而是一些很“干凈”的、經(jīng)過(guò)計(jì)算的數(shù)據(jù);3）圍繞問(wèn)題的核心答案之外，還給出了與問(wèn)題相關(guān)的答案，互相補(bǔ)充;4）每一部分答案，WolframAlpha都給出了信息的來(lái)源“Source”，方便用戶進(jìn)一步閱讀與核對(duì)。

WolframAlpha之所以能夠提供這么直接和準(zhǔn)確的服務(wù)，其核心組成部分是龐大的知識(shí)庫(kù)和基于知識(shí)的編程Wolfram語(yǔ)言。與其他搜索引擎一樣的是，WolframAlpha也擁有一個(gè)積累了30年的、從公眾的和獲得授權(quán)的資源中，發(fā)掘、建立起一個(gè)異常龐大的經(jīng)過(guò)組織，高度結(jié)構(gòu)化、關(guān)聯(lián)化的數(shù)據(jù)庫(kù)[14]。目前已經(jīng)有上千個(gè)領(lǐng)域的數(shù)據(jù)。在這個(gè)知識(shí)庫(kù)中，資源被抽取、處理成“符號(hào)”。符號(hào)表達(dá)表示所有數(shù)據(jù)、公式、代碼、圖形、文檔、界面等，都可以被計(jì)算[15]。圖5是Wolfram知識(shí)庫(kù)的領(lǐng)域與數(shù)據(jù)類型。

而Wolfram語(yǔ)言則是操作這些知識(shí)和符號(hào)的強(qiáng)大工具。Wolfram語(yǔ)言是一種基于知識(shí)、符號(hào)編程、自然語(yǔ)言風(fēng)格的編程語(yǔ)言，其結(jié)果則表現(xiàn)為一系列函數(shù)[17]。每個(gè)函數(shù)從不同的角度來(lái)處理信息，形成不同的效果。例如獲取西歐各個(gè)國(guó)家的首都函數(shù)是：

在WolframAlpha系統(tǒng)中，“世界是可表示的，世界是可計(jì)算的”[18]。據(jù)統(tǒng)計(jì)，在其產(chǎn)品Mathematica中就有約5 000個(gè)函數(shù)。不僅如此，Wolfram面向互聯(lián)網(wǎng)開(kāi)放其編程語(yǔ)言，提供培訓(xùn)課程和知識(shí)庫(kù)接口。用戶通過(guò)Wolfram語(yǔ)言獲取知識(shí)庫(kù)反饋的相應(yīng)結(jié)果，并嵌到自己的頁(yè)面中來(lái)，“使得對(duì)任何信息的計(jì)算在任何地方都變成可能”[19]。

3結(jié)論

從分類目錄導(dǎo)航到海量網(wǎng)頁(yè)關(guān)聯(lián)再到細(xì)粒度的知識(shí)實(shí)體抽取，伴隨著互聯(lián)網(wǎng)的發(fā)展，搜索引擎也從第一代進(jìn)化到了第三代。在這個(gè)過(guò)程中，搜索引擎變得越來(lái)越龐大，需要囊括的輔助性內(nèi)容也越來(lái)越多：知識(shí)實(shí)體抽取與攝入、結(jié)構(gòu)化知識(shí)的組織、自然語(yǔ)言理解、海量?jī)?nèi)容的存儲(chǔ)等等。簡(jiǎn)簡(jiǎn)單單的檢索框后面蘊(yùn)含了極其復(fù)雜的機(jī)制?！八阉鳌币辉~似乎已經(jīng)不能很好地概括搜索引擎的核心特征了。搜索引擎的服務(wù)也從互聯(lián)網(wǎng)初創(chuàng)時(shí)候的“求全”發(fā)展到大數(shù)據(jù)時(shí)代的“求準(zhǔn)”。我們無(wú)法判斷在下一個(gè)十年里，搜索引擎會(huì)以什么方式出現(xiàn)，但是我們可以知道的是搜索引擎的發(fā)展不會(huì)停歇，而是會(huì)以更加“鯨吞”的態(tài)勢(shì)將互聯(lián)網(wǎng)的精英技術(shù)和理念收攬其中，如人工智能、語(yǔ)音識(shí)別、知識(shí)計(jì)算等。搜索引擎將在人們的學(xué)習(xí)、生活中發(fā)揮更加突出的作用，融合地也更加緊密。

參考文獻(xiàn)

[1]百度知道.互聯(lián)網(wǎng)的發(fā)展歷程是怎樣的？[EB/OL].https：//zhidao.baidu.com/question/43968610.html，2018-06-12.

[2]外電精選.Bing推實(shí)體搜索：理解+執(zhí)行[EB/OL].http：//it.sohu.com/20140331/n397476194.shtml，2018-06-12.

[3]ReadWriteWeb.com.Google、微軟和雅虎宣布合作推出Schema.org[EB/OL].https：//www.csdn.net/article/2011-06-08/299399，2018-06-12.

[4]Schema.org中文.Schema.org 開(kāi)始指南[EB/OL].https：//schema.org.cn/docs/getstarted.html#microdata_why，2018-06-12.

[5]Swoogle網(wǎng)站.Swoogle 檢索結(jié)果[EB/OL].http：//swoogle.umbc.edu/2006/index.php？option=com_frontpage&service=search&queryType=search_swd_ontology&searchString=nano&searchStart=1，2018-06-12.

[6]維基百科.Google知識(shí)圖譜[EB/OL].https：//zh.wikipedia.org/wiki/Google知識(shí)圖譜，2018-06-12.

[7]果殼包果核.知識(shí)圖譜：讓搜索通往答案本身[EB/OL].https：//www.guokr.com/article/436628/，2018-06-12.

[8]Barry Schwartz.Bing Improves Tax Related Search Results Before April 15th[EB/OL].https：//searchengineland.com/bing-improves-tax-related-search-results-april-15th-185155，2018-06-12.

[9]Matt McGee.Bings Satori Adds Timeline Data For About 500k Famous People[EB/OL].https：//searchengineland.com/bings-satori-adds-timeline-data-500k-famous-people-184969，2018-06-12.

[10]Barry Schwartz.Bing Snapshot Adds 150 Million New Entities & Relationships To Search Engine[EB/OL].https：//searchengineland.com/bing-snapshot-adds-150-million-new-entities-relationships-search-engine-188076，2018-06-12.

[11]Barry Schwartz.Bings Knowledge Repository，Satori，Adds More Interactive Content[EB/OL].https：//searchengineland.com/bings-knowledge-repository-satori-just-got-a-lot-smarter-179800，2018-06-12.

[12]Frederic Lardinois.Microsoft Has Big Plans For Bings Entity Engine[EB/OL].https：//techcrunch.com/2014/03/30/microsoft-has-big-plans-for-bings-entity-engine，2018-06-12.

[13]Wolframalpha.com.WolframAlpha 檢索結(jié)果[EB/OL].https：//www.wolframalpha.com/input/？i=what+are+the+main+agricultural+products+of+U.S，2018-06-12.

[14]百度百科.WolframAlpha百度百科詞條[EB/OL].https：//baike.baidu.com/item/WolframAlpha/5286902，2018-06-12.

[15]Wolframalpha.com.WolframAlpha原理和概念[EB/OL].http：//www.wolfram.com/language/principles/，2018-06-12.

[16]Wolframalpha.com.Wolfram Data Repository[EB/OL].https：//datarepository.wolframcloud.com/，2018-06-12.

[17]36kr網(wǎng)站.革命性的基于知識(shí)編程語(yǔ)言Wolfram發(fā)布第一個(gè)演示[EB/OL].http：//36kr.com/p/209963.html，2018-06-12.

[18]360百科.Wolfram語(yǔ)言[EB/OL].https：//baike.so.com/doc/7879585-8153680.html，2018-06-12.

[19]Wolframalpha.com.關(guān)于Wolfram Research[EB/OL].http：//www.wolfram.com/company/background.html，2018-06-12.

（責(zé)任編輯：陳媛）