全龍翔 馬行星
摘? ?要:大數(shù)據(jù)這個名詞誕生于2008年,其主要應(yīng)用于商業(yè)智能、互聯(lián)網(wǎng)、云計算,最重要應(yīng)用突出在人工智能領(lǐng)域。其主要特點是大量、高速、多樣、價值及真實性。智能搜索引擎在大數(shù)據(jù)中應(yīng)運而生,并且在不斷的發(fā)展。通過介紹智能搜索引擎的技術(shù)選型、框架結(jié)構(gòu)、技術(shù)實現(xiàn)方法及技術(shù)難點、主要系統(tǒng)功能等,分析其在大數(shù)據(jù)時代的實際應(yīng)用性能??蔀轭愃浦悄芸萍继峁┙?jīng)驗。
關(guān)鍵詞:大數(shù)據(jù);智能;搜索引擎;框架;應(yīng)用
中圖分類號:G250.74? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻識別碼:A
文章編號:1003—6199(2020)02—0170—07
Abstract:Big data was born in 2008. It is mainly used in business intelligence,Internet and cloud computing. The most important application is in the field of artificial intelligence. Its main characteristics are large quantity,high speed,diversity,value and authenticity. Intelligent search engine has emerged in large data,and is developing continuously. This paper introduces the technology selection,framework structure,technical implementation methods,technical difficulties and main system functions of intelligent search engine,and analyses its practical application performance in the era of big data. It can provide experience for similar intelligent technology.
Key words:big data;intelligence;search engine;framework;application
“大數(shù)據(jù)”這個概念最早是全球知名的一家咨詢公司“麥肯錫”提出的。它的需要更快更新的處理模式才能適應(yīng)海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型以及價值密度低。這也是其明顯的四大特征。
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義是在于能夠通過對海量數(shù)據(jù)的加工,對原有數(shù)據(jù)“增值”??梢詫⒋髷?shù)據(jù)比作一種產(chǎn)業(yè),為這種產(chǎn)業(yè)實現(xiàn)盈利。
隨著大數(shù)據(jù)時代的來臨,一些特殊技術(shù)孕育而生,例如分布式文件系統(tǒng)、云計算平臺、MPP、可擴展性的存儲系統(tǒng)、互聯(lián)網(wǎng)和數(shù)據(jù)挖掘等都適用于大數(shù)據(jù)技術(shù)。
在數(shù)據(jù)體量持續(xù)增長的情況下,智能搜索引擎的出現(xiàn)解決了傳統(tǒng)搜索引擎的搜索效率問題。通過人工智能技術(shù)的應(yīng)用,其不僅能夠完成傳統(tǒng)搜索引擎的一系列功能,且可以根據(jù)用戶的個人搜索傾向進行搜索內(nèi)容的自動識別與推送等。
1? ?智能搜索引擎的技術(shù)選型
目前的搜索技術(shù)有Lucene、Elasticsearch和Solr。
Lucene是一個開源的高性能工具包,它能夠為搜索引擎提供可擴展的搜索服務(wù),在獨立架構(gòu)設(shè)計方面,Lucene可以完成基本的全文搜索功能,卻使用起來相對復(fù)雜。所以當前主流的搜索技術(shù)有Elasticsearch和Solr兩大框架。
1.1? ?Elasticsearch介紹
相比較其它搜索引擎來說,Elasticsearch的分布式搜索功能可以有效處理龐大的搜索數(shù)據(jù),其能夠?qū)崿F(xiàn)多種搜索方式的融合應(yīng)用。雖然,該搜索引擎是基于Apache Lucene框架結(jié)構(gòu),卻依然需要利用Java輔助實現(xiàn)系統(tǒng)功能,因此,其框架結(jié)構(gòu)設(shè)計也同樣較為復(fù)雜。
為保證全文搜索功能的有效性,則需要確保其API開發(fā)的統(tǒng)一性,這里則無需了解基于Lucener內(nèi)部引擎的工作原理等相關(guān)內(nèi)容。
Elasticsearch能夠?qū)⒉煌侄渭{入搜索引擎之中,采用分布式實時搜索后,能夠處理超大體量的數(shù)據(jù)搜索任務(wù),甚至動用成百上千臺服務(wù)器處理難度更高的非結(jié)構(gòu)化數(shù)據(jù)。
1.2? ?Elasticsearch在使用中的優(yōu)缺點
a.優(yōu)點:
(1)Elasticsearch并不需要其他組件,因為它的分發(fā)是實時分布的。
(2)Elasticsearch 能夠接近實時的搜索。
(3)處理多租戶時不需要特殊配置。
(4)由于Elasticsearch采用了 Gateway 的概念,所以使得其備份更加簡單。
(5)能夠在出現(xiàn)節(jié)點故障時,自動分配其他節(jié)點替氣進行工作,保證運行通暢。
b.缺點:自動化尚顯不足。
1.3? ?Solr介紹:
Solr是最流行的企業(yè)級搜索引擎,在開源企業(yè)搜索平臺中有著較為廣泛的應(yīng)用。Solr能夠?qū)崿F(xiàn)的搜索功能有全文搜索、目標搜索、面搜索、聚類搜索,以及多文本處理等。由此可以看出,Solr的功能較為豐富,多元化的數(shù)據(jù)搜索方案具備一定的擴展功能,且最新版增加了對NoSQL的支持。