• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大數(shù)據(jù)對于搜索引擎技術(shù)重要性的探究

    2020-12-28 02:10:22許恒源袁彩虹
    電腦知識與技術(shù) 2020年33期
    關(guān)鍵詞:大數(shù)據(jù)分析搜索引擎發(fā)展趨勢

    許恒源 袁彩虹

    摘要:搜索引擎作為人們生活工作、科研等必不可少的核心工具之一,它在很大程度上影響了人們的日常生活。在互聯(lián)網(wǎng)技術(shù)飛速發(fā)展,信息急速增長等情況下,人們需要功能更加強(qiáng)大的搜索引擎。對此,該文介紹大數(shù)據(jù)分析和搜索引擎技術(shù)相結(jié)合帶來的益處和優(yōu)勢。大數(shù)據(jù)搜索引擎技術(shù)也必然會成為搜索引擎的一個正確的發(fā)展方向,并為人們學(xué)習(xí)和生活提供更加有效的幫助。

    關(guān)鍵詞:搜索引擎;大數(shù)據(jù)分析;發(fā)展趨勢

    中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A

    文章編號:1009-3044(2020)33-0041-03

    開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):

    大數(shù)據(jù)時代已經(jīng)到來,隨著互聯(lián)網(wǎng)的不斷發(fā)展,人們無時無刻不在產(chǎn)生新的數(shù)據(jù),并且堆積新的數(shù)據(jù),人們也可以使用已經(jīng)存在的大數(shù)據(jù)分析出新的數(shù)據(jù),得到新的答案。搜索引擎在我們的現(xiàn)實生活中已經(jīng)成為不可缺少的一部分。如谷歌、百度、搜狗等這些搜索引擎已經(jīng)成為幫助人們解決問題查找答案的代名詞,并且已經(jīng)與人們的生活、學(xué)習(xí)和工作密不可分,無論是新聞、天氣、疾病、文獻(xiàn)或者某些名人的信息等人們想知道的信息,都可以從搜索引擎中得到答案。在兩大技術(shù)廣泛應(yīng)用的時候,將大數(shù)據(jù)分析技術(shù)和搜索引擎技術(shù)相結(jié)合會更有利于人們搜索自己需要的答案。本文也在此猜想的基礎(chǔ)上進(jìn)行深入探索。

    1 搜索引擎

    1.1搜索引擎的定義和發(fā)展歷史

    搜索引擎是一種計算機(jī)程序,它是特定的搜索策略,用在文件、信息記載或數(shù)據(jù)庫中進(jìn)行搜索,并且它的核心模塊一般包括爬蟲、索引、檢索和排序等。搜索引擎自身的特點包括信息查找和抓取的速度之快、挖掘信息的深度之深、檢索出的內(nèi)容具有多樣性和廣泛性等。

    摘要搜索引擎是一種工具,它根據(jù)搜索字符串,搜索引擎返回結(jié)果,這被稱為搜索引擎結(jié)果頁(SERPs)。通常情況下,搜索引擎會得到正確的結(jié)果,并顯示最相關(guān)的結(jié)果,所以搜索引擎沒有固定的規(guī)則來顯示準(zhǔn)確的結(jié)果。

    第一代搜索引擎具有的特殊要點是通過人工分類、存放網(wǎng)站的各種目錄,并且用戶可以通過多種方式尋找網(wǎng)站,因為在當(dāng)時那個互聯(lián)網(wǎng)剛剛興起的時代,那時的信息與技術(shù)和現(xiàn)在根本無法相比。代表有Yahoo。

    后來隨著網(wǎng)絡(luò)上的信息量快速增加和數(shù)據(jù)的大量出現(xiàn),第二代搜索引擎開始利用關(guān)鍵字查詢信息,基本上就是利用爬蟲技術(shù)( Crawler)等來采集信息和索引網(wǎng)站。第二代最成功的代表就是Google。

    1.2 搜索引擎的工作原理

    現(xiàn)在的搜索引擎進(jìn)行工作一般都是以下幾點:1)搜索引擎蜘蛛訪問Web,進(jìn)行網(wǎng)頁抓取;2)對抓取來的網(wǎng)頁進(jìn)行預(yù)處理然后再建立索引;3)在搜索界面進(jìn)行查詢服務(wù)。

    因為現(xiàn)代搜索引擎搜索信息的速度快范圍廣,并且檢索內(nèi)容廣泛,所以當(dāng)代搜索引擎技術(shù)基本上可以無條件滿足人們的各種各樣的數(shù)據(jù)類型的檢索,例如智能語言,不僅音頻映像圖片可以被檢索,甚至人類的指紋、面部特征等都可以被檢索。

    1.3現(xiàn)代搜索引擎的不足之處

    眾所周知,人們可以通過使用搜索引擎來獲得自己想知道的答案,但是現(xiàn)代的搜索仍然不是人們想要達(dá)到的最終目的。現(xiàn)代搜索引擎存在的不足之處有:(1)現(xiàn)代搜索引擎無法實時檢索,對信息進(jìn)行實時更新的能力比較差,主要是現(xiàn)代網(wǎng)絡(luò)信息量巨大。(2)信息無法準(zhǔn)確地分類,因為信息建立索引數(shù)據(jù)庫的同時,接觸到的信息量過于巨大,所以會導(dǎo)致分類不準(zhǔn)確。

    因此,人們在使用搜索引擎時,為了提高搜索的效率,經(jīng)常會使用一些搜索技巧,例如在Coogle搜索中使用邏輯符號搜索就是一種老套的技術(shù):利用雙引號(“”)查詢完全符合關(guān)鍵字串的網(wǎng)站、在關(guān)鍵詞的前面使用加號+就表明搜索結(jié)果中的網(wǎng)頁上必須有該關(guān)鍵字、在關(guān)鍵詞的前面使用減號一就表明在查詢結(jié)果中不能出現(xiàn)該關(guān)鍵詞。

    通過搜索引擎優(yōu)化技術(shù)SEO(Search Engine Optimization)也是一種好的方法,可以有效地提升搜索的覆蓋面,但是它還是不能準(zhǔn)確到其中最重要的一點,并且不能夠通過數(shù)據(jù)來分析搜索到的結(jié)果的其他可能性。

    2 將大數(shù)據(jù)的分析融入搜索引擎中

    2.1 大量數(shù)據(jù)堆積

    由于人們已經(jīng)到了離不開信息和數(shù)據(jù)的地步,所以大量數(shù)據(jù)開始從各個方面產(chǎn)生,并且堆積在一起。人工整理的數(shù)據(jù)主要掌握在政府部門、機(jī)關(guān)組織和一些企業(yè)手里;社交產(chǎn)生的數(shù)據(jù),例如QQ、微信等聊天數(shù)據(jù)或者是郵件、App產(chǎn)生的數(shù)據(jù);個人的云應(yīng)用產(chǎn)生的數(shù)據(jù),許多用戶現(xiàn)在已經(jīng)選擇將數(shù)據(jù)保存在云端;物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù),例如水文監(jiān)測、監(jiān)控錄像等物聯(lián)網(wǎng)應(yīng)用,每時每刻都在產(chǎn)生大量的數(shù)據(jù)?,F(xiàn)在正處于大數(shù)據(jù)的時代,人們可以輕易地利用信息技術(shù)快速地了解更多的信息。例如,用戶用手機(jī)搜索某樣?xùn)|西,數(shù)據(jù)會上傳到大數(shù)據(jù)中心,數(shù)據(jù)庫會分析信息并反饋給應(yīng)用程序,系統(tǒng)就會清楚地了解到要向不同用戶推薦的內(nèi)容。

    2.2 大數(shù)據(jù)對搜索的價值

    2.2.1 大數(shù)據(jù)分析的用途

    大數(shù)據(jù)分析基本分為可視化分析( Analytic Visualizations)、數(shù)據(jù)挖掘算法( Data Mining Algorithms)、預(yù)測性分析能力(Pre-dictive Analytic Capabilities)、語義引擎(Semantic Engines)、數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理、數(shù)據(jù)存儲、數(shù)據(jù)倉庫。

    2.2.2 將兩種技術(shù)相融合的價值

    根據(jù)筆者多方面查找的資料和對這兩種技術(shù)的分析發(fā)現(xiàn),由于現(xiàn)在人們使用的搜索引擎還無法和大數(shù)據(jù)分析深度相結(jié)合,不能更直觀地展現(xiàn)給使用者,所以沒有了解過大數(shù)據(jù)分析的人使用搜索引擎是無法查得出未來事情的,只能憑借一味地猜想。因此,需要將搜索引擎更進(jìn)一步的智能化,使抓取的網(wǎng)頁和提取的數(shù)據(jù)更加的精確,由搜索引擎自我進(jìn)行大數(shù)據(jù)分析并給出結(jié)果,這樣子在人們搜索時就可以得到更深入有效的答案,不需要人們自己去查找數(shù)據(jù)庫分析數(shù)據(jù)得出結(jié)論。即在現(xiàn)有搜索引擎的基礎(chǔ)上,增加對“大數(shù)據(jù)”處理和分析的能力。

    3 大數(shù)據(jù)分析與搜索引擎相結(jié)合的實驗研究

    大數(shù)據(jù)分析方向是分析的一個主要環(huán)節(jié),大致可以分為六種:可視化分析、數(shù)據(jù)挖掘算法、預(yù)測性分析能力、語義引擎、數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理、數(shù)據(jù)存儲,數(shù)據(jù)倉庫,它們各自都是不同的方向和特點。在搜索引擎中,文件多是以大數(shù)據(jù)集的方式出現(xiàn),根據(jù)多方搜索,我們發(fā)現(xiàn)通過在搜索引擎上只能查找到已經(jīng)存在的數(shù)據(jù)例如過去和現(xiàn)在波士頓的房價,以及波士頓各地區(qū)犯罪次數(shù),但根本無法分析到波士頓的房價的變化和各地的治安情況之間的關(guān)系,因此筆者翻閱瀏覽了國外的某個數(shù)據(jù)庫( Kaggle)并找到所需要的數(shù)據(jù)集進(jìn)行分析。找到了一個506行13列的數(shù)據(jù)集,里面包括犯罪率( CRIM: per capita crime rate bytown)、CHAS: Charles River dummy variable r_1 if tract boundsriver;0 0therwise)、LSTAT:%lower status of the population,房價(PRICE: Median value of owner-occupied homes),并使用R和MATLAB分析方法來得出各個數(shù)據(jù)之間存在的關(guān)系。在大量的實驗數(shù)據(jù)中,選擇了下面幾組數(shù)據(jù)以展開分析。

    經(jīng)過這一系列科學(xué)并有效地分析證明了房價高的地方治安較好犯罪率也較低。

    以Google開發(fā)出的軟件為例,用于數(shù)據(jù)密集型應(yīng)用的Google File System;簡化處理數(shù)據(jù)集和創(chuàng)建大規(guī)模數(shù)據(jù)集的編程模型MapReduce;用于管理和存儲大規(guī)模的非結(jié)構(gòu)化數(shù)據(jù)的BigTable;處理分布式系統(tǒng)隊列分組并且執(zhí)行任務(wù)調(diào)度的Google Workqueue等軟件,都為搜索引擎和大數(shù)據(jù)分析兩項技術(shù)相結(jié)合起到很大的作用。

    4 搜索引擎與大數(shù)據(jù)分析技術(shù)相結(jié)合的影響

    搜索引擎與大數(shù)據(jù)分析技術(shù)相結(jié)合,將搜索引擎建立在知識庫、數(shù)據(jù)庫的技術(shù)上,使搜索更加的智能化,并通過對信息進(jìn)行提取和分析,精準(zhǔn)地實現(xiàn)了智能化搜索這一特點。

    5 結(jié)論與展望

    時代進(jìn)步科技發(fā)展,搜索引擎技術(shù)也一步步的從最初分類目錄導(dǎo)航進(jìn)化到海量網(wǎng)頁關(guān)聯(lián)再更新到了細(xì)粒度的知識實體抽取,從第一代進(jìn)化到第三代,搜索引擎技術(shù)變得愈來愈成熟也更加龐大,囊括的輔助性的知識內(nèi)容也越來越多,簡簡單單的一行搜索框背后隱藏著極其復(fù)雜的機(jī)制。人們想要的是找準(zhǔn)唯一的、正確的答案,所以搜索引擎與大數(shù)據(jù)分析技術(shù)相結(jié)合是未來必不可少的、更加智能的搜索技術(shù)。若想要了解清楚在這個特殊的技術(shù)背后的原理,我們?nèi)孕枰谖磥硗度氪罅康墓ぷ鞑⒄归_更加深入的研究,僅僅做幾組實驗通過數(shù)據(jù)淺顯的證明是不夠的。我期望這一先驅(qū)性的工作可以激勵本領(lǐng)域更多的同行研究人員在此方向上開展更為相近深入的研究。讓搜索引擎將在我們以后的生活中發(fā)揮更加出色的作用,將它與我們的生活變得更加的密不可分。

    參考文獻(xiàn):

    [1]姜恩波,覃琳.基于結(jié)構(gòu)化數(shù)據(jù)的搜索引擎[J].現(xiàn)代情報,2019,39(2):66-72.

    [2]李?,?百度公司搜索引擎技術(shù)的專利分析[Jl,中國發(fā)明與專利,2019(4):99-106.

    [3)周永紅,吳芳.大數(shù)據(jù)時代搜索引擎用戶的信息安全問題研究[J].圖書館,2017(5):32-35,57.

    [4]劉波,計算機(jī)搜索引擎智能化技術(shù)探析[J].現(xiàn)代信息科技,2019(5):102-104.

    [5]龍佳,論搜索引擎的特點與發(fā)展態(tài)勢[J].電腦知識與技術(shù),2019,15(1):200-201.

    [6]方師師.搜索引擎中的新聞呈現(xiàn):從新聞等級到千人千搜[J] 新聞記者,2018(12):45-57.

    【通聯(lián)編輯:代影】

    作者簡介:許恒源(1999-),男,河南溫縣人,河南大學(xué),本科,主要研究方向為計算機(jī)科學(xué)與技術(shù);袁彩虹(1980-),女,河南開封人,河南大學(xué),講師,博士,主要研究方向為計算機(jī)視覺與深度學(xué)習(xí)。

    猜你喜歡
    大數(shù)據(jù)分析搜索引擎發(fā)展趨勢
    面向大數(shù)據(jù)遠(yuǎn)程開放實驗平臺構(gòu)建研究
    面向大數(shù)據(jù)分析的信息管理實踐教學(xué)體系構(gòu)建
    傳媒變局中的人口電視欄目困境與創(chuàng)新
    科技傳播(2016年19期)2016-12-27 14:35:21
    大數(shù)據(jù)分析的移動端在網(wǎng)絡(luò)課堂教學(xué)中的應(yīng)用
    論企業(yè)管理模式與企業(yè)管理現(xiàn)代化
    快速原型技術(shù)在機(jī)械制造中的應(yīng)用及發(fā)展趨勢
    鄉(xiāng)鎮(zhèn)配網(wǎng)規(guī)劃及未來發(fā)展趨勢
    分析我國品牌營銷的管理及發(fā)展問題
    中國市場(2016年35期)2016-10-19 01:55:52
    網(wǎng)絡(luò)搜索引擎亟待規(guī)范
    基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
    榆林市| 丹寨县| 西城区| 英德市| 芒康县| 涪陵区| 安泽县| 八宿县| 周至县| 汉川市| 镇沅| 柞水县| 同江市| 布尔津县| 溧水县| 广宁县| 江华| 怀仁县| 天台县| 云安县| 夹江县| 海安县| 蒙阴县| 遂宁市| 垫江县| 景泰县| 平陆县| 伊金霍洛旗| 临澧县| 曲靖市| 闵行区| 启东市| 翼城县| 图片| 库车县| 锦屏县| 洪江市| 康定县| 东平县| 黎城县| 微博|