• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大數(shù)據(jù)分析方法及其在情報研究中的適用性

    2022-12-19 00:54:48薛麗惠
    科學(xué)與信息化 2022年21期
    關(guān)鍵詞:情報研究情報數(shù)據(jù)挖掘

    薛麗惠

    中國電子科技集團公司第十研究所 四川 成都 610036

    引言

    大數(shù)據(jù)分析的服務(wù)目標是“深入發(fā)現(xiàn)、分析、引導(dǎo)行動”,包括由多項工作構(gòu)成的高重復(fù)性的工作。為了確保數(shù)據(jù)的準確,通常要將各種分析方法和軟件工具相結(jié),以此使其能夠幫助工作人員更好地分析和處理海量數(shù)據(jù),提高數(shù)據(jù)分析的速度,并且從海量數(shù)據(jù)中獲取有用的信息。同時,運用大量的分析技術(shù)與軟件手段,可以提高大數(shù)據(jù)分析的精確性。然而,在大數(shù)據(jù)分析的同時,也要充分考慮到大數(shù)據(jù)的應(yīng)用,使其能夠更符合大數(shù)據(jù)的分析結(jié)論,進而凸顯其整體的實際運用價值。

    1 大數(shù)據(jù)分析的方法分類

    對于目前的大數(shù)據(jù)分析方法,學(xué)者的看法也不盡相同。對這些大數(shù)據(jù)的分析,可以分為3大類。從面向數(shù)據(jù)的角度、面向流程的角度和面向信息技術(shù)的角度進行分類。

    1.1 數(shù)據(jù)視角下大數(shù)據(jù)分析

    數(shù)據(jù)視角下的大數(shù)據(jù)分析方法的分類,主要是以數(shù)據(jù)處理的對象“數(shù)據(jù)”為基礎(chǔ),將大數(shù)據(jù)的類型、數(shù)據(jù)的總量、處理數(shù)據(jù)的方式等方面進行歸類。

    1.2 流程視角下大數(shù)據(jù)分析

    以過程為導(dǎo)向的大數(shù)據(jù)分析方法,主要是根據(jù)大數(shù)據(jù)分析的過程,將其歸類為一種較為系統(tǒng)化的方法。

    1.3 信息技術(shù)視角下大數(shù)據(jù)分析

    從信息技術(shù)角度看,大數(shù)據(jù)的分類主要集中于與大數(shù)據(jù)相關(guān)的新信息技術(shù)。以大數(shù)據(jù)處理體系結(jié)構(gòu)、計算模式和系統(tǒng)為基礎(chǔ),對大數(shù)據(jù)進行分類整合。

    2 大數(shù)據(jù)分析方法在情報研究中的適用性

    2.1 可直接移植方法

    可直接移植方法顧名思義,就是直接將數(shù)據(jù)分析的方法、原理、算法等,直接用于情報的研究。利用大數(shù)據(jù)技術(shù),實現(xiàn)對信息資源的直接加工,解決在信息研究中所面臨的有關(guān)問題[1]。由于數(shù)據(jù)分析有很多種方式,比如數(shù)據(jù)挖掘,觀點挖掘,文本挖掘,多元統(tǒng)計分析,時間序列分析,多源數(shù)據(jù)融合,這些都是可以直接用于情報分析。就像前面提到的觀點挖掘、文本挖掘、多元統(tǒng)計分析、時間序列分析、多源數(shù)據(jù)融合等,都可以直接應(yīng)用于情報領(lǐng)域。

    2.1.1 數(shù)據(jù)挖掘與文本挖掘在情報研究中的應(yīng)用。從字面意義上來說,數(shù)據(jù)挖掘和文字挖掘是2個截然不同的概念,因此它們采用了不同的發(fā)現(xiàn)技術(shù)。文本挖掘是一種利用計算機語言和統(tǒng)計學(xué)的方法來揭示文本中的詞匯和句法特點。而數(shù)據(jù)挖掘是利用計算機數(shù)據(jù)庫中的大量數(shù)據(jù)作為數(shù)據(jù)挖掘的基礎(chǔ),通過對大量數(shù)據(jù)進行挖掘,從而發(fā)現(xiàn)數(shù)據(jù)中可能存在的各種數(shù)據(jù)類型以及數(shù)據(jù)間的相關(guān)性。

    2.1.2 多元統(tǒng)計分析與時間序列分析。多元統(tǒng)計分析與時間序列分析在目前的大數(shù)據(jù)分析和情報研究中,是一種比較常用的定量分析手段。這兩種大數(shù)據(jù)的分析方法的區(qū)別是:多元統(tǒng)計分析是指兩個或更多的要素之間的相互依存和共同發(fā)展。時間序列分析是基于隨機過程和數(shù)理統(tǒng)計的方法,對大數(shù)據(jù)時代下的動態(tài)數(shù)據(jù)序列進行了研究。

    這兩種方法都有一個共同的特征,即從歷史資料的變動角度,客觀地評估某一事件的發(fā)展狀況,或?qū)δ骋皇录陌l(fā)展做出理性、客觀的評估。

    2.1.3 多源數(shù)據(jù)融合方法。多源數(shù)據(jù)融合方法與上述的大數(shù)據(jù)分析方法相比,是一種針對大數(shù)據(jù)環(huán)境中的異質(zhì)數(shù)據(jù)進行綜合處理的一種新方法,更類似于基于大數(shù)據(jù)的分析[2]。多源數(shù)據(jù)融合方法在智能領(lǐng)域的應(yīng)用,還需要借助多種技術(shù)、軟件手段,通過多方面的協(xié)作,實現(xiàn)對海量信息的綜合分析。其內(nèi)容主要有:同型異源信息、異質(zhì)信息、多語種信息的數(shù)據(jù)分析。多源數(shù)據(jù)融合,其數(shù)據(jù)分析的難度遠超以往的大數(shù)據(jù)分析,因為多源數(shù)據(jù)的收集、整理、分析、判斷等過程,都會影響到數(shù)據(jù)的分析。

    2.2 移植方法

    2.2.1 大數(shù)據(jù)環(huán)境中可用于數(shù)據(jù)處理和分析方法。目前的大數(shù)據(jù)時代,數(shù)據(jù)量呈爆炸性增長,但由于缺乏一個統(tǒng)一的標準,這將直接導(dǎo)致大量的數(shù)據(jù)質(zhì)量出現(xiàn)低效性,進而將嚴重影響大數(shù)據(jù)的分析效果,進而導(dǎo)致數(shù)據(jù)的準確性和可信度下降。為了獲得高質(zhì)量的資料,將需要對現(xiàn)有資料進行綜合分析,以取得更好的資料。這一數(shù)據(jù)的篩選主要是數(shù)據(jù)差錯的自動檢測和修復(fù)、數(shù)據(jù)處理和分析,這些方法能夠更好地提升處理數(shù)據(jù)的一致性、完整性、準確性和時效性[3]。對于大數(shù)據(jù)分析應(yīng)用于情報領(lǐng)域的應(yīng)用,其關(guān)鍵在于收集到的信息資料,并對其進行質(zhì)量控制。而大數(shù)據(jù)分析在情報應(yīng)用中的應(yīng)用,對情報材料的質(zhì)量有著舉足輕重的作用,如果在大數(shù)據(jù)分析中發(fā)現(xiàn)了不完全或不準確的信息,那么得到的情報就會有誤差,從而導(dǎo)致情報不夠準確、信息不全等問題。雖然資料的質(zhì)量由使用者決定,但若能將資料處理與分析的方式引入,將資料的不一致、遺漏、重復(fù)等問題,將會提升資料的準確率,并將其應(yīng)用于情報研究。

    2.2.2 時空數(shù)據(jù)分析。時空數(shù)據(jù)分析是對地理信息科學(xué)進行的一種研究,包括天氣預(yù)報、環(huán)境監(jiān)測、GIS、城市交通網(wǎng)絡(luò)管理等。這種分析方法在情報學(xué)中的應(yīng)用,很大程度上依賴于其所搜集資料的可信度。

    2.3 不適用的方法

    2.3.1 翻譯生物信息學(xué)分析。在大數(shù)據(jù)分析中,翻譯生物信息學(xué)分析需要更高的數(shù)據(jù)采集精度,它是一種在特殊情況下綜合大量數(shù)據(jù)資源和高效地使用生物信息的方法。同時,生物翻譯分析也能很好地解釋人和疾病的關(guān)系。從宏觀上來說,利用生物信息學(xué)進行數(shù)據(jù)分析,可以發(fā)現(xiàn)基因與疾病之間的聯(lián)系,并通過對生物信息學(xué)的分析,將其應(yīng)用到分子層次,甚至是整個人類,從而為人類的疾病提供更多的參考。

    2.3.2 學(xué)習分析方法。學(xué)習分析法是一種通過數(shù)據(jù)收集、數(shù)據(jù)分析和評價學(xué)習者的分析手段,它的終極目標是了解和優(yōu)化學(xué)習環(huán)境以及學(xué)習者所處的學(xué)習環(huán)境。根據(jù)UNESCO IITE公司的數(shù)據(jù)分析,可以根據(jù)數(shù)據(jù)挖掘的結(jié)果進行分析,包括行為分析、關(guān)聯(lián)分析和影響因子分析。盡管資料搜集是一種常用的信息處理方式,但是學(xué)習分析法的最終目的是對學(xué)習者所處的環(huán)境進行闡釋,為老師和管理者提供決策依據(jù),以逐步培養(yǎng)學(xué)生的學(xué)習習慣和提高學(xué)習效率。但由于它具有特殊的意義和適用場合,脫離了學(xué)習情境,它就會發(fā)生改變,因此其將很難移植到智能研究中去。

    3 大數(shù)據(jù)分析的常見方法

    3.1 流程視角下的大數(shù)據(jù)分析

    從流程角度看,大數(shù)據(jù)分析是一種嚴格遵循大數(shù)據(jù)分析流程的方法,從流程角度看,因為數(shù)據(jù)分析是按照一定的程序進行的,所以,整個分析過程具有較高的有序性,而且每個環(huán)節(jié)都是緊密相連的。從總體上講,大數(shù)據(jù)分析可以分成5個步驟,每個步驟都要選擇最適合的算法。①數(shù)據(jù)分析的第一步,也就是數(shù)據(jù)的來源和獲得,收集數(shù)據(jù)的時候,要從各種可以感知到的工具中提取有用的信息[4],這些信息都與時間、空間具有緊密聯(lián)系。②對數(shù)據(jù)進行清理與提取,即從不同類型的數(shù)據(jù)中提取有用的信息,并把它們轉(zhuǎn)換成結(jié)構(gòu)化的形式。③數(shù)據(jù)集成。在此過程中,將數(shù)據(jù)的結(jié)構(gòu)轉(zhuǎn)換成可閱讀或自動分析的形式。④則是對數(shù)據(jù)的解析,在對這些數(shù)據(jù)進行分析的時候,首先要找到這些數(shù)據(jù)之間的關(guān)系和規(guī)則,然后再從這些數(shù)據(jù)中挖掘出更多的信息。⑤對數(shù)據(jù)的解釋,也就是把數(shù)據(jù)轉(zhuǎn)換成一種便于讀者理解的格式,使其結(jié)果更直觀。從過程角度看,數(shù)據(jù)分析的核心技術(shù)包括神經(jīng)網(wǎng)絡(luò)、回歸分析、分類、機器學(xué)習、網(wǎng)絡(luò)分析、語言分析等。

    3.2 信息技術(shù)視角下的大數(shù)據(jù)分析

    從信息技術(shù)的角度看,大數(shù)據(jù)的分析主要是利用各種新信息技術(shù)對其進行分析。其中數(shù)據(jù)處理的基本框架是數(shù)據(jù)整合、抽取、數(shù)據(jù)分析、數(shù)據(jù)解釋等。在數(shù)據(jù)的整合與提取上,有4種方法:聯(lián)邦數(shù)據(jù)庫、物化、搜索引擎、數(shù)據(jù)流4種。在進行數(shù)據(jù)分析時,一般都是利用傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)機來進行,但由于其無法對大量的數(shù)據(jù)進行分析,因此將需要對數(shù)據(jù)進行調(diào)整,而在此類操作下將直接限制數(shù)據(jù)的應(yīng)用。同時,在數(shù)據(jù)的解讀中,還可以利用交互的數(shù)據(jù)分析和可視化技術(shù),使用戶能夠更深層度上了解信息數(shù)據(jù)。在非關(guān)聯(lián)資料的處理中,資料分析采用多維度的觀點,可以直接地對資料進行分析。

    3.3 數(shù)據(jù)視角下的大數(shù)據(jù)分析

    數(shù)據(jù)角度的數(shù)據(jù)分析,主要是基于數(shù)據(jù)的數(shù)據(jù)分析,從數(shù)據(jù)的總量、類型、數(shù)據(jù)的處理方式等方面進行分類。從數(shù)據(jù)分析的特定角度出發(fā),可以把大數(shù)據(jù)分為回顧性數(shù)據(jù)分析、標準化數(shù)據(jù)分析和預(yù)測數(shù)據(jù)分析3種類型。在回顧性的資料分析中,其研究的重點在于對資料的研究。而在預(yù)測性數(shù)據(jù)的分析中,則是以歷史資料為基礎(chǔ),通過模擬的方法來進行預(yù)測。而標準化數(shù)據(jù)分析則是指對實時數(shù)據(jù)進行分析,以引發(fā)事件。除此之外,還可以根據(jù)其他的方法來進行分類。

    4 大數(shù)據(jù)分析在情報研究中的未來發(fā)展趨勢

    4.1 情報語言發(fā)展走向交融化

    情報語言的整合包含了許多方面的內(nèi)容,隨著5G的廣泛應(yīng)用和智能社會的發(fā)展,首先,信息檢索將在國防、國家安全、高科技、商業(yè)和公共安全等領(lǐng)域發(fā)揮越來越突出的作用,競爭情報非常寶貴。其次,情報語言中的分類檢索語言、詞語檢索語言、代碼檢索語言、引文檢索語言和復(fù)合檢索語言將變得更加詳細、準確、完整和綜合。不僅涉及分類法、主題方法、分類法和主題方法之間的轉(zhuǎn)換和兼容,還涉及自然語言和受控語言的整合。識別各種信息資源的敘詞表、顯示概念之間的關(guān)系以及規(guī)范主題詞概念的術(shù)語將動態(tài)更新。提供構(gòu)建各種媒體信息資源的結(jié)構(gòu)化方法將更具適用性和易用性,并不斷推動信息語言朝著整合和傳播的方向發(fā)展。

    4.2 情報語言發(fā)展走向?qū)I(yè)化

    在科技語境下就要求情報信息更加的專業(yè)化,提高專業(yè)化就需要智能圖書館配備更加專業(yè)的知識。為了幫助不同領(lǐng)域的讀者找到相關(guān)知識,在信息檢索詞庫中,應(yīng)包換更多專業(yè)信息語言。例如,醫(yī)學(xué)專業(yè)的讀者想要搜索“阿爾茲海默癥”相關(guān)內(nèi)容,如果搜索詞條輸入為“阿爾茲海默癥”、“老年癡呆”,找到的結(jié)果將十分有限。從專業(yè)的角度分析,阿爾茲海默癥是一種神經(jīng)系統(tǒng)退行性疾病,如果僅僅以“阿爾茲海默癥”進行搜索,得到的內(nèi)容不夠全面,了解到的知識也會大打折扣。這就要求智能圖書館在幫助讀者搜索時注意聯(lián)想詞條的推送。由于檢索學(xué)科還涉及信息檢索的專業(yè)術(shù)語,即族檢索和特征檢索,因此信息語言的構(gòu)建應(yīng)考慮更好的族分類語言和具有更好特征的主題語言。專業(yè)化的推進反映了在科學(xué)技術(shù)背景下,學(xué)科、專業(yè)和產(chǎn)業(yè)之間的分工越來越細。信息檢索必須深入分析,全面準確地分類。信息語言的使用只能與學(xué)科、專業(yè)和行業(yè)等術(shù)語相關(guān)聯(lián)[5]。

    5 結(jié)束語

    在大數(shù)據(jù)時代,數(shù)據(jù)呈現(xiàn)出爆炸性的發(fā)展態(tài)勢,要使數(shù)據(jù)得到最優(yōu)化,就需要運用大數(shù)據(jù)的分析手段。本文對大數(shù)據(jù)的分析方法進行了歸納和總結(jié),從可直接移植、可調(diào)整后移植、不適合于智能研究、需要進一步加強等4個角度,對大數(shù)據(jù)分析技術(shù)在智能領(lǐng)域的適用性進行了探討。同時,還從大數(shù)據(jù)的分析方法和應(yīng)用于情報領(lǐng)域的應(yīng)用著手,切實預(yù)判未來數(shù)據(jù)分析的發(fā)展趨勢。

    猜你喜歡
    情報研究情報數(shù)據(jù)挖掘
    情報
    情報
    情報
    體育信息情報研究發(fā)展趨勢探析
    面向新階段高質(zhì)量發(fā)展的圖書情報研究(卷首語)
    探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
    基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
    電力與能源(2017年6期)2017-05-14 06:19:37
    一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
    交接情報
    基于微博的競爭情報研究
    富宁县| 安图县| 清远市| 巴塘县| 岐山县| 宿州市| 饶河县| 本溪市| 仁寿县| 原平市| 微山县| 周宁县| 台州市| 沅陵县| 桐梓县| 天峨县| 宣恩县| 盐城市| 诸暨市| 肇州县| 北辰区| 财经| 措勤县| 江孜县| 道孚县| 晋州市| 麟游县| 华宁县| 青冈县| 荔波县| 阜南县| 裕民县| 宜章县| 多伦县| 宁陵县| 商丘市| 邹城市| 射洪县| 郑州市| 四平市| 沙洋县|