孟森玥
摘要:數(shù)據(jù)、算法、計算力是人工智能發(fā)展必備三要素,其中以數(shù)據(jù)最為關(guān)鍵。文章以數(shù)據(jù)分析為切入點,闡述了人工智能與數(shù)據(jù)分析的概念、組成,論述了人工智能在數(shù)據(jù)分析中的應(yīng)用情況。
關(guān)鍵詞:人工智能;數(shù)據(jù)分析;深度學(xué)習(xí)
前言:在大數(shù)據(jù)、物聯(lián)網(wǎng)、云計算、互聯(lián)網(wǎng)等信息技術(shù)蓬勃發(fā)展過程中,圖形處理器、泛在感知數(shù)據(jù)計算平臺獲得了良好的發(fā)展機(jī)遇,為以深度神經(jīng)網(wǎng)絡(luò)、知識問答、數(shù)據(jù)分析算法、圖像分類等為代表的人工智能技術(shù)發(fā)展提供了充足的驅(qū)動力。近幾年,人工智能技術(shù)大幅跨越了科學(xué)與應(yīng)用之間的“技術(shù)鴻溝”,在數(shù)據(jù)分析方面也實現(xiàn)了從“不能用、不好用”到“可以用”的技術(shù)突破?;诖?,探究人工智能在數(shù)據(jù)分析中的應(yīng)用非常必要。
一、人工智能與數(shù)據(jù)分析
1、人工智能
在計算機(jī)科學(xué)領(lǐng)域,人工智能又可稱之為機(jī)器智能,即以機(jī)器為展示載體的智能,是一種與人類、動物展示的自然智能相對的概念[1]。在通俗意義上,人工智能特指用于描述模仿人類思維或與人類思維相關(guān)聯(lián)的“認(rèn)知”功能的機(jī)器,比如“學(xué)習(xí)”、“解決問題”等。從組成上來看,人工智能可以劃分為人類啟發(fā)型、分析型、人性化人工智能三種不同類型。從研究問題上來看,人工智能領(lǐng)域不僅涉足了推理、學(xué)習(xí)、感知能力,而且包括數(shù)據(jù)統(tǒng)計方法、規(guī)劃、只是表示以及智能符號計算能力。
2、數(shù)據(jù)分析
數(shù)據(jù)分析是一個清理、檢查、轉(zhuǎn)換、構(gòu)建數(shù)據(jù)模型的過程,旨在發(fā)現(xiàn)富有價值的信息、獲得結(jié)論、助力決策下達(dá)。數(shù)據(jù)分析領(lǐng)域涵蓋了多種名稱下的多種技術(shù),可以在科學(xué)、商業(yè)、社會領(lǐng)域發(fā)揮功效。比如,在商業(yè)領(lǐng)域,利用數(shù)據(jù)分析可以提高決策下達(dá)科學(xué)性,助力企業(yè)有效運營。
在通俗意義上,數(shù)據(jù)分析主要是獲得原始數(shù)據(jù)并將原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換,形成對用戶決策富有價值信息的過程。包括數(shù)據(jù)要求、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)清理、探索性數(shù)據(jù)分析、建模和算法、數(shù)據(jù)產(chǎn)品、通訊幾個環(huán)節(jié)。
二、人工智能在數(shù)據(jù)分析中的應(yīng)用措施
1、基于數(shù)據(jù)和算法的系統(tǒng)
人工智能開啟了一次數(shù)據(jù)再生產(chǎn)的革命,其不僅可以在短時間內(nèi)扁平化行業(yè)鴻溝,代替數(shù)據(jù)分析行業(yè)經(jīng)驗規(guī)則,而且會產(chǎn)生大量新的數(shù)據(jù)分析經(jīng)驗,創(chuàng)造出更多新的數(shù)據(jù)價值?;跀?shù)據(jù)和算法的系統(tǒng)是人工智能在數(shù)據(jù)分析領(lǐng)域主要用工具,相較于常規(guī)靜態(tài)策略+人工干預(yù)手段而言,基于數(shù)據(jù)和算法的系統(tǒng)是以數(shù)據(jù)+系統(tǒng)的方法為基礎(chǔ),拋棄數(shù)據(jù)分析經(jīng)驗+程序的方式。比如,提出于18世紀(jì)的貝葉斯算法就實現(xiàn)了對客觀事物規(guī)律化數(shù)據(jù)的精確數(shù)學(xué)推理演繹。通過將任何行業(yè)數(shù)據(jù)所攜帶特征進(jìn)行工程處理,轉(zhuǎn)化為數(shù)學(xué)問題后進(jìn)行分析解決[2]。再如,谷歌團(tuán)隊利用隱馬爾可夫算法,進(jìn)行人類語言模型學(xué)習(xí),構(gòu)建了以隱馬爾可夫算法為基礎(chǔ)的語音識別模型。這一語音識別模型是一個具有代表性的數(shù)據(jù)+算法替代規(guī)則,再可以通過分析文本前后分布邏輯概率,結(jié)合大規(guī)模文章學(xué)習(xí)經(jīng)驗,實現(xiàn)對語言知識以及行為運動姿態(tài)的自動學(xué)習(xí)。
基于算法和數(shù)據(jù)的人工智能系統(tǒng)強(qiáng)調(diào)數(shù)據(jù)深入淺出分析。以貝葉斯算法應(yīng)用為例,已知在200個人有40個人得了流感,而90%患流感的患者可以檢測出陽性,9.0%未患流感的人也可以檢測出陽性。此時,在條件、答案已知的情況下,就可以計算條件概率P(結(jié)果陽性|健康人)=9.0%,此時,貝葉斯公式就可以表示為P(得流感|結(jié)果陽性),結(jié)合條件在結(jié)果為陽性的人的范圍內(nèi)進(jìn)行概率分析,即流感患者陽性人數(shù)與結(jié)果陽性總?cè)藬?shù)的比值。其中流感患者陽性人為:200×40%×90%;而結(jié)果陽性總?cè)藬?shù)為:(0.4×0.9+1.6×0.09)×200。
2、基于深度學(xué)習(xí)的數(shù)據(jù)分析
機(jī)器學(xué)習(xí)是實現(xiàn)人工智能的一種方法和一個途徑,其強(qiáng)調(diào)算法從數(shù)據(jù)中開展學(xué)習(xí),在分析數(shù)據(jù)過程中尋找一種可擬合相關(guān)數(shù)據(jù)的模型,達(dá)到使用相關(guān)模型對未知數(shù)據(jù)進(jìn)行預(yù)先估測的目的。深度學(xué)習(xí)則是在2012年后數(shù)據(jù)量急劇增加、計算能力迅速提升背景下出現(xiàn)的一種機(jī)器學(xué)習(xí)新算法,其使用的方法類似于機(jī)器學(xué)習(xí),但更為注重通過深度神經(jīng)我昂立進(jìn)行數(shù)據(jù)特征的分析、學(xué)習(xí)、表達(dá)。
以深度學(xué)習(xí)在時空大數(shù)據(jù)(圖1)分析中的應(yīng)用為例,時空大數(shù)據(jù)是指同時具有時間屬性、空間屬性的數(shù)據(jù),比如,GPS定位數(shù)據(jù)、滴滴網(wǎng)約車訂單數(shù)據(jù)、人口密度數(shù)據(jù)等。由于時空大數(shù)據(jù)在時間、空間上均具有關(guān)聯(lián),且存在平移動態(tài)變化特征,數(shù)據(jù)源影響因素多種多樣,對于數(shù)據(jù)源整合、分析提出了較大的挑戰(zhàn),傳統(tǒng)圖像分類、機(jī)器翻譯方法并無法實現(xiàn)時空大數(shù)據(jù)分析。而利用人工智能領(lǐng)域的深度學(xué)習(xí)工具,可以抓住時空的關(guān)聯(lián)性,將多數(shù)據(jù)源不同質(zhì)因子進(jìn)行有機(jī)整合,拓展分析,解決數(shù)據(jù)缺失、噪聲過大對數(shù)據(jù)分析的不利影響。比如,在分析一個區(qū)域未來一段時間內(nèi)網(wǎng)約車叫車訂單不會被滿足的極限問題時,可以利用深度學(xué)習(xí)的數(shù)據(jù)特征提取能力,將訂單數(shù)據(jù)、天氣數(shù)據(jù)、日期數(shù)據(jù)、位置數(shù)據(jù)進(jìn)行整合,形成一個深度學(xué)習(xí)框架,在框架內(nèi)具有多個模塊,每一個模塊負(fù)責(zé)處理不同類型的數(shù)據(jù)[3]。
如圖2所示,Environment part負(fù)責(zé)處理環(huán)境信息,而order part則負(fù)責(zé)進(jìn)行訂單數(shù)據(jù)處理,Identify part負(fù)責(zé)處理時間數(shù)據(jù),并利用一個residual link(殘差連接)將多模塊整合,最終實現(xiàn)端到端數(shù)據(jù)源信息預(yù)測分析。
總結(jié):
綜上所述,人工智能是多個學(xué)科的知識融合,而數(shù)據(jù)分析是人工智能的主要應(yīng)用領(lǐng)域,只有切實將人工智能應(yīng)用到數(shù)據(jù)分析領(lǐng)域,才可以保證人工智能的可持續(xù)發(fā)展。因此,在利用人工神經(jīng)網(wǎng)絡(luò)、基于概率學(xué)的方法、搜索和數(shù)學(xué)優(yōu)化等人工智能工具進(jìn)行數(shù)據(jù)分析的基礎(chǔ)上,應(yīng)從人與機(jī)器之間數(shù)據(jù)交互入手,進(jìn)行人工智能的恰當(dāng)應(yīng)用,以便在短時間內(nèi)扁平化數(shù)據(jù)分析領(lǐng)域的壁壘,構(gòu)建新的人工智能作用發(fā)揮鏈,為智能文明新紀(jì)元的開啟奠定基礎(chǔ)。
參考文獻(xiàn):
[1]李國良,周煊赫.面向AI的數(shù)據(jù)管理技術(shù)綜述[J].軟件學(xué)報,2021(01):21-40.
[2]陳翠娟.改進(jìn)的多項樸素貝葉斯分類算法和Python實現(xiàn)[J].景德鎮(zhèn)學(xué)院學(xué)報,2021(03):92-95.
[3]孔繁鈺,周愉峰,陳綱.基于時空特征挖掘的交通流量預(yù)測方法[J].計算機(jī)科學(xué),2019(07):322-326.