宋開元
(鄭州旅游職業(yè)學院,河南 鄭州 451464)
網絡社會的深入發(fā)展使得每天誕生的數(shù)據(jù)量十分龐大,如何借助這些數(shù)據(jù)良好的為人類社會發(fā)展服務是當前信息產業(yè)關注的重點問題。機器學習算法是隨著計算機技術的快速發(fā)展而產生的一種全新的數(shù)據(jù)處理方式,可以確保計算機能夠具備人類一樣的學習能力,而這也為有效處理規(guī)模龐大的信息數(shù)據(jù)提供了技術支持[1]。本文通過探討研究數(shù)據(jù)分類中機器學習算法的有效應用具備著十分重要的現(xiàn)實價值。
機器學習是一門包含多個領域專業(yè)知識的交叉學科,具體涉及到概率學統(tǒng)計學、算法復雜理論等多門學科,主要是負責研究如何讓計算機模擬以及學習人類的學習行為,從而在獲取全新知識和技能的基礎上持續(xù)優(yōu)化自身的性能。
機器學習算法作為人工智能技術的核心,是確保計算機能夠具備智能化特征的根本途徑。機器學習算法的基本前提條件是算法訓練,通過輸入特定的數(shù)據(jù)信息并預測出在某一個頻率區(qū)間內的具體數(shù)值[2]。構建機器學習算法的過程也被人們稱之為機器學習算法的預測建模。在人們有效掌握這一機器學習算法模型的前提下,可以直接對原始類型的機器學習算法進行有效的分析,并將之應用到新數(shù)據(jù)的分析工作中,挖掘出其中具有價值的信息。機器學習用于數(shù)據(jù)分類任務完成的算法被稱為分類器,這一分類器的關鍵評價指標就是準確率。簡單而言,就是在使用這一分類器進行數(shù)據(jù)分類操作之后,所獲得的正確數(shù)據(jù)占據(jù)數(shù)據(jù)總體數(shù)量的占比。機器學習算法的基本構建步驟包含了訓練模型的構建、驗證數(shù)據(jù)的輸入以及算法的具體應用三方面。
監(jiān)督學習,是機器借助帶有標簽的數(shù)據(jù),輔助整個學習過程,最終達成學習目標的一種行為。這一機器學習方式,在經過諸多專家學者陸續(xù)實踐之后,其效果得到了證明,但需要注意的一點是,帶有標簽的數(shù)據(jù)是其學習必須的因素,直接拉高了整個機器學習過程的成本投入。初始數(shù)據(jù)對于機器學習進行的價值不言而喻,故此,初始數(shù)據(jù)必須在機器學習開始之前,進行全面的收集、分析。這類機器學習具備的最為顯著的優(yōu)勢就是機器原初的泛化能力能夠得到全面發(fā)揮,繼而有效解決數(shù)據(jù)的分類以及回歸的問題[3]。這一學習方式中使用頻率相對較高的算法包括了神經網絡以及邏輯回歸的等,且特征標注始終都是計算機訓練過程需要圍繞的核心。監(jiān)督可以幫助機器有效獲取劃分不同食物的能力,并能夠預測帶有規(guī)則以及規(guī)律性的數(shù)據(jù)。
在機器學習過程中,無監(jiān)督學習是一種更為先進的方式,這一方式是借助計算機原初的自動功能自主按照程序設定完成整個學習過程,同時能夠在有效利用各類數(shù)據(jù)的前提下,自行完善吸收知識點的過程中,也正因如此,該類學習方式的成本投入是完全可控的,該種學習方式無需要較高的資金成本投入,具備著良好的經濟性。但這種學習方式經過相關的實際研究證明其效率相對較低。在未標記樣本數(shù)據(jù)的前提下,機器通常不會進入訓練狀態(tài),這一方式本身最為突出的優(yōu)點在于機器能夠與人類一樣自動學習所學的知識,確保其知識的獲取行為具有較強的針對性[4]。這種學習方式中使用頻率相對較高的算法包括了自動編碼器、深度執(zhí)行網絡等。這種機器學習方式本身能夠在解決數(shù)據(jù)聚類問題的過程中取得良好的效果。
在數(shù)據(jù)分類的環(huán)節(jié)中,使用卷積神經網絡算法,從本質上來看,就是將處于整個分類模型底層的數(shù)據(jù)視作字符序列,并在卷積層始終得到有效控制的前提下,做到從內容的不相關字符中有效提煉出特征數(shù)據(jù)[5]。在數(shù)據(jù)分類工作具體執(zhí)行的過程中,卷積神經網絡的運行包含了詞嵌入、深度表示、全連接層三大環(huán)節(jié)。第一個詞嵌入環(huán)節(jié),將字設定的ID序列作為輸入層的內容,以此為基礎誕生出的詞向量自然便是輸出層。同時,原初的語料庫、語序鏈模塊同樣可以作為基礎,有效使用嵌入層內應用頻率較低的學習率。一般而言,普通學習率和0.1相乘之后得到的數(shù)據(jù),便是這一較低的學習率,在此之后,便可以落實二次訓練的工作[6]。在數(shù)據(jù)分類進入深度表示這一環(huán)節(jié)之后,這一環(huán)節(jié)需要達成的目標就是單個樣本信息的有效抑制,還需在樣本數(shù)據(jù)輸出的環(huán)節(jié)中,對相關的數(shù)據(jù)進行高度的壓縮處理。因為容量較高的網絡在訓練落實的過程中,過度擬合的發(fā)生概率較高,出于有效提高、維持測試、數(shù)據(jù)分類結果可靠性的考慮,可以在循環(huán)的神經網絡中,專業(yè)設置、指定一個垃圾或者是非垃圾數(shù)據(jù),最終形成一個帶有循環(huán)神經網絡的分類數(shù)據(jù)機器,并做到將數(shù)據(jù)壓縮描述定為向量。
位于最終輸出層、表示層之間的鏈接層就是全連接層,這也是數(shù)據(jù)分類卷積神經應用的最后一個模塊,換言之,高層數(shù)據(jù)分類機制得以妥善制定之后,能夠通過設置容量出于充足狀態(tài)的語料庫,將數(shù)量充足的特殊圖譜引入其中,將充足的數(shù)據(jù)信息提供給卷積神經網絡的學習,從而有效抵消信息不全面而產生的學習負面影響。總而言之,數(shù)據(jù)分類環(huán)節(jié)中卷積神經網絡的運用,需要針對每一批數(shù)據(jù)做出優(yōu)先的歸一化處理,并在此之后,非線性轉化這些歸一化處理數(shù)據(jù),借助卷積神經網絡得出最為精準的數(shù)據(jù)結果[7]。
支持向量機作為一種新型的機器學習算法,將統(tǒng)計學習理論作為主要的理論依據(jù),能夠在高位特征空間中解算最優(yōu)化問題,真正做到根源上解決復雜數(shù)據(jù)的分類問題。在使用支持向量機模型融合分類處理多源遙感信息的過程中,能夠在特征空間內有效連接多元信息[8]。最后便可利用支持向量機在維度特征空間中所帶有的分類自動特性聯(lián)合應用多種類型的信息,真正達成信息融合、精準分類的目標,同時,以來源各有差異的數(shù)據(jù)、輔助數(shù)據(jù)作為基礎,能夠做到精準化的分辨復雜性較高的遙感數(shù)據(jù),即便是這一機器學習方式的開發(fā)、應用,確實為復雜程度較高的數(shù)據(jù)分類落實提供了全新的技術思路,但如若樣本的數(shù)量相對不足,這一機器學習算法的可靠性就會大打折扣。在這種情況下就可以借助粒子群算法優(yōu)化支持向量機,確保最終得到的數(shù)據(jù)分類結果的可靠性[9]。在這種學習算法應用的過程中,需要以各個數(shù)據(jù)特征作為基礎建立數(shù)據(jù)處理模塊。簡單而言,就是需要在歸一化處理不同類型的數(shù)據(jù)之后,通過使用主成分分析法,將數(shù)據(jù)現(xiàn)存特征中的主要成分進行提取,并隨后建立粒子群算法優(yōu)化后的支持向量機學習算法,并以此作為基礎的數(shù)據(jù)進行分類預測,這種學習算法數(shù)據(jù)分類結果精準性有著較高的保障。
在數(shù)據(jù)科學中應用最為頻繁的算法就是邏輯回歸,這是一種將移動機械理論作為基礎,將觀測序列樣本數(shù)據(jù)作為出發(fā)點,合理選用線性、非線性的分類計算方式,對那些無法使用計數(shù)原理得出的數(shù)據(jù)分類規(guī)律做出深層的挖掘,最終實現(xiàn)后續(xù)數(shù)據(jù)變化行為精準預測目標的算法類型。在這一機器學習算法的實際應用過程中,二分類學習器是主要工具,可以借助一對一、多對多等多種策略有效的對數(shù)據(jù)進行分類處理[10]。一對一是在兩兩匹配數(shù)據(jù)中分布數(shù)據(jù)類的前提下,借助投票方式預測匹配二分類結果出現(xiàn)次數(shù)最多結果,并將之作為最終數(shù)據(jù)分類結果的方式的。其中的多對多數(shù)據(jù)分類方式是在數(shù)據(jù)分類工作的過程中,將若干類以及若他其他類分別作為正負例,通過使用糾正輸出碼等方式多次劃分若干個類別,最終便可形成若干個二分類訓練集和分類器。
機器學習算法的誕生以及持續(xù)發(fā)展對網絡時代下規(guī)模龐大的數(shù)據(jù)信息處理有著十分重要的價值。就當前的發(fā)展狀況來看,支持向量機模型、邏輯回歸以及卷積神經作為數(shù)據(jù)分類中應用最為頻繁的機器學習算法,雖然自身在數(shù)據(jù)分類的過程中或多或少存在局限性,可以通過相關技術的優(yōu)化進一步彌補其缺陷,從而有效的提高數(shù)據(jù)分類結果的精準性。