文/楊福建
在大數(shù)據(jù)時代影響下,機器學(xué)習(xí)發(fā)展主要包括兩個研究方向,其一為學(xué)習(xí)機制,重點在于模擬人類學(xué)習(xí)機制。其二為有效信息利用,重點在于從大數(shù)據(jù)庫中進行潛在知識的深入挖掘。在現(xiàn)代大數(shù)據(jù)環(huán)境發(fā)展下,分析相關(guān)數(shù)據(jù)已經(jīng)成為各個行業(yè)發(fā)展的重要方向,在此過程中,機器學(xué)習(xí)能夠迅速吸收知識,推動機器學(xué)習(xí)得到更高程度的發(fā)展。在目前大數(shù)據(jù)環(huán)境影響下,如何更為科學(xué)的應(yīng)用學(xué)習(xí)手段是實現(xiàn)機器學(xué)習(xí)的重要目的,相關(guān)工作人員必須對其加強重視,為了對其具有更為明確的認知,特此展開本次研究。
監(jiān)督學(xué)習(xí)具體是基于提前設(shè)定的學(xué)習(xí)準則,例如要求分類精度最高或均方誤差最小,通過科學(xué)應(yīng)用學(xué)習(xí)算法對其學(xué)習(xí)模型中的相關(guān)參數(shù)進行有效調(diào)整,最終目的是獲得最優(yōu)模型,以此為基礎(chǔ),對其新樣例的類標進行科學(xué)預(yù)測,輸出內(nèi)標概率分布。通常情況下學(xué)習(xí)模型具體包括貝葉斯分類器,邏輯回歸,決策樹,支持向量機,神經(jīng)網(wǎng)絡(luò)等多種類型。通常情況下,在進行學(xué)習(xí)模型訓(xùn)練集中過程中就要開始應(yīng)用數(shù)值分析或優(yōu)化方法。例如,在支持向量機內(nèi),需要科學(xué)應(yīng)用二次優(yōu)化方法,而在神經(jīng)網(wǎng)絡(luò)內(nèi),則需要應(yīng)用梯度優(yōu)化方法。
在學(xué)習(xí)過程中,無監(jiān)督學(xué)習(xí)通常沒有可利用信息,無監(jiān)督學(xué)習(xí)在具體工作過程中用于處理特征,不對其監(jiān)督信號進行操作,與密度估計具有極為緊密的聯(lián)系,例如,學(xué)習(xí)從數(shù)據(jù)分布中進行相關(guān)樣本聚類,尋找數(shù)據(jù)分布流形和采樣等相關(guān)工作時,無監(jiān)督學(xué)習(xí)的具體工作任務(wù)在于尋找相關(guān)數(shù)據(jù)的最佳表示,在此過程中,針對不同問題,“最佳”所體現(xiàn)的含義也存在很大程度的差異性,例如在分析主成分時,最佳的含義是尋求表達數(shù)據(jù)最優(yōu)投影子空間。對于流行學(xué)習(xí)而言,最佳所表達的具體含義是探尋事件真實分布的流形。聚類分析是無監(jiān)督學(xué)習(xí)最為常見的一種表現(xiàn)形式,通常是基于數(shù)據(jù)自身特性科學(xué)劃分集中的數(shù)據(jù)樣例,使其形成多個簇,相對于不同簇而言,簇內(nèi)樣例具有更大的相似性,層次聚類,自組織映射和k均值聚類是最為常見的幾種聚類方法。在具體進行無監(jiān)督學(xué)習(xí)過程中,基于給定數(shù)據(jù)值科學(xué)選擇相似性度量是其極為重要的一項工作,在此過程中,具體包括基于相似性和基于距離的度量。
該技術(shù)是通過利用傳統(tǒng)機器計算弊端進行工作的新型機器學(xué)習(xí)技術(shù)。通常情況,傳統(tǒng)機器在處理數(shù)據(jù)過程中,普遍是采取損失數(shù)據(jù)形式對其未標識數(shù)據(jù)進行有效處理,在此過程中,會丟失一部分數(shù)據(jù),該種學(xué)習(xí)方法也可以在一定程度內(nèi)稱為無監(jiān)督學(xué)習(xí)。而監(jiān)督學(xué)習(xí)則具體是對已經(jīng)完成標識工作的數(shù)據(jù)進行處理。半監(jiān)督學(xué)習(xí)位于二者之間,能夠?qū)哂械赜驑俗R的數(shù)據(jù)進行有效處理,同時也可以進一步合理分類未標識數(shù)據(jù),并對其重新進行處理,進而對未標識數(shù)據(jù)中有用部分進行科學(xué)分類,確保回收利用相關(guān)數(shù)據(jù),進而確保相關(guān)數(shù)據(jù)具有更大的利用率,同時避免出現(xiàn)數(shù)據(jù)浪費現(xiàn)象。尤其是在大數(shù)據(jù)時代發(fā)展狀況下,數(shù)據(jù)泛濫導(dǎo)致未標識數(shù)據(jù)遠遠超出標識數(shù)據(jù),如果不對其位標識數(shù)據(jù)進行重新分類梳理,會在一定程度內(nèi)浪費大量有價值的數(shù)據(jù)。
該項學(xué)習(xí)技術(shù)具體是指利用環(huán)境智能體交互,基于環(huán)境反饋學(xué)習(xí)選擇可以實現(xiàn)最終學(xué)習(xí)目標的動作,使其實現(xiàn)最優(yōu)。在此過程中,延遲回報與試錯搜索是其極為重要的兩項特征。在具體工作過程中,馬爾科夫決策過程理論是其學(xué)習(xí)的重要基礎(chǔ),以智能體能否基于MDP模型知識進行有效學(xué)習(xí)能夠強化學(xué)習(xí)劃分為模型相關(guān)和模型無關(guān)兩種算法。
集成不同學(xué)習(xí)系統(tǒng)的學(xué)習(xí)技術(shù)具體是指科學(xué)整合不同學(xué)習(xí)技術(shù),對現(xiàn)有學(xué)習(xí)系統(tǒng)進行合理優(yōu)化,實現(xiàn)各取所長的一項學(xué)習(xí)架構(gòu)。就發(fā)展原理而言,可以將其簡單概括為團結(jié)就是力量,無論是機器設(shè)備,還是人工作業(yè),團隊力量都是其相關(guān)工作開展的必然條件,單個學(xué)習(xí)系統(tǒng)系統(tǒng)具有更大的功能,也無法超越集成系統(tǒng)的應(yīng)用優(yōu)勢,共同使用不同機器學(xué)習(xí)系統(tǒng),不僅能夠進一步應(yīng)對目前大數(shù)據(jù)時代發(fā)展狀況下產(chǎn)生數(shù)據(jù)處理問題,也是實現(xiàn)機器學(xué)習(xí)擬人的一個重要發(fā)展方向。除此之外,在具體應(yīng)用集成學(xué)習(xí)技術(shù)過程中,現(xiàn)有學(xué)習(xí)系統(tǒng)也是不可或缺的基礎(chǔ)條件,同時,對其進行廣泛應(yīng)用也可以在一定程度內(nèi)為數(shù)據(jù)分析和處理在進一步發(fā)展提供更多的方向。
在進行機器學(xué)習(xí)過程中,通過有效學(xué)習(xí)推廣最優(yōu)方案,使其逐漸成為能夠廣泛應(yīng)用的方案是其相關(guān)工作的最終目的?;诖?,泛化能力是未來機器學(xué)習(xí)的重要發(fā)展趨勢,同時也是較為普遍的一項重要問題,哪個行業(yè)在具體應(yīng)用機器學(xué)習(xí)過程中,都在不斷提升其泛化能力。就目前發(fā)展現(xiàn)狀而言,支持向量機這一定程度內(nèi)結(jié)合了理論知識和實踐技能,是具有較高綜合性的學(xué)習(xí)方法。
在大數(shù)據(jù)時代高速發(fā)展過程中,數(shù)據(jù)產(chǎn)生的速度極其數(shù)量得到了很大程度的發(fā)展,在不同領(lǐng)域具體應(yīng)用機器學(xué)習(xí)過程中,如何實現(xiàn)機器學(xué)習(xí)速度的有效提升是其相關(guān)工作人員關(guān)注的重點問題,同時也是檢驗機器學(xué)習(xí)是否能夠高度滿足現(xiàn)代發(fā)展標準的重要條件。在對機器計算速度進行評價時,與其計算速度相關(guān)的內(nèi)容,具體包括訓(xùn)練和預(yù)測兩個方面,二者之間具有不可分割的重要聯(lián)系,前者是指對具體計算過程中獲得最優(yōu)方案的分度,而后者是指應(yīng)用最優(yōu)方案展開計算獲得結(jié)果的具體速度,二者的有效結(jié)合能夠?qū)C器計算速度進行更為科學(xué)的衡量。
對于大多數(shù)用戶而言,機器通常是在幕后進行計算過程,用戶只需要輸入相關(guān)指令,并可以獲取輸出數(shù)據(jù)內(nèi)容,但是對其數(shù)據(jù)內(nèi)容產(chǎn)生的過程,原因和方式缺乏必要的認知,導(dǎo)致用戶在面對具有更高復(fù)雜性的相關(guān)數(shù)據(jù)時,機器學(xué)習(xí)能力普遍較差,使用戶無法遵循進行有效解決,造成這種現(xiàn)象的主要原因相關(guān)人員在具體應(yīng)用機器學(xué)習(xí)算法過程中,不斷稀釋其可解釋性,對其缺乏重視,而在大數(shù)據(jù)時代高速發(fā)展的今天,靜靜的可解釋性也作為其計算學(xué)習(xí)評價體系中極為重要的一項數(shù)據(jù)考核標準。
在傳統(tǒng)機器學(xué)習(xí)算法中,通常是針對已經(jīng)標識的數(shù)據(jù)展開學(xué)習(xí),但是在我國網(wǎng)絡(luò)技術(shù)高速發(fā)展過程中,數(shù)據(jù)分析技術(shù)也得到了很大程度的提升,未標記數(shù)據(jù)為多個領(lǐng)域帶來了較大的機器學(xué)習(xí)壓力,例如醫(yī)學(xué)影像資料或垃圾郵件等。與此同時,在多個領(lǐng)域受到噪聲信息大,屬性缺失或不一致等垃圾數(shù)據(jù)不良干擾,對其相關(guān)人員正常使用影像數(shù)據(jù)造成一定程度的不良影響。例如,在開展具體工作過程中,不同樣本數(shù)據(jù)之間存在很大程度的差異,導(dǎo)致產(chǎn)生新的問題,在次過程中,需要科學(xué)應(yīng)用未標記在相關(guān)數(shù)據(jù)信息對不平衡數(shù)據(jù)和垃圾數(shù)據(jù)造成的影響進行有效處理,從而確保相關(guān)數(shù)據(jù)具有更高的使用。
在目前大數(shù)據(jù)環(huán)境影響下,研究如何降低錯誤率是機器學(xué)習(xí)算法的重要工作,而各行業(yè)與相對學(xué)科在發(fā)生錯誤時,具有不同的代價容忍度,即使是在相同行業(yè)或相同學(xué)科中進行差異化判斷,所產(chǎn)生的代價之間也存在一定的差異性。例如極其在判斷小偷入室搶劫行為時,可能會將行竊行為誤判為業(yè)主回家,或?qū)I(yè)主回家行為誤判為小偷行竊,二者代價之間具有很大的差異性。在我國傳統(tǒng)機器學(xué)習(xí)算法中,普遍需要綜合考量同等代價,在未來發(fā)展過程中,需要確保能夠更為有效的解決敏感性代價問題。在近幾年來發(fā)展過程中,部分專家在機器學(xué)習(xí)算法中引進信號相關(guān)理論和診斷分析法,代價敏感是未來機器學(xué)習(xí)算法應(yīng)用的一個重要方向。
總而言之,在實現(xiàn)機器學(xué)習(xí)過程中,監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí),強化學(xué)習(xí)和基層學(xué)習(xí)技術(shù)是其較為常見的幾種學(xué)習(xí)方法,在開展具體工作過程中必須,對其進行深入分析,與此同時,有效提升泛化能力,學(xué)習(xí)速度,學(xué)習(xí)可理解性,使用能力,敏感性問題處理能力是其未來發(fā)展的必然趨勢,能夠使其進一步滿足大數(shù)據(jù)時代發(fā)展需求,推進國家經(jīng)濟水平的有效提升,進而為我國現(xiàn)代經(jīng)濟水平和科技力量的進一步提升創(chuàng)造良好的條件,使其在未來國際競爭中占據(jù)更高優(yōu)勢。